关闭

百易AI博客

当前位置:与“真实世界应用”相关的标签

百度伐谋2.0靠系统编排夺回榜首,不刷分不取巧

百度伐谋2.0靠系统编排夺回榜首,不刷分不取巧
争议中,伐谋团队使用最新SOTA模型提交,得分64.44分,虽未超Disarray,但未使用漏洞和私有数据。MLE-Bench官方增设清洁赛道,隔离数据泄漏方法,包括Disarray。排除干扰后,坚守原则的百度伐谋2.0重回榜首。此事件隐喻AI工程化核心:在刷分的同时,探索者践行Harness Engineering,...