百度伐谋2.0靠系统编排夺回榜首，不刷分不取巧

刷榜风波惊动OpenAI后，这家中国团队拿回Agent硬核榜单第一

争议之外，伐谋团队决定出手，他们换上了最新 SOTA 模型作为基础模型进行提交，最终得分：64.44 分。虽然绝对分数没有超过利用了漏洞的 Disarray，但这个成绩没有使用私有测试集的反馈信号，也没有使用外部网络数据。

3 月 23 日，MLE-Bench 官方终于做出决定，新增一个专属的清洁赛道（No Private LB），将所有具有数据泄漏嫌疑的方法（包括 Disarray）隔离，并打上警示标签。

排除了干扰项后，一直坚守实验原则、拒绝走捷径的百度伐谋 2.0 以无可争议的分数重回主榜榜首。

这场榜单名次的更迭，似乎也隐喻了 AI 工程化的核心命题：在有研究团队不断刷分的同时，也有探索者正在践行 Harness 的工程化思路，一步步攻克真实世界任务的壁垒。

伐谋 2.0 为什么能赢？

百度能够在全球顶尖智能体的角逐中拔得头筹并非偶然，答案就藏在那个让整个硅谷都在热烈讨论的新词里：Harness Engineering（系统编排工程）。

过去几年，AI 行业的竞争焦点集中在基础模型上。但人们发现，在处理真实世界复杂的工程问题时，再聪明的模型如果没有合理的系统编排与约束，还是会在长链条任务中失去方向，陷入死循环，或者产出无法落地的错误代码。

Harness Engineering 因此逐渐受人重视，其目标非常明确：从手工构建 AI 转向框架驱动的演化。

基于大模型这个「发动机」，Harness 负责管理任务的拆解、记忆存储、试错反馈、工具调用以及安全边界。已有不少 AI 专业人士认为，在未来的 AI 竞赛中，谁能构建出最优秀的 Harness 框架，谁就能真正把大模型的智力转化为生产力。

刷榜风波惊动OpenAI后，这家中国团队拿回Agent硬核榜单第一

这个前沿议题也正是百度伐谋一直以来努力的方向。

伐谋是一个让 AI 算法自主进化、寻找全局最优解的多智能体系统，旨在高效率地解决高难度的问题。它结合了大语言模型和进化搜索算法，能够解决复杂的现实世界问题。，我们已经见证了百度伐谋的技术框架和实践成果。

李彦宏曾表示，「只要问题的解法是明确可验证的，伐谋就可以模拟甚至超越顶尖的算法专家。」

在伐谋 2.0 版本上，演化策略、长程记忆机制、底层基础设施等层面又获得了全面优化。

首先，伐谋执行的是多智能体并行探索模式。在面对一个新任务时，系统首先会通过多智能体并发生成多个「初始算法解」（冷启动），将它们分发到不同的「岛屿」形成初始种群。随后进入自演化阶段，在分布式集群上利用大规模并行的变异与交叉机制持续迭代，不断向全局最优解逼近。它不需要工程师手工构建每一层能力，而是让智能体在演化中自主寻优。

其次，伐谋升级了长程记忆机制，能让智能体像人类工程师一样在长链条任务中保持思路清晰、逻辑一致。该机制解决了大模型「做着后面忘了前面」的痛点，让智能体能在真实世界复杂的工程任务中记住此前的分析、决策和中间结果。

最后，通过底层基础设施优化，伐谋实现了算法演化迭代效率的显著提升。依托百度智能云的全栈 AI 云优化，伐谋在计算资源调度、任务并行执行、容错恢复等方面做到了极致。底层的夯实，让整个庞大的系统能够「跑得稳、跑得快、跑得可靠」。

榜单是验证，产业是答案

MLE-Bench 榜单的成绩只是技术验证的一角，百度伐谋其实已经在真实物理世界里解决了很多产业难题，其中不乏一些我们想象不到的案例。

在汽车研发中，风阻系数很大程度上决定了新能源车的续航水平，但气动验证是一个困难的任务。传统方法依赖于仿真软件求解复杂的偏微分方程，单次验证可能需要耗时 10 个小时。设计师画完草图，只能像「开盲盒」一样等待工程师的反馈。

亚洲最大的独立汽车设计公司阿尔特，将其 AI 核心平台与百度伐谋进行了深度结合，通过伐谋的自我演化能力，训练出了「御风」智能预测系统。

刷榜风波惊动OpenAI后，这家中国团队拿回Agent硬核榜单第一

原本需要 10 小时的分析验证，现在仅需数分钟就能输出可视化的压力云图及风阻系数，预测误差被控制在 5% 以内。这种降维打击，直接将传统的「设计 - 验证 - 修改」串行循环，升级成「边设计、边验证」的并行协同，整车研发周期直接缩短了 25%。

数字银行的核心护城河是风控，而风控的生命线在于「特征挖掘」。中信百信银行将伐谋智能体引入了核心风控体系。在这里，伐谋作为一位不知疲倦的「策略演化大师」，利用高维数据感知能力，7×24 小时在海量数据中挖掘风险特征，在极短时间内达到了专业数据工程师的水平。

实战结果令人瞩目：伐谋不仅将特征挖掘效率提升了 100%，还精准抓取到了人类极易忽略的高价值特征，使风控模型的风险区分度提升了 2.41%。这意味着银行能在可控风险内更精准地筛选出优质客户，拓宽普惠金融的边界。

更进一步，伐谋解决复杂问题的能力不仅落地在工业上，也在推动前沿科研范式的升级。

北京工业大学将百度伐谋引入到了中国空间站微型空气质量监测设备的研发中。面对核心部件「气相色谱柱」的流场均匀性难题，伐谋通过自我演化打破了人类常规的设计极限，找出了更小构型、更紧密排列的最优解，极大提升了气体分离效率。

天津大学则将其应用于灾害预测与预警模型选优（如滑坡位移预测、结构面岩爆）。过去依赖人工串行试验、动辄以「周」为单位的选优周期，被伐谋直接压缩到了 6 个小时。

通过 AI 的帮助，人类专家终于得以从枯燥的手动试错中解放出来，回归科研的本质 —— 定义科学问题、产出新规律。而那些最困难、最耗时的算法演化与庞杂计算，正在全面交由智能体去完成。

结语

从百度伐谋的实践我们或许可以看出，Harness Engineering 正在成为下一代 AI 工程化的分水岭。

通过大量实际任务的验证，伐谋证明了一套完整的 AI 智能体架构，不再需要人类工程师去手工编写每一层规则，而是可以放手让其在自我演化中寻找最优解。

当 AI 竞赛从模型层卷向框架层，国内 AI 团队在实践领域的持续深耕正在定义工程化的范式。新一代的生产力，正在真实战场上解决「最难的问题」。

百易AI博客

百度伐谋2.0靠系统编排夺回榜首，不刷分不取巧

推荐文章