Agent Peak Bench
面向 Agent 落地的综合评估项目:从业务目标出发,反向生成能力评测、重复实验、失败归因、harness 设计和模型使用 cookbook。
本轮仅以 MiniMax M2.7 High 作为首个 case study;Agent Peak Bench 本身是模型无关评测体系。
产品路径
Agent Peak Bench 的入口不是 leaderboard,而是业务目标:先判断业务需要哪些模型能力,再生成 suite、campaign、失败归因和 Agent cookbook。
评估闭环
项目不追求一个孤立分数,而是把结果映射到工程设计。
| 1 | 真实任务设计 |
| 2 | 子能力观测与端到端完成率 |
| 3 | pass@k 稳定性和工具调用质量 |
| 4 | CI95、latency、context chars、schema pass rate |
| 5 | 失败归因、harness 设计与模型使用指南 |
Business Goal Product Demo
Dry-run 会把安全评审、退款自动化、续约风险三个业务 profiles 转成 3 个 benchmark scenarios,覆盖 15 个 capability items、13 个 required tools 和 8 个 forbidden side-effect tools,并检查 campaign 是否具备 r7/r30/r100 与 pass@k 置信策略。
Multi-model Dashboard Contract
新增 multi-model dashboard 展示层,用来把同一业务目标下的模型表现转成部署决策。当前公开数据中 MiniMax M2.7 High 是已实测 r7 pilot;其他模型行是 dashboard fixture,明确标注为未实测,避免把样例页面误读为真实 leaderboard。
Long-running Campaign
当前目标不是一次性 smoke test,而是持续数天到数周的实验 campaign:pilot scan、calibration cells、confirmatory boundary run。每个 cell 输出样本量、CI95、pass@k、工具精度、上下文长度、延迟分布、schema 通过率和失败归因。
主评测集
| Suite | Purpose | What It Tests |
|---|---|---|
business_goal_agent_synthesis_v1 |
商业目标驱动评测 | 从安全评审、续约风险、退款自动化、财务关账、合同红线等目标反推能力项、benchmark、agent cookbook 和模型厂商反馈。 |
enterprise_agent_landing_v3 |
企业级 Agent 端到端任务 | 潜台词理解、企业资料查询、多 MCP 工具调用、权限治理、复杂需求拆解、长任务恢复。 |
tool_skill_mcp_ablation_v3 |
工具/skills/MCP 归因 | 3 工具直连、14 工具平铺、router 分层、procedural skill 对稳定性的影响。 |
tool_return_profiles_v1 |
工具返回 profile 归因 | 短 JSON、长噪声返回、冲突证据、router bundle、权限错误、大型日志 artifact。 |
openclaw_complex_agent_tasks_v1 |
OpenClaw 风格复杂任务 | personal OS、语音生产修复、异步 GitHub、多 Agent 运营、插件治理、长期记忆安全。 |
工具返回 Profile 矩阵
MiniMax M2.7 High Live r7 Pilot
已完成 4 组 live r7 pilot,共 133 trials。r7 是 pilot,不是最终强置信结论;r30 calibration 已在远端后台运行。当前图表只展示脱敏聚合指标,不包含 API key 或原始 trace。
图中曲线是用于归因的子指标:Task score 是部分得分,Tool precision 是工具调用精度,Required-tool coverage 是必要工具覆盖率,Output schema adherence 是输出结构契约通过率。