Agent Peak Bench

面向 Agent 落地的综合评估项目:从业务目标出发,反向生成能力评测、重复实验、失败归因、harness 设计和模型使用 cookbook。

本轮仅以 MiniMax M2.7 High 作为首个 case study;Agent Peak Bench 本身是模型无关评测体系。

Product DemoPASS
Business Profiles3
Capability Items15
Forbidden Tools8

产品路径

Agent Peak Bench 的入口不是 leaderboard,而是业务目标:先判断业务需要哪些模型能力,再生成 suite、campaign、失败归因和 Agent cookbook。

Product demo 是确定性 dry-run,不调用模型;它验证项目工作流本身是否完整。

评估闭环

项目不追求一个孤立分数,而是把结果映射到工程设计。

1真实任务设计
2子能力观测与端到端完成率
3pass@k 稳定性和工具调用质量
4CI95、latency、context chars、schema pass rate
5失败归因、harness 设计与模型使用指南

Business Goal Product Demo

Dry-run 会把安全评审、退款自动化、续约风险三个业务 profiles 转成 3 个 benchmark scenarios,覆盖 15 个 capability items、13 个 required tools 和 8 个 forbidden side-effect tools,并检查 campaign 是否具备 r7/r30/r100 与 pass@k 置信策略。

Agent Peak Bench business-goal product demo

Multi-model Dashboard Contract

新增 multi-model dashboard 展示层,用来把同一业务目标下的模型表现转成部署决策。当前公开数据中 MiniMax M2.7 High 是已实测 r7 pilot;其他模型行是 dashboard fixture,明确标注为未实测,避免把样例页面误读为真实 leaderboard。

Multi-model dashboard contract preview

Long-running Campaign

当前目标不是一次性 smoke test,而是持续数天到数周的实验 campaign:pilot scan、calibration cells、confirmatory boundary run。每个 cell 输出样本量、CI95、pass@k、工具精度、上下文长度、延迟分布、schema 通过率和失败归因。

Harness engineering campaign observability matrix

主评测集

Suite Purpose What It Tests
business_goal_agent_synthesis_v1 商业目标驱动评测 从安全评审、续约风险、退款自动化、财务关账、合同红线等目标反推能力项、benchmark、agent cookbook 和模型厂商反馈。
enterprise_agent_landing_v3 企业级 Agent 端到端任务 潜台词理解、企业资料查询、多 MCP 工具调用、权限治理、复杂需求拆解、长任务恢复。
tool_skill_mcp_ablation_v3 工具/skills/MCP 归因 3 工具直连、14 工具平铺、router 分层、procedural skill 对稳定性的影响。
tool_return_profiles_v1 工具返回 profile 归因 短 JSON、长噪声返回、冲突证据、router bundle、权限错误、大型日志 artifact。
openclaw_complex_agent_tasks_v1 OpenClaw 风格复杂任务 personal OS、语音生产修复、异步 GitHub、多 Agent 运营、插件治理、长期记忆安全。

工具返回 Profile 矩阵

Tool return profile evaluation matrix

MiniMax M2.7 High Live r7 Pilot

已完成 4 组 live r7 pilot,共 133 trials。r7 是 pilot,不是最终强置信结论;r30 calibration 已在远端后台运行。当前图表只展示脱敏聚合指标,不包含 API key 或原始 trace。

图中曲线是用于归因的子指标:Task score 是部分得分,Tool precision 是工具调用精度,Required-tool coverage 是必要工具覆盖率,Output schema adherence 是输出结构契约通过率。

MiniMax r7 tools and skills quality line chart MiniMax r7 tool return profile quality line chart MiniMax r7 behavior pass@k line chart

Links