数据来源:Artificial Analysis — 综合 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2、SWE-Atlas-QnA 三项基准测试的 pass@1 平均分。
每周自动更新 · 最后更新:2026-06-01 02:01 UTC

#Agent模型提供商评分
1Claude CodeOpus 4.7max67
2CodexGPT-5.5xhigh65
3Cursor CLIComposer 2.5 Fast63
4Cursor CLIOpus 4.7medium61
5CodexGPT-5.5medium60
6Claude CodeOpus 4.7medium60
7Cursor CLIGPT-5.5medium58
8Claude CodeGLM-5.153
9Claude CodeKimi K2.650
10Claude CodeDeepSeek V4 Prohigh50
11Gemini CLIGemini 3.1 Prohigh43

⏱ 任务耗时

平均每个编码 Agent 完成任务所需的墙钟时间(越低越好)

#Agent耗时
1Claude Code - Opus 4.7 (medium) (Anthropic)5.8m
2Cursor CLI - GPT-5.5 (medium) (Cursor)6.2m
3Cursor CLI - Composer 2.5 Fast (Cursor)6.7m
4Codex - GPT-5.5 (medium) (OpenAI)7.1m
5Gemini CLI - Gemini 3.1 Pro (high) (Gemini)7.6m
6Cursor CLI - Opus 4.7 (medium) (Cursor)7.8m
7Codex - GPT-5.5 (xhigh) (OpenAI)8.7m
8Claude Code - Opus 4.7 (max) (Anthropic)13.8m
9Claude Code - DeepSeek V4 Pro (high) (DeepSeek)18.0m
10Claude Code - GLM-5.1 (FriendliAI)21.6m
11Claude Code - Kimi K2.6 (Moonshot AI)41.5m

💰 任务成本

平均每个任务的 API 成本(USD,越低越好)

#Agent成本 (USD)
1Claude Code - DeepSeek V4 Pro (high) (DeepSeek)$0.35
2Cursor CLI - Composer 2.5 Fast (Cursor)$0.44
3Claude Code - Kimi K2.6 (Moonshot AI)$0.76
4Claude Code - Opus 4.7 (medium) (Anthropic)$1.24
5Cursor CLI - Opus 4.7 (medium) (Cursor)$1.47
6Gemini CLI - Gemini 3.1 Pro (high) (Gemini)$1.60
7Cursor CLI - GPT-5.5 (medium) (Cursor)$1.61
8Codex - GPT-5.5 (medium) (OpenAI)$2.21
9Claude Code - GLM-5.1 (FriendliAI)$2.26
10Claude Code - Opus 4.7 (max) (Anthropic)$4.14
11Codex - GPT-5.5 (xhigh) (OpenAI)$4.33

关于基准测试

  • SWE-Bench-Pro-Hard-AA — 代码生成,150 道题(Scale AI)
  • Terminal-Bench v2 — Agent 终端使用,84 道题(Laude Institute)
  • SWE-Atlas-QnA — 技术问答,124 道题(Scale AI)

综合指数为三项基准测试的 pass@1 平均值(各运行 3 次)。


数据由 AI Agent 每周自动抓取,若有更新延迟请参考 原始页面