出典:Artificial Analysis — SWE-Bench-Pro-Hard-AA、Terminal-Bench v2、SWE-Atlas-QnA の 3 つのベンチマークの pass@1 平均値。
毎週自動更新 · 最終更新:2026-06-01 02:01 UTC

#エージェントモデルプロバイダースコア
1Claude CodeOpus 4.7max67
2CodexGPT-5.5xhigh65
3Cursor CLIComposer 2.5 Fast63
4Cursor CLIOpus 4.7medium61
5CodexGPT-5.5medium60
6Claude CodeOpus 4.7medium60
7Cursor CLIGPT-5.5medium58
8Claude CodeGLM-5.153
9Claude CodeKimi K2.650
10Claude CodeDeepSeek V4 Prohigh50
11Gemini CLIGemini 3.1 Prohigh43

⏱ タスク実行時間

コーディングエージェントがタスクを完了するまでの平均壁時計時間(低いほど良い)

#エージェント所要時間
1Claude Code - Opus 4.7 (medium) (Anthropic)5.8m
2Cursor CLI - GPT-5.5 (medium) (Cursor)6.2m
3Cursor CLI - Composer 2.5 Fast (Cursor)6.7m
4Codex - GPT-5.5 (medium) (OpenAI)7.1m
5Gemini CLI - Gemini 3.1 Pro (high) (Gemini)7.6m
6Cursor CLI - Opus 4.7 (medium) (Cursor)7.8m
7Codex - GPT-5.5 (xhigh) (OpenAI)8.7m
8Claude Code - Opus 4.7 (max) (Anthropic)13.8m
9Claude Code - DeepSeek V4 Pro (high) (DeepSeek)18.0m
10Claude Code - GLM-5.1 (FriendliAI)21.6m
11Claude Code - Kimi K2.6 (Moonshot AI)41.5m

💰 タスクコスト

タスクあたりの平均 API コスト(USD、低いほど良い)

#エージェントコスト (USD)
1Claude Code - DeepSeek V4 Pro (high) (DeepSeek)$0.35
2Cursor CLI - Composer 2.5 Fast (Cursor)$0.44
3Claude Code - Kimi K2.6 (Moonshot AI)$0.76
4Claude Code - Opus 4.7 (medium) (Anthropic)$1.24
5Cursor CLI - Opus 4.7 (medium) (Cursor)$1.47
6Gemini CLI - Gemini 3.1 Pro (high) (Gemini)$1.60
7Cursor CLI - GPT-5.5 (medium) (Cursor)$1.61
8Codex - GPT-5.5 (medium) (OpenAI)$2.21
9Claude Code - GLM-5.1 (FriendliAI)$2.26
10Claude Code - Opus 4.7 (max) (Anthropic)$4.14
11Codex - GPT-5.5 (xhigh) (OpenAI)$4.33

ベンチマークについて

  • SWE-Bench-Pro-Hard-AA — コード生成、150 問(Scale AI)
  • Terminal-Bench v2 — エージェント端末操作、84 問(Laude Institute)
  • SWE-Atlas-QnA — 技術 Q&A、124 問(Scale AI)

総合インデックスは各ベンチマークの pass@1 平均値(各 3 回実行)です。


データは AI Agent が毎週自動収集しています。最新情報は元のページをご覧ください。