出典:Artificial Analysis — SWE-Bench-Pro-Hard-AA、Terminal-Bench v2、SWE-Atlas-QnA の 3 つのベンチマークの pass@1 平均値。
毎週自動更新 · 最終更新:2026-06-01 02:01 UTC
| # | エージェント | モデル | プロバイダー | スコア |
|---|---|---|---|---|
| 1 | Claude Code | Opus 4.7 | max | 67 |
| 2 | Codex | GPT-5.5 | xhigh | 65 |
| 3 | Cursor CLI | Composer 2.5 Fast | 63 | |
| 4 | Cursor CLI | Opus 4.7 | medium | 61 |
| 5 | Codex | GPT-5.5 | medium | 60 |
| 6 | Claude Code | Opus 4.7 | medium | 60 |
| 7 | Cursor CLI | GPT-5.5 | medium | 58 |
| 8 | Claude Code | GLM-5.1 | 53 | |
| 9 | Claude Code | Kimi K2.6 | 50 | |
| 10 | Claude Code | DeepSeek V4 Pro | high | 50 |
| 11 | Gemini CLI | Gemini 3.1 Pro | high | 43 |
⏱ タスク実行時間
コーディングエージェントがタスクを完了するまでの平均壁時計時間(低いほど良い)
| # | エージェント | 所要時間 |
|---|---|---|
| 1 | Claude Code - Opus 4.7 (medium) (Anthropic) | 5.8m |
| 2 | Cursor CLI - GPT-5.5 (medium) (Cursor) | 6.2m |
| 3 | Cursor CLI - Composer 2.5 Fast (Cursor) | 6.7m |
| 4 | Codex - GPT-5.5 (medium) (OpenAI) | 7.1m |
| 5 | Gemini CLI - Gemini 3.1 Pro (high) (Gemini) | 7.6m |
| 6 | Cursor CLI - Opus 4.7 (medium) (Cursor) | 7.8m |
| 7 | Codex - GPT-5.5 (xhigh) (OpenAI) | 8.7m |
| 8 | Claude Code - Opus 4.7 (max) (Anthropic) | 13.8m |
| 9 | Claude Code - DeepSeek V4 Pro (high) (DeepSeek) | 18.0m |
| 10 | Claude Code - GLM-5.1 (FriendliAI) | 21.6m |
| 11 | Claude Code - Kimi K2.6 (Moonshot AI) | 41.5m |
💰 タスクコスト
タスクあたりの平均 API コスト(USD、低いほど良い)
| # | エージェント | コスト (USD) |
|---|---|---|
| 1 | Claude Code - DeepSeek V4 Pro (high) (DeepSeek) | $0.35 |
| 2 | Cursor CLI - Composer 2.5 Fast (Cursor) | $0.44 |
| 3 | Claude Code - Kimi K2.6 (Moonshot AI) | $0.76 |
| 4 | Claude Code - Opus 4.7 (medium) (Anthropic) | $1.24 |
| 5 | Cursor CLI - Opus 4.7 (medium) (Cursor) | $1.47 |
| 6 | Gemini CLI - Gemini 3.1 Pro (high) (Gemini) | $1.60 |
| 7 | Cursor CLI - GPT-5.5 (medium) (Cursor) | $1.61 |
| 8 | Codex - GPT-5.5 (medium) (OpenAI) | $2.21 |
| 9 | Claude Code - GLM-5.1 (FriendliAI) | $2.26 |
| 10 | Claude Code - Opus 4.7 (max) (Anthropic) | $4.14 |
| 11 | Codex - GPT-5.5 (xhigh) (OpenAI) | $4.33 |
ベンチマークについて
- SWE-Bench-Pro-Hard-AA — コード生成、150 問(Scale AI)
- Terminal-Bench v2 — エージェント端末操作、84 問(Laude Institute)
- SWE-Atlas-QnA — 技術 Q&A、124 問(Scale AI)
総合インデックスは各ベンチマークの pass@1 平均値(各 3 回実行)です。
データは AI Agent が毎週自動収集しています。最新情報は元のページをご覧ください。