AIベンチマーク読み方ガイド|SWE-bench・GPQA・ARC-AGIの意味と活用法
AIベンチマーク読み方ガイド:スコアの意味と実践的な活用法
Claude Opus 4.6とGPT-5.3-Codexが同日リリースされた2026年2月、AIモデルの選択肢はかつてないほど増えています。「SWE-bench 80%」「ARC-AGI 68%」といった数字が飛び交いますが、それぞれ何を測っていて、自分のタスクにどう関係するのか。この記事では、主要ベンチマークの読み方と、コーディング業務への活かし方を解説します。
この記事の対象読者
- AIコーディングツール(Claude Code、Cursor、GitHub Copilot等)を使っている開発者
- モデル選定の判断材料としてベンチマークを読みたい人
- 「ベンチマークのスコアが高い=自分の用途に最適」なのか疑問に思っている人
なぜベンチマークを理解すべきか
AIモデルの性能比較は「なんとなく新しいモデルが良い」では判断できなくなっています。
- モデルごとに得意分野が異なる: コード実装に強いモデルと、設計・推論に強いモデルは別
- コストとのトレードオフ: 最高性能モデルが常に最適ではない。タスクに応じた使い分けが合理的
- ベンチマークにも限界がある: スコアの高さが実務性能を保証するわけではない
ベンチマークを「鵜呑みにする」のではなく「読み方を理解して判断材料にする」のが目的です。
ベンチマーク5カテゴリの全体像
主要なAIベンチマークは、大きく5つのカテゴリに分類できます。
| カテゴリ | 測定対象 | 代表的なベンチマーク |
|---|---|---|
| コーディング | コード生成・修正能力 | SWE-bench, Terminal-Bench, Aider |
| 推論 | 論理的思考・分析能力 | GPQA Diamond, ARC-AGI, MATH |
| 知識・指示追従 | 広い知識と指示遵守 | MMLU, IFEval |
| 長文脈 | 長い入力の処理能力 | RULER, NIAH, MRCR |
| エージェント | 環境操作・タスク遂行 | TAU-bench, WebArena, OSWorld |
以下、開発者にとって特に重要なベンチマークを解説します。
コーディング系ベンチマーク
SWE-bench:最も信頼できるコーディング指標
何を測るか: 実際のGitHubリポジトリのissueを読み、修正パッチを自動生成する能力。
実在するOSSプロジェクトのissueとPull Requestのペアを使い、モデルにissueの説明だけを渡してコードの修正を生成させます。生成されたパッチがテストスイートを通過すれば「解決」と判定されます。
バリエーション:
- Verified(500問): 人間が検証した信頼性の高いサブセット
- Full(2,294問): 全問セット。ノイズが多い
- Pro: Scale AIが管理する、より厳密な評価
読み方のポイント: SWE-bench Verifiedのスコアが高いモデルは、実務でのバグ修正・機能追加に強い傾向があります。ただし、テスト通過のみで判定されるため、コードの品質(可読性・保守性)は評価されません。
Terminal-Bench 2.0:エージェント的コーディング能力
何を測るか: サンドボックス化されたターミナル環境で、89種類の実務的タスク(モデルトレーニング、システム管理、データ処理等)を遂行する能力。
SWE-benchが「コード修正」に特化しているのに対し、Terminal-Benchは「ターミナルを操作して問題を解決する」総合力を測ります。AIコーディングエージェント(Claude Code、Codex CLI等)の実力を反映しやすい指標です。
Aider Polyglot:多言語コード編集
何を測るか: C++、Go、Java、JavaScript、Python、Rustの6言語でコードを編集する能力。
1回目の失敗時にテスト結果をフィードバックして2回目を試行する設計で、実際のコーディングアシスタントの使い方に近い評価です。
HumanEval / MBPP:飽和した初期指標
Python関数の生成(HumanEval: 164問)と基本的なPython問題(MBPP: 974問)を測定しますが、現在のフロンティアモデルはいずれも95%以上に達しており、差別化指標としての価値は低下しています。
推論系ベンチマーク
GPQA Diamond:大学院レベルの推論力
何を測るか: 物理・化学・生物の大学院レベル問題で、Google検索しても答えが見つからないような難問への回答能力。専門家でも正解率65%程度の難易度です。
設計やアーキテクチャの判断には深い推論力が求められます。GPQAのスコアが高いモデルは、技術的なトレードオフ分析や複雑なシステム設計に強い傾向があります。
ARC-AGI 2:抽象推論の指標
何を測るか: 視覚的なグリッドパターンの変換規則を推論する問題。学習データにない新規パターンへの汎化能力を測定します。
「AGIに最も近いベンチマーク」とも呼ばれ、データ汚染が困難な設計です。パターン認識と抽象的な推論が必要なため、設計力・問題構造の把握力の代理指標として有用です。
知識・長文脈系ベンチマーク
MMLU / IFEval:知識と指示追従
- MMLU: 57科目の多肢選択問題。フロンティアモデルは90%+で飽和傾向
- IFEval: 「JSONで出力せよ」「300語以内で」等の形式制約を守れるかを測定。エージェントとしての正確性に直結
RULER / MRCR:長文脈の実力
RULERは4K〜128K+トークンの段階的評価で、検索・追跡・集約・QAの4種タスクを含みます。
MRCR v2はOpus 4.6のリリースで注目された新指標で、1Mトークンの文脈中に埋め込まれた8つの「針」を同時に見つける能力を測ります。Opus 4.6は76%、Sonnet 4.5は18.5%と大差がつきました。
2026年2月 最新モデルスコア比較
公式発表とリーダーボードから収集した最新スコアです。
| ベンチマーク | Opus 4.6 | Codex 5.3 | Sonnet 4.5 | GPT-5.2 | Gemini 2.5 Pro |
|---|---|---|---|---|---|
| SWE-bench Verified | 80.8% | - | 77.2% | 80.0% | 63.8% |
| Terminal-Bench 2.0 | 69.9% | 75.1% | 46.5% | 64.9% | 32.6% |
| GPQA Diamond | 91.3% | - | 83.4% | 93.2% | 84.0% |
| ARC-AGI 2 | 68.8% | - | - | 54.2% | - |
| OSWorld-Verified | - | 64.7% | 61.4% | - | - |
| MRCR v2 (1M) | 76% | - | 18.5% | - | - |
注意点:
- Codex 5.3 はコーディング特化モデルのため、汎用ベンチマークのスコアは限定的
- GPT-5.2 は「Pro」「Thinking」等のバリアントでスコアが異なる
-はデータ未公開または未測定
各モデルの強み
- Claude Opus 4.6: 推論(ARC-AGI 68.8%)と長文脈(MRCR 76%)で圧倒。設計・レビュー・大規模コードベース理解向き
- GPT-5.3-Codex: Terminal-Bench(75.1%)で最強。実装・デバッグ向き
- Claude Sonnet 4.5: SWE-bench(77.2%)でコスパ良好。定型的なコーディングタスク向き
- GPT-5.2: GPQA Diamond(93.2%)で知識・推論が最強。分析・ドキュメント向き
- Gemini 2.5 Pro: 長文脈処理が得意。コードベース全体の分析向き
実践:タスク別のベンチマーク活用法
開発業務のタスクごとに、どのベンチマークを参考にすべきかの対応表です。
| タスク | 参考ベンチマーク | 理由 |
|---|---|---|
| コード実装 | SWE-bench, Terminal-Bench | コード生成・修正能力を直接測定 |
| デバッグ | Terminal-Bench, SWE-bench | ターミナル操作でのバグ特定・修正 |
| コードレビュー | GPQA Diamond | 深い推論でコード品質を判断 |
| テスト作成 | SWE-bench | テスト通過が評価基準のため相関あり |
| 設計・アーキテクチャ | ARC-AGI, GPQA Diamond | 抽象推論とトレードオフ分析 |
| ドキュメント作成 | MMLU, IFEval | 広い知識 + 指示形式の遵守 |
| リファクタリング | Aider Polyglot | 多言語対応のコード構造改善 |
| 大規模コードベース理解 | RULER, MRCR | 長文脈の情報統合 |
使い分けの例
AIコーディングエージェントでモデルを使い分ける場合:
タスクの性質を判断
├── 実装・修正・デバッグ → Codex系(Terminal-Bench最強)
├── 設計・計画・推論 → Opus系(ARC-AGI・GPQA最強)
├── レビュー・分析 → Opus系(深い推論が必要)
├── 大規模コードベース → Opus系(1M tokens + 長文脈性能)
├── 軽量タスク・大量処理 → Sonnet / Haiku(コスパ重視)
└── 最新情報リサーチ → Gemini系(Google検索統合)
このハイブリッド戦略は、RedditのClaude Codeコミュニティでも「Opus=設計、Codex=実装」として実践されているアプローチです。
ベンチマークの限界:スコアを鵜呑みにしない
1. データ汚染
学習データにベンチマーク問題が含まれている可能性があります。HumanEvalやMBPPは特にリスクが高い一方、LiveCodeBench(継続更新)やARC-AGI(新規パターン生成)は汚染に強い設計です。
2. 飽和した指標
HumanEval(95%+)、GSM8K(95%+)、MMLU(90%+)はフロンティアモデル間で差がつきません。これらのスコアだけで判断するのは危険です。
3. 実務とのギャップ
ベンチマークは「短いプロンプト・明確な正解・自動判定」の世界です。実務は「曖昧な要件・大規模コードベース・非機能要件」の世界。スコア上位のモデルが実務で苦戦するケースは頻繁に報告されています。
4. 評価条件の差異
同じベンチマークでも、エージェントフレームワーク、プロンプト戦略、リトライ回数で結果が大きく変わります。公式発表値とリーダーボード値が異なることもあります(例: Opus 4.6のTerminal-Bench 65.4% vs 69.9%)。
まとめ
AIベンチマークは「モデルの能力の断面」を測る道具です。読み方のポイントをまとめます。
- 単一指標で判断しない: コーディング能力はSWE-bench、推論力はGPQA、長文脈はRULER。複数指標を組み合わせる
- タスクに合った指標を見る: 実装ならTerminal-Bench、設計ならARC-AGI。目的と指標のマッピングを意識する
- 飽和した指標に注意: HumanEval、GSM8K、MMLUはフロンティアモデルで差がつかない
- コストも判断軸に入れる: 最高性能モデルが常に最適ではない。タスクの重要度に応じて使い分ける
- 実務テストを忘れない: ベンチマークはあくまで参考値。自分の業務で試して判断する
AIモデルの進化は速く、今日のスコアは半年後に陳腐化します。ベンチマークの「読み方」を身につけておけば、新モデルが出るたびに適切な判断ができるようになります。
Comments