UC BerkeleyがAIエージェント業務ベンチマーク「Agents' Last Exam」を公開|GPT-5.5がClaude Fable 5を逆転—業務AI選定で「どのベンチマークを見るか」が問われる時代に
カリフォルニア大学バークレー校(UC Berkeley)のRDI(Responsible, Decentralized Intelligence研究センター)は2026年6月10日、AIエージェントが実際の業務を遂行できるかを測定する大規模ベンチマーク「Agents' Last Exam(ALE)」を公開しました(出典:VentureBeat・ALE公式)。同ベンチマークのリーダーボードではOpenAIのGPT-5.5をCodexハーネスで実行した構成が約24%のパス率で首位に立ち、ほぼすべての既存ベンチマークで首位を走るClaude Fable 5は約22%で3位にとどまるという「番狂わせ」の結果となりました(出典:VentureBeat)。全構成の平均パス率は2.6%にとどまり、AIエージェントが真に専門業務を代替できるレベルには至っていないことも示されました(出典:ALE公式)。
何が起きたか
Agents' Last Exam(ALE)とは—「教科書問題」ではなく「実際の仕事」を測定する新基準
ALEはDawn Song教授(UC Berkeley)が主導し、100以上の機関から250人超の専門家が参加して構築した新しいAIエージェント評価ベンチマークです(出典:ALE公式・VentureBeat)。既存の多くのベンチマーク(SWE-Bench等)がコーディングや数学問題に特化しているのに対し、ALEは実際の職場で専門家がすでに完了させたプロジェクトをタスクの原型としています(出典:ALE公式)。SOC/O*NET(米国標準職業分類)に基づく55の産業サブドメインにわたる1,490件のタスクインスタンスが含まれ、定量的トレーディング・ゲノム解析・航空宇宙工学・建築設計・脳画像解析・映像VFX・法律調査など幅広い専門職種を網羅します(出典:ALE公式)。評価は人間の審査員なしにコードで採点される完全再現可能な設計です(出典:ALE公式)。
GPT-5.5がClaude Fable 5を逆転—ベンチマークによって順位が変わる現実
現在のリーダーボードでは、OpenAIのGPT-5.5をCodexハーネスで実行した構成が約24%のパス率で首位を獲得しています(出典:VentureBeat)。これはSWE-Bench Pro(ソフトウェアエンジニアリング特化)でClaude Fable 5が80.3%で首位に立つ(出典:Anthropic公式)のとは対照的であり、VentureBeatは「番狂わせ(surprise upset)」と表現しました(出典:VentureBeat)。Claude Fable 5は約22%で3位、2位にはCursor(composer-2-5)がランクインしています(出典:VentureBeat)。最も難易度の高い「Last-Exam」ティアでは、Claude Opus 4.8・Gemini CLIを含む多数の構成が0.0%のパス率を記録しており、長時間・複合型の専門業務タスクにおけるAIエージェントの現在地が明確に示されました(出典:ALE公式)。
全体平均パス率2.6%—「業務代替」と「業務補助」の違いを再認識する結果
ALEの全構成・全ティア平均パス率は2.6%にとどまります(出典:ALE公式)。AIが単純な質問応答や短いコード補完では高性能を発揮する一方、「複数のツールを組み合わせながら数時間〜数日かけて完了する専門業務」の自律実行は現時点では大きなギャップがあることを数値が裏付けました(出典:ALE公式)。ALEは「リビングベンチマーク(生きた評価基準)」として今後も産業や職種を追加しタスク数を5,000件へ拡張する計画であり、測定の精度と範囲は継続的に高まります(出典:ALE公式)。
日本への影響・ビジネス活用ヒント
- 「どのベンチマークで比較するか」が業務AI選定の核心:Claude Fable 5はコーディング評価(SWE-Bench Pro 80.3%)で首位ですが、実業務を模した総合ベンチマーク(ALE)ではGPT-5.5に逆転されました(出典:VentureBeat)。日本企業がAIエージェントを採用する際は、ベンダーが提示する単一ベンチマーク数値だけでなく、自社の業務に最も近いタスクで実際にPoC(概念実証)を実施して評価することを強く推奨します(推測)。特にコーディング以外の業務(法務・財務・調査・設計)では、SWE-Benchの結果がそのまま参考にならない可能性が高いです(推測)。
- 平均2.6%のパス率は「人間監督を外せない」ことを示している:ALEの全体平均パス率2.6%は、現時点のAIエージェントが自律的に専門業務を完結できる割合がきわめて低いことを意味します(出典:ALE公式)。AIが提案・草案を生成し人間が検証・意思決定する「Human-in-the-Loop」設計を業務フローに組み込むことが、安全で実用的なAI活用の基本戦略となります(推測)。完全自律化よりも「AI補助による人的工数削減」を当面の導入目標として設計することを推奨します(推測)。
- ALE掲載の55産業を「自社業種のAI成熟度確認」に活用する:ALEが評価対象とする55のサブドメインには、日本企業に直結する法律調査・定量的財務分析・医療情報処理・製造エンジニアリングが含まれます(出典:ALE公式)。自社業種が評価対象に含まれる場合、公開リーダーボードの該当分野スコアを参照することで、どのAIエージェントが自社業務に近い作業で高評価を得ているかを客観的に比較できます(推測)。今後タスク数が5,000件に拡張される計画もあり、ALEは定期的に参照すべき信頼性の高いベンチマークとなる可能性があります(推測)。
