第182回雲勉【Gemini 3.0 Pro】AI ベンチマーク徹底比較！他モデルに比べ優れている点まとめ

青木駿弥アイレット株式会社【Gemini 3.0 Pro】AIベンチマーク徹底比較！   他モデルに比べ優れている点まとめ   第
182 回雲勉

01 アジェンダ自己紹介 02 そもそもベンチマークとは 03 Gemini 3.0 Proの優れている点 04
まとめ

青木駿弥 • DX開発事業部フルスタックセクション　エンタープライズシステムグループ • 2025年新卒入社、アイレット歴：9ヶ月 •
緊張しますが精一杯頑張ります！アイレット株式会社あ　お　きしゅ　ん　や Profile お写真 ★ご質問は YouTubeのコメント欄で　受け付けております。後日回答させていただきます！ ★チャンネル登録よろしくお願いします！

そもそもベンチマークとは

私たちが学校で「国語」「数学」「英語」  の試験を受けて学力を測るのと同じように、    AIも「論理的思考」「画像認識」「プログラミング」  といった観点で、様々なテストを受けることで、  総合力や得意・不得意を判定します。  AIの実力テストのようなものそもそもベンチマークとは 5 参考：https://blog.google/products/gemini/gemini-3/#gemini-3-deep-think

そもそもベンチマークとは 6 参考：https://blog.google/products/gemini/gemini-3/#gemini-3-deep-think ベンチマークの数値の差と個人的な見解で、  以下7つをピックアップ 1. ARC-AGI-2  2. GPQA Diamond 
3. MathArena Apex  4. ScreenSpot-Pro  5. SWE-Bench Verified  6. Vending-Bench 2  7. SimpleQA Verified 

Gemini 3.0 Proの凄さ

Gemini 3.0 Pro の凄さ 8 ARC-AGI-2 未知の法則性を見つけ出す力を測るテスト  Gemini 3.0 Pro
の凄さ 31.1% の正答率学習データにない新しい状況に直面しても、  「自ら考え、柔軟に適応して問題を解決」   する能力が高い！参考：https://arcprize.org/arc-agi/2/ LLMに数字の2次元配列データが与えられ、そこにある抽象的なルールを推論。その推論に基づき正解の配列orそれを生成するコードを出力

Gemini 3.0 Pro の凄さ 9 GPQA Diamond 物理学、化学、生物学の分野で、博士号を持つ  専門家が作成した高難易度の問題集  Gemini
3.0 Pro の凄さ博士号保持者でも7割しか解けない問題を91.9% 参考：https://epoch.ai/benchmarks/gpqa-diamond AIの知能が人類のトップ層を追い越した専門的な科学分野のテキストによる質問と、 4つの選択肢が与えられ、正解の選択肢（A）を返す

Gemini 3.0 Pro の凄さ 10 MathArena Apex 超高難易度の数学ベンチマーク  AIが正解できなかった問題だけを集めた超高難易度の問題集  Gemini
3.0 Pro の凄さ参考：https://matharena.ai/apex/ 他AIモデルの正答率：1.0%〜1.6%   Gemini 3.0 Proの正答率：23.4%   論理を組み立て、自力で正解を導き出す推論能力が非常に高い   数学オリンピックなどの問題文が与えられ、LLMは思考プロセスと回答をアウトプット 

Gemini 3.0 Pro の凄さ 11 ScreenSpot-Pro AIがプロ向けソフト（VS CodeやAutoCADなど）の画面をどれだけ正しく認識し、操作できるかを評価するためのテスト 
Gemini 3.0 Pro の凄さ 72.7% の正答率人間のように画面を見て、マウス操作までもAIが完全に代行できるようになる未来の可能性参考：https://github.com/likaixin2000/ScreenSpot-Pro-GUI-Grounding 参考：https://arxiv.org/abs/2504.07981 画面のスクリーンショットと自然言語による指示（設定アイコンを開いて）  が与えられ、LLMは該当箇所の座標を数値で返します 

Gemini 3.0 Pro の凄さ 12 SWE-Bench Verified AIが実務レベルのソフトウェアエンジニアとして機能するかを測るテスト  Gemini 3.0
Pro の凄さ単なるコーディングだけでなく、システムの整合性を保ったまま修正できる高度な文脈理解力参考：https://www.swebench.com/ コーディング特化AIではないのにも関わらず、スコア76.2%を記録まさに、高水準汎用AI Django, Flaskなど、有名なPythonライブラリの実際のバグ修正を行わせ、最終的に実際にコードを書き換えるためのパッチファイルを返す

Gemini 3.0 Pro の凄さ 13 Vending-Bench 2 AIの「長期記憶」と「一貫性」を測る指標となるテスト  Gemini 3.0
Pro の凄さ約5,478ドルの儲けロングコンテキストを活かした「高い信頼性と安定感」参考：https://arcprize.org/arc-agi/2/ 自動販売機のオーナーとして、仕入れ・価格設定・在庫管理・顧客対応を行う毎日変化するビジネスの状況が与えられる  最終的にいくら儲けたか 

Gemini 3.0 Pro の凄さ 14 SimpleQA Verified 質問に対して、どれだけ正直に答えることができるか  つまり、ハルシネーションがどれほど少ないかを測るテスト  Gemini
3.0 Pro の凄さ 72.1% という高いスコアビジネスや学術用途で使用する際に  「信頼感」は非常に重要なポイント  参考：https://arcprize.org/arc-agi/2/ Correct：正しい答え Incorrect：間違った答え（知ったかぶり） ※これが最悪の評価 Not Attempted：「分かりません」と答える　　　　　　　（間違えるよりはマシと評価される）

まとめ

まとめ 16 1 2 Gemini 3.0 Proは高水準の汎用AIモデル AIの進化の早さは想像以上 https://deepmind.google/models/gemini/ 3
特定のAIモデルやツールに固執することなく、様々なAIを小さく試すことが重要

第182回雲勉【Gemini 3.0 Pro】AI ベンチマーク徹底比較！他モデルに比べ優...

第182回雲勉【Gemini 3.0 Pro】AI ベンチマーク徹底比較！他モデルに比べ優れている点まとめ

iret.kumoben

More Decks by iret.kumoben

Other Decks in Technology

Featured

Transcript

青木駿弥アイレット株式会社【Gemini 3.0 Pro】AIベンチマーク徹底比較！   他モデルに比べ優れている点まとめ   第

01 アジェンダ自己紹介 02 そもそもベンチマークとは 03 Gemini 3.0 Proの優れている点 04

青木駿弥 • DX開発事業部フルスタックセクション　エンタープライズシステムグループ • 2025年新卒入社、アイレット歴：9ヶ月 •

そもそもベンチマークとは

そもそもベンチマークとは 6 参考：https://blog.google/products/gemini/gemini-3/#gemini-3-deep-think ベンチマークの数値の差と個人的な見解で、  以下7つをピックアップ 1. ARC-AGI-2  2. GPQA Diamond

Gemini 3.0 Proの凄さ

Gemini 3.0 Pro の凄さ 8 ARC-AGI-2 未知の法則性を見つけ出す力を測るテスト  Gemini 3.0 Pro

Gemini 3.0 Pro の凄さ 9 GPQA Diamond 物理学、化学、生物学の分野で、博士号を持つ  専門家が作成した高難易度の問題集  Gemini

Gemini 3.0 Pro の凄さ 10 MathArena Apex 超高難易度の数学ベンチマーク  AIが正解できなかった問題だけを集めた超高難易度の問題集  Gemini

Gemini 3.0 Pro の凄さ 11 ScreenSpot-Pro AIがプロ向けソフト（VS CodeやAutoCADなど）の画面をどれだけ正しく認識し、操作できるかを評価するためのテスト

Gemini 3.0 Pro の凄さ 12 SWE-Bench Verified AIが実務レベルのソフトウェアエンジニアとして機能するかを測るテスト  Gemini 3.0

Gemini 3.0 Pro の凄さ 13 Vending-Bench 2 AIの「長期記憶」と「一貫性」を測る指標となるテスト  Gemini 3.0

Gemini 3.0 Pro の凄さ 14 SimpleQA Verified 質問に対して、どれだけ正直に答えることができるか  つまり、ハルシネーションがどれほど少ないかを測るテスト  Gemini

まとめ

まとめ 16 1 2 Gemini 3.0 Proは高水準の汎用AIモデル AIの進化の早さは想像以上 https://deepmind.google/models/gemini/ 3

第182回 雲勉 【Gemini 3.0 Pro】AI ベンチマーク徹底比較！他モデルに比べ優...

第182回 雲勉 【Gemini 3.0 Pro】AI ベンチマーク徹底比較！他モデルに比べ優れている点まとめ

More Decks by iret.kumoben

Other Decks in Technology

Featured

Transcript

第182回雲勉【Gemini 3.0 Pro】AI ベンチマーク徹底比較！他モデルに比べ優...

第182回雲勉【Gemini 3.0 Pro】AI ベンチマーク徹底比較！他モデルに比べ優れている点まとめ