Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第182回 雲勉 【Gemini 3.0 Pro】AI ベンチマーク徹底比較!他モデルに比べ優...

第182回 雲勉 【Gemini 3.0 Pro】AI ベンチマーク徹底比較!他モデルに比べ優れている点まとめ

下記、勉強会での資料です。
https://youtu.be/t5JX3In2Fnk

Avatar for iret.kumoben

iret.kumoben

January 16, 2026
Tweet

More Decks by iret.kumoben

Other Decks in Technology

Transcript

  1. 青木 駿弥 • DX開発事業部 フルスタックセクション  エン タープライズシステムグループ • 2025年新卒入社、アイレット歴:9ヶ月 •

    緊張しますが精一杯頑張ります! アイレット株式会社 あ お き しゅ ん や Profile お写真 ★ご質問は YouTubeのコメント欄で  受け付けております。後日回答させていただきます! ★チャンネル登録よろしくお願いします!
  2. Gemini 3.0 Pro の凄さ 8 ARC-AGI-2 未知の法則性を見つけ出す力を測るテスト
 Gemini 3.0 Pro

    の凄さ 31.1% の正答率 学習データにない新しい状況に直面しても、
 「自ら考え、柔軟に適応して問題を解決」 
 する能力が高い! 参考:https://arcprize.org/arc-agi/2/ LLMに数字の2次元配列データが与えられ、 そこにある抽象的なルールを推論。 その推論に基づき正解の配列orそれを生成するコードを出力
  3. Gemini 3.0 Pro の凄さ 9 GPQA Diamond 物理学、化学、生物学の分野で、博士号を持つ
 専門家が作成した高難易度の問題集
 Gemini

    3.0 Pro の凄さ 博士号保持者でも7割しか解けない問題を91.9% 参考:https://epoch.ai/benchmarks/gpqa-diamond AIの知能が人類のトップ層を追い越した 専門的な科学分野のテキストによる質問と、 4つの選択肢が与えられ、正解の選択肢(A)を返す
  4. Gemini 3.0 Pro の凄さ 10 MathArena Apex 超高難易度の数学ベンチマーク
 AIが正解できなかった問題だけを集めた超高難易度の問題集
 Gemini

    3.0 Pro の凄さ 参考:https://matharena.ai/apex/ 他AIモデルの正答率:1.0%〜1.6% 
 Gemini 3.0 Proの正答率:23.4% 
 論理を組み立て、自力で正解を導き出す推論能力が非常に高い 
 数学オリンピックなどの問題文が与えられ、LLMは思考プロセスと回答をアウ トプット

  5. Gemini 3.0 Pro の凄さ 11 ScreenSpot-Pro AIがプロ向けソフト(VS CodeやAutoCADなど )の画面をどれだけ正しく認識 し、操作できるかを評価するためのテスト


    Gemini 3.0 Pro の凄さ 72.7% の正答率 人間のように画面を見て、マウス操作までもAIが完全 に代行できるようになる未来の可能性 参考:https://github.com/likaixin2000/ScreenSpot-Pro-GUI-Grounding 参考:https://arxiv.org/abs/2504.07981 画面のスクリーンショットと自然言語による指示(設定アイコンを開いて)
 が与えられ、LLMは該当箇所の座標を数値で返します

  6. Gemini 3.0 Pro の凄さ 12 SWE-Bench Verified AIが実務レベルのソフトウェアエンジニアとして機能するかを測るテスト
 Gemini 3.0

    Pro の凄さ 単なるコーディングだけでなく、システムの整合性を保ったまま修正でき る高度な文脈理解力 参考:https://www.swebench.com/ コーディング特化AIではないのにも関わらず、スコア76.2%を記録 まさに、高水準汎用AI Django, Flaskなど、有名なPythonライブラリの実際のバグ修正を行わせ、最 終的に実際にコードを書き換えるためのパッチファイルを返す
  7. Gemini 3.0 Pro の凄さ 13 Vending-Bench 2 AIの「長期記憶」と「一貫性」を測る指標となるテスト
 Gemini 3.0

    Pro の凄さ 約5,478ドル の儲け ロングコンテキストを活かした「高い信頼性と安定感」 参考:https://arcprize.org/arc-agi/2/ 自動販売機のオーナーとして、仕入れ・価格設定・在庫管理・顧客対応を行う 毎日変化するビジネスの状況が与えられる
 最終的にいくら儲けたか

  8. Gemini 3.0 Pro の凄さ 14 SimpleQA Verified 質問に対して、どれだけ正直に答えることができるか
 つまり、ハルシネーションがどれほど少ないかを測るテスト
 Gemini

    3.0 Pro の凄さ 72.1% という高いスコア ビジネスや学術用途で使用する際に
 「信頼感」は非常に重要なポイント
 参考:https://arcprize.org/arc-agi/2/ Correct: 正しい答え Incorrect: 間違った答え(知ったかぶり) ※これが最悪の評価 Not Attempted:「分かりません」と答える         (間違えるよりはマシと評価される)
  9. まとめ 16 1 2 Gemini 3.0 Proは高水準の汎用AIモデル AIの進化の早さは想像以上 https://deepmind.google/models/gemini/ 3

    特定のAIモデルやツールに固執することなく、 様々なAIを小さく試すことが重要