Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第182回 雲勉 【Gemini 3.0 Pro】AI ベンチマーク徹底比較!他モデルに比べ優...
Search
iret.kumoben
January 16, 2026
Technology
0
58
第182回 雲勉 【Gemini 3.0 Pro】AI ベンチマーク徹底比較!他モデルに比べ優れている点まとめ
下記、勉強会での資料です。
https://youtu.be/t5JX3In2Fnk
iret.kumoben
January 16, 2026
Tweet
Share
More Decks by iret.kumoben
See All by iret.kumoben
第181回 雲勉 WEB制作者のちょっとした面倒をAWSで解決!Amazon S3とAWS Lambda活用術
iret
0
51
第180回 雲勉 Abuse report の調査・確認方法について
iret
0
79
第179回 雲勉 AI を活用したサポートデスク業務の改善
iret
0
110
第178回 雲勉 Amazon EKSをオンプレで! Amazon EKS Anywhere 実践構築ガイド
iret
1
79
第177回 雲勉 IdP 移行を楽に!Amazon Cognito でアプリへの影響をゼロにするアイデア
iret
0
88
第176回 雲勉 VPC 間サービス接続を考える!Private Service Connect 入門
iret
0
69
第175回 雲勉 Amazon ECS入門:コンテナ実行の基本を学ぶ
iret
0
110
第174回 雲勉 Google Agentspace × ADK Vertex AI Agent Engineにデプロイしたエージェントを呼び出す
iret
0
140
第173回 雲勉 ノーコードで生成 AI アプリを構築!Google Cloud AI Applications(旧 Vertex AI Agent Builder)入門
iret
0
120
Other Decks in Technology
See All in Technology
Security Diaries of an Open Source IAM
ahus1
0
200
パネルディスカッション資料 (at Tableau Now! - 2026-02-26)
yoshitakaarakawa
0
1.1k
新職業『オーケストレーター』誕生 — エージェント10体を同時に回すAgentOps
gunta
4
1.4k
ブラックボックス観測に基づくAI支援のプロトコルのリバースエンジニアリングと再現~AIを用いたリバースエンジニアリング~ @ SECCON 14 電脳会議 / Reverse Engineering and Reproduction of an AI-Assisted Protocol Based on Black-Box Observation @ SECCON 14 DENNO-KAIGI
chibiegg
0
140
入門DBSC
ynojima
0
130
「ストレッチゾーンに挑戦し続ける」ことって難しくないですか? メンバーの持続的成長を支えるEMの環境設計
sansantech
PRO
1
310
作るべきものと向き合う - ecspresso 8年間の開発史から学ぶ技術選定 / 技術選定con findy 2026
fujiwara3
7
2.1k
Eight Engineering Unit 紹介資料
sansan33
PRO
1
6.9k
Databricksアシスタントが自分で考えて動く時代に! エージェントモード体験もくもく会
taka_aki
0
320
男(監査)はつらいよ - Policy as CodeからAIエージェントへ
ken5scal
5
730
大規模サービスにおける レガシーコードからReactへの移行
magicpod
1
130
Master Dataグループ紹介資料
sansan33
PRO
1
4.4k
Featured
See All Featured
Code Review Best Practice
trishagee
74
20k
[SF Ruby Conf 2025] Rails X
palkan
2
810
So, you think you're a good person
axbom
PRO
2
1.9k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
380
The Curse of the Amulet
leimatthew05
1
9.6k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
80
Abbi's Birthday
coloredviolet
2
5.1k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
300
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Six Lessons from altMBA
skipperchong
29
4.2k
Transcript
青木 駿弥 アイレット株式会社 【Gemini 3.0 Pro】AIベンチマーク徹底比較! 他モデルに比べ優れている点まとめ 第
182 回 雲勉
01 アジェンダ 自己紹介 02 そもそもベンチマークとは 03 Gemini 3.0 Proの優れている点 04
まとめ
青木 駿弥 • DX開発事業部 フルスタックセクション エン タープライズシステムグループ • 2025年新卒入社、アイレット歴:9ヶ月 •
緊張しますが精一杯頑張ります! アイレット株式会社 あ お き しゅ ん や Profile お写真 ★ご質問は YouTubeのコメント欄で 受け付けております。後日回答させていただきます! ★チャンネル登録よろしくお願いします!
そもそもベンチマークとは
私たちが学校で「国語」「数学」「英語」 の試験を受けて学力を測るのと同じように、 AIも「論理的思考」「画像認識」「プログラミング」 といった観点で、様々なテストを受けることで、 総合力や得意・不得意を判定します。 AIの実力テストのようなもの そもそもベンチマークとは 5 参考:https://blog.google/products/gemini/gemini-3/#gemini-3-deep-think
そもそもベンチマークとは 6 参考:https://blog.google/products/gemini/gemini-3/#gemini-3-deep-think ベンチマークの数値の差と個人的な見解で、 以下7つをピックアップ 1. ARC-AGI-2 2. GPQA Diamond
3. MathArena Apex 4. ScreenSpot-Pro 5. SWE-Bench Verified 6. Vending-Bench 2 7. SimpleQA Verified
Gemini 3.0 Proの凄さ
Gemini 3.0 Pro の凄さ 8 ARC-AGI-2 未知の法則性を見つけ出す力を測るテスト Gemini 3.0 Pro
の凄さ 31.1% の正答率 学習データにない新しい状況に直面しても、 「自ら考え、柔軟に適応して問題を解決」 する能力が高い! 参考:https://arcprize.org/arc-agi/2/ LLMに数字の2次元配列データが与えられ、 そこにある抽象的なルールを推論。 その推論に基づき正解の配列orそれを生成するコードを出力
Gemini 3.0 Pro の凄さ 9 GPQA Diamond 物理学、化学、生物学の分野で、博士号を持つ 専門家が作成した高難易度の問題集 Gemini
3.0 Pro の凄さ 博士号保持者でも7割しか解けない問題を91.9% 参考:https://epoch.ai/benchmarks/gpqa-diamond AIの知能が人類のトップ層を追い越した 専門的な科学分野のテキストによる質問と、 4つの選択肢が与えられ、正解の選択肢(A)を返す
Gemini 3.0 Pro の凄さ 10 MathArena Apex 超高難易度の数学ベンチマーク AIが正解できなかった問題だけを集めた超高難易度の問題集 Gemini
3.0 Pro の凄さ 参考:https://matharena.ai/apex/ 他AIモデルの正答率:1.0%〜1.6% Gemini 3.0 Proの正答率:23.4% 論理を組み立て、自力で正解を導き出す推論能力が非常に高い 数学オリンピックなどの問題文が与えられ、LLMは思考プロセスと回答をアウ トプット
Gemini 3.0 Pro の凄さ 11 ScreenSpot-Pro AIがプロ向けソフト(VS CodeやAutoCADなど )の画面をどれだけ正しく認識 し、操作できるかを評価するためのテスト
Gemini 3.0 Pro の凄さ 72.7% の正答率 人間のように画面を見て、マウス操作までもAIが完全 に代行できるようになる未来の可能性 参考:https://github.com/likaixin2000/ScreenSpot-Pro-GUI-Grounding 参考:https://arxiv.org/abs/2504.07981 画面のスクリーンショットと自然言語による指示(設定アイコンを開いて) が与えられ、LLMは該当箇所の座標を数値で返します
Gemini 3.0 Pro の凄さ 12 SWE-Bench Verified AIが実務レベルのソフトウェアエンジニアとして機能するかを測るテスト Gemini 3.0
Pro の凄さ 単なるコーディングだけでなく、システムの整合性を保ったまま修正でき る高度な文脈理解力 参考:https://www.swebench.com/ コーディング特化AIではないのにも関わらず、スコア76.2%を記録 まさに、高水準汎用AI Django, Flaskなど、有名なPythonライブラリの実際のバグ修正を行わせ、最 終的に実際にコードを書き換えるためのパッチファイルを返す
Gemini 3.0 Pro の凄さ 13 Vending-Bench 2 AIの「長期記憶」と「一貫性」を測る指標となるテスト Gemini 3.0
Pro の凄さ 約5,478ドル の儲け ロングコンテキストを活かした「高い信頼性と安定感」 参考:https://arcprize.org/arc-agi/2/ 自動販売機のオーナーとして、仕入れ・価格設定・在庫管理・顧客対応を行う 毎日変化するビジネスの状況が与えられる 最終的にいくら儲けたか
Gemini 3.0 Pro の凄さ 14 SimpleQA Verified 質問に対して、どれだけ正直に答えることができるか つまり、ハルシネーションがどれほど少ないかを測るテスト Gemini
3.0 Pro の凄さ 72.1% という高いスコア ビジネスや学術用途で使用する際に 「信頼感」は非常に重要なポイント 参考:https://arcprize.org/arc-agi/2/ Correct: 正しい答え Incorrect: 間違った答え(知ったかぶり) ※これが最悪の評価 Not Attempted:「分かりません」と答える (間違えるよりはマシと評価される)
まとめ
まとめ 16 1 2 Gemini 3.0 Proは高水準の汎用AIモデル AIの進化の早さは想像以上 https://deepmind.google/models/gemini/ 3
特定のAIモデルやツールに固執することなく、 様々なAIを小さく試すことが重要