ARC-AGIとは何か

AI Community 2026.06.18 廣中　栄介 GOドライブ株式会社 ARC-AGIとは何か AI技術共有会

廣中栄介 GOドライブ株式会社 AI本部 AI技術開発2部 • 業務内容 ◦ 次世代AIドラレコサービス『DRIVE CHART』のリスク運転検出機能開発
• 経歴 ◦ 機械工学専攻修士卒 (~2018.3) ◦ 大手車載機器メーカー入社(~2019.10) ▪ ドライバー状態推定の研究開発 ◦ IT・Webベンチャー(~2022.11) ▪ Web/Appの分析、画像認識モデル開発 ◦ AIベンチャー(~2024.1) ▪ 建設業界向けAIシステム開発・ゲームAI開発 ◦ GO株式会社 (2024.2~)、GOドライブ株式会社(2025.9~) ▪ 『DRIVE CHART』の分析・AI機能開発 • SNS ◦ X:https://twitter.com/pensuke_san ◦ kaggle:https://www.kaggle.com/pensukesan 自己紹介 2

3 目次 01｜ARC-AGIとは 02｜ARC-AGIコンペと上位解法 03｜まとめ

4 01 ARC-AGIとは

5 ▪ ARC-Prize・ARC-AGIコンペ ▪ 現在総額200万ドルのコンペが開催されている[1] ▪ ハードルが高いのか周囲で参加している人が少ない →いったいどういうコンペ・研究領域なのか kaggleで時折見かける高額賞金コンペの一つ [1]
kaggle, “Competitions and Hackathons” https://www.kaggle.com/competitions

▪ ARC-Prize Foundation[2] ▪ 2024年に設立されたAGIの実現に取り組む非営利団体 ▪ 設立以降高額賞金のコンペシリーズARC-Prizeを開催 ▪ ARC-AGIコンペ ▪
ARC-AGI:=AGI（汎用人工知能）のためのベンチマークデータ ▪ 人間には簡単に解けるがAIには難しいタスク AGIの実現に向けたギャップを特定 ▪ コンペではこのベンチマークタスクを解く ▪ Gemini,Claude,ChatGPTなどLLM-Agentの性能評価にも利用 ARC-Prize・ARC-AGIコンペとは [2] ARC Prize, “Mission”, https://arcprize.org/about

7 ▪ AGIの実現に向けた知能の定義 ▪ 「システムの知能とは、事前知識（priors）、経験、そして一般化の難しさを考慮した上で、ある範囲の課題に対してどれだけ効率よく技能を獲得できるかを測る尺度である。」※1 ▪ ❌ 大量データの学習やタスク専用設計により高得点を出す
✅ 未知性の高い課題について少ない情報から将来の状況に対応できる有効な解法を作る能力 ▪ この定義に基づく知能を測定するためのタスク=ARC-AGIを提案 On the Measure of Intelligence (Chollet 2019)[3] ※1原文“The intelligence of a system is a measure of its skill-acquisition eﬃciency over a scope of tasks, with respect to priors, experience, and generalization diﬃculty.” [3] François Chollet, "On the Measure of Intelligence," arXiv:1911.01547, 2019. https://arxiv.org/abs/1911.01547

▪ ARC（Abstract Reasoning Corpus） ▪ 未知のタスクを少数例から理解する能力を測るベンチマーク ▪ 人間・AIの両方がテストできるようにIQテスト風な内容 ▪ 事前知識の制御のため、少数の事例からグリッドの出力推定する
▪ 開発者にとっても未知にするため、評価データセットは新規タスク ARCとは

▪ ARC-AGIはコンペ開催ごとにデータセットが改良されコンペを中心に研究が進められている ARC-AGI研究のこれまでコンペ名（※ paper trackを除く）データセット開催年 Abstraction
and Reasoning Challenge ARC-AGI-1（=ARC） 2020 ARCathon ARC-AGI-1 2022,2023 ARC-Prize 2024 ARC-AGI-1 2024 ARC-Prize 2025 ARC-AGI-2 2025 ARC-Prize 2026 ARC-AGI-2 ARC-AGI-2 2026 ARC-Prize 2026 ARC-AGI-3 ARC-AGI-3 2026

10 02 ARC-AGIコンペと上位解法

▪ コンペ概要 ▪ ARC-AGI-1課題を解くコンペ ▪ 入力画像・グリッドに対して出力グリッドを3つ提出可能 3つの内1つでも合っていれば正解。平均エラー率で評価 ▪ この頃はまだ賞金総額2万ドルと控えめ Abstraction
and Reasoning Challenge (2020)[4] [4] Kaggle, “Abstraction and Reasoning Challenge”, https://www.kaggle.com/competitions/abstraction-and-reasoning-challenge この例のルール：緑に囲まれた領域を黄色く塗る→画像が完全一致で正解

▪ 上位はDSL(Domain-Speciﬁc Language)を使用※2 ▪ 1st Place (error率=0.794） ▪ 142個の画像変換関数を組み合わせたDSLプログラムを探索し、訓練セットを正しく変換する処理を見つけるソルバーを作成[5]
▪ 2nd Place (error率=0.813） ▪ 1位と同じくDSL ▪ タスク解析を行い、解きやすい形に変換してから、画像処理関数を最良候補に適用していく[6] Abstraction and Reasoning Challenge：上位解法 [5] 1st place solution, https://www.kaggle.com/competitions/abstraction-and-reasoning-challenge/writeups/icecuber-1st-place-solution-code-and-official-docu [6] 2nd place solution, https://www.kaggle.com/competitions/abstraction-and-reasoning-challenge/writeups/alejandro-roderic-yuji-2nd-place-solution ※2 DSL（Domain-Specific Language）は、ある特定の領域の問題を表現しやすくするための専用言語。馴染み深い例だと SQLや正規表現など。このコンペでは画像処理関数を DSLの構成要素として、探索を行っている。

▪ コンペ概要 ▪ ARC-Prizeの前身となるコンペ（主催：Lab42[9]）同じくARC-AGI-1課題を解くコンペ ▪ 2022・2023年に開催され、賞金総額10万ドルずつ ▪ トップ解法はどちらも30%程度の正解率 ▪
このコンペ自体の詳細な技術レポートはなし後段のARC-Prize technical report 2024[10]によると、この時点もDSLベースの手法が中心だったよう ARCathon 2022-2023[7,8] [7] Lab42, “ARCathon 2022”, https://lab42.global/past-challenges/2022-arcathon/ [8] Lab42, “ARCathon 2023”, https://lab42.global/past-challenges/2023-arcathon/ [9] Lab42, “About”, https://lab42.global/about/ [10] Chollet et al., ARC Prize 2024 Technical Report, 2024 https://arxiv.org/abs/2412.04604

▪ コンペ概要 ▪ 過去コンペと同じくARC課題を解くコンペ、予測は2つまででどちらかが正解すればOK ▪ 賞金総額110万ドル ▪ コンペそのものの賞金総額は12.5万ドル ▪
★85%以上の精度が出せれば60万ドル授与 ▪ ★残り37.5万ドルはARC-prizeよりアナウンス予定（保留？） ARC-Prize 2024[11] [11] kaggle, “ARC Prize 2024”, https://www.kaggle.com/competitions/arc-prize-2024

▪ 上位はTTT(Test-Time-Training)を使用※３ ▪ LLMそのままだと11%以上はスコア出せず、一般化が困難 ▪ 1st Place：LLMでFinetune→TTT→DFSで探索 (score=53.5%) ▪ 2nd
Place：LLM+TTT＋DSLとアンサンブル (score=40.0%) ARC-Prize 2024:上位解法 [12] 1st place solution, https://github.com/da-fr/arc-prize-2024/blob/main/the_architects.pdf [13] 2nd place solution, https://www.kaggle.com/competitions/arc-prize-2024/writeups/guillermo-barbadillo-2nd-place-solution-for-the-ar ※3 TTT(Test-Time-Training): ARCは各問題ごとに入力グリッドのサンプルが与えられるので、推論時にそのサンプルを Augmentationした上でLoRAで追加学習してから出力グリッド推論させている

▪ ARC-AGI-1の欠陥 ▪ 2024年までLB用の評価データが無くleakの危険性 ▪ 総当りのプログラム検索手法で、全体の49%は解かれている ▪ ARC-AGI-2の特徴 ▪ LB・PBのデータセットを120ずつ用意
▪ 評価データセットの難易度を校正 ▪ 最新AIが解けず人間が簡単に解けたタスク ▪ ルールを理解しないと解けない ▪ 図形の意味解釈 ▪ 文脈依存 ▪ 複数ルールの組み合わせ ARC-AGI-2[14] [14] ARC-Prize, Announcing ARC-AGI-2 and ARC Prize 2025, https://arcprize.org/blog/announcing-arc-agi-2-and-arc-prize-2025

▪ コンペ概要 ▪ 過去のARC-AGIコンペと同じルール（予測は2つまででどちらかが正解すればOK）でARC-AGI-2を解く ▪ 賞金総額100万ドル ▪ コンペそのものの賞金総額は12.5万ドル ▪
★85%以上の精度が出せればボーナスで70万ドル授与 ▪ ★残り17.5万ドルはARC-prizeよりアナウンス予定（保留？） ARC-Prize 2025[15] [15] kaggle, “ARC Prize 2025”, https://www.kaggle.com/competitions/arc-prize-2025

▪ 基本的にはARC-Prize 2024と同じくTTTが有効 ▪ 1st Place[16] ▪ タスクの説明を集めて新しいタスクの概要を生成 ▪
入出力グリッドのコードを生成→データ生成 ▪ 事前学習→TTT→DFS ▪ TRM（後述）とアンサンブル寄与度は小さめとのこと ARC-Prize 2025:上位解法 [16] “NVARC solution”, https://www.kaggle.com/competitions/arc-prize-2025/writeups/nvarc

▪ 巨大モデルではなく小さい推論モデルを再帰的に回す ▪ paper-trackで1位の論文[18] ▪ CoTはtextを再帰的に入力 TRMは回答と内部状態を再帰的に入力 ▪ ARCタスクで大きいモデルと遜色ないスコア関連研究：TRM
(Tiny Recursive Model)[17] [17] A. Jolicoeur‑Martineau, "Less is More: Recursive Reasoning with Tiny Networks," arXiv:2510.04871, 2025. https://arxiv.org/abs/2510.04871 [18] F. Chollet, M. Knoop, G. Kamradt, and B. Landers,"ARC Prize 2025: Technical Report," arXiv:2601.10904, 2026. https://arxiv.org/html/2601.10904v1

▪ ARC-AGI-2がLLMベンチマークとして活用されている ▪ 多くの最先端モデルがsemi-privateで高スコア ▪ 一方LLMにARC-AGI-1,2のデータがleakしてそうな挙動が散見 ▪ ARC-AGI-3の開発 ▪ 過去のleak汚染対策のため
データセットを一新 ▪ インタラクティブな推論環境で exploration, planning, memory, goal acquisition, alignmentなど評価できるように設計 ARC-AGI-2の現在地 ARC-AGI Leaderboard[19] [19] ARC-Prize,”ARC-Prize - Leaderboard”, https://arcprize.org/leaderboard

▪ ARC-AGI-3[21] ▪ 1手ずつ進める1人プレイゲーム環境 ▪ ゴール・ルールの説明・情報なし ▪ クリア手数が人間と比べて少なくゲームのレベルが高いほど高スコア ▪
コンペ概要 ▪ ARC-AGI-3を解く ▪ 賞金総額85万ドル ▪ ★100%スコア達成で70万ドル ▪ ※スコア評価の詳細は後述 ARC-Prize 2026 ARC-AGI-3[20] [20] kaggle, “ARC Prize 2026 - ARC-AGI-3 | Kaggle”, https://www.kaggle.com/competitions/arc-prize-2026-arc-agi-3 [21] ARC Prize Foundation,"ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence,"arXiv:2603.24621, 2026. https://arxiv.org/abs/2603.24621

▪ スコア評価（手数・レベル重み付きクリア率） ▪ S:効率スコア（h=人間の手数,a=AIの手数,h/aを評価） ▪ E:環境スコア（w=レベル重み,k=クリア数, Sを重み付け） ▪ T:ベンチスコア（Eの平均） ▪
ARC-AGI-3のコンペは激ムズ ▪ 人間の速さでゲーム全クリでスコア100% ▪ LLM-AgentのLB1位はスコア1.5%… ▪ kaggleLBの1位もスコア1%程度… ARC-AGI-3の現在地

23 03 まとめ

▪ ARC-AGIタスクの面白さ ▪ ロジカルシンキングなどで具体・抽象化を行き来することで良い問題解決ができるとされている ▪ 得られた情報を抽象化して、ルールを推測し、応用するという点が似ていて、やりたいことが面白いなと思いました ▪ ただ毎回コンペとしての参加難易度がかなり高い印象…
個人的な所感

▪ ARC-AGIの研究の流れの紹介 ▪ ARC-AGIの一連のコンペおよびARC-AGIコンペにおける上位ソリューションの紹介 ▪ ARC-AGIの各種データセットの紹介まとめ

ARC-AGIとは何か

ARC-AGIとは何か

pensukesan

More Decks by pensukesan

Featured

Transcript

AI Community 2026.06.18 廣中　栄介 GOドライブ株式会社 ARC-AGIとは何か AI技術共有会

廣中栄介 GOドライブ株式会社 AI本部 AI技術開発2部 • 業務内容 ◦ 次世代AIドラレコサービス『DRIVE CHART』のリスク運転検出機能開発

3 目次 01｜ARC-AGIとは 02｜ARC-AGIコンペと上位解法 03｜まとめ

4 01 ARC-AGIとは

5 ▪ ARC-Prize・ARC-AGIコンペ ▪ 現在総額200万ドルのコンペが開催されている[1] ▪ ハードルが高いのか周囲で参加している人が少ない →いったいどういうコンペ・研究領域なのか kaggleで時折見かける高額賞金コンペの一つ [1]

▪ ARC-Prize Foundation[2] ▪ 2024年に設立されたAGIの実現に取り組む非営利団体 ▪ 設立以降高額賞金のコンペシリーズARC-Prizeを開催 ▪ ARC-AGIコンペ ▪

▪ ARC（Abstract Reasoning Corpus） ▪ 未知のタスクを少数例から理解する能力を測るベンチマーク ▪ 人間・AIの両方がテストできるようにIQテスト風な内容 ▪ 事前知識の制御のため、少数の事例からグリッドの出力推定する

▪ ARC-AGIはコンペ開催ごとにデータセットが改良されコンペを中心に研究が進められている ARC-AGI研究のこれまでコンペ名（※ paper trackを除く）データセット開催年 Abstraction

10 02 ARC-AGIコンペと上位解法

▪ コンペ概要 ▪ ARC-AGI-1課題を解くコンペ ▪ 入力画像・グリッドに対して出力グリッドを3つ提出可能 3つの内1つでも合っていれば正解。平均エラー率で評価 ▪ この頃はまだ賞金総額2万ドルと控えめ Abstraction

▪ 上位はDSL(Domain-Speciﬁc Language)を使用※2 ▪ 1st Place (error率=0.794） ▪ 142個の画像変換関数を組み合わせたDSLプログラムを探索し、訓練セットを正しく変換する処理を見つけるソルバーを作成[5]

▪ コンペ概要 ▪ ARC-Prizeの前身となるコンペ（主催：Lab42[9]）同じくARC-AGI-1課題を解くコンペ ▪ 2022・2023年に開催され、賞金総額10万ドルずつ ▪ トップ解法はどちらも30%程度の正解率 ▪

▪ コンペ概要 ▪ 過去コンペと同じくARC課題を解くコンペ、予測は2つまででどちらかが正解すればOK ▪ 賞金総額110万ドル ▪ コンペそのものの賞金総額は12.5万ドル ▪

▪ 上位はTTT(Test-Time-Training)を使用※３ ▪ LLMそのままだと11%以上はスコア出せず、一般化が困難 ▪ 1st Place：LLMでFinetune→TTT→DFSで探索 (score=53.5%) ▪ 2nd

▪ ARC-AGI-1の欠陥 ▪ 2024年までLB用の評価データが無くleakの危険性 ▪ 総当りのプログラム検索手法で、全体の49%は解かれている ▪ ARC-AGI-2の特徴 ▪ LB・PBのデータセットを120ずつ用意

▪ コンペ概要 ▪ 過去のARC-AGIコンペと同じルール（予測は2つまででどちらかが正解すればOK）でARC-AGI-2を解く ▪ 賞金総額100万ドル ▪ コンペそのものの賞金総額は12.5万ドル ▪

▪ 基本的にはARC-Prize 2024と同じくTTTが有効 ▪ 1st Place[16] ▪ タスクの説明を集めて新しいタスクの概要を生成 ▪

▪ 巨大モデルではなく小さい推論モデルを再帰的に回す ▪ paper-trackで1位の論文[18] ▪ CoTはtextを再帰的に入力 TRMは回答と内部状態を再帰的に入力 ▪ ARCタスクで大きいモデルと遜色ないスコア関連研究：TRM

▪ ARC-AGI-2がLLMベンチマークとして活用されている ▪ 多くの最先端モデルがsemi-privateで高スコア ▪ 一方LLMにARC-AGI-1,2のデータがleakしてそうな挙動が散見 ▪ ARC-AGI-3の開発 ▪ 過去のleak汚染対策のため

▪ ARC-AGI-3[21] ▪ 1手ずつ進める1人プレイゲーム環境 ▪ ゴール・ルールの説明・情報なし ▪ クリア手数が人間と比べて少なくゲームのレベルが高いほど高スコア ▪

▪ スコア評価（手数・レベル重み付きクリア率） ▪ S:効率スコア（h=人間の手数,a=AIの手数,h/aを評価） ▪ E:環境スコア（w=レベル重み,k=クリア数, Sを重み付け） ▪ T:ベンチスコア（Eの平均） ▪

23 03 まとめ

▪ ARC-AGIの研究の流れの紹介 ▪ ARC-AGIの一連のコンペおよびARC-AGIコンペにおける上位ソリューションの紹介 ▪ ARC-AGIの各種データセットの紹介まとめ