Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ARC-AGIとは何か

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for pensukesan pensukesan
June 04, 2026
66

 ARC-AGIとは何か

社内のAI技術共有会で使用予定の資料です。
ARC-AGIコンペシリーズについて紹介しています。

Avatar for pensukesan

pensukesan

June 04, 2026

Transcript

  1. 廣中 栄介 GOドライブ株式会社 AI本部 AI技術開発2部 • 業務内容 ◦ 次世代AIドラレコサービス『DRIVE CHART』のリスク運転検出機能開発

    • 経歴 ◦ 機械工学専攻修士卒 (~2018.3) ◦ 大手車載機器メーカー入社(~2019.10) ▪ ドライバー状態推定の研究開発 ◦ IT・Webベンチャー(~2022.11) ▪ Web/Appの分析、画像認識モデル開発 ◦ AIベンチャー(~2024.1) ▪ 建設業界向けAIシステム開発・ゲームAI開発 ◦ GO株式会社 (2024.2~)、GOドライブ株式会社(2025.9~) ▪ 『DRIVE CHART』の分析・AI機能開発 • SNS ◦ X:https://twitter.com/pensuke_san ◦ kaggle:https://www.kaggle.com/pensukesan 自己紹介 2
  2. ▪ ARC-Prize Foundation[2] ▪ 2024年に設立されたAGIの実現に取り組む非営利団体 ▪ 設立以降高額賞金のコンペシリーズARC-Prizeを開催 ▪ ARC-AGIコンペ ▪

    ARC-AGI:=AGI(汎用人工知能)のためのベンチマークデータ ▪ 人間には簡単に解けるがAIには難しいタスク AGIの実現に向けたギャップを特定 ▪ コンペではこのベンチマークタスクを解く ▪ Gemini,Claude,ChatGPTなどLLM-Agentの性能評価にも利用 ARC-Prize・ARC-AGIコンペとは [2] ARC Prize, “Mission”, https://arcprize.org/about
  3. 7 ▪ AGIの実現に向けた知能の定義 ▪ 「システムの知能とは、事前知識(priors)、経験、そして一般 化の難しさを考慮した上で、ある範囲の課題に対してどれだけ効 率よく技能を獲得できるかを測る尺度である。」※1 ▪ ❌ 大量データの学習やタスク専用設計により高得点を出す

    ✅ 未知性の高い課題について少ない情報から将来の状況に 対応できる有効な解法を作る能力 ▪ この定義に基づく知能を測定する ためのタスク=ARC-AGIを提案 On the Measure of Intelligence (Chollet 2019)[3] ※1原文“The intelligence of a system is a measure of its skill-acquisition efficiency over a scope of tasks, with respect to priors, experience, and generalization difficulty.” [3] François Chollet, "On the Measure of Intelligence," arXiv:1911.01547, 2019. https://arxiv.org/abs/1911.01547
  4. ▪ ARC-AGIはコンペ開催ごとにデータセットが改良され コンペを中心に研究が進められている ARC-AGI研究のこれまで コンペ名(※ paper trackを除く) データセット 開催年 Abstraction

    and Reasoning Challenge ARC-AGI-1(=ARC) 2020 ARCathon ARC-AGI-1 2022,2023 ARC-Prize 2024 ARC-AGI-1 2024 ARC-Prize 2025 ARC-AGI-2 2025 ARC-Prize 2026 ARC-AGI-2 ARC-AGI-2 2026 ARC-Prize 2026 ARC-AGI-3 ARC-AGI-3 2026
  5. ▪ コンペ概要 ▪ ARC-AGI-1課題を解くコンペ ▪ 入力画像・グリッドに対して出力グリッドを3つ提出可能 3つの内1つでも合っていれば正解。平均エラー率で評価 ▪ この頃はまだ賞金総額2万ドルと控えめ Abstraction

    and Reasoning Challenge (2020)[4] [4] Kaggle, “Abstraction and Reasoning Challenge”, https://www.kaggle.com/competitions/abstraction-and-reasoning-challenge この例のルール:緑に囲まれた領域を黄色く塗る→画像が完全一致で正解
  6. ▪ 上位はDSL(Domain-Specific Language)を使用※2 ▪ 1st Place (error率=0.794) ▪ 142個の画像変換関数を組み合わせたDSLプログラムを探索し、 訓練セットを正しく変換する処理を見つけるソルバーを作成[5]

    ▪ 2nd Place (error率=0.813) ▪ 1位と同じくDSL ▪ タスク解析を行い、解きやすい形に変換してから、画像処理関数 を最良候補に適用していく[6] Abstraction and Reasoning Challenge:上位解法 [5] 1st place solution, https://www.kaggle.com/competitions/abstraction-and-reasoning-challenge/writeups/icecuber-1st-place-solution-code-and-official-docu [6] 2nd place solution, https://www.kaggle.com/competitions/abstraction-and-reasoning-challenge/writeups/alejandro-roderic-yuji-2nd-place-solution ※2 DSL(Domain-Specific Language)は、ある特定の領域の問題を表現しやすくするための専用言語。馴染み深い例だと SQLや正規表現など。このコ ンペでは画像処理関数を DSLの構成要素として、探索を行っている。
  7. ▪ コンペ概要 ▪ ARC-Prizeの前身となるコンペ(主催:Lab42[9]) 同じくARC-AGI-1課題を解くコンペ ▪ 2022・2023年に開催され、賞金総額10万ドルずつ ▪ トップ解法はどちらも30%程度の正解率 ▪

    このコンペ自体の詳細な技術レポートはなし 後段のARC-Prize technical report 2024[10]によると、この時 点もDSLベースの手法が中心だったよう ARCathon 2022-2023[7,8] [7] Lab42, “ARCathon 2022”, https://lab42.global/past-challenges/2022-arcathon/ [8] Lab42, “ARCathon 2023”, https://lab42.global/past-challenges/2023-arcathon/ [9] Lab42, “About”, https://lab42.global/about/ [10] Chollet et al., ARC Prize 2024 Technical Report, 2024 https://arxiv.org/abs/2412.04604
  8. ▪ コンペ概要 ▪ 過去コンペと同じくARC課題を解くコンペ、予測は2つまでで どちらかが正解すればOK ▪ 賞金総額110万ドル ▪ コンペそのものの賞金総額は12.5万ドル ▪

    ★85%以上の精度が出せれば60万ドル授与 ▪ ★残り37.5万ドルはARC-prizeよりアナウンス予定(保留?) ARC-Prize 2024[11] [11] kaggle, “ARC Prize 2024”, https://www.kaggle.com/competitions/arc-prize-2024
  9. ▪ 上位はTTT(Test-Time-Training)を使用※3 ▪ LLMそのままだと11%以上はスコア出せず、一般化が困難 ▪ 1st Place:LLMでFinetune→TTT→DFSで探索 (score=53.5%) ▪ 2nd

    Place:LLM+TTT+DSLとアンサンブル (score=40.0%) ARC-Prize 2024:上位解法 [12] 1st place solution, https://github.com/da-fr/arc-prize-2024/blob/main/the_architects.pdf [13] 2nd place solution, https://www.kaggle.com/competitions/arc-prize-2024/writeups/guillermo-barbadillo-2nd-place-solution-for-the-ar ※3 TTT(Test-Time-Training): ARCは各問題ごとに入力グリッドのサンプルが与えられるので、推論時にそのサンプルを Augmentationした上でLoRAで 追加学習してから出力グリッド推論させている
  10. ▪ ARC-AGI-1の欠陥 ▪ 2024年までLB用の評価データが無くleakの危険性 ▪ 総当りのプログラム検索手法で、全体の49%は解かれている ▪ ARC-AGI-2の特徴 ▪ LB・PBのデータセットを120ずつ用意

    ▪ 評価データセットの難易度を校正 ▪ 最新AIが解けず人間が簡単に解けたタスク ▪ ルールを理解しないと解けない ▪ 図形の意味解釈 ▪ 文脈依存 ▪ 複数ルールの組み合わせ ARC-AGI-2[14] [14] ARC-Prize, Announcing ARC-AGI-2 and ARC Prize 2025, https://arcprize.org/blog/announcing-arc-agi-2-and-arc-prize-2025
  11. ▪ コンペ概要 ▪ 過去のARC-AGIコンペと同じルール(予測は2つまででどちらか が正解すればOK)でARC-AGI-2を解く ▪ 賞金総額100万ドル ▪ コンペそのものの賞金総額は12.5万ドル ▪

    ★85%以上の精度が出せればボーナスで70万ドル授与 ▪ ★残り17.5万ドルはARC-prizeよりアナウンス予定(保留?) ARC-Prize 2025[15] [15] kaggle, “ARC Prize 2025”, https://www.kaggle.com/competitions/arc-prize-2025
  12. ▪ 基本的にはARC-Prize 2024と同じくTTTが有効 ▪ 1st Place[16] ▪ タスクの説明を集めて 新しいタスクの概要を生成 ▪

    入出力グリッドのコードを 生成→データ生成 ▪ 事前学習→TTT→DFS ▪ TRM(後述)とアンサンブル 寄与度は小さめとのこと ARC-Prize 2025:上位解法 [16] “NVARC solution”, https://www.kaggle.com/competitions/arc-prize-2025/writeups/nvarc
  13. ▪ 巨大モデルではなく小さい推論モデルを再帰的に回す ▪ paper-trackで1位の論文[18] ▪ CoTはtextを再帰的に入力 TRMは回答と内部状態を再帰的に入力 ▪ ARCタスクで大きいモデルと遜色ないスコア 関連研究:TRM

    (Tiny Recursive Model)[17] [17] A. Jolicoeur‑Martineau, "Less is More: Recursive Reasoning with Tiny Networks," arXiv:2510.04871, 2025. https://arxiv.org/abs/2510.04871 [18] F. Chollet, M. Knoop, G. Kamradt, and B. Landers,"ARC Prize 2025: Technical Report," arXiv:2601.10904, 2026. https://arxiv.org/html/2601.10904v1
  14. ▪ ARC-AGI-2がLLMベンチマークとして活用されている ▪ 多くの最先端モデルがsemi-privateで高スコア ▪ 一方LLMにARC-AGI-1,2のデータがleakしてそうな挙動が散見 ▪ ARC-AGI-3の開発 ▪ 過去のleak汚染対策のため

    データセットを一新 ▪ インタラクティブな推論環境で exploration, planning, memory, goal acquisition, alignmentなど 評価できるように設計 ARC-AGI-2の現在地 ARC-AGI Leaderboard[19] [19] ARC-Prize,”ARC-Prize - Leaderboard”, https://arcprize.org/leaderboard
  15. ▪ ARC-AGI-3[21] ▪ 1手ずつ進める1人プレイゲーム環境 ▪ ゴール・ルールの説明・情報なし ▪ クリア手数が人間と比べて少なく ゲームのレベルが高いほど高スコア ▪

    コンペ概要 ▪ ARC-AGI-3を解く ▪ 賞金総額85万ドル ▪ ★100%スコア達成で70万ドル ▪ ※スコア評価の詳細は後述 ARC-Prize 2026 ARC-AGI-3[20] [20] kaggle, “ARC Prize 2026 - ARC-AGI-3 | Kaggle”, https://www.kaggle.com/competitions/arc-prize-2026-arc-agi-3 [21] ARC Prize Foundation,"ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence,"arXiv:2603.24621, 2026. https://arxiv.org/abs/2603.24621
  16. ▪ スコア評価(手数・レベル重み付きクリア率) ▪ S:効率スコア(h=人間の手数,a=AIの手数,h/aを評価) ▪ E:環境スコア(w=レベル重み,k=クリア数, Sを重み付け) ▪ T:ベンチスコア(Eの平均) ▪

    ARC-AGI-3のコンペは激ムズ ▪ 人間の速さでゲーム全クリでスコア100% ▪ LLM-AgentのLB1位はスコア1.5%… ▪ kaggleLBの1位もスコア1%程度… ARC-AGI-3の現在地