Claude Code × autoresearch 実践

Findy TECH BATON Claude Code × autoresearch 実践無限に試行錯誤するAIエージェントを堅実に/安全に回す 2026/4/24　数理の弾丸（船蔵
颯）

autoresearch 提案・評価のループを AI エージェントに繰り返させることで試行錯誤を自動化する Karpathy 発の取り組み Andrej Karpathy @karpathy In
the image, every dot is a complete LLM training run that lasts exactly 5 minutes. The agent works in an autonomous loop on a git feature branch and accumulates git commits to the training script as it finds better settings (of lower validation loss by the end) of the neural network architecture, the optimizer, all the hyperparameters, etc. この画像において、各点はちょうど5分間行われるLLMの学習を指しています。エージェントはgitのfetature ブランチ上で [中略] gitコミットを蓄積していきます。評価指標採用された提案却下された提案試行回数 https://x.com/karpathy/status/2030371219518931079 数理の弾丸, 2026

Karpathy本人以外の事例も増えている ML/DLモデリング野球の球速予測モデルの学習戦略プロンプト最適化音声エージェントのシステムプロンプト https://x.com/drivelinekyle/status/2032242254035992610 数理の弾丸, 2026 https://x.com/archiexzzz/status/2033258540312510702 ソフトウェア高速化
Ruby テンプレートエンジンの高速化 https://x.com/tobi/status/2032212531846971413

実際に取り組んでみて autoresearch ループを回す中で特に気をつけるべきことが大きく2つある井の中の蛙問題 autoresearch ＝評価用ベンチマークに沿うロジックの探索シンプルに危ないという問題目を離した隙に取り返しがつかないアクションを
打たれてしまう可能性がある下はあくまでイメージ改善提案ベンチマークでの評価そのベンチマークでしか役に立たないものが出来上がっているかもしれないこの問題は機械学習では meta-overfitting（メタ過学習）などと呼ぶ数理の弾丸, 2026 寝ている間に試行錯誤が進む、がautoresearchのコンセプト。それならば安全にも気を配りたい

各問題への対処それぞれの問題に対して私がやっている対処法を紹介します井の中の蛙問題に対して試行錯誤ループで使っているのとは別のデータでの評価を並走させるシンプルに危ないという問題に対して Docker サンドボックスで走らせるホスト環境 Docker
サンドボックス赤点：ドメイン外 / 分布外データでの評価評価データも評価結果もエージェント不可視化最悪、壊しても良い環境で無限作業させる（Permission/Hooks なども使って多層に守る）数理の弾丸, 2026

以上！事例増えているので、覗いてみたら面白いかも＆知見をコミュニティで育てていきたい https://github.com/alvinreal/awesome-autoresearch 数理の弾丸, 2026

Claude Code × autoresearch 実践

Claude Code × autoresearch 実践

数理の弾丸

More Decks by 数理の弾丸

Other Decks in Research

Featured

Transcript

Findy TECH BATON Claude Code × autoresearch 実践無限に試行錯誤するAIエージェントを堅実に/安全に回す 2026/4/24　数理の弾丸（船蔵

autoresearch 提案・評価のループを AI エージェントに繰り返させることで試行錯誤を自動化する Karpathy 発の取り組み Andrej Karpathy @karpathy In

以上！事例増えているので、覗いてみたら面白いかも＆知見をコミュニティで育てていきたい https://github.com/alvinreal/awesome-autoresearch 数理の弾丸, 2026

Claude Code × autoresearch 実践

Claude Code × autoresearch 実践

数理の弾丸

More Decks by 数理の弾丸

Other Decks in Research

Featured

Transcript

Findy TECH BATON Claude Code × autoresearch 実践 無限に試行錯誤するAIエージェントを堅実に/安全に回す 2026/4/24 数理の弾丸（船蔵

autoresearch 提案・評価のループを AI エージェントに繰り返させることで試行錯誤を自動化する Karpathy 発の取り組み Andrej Karpathy @karpathy In

以上！ 事例増えているので、覗いてみたら面白いかも ＆ 知見をコミュニティで育てていきたい https://github.com/alvinreal/awesome-autoresearch 数理の弾丸, 2026

Findy TECH BATON Claude Code × autoresearch 実践無限に試行錯誤するAIエージェントを堅実に/安全に回す 2026/4/24　数理の弾丸（船蔵

以上！事例増えているので、覗いてみたら面白いかも＆知見をコミュニティで育てていきたい https://github.com/alvinreal/awesome-autoresearch 数理の弾丸, 2026