AI駆動AI研究に向けて

AI駆動AI研究に向けて Shiro Takagi (Unktok CEO) @1st AI Builders Community (2025/03/18)

研究する AI に興味があります！ Shiro Takagi 2014年：慶應義塾大学卒業 2018年：東京大学大学院修了(機械学習) 2020年〜：独立研究者(機械学習) 2024年〜：Unktok inc.

AI-Native AI Research System

AI 研究をする AI の開発 1. 研究 AI のための研究プラットフォームの開発 2.

1. 研究するAIに関するこれまでの取り組み 2. Unktok が目指していることについて Outline

1900s Robot AI Dendral BACON Adam AlphaFold AI Scientist MLAgent
ChemCrow Coscientist MOOSE prompt2model ... Automated Theorem Proving SciML Physics Informed ML 2000s 2012 Laboratory Automation Scientific Workflow Program Synthesis Scholarly Document Processing Automated Experimental Design Literature Based Discovery Symbolic Regression ... Computer ML DNN この図は網羅的ではなく、分野や論文の選択には作成者の強い好み・主観が入っており、時系列も厳密ではない可能性がありますので、参考程度でお願いします Nobel Turing Challenge AI for Science 4thScience Curious Agent AI Feynman Geometric DL Galactica Bayes for Science Neural Operator ReviewRobot PaperRobot MLR-Copilot AlphaGeometry data2paper ... WINGS ... ... ChatGPT 2022 Scientific Claim Verifi. Mahoro Solevent SemNet ... DISK 3rdScience [Wang+ 2023] 2017 Transformer AutoML MLOps AM Logic Theorist Automatic Statistician Eve

[Lu+ 2024] https://sakana.ai/ai-scientist-jp/

[Lu+ 2024]

新しい知識抽象的には「新しい知識」を自律的に生産するAI

アイデア生成アイデア検証論文執筆論文査読知識生産知識表現/共有

Scideator: Human-LLM Scientific Idea Generation Grounded in Research-Paper Facet Recombination
[Radensky+ 2024] IdeaBench: Benchmarking Large Language Models for Research Idea Generation [Guo+ 2024] Two Heads Are Better Than One: A Multi-Agent System Has the Potential to Improve Scientific Idea Generation [Su+ 2024] Chain of Ideas: Revolutionizing Research Via Novel Idea Development with LLM Agents [Li+ 2024] SciPIP: An LLM-based Scientific Paper Idea Proposer [Wang+ 2024] Improving Scientific Hypothesis Generation with Knowledge Grounded Large Language Models [Xiong+ 2024] Nova: An Iterative Planning and Search Approach to Enhance Novelty and Diversity of LLM Generated Ideas [Hu+ 2024] IdeaSynth: Iterative Research Idea Development Through Evolving and Composing Idea Facets with Literature-Grounded Feedback [Pu+ 2024] ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [Baek+ 2024] OpenResearcher: Unleashing AI for Accelerated Scientific Research [Zheng+ 2024] Generation and human-expert evaluation of interesting research ideas using knowledge graphs and large language models [Gu & Krenn 2024] SCIMON : Scientific Inspiration Machines Optimized for Novelty [Wang+ 2023] AutoML-GPT: Automatic Machine Learning with GPT [Zhang+ 2023] Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [Yang+ 2023] SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning [Ghafarollahi & Buehler 2024] Creative research question generation for human-computer interaction research [Liu+ 2023] Mapping the challenges of hci: An application and evaluation of chatgpt and gpt-4 for cost-efficient question answering [Oppenlaender & Hamalainen 2023] Evaluating the use of large language model in identifying top research questions in gastroenterology [Lahat+ 2023] ... and more !! アイデア生成/課題発見研究は昔からあり今も新しい論文が続々出てる

[Wang+ 2024] AutoSurvey サーベイ/システマティックレビューの自動生成！ (論文の検索から論文の要約やグルーピング、論文の執筆に至るまで) [Hu+ 2024] HiReview

[Baek+ 2024] Chain of Ideas [Li+ 2024] ResearchAgent 研究の流れの情報を陽に組み込んだアイデア生成やエージェントベースで反復的にアイデアを改善する枠組みなどが提案されている

AI Co-Scientist [Gottweis+ 2025]

Novelty Kumar+ (2024) Can Large Language Models Unlock Novel Scientific
Research Ideas? 現在の LLM でも人間に比肩する研究アイデアを生成可能であり、特に新規性の点では人間を超えるようなアイデアも生成可能一方凡庸なアイデアも生成するし実現可能性などの面では課題もあり Si+ (2024) Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers Guo+ (2024) IdeaBench: Benchmarking Large Language Models for Research Idea Generation

アイデア生成アイデア検証論文執筆論文査読少ない！知識生産知識表現/共有

[Kon+ 2025] Curie 頑健な実験計画・実行をするためのエージェントのフレームワーク

論文/コードベースから研究の部分的な再現実装(実行)の自動化とそのためのベンチマーク [Siegel+ 2024] CORE-Bench SUPER [Bogin+ 2024] [Tang+ 2023] ML-Bench
CodeRefine [Bogin+ 2024]

[Butt 2024] BenchAgents (簡易的な)ベンチマーク/評価タスクの自動生成の試み！ Automated Capability Discovery [Lu+ 2024]

Artificial Intelligence Technologies to Support Research Assessment: A Review [Kousha+
2022] Automated Scholarly Paper Review: Possibility and Challenges [Lin+ 2022] Can Large Language Models Provide Useful Feedback on Research Papers? A Large-Scale Empirical Analysis [Liang+ 2023] Reviewergpt? an Exploratory Study on Using Large Language Models for Paper Reviewing [Liu+ 2023] Aries: A Corpus of Scientific Paper Edits Made in Response to Peer Reviews [D’Arcy+ 2023] Gpt4 is Slightly Helpful for Peer-Review Assistance: A Pilot Study [Robertson 2023] AgentReview: Exploring Peer Review Dynamics with LLM Agents [Jin+ 2024] Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions [Tan+ 2024] RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [Couto+ 2024] MARG: Multi-Agent Review Generation for Scientific Papers [D'Arcy+ 2024] Generative Adversarial Reviews: When LLMs Become the Critic [Bougie+ 2024] The AI Review Lottery: Widespread AI-Assisted Peer Reviews Boost Paper Scores and Acceptance Rates [Latona+ 2024] Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS’24 Experiment [Goldberg+ 2024] What Can Natural Language Processing Do for Peer Review? [Kuznetsov+ 2024] ReviewFlow: Intelligent Scaffolding to Support Academic Peer Reviewing [Sun+ 2024] Prompting LLMs to Compose Meta-Review Drafts from Peer-Review Narratives of Scholarly Manuscripts [Santu+ 2024] OpenReviewer: A Specialized Large Language Model for Generating Critical Scientific Paper Reviews [Idahl+ 2024] LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [Du+ 2024] Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [Ye+ 2024] Is LLM a Reliable Reviewer? A Comprehensive Evaluation of LLM on Automatic Paper Reviewing Tasks [Zhou+ 2024] DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process [Zhu+ 2025] ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews [Gao+ 2025] ... and more! 査読(研究評価)の自動化とその評価の研究もたくさん

[Liang＋ 2023] [Weng＋ 2024] CycleReviewer LLM は概ね有用なフィードバックを与えるだけでなく、訓練によって人間よりも(MAEの意味で)良く査読スコアを予測できるという報告も

[Du＋ 2024] [Zhou＋ 2024] 一方でLLMは浅い査読や事実誤認の検出、健全性の評価に課題がある他、人間より過度に高いスコアをつける傾向や、長い文章に高いスコアをつける傾向など様々なバイアスを抱えている [Ye＋ 2024] [Zhou+ 2024]
[Latona+ 2024]

また、現在のLLMの査読結果はプロンプトインジェクションなどによって操作することが可能であり、これは科学知識の信頼性に深刻な影響を与える可能性もある [Ye+ 2024]

https://sakana.ai/ai-scientist-first-publication-jp/ [Autoscience Institute+ 2025] Carl

[Ifargan+ 2024] Data to paper CycleResearcher [Weng+ 2024] AI Scientist
同様、論文執筆まで自動実行

[Lu+ 2024] MLR-Copilot アイデア生成から実験など研究過程を自律実行 AIGS [Liu+ 2024]

Agent Laboratory [Schmidgall+ 2025]

1. 研究するAIに関するこれまでの取り組み 2. Unktok が目指していることについて Outline

現在の科学が抱える2つの限界人間の認知的/身体的限界科学システムの非効率性

AI 中心の研究システムの構築 AI研究者の開発とAIの研究者のみからなるAI-nativeな研究プラットフォームを構築し、知識生産を抜本的に改革 AI Scientist AI Reviewer AI Funder
AI Scientist

課題発見提案生成提案検証論文執筆現状理解実験計画実験実装実験準備実験実行実験計画
提案課題サーベイ素案生成素案実装デバッグ実行実験コード提案アイデア評価/具体化 /定式化課題分析/ 再定式/ 素案生成目的/ 研究興味立案/具体化/検証実験結果実験計画提案課題研究ログ目的興味具体化/関連研究収集/構造化/比較/ 主要研究者研究機関の特定 etc サーベイ/関連研究アイデア生成アイデア検証論文執筆論文編集ファイル (研究ノート) サーベイ分析/ ギャップ分析/ 課題候補生成/ 課題分解/課題評価/具体化 etc 提案アイデアコード生成コンパイル

AI Researcher Hub AI 生成論文特化の arXiv

AI Scientist AI Scientist AI Researcher Hub AI Scientist AI
Reviewer AI Reviewer AI Scientist AI Reviewer AI Scientist AI Scientist arXiv for AI HF for AI AI-only Research Platform

一緒に研究の未来を創ってく人募集してます！みんなで日本を AI 駆動研究の発信地として盛り上げていきましょう！ X account: @takagi_shiro

AI駆動AI研究に向けて

AI駆動AI研究に向けて

More Decks by Shiro Takagi

Featured

Transcript