Slide 1

Slide 1 text

研究自動化と研究過程の構造化 研究自動化と研究過程の構造化 高木志郎 高木志郎

Slide 2

Slide 2 text

名前:高木志郎 専門:機械学習 twt:@takagi_shiro  研究ができる機械が作りたい

Slide 3

Slide 3 text

0.はじめに 0.はじめに

Slide 4

Slide 4 text

自律的に研究する知能を作りたい 自律的に研究する知能を作るためには何が必要かを知りたい 研究に必要な機能という観点から研究という過程を構造化 研究で一般に人は何をするか?ではなく研究が研究であるため には何がないといけないか?という観点からの区分

Slide 5

Slide 5 text

研究はある社会にとっての新しい知識を生産する営み? 知識は新しくなければいけない → 未知を特定しそれを明らかにすると決める = 問いの生成 ここで問いは必ずしも why に限らない一般的なクエリ why question、how question、what question 問いを立てそれに答えを出そうとするのが研究という営み? → 答えは未知なので答えの「予想」をする = 仮説の生成 → 答えの予想が答えであることを確かめる = 仮説の検証 「仮説検証型研究に限らず、研究とされる営みには一般に問いの 生成/仮説の生成/仮説の検証が必要では?」というかなり強い主張

Slide 6

Slide 6 text

https://www.morikita.co.jp/books/mid/094361

Slide 7

Slide 7 text

1.作戦の立案 2.作戦の準備 3.作戦の実施 4.作戦の引継 私は研究に必要だと思われる機能の立場から分類 石原先生は実際研究者が研究でやる作業を抽象化/構造化 問いの生成 仮説の生成 仮説の検証

Slide 8

Slide 8 text

研究課題生成 Paper Objective 課題解決法生成 手法有効性検証 論文執筆 部分問題へ分解 新規性判断 重要性判断 実現可能性判断 先行研究調査 課題定式/具体化 ... etc. 課題原因分析 解法案生成 解法案定式化 解法案実装 ... etc. 実験計画策定 実験準備 実験実施 データ分析/整理 ... etc. 「導入」 執筆 「提案」 執筆 「実験」 執筆 ... etc. しかし私が実際に今やってるのは人間の研究過程を参考に具体的 な機械学習研究を自動的に実施するシステムのプロトタイピング 現在の LLM ではまだ自律的な研究実施は困難だから 人のような研究をさせるには人間の研究過程が参考になるから 石原先生の整理をベースに具体的にどこが難しいのか、なぜ今 ML 研究 の自動化に注力してるのか etc. を話していきます

Slide 9

Slide 9 text

1.作戦の立案 1.作戦の立案

Slide 10

Slide 10 text

理想の提示 課題の設定 問題の推定 アプローチ選択 目標の配置 手段の決定 https://note.com/hisashi_is/n/ne5a7cae4854d

Slide 11

Slide 11 text

現状の把握 理想の提示 課題の設定 問題の推定 アプローチ選択 目標の配置 手段の決定 それっぽい論文は見つけられるが体系的かつ網 羅的かつ批判的なサーベイはまだできない review 論文を与えるなど工夫が必要 機械が人の知的現状を完璧に把握する困難? 機械が研究の先の理想を出力させる試みはまだ 何でもありなので自動生成は困難/人間社会のた めの理想を考えても考慮すべきことが膨大 安全上やらせるべきかという問題? LLM の出現により大きく改善した部分だが、 「実 現可能性」と「重要性」を考慮するような複雑 な価値判断に基づく課題設定はまだ 課題特定はできるはず 同左/課題の分解は LLM の登場で進んだ分野/一 方で人がやるような分析的な深掘りはまだ 系統的思考の獲得が重要 問題推定はできるはず 上と同様「効果的な」ものは選べるかもだが 「現実的で」 「着実な」ものを選ぶのはまだ アプローチ選択はできるはず 同上/LLMで課題分解の自動化は容易になった が、望ましい性質を持つ目標を原理から選ぶの はまだ 目標の配置はできるはず 同上/LLMで手段決定の自動化は容易になったが 現実的なものを原理から常に選択するのはまだ 手段決定もできるはず

Slide 12

Slide 12 text

2.作戦の準備 2.作戦の準備

Slide 13

Slide 13 text

準備は研究において必要不可欠な工程だがこれまで研究の自動化で注目 されてこなかった & 自律的な実行が困難な激ムズフェーズ (広義には planning だが)すべきことが最終的な目標からかけ離 れてる度合いが大きい 1. (多くの場合)研究が実施される世界との複雑な相互作用が必要 2. Grieves et al, 2020 https://sacla.xfel.jp/?p=312&lang=en https://rbi.co.jp/concept/

Slide 14

Slide 14 text

ある機械学習の研究 リポジトリの準備 提案手法の実装 比較手法の準備 データセットの準備 評価指標の準備 実験スクリプトの実装 etc. https://github.com/OpenInterpreter/open-interpreter https://www.cognition-labs.com/introducing-devin ある種の機械学習研究はその準備も含め PC 上で完結する & LLM によ り PC 上の任意の操作の自動実行がより現実的になっている

Slide 15

Slide 15 text

3.作戦の実施 3.作戦の実施

Slide 16

Slide 16 text

仮説の整理 証拠の収集 証拠の分析 事実の推理 研究成果 ここを完全に自律化するのは難しそう 常にリストアップした仮説だけを修正するので あれば難しくはないが、それら以外の可能性も 含めて検討するのは難しい 特に、検証結果から当初の問い以外の別の問い を立てるダイナミクスの再現は難しそう 仮説を網羅的にリストアップするのは難しそう 証拠の収集が物理世界との相互作用を必要とす る場合は先述の理由と同様の意味で難しいタス クだと思うが、この流れ全体自体の自律実行は 意外とできたりするのではないかと思う ただし現状研究のような検証をやらせる機械学 習研究は私が認識する限りほぼない

Slide 17

Slide 17 text

少なくとも短期的には人間との共同で研究を半自律的 に実行する未来になるはず(Human in the Loop) 安全性などの観点から長期的にもそうあるべきと いう主張もありうる その時に、いつなにをどのように人間に報告/相談さ せるかは重要なトピックになりうる https://x.com/hisashi_is/status/1467697331340734465

Slide 18

Slide 18 text

4.作戦の引継 4.作戦の引継

Slide 19

Slide 19 text

最初から最後までの論文執筆はそのうちできる 単に文書生成だしある程度構造があるし膨大な論文があるから そもそも論文にするかという議論もある 今の技術でもできるはず 書くこと大体決まってるし論文執筆以前に必要な情報以上で盛り 込まなければいけない情報はほぼない しかし今はできてない 長文/引用が文書をまたぐ処理/唯一に定まるほどは構造がない 全ての研究者が論文に入れ込むべき情報を微細な構造まで含めて 必ずしも言語化し明示的に認識できているわけではない

Slide 20

Slide 20 text

https://s3-service-broker-live-19ea8b98-4d41-4cb4-be4c-d68f4963b7dd.s3.amazonaws.com/uploads/ckeditor/attachments/7808/2c_Summary_para.pdf

Slide 21

Slide 21 text

https://x.com/hisashi_is/status/1471675264925114377

Slide 22

Slide 22 text

なぜ論文の形で生成する必要があるか? インパクトが研究を進める 擬似査読が受けられる

Slide 23

Slide 23 text

おわりに おわりに

Slide 24

Slide 24 text

研究過程の構造化は研究を自動的に実行するシステム、ひいては自 律的に研究を実行する人工エージェントを作成する上で重要 特に人間の実際の研究の「行動」に沿った構造化は AI に研究をさせ るために何を実行させるか明確にする上で貴重 ぜひ皆様の研究過程の知識も言語化/構造化して共有してください! ヨロシク!