Slide 1

Slide 1 text

1 National Institute of Informatics National Institute of Informatics 研究の進め方 佐藤 竜馬 ランダムネスとの付き合い方について

Slide 2

Slide 2 text

2 National Institute of Informatics 感想やご意見、大歓迎です ◼ スライド公開中 https://speakerdeck.com/joisino/randomness ◼ スクリーンショットを撮ってシェアしても OK ◼ はっきりした正解の無い・異論の多い話題だと思うので、 みなさんの意見や感想もどしどしポストしてくださいね

Slide 3

Slide 3 text

3 National Institute of Informatics 自己紹介 ◼ 名前:佐藤 竜馬(さとう りょうま) ◼ 所属:国立情報学研究所(助教) ◼ 専門: グラフ機械学習 最適輸送 推薦システム など ▲既刊 これらも好評発売中! ▲新刊 先月発売!

Slide 4

Slide 4 text

4 National Institute of Informatics 運の良さが均一でも結果的に運のよかった人が現れる ◼ 100 万人いたら 20 回連続でコインの表を出す人がいる 与えられたチャンスの数と「運の良さ」の差が無くてもこれ 完全平等でも、結果的に「運のよかった」人が生じる ◼ スーパースターは(その人の実力などではなく)単にこの 「20 回連続でコインの表を出した人」かもしれない (1/2)20 ≈ 1/100万

Slide 5

Slide 5 text

5 National Institute of Informatics 人生は運が 10 割 ◼ 100 万人いたら 20 回連続でコインの表を出す人がいる 与えられたチャンスの数と「運の良さ」の差が無くてもこれ 完全平等でも、結果的に「運のよかった」人が生じる ◼ スーパースターは(その人の実力などではなく)単にこの 「20 回連続でコインの表を出した人」かもしれない ◼ 結論:人生は運が 10 割 (1/2)20 ≈ 1/100万 完

Slide 6

Slide 6 text

6 National Institute of Informatics ランダム性と仲良くなることが今日のテーマ ◼ 100 万人いたら 20 回連続でコインの表を出す人がいる 与えられたチャンスの数と「運の良さ」の差が無くてもこれ 完全平等でも、結果的に「運のよかった」人が生じる ◼ スーパースターは(その人の実力などではなく)単にこの 「20 回連続でコインの表を出した人」かもしれない ◼ 今日は「そうとも限らないこと」「ランダム性はコントロールできる」 「ランダム性とうまく付き合いながら研究を進める方法」について 考えます (1/2)20 ≈ 1/100万

Slide 7

Slide 7 text

7 National Institute of Informatics 分散の減らし方に主な焦点を当てる ◼ ランダム性のうち、特に分散の減らし方 = リスクの減らし方 に主に焦点を当てます ◼ リスクは何も知らなくても増えるがリスクを減らすのは知識が必要 リスクを上手に増やすのはセンス リスクを上手に減らすのは技術で身につく = 再現性がある ◼ リスクを減らす方法はこの講演で「学び」、どこでリスクを取るかは 自分の信念や感覚に従い決められるようになることを目指す

Slide 8

Slide 8 text

8 National Institute of Informatics 大数の法則、順序の最適化、アドリブ力を身に着ける ◼ ランダム性と戦うための四つの武器 ◼ 大数の法則:試行を増やせばランダム性に左右されなくなる ◼ 乱数の順序を最適化:乱数は先に確定させる ◼ アドリブ力:乱数の結果が出た後にそれに乗っかる ◼ 認識論的不確実性を削る:天命を待つ前に人事を尽くす ◼ 詳しくはのちのスライドで文脈に乗せながら説明します

Slide 9

Slide 9 text

9 National Institute of Informatics 一本の論文の作り方

Slide 10

Slide 10 text

10 National Institute of Informatics 実際に論文を作る過程をたどっていきます ◼ 実際に一本の論文を作る流れを見ながら、佐藤がどういう 工夫をして、分散を下げながら研究を進めているか見ていく

Slide 11

Slide 11 text

11 National Institute of Informatics まずは研究テーマ決めから ◼ まずは論文の基になる研究テーマを考える

Slide 12

Slide 12 text

12 National Institute of Informatics 研究テーマは何でもよいので適当に選んで進める ◼ まずは論文の基になる研究テーマを考える ◼ やり方:何でもよいので適当に選んで始める ◼ 理由1:どういうテーマにめぐり合うかは運 もちろんある程度は筋の良し悪しはあるが、今手元にあるカードよりも良い テーマにはもがいたところで・祈ったのことでたどり着けるものでもない ◼ 理由2:「素人思考・玄人実行」な研究が良い アイデア部分は「素人思考」で良い = あまりできることはない、 工夫できるのは実行部分だけ

Slide 13

Slide 13 text

13 National Institute of Informatics プロジェクト数は唯一確実にコントロールできる要素 ◼ 理由3:研究プロジェクトは数多く回す方が良い(重要) 各研究プロジェクトがどのくらいうまくいくかは運要素が大きい 研究プロジェクトの「数」は唯一確実にコントロールできる要素 +数を増やせば大数の法則が効くようになる → テーマはさっさと決めてさっさと終わらせるのがよい ◼ 「運頼りのスーパースター」は数に弱いので、ここに勝つには 数で勝負

Slide 14

Slide 14 text

14 National Institute of Informatics 研究はすればするほど確実に上達する ◼ 研究プロジェクトは経験するほど確実に上達する 佐藤は主著で 20 本以上書いたが今でも論文を書くたびに成長を実感する ◼ 初心者は「研究テーマ」として認識できる範囲が狭い → そういうテーマは混んでいて競争になる、テーマ被り ◼ 上達するとストライクゾーンが広がり、誰もそこに行かないような 際どいテーマでも拾って成立させられるようになる → テーマが枯渇する心配がない + 競争を回避して安定できる → 一本目からテーマで悩みすぎず、まずは実力を付けるのが先決

Slide 15

Slide 15 text

15 National Institute of Informatics 上達するとアドリブ力が上がり、どんなテーマでも書ける ◼ 研究プロジェクトは経験するほど確実に上達する ストライクゾーンが広がりアドリブ力が上がる アドリブ力 = 乱数の結果がどうあれその結果に乗っかって成立させる力 ◼ たとえばここで、三題噺のように、みなさんから機械学習の専門 用語を適当に 3 つ上げてもらって、それらを組み合わせた テーマで論文を 1 カ月で書けと言われたら書ける自信がある ◼ どんなテーマででも書けるようになれば、研究の潮流が変わって も食いっぱぐれることはない → 生活と精神が安定する 敵対的学習 + LLM as a judge + バンディットで書いて

Slide 16

Slide 16 text

16 National Institute of Informatics 新刊のテーマは編集さんからの依頼で決定 ◼ 実例:『深層ニューラルネットワークの高速化』 ◼ 編集者から深層モデルの高速化を題材に 本を書きませんかと連絡が来た → 二つ返事で OK ◼ ストーリーを先に考えて持ち込んだのではない OK した段階で着地点が見えていたのではない → が、まあ成立させられるやろと思ったので OK した

Slide 17

Slide 17 text

17 National Institute of Informatics アドリブで軸を決めて着地させた実例 ◼ 実例:『深層ニューラルネットワークの高速化』 ◼ 結局、「高速化と圧縮と汎化の関係」を軸に 定めて 1 年弱で着地できた ◼ これはすごいことで、本は 200~300 ページ あるので、論文よりもうまく着地させるのが難しい、 が、アドリブでうまく着地できた(自画自賛) ◼ アドリブ力は経験で身に付きます 詳しくは本を読むか、 「ニューラルネットワークの 損失地形」を読んでください めっちゃ面白いです 今日みたいなポエムには 興味がないという硬派な人 は講演中こちらを読んでも らっても怒りません https://speakerdeck.com/joisino/landscape

Slide 18

Slide 18 text

18 National Institute of Informatics 昔のアイデアを優先すると分散を下げられる ◼ まずは論文の基になる研究テーマを考える ◼ やり方:何でもよいので適当に選んで始める(再掲) ◼ ↑これが最重要で基本フィーリングで選んでも良いのですが、 分散を下げるという意味で基準を強いてあげると 「最近思いついた最高のアイデアよりも一年前に思いついた それなりのアイデアを優先する」です

Slide 19

Slide 19 text

19 National Institute of Informatics 思いつきたてのアイデアは魅力的だが色褪せやすい ◼ 研究でよくある失敗は、研究し始めた段階では素晴らしい アイデアに思えても、一年後には、あるいは研究の途中で既に、 つまらないと感じてきてしまうこと ◼ 思いつきたてのアイデアは魅力的に見えるがその分色褪せる スピードも早いので、一年後にはつまらなくなる可能性が高い ◼ 研究は 1 年~の長期戦、最初の熱は 1 年は続かない 長期戦における熱量のコントロールは大事

Slide 20

Slide 20 text

20 National Institute of Informatics 昔のアイデアはそれ以上色褪せにくく、上がることもある ◼ 一年前に思いついたそれなりのアイデアは既に一年耐えたの だから一年後にもそれなりを保っていることが期待できる ◼ 昔思いついたアイデアはやってみると意外と面白いじゃんと上昇 するケースも多い 昔より実力が付いているので新しい発見があったりとか 醒めた目でも「それなり」なので火を起こすとある程度のところ までは行ける、下がることは少ない

Slide 21

Slide 21 text

21 National Institute of Informatics 昔のアイデアの方が安定して成果を出しやすい ◼ アイデアを一年も寝かすとライバルに先を越されると心配してしま うかもしれないが、数か月を争うようなアイデアに取り掛かるのは そもそも博打度が高い → 寝かせることで博打を回避できる ◼ アイデアの良し悪しは以下のトレードオフ ①最近考えたアイデアの方が質がいい(期待値が高い) ②昔考えたアイデアの方が安定している(分散が低い) ◼ 多くの人は①しか考えないが、②もしっかり考慮すると安定する し、期待値は容易に見誤るが分散の差は有意であることが多い

Slide 22

Slide 22 text

22 National Institute of Informatics 何も思いつかない場合は無理やり制約を決める ◼ まずは論文の基になる研究テーマを考える ◼ やり方:何でもよいので適当に選んで始める(再掲) ◼ そもそも一つも研究テーマが思い浮かばない場合: 恣意的に制約を決める = 縛りプレイをする 「前の研究と逆方向」「被引用数が最大になるやつ」「〇〇 先生が好きそうなやつ」みたいに目指す方向性を決めてもいい 三題噺のようにランダムに決めてもいい

Slide 23

Slide 23 text

23 National Institute of Informatics 選択肢が多いと人は行動を保留してしまう ◼ 理由1:選択肢が多いと人は行動を保留してしまう フラッと入ったジャム屋さんに 30 種類のジャムが飾ってあったら、 興味を持って眺めるかもしれないが買うのはまた今度となる ジャムが 1 種類だけだったらとりあえずそのジャムを買える ◼ とにかく行動を起こす = テーマを選ぶことが大事 選択肢を最初にエイヤと絞り、行動を促す シーナ・アイアンガー 限られた選択肢を提示された方が、人はグルメなジャムやチョコレートを購入したり、 授業の小論文の選択課題に取り組んだりする傾向が高い Iyengar, S. S., & Lepper, M. R. (2000). When choice is demotivating: Can one desire too much of a good thing?. Journal of personality and social psychology, 79(6), 995. https://en.wikipedia.org/wiki/File:Sheena_Iyengar.jpg

Slide 24

Slide 24 text

24 National Institute of Informatics 制約がある状況に慣れるとアドリブに対応できる ◼ 恣意的に制約を決める = 縛りプレイをする(再掲) ◼ 理由2:毎回同じような研究になることを避けられる ◼ 理由3:アドリブ力を上げる訓練になる 制約の中で活路を見出すことを普段から繰り返していると 変な乱数が出ても活路を見出せるようになってくる

Slide 25

Slide 25 text

25 National Institute of Informatics NLP の論文を初投稿するという制約を使った実例 ◼ 実例:Word Tour (NAACL 2022) ◼ NLP の論文書いたことないな NLP の専門家に頼らずに単著で NLP の国際会議に通したら 腕試しとして面白そうだな → ということで書いた 流石にこれ「だけ」が経緯という訳ではないがテーマ選びの要素にこの 制約を考えたことは実話 動機が不真面目でも仕事をきっちりやれば OK

Slide 26

Slide 26 text

26 National Institute of Informatics メインメッセージと研究の軸を決める ◼ 研究テーマは決まったので次は研究の軸を決める ◼ 研究・講演・本などの基本フロー 1. テーマを決める(あるいは与えられる) 2. メッセージをいくつか考える 10 個とか 3. その中で一番伝えたいメインメッセージを選ぶ 4. メインメッセージを通るように軸を決める 5. 軸に沿ってメッセージを取捨選択、新しく考えたりする

Slide 27

Slide 27 text

27 National Institute of Informatics 軸を探す時間が価値を生むので真剣に考える ◼ テーマが確定した瞬間には軸もメインメッセージも見つかって いないことに注意 ◼ 軸が最初から見つかっているようなテーマは(自分も受け手も) 面白くない 予定調和すぎる ◼ テーマが確定した後に軸を探してもがく時間と、軸が見つかった 後に不要なものを捨てることが、新しい価値を生む

Slide 28

Slide 28 text

28 National Institute of Informatics 論文は 10 ページかけて 1~2 文のメッセージを伝える ◼ 論文は 10 ページかけてこのメインメッセージを伝えれば十分 ◼ 実験も、定理も、他のメッセージも、ライティングも、 このメインメッセージを伝えるための手段 ◼ 10 ページかけて1~2文のメッセージを伝えれば良いので簡単 ◼ 今まで何百と論文を読んできたと思うが、9 割の論文のことは ぼんやりとしか覚えていないはず 1 文でも読者の心に刻めれば上位 1 割に入れる

Slide 29

Slide 29 text

29 National Institute of Informatics 実験は不確実性が高いので先に確定させる ◼ 軸が決まればその軸に沿って研究を進める ◼ 佐藤はまず(予備)実験をする/主定理を証明する 実験よりも先に論文を書け・イントロを書けという流派もあるが佐藤は逆 ◼ 乱数の順序を最適化:乱数は先に確定させる 実験でどういう結果が出るかはやってみないと分からない 良し悪しによってイントロのトーンもするべき議論も変わる ※もちろんテストデータを見るのはダメ 検証データで結果の傾向や特性を確定させる

Slide 30

Slide 30 text

30 National Institute of Informatics 乱数が後だと事前準備が大変 + 神頼みが必要 ◼ 乱数の順序を最適化:乱数は先に確定させる 6 ターンのうち最後の 3 ターンが乱数で決まる場合 時間 あらゆる乱数の結果を想定して 作業しないといけないので大変 結局最後は運ゲー 神頼みが必要 乱数 乱数 乱数

Slide 31

Slide 31 text

31 National Institute of Informatics 乱数が前だと、戦略を練りやすく、安定しやすい ◼ 乱数の順序を最適化:乱数は先に確定させる 6 ターンのうち最初の 3 ターンが乱数で決まる場合 時間 確定した1つの実現値にのみ対処すればよい 「あり得たかもしれない他の世界線」のことは考えなくてよいので楽 + 自分でコントロールした状態でゴールできるので安定する 乱数 乱数 乱数

Slide 32

Slide 32 text

32 National Institute of Informatics 実験は不確実性が高いので先に確定させる ◼ 乱数の順序を最適化:乱数は先に確定させる 6 ターンのうち最初の 3 ターンが乱数で決まる場合 ◼ 不確実性が高いものほど先に持ってくるべき 実験の結果は不確実性が高いので先に持ってくる 時間 ライティング 実験 実験 実験 ライティング ライティング

Slide 33

Slide 33 text

33 National Institute of Informatics うまくいかないときには妥協が必要 ◼ 実験がうまくいかない場合・主定理が証明できない場合 → より簡単な実験や定理で妥協する ◼ 実験も定理もメインメッセージのための手段 ◼ 「その」実験や「その」定理にこだわっているのはあなただけで、 もっと簡単な実験でも読者を説得できるかもしれない ◼ 「そのメッセージは嘘だ」と言われたときの反論を考える 「だってこうじゃん」と反論する言葉を実験や定理に落とし込む

Slide 34

Slide 34 text

34 National Institute of Informatics それでもだめならアウトプットして次に進む ◼ それでも実験や証明がうまくいかない場合 → 潔くあきらめて次のテーマに行く ◼ ただし、そこまでの内容は何らかの形でアウトプットする 論文の形(テクニカルペーパーなど)が望ましいがブログも可 ◼ あきらめることを続けていたらいつまでもアウトプットできない + あなたがはまった落とし穴を教えてあげると他の人を救える + うまくいかなかった乱数を隠すと出版バイアスが生じるのでコミュニティ的によくない

Slide 35

Slide 35 text

35 National Institute of Informatics だめだったときにだめだったことを報告した実例 ◼ 実例:Re-evaluating WMD (ICML 2022) ◼ 本当は WMD を基にしたイケてる手法を考えていた → 実験が全くうまくいかず(=出目が最悪) ◼ 結局、うまくいかない理由を考察してそれを基に論文にした 最悪の出目をアドリブ力で逆手に取って「成立する目」に変えた

Slide 36

Slide 36 text

36 National Institute of Informatics 論文執筆の時間 ◼ 材料が溜まればいよいよ執筆を開始する

Slide 37

Slide 37 text

37 National Institute of Informatics 初稿は雑でよいのでとにかく完成させるのが最優先 ◼ まずは雑でよいので最初から最後までとにかく書き切る 吐き出し稿 (vomit draft) = 頭の中のものをオートモードで吐き出す 英語の誤り上等、引用先は一旦空欄で OK ◼ 理由:選択肢が多いと人は行動を保留してしまう 初稿が書き上がるまでは不確定要素が多く、そのために様々な可能性を模索 してしまって手に負えなくなり、様々な先延ばしの言い訳を考えてしまう 白紙の原稿は不安を煽る 不確実性を無理やり確定させた後で局所改善して完成させる 局所改善の方が簡単 + 言い訳せずに確実に進むので結果的により良くなる

Slide 38

Slide 38 text

38 National Institute of Informatics ライティングは慣例と意外性のバランス ◼ ライティングは分布内と分布外のバランスが重要 ◼ 分布内:慣れた読者なら次こう来るだろうなと予想できること ◼ 分布外:意外な事柄、裏切り、驚き、新情報 読者が知らないことを伝えないといけない = メッセージは全て分布外になければならない ◼ 分布内だけだとつまらない・無情報 分布外だけだと怪文書(全部裏切りは怖いだけです) 割合はテーマやターゲットや媒体によるが、分布内が 9 割、分布外が 1 割くらいのイメージ → バランスが重要

Slide 39

Slide 39 text

39 National Institute of Informatics 分布内のライティングは訓練できるのでしっかりやる ◼ 分布内のライティングをきっちり仕上げることは重要 ◼ Amazon の商品説明の日本語やフォントが怪しいと、 商品自体の品質を疑ってしまう(ん?怪しいなと異常を察知すると一歩引いてしまう) ◼ 論文でも、英語が怪しかったり、構造が慣例に従っていないと、 メッセージの正当性が怪しまれる → 説得難度が上がる ◼ 分布内のライティングは next token prediction で解ける = たくさん論文を読んで訓練すれば上達できる

Slide 40

Slide 40 text

40 National Institute of Informatics Eamonn Keogh のスライドがおすすめ ◼ ライティングのテクニックについては Eamonn Keogh の “How to do good research, get it published in SIGKDD and get it cited!” が超おすすめです ◼ 佐藤は B4 のときから数えて 10 回以上通読しました 最初の頃は論文を書き始める前に一旦 これを通読して、モチベを上げて、始める みたいなことをしていた https://www.cs.ucr.edu/~eamonn/Keogh_SIGKDD09_tutorial.pdf

Slide 41

Slide 41 text

41 National Institute of Informatics 図へ直接ラベリングすると直観的に理解できる ◼ 実際に使っているテクニック:図への直接ラベリング 凡例や記号に頼らず、図に直接ラベルや主張を書き込む → 直観的に理解できる TFGNNs [Sato TMLR 2024] FAPE [Sato WSDM 2022]

Slide 42

Slide 42 text

42 National Institute of Informatics 引用符を使うと直接的で力強い引用ができる ◼ 実際に使っているテクニック:原文の直接引用 引用の際、自分でパラフレーズして地の文に組み込む人が多いが、クォーテーションマーク で囲って原文を直接引用すると直接的で力強い引用ができる 元の著者を召喚して代わりに説得してもらうイメージ → 自分で言うより説得力が増す Consul [Sato CIKM 2022] EasyMark [Sato+ arXiv 2023]

Slide 43

Slide 43 text

43 National Institute of Informatics いよいよ投稿の時間 ◼ 論文が完成したら投稿する

Slide 44

Slide 44 text

44 National Institute of Informatics 査読はランダム性が高い ◼ 査読はかなりのランダム要素 ◼ NeurIPS 2021 の実験: 一部の論文を独立な 2 つの委員会で査読 → 一方で採択されたもののうち半数以上はもう一方で不採択

Slide 45

Slide 45 text

45 National Institute of Informatics 査読のランダム性には数で勝負するしかない ◼ この問題に対してすぐに使えて効くのは大数の法則くらい 研究プロジェクトの「数」は唯一確実にコントロールできる要素 +数を増やせば大数の法則が効くようになる → テーマはさっさと決めてさっさと終わらせるのがよい ◼ 研究プロジェクトは経験するほど確実に上達する 佐藤は研究はじめたての頃の採択率は 20-30% だったが今は 50-70% くらい apple-to-apple な比較ではないが、実力が付いている実感はある

Slide 46

Slide 46 text

46 National Institute of Informatics 不採択な場合は再挑戦、ただし無理しすぎないこと ◼ 不採択だった場合 → 再投稿して乱数を引き直すのが基本 ◼ だが、やる気が出ない場合はあきらめるのも手 研究が嫌になるのが最悪なので、無理はし過ぎない ただしどこかにはアウトプットした方がよい(競争的ではない他の媒体、最低限プレプリント) ◼ 媒体への掲載は宣伝のため 他にも宣伝する手段はいくらでもある(講演回り、SNS、SEO etc) ただしキャリアの初期は良い媒体に掲載することがベストな宣伝方法になることが多いので 可能な限り粘るのが吉

Slide 47

Slide 47 text

47 National Institute of Informatics 採択されるとめでたい ◼ 採択 → おめでとうございます

Slide 48

Slide 48 text

48 National Institute of Informatics 採択後には宣伝を必ず頑張る ◼ 採択後にやること → 宣伝(重要) ◼ 100 人に読んでもらえる論文があるとする、ここから (A) 同じくらい読んでもらえる論文をもう一本書く (B) この論文の読者を 100 人から 200 人に増やす だと後者が圧倒的に簡単 ◼ 効率の観点から宣伝にしっかり取り組むべき 採択後は強制的な乱数(査読など)が無いので、自分でコントロールしやすい これまでの乱数の悪影響をここでしっかり処理する

Slide 49

Slide 49 text

49 National Institute of Informatics 採択報告ツイートにポスター画像を付けるのがおすすめ ◼ おすすめの方法: 分かりやすくまとめたポスター画像を投稿 → あとでポスターやスライドを作るときに使えるので無駄にはならない ◼ コツ:採択報告ツイートに付ける 採択のタイミングは、おめでとうの意味も込めていいねや リツイートしてくれる人がいるので、その分拡散されやすくて 自分の研究を知ってもらえる タイミングを分けてしまうと、採択報告では単にいいねされる だけで中身は知ってもらえないし、何でもないタイミングで ポスターを投稿しても、あまり見てもらえない

Slide 50

Slide 50 text

50 National Institute of Informatics 広告を掲載するくらいの気概でやってもいい ◼ 万人に薦められる方法ではないが:お金を払って広告する 広告行為自体を薦めているというよりはそのくらい本気で宣伝方法を考えましょうというくらいです ◼ (A) 同じくらい読んでもらえる論文をもう一本書く (B) この論文の読者を 100 人から 200 人に増やす ◼ 研究費や自分の人件費を考えると (A) にはそれなりのお金がかかる ◼ 広告して (B) を狙う方が 結果的に安く済むかもしれない https://joisino.hatenablog.com/entry/2022/04/26/170707

Slide 51

Slide 51 text

51 National Institute of Informatics スライドはネットの読者を意識して自己完結させる ◼ スライドやポスターはネットの読者を意識する ◼ 現地の人よりネットの読者の方が圧倒的に多い ◼ スライドだけで自己完結させる 離脱しにくいストーリーラインを意識する ◼ 既に持っている論文の数や SNS の フォロワー数次第で戦略は変わるが、 思ってる以上に宣伝を頑張るのが大切 @IBIS 2023 現地:300 人 閲覧: 3.8 万人 @YANS 2024 現地:200 人 閲覧: 1 万人

Slide 52

Slide 52 text

52 National Institute of Informatics 大数の法則を味方に付けるのが重要 ◼ 以上のプロセスをひたすら回す 大数の法則(大声) 研究プロジェクトは経験 するほど確実に上達する

Slide 53

Slide 53 text

53 National Institute of Informatics メタな戦略

Slide 54

Slide 54 text

54 National Institute of Informatics 替えが効かない乱数に対しては事前準備が大事 ◼ 一度きりの重要な乱数の前には認識論的不確実性を削る e.g., 進学、就活、研究分野を決める etc. 前に持ってくることが難しい + 何回も引けない乱数 ◼ 認識論的不確実性 (epistemic uncertainty): データを増やせば消える不確実性 = コントロール可能 ◼ 偶発的不確実性 (aleatoric uncertainty): データを増やしても消えない、環境自体の不確実性 不確実性には 二種類ある

Slide 55

Slide 55 text

55 National Institute of Informatics 認識論的不確実性の説明:何も分からない場合 ◼ 正規分布 N(μ, 1) からのサンプル、次の値は? ただし μ は未知 ◼ 100 かもしれないし -1000 かもしれない ◼ 認識論的不確実性も偶発的不確実性も高い

Slide 56

Slide 56 text

56 National Institute of Informatics データを集めると認識論的不確実性が減る ◼ 正規分布 N(μ, 1) からのサンプル、次の値は? ◼ 1 回サンプルしたら 9.5 だった ◼ じゃあ μ は 8~12 くらい、次サンプル値は 6~14 くらいだろう ◼ 認識論的不確実性が少し下がった

Slide 57

Slide 57 text

57 National Institute of Informatics 認識論的不確実性は努力で克服できる ◼ 正規分布 N(μ, 1) からのサンプル、次の値は? ◼ 頑張って調査して μ=9 であることを突き止めた ◼ じゃあ次のサンプル値は 7~11 くらいだろう ◼ 認識論的不確実性が消えた → だいぶ確度が上がった ただし偶発的不確実性(分散)は残っているので 次のサンプル値をピッタリ当てることは不可能 → 最後は偶発的不確実性に委ねる必要がある

Slide 58

Slide 58 text

58 National Institute of Informatics 替えが効かないなら根回しする、そうでない場合は回数 ◼ 一度きりの重要な乱数の前には認識論的不確実性を削る ◼ パラメータ (μ) に介入可能な場合は介入することも重要 進学や就職の前に実績を作って採用確率を上げる、コネを作って配属先に介入する etc. ◼ 人事を尽くして天命を待つを理系風に言うとこうなる 不確実性には二種類あることを知っていると意思決定の解像度が上がる、ので因数分解は大事 今自分が認識論的不確実性を削ろうとしているのか、パラメータに介入しようとしているのか考える ◼ 代替可能な乱数(査読など)では事前の努力よりも 大数の法則の方が強いので回数を増やす方に力を入れる

Slide 59

Slide 59 text

59 National Institute of Informatics 意思決定は乱数の実現値を見てから行う ◼ 意思決定は乱数の実現値を見てから行う(重要) 乱数の順序を最適化 + アドリブ力 ◼ 後知恵は乱数に対する最強の武器

Slide 60

Slide 60 text

60 National Institute of Informatics 何も決めずにサイコロを振る ◼ サイコロを 10 個振った出目が

Slide 61

Slide 61 text

61 National Institute of Informatics 悪かった乱数は破棄して、良かった乱数だけ認知する ◼ サイコロを 10 個振った出目が ◼ 出目を確認した後でどのサイコロを使うかを決める 悪かった乱数は これ以上育てない(破棄) 良かった乱数だけ 認知して育てる

Slide 62

Slide 62 text

62 National Institute of Informatics 後知恵が許される場面では徹底的に後知恵を使う ◼ 後知恵は乱数に対する最強の武器 60 個サイコロを振ったら 10 個くらいは 6 が出る それらだけを残して育てたら、6 が 10 回連続で出たかのような 効果が得られる (1/6)10 < 1/6000万 の確率に相当 ◼ 注:論文に載せるテストデータでやってはいけない 統計的な議論をする場面以外(進路選択など)では OK チートみたいだが、許されるので使わない手はない ※ただし、変なところで良い出目が出ることもあるので、うまく活かすには相応のアドリブ力も必要

Slide 63

Slide 63 text

63 National Institute of Informatics 最初はやるつもりが無かったが出目が良いので採用 ◼ 実例: 論文等の PDF を翻訳するサービス ◼ 何気なく作ったら意図せず万バズ = 「6」が出た 先見の明があった訳ではない ◼ 投稿時には本気でサービス化する つもりは無かったが、これを受けて 本格始動 → 人気サービスに

Slide 64

Slide 64 text

64 National Institute of Informatics リスクを抑制するだけでなく、楽しむことも時には必要 ◼ ここまでランダムネスを目の敵にしてきたが、とはいえ ワクワク感のためにある程度のランダムネスは必要 ◼ Deterministic な競馬は誰もやらない 100 円で馬券を購入すると、馬が走って、結果によらず、 90 円が払い戻される

Slide 65

Slide 65 text

65 National Institute of Informatics 結論

Slide 66

Slide 66 text

66 National Institute of Informatics ランダム性をうまくコントロールしよう! ◼ 知識を付けるとリスクは最小限に抑えられる ◼ 大数の法則と、乱数の順番と、アドリブ力が重要な武器 ◼ 後知恵が許されるところは徹底的に後知恵を使う ◼ ただし適度なランダム性はワクワク感のために重要 ランダム性をうまくコントロールして安定した研究ライフを送ろう!

Slide 67

Slide 67 text

67 National Institute of Informatics スライド公開中 ぜひ感想を付けてシェアしてくださいね https://speakerdeck.com/joisino/randomness