selection simulation based on Power law

確率分布で見る“選択と集中” JAXA 野田篤司氏作成資料※ を整理・応用したもの ※ https://www.madnoda.jp/contents/blackswan/ 1 v0.5 (20200208)

要旨 n 研究成果はべき分布に近い u 科研費基盤C の連続採択 u
論文の引用数，など n べき分布に従う場合 u 将来，大きな研究成果を上げる課題について，予め一定確率以上で予測できるのであれば，選択と集中により，非常に大きな成果が得られる u そうでない場合，一切選択せず，広く薄くあまねく課題に予算を付与する方が，全体として大きな成果が得られる 2 石を拾うことがあっても玉を捨てない（情報処理学会論文査読ポリシー）

確率分布 n 確率分布というと，まずは「正規分布」が想定されるが，実際には様々な確率分布が存在する 3 出典：wikipedia ※ 正規分布を少し変換したものも多数

正規分布 n 平均値に集積するような分布 u たとえば，身長や体重はある程度正規分布に従う p 平均値周辺の値を取る頻度が多く，極端に高い・低い，重い・軽い値は相対的に数が少ない u 古典統計では，この正規分布を仮定した手法が多かった
p t検定などのパラメトリックな検定手法は正規分布を仮定 4

正規分布は万能か？ n 中心極限定理との相性の良さや，様々な現象への当てはまりの良さから多用されてきた n 万物が正規分布に従うわけではないが，あまりに便利なので，あらゆる分布の前提に正規分布を仮定してしまう人も… 5

中心極限定理 n 多くの場合、母集団の分布がどんな分布であっても、その誤差は標本の大きさを大きくしたとき近似的に正規分布に従う。 6 出典：wikipedia 「常に」ではなく，「多くの場合」である点に留意そしてなにより，正規分布に従うのは「誤差」であって，
標本それぞれの元の値が正規分布に従うとは言っていない（「母集団の分布がどんな分布であっても」とある）

0 1 2 3 4 5 0 5 10 15
20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 出席番号点数 1 1 2 13 3 14 4 13 5 10 6 12 7 13 8 11 9 13 10 16 さまざまな代表値 7 人数平均値： 11.6点中央値，最頻値：13点タカシ君は平均11.6点のテストで1点を取りました。先生はタカシ君に指導をすべきでしょうか？点数

さまざまな代表値 8 人数出席番号点数 1 1 2 2 3
1 4 1 5 2 6 1 7 2 8 3 9 3 10 100 0 1 2 3 4 5 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 平均値： 11.6点最頻値：1点中央値：2点タカシ君は平均11.6点のテストで1点を取りました。先生はタカシ君に指導をすべきでしょうか？点数

分布形状と代表値 n 各種の代表値は，正規分布の場合は一致 u 正規分布に近いほど，平均値は上手く分布形状を表す p というか，そもそも正規分布はそういう風に定義したモノだった n 少数の持つモノと，多数の持たざるモノがいるような場合，正規分布ではないので，平均（や
分散※）は機能しづらい 9 ※ 平均値からのズレの程度

正規分布に従わない事象の例 n 企業の時価総額 u 企業は沢山あるが，時価総額は正規分布していない n Instagramのフォロワー数 u 有名人などはものすごい数のフォロワーがいるが，多くの人はせいぜい2桁どまり
n J-POPの販売数 u 出せば必ずミリオンヒットレベルで売れるアーティストもいるが，多くは数千DLもいけば良い方 n ほかにもいろいろ 10 あるいは，少数の持つモノと，多数の持たざるモノの例

パレートの法則 n イタリアの経済学者ヴィルフレド・パレートが発見した法則 u 所得は “べき乗則（power low）” に従う p 大まかには，所得の8割は上位2割の人たちで分配される…という法則
11 パレートの法則： N は x より所得が高い人の数． a, m は定数べき乗則：多くの国でパレートの法則は当てはまる …と，言われている https://www.nri.com/jp/knowledge/glossary/lst/ha/pareto_princ

パレートの法則とべき分布 12 所得額人数前頁の “パレートの法則” では累積分布で示していたが，一般的な分布に変換した場合＝べき分布
は上記のような形状べき分布：重要

もう少し正確なべき分布 13 確率密度分布 …で，表現されるような分布のこと但し，前ページの式と全然違う？？

もう少し正確なべき分布 14 少しすっきりと書いただけで，上下はまったく同じもの強いて言えば，下の方がすっきり見やすい

我が国における世帯所得 15 厚生労働省：平成 29 年国民生活基礎調査の概況世帯ではなく，個人単位で，子供・高齢者も含めた全人口でざっくり考えると…？

スケールフリーネットワーク n べき乗則に従うようなNW n 詳細は参考書籍 u 著者は情報系の研究者で，スケールフリーNWを発見して業界の第1人者になった u
様々な現象にスケールフリーNWが当てはまるとされている 16 新ネットワーク思考―世界のしくみを読み解く NHK出版 (2002/12/26) アルバート・ラズロ・バラバシ (著), 青木薫 (翻訳)

スケールフリーNWの例 17 航空路線（ハブアンドスポーク）主要空港地方空港

スケールフリーNWの例 18 Va ea Ga che Ma i Ja e
The a die Fa i e E a C fe ac B e Bah e J M eThe a die C e e E i e Mabe f C befe e Fe i M ie G a ai e G e e e Babe C a e Th e P ai e M a a e Ba a ab i Li ie Fa e i B ache i e Fa i e Dah ia Ze hi e Gi e a d M eGi e a d B M eH che J dge Cha a hie B e e Che i die C che ai e Fa che e e Si ice L Gi e a d M eBa i i e M eMag i e P e c A e a W a 2 T ai Ma g e i e Pe e e W a 1 M he I ce M eB g Mag M eP e c Ba e T Chi d1 Chi d2 Na e C e DeL Geb a d Cha e cie C a a e C O dMa Laba e M eDeR I abea Ge ai Sca ff ai e B a e e G ibie J d e e M eVa b i M he P a ch Les Misérables の登場人物共起 ( Node: 77, Edge, 254 ) ランダムNW：例1 ( Node: 77, Edge, 254 ) ランダムNW：例2 ( Node: 77, Edge, 254 ) ※ ランダムNWのコネクション数は正規分布

歴史は「べき乗則」で動く早川書房 (2009/8/25) Mark Buchanan (原著), 水谷淳 (翻訳) さまざまな
べき分布 n 自然現象や社会現象の多くにべき分布が見られる n 詳細は参考書籍 u 著者はべき分布に関して複数著作を有する科学コラムニスト，物理学者 u ガラスの破片，地震などの自然現象，金融市場などの社会現象，歴史など，さまざまな事象に，べき分布があることを紹介 19

科学技術政策とべき分布 20 むしろ，計量書誌学誕生の端緒がべき分布にある（c.f. ロトカの法則，ジップの法則）計量書誌学の分野でも，“べき分布”はよく知られている

ロトカの法則（1人当たりの論文執筆数） 21 MEXT：平成 25 年度「リサーチ・アドミニストレーターを育成・確保するシステムの整備」成果報告書（研修・教育プログラムの作成）“14.研究力調査・分析入門（著：松永康）”

大学別論文シェア 22 阪・伊神：研究論文に着目した日本の大学ベンチマーキング２０１５， NISTEP，調査資料243 (2015) 上図は累積分布のため，大まかには上下反転したものが単純数の分布

大学別のTop10%補正論文数 23 阪・ほか：研究論文に着目した日本とドイツの大学システムの定量的比較分析， NISTEP，調査資料233 (2014) ※ 原典から一部抜粋

科研費獲得件数 24 0 5000 10000 15000 20000 25000 30000 35000
1 2 3 4 5 6 7 8 9 10 11 2007-2017年科研費基盤Ｃの同一人物獲得数 ※ 研究歴や分野，ファンド期間，基盤Ａ，Ｂへの採択など考慮していない点などに注意

スターサイエンティストと特許 25 長根（齋藤）・牧：日本のイノベーションとスター・サイエンティストの役割：現状と課題， GRIPS SciREX センターワーキングペーパー SciREXWP-2018-#01

論文の被引用件数 26 arXiv から収集した論文のうち，引用数が99件までの論文数期間： 2014〜2018年対象論文数： 572,898件データなし： 2,103件
引用0〜99件： 566,817件引用件数最大は 9,999回 2020.01-22時点での収集データ．被引用データは Semantic Scholar を通じて取得

留意点 n べき分布は様々な分野で広く見られるものであり， STIにおいてもべき分布の性質を示すデータは多数 n ただし，今回は趣旨に照らして恣意的にべき分布
を示すデータを探索して掲載をしている n 全てが正規分布に従うわけではないのと同様，全てがべき分布に従うわけでもない 27

n 科学技術に関する知識生産の場でも，さまざまなところで，べき分布に従うデータ n 価値の定義は困難だが… u 多く引用される論文を執筆できる u 安定して研究費を獲得できる u
多くの特許を算出できる …といった指標は，べき分布的な形状を示す可能性 28 ほとんどの研究者は価値が低いので，薄く広くではなく，高付加価値な一部にリソースを集中投下するのが大正解！！

29 …とは限らない可能性

再び分布の話 30 正規分布べき分布 n サンプリング数を増やすほど，平均値に近づく n 期待値が計算できる n
サンプリング数を増やすほど，平均値が大きくなっていく n 基本，期待値が計算できない

分布と予測 31 正規分布べき分布 n 「標準的な研究者」を想定できる n 何人かをサンプリングしてくれば，おおむね全体の見当が付く n
ランダム選択で，平均から大きくズレることは少ない n 「標準的な研究者」は考えづらい n 少数サンプリングしてきても，なかなか全体は把握しづらい n ランダム選択だと，試行のたびに結果が大きくズレる予測不可能性な状態であれば，基本戦略はランダム選択よく分からないなら適当に選ぶしかない（適当に選んだ方がよい）

分布と予測 n 下手な予測は，予測しないより悪い結果を生むことも u 予測が難しい場合，変に予測をせずランダムの方が良い場合がある 32 A B 1 2
観測できた点から，A1エリアを集中して探索することにすると…？？

もう少し正確なべき分布 33 確率密度分布 …で，表現されるような分布のこと但し，前ページの式と全然違う？？とにかくｘに乗数がついているものは，べき分布

「べき分布」の確認 34 少しすっきりと書いただけで，上下はまったく同じもの強いて言えば，下の方がすっきり見やすい

「べき分布」の確認 35 との対応と，かつ，は，OK 次にという条件があるので…

「べき分布」の確認 36 （承前）を，b について解いていくと… と，いうわけで，最終的に…

「べき分布」の確認 37 ところで，元々の（a,b,Cをパラメタとする）べき分布にはこんな制約があったこれまで見てきたとおり… と，いうことは…

べき分布の定義 38 確率密度分布但し，但し，

べき分布の定義 39 ついでに… …は，ごちゃごちゃしているので，まとめてと，してあげて

関数の意味 40 n 今回の想定における数式の意味 u （今回の設定では） x は利益率＝（売上げ/投資額）
p 1.0 だと，損も得もしない p 1.1 だと，投資額の 1.1倍の利益 p 0.1 だと，投資額の 0.1倍の利益 = 0.9倍の損益 u f(x) はある価値 x を生み出せる人の人数 p 多くの人は利益をあげることができない p 同じ投資で大きな利益をあげられる人の割合は利益の大きさに応じて少なくなっていく（が，全くいなくなるわけでもない）重要

確率密度関数 41 たとえば，縦軸が人数，横軸を点数とする自分の点数が分かれば※，他に何人位同じ点数の人がいそうか分かる f(x) x 点数ごとの人数がべき分布に従うとするべき分布は以下の関数で表現
※ 定数項の a , k に付いて既知の場合テストの点数がべき分布だったら

確率密度関数と，確率質量関数 n 確率密度関数 u 数値が連続値を取るときの確率分布 p 温度，長さ，利益率，など n 確率質量関数 u
数値が離散値を取るときの確率分布 p 人数，論文数，カードの枚数，など 42 0 5000 10000 15000 20000 25000 30000 35000 1 2 3 4 5 6 7 8 9 10 11 今回の例は“密度関数”＝連続値を採用（離散値だと式が異なる）

べき分布の性質 43 式からして，どこまで行ってもゼロにはならないある種のフラクタル性がある

44 少し具体的な例で考えてみる

こんな感じのギャンブル 45 n 多少の当たり外れはあるものの，おおむね，一定の賞金を得る n 大当たりの上限も大体決まっている n 大抵ハズレで殆ど賞金はないが，まれにものすごい額の賞金を得る
n しかも，天井知らず正規分布べき分布 n 例えばこんな u 何かの分布に従って得た0以上の値を書いたカードがn枚伏せてある u 好きなカードに，手持ちのコインを好きなだけ置いて良い u コインの枚数にカードの値を掛けただけの賞金がもらえる重要

46 どのカードが大きい数字か分からなければ，とりあえずコインは薄く広く置く「XX色のカードは大きい数字が出やすい」など事前情報があれば，集中も

検証しようとしていること n 仮に，研究成果の価値がべき分布しているとする n コインを研究予算，カードを研究課題とした場合… u 全部のカードに薄く広く賭けるのと，どこかに集中させるのとで，どちらの方が勝てそうか？ u どういう分布の時，何枚カードがあれば勝てるのか？
47 べき分布の場合，カードの枚数も重要な要素重要

改良版ギャンブル n 例えばこんな u べき分布に従って，数字の書かれたカードが出てくる u 例えば… p 10枚引くと，9枚は1未満の値，1枚は1以上の値 p
100枚引くと，90枚は1未満の値，9枚は10未満，1枚は10以上の値 p 1000枚引くと，900枚は1未満の値，90枚は10未満，9枚は100未満， 1枚は100以上の値 u …という，べき分布に従ってカードが出てくる u 毎回，手持ちのコインの枚数を上限に好きなだけカードを引いて，ギャンブルを行うことができる 48 コイン＆カードの枚数は，どの位が一番儲かるか？？？

49 = 0.9 = 1.1 0.9 * 9 + 1.1
* 1 = 9.2 10枚に1コインずつでは負けの模様

50 × 90 = 0.9 × 9 = 1.1 0.9
* 90 + 1.1 * 9 + 10.1 * 1 = 101 100枚に1コインずつだと勝てた × 1 = 10.1 今回は実際の確率分布では無く，かなりざっくりした値で設定※ より正しい分布に近づけると，何人いると勝てそうか…？？ ※ 例えば1.0未満なので，0.1なども取り，かつ，90枚全てが同値をとるわけではない

計算の手順 n 先ほど出てきた以下の条件を数式にする u 累積分布の数式表現を得る n “べき分布” の “確率密度関数” に変換
u 確率密度関数のハイパーパラメータを求める n 利益を得られる境界（損益分岐点）を求める u 特定条件下での期待値を求める 51 重要

確率密度と累積 52 確率密度分布累積分布累積は単に積分したもの

累積分布 n 累積分布 u 0からXまでの確率を足し併せていったらいくらになるか？ p 0からXまでの範囲の面積（確率なので最小 0，最大 1） 53
0 確率密度関数 f(x) 累積分布 F(X) 緑部分の面積 1 0 0

累積分布が意味するもの 54 たとえば，縦軸が人数の割合，横軸を点数とする自分の点数が分かれば，他に何人位自分以下の点数の人がいそうか分かる F(X) x テストの点数がべき分布
だったら

確率密度分布の取得 55 ここで… 従って… なお… と言うわけで…

56 ？であるので，積分範囲は γ から X まで従って… ここで… なので…
…いったい，なにが「と言うわけで」なのか？？

57 ここで… かつ，と言うわけで，上式の一部を整理すると… ？

58 前頁より… かつ，と言うわけで… 従って… ？

積分公式 59 上記の公式を用い，べき分布について解くと… 但し，但し，

積分公式 60 上記の公式を用い，β=1, α=1 の時のべき分布について解くと…

微分公式 61 上記の公式を用い，べき分布の累積分布 F(X) について解くと…

定積分公式 62 …のとき，

ついでに広義積分 63 …と，いうわけで，なんやかんやで

期待値 n 平均的にどの位の値が得られそうか？…の，値 u 確率 50% で 10円, 30% で
100円, 20% で 500円もらえるクジ u 期待値 = 確率×得られる値の総和 p {( 0.5 * 10 ) + ( 0.3 * 100 ) + ( 0.2 * 500 )} = 135 p おおむね135円もらえそう p クジの参加額が135円以下なら，おおむね損をすることは無さそう • 特に何回でもやってOKなら，まず損はしない • 参加額100円なら，135-100 で 1回当たり平均35円位はもらえそう 10000回やると，35万円位儲けられるかも？ 64 ※ 上の例は離散の場合，式は連続の場合なのでミスリードしている点に注意重要

べき分布と期待値 65 式からも明らかに，どこまで行ってもゼロにならないべき分布では，いわゆる期待値を算出することができない期待値の算出 n 期待値は，確率と取りうる値を掛けて足していったもの n どこまで行ってもゼロにならず片方にだけ伸びる＝期待値無限
に…

べき分布と期待値 66 確率密度関数 f(x) 0 n とりあえず，どこで期待値がプラスになるかさえ分かれば良い u プラスになる
＝得点を掛け合わせた後の緑部分の面積（期待値）が 1 を越える期待値の算出

べき分布と期待値 67 n とりあえず，どこで期待値がプラスになるかさえ分かれば良い u プラスになる＝得点を掛け合わせた後の緑部分の面積（期待値）が 1
を越える期待値の算出

べき分布と期待値 68 n 上記の場合に E[X]=1 より，それ以上であれば期待値は1を超える！ところでは何であったか？
n とりあえず，どこで期待値がプラスになるかさえ分かれば良い u プラスになる＝得点を掛け合わせた後の緑部分の面積（期待値）が 1 を越える期待値の算出

は何だったか？ n 累積分布のところでしれっと登場 n を 0 からまで足していきますという意味で登場 u と同じようなモノと考えてOK
u 累積分布におけるは，一種の利益率だった p 1だと投資額と売上げが同じになるイメージ 69

べき分布と期待値 70 = 損益分岐点 n 利益率が上式を越える値になる場合，期待値が1を越える u 投資の単位を1万としたとき，が 10
なら，利益率が 10倍を越えればプラス u 投資の単位を3万としたとき，が 10 なら，利益率が 30倍を越えればプラス u 投資の単位を1万としたとき，が 0.1 なら，利益率 1/10倍を越えればプラス期待値の算出

新たな課題 n ここまでで損益分岐点の計算式を得た n 利益率をいくらにすれば良いか分かる！ u が，ハイパーパラメータ，α，β を定める必要 p というか，現実には
α，β の方が決まっていて，そこから損益分岐点 u どのように定めるか？？？ p 制約（ α>1 , β>0 ）を満たせば，どのような値をいれても良い …が，そんな値は無数にある… 71 ある程度，もっともらしい値が必要だが，そもそも「もっともらしい」とは…？

もっともらしいハイパーパラメータの設定 n すでに何らかのデータが十分にある場合 n データが無い場合 u べき分布に従うような何らかの仮説が立てられる
p たとえば，1000枚に1枚の割合で大当たりのカードがある u 仮説を立てることもできない 72 1．そのデータに基づいて，ハイパーパラメータを推定・設定 2．その仮説に基づいて，ハイパーパラメータを推定・設定 3．べき分布で良いのかすら不明なので，あきらめる実現方法：機械学習等を活用実現方法：数理モデルの構築密度関数も含めて

数理モデルの構築 n 前ページの1．の場合は機械学習などの統計手法を活用 u 基本的には，データを流し込めば勝手に値が出てくる n 2．の場合は，すこし頭を使う必要 u ハイパーパラメータそのものを直接求めるのではなく，仮説を上手くモデル化して行く必要
n 前ページにあげた以下のような仮説なら考えやすい u 1000枚に1枚の割合で大当たりのカードがある u もとの式は乗数がかかるので，O(n^2)の形で書ければいけそう 73

ハイパーパラメータの設定 74 人数価値 n 一定の割合で人数が減る n 人数が減ると，逆に一定の割合で価値向上この割合を決めることで，ハイパーパラメータを決められれば，
直観的なモデリングができそう

ハイパーパラメータの設定 n 元手を1としたとき，L人のうち(L-1)人は1未満だが、1人は1以上 n L×M人なら(L-1)M人は1未満，(LM-1)人はN未満，1人はN以上 n L×M2人なら，1人はN2以上の価値を生む 75 0 1
0 1 0 1 0 1 N1 N2 N1 N2 N1 N3 L*M0人 L*M1人 L*M2人 L*M3人 M倍 M倍 M倍 (L-1) : 1 (L-1) : 1 (L-1) : 1 (L-1) : 1 …という設定を考える ※ M=L=2，かつ離散値の例．実際は連続値（確率密度）であり図と異なる

ハイパーパラメータの設定 76 …(1/L)人=1人の利益率が1 u L*M人のうち(L-1)M人は1未満，(L-1)人はN未満だが、1人はN以上 …(1/LM)人=1人の利益率がN u L*M2人のうち(L-1)M2人は1未満，(L-1)M人はN未満，(L-1)人はN2未満だが、
1人はN2以上 …(1/LM2)人=1人の利益率がN2 n 元手を1としたとき u L人のうち(L-1)人は1未満だが、1人は1以上

ハイパーパラメータの設定 77 u L*Mk人のうち，1人はNk以上 …(1/LMk)人=1人の利益率がNk u N の部分を単に N
の乗数では無く，任意の数 x に一般化すると ( 1 / )人 = 1人の利益率が x

ハイパーパラメータの設定：数式の図解 78 累積分布 F(X) 分割人数分で等分割 1 0 L, M
が一定であれば k が増えるほど幅は小さくなるので，は， 1 に漸近していく = 価値 x が大きくなっていく

ハイパーパラメータの設定：数式の図解 79 累積分布 F(X) 1 0 L分割がベースで，その中を M 分割，その中をさらにM分割… と，k
の増加に伴ってどんどん細かく割っていくイメージ基本は L分割上図は L=3, M=2, k=2 の場合の例

ハイパーパラメータの設定 80 対数の意味… … N を何乗したら x になるか？の意
…は，N を k乗したら x になる…という表現今，k は定数なので上記がそのまま当てはめられる

ハイパーパラメータの設定 81 対数に関する公式

ハイパーパラメータの設定 82 かつ，ここで，したがって…

ハイパーパラメータの設定 83 以上より… おまけ：累積分布については以下が成立ハイパーパラメータが得られた！

人数と損益分岐点 84 = 損益分岐点累積確率累積人数利益率がこれを越えるとプラス！べき分布だと，ベースとなる人数（L）に，対して利益率 X の
{α-1}乗をかけたモノが累積人数に一致より，累積人数はと，表せる今，損益分岐の X が明らかなので… 損益分岐の累積人数

パラメータと損益分岐 85 5人に1人が価値を出し，人数が8分の1になる度に，10倍の価値を生む L = 5 M = 8 N
= 10 L 5 5 5 5 5 5 N 10 10 10 10 10 10 M 4 6 8 10 12 14 損益分岐点 25.9 25.8 27.3 29.7 32.8 36.9 損益分岐人数 35.5 62.8 99.2 148.4 216.4 312.3 n 損益分岐点 27.3 は，利益率 27.3 以上の人が出てくるとプラスの意 n 損益分岐人数は，例えば L=5, M=8, N=10 のときの損益分岐 27.3 は，おおむね 99.2人ほどの人がいれば1人は越えられそうの意 u 27.3 までを積算（＝期待値）すると 1 を超えるので，100人いれば利益がプラス

パラメータと損益分岐 86 L 5 5 5 5 5 5 N
10 10 10 10 10 10 M 4 6 8 10 12 14 損益分岐点 25.9 25.8 27.3 29.7 32.8 36.9 損益分岐人数 35.5 62.8 99.2 148.4 216.4 312.3 5人に1人は利益率 1， 20(=5*4)人に1人は利益率 10， 80人(=5*4*4)に1人は利益率 100 5人に1人は利益率 1， 60 (=5*12)人に1人は利益率 10， 720 (=5*12*12)人に1人は利益率 100 n L, N を固定したときに M を大きくする = 大きな利益を生み出せる人の割合が減る n M が大きくなる＝損益分岐人数が大きくなるは当然

任意の人数での期待値算出 87 すでに見てきたとおり… かつ，従ってところで，は，全体の人数を表すものだったここで，全体の人数を i とおいて，全体の人数が既知のときの
x を求める上の式からも，同じく全体の人数を表している

任意の人数での期待値算出 88 ベースの人数 L と，全体の人数 i が既知のとき，利益率 x は… i
人目の人の利益率

任意の人数での期待値算出 89 ここで期待値は… …だった L, M, N を決めれば，α, β も決まる
いま，i 人いるときの利益率 x について… …で，求められる事がわかっている i も，自分で好きに決めて良いある “べき分布” で利益率が変化するとき， i 人それぞれに 1単位投資した場合の全体としての利益率が計算できる

任意の人数での期待値算出 90 n L=5, N=10, M=8 で 100人のとき，期待値は 1.00 すなわち，100人に1単位ずつ投資したら，同じ額が戻ってくる
n 100000人だと，期待値 3.83 なので，投資額の約4倍の額が得られる M=4 M=6 M=8 M=10 M=12 M=14 α=1.60 α=1.78 α=1.90 α=2.00 α=2.08 α=2.15 10 0.37 0.41 0.44 0.29 0.37 0.41 100 2.09 1.20 1.00 0.89 0.86 0.83 1000 9.94 2.73 1.72 2.39 1.64 1.35 10000 45.89 5.68 2.65 6.13 2.90 1.98 100000 210.60 11.37 3.83 15.47 4.93 2.74 投資対象人数期待値 (L=5 N=10 固定) パラメータがどうであれ，多数に投資するほど期待値も大きくなってゆく重要

正規分布の場合 n べき分布の場合，ハイパーパラメータに関係なく，単純に投資対象を増やすほど，期待値が向上 n 正規分布の場合は平均値に近づくのみ u サンプルサイズ 10,000 と
1000,000 で，期待値にほぼ差は無い p 分布形状がどうあれ，期待値が 1 以上なら損はしない p 期待値 1.1 でも 1億投資すれば 1千万儲かる 91

92 と，ここまでは解析解ここから先は論より証拠，シミュレーションで確認 ※ ここから先は基本的に独自に試行・分析した内容です

シミュレーションでも検証 n こんなカードゲーム u 任意のべき分布に従って，数字の書かれたカードが出てくる p カードの数字は0より大きい※ p
カードは任意の枚数（n枚）引くことができる u プレイヤーはカードと同数のコインをもらえる p 好きなカードに，手持ちのコインを好きなだけ置くことができる u カードをめくって書いてある数字に，コインの枚数を掛けただけ，ポイントがもらえる p ポイントが元のコインの枚数（n）を越えていたら勝ち 93 ※ 正確には以前算出した γ より大きい重要

何を検証するのか？ n どういうときにこのゲームに勝てるのか？ n 全カードにコインをおくべき？集中させるべき？ u カードのもつ価値を，ある程度予測できたらかわるか？ u どの程度の確度で予測ができたらいいのか？ 94

試行パタン n こんなパターンで試行 u 分布形状 p L，M，N（何枚に1枚が1以上？確率1/Mで，数値はさらにN倍） u コインの置き方 p
均等に置く，一部に置く（ランダム or XX%の確率で予見可など） n 各パタンを複数回試行 u 1回などの場合，偶然，手札がとても良い・悪い可能性 p 特にべき分布の場合，ものすごく偏る場合があるため，いくつかの例を眺めて見る 96

シミュレーションのよくある質問 n 手持ちのコイン数と言わず，大量のカードを引いたら？ u カードは確率分布に従ってランダムに出てきますので，意味的には無限枚引いても，カードの枚数分引いても同じです n 予測するときはカードが無限枚ある方がいいのでは？ u 確かにそうですが，課題数も予算も実際には有限です
u コインの数を上限として，その中でセレクションを行う事で，全部のカードにコインを置いた場合との比較も可能になります n ランダムにカードを引くのなら，ものすごく良いカードがまとまって出てくる可能性もあるのでは u その通りです．従って複数回試行する必要があります． u 実際，べき分布では「ものすごく高価値なカード」が出てしまい，妙なことになるケースもそこそこ発生し得ます 97

準備：べき分布に従った乱数生成 n 計算機の中では，一様分布に従う乱数生成※は比較的容易 u 基本的にはただ単に，ランダムな数を返せば一様分布 p 乱数生成も突き詰めると難問ではあるものの，便利な手法がいくつか p Excel でも簡単に取得が可能
n べき分布など任意の確率分布に基づく乱数生成の方法 u 確率密度分布を直接考えるのは難しい u 確率累積分布であれば，範囲は確実に0-1の範囲に収まる p 累積なので，確率密度関数がどれだけ複雑でも，微分値は負にならない u 0−1の範囲で一様分布に基づく乱数生成は容易 u 例えば累積分布が 90% の時の x を求めることができればよい p 一様分布に基づく乱数から，任意の確率密度関数に基づく乱数が出る 98 ※ 正確には疑似乱数累積分布の逆関数 G(F(X)) を求めれば良い

準備：べき分布に従った乱数生成 99 任意の累積分布 0 1 0

準備：べき分布に従った乱数生成 n 累積分布の逆関数の算出 100 累積分布は… …で，あるのでちなみに，

準備：べき分布に従った乱数生成 n 累積分布の逆関数の算出 101 前ページの計算結果より… なお，であったので… …も，等価累積分布の逆関数

準備：Show Card カードの確認 n ゲームに入る前にカードを確認 u 理論通りにちゃんとべき分布に従って出てくるのか？ u
ランダムに引くとはいえ，少数枚だと数字が大きいモノや小さいモノばかり固まって出てきたりしないのか？ p 影響があるなら何枚位引けば，その影響は回避できそうなのか？ 102

0 2000 4000 6000 8000 10000 1 2 3 4
5 6 7 8 9 10 準備：Show Card カードの確認 n べき分布に従って出てくるか？ u L=5, N=10, M=8 -> α=1.90, β=0.18 で 10000枚引いてみる 103 0 ≦ x < 1 1 ≦ x < 2 最小値：0.2，最大値：3948.0 10までの累積：97.7% 数値件数数値件数〜 1 8053 〜 11 16 〜 2 920 〜 12 14 〜 3 300 〜 13 10 〜 4 173 〜 14 16 〜 5 106 〜 15 8 〜 6 75 〜 16 8 〜 7 43 〜 17 8 〜 8 41 〜 18 12 〜 9 33 〜 19 8 〜 10 23 〜 20 6 なんとなく，“べき分布”ぽいような気もするが，そうでないような気もしなくは無い…

準備：Show Card カードの確認 n べき分布に従って出てくるか？ u L，α の値が明らかなので，累積分布が算出可能 = 理論値と比較可能
104 数値件数数値件数〜 1 8053 〜 11 16 〜 2 920 〜 12 14 〜 3 300 〜 13 10 〜 4 173 〜 14 16 〜 5 106 〜 15 8 〜 6 75 〜 16 8 〜 7 43 〜 17 8 〜 8 41 〜 18 12 〜 9 33 〜 19 8 〜 10 23 〜 20 6 数値累積率累積数区間数数値累積率累積数区間数 1 80.0% 8000 8000 11 97.7% 9771 21 2 89.3% 8930 930 12 97.9% 9788 17 3 92.6% 9258 328 13 98.0% 9803 15 4 94.3% 9428 170 14 98.2% 9815 13 5 95.3% 9532 104 15 98.3% 9827 11 6 96.0% 9603 71 16 98.4% 9836 10 7 96.5% 9655 52 17 98.5% 9845 9 8 96.9% 9694 39 18 98.5% 9853 8 9 97.2% 9725 31 19 98.6% 9860 7 10 97.5% 9750 25 20 98.7% 9866 6 理論値観測値理論値にほぼ一致する値が観測できていることが分かる

準備：Show Card カードの確認 n べき分布に従って出てくるか？ u サンプル数が少ないとどうか？ 105 理論値観測値
10枚程度でもほぼ一致する値が観測できていることが分かる数値件数〜 1 82 〜 2 7 〜 3 4 〜 4 1 〜 5 1 〜 6 0 〜 7 0 〜 8 0 〜 9 0 〜 10 0 数値累積率累積数区間数 1 80.0% 80 80 2 89.3% 89 9 3 92.6% 93 3 4 94.3% 94 2 5 95.3% 95 1 6 96.0% 96 1 7 96.5% 97 1 8 96.9% 97 0 9 97.2% 97 0 10 97.5% 97 0 数値件数〜 1 8 〜 2 1 〜 3 1 〜 4 0 〜 5 0 〜 6 0 〜 7 0 〜 8 0 〜 9 0 〜 10 0 数値累積率累積数区間数 1 80.0% 8 8 2 89.3% 9 1 3 92.6% 9 0 4 94.3% 9 0 5 95.3% 10 0 6 96.0% 10 0 7 96.5% 10 0 8 96.9% 10 0 9 97.2% 10 0 10 97.5% 10 0 理論値観測値 100枚引いた場合 10枚引いた場合

準備：Show Card カードの確認 n べき分布に従って出てくるか？ u ここまでの例はそれぞれ1試行のみだが，安定してそうなるか？ 106 各試行でのカードの数値の平均値各試行でのカードの数値の中央値
“べき分布”の特徴のひとつは，非常に大きな値も出ること = 平均使えず中央値で見ると，試行回数が大きい方が安定する ← 今回の実験でもその傾向が確認できる＆沢山カードを引くと大当たりも 1000回試行 1000回試行 ← 少ないと，数字の大きい・小さいものばかり固まってでてくることがある

準備：Show Card カードの確認 n べき分布に従って出てくるか？ u ここまでの例はそれぞれ1試行のみだが，安定してそうなるか？ 107 各試行でのカードの数値の中央値 10枚だとさすがにばらつきが⼤きそう
100枚なら，そこそこ安定した結果︖ ケースごとに 1000回試行

準備：Show Card カードの確認 n 留意点 u 多数カードを引くほど，“大当たり”を引き当てる可能性も増大 u 1試行だけでは，極端な例か，よくある例かの判断が困難 p
複数回試行して，上位・下位10%程度を捨てた方がよい可能性 108 ケースごとに 1000回試行各試行でのカードの数値の平均値

Play！ n とりあえず，手持ち1000コインで挑戦 u L=5, N=10, M=8 -> α=1.90, β=0.18
u 上記の条件で 4回やってみると… 109 Game ID 利益率 4522738632 2.8 4521130640 1.5 4522738632 1.6 4521192696 2.9 ※ 利益率 = （得点/投資額）利益率が 1.5 なら1000円の投資で， 1500円もらえた計算儲かったのは分かるが… So What?

検証すべきこと n 上記の設定を再度確認し，細かい条件を設定 n その上で，比較して，良い条件を見つけ出す 110 何を検証するのか？ n どういうときにこのゲームに勝てるのか？ n
全カードにコインをおくべき？集中させるべき？ u カードのもつ価値を，ある程度予測できたらかわるか？ u どの程度の確度で予測ができたらいいのか？ 92

ゲームの条件 n カードの枚数 u 1000，10000，100000 の 3パタン n コインの置き方 u
均等，全体の75%，50%，25%，10% に集中の5パタン u さらに… p カードにコインを集中させるのに，なにを基準にするか？ • 50% ならとにかく半分のカードに 2枚ずつコインを置く • 一定の確率でカードの価値を予測できるとして，予測に従って置く • 単に数字の大小だけが分かる，具体的な数字まで分かる 111 • 正規分布で考えれば，パラメータが同じなら 1000枚でも 10000枚でも，利益率は殆ど同じ値になるはず • 枚数で利益率は変わるのか？どの位変わるのか？どの程度予測できたら利益が上がるのか？

ゲームの条件 n コインの置き方（承前） u 予測精度：ランダム（0%），10%，25%，50% の 4パタン u 予測内容：
利益率 1.0 より上か下か※，具体的数値の 2パタン n 実験のパラメータ u カードの枚数：3 パタン u コインの集中度：5 パタン u 予測精度：4 パタン u 予測内容：2 パタン 112 特定のカード枚数ごとに 40 パタン ※ 上か下かの2値予測

Play！ n L=5, N=10, M=8 -> α=1.90, β=0.18 113 ※
平均は 1000回試行の平均 ※ 部分平均は 1000回試行した中の上位・下位10%を除いた平均べき分布の場合，極端な大当たりが存在するため，平均が上手く機能しないことも ← 平均と，部分平均の傾向が異なる理由（本当は「極端な大当たり」が無視できないことがポイント） is_Bin: True=利益率が1.0より上か下かの2値予測，False=カードの数値そのものを予測 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 1000 4.5 3.8 4.3 4.2 3.0 4.5 4.8 4.4 5.1 4.2 4.5 5.0 5.2 6.2 6.0 4.5 5.3 7.2 8.6 8.0 10000 8.3 9.5 8.4 9.9 16.5 8.3 7.7 11.1 10.5 5.6 8.3 7.7 12.8 12.5 19.2 8.3 10.4 11.2 21.4 22.2 100000 10.7 8.8 13.4 7.2 6.5 10.7 11.4 13.6 9.7 9.5 10.7 9.9 12.8 12.7 10.7 10.7 13.3 14.5 25.2 18.0 1000 3.0 2.8 2.8 2.4 2.0 3.0 3.0 3.0 2.7 2.4 3.0 3.2 3.5 3.4 3.0 3.0 3.4 4.4 5.4 4.5 10000 4.3 4.2 4.3 3.6 3.0 4.3 4.4 4.6 4.1 3.4 4.3 4.6 5.4 5.5 4.4 4.3 5.1 6.5 8.3 6.8 100000 6.0 5.8 5.4 4.8 4.2 6.0 6.1 6.3 5.8 4.9 6.0 6.5 7.7 7.6 6.4 6.0 7.1 9.2 11.4 10.0 コイン分散度平均部分平均 is_Bin TRUE 予測精度 0% 10% 25% 50% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 1000 4.5 4.6 5.1 4.0 4.0 4.5 4.8 5.1 4.9 7.5 4.5 4.9 5.1 9.4 14.3 4.5 5.1 6.7 9.6 19.4 10000 8.3 6.9 7.8 4.8 6.2 8.3 9.6 11.1 7.4 9.2 8.3 8.1 11.8 10.6 31.1 8.3 10.3 13.9 19.7 34.1 100000 10.7 11.4 12.1 9.6 7.0 10.7 11.9 13.7 11.0 22.1 10.7 12.1 11.7 14.0 23.7 10.7 12.5 17.4 28.5 41.2 1000 3.0 2.8 2.7 2.4 2.1 3.0 2.9 2.9 3.2 4.2 3.0 3.1 3.3 4.5 6.8 3.0 3.3 4.1 6.2 12.4 10000 4.3 4.1 3.7 3.5 2.9 4.3 4.3 4.3 4.6 6.1 4.3 4.6 5.0 6.8 10.8 4.3 5.0 6.1 9.6 20.3 100000 6.0 5.7 5.3 5.0 4.3 6.0 6.0 6.1 6.6 9.0 6.0 6.5 6.9 9.1 15.7 6.0 6.9 8.8 13.5 27.6 コイン分散度平均部分平均 is_Bin FALSE 予測精度 0% 10% 25% 50%

100% 75% 50% 25% 10% 100% 75% 50% 25% 10%
100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 1000 4.5 3.8 4.3 4.2 3.0 4.5 4.8 4.4 5.1 4.2 4.5 5.0 5.2 6.2 6.0 4.5 5.3 7.2 8.6 8.0 10000 8.3 9.5 8.4 9.9 16.5 8.3 7.7 11.1 10.5 5.6 8.3 7.7 12.8 12.5 19.2 8.3 10.4 11.2 21.4 22.2 100000 10.7 8.8 13.4 7.2 6.5 10.7 11.4 13.6 9.7 9.5 10.7 9.9 12.8 12.7 10.7 10.7 13.3 14.5 25.2 18.0 1000 3.0 2.8 2.8 2.4 2.0 3.0 3.0 3.0 2.7 2.4 3.0 3.2 3.5 3.4 3.0 3.0 3.4 4.4 5.4 4.5 10000 4.3 4.2 4.3 3.6 3.0 4.3 4.4 4.6 4.1 3.4 4.3 4.6 5.4 5.5 4.4 4.3 5.1 6.5 8.3 6.8 100000 6.0 5.8 5.4 4.8 4.2 6.0 6.1 6.3 5.8 4.9 6.0 6.5 7.7 7.6 6.4 6.0 7.1 9.2 11.4 10.0 コイン分散度平均部分平均 is_Bin TRUE 予測精度 0% 10% 25% 50% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 1000 4.5 4.6 5.1 4.0 4.0 4.5 4.8 5.1 4.9 7.5 4.5 4.9 5.1 9.4 14.3 4.5 5.1 6.7 9.6 19.4 10000 8.3 6.9 7.8 4.8 6.2 8.3 9.6 11.1 7.4 9.2 8.3 8.1 11.8 10.6 31.1 8.3 10.3 13.9 19.7 34.1 100000 10.7 11.4 12.1 9.6 7.0 10.7 11.9 13.7 11.0 22.1 10.7 12.1 11.7 14.0 23.7 10.7 12.5 17.4 28.5 41.2 1000 3.0 2.8 2.7 2.4 2.1 3.0 2.9 2.9 3.2 4.2 3.0 3.1 3.3 4.5 6.8 3.0 3.3 4.1 6.2 12.4 10000 4.3 4.1 3.7 3.5 2.9 4.3 4.3 4.3 4.6 6.1 4.3 4.6 5.0 6.8 10.8 4.3 5.0 6.1 9.6 20.3 100000 6.0 5.7 5.3 5.0 4.3 6.0 6.0 6.1 6.6 9.0 6.0 6.5 6.9 9.1 15.7 6.0 6.9 8.8 13.5 27.6 コイン分散度平均部分平均 is_Bin FALSE 予測精度 0% 10% 25% 50% Play！ n L=5, N=10, M=8 -> α=1.90, β=0.18 114 ※ 平均は 1000回試行の平均 ※ 部分平均は 1000回試行した中の上位・下位10%を除いた平均予測できない場合，とにかく薄く広くコインを置く方が全体の利益が大きい数量まで予測してしまった場合，中途半端に選択すると利益が下がる可能性重要とにかくカードが多いほど有利

結果の概況 n あらゆる状況下で，カードは多ければ多いほど有利 n カードの価値が分からない場合 u とにかく，全部に広く薄く投資する方が高い利益をあげられる n カードの価値が “1を上回るかどうか”
予測できる場合 u 予測確度が10%（9割ハズレ）であっても，予測結果を信じて投資対象を絞る方が，全部に投資するより高利益 u 投資対象を絞って 1件辺りの額を上げる方がより高利益 n カードの具体的価値まで予測できる場合 u 予測確度が低く，かつ，中途半端（75%まで絞り込み）の場合，むしろ，全体に投資するより収益低下 u それ以外は，上記 “2値予測” と同様の傾向 115 （ L=5, N=10, M=8 -> α=1.90, β=0.18 の例については… ）重要

なぜ，数値予測で悪化するか？ n セレクションの仕方に原因？ n 現状の手続 u カード全体を見わたして，それぞれに予測を実施 p 価値が高そうなものから順にコインを置いていく u
2値予測の場合，価値1 or 0 で，1のものにランダムに投資 u 数値予測の場合は，具体価値に沿って順に投資 u ランダム投資なら平均的には予測ミスが打ち消される u 数値予測の場合，読み間違えで大当たりを逆に逃す可能性向上？ 116 あえて粗い予測をする方が，かえって有利 u 明日の14時12分から48分間雨が降る u 明日か明後日に雨が降る

1セル分の計算の裏側 n 1セル分の数値算出の裏では大量の試行を実施 u 1つのカードの組みで 40回 p 予測タイプ2種類 ×
精度4種類 × 分散5種類 u それを1000回やるので 4万回 u カードの枚数が3パタンなので表作成には少なくとも 40万回 u カードの枚数が増えると，枚数分予測もするので…？？？ 117 is_Bin 予測精度 … コイン分散度 100% 75% 50% … 25% 10% 1回目 7.2 7.2 10.2 … 18.0 22.7 2回目 4.5 4.3 4.7 … 12.0 18.7 3回目 7.2 8.6 9.8 … 15.1 35.6 4回目 3.8 3.0 4.3 … 8.6 22.0 5回目 432.8 576.2 857.4 … 17.3 4300.8 6回目 3.9 4.3 5.1 … 11.5 20.1 7回目 4.6 5.2 6.3 … 7.4 13.8 8回目 3.6 3.4 2.9 … 9.0 16.6 9回目 6.2 6.2 6.7 … 18.4 32.3 10回目 3.7 3.7 3.9 … 8.4 15.7 11回目 6.9 7.5 9.9 … 21.4 45.5 12回目 48.4 63.5 85.5 … 25.6 14.8 13回目 6.9 5.5 9.0 … 19.2 51.8 14回目 3.7 3.8 3.8 … 8.8 14.0 … … … … … … … 997回目 3.9 3.6 5.1 … 9.8 19.6 998回目 10.8 13.1 17.9 … 35.4 83.6 999回目 5.1 5.8 7.0 … 8.0 33.5 1000回目 6.0 6.9 7.8 … 17.2 20.3 平均 14.9 13.2 12.3 … 30.4 93.3 部分平均 6.2 5.9 5.6 … 14.7 25.5 TRUE 0% 50% まれに超高価値なカードが出て，利益がすごいことになることも先ほどの表はこの部分のみを抜粋したもの

118 日本の研究者数は2018年において67.6万人、実数(HC: Head Count)値は93.1万人科学技術指標2019， NISTEP，調査資料-283 (2019) 2018年の国立、公立、私立大学の研究者数は、それぞれ13.6万人、2.0万人、13.8万人
日本の公的機関の研究者数（FTE）を見ると、 2018年で総数3.1万人仮に企業部門の研究者について，基本的に公的資金を用いないとすると我が国の研究者数はおおよそ 32.5万人

研究者数を考慮した試行 119 n L=5, N=10, M=8 -> α=1.90, β=0.18 傾向はこれまでみたものと同様
基本的には，カード枚数 10000枚程度で様子を見て置いて，気になるところだけ，32万枚での試行を行えば良さそう ※ 平均は 1000回試行の平均 ※ 部分平均は 1000回試行した中の上位・下位10%を除いた平均予測精度コイン分散度 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 平均 16.1 14.7 11.5 20.6 11.2 16.1 15.6 18.7 26.2 22.7 16.1 20.7 20.9 31.4 50.9 16.1 21.3 29.4 40.7 79.2 部分平均 7.2 6.9 6.5 5.7 5.0 7.2 7.7 7.7 7.9 10.0 7.2 8.9 9.7 11.0 17.6 7.2 9.5 12.4 17.2 31.5 平均 16.1 17.0 19.5 11.7 19.1 16.1 15.0 22.9 33.9 40.2 16.1 17.8 13.3 27.0 40.9 16.1 20.0 21.8 34.3 51.2 部分平均 7.2 6.9 6.3 6.1 5.3 7.2 7.2 7.3 7.7 10.2 7.2 7.5 8.3 10.9 19.0 7.2 8.3 10.3 16.2 34.5 FALSE is_Bin 0% 10% 25% 50% TRUE

科研費を考慮した場合 120 科学研究費応募件数採択件数採択率推移 55,000 71,900 78,000
89,700 91,700 101,900 19,200 28,600 36,900 44,900 63,700 78,700 13,200 19,800 16,600 19,100 26,200 28,900 0 20,000 40,000 60,000 80,000 100,000 120,000 H2 H7 H12 H17 H23 R1 応募件数新規採択件数新規継続採択件数新規採択率年度 24.0% 27.6% 21.3% 28.6% 28.4% 21.4% 件数 • 科学研究費科研費特別推進研究新学術域研究基盤研究特設分野研究除挑戦的研究開拓萌芽若手研究研究活動支援及奨励研究指 • 上奨励研究除科学研究費集計平成30年度以降国際共同研究加速基金国際共同研究強化 B 集計出典：JSPS，科研費データ-応募・採択件数の推移（令和元(2019)年10月25日更新）応募されている課題はおおよそ10万件 1000件, 10000件, 100000件で試行しているため，再試行不要

どの程度の予測精度が必要か？ 121 n 予測精度が何%のときに，0%より高利益か？概ね予測精度 5% が境界ライン平均部分平均
n L=5, N=10, M=8 n α=1.90, β=0.18 ※ 平均は 10000回試行の平均 ※ 部分平均は 10000回試行中の上位・下位10%を除いた平均 is_Bin 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 0% 17.6 19.0 21.5 33.3 16.5 17.6 19.2 11.9 11.8 16.8 1% 17.6 20.3 23.7 11.5 12.3 17.6 18.3 13.1 34.8 12.0 2% 17.6 20.2 24.2 12.6 16.9 17.6 19.5 22.0 12.4 11.9 3% 17.6 20.0 15.0 14.7 12.0 17.6 19.9 23.7 38.2 21.8 4% 17.6 19.6 22.9 14.2 19.8 17.6 12.2 23.1 34.6 70.3 5% 17.6 19.3 24.5 15.5 11.0 17.6 20.0 13.6 16.4 19.1 6% 17.6 19.8 24.4 36.8 12.2 17.6 19.9 12.9 13.7 81.8 7% 17.6 20.0 13.7 14.2 17.4 17.6 20.7 22.8 13.7 16.6 8% 17.6 20.5 11.0 12.5 12.1 17.6 20.5 14.0 34.4 31.3 9% 17.6 19.8 23.5 11.7 11.5 17.6 12.6 24.7 13.2 79.2 0% 5.9 5.7 5.4 4.9 4.4 5.9 5.7 5.4 4.9 4.3 1% 5.9 5.8 5.4 5.1 4.5 5.9 5.7 5.5 5.1 4.7 2% 5.9 5.8 5.6 5.1 4.5 5.9 5.8 5.5 5.2 5.1 3% 5.9 5.8 5.7 5.2 4.5 5.9 5.8 5.6 5.4 5.5 4% 5.9 5.8 5.8 5.4 4.6 5.9 5.8 5.6 5.6 6.0 5% 5.9 5.9 5.9 5.4 4.8 5.9 5.9 5.7 5.7 6.5 6% 5.9 5.9 5.9 5.4 4.9 5.9 5.8 5.8 5.9 6.8 7% 5.9 5.9 6.0 5.5 4.9 5.9 5.9 5.8 6.1 7.1 8% 5.9 6.0 6.1 5.6 4.9 5.9 5.9 5.9 6.3 7.8 9% 5.9 6.0 6.2 5.8 5.0 5.9 5.8 5.9 6.3 8.1 予測精度予測精度 TRUE FALSE 分散度

留意点 n 単位等への注意 u 今回は 1 単位の投資で XX倍の利益率
という設定 u 研究分野毎に 1 単位の実際の金額は大きく異なる n 収穫期への注意 u 今回は投資後，全ての成果の利益を回収できている設定 u 実際には成果が出るまでの期間も様々 p しばらく何の成果も無く一定期間後に大きな成果を挙げるもの p 期間中すこしずつ，広く薄く成果を挙げるもの p すぐに成果を挙げるもの，…など n 予測についての注意 u 予測には様々なバイアスもかかる u 大きな成果を挙げる，ディストラクティブなイノベーションになるほど，逆に「そんなことはあり得ない・無理だ」と，積極的に捨てる可能性も n 内容面についての注意 u 絞り込み時の予測は確率が絡むので本来は複数回試行が必要（現状は1試行） 122 重要

高価値なモノを見逃すとどうか？ 123 n 1の投資で100以上産み出すような奇特なものについて， “ありえない，怪しい” として忌避した場合はどうなるか？ u 価値の予測値が 100 を越えていた場合，カードの予測価値を
0 に強制変更超高付加価値なものを見逃すため，選択と集中が裏目に平均部分平均 n L=5, N=10, M=8 -> α=1.90, β=0.18 ※ 平均は 1000回試行の平均 ※ 部分平均は 1000回試行した中の上位・下位10%を除いた平均 is_Bin 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 0% 12.3 13.5 14.1 9.7 19.2 12.3 13.6 14.8 9.4 7.9 1% 12.3 13.6 14.5 10.1 10.3 12.3 13.6 14.6 11.5 17.8 5% 12.3 13.6 14.0 10.4 19.6 12.3 13.4 14.2 8.9 5.8 10% 12.3 13.3 12.5 8.5 14.1 12.3 10.0 16.3 8.1 8.1 25% 12.3 11.8 9.6 10.0 10.1 12.3 12.2 9.8 7.2 8.0 50% 12.3 8.8 11.0 11.5 16.0 12.3 7.7 7.8 7.8 9.7 0% 6.2 6.0 5.5 5.2 4.3 6.2 6.0 5.7 5.1 4.4 1% 6.2 6.0 5.6 5.0 4.5 6.2 6.0 5.7 5.0 4.2 5% 6.2 5.9 5.6 5.3 4.6 6.2 6.0 5.5 5.1 4.7 10% 6.2 6.0 5.6 5.0 4.7 6.2 5.8 5.5 5.2 4.4 25% 6.2 5.7 5.5 5.1 4.5 6.2 5.4 5.2 4.9 4.9 50% 6.2 4.7 4.6 4.7 5.3 6.2 3.5 3.7 4.4 6.5 TRUE FALSE コイン分散度予測精度予測精度

まとめ n 研究成果はべき分布に近い u 科研費基盤C の連続採択 u
論文の引用数，など n べき分布に従う場合 u 将来，大きな研究成果を上げる課題について，予め一定確率以上で予測できるのであれば，選択と集中により，非常に大きな成果が得られる u そうでない場合，一切選択せず，広く薄くあまねく課題に予算を付与する方が，全体として大きな成果が得られる 124 石を拾うことがあっても玉を捨てない（情報処理学会論文査読ポリシー）

情報工学的な今後の展開可能性 n 研究資金配分を多腕バンディット問題で考えることも可能 n 多腕バンディット問題 u 複数の（報酬確率の異なる）スロットマシンがある u
各マシンに過去，いくら入れていくら儲けたか，記録済み u どのマシンに賭けるか？ u 強化学習の古典的問題のひとつ u いろいろな解法や，応用問題がある p 応用問題：途中でマシンの報酬確率が変わる…など n スロットマシンを研究者に置き換えれば，数値解析的にどういう風な資金配分戦略がベターか導ける可能性 125

127 付録：その他の試行

その他の分布 n 本資料では “べき分布” を元に検証 n 実際には “べき分布” と類似する様な分布は多数 u
収入等について “対数正規分布” が当てはまるという説も p 一見すると，べき分布と類似する形状の分布形状を有する p 細かい部分では，べき分布と異なる性質も u “正しい分布”が何かは，必ずしも明らかでは無い 128 いろいろ試してみることも重要

対数正規分布 n 下記の確率密度分布で表現される分布 u 参考：正規分布の確率密度分布 129

対数正規分布 n パラメータは平均値 mu と分散 sigma u パラメータの形状により，分布形状が変化
130 sigma=2.0 を越えると，べき分布っぽい？

対数正規分布: 累積分布 131

べき分布と対数正規分布 n 見た目については類似 u 上図はX軸を合わせてあり，相関を取ると r=0.91 と高い値
132 L=5, N=10, M=8 mu=-5, sigma=5 対数正規分布の pdf,cdf については，下記パッケージの関数を利用図表作成： scipy シミュレーション： numpy

べき分布と対数正規分布 133 L=5, N=10, M=8 mu=-5, sigma=5 数値
累積率累積数区間数数値累積率累積数区間数 1 80.0% 8000 8000 1 84.1% 8413 8413 2 89.3% 8930 930 2 87.3% 8726 312 3 92.6% 9258 328 3 88.9% 8887 161 4 94.3% 9428 170 4 89.9% 8992 105 5 95.3% 9532 104 5 90.7% 9069 77 6 96.0% 9603 71 6 91.3% 9128 59 7 96.5% 9655 52 7 91.8% 9176 48 8 96.9% 9694 39 8 92.2% 9216 40 9 97.2% 9725 31 9 92.5% 9250 34 10 97.5% 9750 25 10 92.8% 9279 29 11 97.7% 9771 21 11 93.1% 9305 26 12 97.9% 9788 17 12 93.3% 9328 23 13 98.0% 9803 15 13 93.5% 9349 21 14 98.2% 9815 13 14 93.7% 9367 19 15 98.3% 9827 11 15 93.8% 9384 17 16 98.4% 9836 10 16 94.0% 9400 16 17 98.5% 9845 9 17 94.1% 9414 14 18 98.5% 9853 8 18 94.3% 9427 13 19 98.6% 9860 7 19 94.4% 9440 12 20 98.7% 9866 6 20 94.5% 9451 11 べき分布対数正規分布このパラメータの場合には… 「多くが1以下」は同様急激に減衰していく点も同様ただし，対数正規分布は… 1までから 2までの減数は急峻ただし，その後の減衰は穏やか高い価値を生み出す確率が，べき分布以上に大きい

シミュレーション結果 134 mu=-5, sigma=5 1000枚の場合 10000枚の場合部分平均部分平均 1000試行 is_Bin
100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 0% 282.8 255.7 215.7 151.8 88.8 282.8 251.2 216.3 136.4 77.7 1% 282.8 232.4 224.2 141.7 82.5 282.8 255.3 205.2 136.8 82.6 5% 282.8 245.0 221.7 142.6 94.2 282.8 282.9 217.6 172.6 155.1 10% 282.8 257.0 265.9 183.3 112.0 282.8 270.4 251.9 229.6 215.4 25% 282.8 290.9 315.9 261.5 173.5 282.8 286.3 289.0 369.7 499.2 50% 282.8 323.5 396.8 471.5 275.8 282.8 320.5 376.9 600.5 1280.8 予測精度 TRUE FALSE コイン分散度 is_Bin 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 0% 508.7 484.6 444.2 386.9 239.9 508.7 473.4 448.0 372.4 249.6 1% 508.7 463.6 419.1 361.7 249.3 508.7 463.1 443.3 391.0 334.7 5% 508.7 482.2 482.7 358.4 291.1 508.7 481.3 442.1 411.1 482.5 10% 508.7 507.4 501.7 460.2 304.0 508.7 499.5 462.1 512.6 646.0 25% 508.7 564.6 657.7 579.9 430.2 508.7 551.8 563.9 719.6 1176.4 50% 508.7 596.6 788.5 1010.3 746.1 508.7 583.9 732.2 1156.8 2548.0 コイン分散度予測精度 TRUE FALSE

シミュレーション結果 135 mu=-5, sigma=5 100000枚，1000試行部分平均 is_Bin 100% 75% 50%
25% 10% 100% 75% 50% 25% 10% 0% 866.8 835.8 788.3 676.3 556.0 866.8 839.8 808.4 629.2 503.5 1% 866.8 843.9 781.9 653.6 500.3 866.8 810.5 742.4 652.2 582.0 5% 866.8 877.4 851.9 746.3 562.6 866.8 852.3 779.8 757.2 831.2 10% 866.8 908.4 911.0 831.3 642.4 866.8 859.3 870.1 945.3 1164.0 25% 866.8 934.7 1092.2 1167.7 912.3 866.8 900.2 1013.0 1325.5 2284.6 50% 866.8 1045.9 1347.5 1824.3 1531.0 866.8 989.0 1249.7 1986.7 4109.3 TRUE FALSE コイン分散度予測精度

is_Bin 100% 75% 50% 25% 10% 100% 75% 50% 25%
10% 0% 866.8 835.8 788.3 676.3 556.0 866.8 839.8 808.4 629.2 503.5 1% 866.8 843.9 781.9 653.6 500.3 866.8 810.5 742.4 652.2 582.0 5% 866.8 877.4 851.9 746.3 562.6 866.8 852.3 779.8 757.2 831.2 10% 866.8 908.4 911.0 831.3 642.4 866.8 859.3 870.1 945.3 1164.0 25% 866.8 934.7 1092.2 1167.7 912.3 866.8 900.2 1013.0 1325.5 2284.6 50% 866.8 1045.9 1347.5 1824.3 1531.0 866.8 989.0 1249.7 1986.7 4109.3 TRUE FALSE コイン分散度予測精度シミュレーション結果：べき分布との比較 n 今回の設定においては，べき分布と対数正規分布の間で試行結果の傾向自体に大きな違いは無さそうな様子がうかがえる 136 mu = -5 sigma = 5 is_Bin 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 0% 1298.3 1489.9 804.9 487.2 318.4 1298.3 1161.6 2082.1 782.2 365.0 1% 1298.3 985.7 1219.1 1573.9 294.3 1298.3 1391.6 1297.2 1783.3 332.7 5% 1298.3 1622.2 1255.2 1981.7 311.1 1298.3 1266.5 1354.7 3657.9 816.0 10% 1298.3 1053.4 1269.5 1895.2 380.1 1298.3 666.8 1012.9 594.8 591.2 25% 1298.3 1622.1 2274.7 2175.7 521.8 1298.3 1117.9 1225.7 2327.0 3341.8 50% 1298.3 1576.2 2198.0 1818.1 3482.2 1298.3 1530.3 2121.1 2095.1 6715.1 0% 241.4 216.4 179.7 137.0 75.7 241.4 220.0 200.0 139.6 89.3 1% 241.4 206.7 176.7 141.8 87.2 241.4 207.3 190.5 157.4 95.9 5% 241.4 234.1 204.4 149.6 91.3 241.4 231.3 198.6 169.9 135.9 10% 241.4 235.4 217.2 164.9 109.7 241.4 224.3 243.0 176.6 215.0 25% 241.4 254.8 289.1 230.6 161.5 241.4 241.8 257.7 282.0 513.8 50% 241.4 273.0 366.1 427.5 270.3 241.4 276.2 321.0 514.0 1051.8 FALSE コイン分散度予測精度予測精度 TRUE 対数正規べき分布 is_Bin 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 0% 7.6 4.6 10.4 4.5 4.7 7.6 5.3 9.7 15.6 3.9 1% 7.6 4.6 9.8 5.1 3.7 7.6 5.3 5.7 4.7 4.6 5% 7.6 5.5 11.2 4.6 4.0 7.6 7.9 10.2 5.9 11.3 10% 7.6 8.5 5.2 14.7 3.9 7.6 4.8 4.9 8.3 32.9 25% 7.6 9.2 12.3 15.4 4.9 7.6 5.7 11.4 7.7 37.1 50% 7.6 8.7 12.7 18.5 8.4 7.6 9.1 12.4 13.4 28.4 0% 3.0 2.9 2.6 2.4 2.0 3.0 2.8 2.7 2.3 2.1 1% 3.0 2.8 2.7 2.5 1.9 3.0 2.9 2.7 2.5 2.2 5% 3.0 3.0 2.9 2.5 2.2 3.0 3.0 2.9 2.8 2.9 10% 3.0 3.0 3.1 2.5 2.3 3.0 2.9 2.9 3.2 3.9 25% 3.0 3.2 3.7 3.4 2.9 3.0 3.2 3.5 4.4 7.1 50% 3.0 3.5 4.4 5.2 4.7 3.0 3.4 4.2 6.4 12.8 TRUE FALSE コイン分散度予測精度予測精度 L = 5 N = 10 M = 8 部分平均傾向の確認に主眼があるため，細かいパラメータの調整を行っていないパラメータによっては異なる傾向を示す可能性がある ※ 100000枚，1000試行

シミュレーション結果：パラメータの違い n パラメータにより傾向が大きく変わることも分かる 137 100000枚，1000試行 is_Bin 100% 75% 50% 25%
10% 100% 75% 50% 25% 10% 0% 1.131 1.131 1.132 1.133 1.133 1.131 1.132 1.132 1.133 1.133 1% 1.131 1.134 1.138 1.138 1.137 1.131 1.135 1.138 1.141 1.146 5% 1.131 1.140 1.155 1.155 1.155 1.131 1.141 1.155 1.174 1.199 10% 1.131 1.149 1.177 1.176 1.176 1.131 1.151 1.177 1.215 1.266 25% 1.131 1.170 1.240 1.242 1.241 1.131 1.180 1.241 1.338 1.465 50% 1.131 1.206 1.350 1.350 1.350 1.131 1.230 1.350 1.543 1.798 0% 1.060 1.060 1.059 1.058 1.057 1.060 1.060 1.059 1.058 1.058 1% 1.060 1.060 1.060 1.060 1.060 1.060 1.060 1.060 1.061 1.065 5% 1.060 1.060 1.070 1.070 1.071 1.060 1.061 1.070 1.080 1.095 10% 1.060 1.068 1.084 1.085 1.084 1.060 1.070 1.084 1.108 1.133 25% 1.060 1.080 1.127 1.127 1.126 1.060 1.090 1.127 1.180 1.246 50% 1.060 1.100 1.194 1.195 1.195 1.060 1.120 1.195 1.302 1.435 0% 1.020 1.020 1.020 1.020 1.020 1.020 1.020 1.020 1.020 1.020 1% 1.020 1.020 1.020 1.020 1.020 1.020 1.020 1.020 1.020 1.023 5% 1.020 1.020 1.030 1.030 1.030 1.020 1.021 1.030 1.032 1.040 10% 1.020 1.028 1.040 1.039 1.038 1.020 1.030 1.040 1.050 1.060 25% 1.020 1.030 1.060 1.060 1.060 1.020 1.040 1.060 1.090 1.120 50% 1.020 1.050 1.100 1.100 1.100 1.020 1.060 1.100 1.160 1.222 0% 866.8 835.8 788.3 676.3 556.0 866.8 839.8 808.4 629.2 503.5 1% 866.8 843.9 781.9 653.6 500.3 866.8 810.5 742.4 652.2 582.0 5% 866.8 877.4 851.9 746.3 562.6 866.8 852.3 779.8 757.2 831.2 10% 866.8 908.4 911.0 831.3 642.4 866.8 859.3 870.1 945.3 1164.0 25% 866.8 934.7 1092.2 1167.7 912.3 866.8 900.2 1013.0 1325.5 2284.6 50% 866.8 1045.9 1347.5 1824.3 1531.0 866.8 989.0 1249.7 1986.7 4109.3 予測精度予測精度コイン分散度予測精度予測精度 TRUE FALSE mu = 0, sigma = 1/2 mu = 0, sigma = 1/3 mu = 0, sigma = 1/5 mu = -5, sigma = 5

シミュレーション結果：パラメータの違い 138

selection simulation based on Power law

selection simulation based on Power law

More Decks by FSCjJh3NeB

Other Decks in Education

Featured

Transcript