Upgrade to Pro — share decks privately, control downloads, hide ads and more …

selection simulation based on Power law

FSCjJh3NeB
November 01, 2019

selection simulation based on Power law

選択と集中と私

FSCjJh3NeB

November 01, 2019
Tweet

More Decks by FSCjJh3NeB

Other Decks in Education

Transcript

  1. 要旨 n 研究成果は べき分布 に近い u 科研費 基盤C の連続採択 u

    論文の引用数,など n べき分布に従う場合 u 将来,大きな研究成果を上げる課題について, 予め一定確率以上で予測できるのであれば, 選択と集中により,非常に大きな成果が得られる u そうでない場合,一切選択せず,広く薄くあまねく課題に 予算を付与する方が,全体として大きな成果が得られる 2 石を拾うことがあっても玉を捨てない(情報処理学会論文査読ポリシー)
  2. 0 1 2 3 4 5 0 5 10 15

    20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 出席番号 点数 1 1 2 13 3 14 4 13 5 10 6 12 7 13 8 11 9 13 10 16 さまざまな代表値 7 人数 平均値: 11.6点 中央値,最頻値:13点 タカシ君は平均11.6点のテストで1点を取りました。 先生はタカシ君に指導をすべきでしょうか? 点数
  3. さまざまな代表値 8 人数 出席番号 点数 1 1 2 2 3

    1 4 1 5 2 6 1 7 2 8 3 9 3 10 100 0 1 2 3 4 5 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 平均値: 11.6点 最頻値:1点 中央値:2点 タカシ君は平均11.6点のテストで1点を取りました。 先生はタカシ君に指導をすべきでしょうか? 点数
  4. 正規分布に従わない事象の例 n 企業の時価総額 u 企業は沢山あるが,時価総額は正規分布していない n Instagramのフォロワー数 u 有名人などはものすごい数のフォロワーがいるが, 多くの人はせいぜい2桁どまり

    n J-POPの販売数 u 出せば必ずミリオンヒットレベルで売れるアーティストもいるが, 多くは数千DLもいけば良い方 n ほかにもいろいろ 10 あるいは,少数の持つモノと,多数の持たざるモノの例
  5. パレートの法則 n イタリアの経済学者ヴィルフレド・パレートが発見した法則 u 所得は “べき乗則(power low)” に従う p 大まかには,所得の8割は上位2割の人たちで分配される…という法則

    11 パレートの法則: N は x より所得が高い人の数. a, m は 定数 べき乗則: 多くの国でパレートの法則は当てはまる …と,言われている https://www.nri.com/jp/knowledge/glossary/lst/ha/pareto_princ
  6. スケールフリーネットワーク n べき乗則に従うようなNW n 詳細は参考書籍 u 著者は情報系の研究者で, スケールフリーNWを発見して 業界の第1人者になった u

    様々な現象にスケールフリーNWが 当てはまるとされている 16 新ネットワーク思考―世界のしくみを読み解く NHK出版 (2002/12/26) アルバート・ラズロ・バラバシ (著), 青木 薫 (翻訳)
  7. スケールフリーNWの例 18 Va ea Ga che Ma i Ja e

    The a die Fa i e E a C fe ac B e Bah e J M eThe a die C e e E i e Mabe f C befe e Fe i M ie G a ai e G e e e Babe C a e Th e P ai e M a a e Ba a ab i Li ie Fa e i B ache i e Fa i e Dah ia Ze hi e Gi e a d M eGi e a d B M eH che J dge Cha a hie B e e Che i die C che ai e Fa che e e Si ice L Gi e a d M eBa i i e M eMag i e P e c A e a W a 2 T ai Ma g e i e Pe e e W a 1 M he I ce M eB g Mag M eP e c Ba e T Chi d1 Chi d2 Na e C e DeL Geb a d Cha e cie C a a e C O dMa Laba e M eDeR I abea Ge ai Sca ff ai e B a e e G ibie J d e e M eVa b i M he P a ch Les Misérables の登場人物共起 ( Node: 77, Edge, 254 ) ランダムNW:例1 ( Node: 77, Edge, 254 ) ランダムNW:例2 ( Node: 77, Edge, 254 ) ※ ランダムNWのコネクション数は正規分布
  8. 歴史は「べき乗則」で動く 早川書房 (2009/8/25) Mark Buchanan (原著), 水谷 淳 (翻訳) さまざまな

    べき分布 n 自然現象 や 社会現象の多くに べき分布 が見られる n 詳細は参考書籍 u 著者はべき分布に関して複数著作を 有する科学コラムニスト,物理学者 u ガラスの破片,地震などの自然現象, 金融市場などの社会現象,歴史など, さまざまな事象に,べき分布 がある ことを紹介 19
  9. 科研費獲得件数 24 0 5000 10000 15000 20000 25000 30000 35000

    1 2 3 4 5 6 7 8 9 10 11 2007-2017年 科研費 基盤C の 同一人物獲得数 ※ 研究歴や分野,ファンド期間,基盤A,Bへの採択など考慮していない点などに注意
  10. 論文の被引用件数 26 arXiv から収集した論文のうち,引用数が99件までの論文数 期間: 2014〜2018年 対象論文数: 572,898件 データなし: 2,103件

    引用0〜99件: 566,817件 引用件数最大は 9,999回 2020.01-22時点での収集データ.被引用データは Semantic Scholar を通じて取得
  11. 留意点 n べき分布 は様々な分野で広く見られるものであり, STIにおいても べき分布 の性質を示すデータは多数 n ただし,今回は趣旨に照らして恣意的に べき分布

    を示すデータを探索して掲載をしている n 全てが 正規分布 に従うわけではないのと同様, 全てが べき分布 に従うわけでもない 27
  12. n 科学技術に関する知識生産の場でも, さまざまなところで,べき分布に従うデータ n 価値の定義は困難だが… u 多く引用される論文を執筆できる u 安定して研究費を獲得できる u

    多くの特許を算出できる …といった指標は,べき分布的な形状を示す可能性 28 ほとんどの研究者は価値が低いので,薄く広くではなく, 高付加価値な一部にリソースを集中投下するのが大正解!!
  13. 再び分布の話 30 正規分布 べき分布 n サンプリング数を増やすほど, 平均値に近づく n 期待値が計算できる n

    サンプリング数を増やすほど, 平均値が大きくなっていく n 基本,期待値が計算できない
  14. 分布と予測 31 正規分布 べき分布 n 「標準的な研究者」を想定できる n 何人かをサンプリングしてくれば, おおむね全体の見当が付く n

    ランダム選択で, 平均から大きくズレることは少ない n 「標準的な研究者」は考えづらい n 少数サンプリングしてきても, なかなか全体は把握しづらい n ランダム選択だと, 試行のたびに結果が大きくズレる 予測不可能性 な状態であれば,基本戦略はランダム選択 よく分からないなら適当に選ぶしかない(適当に選んだ方がよい)
  15. 関数の意味 40 n 今回の想定における数式の意味 u (今回の設定では) x は 利益率 =(売上げ/投資額)

    p 1.0 だと,損も得もしない p 1.1 だと,投資額の 1.1倍 の利益 p 0.1 だと,投資額の 0.1倍 の利益 = 0.9倍 の損益 u f(x) は ある価値 x を生み出せる人の人数 p 多くの人は利益をあげることができない p 同じ投資で大きな利益をあげられる人の割合は利益の大きさに 応じて少なくなっていく(が,全くいなくなるわけでもない) 重要
  16. 確率密度関数と,確率質量関数 n 確率密度関数 u 数値が連続値を取るときの確率分布 p 温度,長さ,利益率,など n 確率質量関数 u

    数値が離散値を取るときの確率分布 p 人数,論文数,カードの枚数,など 42 0 5000 10000 15000 20000 25000 30000 35000 1 2 3 4 5 6 7 8 9 10 11 今回の例は“密度関数”=連続値を採用 (離散値だと式が異なる)
  17. こんな感じのギャンブル 45 n 多少の当たり外れはあるものの, おおむね,一定の賞金を得る n 大当たりの上限も大体決まっている n 大抵ハズレで殆ど賞金はないが, まれにものすごい額の賞金を得る

    n しかも,天井知らず 正規分布 べき分布 n 例えばこんな u 何かの分布に従って得た0以上の値を書いたカードがn枚伏せてある u 好きなカードに,手持ちのコインを好きなだけ置いて良い u コインの枚数にカードの値を掛けただけの賞金がもらえる 重要
  18. 改良版ギャンブル n 例えばこんな u べき分布に従って,数字の書かれたカードが出てくる u 例えば… p 10枚引くと,9枚は1未満の値,1枚は1以上の値 p

    100枚引くと,90枚は1未満の値,9枚は10未満,1枚は10以上の値 p 1000枚引くと,900枚は1未満の値,90枚は10未満,9枚は100未満, 1枚は100以上の値 u …という,べき分布に従ってカードが出てくる u 毎回,手持ちのコインの枚数を上限に好きなだけカードを引いて, ギャンブルを行うことができる 48 コイン&カードの枚数は,どの位が一番儲かるか???
  19. 49 = 0.9 = 1.1 0.9 * 9 + 1.1

    * 1 = 9.2 10枚に1コインずつでは負けの模様
  20. 50 × 90 = 0.9 × 9 = 1.1 0.9

    * 90 + 1.1 * 9 + 10.1 * 1 = 101 100枚に1コインずつだと勝てた × 1 = 10.1 今回は実際の確率分布では無く,かなりざっくりした値で設定※ より正しい分布に近づけると,何人いると勝てそうか…?? ※ 例えば1.0未満なので,0.1なども取り,かつ,90枚全てが同値をとるわけではない
  21. 計算の手順 n 先ほど出てきた以下の条件を数式にする u 累積分布の数式表現を得る n “べき分布” の “確率密度関数” に変換

    u 確率密度関数の ハイパーパラメータ を求める n 利益を得られる境界(損益分岐点)を求める u 特定条件下での期待値を求める 51 重要
  22. 56 ? であるので,積分範囲は γ から X まで 従って… ここで… なので…

    …いったい,なにが「と言うわけで」なのか??
  23. 期待値 n 平均的にどの位の値が得られそうか?…の,値 u 確率 50% で 10円, 30% で

    100円, 20% で 500円 もらえるクジ u 期待値 = 確率×得られる値 の総和 p {( 0.5 * 10 ) + ( 0.3 * 100 ) + ( 0.2 * 500 )} = 135 p おおむね135円もらえそう p クジの参加額が135円以下なら,おおむね損をすることは無さそう • 特に何回でもやってOKなら,まず損はしない • 参加額100円なら,135-100 で 1回当たり平均35円位はもらえそう 10000回やると,35万円位儲けられるかも? 64 ※ 上の例は離散の場合,式は連続の場合なのでミスリードしている点に注意 重要
  24. べき分布と期待値 66 確率密度関数 f(x) 0 n とりあえず,どこで期待値がプラスになるか さえ分かれば良い u プラスになる

    = 得点を掛け合わせた後の緑部分の面積(期待値)が 1 を越える 期待値の算出
  25. べき分布と期待値 68 n 上記の場合に E[X]=1 より, それ以上であれば期待値は1を超える! ところで は 何であったか?

    n とりあえず,どこで期待値がプラスになるか さえ分かれば良い u プラスになる = 得点を掛け合わせた後の緑部分の面積(期待値)が 1 を越える 期待値の算出
  26. は何だったか? n 累積分布のところでしれっと登場 n を 0 から まで足していきますという意味で登場 u と同じようなモノと考えてOK

    u 累積分布における は,一種の利益率だった p 1だと投資額と売上げが同じになるイメージ 69
  27. べき分布と期待値 70 = 損益分岐点 n 利益率が上式を越える値になる場合,期待値が1を越える u 投資の単位を1万としたとき, が 10

    なら,利益率が 10倍 を越えればプラス u 投資の単位を3万としたとき, が 10 なら,利益率が 30倍 を越えればプラス u 投資の単位を1万としたとき, が 0.1 なら,利益率 1/10倍 を越えればプラス 期待値の算出
  28. 新たな課題 n ここまでで損益分岐点の計算式を得た n 利益率をいくらにすれば良いか分かる! u が,ハイパーパラメータ,α,β を定める必要 p というか,現実には

    α,β の方が決まっていて, そこから損益分岐点 u どのように定めるか??? p 制約( α>1 , β>0 )を満たせば,どのような値をいれても良い …が,そんな値は無数にある… 71 ある程度,もっともらしい値が必要だが, そもそも「もっともらしい」とは…?
  29. もっともらしいハイパーパラメータの設定 n すでに何らかのデータが十分にある場合 n データが無い場合 u べき分布 に 従うような 何らかの仮説が立てられる

    p たとえば,1000枚に1枚の割合で大当たりのカードがある u 仮説を立てることもできない 72 1.そのデータに基づいて,ハイパーパラメータを推定・設定 2.その仮説に基づいて,ハイパーパラメータを推定・設定 3.べき分布で良いのかすら不明なので,あきらめる 実現方法:機械学習等を活用 実現方法:数理モデルの構築 密度関数も含めて
  30. ハイパーパラメータの設定 n 元手を1としたとき,L人のうち(L-1)人は1未満だが、1人は1以上 n L×M人なら(L-1)M人は1未満,(LM-1)人はN未満,1人はN以上 n L×M2人なら,1人はN2以上の価値を生む 75 0 1

    0 1 0 1 0 1 N1 N2 N1 N2 N1 N3 L*M0人 L*M1人 L*M2人 L*M3人 M倍 M倍 M倍 (L-1) : 1 (L-1) : 1 (L-1) : 1 (L-1) : 1 …という設定を考える ※ M=L=2,かつ離散値の例.実際は連続値(確率密度)であり図と異なる
  31. ハイパーパラメータの設定 77 u L*Mk人のうち,1人はNk以上 …(1/LMk)人=1人 の利益率がNk u N の部分を単に N

    の乗数では無く,任意の数 x に一般化すると ( 1 / )人 = 1人 の利益率が x
  32. ハイパーパラメータの設定:数式の図解 78 累積分布 F(X) 分割 人数分で等分割 1 0 L, M

    が一定であれば k が増えるほど 幅 は小さくなるので, は, 1 に漸近していく = 価値 x が大きくなっていく
  33. ハイパーパラメータの設定:数式の図解 79 累積分布 F(X) 1 0 L分割がベースで,その中を M 分割,その中をさらにM分割… と,k

    の増加に伴って どんどん細かく割っていくイメージ 基本は L分割 上図は L=3, M=2, k=2 の場合の例
  34. ハイパーパラメータの設定 80 対数の意味… … N を 何乗したら x になるか? の意

    …は,N を k乗 したら x になる…という表現 今,k は定数なので 上記がそのまま当てはめられる
  35. 人数と損益分岐点 84 = 損益分岐点 累積確率 累積人数 利益率がこれを越えるとプラス! べき分布だと,ベースとなる人数(L)に,対して利益率 X の

    {α-1}乗 をかけたモノが累積人数に一致 より,累積人数は と,表せる 今,損益分岐の X が明らかなので… 損益分岐の 累積人数
  36. パラメータと損益分岐 85 5人に1人が価値を出し,人数が8分の1になる度に,10倍の価値を生む L = 5 M = 8 N

    = 10 L 5 5 5 5 5 5 N 10 10 10 10 10 10 M 4 6 8 10 12 14 損益分岐点 25.9 25.8 27.3 29.7 32.8 36.9 損益分岐人数 35.5 62.8 99.2 148.4 216.4 312.3 n 損益分岐点 27.3 は,利益率 27.3 以上の人が出てくるとプラス の意 n 損益分岐人数は,例えば L=5, M=8, N=10 のときの損益分岐 27.3 は, おおむね 99.2人 ほどの人がいれば1人は越えられそう の意 u 27.3 までを積算(=期待値)すると 1 を超えるので,100人いれば利益がプラス
  37. パラメータと損益分岐 86 L 5 5 5 5 5 5 N

    10 10 10 10 10 10 M 4 6 8 10 12 14 損益分岐点 25.9 25.8 27.3 29.7 32.8 36.9 損益分岐人数 35.5 62.8 99.2 148.4 216.4 312.3 5人に1人 は 利益率 1, 20(=5*4)人に1人 は 利益率 10, 80人(=5*4*4)に1人 は利益率 100 5人に1人 は 利益率 1, 60 (=5*12)人に1人は 利益率 10, 720 (=5*12*12)人に1人は利益率 100 n L, N を固定したときに M を大きくする = 大きな利益を生み出せる人の割合が減る n M が大きくなる = 損益分岐人数が大きくなる は当然
  38. 任意の人数での期待値算出 89 ここで期待値は… …だった L, M, N を決めれば,α, β も決まる

    いま,i 人いるときの利益率 x について… …で,求められる事がわかっている i も,自分で好きに決めて良い ある “べき分布” で利益率が変化するとき, i 人それぞれに 1単位 投資した場合の 全体としての利益率が計算できる
  39. 任意の人数での期待値算出 90 n L=5, N=10, M=8 で 100人のとき,期待値は 1.00 すなわち,100人に1単位ずつ投資したら,同じ額が戻ってくる

    n 100000人だと,期待値 3.83 なので,投資額の約4倍の額が得られる M=4 M=6 M=8 M=10 M=12 M=14 α=1.60 α=1.78 α=1.90 α=2.00 α=2.08 α=2.15 10 0.37 0.41 0.44 0.29 0.37 0.41 100 2.09 1.20 1.00 0.89 0.86 0.83 1000 9.94 2.73 1.72 2.39 1.64 1.35 10000 45.89 5.68 2.65 6.13 2.90 1.98 100000 210.60 11.37 3.83 15.47 4.93 2.74 投資対象 人数 期待値 (L=5 N=10 固定) パラメータがどうであれ,多数に投資するほど 期待値も大きくなってゆく 重要
  40. 正規分布の場合 n べき分布の場合,ハイパーパラメータに関係なく, 単純に投資対象を増やすほど,期待値が向上 n 正規分布の場合は平均値に近づくのみ u サンプルサイズ 10,000 と

    1000,000 で,期待値にほぼ差は無い p 分布形状がどうあれ,期待値が 1 以上なら損はしない p 期待値 1.1 でも 1億投資すれば 1千万 儲かる 91
  41. シミュレーションでも検証 n こんなカードゲーム u 任意の べき分布 に従って,数字の書かれたカードが出てくる p カードの数字は0より大きい※ p

    カードは任意の枚数(n枚)引くことができる u プレイヤーはカードと同数のコインをもらえる p 好きなカードに,手持ちのコインを好きなだけ置くことができる u カードをめくって書いてある数字に,コインの枚数を掛けただけ, ポイントがもらえる p ポイントが元のコインの枚数(n)を越えていたら勝ち 93 ※ 正確には以前算出した γ より大きい 重要
  42. 95

  43. 試行パタン n こんなパターンで試行 u 分布形状 p L,M,N(何枚に1枚が1以上?確率1/Mで,数値はさらにN倍) u コインの置き方 p

    均等に置く,一部に置く(ランダム or XX%の確率で予見可 など) n 各パタンを複数回試行 u 1回などの場合,偶然,手札がとても良い・悪い可能性 p 特に べき分布 の場合,ものすごく偏る場合があるため, いくつかの例を眺めて見る 96
  44. シミュレーションのよくある質問 n 手持ちのコイン数と言わず,大量のカードを引いたら? u カードは確率分布に従ってランダムに出てきますので, 意味的には無限枚引いても,カードの枚数分引いても同じです n 予測するときはカードが無限枚ある方がいいのでは? u 確かにそうですが,課題数も予算も実際には有限です

    u コインの数を上限として,その中でセレクションを行う事で, 全部のカードにコインを置いた場合との比較も可能になります n ランダムにカードを引くのなら,ものすごく良いカードが まとまって出てくる可能性もあるのでは u その通りです.従って複数回試行する必要があります. u 実際,べき分布 では「ものすごく高価値なカード」が出てしまい, 妙なことになるケースもそこそこ発生し得ます 97
  45. 準備:べき分布に従った乱数生成 n 計算機の中では,一様分布に従う乱数生成※は比較的容易 u 基本的にはただ単に,ランダムな数を返せば一様分布 p 乱数生成も突き詰めると難問ではあるものの,便利な手法がいくつか p Excel でも簡単に取得が可能

    n べき分布 など 任意の確率分布 に基づく乱数生成の方法 u 確率密度分布を直接考えるのは難しい u 確率累積分布であれば,範囲は確実に0-1の範囲に収まる p 累積なので,確率密度関数がどれだけ複雑でも,微分値は負にならない u 0−1の範囲で 一様分布 に基づく乱数生成は容易 u 例えば累積分布が 90% の時の x を求めることができればよい p 一様分布に基づく乱数から,任意の確率密度関数に基づく乱数が出る 98 ※ 正確には疑似乱数 累積分布の逆関数 G(F(X)) を求めれば良い
  46. 準備:Show Card カードの確認 n ゲームに入る前にカードを確認 u 理論通りにちゃんと べき分布 に従って出てくるのか? u

    ランダムに引くとはいえ,少数枚だと数字が大きいモノや小さいモ ノばかり固まって出てきたりしないのか? p 影響があるなら何枚位引けば,その影響は回避できそうなのか? 102
  47. 0 2000 4000 6000 8000 10000 1 2 3 4

    5 6 7 8 9 10 準備:Show Card カードの確認 n べき分布に従って出てくるか? u L=5, N=10, M=8 -> α=1.90, β=0.18 で 10000枚 引いてみる 103 0 ≦ x < 1 1 ≦ x < 2 最小値:0.2, 最大値:3948.0 10までの累積:97.7% 数値 件数 数値 件数 〜 1 8053 〜 11 16 〜 2 920 〜 12 14 〜 3 300 〜 13 10 〜 4 173 〜 14 16 〜 5 106 〜 15 8 〜 6 75 〜 16 8 〜 7 43 〜 17 8 〜 8 41 〜 18 12 〜 9 33 〜 19 8 〜 10 23 〜 20 6 なんとなく,“べき分布”ぽいような気もするが,そうでないような気もしなくは無い…
  48. 準備:Show Card カードの確認 n べき分布に従って出てくるか? u L,α の値が明らかなので,累積分布が算出可能 = 理論値と比較可能

    104 数値 件数 数値 件数 〜 1 8053 〜 11 16 〜 2 920 〜 12 14 〜 3 300 〜 13 10 〜 4 173 〜 14 16 〜 5 106 〜 15 8 〜 6 75 〜 16 8 〜 7 43 〜 17 8 〜 8 41 〜 18 12 〜 9 33 〜 19 8 〜 10 23 〜 20 6 数値 累積率 累積数 区間数 数値 累積率 累積数 区間数 1 80.0% 8000 8000 11 97.7% 9771 21 2 89.3% 8930 930 12 97.9% 9788 17 3 92.6% 9258 328 13 98.0% 9803 15 4 94.3% 9428 170 14 98.2% 9815 13 5 95.3% 9532 104 15 98.3% 9827 11 6 96.0% 9603 71 16 98.4% 9836 10 7 96.5% 9655 52 17 98.5% 9845 9 8 96.9% 9694 39 18 98.5% 9853 8 9 97.2% 9725 31 19 98.6% 9860 7 10 97.5% 9750 25 20 98.7% 9866 6 理論値 観測値 理論値にほぼ一致する値が観測できていることが分かる
  49. 準備:Show Card カードの確認 n べき分布に従って出てくるか? u サンプル数が少ないとどうか? 105 理論値 観測値

    10枚程度でもほぼ一致する値が観測できていることが分かる 数値 件数 〜 1 82 〜 2 7 〜 3 4 〜 4 1 〜 5 1 〜 6 0 〜 7 0 〜 8 0 〜 9 0 〜 10 0 数値 累積率 累積数 区間数 1 80.0% 80 80 2 89.3% 89 9 3 92.6% 93 3 4 94.3% 94 2 5 95.3% 95 1 6 96.0% 96 1 7 96.5% 97 1 8 96.9% 97 0 9 97.2% 97 0 10 97.5% 97 0 数値 件数 〜 1 8 〜 2 1 〜 3 1 〜 4 0 〜 5 0 〜 6 0 〜 7 0 〜 8 0 〜 9 0 〜 10 0 数値 累積率 累積数 区間数 1 80.0% 8 8 2 89.3% 9 1 3 92.6% 9 0 4 94.3% 9 0 5 95.3% 10 0 6 96.0% 10 0 7 96.5% 10 0 8 96.9% 10 0 9 97.2% 10 0 10 97.5% 10 0 理論値 観測値 100枚引いた場合 10枚引いた場合
  50. 準備:Show Card カードの確認 n べき分布に従って出てくるか? u ここまでの例はそれぞれ1試行のみだが,安定してそうなるか? 106 各試行でのカードの数値の平均値 各試行でのカードの数値の中央値

    “べき分布”の特徴のひとつは,非常に大きな値も出ること = 平均使えず 中央値で見ると,試行回数が大きい方が安定する ← 今回の実験でもその傾向が確認できる & 沢山カードを引くと大当たりも 1000回 試行 1000回 試行 ← 少ないと,数字の大きい・小さいものばかり固まってでてくることがある
  51. 準備:Show Card カードの確認 n 留意点 u 多数カードを引くほど,“大当たり”を引き当てる可能性も増大 u 1試行だけでは,極端な例か,よくある例かの判断が困難 p

    複数回試行して,上位・下位10%程度を捨てた方がよい可能性 108 ケースごとに 1000回 試行 各試行でのカードの数値の平均値
  52. Play! n とりあえず,手持ち1000コインで挑戦 u L=5, N=10, M=8 -> α=1.90, β=0.18

    u 上記の条件で 4回 やってみると… 109 Game ID 利益率 4522738632 2.8 4521130640 1.5 4522738632 1.6 4521192696 2.9 ※ 利益率 = (得点/投資額) 利益率が 1.5 なら1000円の投資で, 1500円もらえた計算 儲かったのは分かるが… So What?
  53. 検証すべきこと n 上記の設定を再度確認し,細かい条件を設定 n その上で,比較して,良い条件を見つけ出す 110 何を検証するのか? n どういうときにこのゲームに勝てるのか? n

    全カードにコインをおくべき?集中させるべき? u カードのもつ価値を,ある程度予測できたらかわるか? u どの程度の確度で予測ができたらいいのか? 92
  54. ゲームの条件 n カードの枚数 u 1000,10000,100000 の 3パタン n コインの置き方 u

    均等,全体の75%,50%,25%,10% に集中 の5パタン u さらに… p カードにコインを集中させるのに,なにを基準にするか? • 50% ならとにかく半分のカードに 2枚ずつコインを置く • 一定の確率でカードの価値を予測できるとして,予測に従って置く • 単に数字の大小だけが分かる,具体的な数字まで分かる 111 • 正規分布で考えれば,パラメータが同じなら 1000枚でも 10000枚でも,利益率は殆ど同じ値になるはず • 枚数で利益率は変わるのか? どの位変わるのか? どの程度予測できたら利益が上がるのか?
  55. ゲームの条件 n コインの置き方(承前) u 予測精度: ランダム(0%),10%,25%,50% の 4パタン u 予測内容:

    利益率 1.0 より上か下か※,具体的数値 の 2パタン n 実験のパラメータ u カードの枚数 :3 パタン u コインの集中度 :5 パタン u 予測精度 :4 パタン u 予測内容 :2 パタン 112 特定のカード枚数ごとに 40 パタン ※ 上か下かの2値予測
  56. Play! n L=5, N=10, M=8 -> α=1.90, β=0.18 113 ※

    平均は 1000回 試行の平均 ※ 部分平均は 1000回 試行した中の上位・下位10%を除いた平均 べき分布の場合,極端な大当たりが存在するため,平均が上手く機能しないことも ← 平均と,部分平均の傾向が異なる理由(本当は「極端な大当たり」が無視できないことがポイント) is_Bin: True=利益率が1.0より上か下かの2値予測,False=カードの数値そのものを予測 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 1000 4.5 3.8 4.3 4.2 3.0 4.5 4.8 4.4 5.1 4.2 4.5 5.0 5.2 6.2 6.0 4.5 5.3 7.2 8.6 8.0 10000 8.3 9.5 8.4 9.9 16.5 8.3 7.7 11.1 10.5 5.6 8.3 7.7 12.8 12.5 19.2 8.3 10.4 11.2 21.4 22.2 100000 10.7 8.8 13.4 7.2 6.5 10.7 11.4 13.6 9.7 9.5 10.7 9.9 12.8 12.7 10.7 10.7 13.3 14.5 25.2 18.0 1000 3.0 2.8 2.8 2.4 2.0 3.0 3.0 3.0 2.7 2.4 3.0 3.2 3.5 3.4 3.0 3.0 3.4 4.4 5.4 4.5 10000 4.3 4.2 4.3 3.6 3.0 4.3 4.4 4.6 4.1 3.4 4.3 4.6 5.4 5.5 4.4 4.3 5.1 6.5 8.3 6.8 100000 6.0 5.8 5.4 4.8 4.2 6.0 6.1 6.3 5.8 4.9 6.0 6.5 7.7 7.6 6.4 6.0 7.1 9.2 11.4 10.0 コイン分散度 平均 部分平均 is_Bin TRUE 予測精度 0% 10% 25% 50% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 1000 4.5 4.6 5.1 4.0 4.0 4.5 4.8 5.1 4.9 7.5 4.5 4.9 5.1 9.4 14.3 4.5 5.1 6.7 9.6 19.4 10000 8.3 6.9 7.8 4.8 6.2 8.3 9.6 11.1 7.4 9.2 8.3 8.1 11.8 10.6 31.1 8.3 10.3 13.9 19.7 34.1 100000 10.7 11.4 12.1 9.6 7.0 10.7 11.9 13.7 11.0 22.1 10.7 12.1 11.7 14.0 23.7 10.7 12.5 17.4 28.5 41.2 1000 3.0 2.8 2.7 2.4 2.1 3.0 2.9 2.9 3.2 4.2 3.0 3.1 3.3 4.5 6.8 3.0 3.3 4.1 6.2 12.4 10000 4.3 4.1 3.7 3.5 2.9 4.3 4.3 4.3 4.6 6.1 4.3 4.6 5.0 6.8 10.8 4.3 5.0 6.1 9.6 20.3 100000 6.0 5.7 5.3 5.0 4.3 6.0 6.0 6.1 6.6 9.0 6.0 6.5 6.9 9.1 15.7 6.0 6.9 8.8 13.5 27.6 コイン分散度 平均 部分平均 is_Bin FALSE 予測精度 0% 10% 25% 50%
  57. 100% 75% 50% 25% 10% 100% 75% 50% 25% 10%

    100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 1000 4.5 3.8 4.3 4.2 3.0 4.5 4.8 4.4 5.1 4.2 4.5 5.0 5.2 6.2 6.0 4.5 5.3 7.2 8.6 8.0 10000 8.3 9.5 8.4 9.9 16.5 8.3 7.7 11.1 10.5 5.6 8.3 7.7 12.8 12.5 19.2 8.3 10.4 11.2 21.4 22.2 100000 10.7 8.8 13.4 7.2 6.5 10.7 11.4 13.6 9.7 9.5 10.7 9.9 12.8 12.7 10.7 10.7 13.3 14.5 25.2 18.0 1000 3.0 2.8 2.8 2.4 2.0 3.0 3.0 3.0 2.7 2.4 3.0 3.2 3.5 3.4 3.0 3.0 3.4 4.4 5.4 4.5 10000 4.3 4.2 4.3 3.6 3.0 4.3 4.4 4.6 4.1 3.4 4.3 4.6 5.4 5.5 4.4 4.3 5.1 6.5 8.3 6.8 100000 6.0 5.8 5.4 4.8 4.2 6.0 6.1 6.3 5.8 4.9 6.0 6.5 7.7 7.6 6.4 6.0 7.1 9.2 11.4 10.0 コイン分散度 平均 部分平均 is_Bin TRUE 予測精度 0% 10% 25% 50% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 1000 4.5 4.6 5.1 4.0 4.0 4.5 4.8 5.1 4.9 7.5 4.5 4.9 5.1 9.4 14.3 4.5 5.1 6.7 9.6 19.4 10000 8.3 6.9 7.8 4.8 6.2 8.3 9.6 11.1 7.4 9.2 8.3 8.1 11.8 10.6 31.1 8.3 10.3 13.9 19.7 34.1 100000 10.7 11.4 12.1 9.6 7.0 10.7 11.9 13.7 11.0 22.1 10.7 12.1 11.7 14.0 23.7 10.7 12.5 17.4 28.5 41.2 1000 3.0 2.8 2.7 2.4 2.1 3.0 2.9 2.9 3.2 4.2 3.0 3.1 3.3 4.5 6.8 3.0 3.3 4.1 6.2 12.4 10000 4.3 4.1 3.7 3.5 2.9 4.3 4.3 4.3 4.6 6.1 4.3 4.6 5.0 6.8 10.8 4.3 5.0 6.1 9.6 20.3 100000 6.0 5.7 5.3 5.0 4.3 6.0 6.0 6.1 6.6 9.0 6.0 6.5 6.9 9.1 15.7 6.0 6.9 8.8 13.5 27.6 コイン分散度 平均 部分平均 is_Bin FALSE 予測精度 0% 10% 25% 50% Play! n L=5, N=10, M=8 -> α=1.90, β=0.18 114 ※ 平均は 1000回 試行の平均 ※ 部分平均は 1000回 試行した中の上位・下位10%を除いた平均 予測できない場合,とにかく薄く広くコインを置く方が全体の利益が大きい 数量まで予測してしまった場合,中途半端に選択すると利益が下がる可能性 重要 とにかくカードが多いほど有利
  58. 結果の概況 n あらゆる状況下で,カードは多ければ多いほど有利 n カードの価値が分からない場合 u とにかく,全部に広く薄く投資する方が高い利益をあげられる n カードの価値が “1を上回るかどうか”

    予測できる場合 u 予測確度が10%(9割ハズレ)で あっても,予測結果を信じて 投資対象を絞る方が,全部に投資するより高利益 u 投資対象を絞って 1件辺りの額を上げる方がより高利益 n カードの具体的価値まで予測できる場合 u 予測確度が低く,かつ,中途半端(75%まで絞り込み)の場合, むしろ,全体に投資するより収益低下 u それ以外は,上記 “2値予測” と同様の傾向 115 ( L=5, N=10, M=8 -> α=1.90, β=0.18 の例については… ) 重要
  59. なぜ,数値予測で悪化するか? n セレクションの仕方に原因? n 現状の手続 u カード全体を見わたして,それぞれに予測を実施 p 価値が高そうなものから順にコインを置いていく u

    2値予測の場合,価値1 or 0 で,1のものにランダムに投資 u 数値予測の場合は,具体価値に沿って順に投資 u ランダム投資なら平均的には 予測ミスが打ち消される u 数値予測の場合,読み間違えで 大当たり を逆に逃す可能性向上? 116 あえて粗い予測をする方が,かえって有利 u 明日の14時12分から48分間 雨が降る u 明日か明後日に 雨が降る
  60. 1セル分の計算の裏側 n 1セル分の数値算出の裏では 大量の試行を実施 u 1つのカードの組みで 40回 p 予測タイプ2種類 ×

    精度4種類 × 分散5種類 u それを1000回やるので 4万回 u カードの枚数が3パタンなので 表作成には少なくとも 40万回 u カードの枚数が増えると, 枚数分予測もするので…??? 117 is_Bin 予測精度 … コイン分散度 100% 75% 50% … 25% 10% 1回目 7.2 7.2 10.2 … 18.0 22.7 2回目 4.5 4.3 4.7 … 12.0 18.7 3回目 7.2 8.6 9.8 … 15.1 35.6 4回目 3.8 3.0 4.3 … 8.6 22.0 5回目 432.8 576.2 857.4 … 17.3 4300.8 6回目 3.9 4.3 5.1 … 11.5 20.1 7回目 4.6 5.2 6.3 … 7.4 13.8 8回目 3.6 3.4 2.9 … 9.0 16.6 9回目 6.2 6.2 6.7 … 18.4 32.3 10回目 3.7 3.7 3.9 … 8.4 15.7 11回目 6.9 7.5 9.9 … 21.4 45.5 12回目 48.4 63.5 85.5 … 25.6 14.8 13回目 6.9 5.5 9.0 … 19.2 51.8 14回目 3.7 3.8 3.8 … 8.8 14.0 … … … … … … … 997回目 3.9 3.6 5.1 … 9.8 19.6 998回目 10.8 13.1 17.9 … 35.4 83.6 999回目 5.1 5.8 7.0 … 8.0 33.5 1000回目 6.0 6.9 7.8 … 17.2 20.3 平均 14.9 13.2 12.3 … 30.4 93.3 部分平均 6.2 5.9 5.6 … 14.7 25.5 TRUE 0% 50% まれに超高価値なカードが出て, 利益がすごいことになることも 先ほどの表はこの部分のみを 抜粋したもの
  61. 118 日本の研究者数は2018年において67.6万人、 実数(HC: Head Count)値は93.1万人 科学技術指標2019, NISTEP,調査資料-283 (2019) 2018年の国立、公立、私立大学の研究者数は、 それぞれ13.6万人、2.0万人、13.8万人

    日本の公的機関の研究者数(FTE)を見ると、 2018年で総数3.1万人 仮に企業部門の研究者について,基本的に公的資金を用いないとすると 我が国の研究者数はおおよそ 32.5万 人
  62. 研究者数を考慮した試行 119 n L=5, N=10, M=8 -> α=1.90, β=0.18 傾向はこれまでみたものと同様

    基本的には,カード枚数 10000枚 程度で様子を見て置いて, 気になるところだけ,32万枚 での試行を行えば良さそう ※ 平均は 1000回 試行の平均 ※ 部分平均は 1000回 試行した中の上位・下位10%を除いた平均 予測精度 コイン分散度 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 平均 16.1 14.7 11.5 20.6 11.2 16.1 15.6 18.7 26.2 22.7 16.1 20.7 20.9 31.4 50.9 16.1 21.3 29.4 40.7 79.2 部分平均 7.2 6.9 6.5 5.7 5.0 7.2 7.7 7.7 7.9 10.0 7.2 8.9 9.7 11.0 17.6 7.2 9.5 12.4 17.2 31.5 平均 16.1 17.0 19.5 11.7 19.1 16.1 15.0 22.9 33.9 40.2 16.1 17.8 13.3 27.0 40.9 16.1 20.0 21.8 34.3 51.2 部分平均 7.2 6.9 6.3 6.1 5.3 7.2 7.2 7.3 7.7 10.2 7.2 7.5 8.3 10.9 19.0 7.2 8.3 10.3 16.2 34.5 FALSE is_Bin 0% 10% 25% 50% TRUE
  63. 科研費を考慮した場合 120 科学研究費 応募件数 採択件数 採択率 推移 55,000 71,900 78,000

    89,700 91,700 101,900 19,200 28,600 36,900 44,900 63,700 78,700 13,200 19,800 16,600 19,100 26,200 28,900 0 20,000 40,000 60,000 80,000 100,000 120,000 H2 H7 H12 H17 H23 R1 応募件数 新規 採択件数 新規 継続 採択件数 新規 採択率 年度 24.0% 27.6% 21.3% 28.6% 28.4% 21.4% 件数 • 科学研究費 科研費 特別推進研究 新学術 域研究 基盤研究 特設分野研究 除 挑戦的研究 開拓 萌芽 若手研究 研究活動 支援及 奨励研究 指 • 上 奨励研究 除 科学研究費 集計 平成30年度以降 国際共同研究加速基金 国際共同研究強化 B 集計 出典:JSPS,科研費データ-応募・採択件数の推移 (令和元(2019)年10月25日更新) 応募されている課題は おおよそ10万件 1000件, 10000件, 100000件 で試行しているため,再試行不要
  64. どの程度の予測精度が必要か? 121 n 予測精度が何%のときに,0%より高利益か? 概ね予測精度 5% が 境界ライン 平均 部分平均

    n L=5, N=10, M=8 n α=1.90, β=0.18 ※ 平均は 10000回 試行の平均 ※ 部分平均は 10000回 試行中の 上位・下位10%を除いた平均 is_Bin 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 0% 17.6 19.0 21.5 33.3 16.5 17.6 19.2 11.9 11.8 16.8 1% 17.6 20.3 23.7 11.5 12.3 17.6 18.3 13.1 34.8 12.0 2% 17.6 20.2 24.2 12.6 16.9 17.6 19.5 22.0 12.4 11.9 3% 17.6 20.0 15.0 14.7 12.0 17.6 19.9 23.7 38.2 21.8 4% 17.6 19.6 22.9 14.2 19.8 17.6 12.2 23.1 34.6 70.3 5% 17.6 19.3 24.5 15.5 11.0 17.6 20.0 13.6 16.4 19.1 6% 17.6 19.8 24.4 36.8 12.2 17.6 19.9 12.9 13.7 81.8 7% 17.6 20.0 13.7 14.2 17.4 17.6 20.7 22.8 13.7 16.6 8% 17.6 20.5 11.0 12.5 12.1 17.6 20.5 14.0 34.4 31.3 9% 17.6 19.8 23.5 11.7 11.5 17.6 12.6 24.7 13.2 79.2 0% 5.9 5.7 5.4 4.9 4.4 5.9 5.7 5.4 4.9 4.3 1% 5.9 5.8 5.4 5.1 4.5 5.9 5.7 5.5 5.1 4.7 2% 5.9 5.8 5.6 5.1 4.5 5.9 5.8 5.5 5.2 5.1 3% 5.9 5.8 5.7 5.2 4.5 5.9 5.8 5.6 5.4 5.5 4% 5.9 5.8 5.8 5.4 4.6 5.9 5.8 5.6 5.6 6.0 5% 5.9 5.9 5.9 5.4 4.8 5.9 5.9 5.7 5.7 6.5 6% 5.9 5.9 5.9 5.4 4.9 5.9 5.8 5.8 5.9 6.8 7% 5.9 5.9 6.0 5.5 4.9 5.9 5.9 5.8 6.1 7.1 8% 5.9 6.0 6.1 5.6 4.9 5.9 5.9 5.9 6.3 7.8 9% 5.9 6.0 6.2 5.8 5.0 5.9 5.8 5.9 6.3 8.1 予測精度 予測精度 TRUE FALSE 分散度
  65. 留意点 n 単位等への注意 u 今回は 1 単位 の投資で XX倍 の利益率

    という設定 u 研究分野毎に 1 単位 の実際の金額は大きく異なる n 収穫期への注意 u 今回は 投資後,全ての成果の利益を回収できている設定 u 実際には成果が出るまでの期間も様々 p しばらく何の成果も無く一定期間後に大きな成果を挙げるもの p 期間中すこしずつ,広く薄く成果を挙げるもの p すぐに成果を挙げるもの,…など n 予測についての注意 u 予測には様々なバイアスもかかる u 大きな成果を挙げる,ディストラクティブなイノベーションになるほど, 逆に「そんなことはあり得ない・無理だ」と,積極的に捨てる可能性も n 内容面についての注意 u 絞り込み時 の 予測 は確率が絡むので本来は複数回試行が必要(現状は1試行) 122 重要
  66. 高価値なモノを見逃すとどうか? 123 n 1の投資で100以上産み出すような奇特なものについて, “ありえない,怪しい” として忌避した場合はどうなるか? u 価値の予測値が 100 を越えていた場合,カードの予測価値を

    0 に強制変更 超高付加価値なものを見逃すため,選択と集中が裏目に 平均 部分平均 n L=5, N=10, M=8 -> α=1.90, β=0.18 ※ 平均は 1000回 試行の平均 ※ 部分平均は 1000回 試行した中の上位・下位10%を除いた平均 is_Bin 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 0% 12.3 13.5 14.1 9.7 19.2 12.3 13.6 14.8 9.4 7.9 1% 12.3 13.6 14.5 10.1 10.3 12.3 13.6 14.6 11.5 17.8 5% 12.3 13.6 14.0 10.4 19.6 12.3 13.4 14.2 8.9 5.8 10% 12.3 13.3 12.5 8.5 14.1 12.3 10.0 16.3 8.1 8.1 25% 12.3 11.8 9.6 10.0 10.1 12.3 12.2 9.8 7.2 8.0 50% 12.3 8.8 11.0 11.5 16.0 12.3 7.7 7.8 7.8 9.7 0% 6.2 6.0 5.5 5.2 4.3 6.2 6.0 5.7 5.1 4.4 1% 6.2 6.0 5.6 5.0 4.5 6.2 6.0 5.7 5.0 4.2 5% 6.2 5.9 5.6 5.3 4.6 6.2 6.0 5.5 5.1 4.7 10% 6.2 6.0 5.6 5.0 4.7 6.2 5.8 5.5 5.2 4.4 25% 6.2 5.7 5.5 5.1 4.5 6.2 5.4 5.2 4.9 4.9 50% 6.2 4.7 4.6 4.7 5.3 6.2 3.5 3.7 4.4 6.5 TRUE FALSE コイン分散度 予測精度 予測精度
  67. まとめ n 研究成果は べき分布 に近い u 科研費 基盤C の連続採択 u

    論文の引用数,など n べき分布に従う場合 u 将来,大きな研究成果を上げる課題について, 予め一定確率以上で予測できるのであれば, 選択と集中により,非常に大きな成果が得られる u そうでない場合,一切選択せず,広く薄くあまねく課題に 予算を付与する方が,全体として大きな成果が得られる 124 石を拾うことがあっても玉を捨てない(情報処理学会論文査読ポリシー)
  68. 情報工学的な今後の展開可能性 n 研究資金配分を 多腕バンディット問題 で考えることも可能 n 多腕バンディット問題 u 複数の(報酬確率の異なる)スロットマシンがある u

    各マシンに過去,いくら入れていくら儲けたか,記録済み u どのマシンに賭けるか? u 強化学習の古典的問題のひとつ u いろいろな解法や,応用問題がある p 応用問題:途中でマシンの報酬確率が変わる…など n スロットマシンを研究者に置き換えれば,数値解析的に どういう風な資金配分戦略がベターか導ける可能性 125
  69. その他の分布 n 本資料では “べき分布” を元に検証 n 実際には “べき分布” と類似する様な分布は多数 u

    収入等について “対数正規分布” が当てはまるという説も p 一見すると,べき分布と類似する形状の分布形状を有する p 細かい部分では,べき分布と異なる性質も u “正しい分布”が何かは,必ずしも明らかでは無い 128 いろいろ試してみることも重要
  70. べき分布 と 対数正規分布 n 見た目については類似 u 上図はX軸を合わせてあり, 相関を取ると r=0.91 と高い値

    132 L=5, N=10, M=8 mu=-5, sigma=5 対数正規分布の pdf,cdf については, 下記パッケージの関数を利用 図表作成: scipy シミュレーション: numpy
  71. べき分布 と 対数正規分布 133 L=5, N=10, M=8 mu=-5, sigma=5 数値

    累積率 累積数 区間数 数値 累積率 累積数 区間数 1 80.0% 8000 8000 1 84.1% 8413 8413 2 89.3% 8930 930 2 87.3% 8726 312 3 92.6% 9258 328 3 88.9% 8887 161 4 94.3% 9428 170 4 89.9% 8992 105 5 95.3% 9532 104 5 90.7% 9069 77 6 96.0% 9603 71 6 91.3% 9128 59 7 96.5% 9655 52 7 91.8% 9176 48 8 96.9% 9694 39 8 92.2% 9216 40 9 97.2% 9725 31 9 92.5% 9250 34 10 97.5% 9750 25 10 92.8% 9279 29 11 97.7% 9771 21 11 93.1% 9305 26 12 97.9% 9788 17 12 93.3% 9328 23 13 98.0% 9803 15 13 93.5% 9349 21 14 98.2% 9815 13 14 93.7% 9367 19 15 98.3% 9827 11 15 93.8% 9384 17 16 98.4% 9836 10 16 94.0% 9400 16 17 98.5% 9845 9 17 94.1% 9414 14 18 98.5% 9853 8 18 94.3% 9427 13 19 98.6% 9860 7 19 94.4% 9440 12 20 98.7% 9866 6 20 94.5% 9451 11 べき分布 対数正規分布 このパラメータの場合には… 「多くが1以下」は 同様 急激に減衰していく点も同様 ただし,対数正規分布は… 1まで から 2まで の減数は急峻 ただし,その後の減衰は穏やか 高い価値を生み出す確率が, べき分布 以上に大きい
  72. シミュレーション結果 134 mu=-5, sigma=5 1000枚の場合 10000枚の場合 部分平均 部分平均 1000試行 is_Bin

    100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 0% 282.8 255.7 215.7 151.8 88.8 282.8 251.2 216.3 136.4 77.7 1% 282.8 232.4 224.2 141.7 82.5 282.8 255.3 205.2 136.8 82.6 5% 282.8 245.0 221.7 142.6 94.2 282.8 282.9 217.6 172.6 155.1 10% 282.8 257.0 265.9 183.3 112.0 282.8 270.4 251.9 229.6 215.4 25% 282.8 290.9 315.9 261.5 173.5 282.8 286.3 289.0 369.7 499.2 50% 282.8 323.5 396.8 471.5 275.8 282.8 320.5 376.9 600.5 1280.8 予測精度 TRUE FALSE コイン分散度 is_Bin 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 0% 508.7 484.6 444.2 386.9 239.9 508.7 473.4 448.0 372.4 249.6 1% 508.7 463.6 419.1 361.7 249.3 508.7 463.1 443.3 391.0 334.7 5% 508.7 482.2 482.7 358.4 291.1 508.7 481.3 442.1 411.1 482.5 10% 508.7 507.4 501.7 460.2 304.0 508.7 499.5 462.1 512.6 646.0 25% 508.7 564.6 657.7 579.9 430.2 508.7 551.8 563.9 719.6 1176.4 50% 508.7 596.6 788.5 1010.3 746.1 508.7 583.9 732.2 1156.8 2548.0 コイン分散度 予測精度 TRUE FALSE
  73. シミュレーション結果 135 mu=-5, sigma=5 100000枚,1000試行 部分平均 is_Bin 100% 75% 50%

    25% 10% 100% 75% 50% 25% 10% 0% 866.8 835.8 788.3 676.3 556.0 866.8 839.8 808.4 629.2 503.5 1% 866.8 843.9 781.9 653.6 500.3 866.8 810.5 742.4 652.2 582.0 5% 866.8 877.4 851.9 746.3 562.6 866.8 852.3 779.8 757.2 831.2 10% 866.8 908.4 911.0 831.3 642.4 866.8 859.3 870.1 945.3 1164.0 25% 866.8 934.7 1092.2 1167.7 912.3 866.8 900.2 1013.0 1325.5 2284.6 50% 866.8 1045.9 1347.5 1824.3 1531.0 866.8 989.0 1249.7 1986.7 4109.3 TRUE FALSE コイン分散度 予測精度
  74. is_Bin 100% 75% 50% 25% 10% 100% 75% 50% 25%

    10% 0% 866.8 835.8 788.3 676.3 556.0 866.8 839.8 808.4 629.2 503.5 1% 866.8 843.9 781.9 653.6 500.3 866.8 810.5 742.4 652.2 582.0 5% 866.8 877.4 851.9 746.3 562.6 866.8 852.3 779.8 757.2 831.2 10% 866.8 908.4 911.0 831.3 642.4 866.8 859.3 870.1 945.3 1164.0 25% 866.8 934.7 1092.2 1167.7 912.3 866.8 900.2 1013.0 1325.5 2284.6 50% 866.8 1045.9 1347.5 1824.3 1531.0 866.8 989.0 1249.7 1986.7 4109.3 TRUE FALSE コイン分散度 予測精度 シミュレーション結果:べき分布との比較 n 今回の設定においては,べき分布 と 対数正規分布 の間で 試行結果の 傾向自体に大きな違いは無さそうな様子がうかがえる 136 mu = -5 sigma = 5 is_Bin 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 0% 1298.3 1489.9 804.9 487.2 318.4 1298.3 1161.6 2082.1 782.2 365.0 1% 1298.3 985.7 1219.1 1573.9 294.3 1298.3 1391.6 1297.2 1783.3 332.7 5% 1298.3 1622.2 1255.2 1981.7 311.1 1298.3 1266.5 1354.7 3657.9 816.0 10% 1298.3 1053.4 1269.5 1895.2 380.1 1298.3 666.8 1012.9 594.8 591.2 25% 1298.3 1622.1 2274.7 2175.7 521.8 1298.3 1117.9 1225.7 2327.0 3341.8 50% 1298.3 1576.2 2198.0 1818.1 3482.2 1298.3 1530.3 2121.1 2095.1 6715.1 0% 241.4 216.4 179.7 137.0 75.7 241.4 220.0 200.0 139.6 89.3 1% 241.4 206.7 176.7 141.8 87.2 241.4 207.3 190.5 157.4 95.9 5% 241.4 234.1 204.4 149.6 91.3 241.4 231.3 198.6 169.9 135.9 10% 241.4 235.4 217.2 164.9 109.7 241.4 224.3 243.0 176.6 215.0 25% 241.4 254.8 289.1 230.6 161.5 241.4 241.8 257.7 282.0 513.8 50% 241.4 273.0 366.1 427.5 270.3 241.4 276.2 321.0 514.0 1051.8 FALSE コイン分散度 予測精度 予測精度 TRUE 対数正規 べき分布 is_Bin 100% 75% 50% 25% 10% 100% 75% 50% 25% 10% 0% 7.6 4.6 10.4 4.5 4.7 7.6 5.3 9.7 15.6 3.9 1% 7.6 4.6 9.8 5.1 3.7 7.6 5.3 5.7 4.7 4.6 5% 7.6 5.5 11.2 4.6 4.0 7.6 7.9 10.2 5.9 11.3 10% 7.6 8.5 5.2 14.7 3.9 7.6 4.8 4.9 8.3 32.9 25% 7.6 9.2 12.3 15.4 4.9 7.6 5.7 11.4 7.7 37.1 50% 7.6 8.7 12.7 18.5 8.4 7.6 9.1 12.4 13.4 28.4 0% 3.0 2.9 2.6 2.4 2.0 3.0 2.8 2.7 2.3 2.1 1% 3.0 2.8 2.7 2.5 1.9 3.0 2.9 2.7 2.5 2.2 5% 3.0 3.0 2.9 2.5 2.2 3.0 3.0 2.9 2.8 2.9 10% 3.0 3.0 3.1 2.5 2.3 3.0 2.9 2.9 3.2 3.9 25% 3.0 3.2 3.7 3.4 2.9 3.0 3.2 3.5 4.4 7.1 50% 3.0 3.5 4.4 5.2 4.7 3.0 3.4 4.2 6.4 12.8 TRUE FALSE コイン分散度 予測精度 予測精度 L = 5 N = 10 M = 8 部分平均 傾向の確認に主眼があるため,細かいパラメータの調整を行っていない パラメータによっては異なる傾向を示す可能性がある ※ 100000枚,1000試行
  75. シミュレーション結果:パラメータの違い n パラメータにより傾向が大きく変わることも分かる 137 100000枚,1000試行 is_Bin 100% 75% 50% 25%

    10% 100% 75% 50% 25% 10% 0% 1.131 1.131 1.132 1.133 1.133 1.131 1.132 1.132 1.133 1.133 1% 1.131 1.134 1.138 1.138 1.137 1.131 1.135 1.138 1.141 1.146 5% 1.131 1.140 1.155 1.155 1.155 1.131 1.141 1.155 1.174 1.199 10% 1.131 1.149 1.177 1.176 1.176 1.131 1.151 1.177 1.215 1.266 25% 1.131 1.170 1.240 1.242 1.241 1.131 1.180 1.241 1.338 1.465 50% 1.131 1.206 1.350 1.350 1.350 1.131 1.230 1.350 1.543 1.798 0% 1.060 1.060 1.059 1.058 1.057 1.060 1.060 1.059 1.058 1.058 1% 1.060 1.060 1.060 1.060 1.060 1.060 1.060 1.060 1.061 1.065 5% 1.060 1.060 1.070 1.070 1.071 1.060 1.061 1.070 1.080 1.095 10% 1.060 1.068 1.084 1.085 1.084 1.060 1.070 1.084 1.108 1.133 25% 1.060 1.080 1.127 1.127 1.126 1.060 1.090 1.127 1.180 1.246 50% 1.060 1.100 1.194 1.195 1.195 1.060 1.120 1.195 1.302 1.435 0% 1.020 1.020 1.020 1.020 1.020 1.020 1.020 1.020 1.020 1.020 1% 1.020 1.020 1.020 1.020 1.020 1.020 1.020 1.020 1.020 1.023 5% 1.020 1.020 1.030 1.030 1.030 1.020 1.021 1.030 1.032 1.040 10% 1.020 1.028 1.040 1.039 1.038 1.020 1.030 1.040 1.050 1.060 25% 1.020 1.030 1.060 1.060 1.060 1.020 1.040 1.060 1.090 1.120 50% 1.020 1.050 1.100 1.100 1.100 1.020 1.060 1.100 1.160 1.222 0% 866.8 835.8 788.3 676.3 556.0 866.8 839.8 808.4 629.2 503.5 1% 866.8 843.9 781.9 653.6 500.3 866.8 810.5 742.4 652.2 582.0 5% 866.8 877.4 851.9 746.3 562.6 866.8 852.3 779.8 757.2 831.2 10% 866.8 908.4 911.0 831.3 642.4 866.8 859.3 870.1 945.3 1164.0 25% 866.8 934.7 1092.2 1167.7 912.3 866.8 900.2 1013.0 1325.5 2284.6 50% 866.8 1045.9 1347.5 1824.3 1531.0 866.8 989.0 1249.7 1986.7 4109.3 予測精度 予測精度 コイン分散度 予測精度 予測精度 TRUE FALSE mu = 0, sigma = 1/2 mu = 0, sigma = 1/3 mu = 0, sigma = 1/5 mu = -5, sigma = 5