統計学：予測　と　ベイジアン統計：　要するに確率→エネルギー #TechLunch

1 統計　基礎予測　と　ベイジアン

2 Agenda 統計って？　予測って？ベイジアン再考次回に向けて

3 ... 本論の前に、経歴抜粋　？ ▪氏名徳江勇樹 ▪2006 年　東京工業大学大学院生命理工学研究科生体システム選考　卒業太田研究室　所属　 ▪2004-2006
　生物物理学会こんぴゅてーしょなる　な　統計解析　が強い学会　遺伝子データベースからの配列解析　生化学物質の構造・挙動・移動シミュレーション　分子進化速度からのクラスタリング→ 進化系統樹生成 ▪研究課題タンパク質主鎖の局所構造 - 配列相関 : 1 部位構造コードおよび統計的ポテンシャルによる解析？？？

4 ... タンパク質構造の統計的ポテンシャル？　？ ▪タンパク質　 = 　 20 種類のアミノ酸の 1 本鎖
▪ただの並びが…、地上全ての生物部品の形状を作っている ▪どんな「アミノ酸の並び」がどんな「構造」になるか？並び × 構造　のデータベースから統計（相関）を用いて評価（予測の前段階） -ACDEFGHIKLMN- -ACDEFHHIKLMN- -YTUCRSCSPNM-

6 統計にできること ▪情報の山から、意味ある数値を抽出中央値・最頻値・四分位点・類似度標準偏差・主成分・相関・分布形状… ▪仮説・検証　　　推定と検定　　「偶然か？　必然か？」 ▪予測　※本日のメイン

7 予測？ ▪過去実績を蓄積し、参照する ▪現在測定する ▪未来予測する・推定する

8 予測？ ▪測定したもの実績を蓄積し、参照する ▪測定可能なもの測定する ▪測定できないもの予測する・推定する

9 予測方法の大別演繹的手法原理・原則から導出する物理方程式からの分子の動態シミュレーション CAE による強度実験　予算案　 JR の運行計画経験的手法
測定の実績から導出する　！統計の出番統計値からの母集団の推定　線形計画法 ... 相関関数からの構造予測レコメンド、人気サイトの紹介勘ハイブリッド気象予測（物理方程式　 * 　類似気象パターン） Google の検索（全文検索　＊　クロール結果のランキング）

10 予測のモデル　基本形 Y = f(X, X',Y') for Y 予測結果空間 f
予測手法 X 　測定値・パラメーター空間 X' 蓄積された測定値 Y' 蓄積された予測値の正解中学・高校の数学だったら、 Y は 1 つだったり、 2 つだったり、グラフの線上になる。が、実際そうは簡単にいかない。答え Y が膨大計算量 f(X...) が膨大例：分子シミュレーション：　空間 × 分子数 × 時間変化

11 予測実行のための工夫 (1) 答えが膨大：ランク答えに「確からしさ」 (= 順位）をつけて、上位を取る閾値答えの「確からしさ」で、一定値以下を除外する
クラスタリング似た答えを、同一の答えとみなす答えの解析得られた解全体に対して、その傾向性を解析する •フーリエ変換で、モードを抽出

12 予測実行のための工夫 (2) 計算量が膨大：枝刈り可能性の低い部分は、計算途中で除外する初期値アタリをつけて、可能性の高い部分の周辺のみ計算するモデルの簡素化影響の少ない関数・計算式を近似・除去
•計算のメッシュを荒くする •入力のパラメーターを減らす •寄与の弱い項を無視　 ex. 20nm 以上の分子間力≒ 0 •連続関数を離散値に近似 •有効桁数を下げる •蓄積されたデータからのノイズ／偏りを除去（クリーニング）計算容易な形に変形 •乗算　→ 　 log で和算　　・パラメーターの正規化 (Z 値 ) 　 •積分　→ 　 Σ 計算　　　　・行列演算 •分布関数　→ 　正規分布で近似 •多パラメーター X 　→ 　主成分分析で正規直行空間 X* に変換再利用 •計算・答えの部分的なキャッシュ並列計算 •グリッド計算 •ゲーム化して、世界中でコンテストほかハードの最適化、ベクトル演算器、 DSL 構築＆チューニング…

14 なぜベイジアン？ ▪統計的な予測手法の中で、 2 番目に多用されている。 ※ 　 1 番目：　類似パターンを検索する例　協調フィルタリング
例　タンパク質の構造予測

15 ベイジアンに関しての　おねがい ▪「事前確率」「事後確率」とかいう言葉は、忘れちゃってください　前後なんてまったくないです。　ちゃんちゃらです。「条件付確率」ってのも…なんか違う。 ▪興味があるのは、「必然か、偶然か」！

16 スタート地点は「必然か、偶然か」 ▪事象 A 　と　事象 B 　が同時に生じる。必然か？　偶然か？ A∩ B
が実際に生じる回数： A∩ B が偶然に生じる回数 = A∩ B の実績値　：　 A∩ B の期待値 = N * P(A∩ B) : 　 N * P(A) * P(B) = P(A∩ B) ： P(A) * P(B) ※ 統計屋さんは、常に「確率」でものを考えます。 ∵ 　確率は　全体の母数 N に対して不変。　　　 cf. 検出数 N A ,N B ,N A∩ B 確率はモデル。理想像。ユートピア。

17 で、ベイジアンは･･･ ▪A∩ B が実際に生じる回数： A∩ B が偶然に生じる回数 =
P(A∩ B) ： P(A) * P(B) = P(A∩ B) / P(A) ： P(B) = P(B|A) ： P(B) ▪つまり…、「 B が生じる確率」に関して = A による影響（相関）：　無影響（偶然） ▪同様に　「 A が生じる確率」に関しても = P(A|B) ： P(A) = B による影響（相関）：　無影響（偶然）

18 では、数学的に加速しましょう･･･比はいろいろと面倒くさいので、除算にします score 1 = 実績値／期待値 = 左辺 /
右辺 = P(A∩ B) / P(A) * P(B) 一種の「相関係数」　 A と B の同時の発生しやすさ。 >>1 同時に発生しやすい１相関はなさそう。偶然っぽい。 <<1 同時に発生しにくい A,B から、任意の N コの事象に拡張します。（添え字 i ） A 1 ,A 2 ,A 3 ...A n の同時の発生しやすさ。  score 1 = P(∩ i=0 n{A i }) / Π i=0 n{P(A i )}

19 続いて、統計予測屋さんの技巧･･･ score1 を -log します。 score 2 = -log(score
1 ) = -log(P(∩ i=0 n{A i }) / Π i=0 n{(P(A i ))}) = -log(P(∩ i=0 n{A i })) + Σ i=0 n{log(P(A i )} 統計屋さんとしては、「超美しい」式です。ぞくぞくします。理由は…

20 美しさ 1 2 3 4 s n = -log(P(∩
i=0 n{A i })) + Σ i=0 n{log(P(A i )} ▪理由１：乗算→ 和算計算が速い　確率計算は基本的に乗算なので。 ▪理由２：　（負相関 , 偶然 , 正相関） = （ +∞ ,0,-∞ ）正相関と負相関を、絶対値で相殺できる。 ▪理由３：　「情報量」のオーダーになる情報学での「情報量 I 」に相当する ▪理由４：　二項相関 s 2 ・三項相関 s 3 ･･･ N 項相関 s n を同形式で、足しこみして一括計算ができる　イメージ）　 s 2-n = Σs 2 + Σs 3 + … + Σs n

21 最大の美しさ 5 s n = -log(P(∩ i=0 n{A i
})) + Σ i=0 n{log(P(A i )} ▪理由５：実はエネルギーの次元物理化学計算・エントロピー計算などと同形式。 ➔ 既存技法の転用演繹的手法（シミュレーションなど）の技術 ➔ 既存技法・関数と対比可能定数パラメーターの調整　や　未知の力学項の推測 ➔ 演繹的手法と足し合わせて、ハイブリッド実行可能

22 今日のベイジアンはここまで s{n} = Σ{log(P(Ai)} – log(P(∩ {Ai})) ▪ベイジアンは、統計的な予測でメジャーな方法 ▪相関係数の１手法
▪Ｎ次への拡張が容易　で　積算可能 ▪実は「エネルギー」　というか、確率は全てエネルギー。

24 なにがいいですか？ ▪統計学ネタ分布主成分分析クラスタリング ▪品質ネタ基礎製造業手法・ツール紹介

統計学：予測　と　ベイジアン統計：　要するに確率→エネルギー #TechLunch

統計学：予測　と　ベイジアン統計：　要するに確率→エネルギー #TechLunch

Livesense Inc. PRO

More Decks by Livesense Inc.

Other Decks in Technology

Featured

Transcript

1 統計　基礎予測　と　ベイジアン

2 Agenda 統計って？　予測って？ベイジアン再考次回に向けて

3 ... 本論の前に、経歴抜粋　？ ▪氏名徳江勇樹 ▪2006 年　東京工業大学大学院生命理工学研究科生体システム選考　卒業太田研究室　所属　 ▪2004-2006

4 ... タンパク質構造の統計的ポテンシャル？　？ ▪タンパク質　 = 　 20 種類のアミノ酸の 1 本鎖

5 Agenda 統計って？　予測って？ベイジアン再考次回に向けて

6 統計にできること ▪情報の山から、意味ある数値を抽出中央値・最頻値・四分位点・類似度標準偏差・主成分・相関・分布形状… ▪仮説・検証　　　推定と検定　　「偶然か？　必然か？」 ▪予測　※本日のメイン

7 予測？ ▪過去実績を蓄積し、参照する ▪現在測定する ▪未来予測する・推定する

8 予測？ ▪測定したもの実績を蓄積し、参照する ▪測定可能なもの測定する ▪測定できないもの予測する・推定する

9 予測方法の大別演繹的手法原理・原則から導出する物理方程式からの分子の動態シミュレーション CAE による強度実験　予算案　 JR の運行計画経験的手法

10 予測のモデル　基本形 Y = f(X, X',Y') for Y 予測結果空間 f

11 予測実行のための工夫 (1) 答えが膨大：ランク答えに「確からしさ」 (= 順位）をつけて、上位を取る閾値答えの「確からしさ」で、一定値以下を除外する

12 予測実行のための工夫 (2) 計算量が膨大：枝刈り可能性の低い部分は、計算途中で除外する初期値アタリをつけて、可能性の高い部分の周辺のみ計算するモデルの簡素化影響の少ない関数・計算式を近似・除去

13 Agenda 統計って？　予測って？ベイジアン再考次回に向けて

14 なぜベイジアン？ ▪統計的な予測手法の中で、 2 番目に多用されている。 ※ 　 1 番目：　類似パターンを検索する例　協調フィルタリング

16 スタート地点は「必然か、偶然か」 ▪事象 A 　と　事象 B 　が同時に生じる。必然か？　偶然か？ A∩ B

17 で、ベイジアンは･･･ ▪A∩ B が実際に生じる回数： A∩ B が偶然に生じる回数 =

18 では、数学的に加速しましょう･･･比はいろいろと面倒くさいので、除算にします score 1 = 実績値／期待値 = 左辺 /

19 続いて、統計予測屋さんの技巧･･･ score1 を -log します。 score 2 = -log(score

20 美しさ 1 2 3 4 s n = -log(P(∩

21 最大の美しさ 5 s n = -log(P(∩ i=0 n{A i

22 今日のベイジアンはここまで s{n} = Σ{log(P(Ai)} – log(P(∩ {Ai})) ▪ベイジアンは、統計的な予測でメジャーな方法 ▪相関係数の１手法

23 Agenda 統計って？　予測って？ベイジアン再考次回に向けて

24 なにがいいですか？ ▪統計学ネタ分布主成分分析クラスタリング ▪品質ネタ基礎製造業手法・ツール紹介

統計学：予測 と ベイジアン統計： 要するに確率→エネルギー #TechLunch

統計学：予測 と ベイジアン統計： 要するに確率→エネルギー #TechLunch

More Decks by Livesense Inc.

Other Decks in Technology

Featured

Transcript

統計学：予測　と　ベイジアン統計：　要するに確率→エネルギー #TechLunch

統計学：予測　と　ベイジアン統計：　要するに確率→エネルギー #TechLunch