Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計学:予測 と ベイジアン統計: 要するに確率→エネルギー #TechLunch
Search
Livesense Inc.
PRO
April 21, 2014
Technology
0
92
統計学:予測 と ベイジアン統計: 要するに確率→エネルギー #TechLunch
統計学:予測 と ベイジアン統計: 要するに確率→エネルギー
2012/08/01 (水) @ Livesense TechLunch
発表者:徳江 勇樹
Livesense Inc.
PRO
April 21, 2014
Tweet
Share
More Decks by Livesense Inc.
See All by Livesense Inc.
27新卒_Webエンジニア職採用_会社説明資料
livesense
PRO
0
260
株式会社リブセンス・転職会議 採用候補者様向け資料
livesense
PRO
0
16
株式会社リブセンス 会社説明資料(報道関係者様向け)
livesense
PRO
0
1.4k
データ基盤の負債解消のためのリプレイス
livesense
PRO
0
390
26新卒_総合職採用_会社説明資料
livesense
PRO
0
9k
株式会社リブセンス会社紹介資料 / Invent the next common.
livesense
PRO
1
27k
26新卒_Webエンジニア職採用_会社説明資料
livesense
PRO
1
12k
中途セールス職_会社説明資料
livesense
PRO
0
250
EM候補者向け転職会議説明資料
livesense
PRO
0
120
Other Decks in Technology
See All in Technology
Flutter向けPDFビューア、pdfrxのpdfium WASM対応について
espresso3389
0
130
AI時代の開発生産性を加速させるアーキテクチャ設計
plaidtech
PRO
3
130
作曲家がボカロを使うようにPdMはAIを使え
itotaxi
0
450
Geminiとv0による高速プロトタイピング
shinya337
0
260
Tech-Verse 2025 Global CTO Session
lycorptech_jp
PRO
0
1.7k
AIの全社活用を推進するための安全なレールを敷いた話
shoheimitani
2
480
Claude Code に プロジェクト管理やらせたみた
unson
6
3k
敢えて生成AIを使わないマネジメント業務
kzkmaeda
2
410
2025-07-06 QGIS初級ハンズオン「はじめてのQGIS」
kou_kita
0
160
ドメイン特化なCLIPモデルとデータセットの紹介
tattaka
2
580
Tokyo_reInforce_2025_recap_iam_access_analyzer
hiashisan
0
180
Glacierだからってコストあきらめてない? / JAWS Meet Glacier Cost
taishin
1
160
Featured
See All Featured
The Language of Interfaces
destraynor
158
25k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
How to Think Like a Performance Engineer
csswizardry
25
1.7k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.4k
Why Our Code Smells
bkeepers
PRO
336
57k
Agile that works and the tools we love
rasmusluckow
329
21k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.9k
Large-scale JavaScript Application Architecture
addyosmani
512
110k
How to Ace a Technical Interview
jacobian
277
23k
The Straight Up "How To Draw Better" Workshop
denniskardys
234
140k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
Transcript
1 統計 基礎 予測 と ベイジアン
2 Agenda 統計って? 予測って? ベイジアン再考 次回に向けて
3 ... 本論の前に、経歴抜粋 ? ▪氏名 徳江勇樹 ▪2006 年 東京工業大学大学院 生命理工学研究科生体システム選考 卒業 太田研究室 所属 ▪2004-2006
生物物理学会 こんぴゅてーしょなる な 統計解析 が強い学会 遺伝子データベースからの配列解析 生化学物質の構造・挙動・移動シミュレーション 分子進化速度からのクラスタリング→ 進化系統樹生成 ▪研究課題 タンパク質主鎖の局所構造 - 配列相関 : 1 部位構造コードおよび統 計的ポテンシャルによる解析 ???
4 ... タンパク質構造の統計的ポテンシャル? ? ▪タンパク質 = 20 種類のアミノ酸の 1 本鎖
▪ただの並びが…、地上全ての生物部品の形状を作っている ▪どんな「アミノ酸の並び」がどんな「構造」になるか? 並び × 構造 のデータベースから 統計(相関)を用いて評価(予測の前段階) -ACDEFGHIKLMN- -ACDEFHHIKLMN- -YTUCRSCSPNM-
5 Agenda 統計って? 予測って? ベイジアン再考 次回に向けて
6 統計にできること ▪情報の山から、意味ある数値を抽出 中央値・最頻値・四分位点・類似度 標準偏差・主成分・相関・分布形状… ▪仮説・検証 推定と検定 「偶然か? 必然か?」 ▪予測 ※本日のメイン
7 予測? ▪過去 実績を蓄積し、参照する ▪現在 測定する ▪未来 予測する・推定する
8 予測? ▪測定したもの 実績を蓄積し、参照する ▪測定可能なもの 測定する ▪測定できないもの 予測する・推定する
9 予測方法の大別 演繹的手法 原理・原則から導出する 物理方程式からの分子の動態シミュレーション CAE による強度実験 予算案 JR の運行計画 経験的手法
測定の実績から導出する !統計の出番 統計値からの母集団の推定 線形計画法 ... 相関関数からの構造予測 レコメンド、人気サイトの紹介 勘 ハイブリッド 気象予測(物理方程式 * 類似気象パターン) Google の検索(全文検索 * クロール結果のランキング)
10 予測のモデル 基本形 Y = f(X, X',Y') for Y 予測結果空間 f
予測手法 X 測定値・パラメーター空間 X' 蓄積された測定値 Y' 蓄積された予測値の正解 中学・高校の数学だったら、 Y は 1 つだったり、 2 つだったり、グラフの線上になる。 が、実際そうは簡単にいかない。 答え Y が膨大 計算量 f(X...) が膨大 例:分子シミュレーション: 空間 × 分子数 × 時間変化
11 予測実行のための工夫 (1) 答えが膨大: ランク 答えに「確からしさ」 (= 順位)をつけて、上位を取る 閾値 答えの「確からしさ」で、一定値以下を除外する
クラスタリング 似た答えを、同一の答えとみなす 答えの解析 得られた解全体に対して、その傾向性を解析する •フーリエ変換で、モードを抽出
12 予測実行のための工夫 (2) 計算量が膨大: 枝刈り 可能性の低い部分は、計算途中で除外する 初期値 アタリをつけて、可能性の高い部分の周辺のみ計算する モデルの簡素化 影響の少ない関数・計算式を近似・除去
•計算のメッシュを荒くする •入力のパラメーターを減らす •寄与の弱い項を無視 ex. 20nm 以上の分子間力≒ 0 •連続関数を離散値に近似 •有効桁数を下げる •蓄積されたデータからのノイズ/偏りを除去(クリーニング) 計算容易な形に 変形 •乗算 → log で和算 ・パラメーターの正規化 (Z 値 ) •積分 → Σ 計算 ・行列演算 •分布関数 → 正規分布で近似 •多パラメーター X → 主成分分析で正規直行空間 X* に変換 再利用 •計算・答えの部分的なキャッシュ 並列計算 •グリッド計算 •ゲーム化して、世界中でコンテスト ほか ハードの最適化、ベクトル演算器、 DSL 構築&チューニング…
13 Agenda 統計って? 予測って? ベイジアン再考 次回に向けて
14 なぜベイジアン? ▪統計的な予測手法の中で、 2 番目に多用されている。 ※ 1 番目: 類似パターンを検索する 例 協調フィルタリング
例 タンパク質の構造予測
15 ベイジアンに関しての おねがい ▪「事前確率」「事後確率」とかいう言葉は、 忘れちゃってください 前後なんてまったくないです。 ちゃんちゃらです。 「条件付確率」ってのも…なんか違う。 ▪興味があるのは、「必然か、偶然か」!
16 スタート地点は「必然か、偶然か」 ▪事象 A と 事象 B が同時に生じる。 必然か? 偶然か? A∩ B
が実際に生じる回数 : A∩ B が偶然に生じる回数 = A∩ B の実績値 : A∩ B の期待値 = N * P(A∩ B) : N * P(A) * P(B) = P(A∩ B) : P(A) * P(B) ※ 統計屋さんは、常に「確率」でものを考えます。 ∵ 確率は 全体の母数 N に対して不変。 cf. 検出数 N A ,N B ,N A∩ B 確率はモデル。理想像。ユートピア。
17 で、ベイジアンは・・・ ▪A∩ B が実際に生じる回数 : A∩ B が偶然に生じる回数 =
P(A∩ B) : P(A) * P(B) = P(A∩ B) / P(A) : P(B) = P(B|A) : P(B) ▪つまり…、「 B が生じる確率」に関して = A による影響(相関): 無影響(偶然) ▪同様に 「 A が生じる確率」に関しても = P(A|B) : P(A) = B による影響(相関) : 無影響(偶然)
18 では、数学的に加速しましょう・・・ 比はいろいろと面倒くさいので、除算にします score 1 = 実績値/期待値 = 左辺 /
右辺 = P(A∩ B) / P(A) * P(B) 一種の「相関係数」 A と B の同時の発生しやすさ。 >>1 同時に発生しやすい 1 相関はなさそう。偶然っぽい。 <<1 同時に発生しにくい A,B から、任意の N コの事象に拡張します。(添え字 i ) A 1 ,A 2 ,A 3 ...A n の同時の発生しやすさ。 score 1 = P(∩ i=0 n{A i }) / Π i=0 n{P(A i )}
19 続いて、統計予測屋さんの技巧・・・ score1 を -log します。 score 2 = -log(score
1 ) = -log(P(∩ i=0 n{A i }) / Π i=0 n{(P(A i ))}) = -log(P(∩ i=0 n{A i })) + Σ i=0 n{log(P(A i )} 統計屋さんとしては、「超美しい」式です。 ぞくぞくします。 理由は…
20 美しさ 1 2 3 4 s n = -log(P(∩
i=0 n{A i })) + Σ i=0 n{log(P(A i )} ▪理由1: 乗算→ 和算 計算が速い 確率計算は基本的に乗算なので。 ▪理由2: (負相関 , 偶然 , 正相関) = ( +∞ ,0,-∞ ) 正相関と負相関を、絶対値で相殺できる。 ▪理由3: 「情報量」のオーダーになる 情報学での「情報量 I 」に相当する ▪理由4: 二項相関 s 2 ・三項相関 s 3 ・・・ N 項相関 s n を 同形式で、足しこみして一括計算ができる イメージ) s 2-n = Σs 2 + Σs 3 + … + Σs n
21 最大の美しさ 5 s n = -log(P(∩ i=0 n{A i
})) + Σ i=0 n{log(P(A i )} ▪理由5: 実はエネルギーの次元 物理化学計算・エントロピー計算などと同形式。 ➔ 既存技法の転用 演繹的手法(シミュレーションなど)の技術 ➔ 既存技法・関数と対比可能 定数パラメーターの調整 や 未知の力学項の推測 ➔ 演繹的手法と足し合わせて、ハイブリッド実行可能
22 今日のベイジアンはここまで s{n} = Σ{log(P(Ai)} – log(P(∩ {Ai})) ▪ベイジアンは、統計的な予測でメジャーな方法 ▪相関係数の1手法
▪N次への拡張が容易 で 積算可能 ▪実は「エネルギー」 というか、確率は全てエネルギー。
23 Agenda 統計って? 予測って? ベイジアン再考 次回に向けて
24 なにがいいですか? ▪統計学ネタ 分布 主成分分析 クラスタリング ▪品質ネタ 基礎 製造業 手法・ツール紹介