統計学と機械学習の違いと接点とは？

Slide 1

Slide 1 text

統計学と機械学習の違いと接点とは？〜統計・機械学習・統計的機械学習とは何か？〜

Slide 2

Slide 2 text

上野彰大 1992年大阪府堺市生まれ・育ち東京大学大学院農学生命科学研究科卒 YOJO Technologies取締役・エンジニア責任者自己紹介 Twitter：@ueeeeniki

Slide 3

Slide 3 text

● section0：この勉強会のモチベーションとゴール ● section1：統計学とは何か？ ● section2：機械学習とは何か？統計学と機械学習の違いは何か？（←本題）統計的機械学習とは何か？ ● section3：なぜ統計的機械学習が必要なのか？アジェンダ

Slide 4

Slide 4 text

参考・オススメ文献 ● 統計的機械学習入門 ○ ベイズ推論による機械学習入門 ○ しくみがわかるベイズ統計と機械学習 ○ 統計的学習理論 ○ 統計的機械学習 ―生成モデルに基づくパターン認識 ○ 統計的機械学習ことはじめ : データ分析のセンスを磨くケーススタディと数値例 ● 発展的統計的機械学習 ○ ガウス過程と機械学習 ○ ノンパラメトリックベイズ点過程と統計的機械学習の数理 ○ ベイズ深層学習 ● ベイズモデリング ○ データ解析のための統計モデリング入門 ――一般化線形モデル・階層ベイズモデル・ MCMC ○ StanとRでベイズ統計モデリング ○ 階層ベイズモデルとその周辺 ―時系列・画像・認知への応用

Slide 5

Slide 5 text

推奨する前提知識 ● 下記については補足をするが、ある程度の知識があることが望ましい ○ 機械学習の基礎知識 ○ 頻度主義統計学の基礎知識 ○ ベイズ主義統計学の基礎知識 ○ 高校程度の数学知識 ● 仮に詳細が理解できない箇所があったとしても、議論の大枠を理解することは可能です

Slide 6

Slide 6 text

この勉強会のモチベーションとゴール

Slide 7

Slide 7 text

なぜやろうと思ったか？（動機・目的） ● 統計と機械学習は、同じ「データに潜む規則や構造を抽出することによって、現象の理解や未知の現象に対する予測を行う」（『ベイズ推論による機械学習』『Stanと Rでベイズ統計モデリング』改）ための学問であるにも関わらず、別の学問とみなされているのは何故か、何が違うのかが気になって夜も眠れない ● 統計と機械学習の融合分野である「統計的機械学習」の文献は多々あれど、「そもそも統計と機械学習はどう違うのか？」について解説した文献はあまりない ● 統計学好きな自分にとっては、「機械学習は人気があるけど、統計学は人気なくて悲しい、なぜだろうか？」という思いもある笑

Slide 8

Slide 8 text

「統計的機械学習」という融合分野 ● 有名な『パターン認識と機械学習（ベイズ理論による統計的予測）』（通称、PRML）は、副題がベイズ理論による統計的予測であり、統計的機械学習の本 ○ 近年、統計的機械学習が注目されている ● 統計的機械学習とは、『統計的手法を用いて機械学習をする＝統計モデリングのアプローチを機械学習タスクに適応させる手法』 ○ 統計学でもあり、機械学習でもあるのが統計的機械学習 ○ 統計学は、「〇〇統計学」（ex. 生物統計学、心理統計学）「統計〇〇学」（ex. 統計力学）「ex. 統計的〇〇」（統計的機械学習、統計的因果推論）というような融合ワード？の多い学問

Slide 9

Slide 9 text

統計学と機械学習が歩んできた道に着目する ● ある学問が流行る時というのは、その学問による世界の見方が、そのときの社会の疑問を解決してくれたり、その見方をすることによって多くの人が利益を得られるとき ● この発表では、統計学と機械学習が科学の発展にとってなぜ必要だったのか？ここまで持て囃されているのはなぜか？に着目し、各々の学問がなぜ別々の道を経て発展してきたのか？、なぜまた融合しようとしてるのか？まで明らかにする

Slide 10

Slide 10 text

統計学とは何か？

Slide 11

Slide 11 text

● 統計学とは何か、統計モデリングとは何か？ ● ベイズ主義統計学入門 ● 統計モデリングの注意点 ● まとめ section1のアジェンダ

Slide 12

Slide 12 text

● 統計学とは何か、統計モデリングとは何か？ ● ベイズ主義統計学入門 ● 統計モデリングの注意点 ● まとめ section1のアジェンダ

Slide 13

Slide 13 text

統計学と機械学習の共通点 ● 統計学も機械学習も「データに潜む規則や構造を抽出する（モデリングする）ことによって、① 現象の理解や②未知の現象に対する予測を行う」ことが目的である規則や構造を抽出＝モデル化する ②未知の現象に対する予測を行う ① 現象を理解する

Slide 14

Slide 14 text

統計学とは何か？ ● データに潜む規則や構造を抽出する（モデリングする）ことによって、現象の理解や未知の現象に対する予測を行う規則や構造を抽出＝モデル化する ②未知の現象に対する予測を行う統計モデリング ① 現象を理解する ● 確率分布を用いてデータに潜む規則や構造を抽出する（= 統計モデリングする）ことによって、現象の理解や未知の現象に対する予測を行う ○ 統計学の特徴は「統計モデリング」をして、現象の理解や未知の現象に対する予測を行うということ

Slide 15

Slide 15 text

データを抽出母集団標本頻度主義

Slide 16

Slide 16 text

データを抽出母集団標本頻度主義

Slide 17

Slide 17 text

モデル化データを抽出母集団標本 ① 標本分布の形が正規分布のような形をしていると評価する頻度主義

Slide 18

Slide 18 text

「真の」統計モデル正規分布モデル化データを抽出母集団標本 ① 標本分布の形が正規分布のような形をしていると評価する ② 母集団の分布も正規分布なのではないかと仮定＝モデリングする頻度主義 μ σ2

Slide 19

Slide 19 text

「真の」統計モデル正規分布モデル化 ③ 標本から母集団のモデルのパラメータ（ここでは平均と分散）を推定推定された統計モデル正規分布データを抽出母集団標本 ① 標本分布の形が正規分布のような形をしていると評価する ② 母集団の分布も正規分布なのではないかと仮定＝モデリングする頻度主義 μ σ2 μ* σ*2

Slide 20

Slide 20 text

「真の」統計モデル正規分布モデル化推定された統計モデル正規分布データを抽出母集団標本完全に一致はしない ① 標本分布の形が正規分布のような形をしていると評価する ② 母集団の分布も正規分布なのではないかと仮定＝モデリングする ③ 標本から母集団のモデルのパラメータ（ここでは平均と分散）を推定頻度主義 μ* σ*2 μ σ2

Slide 21

Slide 21 text

なぜ推測統計が必要とされるのか？ ● 統計学は、科学的実験手法に確率論的解釈を与えることで、19世紀後半〜20世紀以降の科学の発展を支えてきた「縁の下の力持ち的学問」 ○ 現代統計学の金字塔となったR.A.Fisherの本の名は『研究者のための統計的方法』 ○ 例えば、実験心理学では、心理学に実験とその結果の統計学的な分析を導入することで、それまでの哲学的な心理学とは異なる実証的な心理学という境地を拓いた（実験心理学の父ヴィルヘルム・ヴントは、「新しい学問分野として心理学」を成立したとされる） ● 観察・実験・調査を用いた経験主義的な科学に確率という道具を用いて納得感を付与している = 科学を科学的たらしめている ○ 例えば、検定は、Aの母集団とBの母集団のパラメータが違うかどうかを手元のサンプルから推定する分析手法のこと

Slide 22

Slide 22 text

記述統計頻度主義推測統計ベイズ主義推測統計推測しない推測する統計学の分類推測統計これまで話して来たところ

Slide 23

Slide 23 text

● 統計学とは何か、統計モデリングとは何か？ ● ベイズ主義統計学入門 ● 統計モデリングの注意点 ● まとめ section1（統計学とは何か？）アジェンダ

Slide 24

Slide 24 text

記述統計頻度主義推測統計ベイズ主義推測統計推測しない推測する統計学の分類推測統計これからメインで話すところこれまで話して来たところ

Slide 25

Slide 25 text

頻度主義の限界とベイズ主義の台頭 ● 20世紀の統計学の主流は頻度主義だったが、現代では統計学の著名学術誌の過半数はベイズ主義の立場を取っているとも言われている（『基礎からのベイズ統計学』） ● 頻度主義統計の最も便利なツールである「統計学的仮説検定」の「 p値」「有意性」が批判にさらされており、ベイズ主義が台頭してきた ○ 統計の誤解と濫用や「p値至上主義」を憂慮しp値の６原則を発表したASAの声明に対する統計学徒の素人意見   ○ 「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明に対する某データサイエンティストのブログの声明に対する素人()の声明   ○ 統計学的な有意性検定の意味のなさ ● 一方で、どちらが正しい主義かという問いに意味はなく、好きな主義と好きな方法を使うことができる（『統計学入門「主義」を心配するみなさまに』）参考：統計初心者がベイズ統計学に入門するまでの勉強法

Slide 26

Slide 26 text

ベイズ推論の導入 ● この発表で今後統計学とは、主にベイズ推論を行うベイズ主義統計学のことをいう ● ベイズ推論とは、ベイズの定理を用いて得られたデータから背景のパラメータ（母集団の平均や分散など）の確率分布（事後分布）を推論することベイズの定理パラメータデータ事後分布

Slide 27

Slide 27 text

尤度関数ベイズの定理 θをパラメータ、Dを観測したデータであるとすると、同時分布は条件付き確率を使って以下のように2通りに書けるこれら2つの式を結んで式変形すると事前分布事後分布 θ：パラメータ、D：データ背景と結果が入れ替わっている

Slide 28

Slide 28 text

事前分布・尤度関数・事後分布ベイズの定理は、「背景パラメータθから結果Dが得られる確率p(D|θ)から、結果Dが得られたときのパラメータθの確率p(θ|D)を逆計算する手続き」と言える背景と結果が入れ替わっている尤度関数事前分布事後分布例として、二項分布によるバスケットのフリースロー（パラメータ＝入る確率 θ）を考える Dとして、Aさんが10回フリースローをして7回入ったという事象が観測できているとする。 ● 事前分布：データを観測する前のパラメータの主観確率例ーAさんのフリースローの入る確率を事前にどの程度と仮定するかという θの確率分布 ● 尤度関数：あるパラメータのもとで観測したデータが発生する確率例ー入る確率をθとしたときにDが起こる（10回中7回入る）確率は、 10 C 7 θ7(1−θ)3 ← θの関数 ● 事後分布：データを観測した後のパラメータの確率分布。本来の時間の流れは θを元にDが発生するという流れであり、時間の流れに逆らった計算を行うので逆確率とも言う。例ーD（10回中7回入った）を観測した後に更新される θの確率分布

Slide 29

Slide 29 text

事前分布とベイズ統計学への批判 ● 事前分布を主観的に決める必要があり、一歩間違えるとデータ分析における科学的客観性を本質的・根本的に脅かす ○ R.A.Fisherの『研究者のための統計的方法』の中では「逆確率の理論（＝ベイズ理論）はある誤謬の上に立脚するものであって、完全に葬り去らなければならないのである」と全否定されている ● 一方で、Fisherは、「観測上の根拠が前もって存在するような場合を除くと、逆確率の方法では、既知の標本が取り出された母集団に関する推論を、確率的に表現することはできない」とも述べており、観測上の根拠が存在する場合にはベイズの定理の使用を認めている ○ 観測上の根拠が前もって存在するような場合（検診では有病率が事前に知られている場合、迷惑メールフィルターでは、迷惑メールに該当の言葉が含まれている確率など）には使える ● できる限り主観を排するため、定義域の大きい一様分布や分散が非常に大きい正規分布などのできる限り事後分布に影響を与えない無情報事前分布を用いることが多い参考：豊田秀樹. 『基礎からのベイズ統計学』

Slide 30

Slide 30 text

周辺化とベイズの定理のように一方の変数を積分によって除去する操作を周辺化と呼び、ベイズの定理に代入すると、次の等式を導くことができる尤度関数事前分布モデルエビデンス事後分布 θ：パラメータ、D：データ

Slide 31

Slide 31 text

事後分布の求め方一般的にモデルエビデンスを解析的に解くことは不可能。そこで、という性質を利用し、マルコフ連鎖モンテカルロ法（MCMC）や変分推論法を用いて近似計算を行うことが可能である θ：パラメータ、D：データから導かれる

Slide 32

Slide 32 text

データを抽出母集団標本ベイズ主義

Slide 33

Slide 33 text

モデル化データを抽出母集団標本 ① 標本分布の形が正規分布のような形をしていると評価するベイズ主義

Slide 34

Slide 34 text

「真の」統計モデル正規分布モデル化データを抽出母集団標本 ① 標本分布の形が正規分布のような形をしていると評価する ② 母集団の分布も正規分布なのではないかと仮定＝モデリングし、事前分布p(θ)を設定する μ σ2 μ事前分布 σ事前分布ベイズ主義

Slide 35

Slide 35 text

「真の」統計モデル正規分布モデル化データを抽出母集団標本 ③ 標本から尤度関数p(D|θ)を計算して母集団のモデルのパラメータ（ここでは平均μと標準偏差σ）の事後分布p(θ|D)を推定 μ σ2 μ事後分布 σ事後分布 μ事前分布 σ事前分布 ② 母集団の分布も正規分布なのではないかと仮定＝モデリングし、事前分布p(θ)を設定する ① 標本分布の形が正規分布のような形をしていると評価するベイズ主義

Slide 36

Slide 36 text

「真の」統計モデル正規分布モデル化データを抽出母集団標本 μ σ2 パラメータを値で推定するのではなく、分布を推定する μ事後分布 σ事後分布 μ事前分布 σ事前分布 ② 母集団の分布も正規分布なのではないかと仮定＝モデリングし、事前分布p(θ)を設定する ① 標本分布の形が正規分布のような形をしていると評価する ③ 標本から尤度関数p(D|θ)を計算して母集団のモデルのパラメータ（ここでは平均μと標準偏差σ）の事後分布p(θ|D)を推定ベイズ主義

Slide 37

Slide 37 text

事後分布による点推定ベイズ主義でも事後分布からパラメータを点推定することは可能事後分布 MAP EAP ● 事後中央値MED MED ● 事後確率最大値MAP ● 事後期待値EAP

Slide 38

Slide 38 text

ベイズ主義における2群の平均値差の推測 ● 頻度主義統計学における統計的仮説検定のp値とは、「帰無仮説が正しいと仮定する時、手元のデータ以上に甚だしい状況が生じる確率」というもってまわったような分かりにくい確率（『基礎からのベイズ統計学』） ● ベイズ主義においては、頻度主義における統計的仮説検定の代わりに、2群（もしくは複数群）の平均値に差がある確率を直接的に推測することが可能になる ○ これがベイズ主義統計学を使用する場合の大きな利点の一つである

Slide 39

Slide 39 text

データを抽出母集団A Aの標本データを抽出母集団B Bの標本例 ● A：弱い光を当てて育てた植物の重さ B：強い光を当てて育てた植物の重さベイズ主義

Slide 40

Slide 40 text

モデル化データを抽出母集団A Aの標本データを抽出母集団B Bの標本モデル化例 ● A：弱い光を当てて育てた植物の重さ B：強い光を当てて育てた植物の重さベイズ主義

Slide 41

Slide 41 text

モデル化データを抽出母集団A Aの標本データを抽出母集団B Bの標本モデル化ベイズ主義標本からそれぞれの母集団のモデルのパラメータ（ここでは平均μ（標準偏差σはおいておく））の事後分布p(θ|D)を推定 μ A 事後分布 μ B 事後分布

Slide 42

Slide 42 text

ベイズ主義 μ A 事後分布 μ B 事後分布 μ 1A μ 1B μ 2A μ 2B μ nA μ nB ・・・・・・比較比較比較 μ iB の方が大きい確率を直接計算できる

Slide 43

Slide 43 text

なぜベイズ主義統計学の発展が遅れてしまったのか ● 歴史的には、主義論争に巻き込まれて、大勢派から弾圧されていた ○ R.A.Fisherの『研究者のための統計的方法』の中でも「完全に葬り去らなければならないのである」と全否定されている ● （弾圧理由①）事前分布を主観的に決める必要があり、一歩間違えるとデータ分析における科学的客観性を本質的・根本的に脅かす ○ この問題は根本的には解決していないが、できる限り無情報的事前分布を使用することで論争を一定回避することは可能（決定的な立場はまだない） ● （弾圧理由②）事後分布の計算には高次元の積分計算が含まれており、解析的には解けない ○ MCMC、変分推論法などの近似計算にもかなりの計算力が必要だが、マシンパワーの向上により十分に可能になった参考：豊田秀樹. 『基礎からのベイズ統計学』

Slide 44

Slide 44 text

● 統計学とは何か、統計モデリングとは何か？ ● ベイズ主義統計学入門 ● 統計モデリングの注意点 ● まとめ section1のアジェンダ

Slide 45

Slide 45 text

統計モデリングを行う上での注意 ● 統計モデリングは、あくまで確率的にモデリングしているにすぎず、現象の裏側（母集団）の想像はしているが、現象の原因や生起システムについては何も述べていない ○ 因果関係が同時に推定できるというのはよくある誤解 ○ 因果関係を推定するには、統計的因果探索で使われるような因果関係推定用の手法が必要 ● 統計モデリングを分析者が自ら行わなければならないのが統計学の難しさ ● どれだけ多くのデータを集めても、母集団の分布を完全に理解できるということはないし、モデリングの過程で分析者の主観・仮定が入り込む ○ 統計学を用いた研究とは、限られたサンプルに対して、正しく統計学的に推察しているのか？前提は妥当か？なども含めて、人々が納得できるかどうかで合意形成していくプロセス ○ 不正や嘘でなくても、導いた結論が間違っている可能性は十分にある

Slide 46

Slide 46 text

統計学は説明のためだけの学問だという勘違い ● よくある統計学と機械学習の違いの説明に「統計学は説明するための学問」「機械学習は予測するための学問」というのがあるが、これはかなり雑な説明 ● そもそもなぜ人々が統計学的説明に意義を感じるのかといえば、そのパーツである確率論が”未来”をスコープにしているから ○ 「男性の方が女性よりも身長が高い」という観測に基づく仮説は、将来に渡って何度サンプルを取り出して平均しても大抵そうである（＝確率が高い）からこそ意義がある ○ 未来に起こることも確率的に説明しようとするからこそ、事象を統計学的に解釈することに意味があるので、予測なしに統計学に価値はない

Slide 47

Slide 47 text

● 統計学とは何か、統計モデリングとは何か？ ● ベイズ主義統計学入門 ● 統計モデリングの注意点 ● まとめ section1のアジェンダ

Slide 48

Slide 48 text

まとめ ● 統計学は、統計モデリングによってデータに潜む規則や構造を抽出し、現象の理解や未知の現象に対する予測を行う ● 統計学によって、現象の背景の確率的説明が可能になり、様々な科学の分野で実験結果の比較などの統計学的手法が広まった ● 統計学には頻度主義とベイズ主義という2つの立場が存在するが、どちらか一方のみが正しいということはない ○ 近年はベイズ主義統計学の分析例が増えてきたのは事実 ● 統計モデリングは分析者が自ら行わなければならず、（頻度主義・ベイズ主義に関わらず）どうしても分析者の主観・仮定が入り込む

Slide 49

Slide 49 text

機械学習とは何か？統計学と機械学習の違いは何か？統計的機械学習とは何か？

Slide 50

Slide 50 text

● 機械学習とは何か？統計学と機械学習との違い ● 非統計的機械学習と統計的機械学習のアプローチの違い ● まとめ section2のアジェンダ

Slide 51

Slide 51 text

● 機械学習とは何か？統計学と機械学習との違い ● 非統計的機械学習と統計的機械学習のアプローチの違い ● まとめ section2のアジェンダ

Slide 52

Slide 52 text

機械学習とはなにか？ ● 「データに潜む規則や構造を抽出することによって、現象の理解や未知の現象に対する予測を行う」が、必ずしも統計モデリングを行う必要はない ○ モデルはどのようなアルゴリズムを使っていてもよく（ディープラーニング、ニューラルネットワーク、ランダムフォレスト、ロジスティック回帰 etc、、、）、これらのアルゴリズムを統計モデリングの枠組みで説明できる必要はない ● 統計的機械学習とは、統計的手法を用いて機械学習をする＝統計モデリングのアプローチを機械学習タスクに適応させる手法 ○ 一般的な機械学習の入門書で目にするようなアルゴリズム（ディープラーニング、ニューラルネットワーク、ランダムフォレスト、ロジスティック回帰 etc）は「非統計的機械学習」だと言える

Slide 53

Slide 53 text

統計学と機械学習の違いと接点 ● 統計学とは、データの背後にある規則や構造をモデリングするのに確率論的アプローチを使う（＝統計モデリングする）ことに主眼が置かれている「手法フォーカス」な学問体系であり、機械学習とは、データの背後にある規則や構造をモデリングして予測を行うことに主眼が置かれている「目的フォーカス」な学問体系である ○ だから、統計学でもあり機械学習でもある「統計的機械学習」という融合分野が存在し得る ● 機械学習では、予測精度を高めるためにモデルのパラメータを学習して特定の値でストップするが、統計的機械学習では、パラメータの値ではなく事後分布p(w|D) を学習する ○ 現代では、統計的機械学習はベイズ主義の立場で扱うことが多い

Slide 54

Slide 54 text

● 機械学習とは何か？統計学と機械学習との違い ● 非統計的機械学習と統計的機械学習のアプローチの違い ● まとめ section2のアジェンダ

Slide 55

Slide 55 text

機械学習

Slide 56

Slide 56 text

機械学習

Slide 57

Slide 57 text

機械学習

Slide 58

Slide 58 text

機械学習

Slide 59

Slide 59 text

機械学習

Slide 60

Slide 60 text

機械学習

Slide 61

Slide 61 text

機械学習

Slide 62

Slide 62 text

機械学習

Slide 63

Slide 63 text

機械学習

Slide 64

Slide 64 text

機械学習

Slide 65

Slide 65 text

機械学習

Slide 66

Slide 66 text

機械学習

Slide 67

Slide 67 text

機械学習

Slide 68

Slide 68 text

識別問題・ニューラルネットワークまとめ ● 教師あり機械学習の識別問題は、Xを入力してYを出力し、全データの識別率を高めるために勾配降下法によって損失関数が最小化になるWを求める問題に帰着させられる ○ 設定する損失関数と、損失関数を最小化するアルゴリズムは機械学習アルゴリズムによって異なる機械学習

Slide 69

Slide 69 text

● 教師あり機械学習の識別問題は、Xを入力してYを出力し、全データの識別率を高めるために勾配降下法によって損失関数が最小化になるWを求める問題に帰着させられる ○ 設定する損失関数と、損失関数を最小化するアルゴリズムは機械学習アルゴリズムによって異なるベイジアン・ニューラルネットワーク統計的機械学習 ● パラメータに事前分布p(W)を設定し、与えられた教師データから事後分布p(W|X, Y)を学習する問題に帰着させることができる ○ p(W|X, Y)を近似的に学習する方法として、ラプラス近似、 MCMC、変分推論法などが知られてるベイズ化

Slide 70

Slide 70 text

統計的機械学習

Slide 71

Slide 71 text

回帰とは

Slide 72

Slide 72 text

回帰問題の機械学習的アプローチ回帰とは下記のようなデータから入出力関係を学習する問題である最も簡単なモデルとして、を想定すると、パラメータを獲得する問題だと言える x y

Slide 73

Slide 73 text

回帰問題の機械学習的アプローチ：パラメータの学習データ空間パラメータ空間損失関数として、二乗誤差の総和が最小となるようにパラメータを求める x y w 2 w 1

Slide 74

Slide 74 text

回帰問題のベイズ主義アプローチ回帰モデルにおいて、誤差εの確率分布p(ε)を仮定すれば、条件付き確率分布p(y|x, w)を仮定したことになるパラメータの最適化問題は、ベイズ主義の枠組みで最適な事前分布p(w)を仮定して、事後分布p(w|x, y)を学習する問題になる x y

Slide 75

Slide 75 text

x y w 2 w 1 x y w 2 w 1 データ空間パラメータ空間事後分布にもとづく回帰モデルパラメータwの事後分布p(w|x,y) 事前分布にもとづく回帰モデルパラメータwの事前分布p(w) 事前事後

Slide 76

Slide 76 text

予想分布学習されたwの分布を使って、新しい入力値x * に対する未知の出力値y * に関する予測分布は x y 事後分布にもとづく回帰モデル事後 x * } 事後分布 MAP EAP MED y * となり、あらゆるwに対して予測モデルの事後分布による重み付き平均を計算しているイメージになる直線が引きたければ点推定すればいい y *

Slide 77

Slide 77 text

教師あり学習へのベイズ主義アプローチ ● 教師あり機械学習の識別・回帰問題は、Xを入力してYを出力し、全データの識別率を高めるために勾配降下法によって損失関数が最小化になるWを求める問題に帰着させられる ○ 設定する損失関数と、損失関数を最小化するアルゴリズムは機械学習アルゴリズムによって異なる ● パラメータに事前分布p(W)を設定し、与えられた教師データから事後分布p(W|X, Y)を学習する問題に帰着させることができる ○ p(W|X, Y)を近似的に学習する方法として、ラプラス近似、 MCMC、変分推論法などが知られてるベイズ化

Slide 78

Slide 78 text

● 機械学習とは何か？統計学と機械学習との違い ● 非統計的機械学習と統計的機械学習のアプローチの違い ● まとめ section2のアジェンダ

Slide 79

Slide 79 text

まとめ ● 機械学習は予測するという目的フォーカスの学問体系であり、統計学は統計モデリングするという手段フォーカスの学問体系である ● 統計学でもあり、機械学習でもある統計的機械学習という分野が注目されている ● 機械学習は、予測精度を高めるためのパラメータのWの値を求めるが、統計的機械学習では、与えられたデータからパラメータの事後分布p(W|D)を求める

Slide 80

Slide 80 text

なぜ統計的機械学習が必要なのか？

Slide 81

Slide 81 text

機械学習がなぜここまで流行しているのか ● 未知の現象の予想とは人類の夢である ○ 資本主義では、予測した人は利益を得えて、さらにうまく予測できることに投資をすることができるという循環が起こる ● 従来の機械学習では、様々な欠点（後述）には目をつむり、予想さえできればいいという割り切った考え方をする ○ 統計学のように難しいことを考えずにとりあえず予測できればいいんでしょ？という分かりやすさが、機械学習がウケている大きな要因だと考えている（笑） ● 予測精度の高い機械学習アルゴリズムは使いつつ、統計モデリングの手法を導入することで、機械学習の良さと統計学の良さをミックスさせたのが統計的機械学習 ○ 多くの機械学習アルゴリズムで統計モデリングを導入することは可能

Slide 82

Slide 82 text

非統計的機械学習の限界 ● データが膨大に必要、過学習が起こる、不確実性を扱うのが苦手、解釈性が低い、 etc..などの機械学習の限界（後ほど詳述）も認知されており、それを乗り越えるために統計学的手法を導入するビッグデータが必要解釈性が低い不確実性を扱うのが苦手規則や構造を抽出＝モデル化する ②未知の現象に対する予測を行う統計モデリング ① 現象を理解する

Slide 83

Slide 83 text

非統計的機械学習の限界と統計的機械学習による克服 ● ①データが膨大に必要、過学習が起こる ○ 精度が高い複雑なモデルでは、パラメーターの数が膨大であり、このようなデータに過剰適合せずに学習させるには、大量のデータが必要となる ● ②不確実性を扱うのが苦手 ○ 予測アルゴリズムが「何を知らないのかを知る」ことができない ● ③解釈性が低い ○ どうしてそのような予測を行ったのかの根拠を示すことができない

Slide 84

Slide 84 text

● データが膨大に必要 ○ 精度が高い複雑なモデルでは、パラメータの数が膨大であり、このようなデータに過剰適合せずに学習させるには、大量のデータが必要となる ○ 例えば、ガン診断の画像データのような専門家の手によるラベル付けが必要なものやでは、ラベル付きデータの収集に非常にコストがかかる場合もある ● 過学習が起こる ○ 機械学習は統計学のように目の前のデータの背景知識を汲み取っているわけではなく、目の前のデータにフィットしようとするので、本質的に過学習することは織り込み済みの手法非統計的機械学習の限界と統計的機械学習による克服① ● 学習した後もパラメータの事後分布は一定のゆらぎを持っている ○ データが増えれば増えた分だけ、事後分布は確からしくはなる ○ 統計学はもともと少ないデータから背景知識をゆらぎを許して想像するための学問ベイズ化

Slide 85

Slide 85 text

非統計的機械学習の限界と統計的機械学習による克服② ● 不確実性を扱うのが苦手 ○ 学習時に現れなかった入力や、与えられたデータのみでは判断するための情報が本質的に足りてないような状況において、一般的な機械学習は一定の自信で何かしらの出力を出してしまう ○ 予測アルゴリズムが「何を知らないのかを知る」ことができないベイズ化 ● 分からなさが分かる＝判断に自信がないことが分かることによって、（人間の）判断を挟むなどの対応が可能 ● 自信のある領域とない領域が分かることによって、自信のない領域周辺のデータを追加すれば、効果的に知識の探索ができる曖昧なところは確率分布が広がる参考：『ガウス過程と機械学習』

Slide 86

Slide 86 text

非統計的機械学習の限界と統計的機械学習による克服③ ● 解釈性が低い ○ どうしてそのような予測を行ったのかの根拠を示すことができない ○ 予測精度が高い場合に与えられたデータに過剰適合しているから予測精度が高いだけなのかが分からないベイズ化 ※（解釈性の低さを補うために XAI（＝AIを説明する技術）も注目されている）参考：須山敦志. 『ベイズ深層学習』 ● 統計学はモデリングを行うために、解きたい課題に合わせて分析者が自ら確率分布を使ったモデルの構築を行う必要があるため、何を仮定しているのかが明確 ○ 特にベイズ推論を行うためにはパラメータに対する事前分布を設定する必要もあり、パラメータに関して持っている知識を取り込むことができる

Slide 87

Slide 87 text

その他統計的機械学習の応用の方向性統計的機械学習には、機械学習の弱点を克服する以外にも、下記のような応用の方向性が存在する ● 既存の機械学習手法をベイズ的に解釈する ○ 例えば、深層学習における一部の計算技術はベイズ推論における計算技術と等価であることが知られている ■ 過剰適合を防ぐための正則化やドロップアウトといったテクニックは、ベイズ推論における変分推論法のある種の利用形態として捉えることができる ■ 深層学習とベイズの手法であるガウス過程には深い繋がりを示せることが知られている ● 機械学習アルゴリズムのベイズ推論への応用 ○ 例えば、ベイズ推論の事後分布をニューラルネットワークを用いて計算する方法（償却推論）がある参考：須山敦志. 『ベイズ深層学習』

Slide 88

Slide 88 text

統計的機械学習の今後参考：須山敦志. 『ベイズ深層学習』 ● マシンパワーの向上などにより課題が克服されてきたことで、社会実装されていく準備は整ってきたが、高度な数学的な知識を要するため、機械学習よりもさらに一段と普及は難しいだろう ● 近年、Stanに代表される確率的プログラミング言語が発展しており、PythonやRなどと組み合わせて（PyStan、Rstan）統計モデルを記述すれば、MCMCや変分推論などを自動的に実行することができるようになった ○ 機械学習に統計モデリングを組み合わせて実装することも容易になり、今後実用例も増えていくだろう ● 研究分野としては、しばらく統計学と機械学習の蜜月は続き、互いに他に良い影響を与えながら急速な発展を遂げていくだろう

Slide 89

Slide 89 text

まとめ

Slide 90

Slide 90 text

まとめ ● 機械学習とは、データの背後にある規則や構造をモデリングして予測を行うことに主眼が置かれている「目的フォーカス」な学問体系で、統計学とは、データの背後にある規則や構造をモデリングするのに確率論的アプローチを使うことに主眼が置かれている「手法フォーカス」な学問体系 ● 統計学的機械学習とは、統計学でもあり機械学習でもある学問分野であり、機械学習の弱点を克服しつつ、精度高い予測も可能である ○ 弱点の克服だけではなく、既存機械学習手法をベイズ的に解釈するような応用の方向性もある ● 統計学と機械学習は今後も互いに他に良い影響を与え合いながら急速に発展していくだろう