$30 off During Our Annual Pro Sale. View Details »

統計学と機械学習の違いと接点とは?

ueniki
May 26, 2022

 統計学と機械学習の違いと接点とは?

connpassで開催した勉強会『統計学と機械学習の違いと接点とは?〜統計・機械学習・統計的機械学習とは何か?〜』の内容スライドです。
アーカイブ動画はこちらです。)

--------------------------------
データサイエンスを学ばれている皆さんは、「統計学と機械学習の違いは何か?」と一度は疑問に思われたことがあるのではないでしょうか。
統計学と機械学習は、本来は非常に近しい学問であり、近年、共に大きな注目を集めているにも関わらず、ズバリ「統計学と機械学習の違いは何か?」に納得の行く答えを与えてくれる文献は多くはありません。
SNS上でたまに議論を目にすることもありますが、本当にそうだろうか?と思うような眉唾な議論も少なくありません。

そもそも統計学とは何でしょうか? 機械学習とは何でしょうか?
実は、こんな根本的な質問に答えるのも簡単ではないのです。

発表者(上野)が様々な文献をあたり、「そもそも統計学と機械学習とはなにか?」 「統計学と機械学習の違いは何か?」をまとめ、自分なりに分かりやすく解説します。

統計学と機械学習に入門したばかりの人も、これらの疑問を解決した上で統計学と機械学習を学べば、さらに理解も深まるでしょう。
ある程度統計学と機械学習を理解した人であっても、一度立ち止まって深く考えてみることで、新たな視点を手に入れることができるのではないでしょうか。
--------------------------------
参考文献
統計学入門
結局、統計モデリングとは何なのか

統計的機械学習入門
ベイズ推論による機械学習入門
しくみがわかるベイズ統計と機械学習

発展的統計的機械学習
ガウス過程と機械学習
ベイズ深層学習

ベイズモデリング
StanとRでベイズ統計モデリング
基礎からのベイズ統計学

# ベイズ主義 # ベイズ統計 # 統計入門 # 機械学習

ueniki

May 26, 2022
Tweet

More Decks by ueniki

Other Decks in Technology

Transcript

  1. 統計学と機械学習の違いと接点とは? 〜統計・機械学習・統計的機械学習とは何か?〜

  2. 上野彰大 1992年大阪府堺市生まれ・育ち 東京大学大学院農学生命科学研究科卒 YOJO Technologies取締役・エンジニア責任者 自己紹介 Twitter:@ueeeeniki

  3. • section0:この勉強会のモチベーションとゴール • section1:統計学とは何か? • section2: 機械学習とは何か? 統計学と機械学習の違いは何か?(←本題) 統計的機械学習とは何か? •

    section3:なぜ統計的機械学習が必要なのか? アジェンダ
  4. 参考・オススメ文献 • 統計的機械学習入門 ◦ ベイズ推論による機械学習入門 ◦ しくみがわかるベイズ統計と機械学習 ◦ 統計的学習理論 ◦

    統計的機械学習 ―生成モデルに基づくパターン認識 ◦ 統計的機械学習ことはじめ : データ分析のセンスを磨くケーススタディと数値例 • 発展的統計的機械学習 ◦ ガウス過程と機械学習 ◦ ノンパラメトリックベイズ 点過程と統計的機械学習の数理 ◦ ベイズ深層学習 • ベイズモデリング ◦ データ解析のための統計モデリング入門 ――一般化線形モデル・階層ベイズモデル・ MCMC ◦ StanとRでベイズ統計モデリング ◦ 階層ベイズモデルとその周辺 ―時系列・画像・認知への応用
  5. 推奨する前提知識 • 下記については補足をするが、ある程度の知識があることが望ましい ◦ 機械学習の基礎知識 ◦ 頻度主義統計学の基礎知識 ◦ ベイズ主義統計学の基礎知識 ◦

    高校程度の数学知識 • 仮に詳細が理解できない箇所があったとしても、議論の大枠を理解することは可能 です
  6. この勉強会のモチベーションとゴール

  7. なぜやろうと思ったか?(動機・目的) • 統計と機械学習は、同じ「データに潜む規則や構造を抽出することによって、現象 の理解や未知の現象に対する予測を行う」(『ベイズ推論による機械学習』『Stanと Rでベイズ統計モデリング』改)ための学問であるにも関わらず、別の学問とみなさ れているのは何故か、何が違うのかが気になって夜も眠れない • 統計と機械学習の融合分野である「統計的機械学習」の文献は多々あれど、「そも そも統計と機械学習はどう違うのか?」について解説した文献はあまりない •

    統計学好きな自分にとっては、「機械学習は人気があるけど、統計学は人気なくて 悲しい、なぜだろうか?」という思いもある 笑
  8. 「統計的機械学習」という融合分野 • 有名な『パターン認識と機械学習(ベイズ理論による統計的予測)』(通称、PRML) は、副題がベイズ理論による統計的予測であり、統計的機械学習の本 ◦ 近年、統計的機械学習が注目されている • 統計的機械学習とは、『統計的手法を用いて機械学習をする = 統計モデリングの

    アプローチを機械学習タスクに適応させる手法』 ◦ 統計学でもあり、機械学習でもある のが統計的機械学習 ◦ 統計学は、「〇〇統計学」(ex. 生物統計学、心理統計学)「統計〇〇学」(ex. 統計力学)「ex. 統 計的〇〇」(統計的機械学習、統計的因果推論)というような融合ワード?の多い学問
  9. 統計学と機械学習が歩んできた道に着目する • ある学問が流行る時というのは、その学問による世界の見方が、そのときの社会 の疑問を解決してくれたり、その見方をすることによって多くの人が利益を得られる とき • この発表では、統計学と機械学習が科学の発展にとってなぜ必要だったのか?こ こまで持て囃されているのはなぜか?に着目し、 各々の学問がなぜ別々の道を経て発展してきたのか?、なぜまた融合しようとして るのか?まで明らかにする

  10. 統計学とは何か?

  11. • 統計学とは何か、統計モデリングとは何か? • ベイズ主義統計学入門 • 統計モデリングの注意点 • まとめ section1のアジェンダ

  12. • 統計学とは何か、統計モデリングとは何か? • ベイズ主義統計学入門 • 統計モデリングの注意点 • まとめ section1のアジェンダ

  13. 統計学と機械学習の共通点 • 統計学も機械学習も「データに潜む規則や構造を抽出する(モデリングする)ことに よって、① 現象の理解や②未知の現象に対する予測を行う」ことが目的である 規則や構造を抽出 =モデル化する ②未知の現象に対する予測を行う ① 現象を理解する

  14. 統計学とは何か? • データに潜む規則や構造を抽出する(モデリングする)ことによって、現象の理解や 未知の現象に対する予測を行う 規則や構造を抽出 =モデル化する ②未知の現象に対する予測を行う 統計モデリング ① 現象を理解する

    • 確率分布を用いてデータに潜む規則や構造を抽出する(= 統計モデリング する)ことに よって、現象の理解や未知の現象に対する予測を行う ◦ 統計学の特徴は「統計モデリング」をして、現象の理解や未知の現象に対する予測を行うという こと
  15. データを抽出 母集団 標本 頻度主義

  16. データを抽出 母集団 標本 頻度主義

  17. モデル化 データを抽出 母集団 標本 ① 標本分布の形が正規分布のような 形をしていると評価する 頻度主義

  18. 「真の」統計モデル 正規分布 モデル化 データを抽出 母集団 標本 ① 標本分布の形が正規分布のような 形をしていると評価する ②

    母集団の分布も正規分布なのでは ないかと仮定 = モデリングする 頻度主義 μ σ2
  19. 「真の」統計モデル 正規分布 モデル化 ③ 標本から母集団のモデルのパラメータ(ここでは平 均と分散)を推定 推定された統計モデル 正規分布 データを抽出 母集団

    標本 ① 標本分布の形が正規分布のような 形をしていると評価する ② 母集団の分布も正規分布なのでは ないかと仮定 = モデリングする 頻度主義 μ σ2 μ* σ*2
  20. 「真の」統計モデル 正規分布 モデル化 推定された統計モデル 正規分布 データを抽出 母集団 標本 完 全

    に 一 致 は し な い ① 標本分布の形が正規分布のような 形をしていると評価する ② 母集団の分布も正規分布なのでは ないかと仮定 = モデリングする ③ 標本から母集団のモデルのパラメータ(ここでは平 均と分散)を推定 頻度主義 μ* σ*2 μ σ2
  21. なぜ推測統計が必要とされるのか? • 統計学は、科学的実験手法に確率論的解釈を与えることで、19世紀後半〜20世 紀以降の科学の発展を支えてきた「縁の下の力持ち的学問」 ◦ 現代統計学の金字塔となったR.A.Fisherの本の名は『研究者のための統計的方法』 ◦ 例えば、実験心理学では、心理学に実験とその結果の統計学的な分析を導入することで、そ れまでの哲学的な心理学とは異なる実証的な心理学という境地を拓いた (実験心理学の父

    ヴィルヘルム・ヴント は、「新しい学問分野として心理学」を成立したとされ る) • 観察・実験・調査を用いた経験主義的な科学に確率という道具を用いて納得感を 付与している = 科学を科学的たらしめている ◦ 例えば、検定は、Aの母集団とBの母集団のパラメータが違うかどうかを手元のサンプルから 推定する分析手法のこと
  22. 記述統計 頻度主義推測統計 ベイズ主義推測統計 推 測 し な い 推 測

    す る 統計学の分類 推測統計 これまで話して 来たところ
  23. • 統計学とは何か、統計モデリングとは何か? • ベイズ主義統計学入門 • 統計モデリングの注意点 • まとめ section1(統計学とは何か?)アジェンダ

  24. 記述統計 頻度主義推測統計 ベイズ主義推測統計 推 測 し な い 推 測

    す る 統計学の分類 推測統計 これからメインで 話すところ これまで話して 来たところ
  25. 頻度主義の限界とベイズ主義の台頭 • 20世紀の統計学の主流は頻度主義だったが、現代では統計学の著名学術誌の過半数はベ イズ主義の立場を取っているとも言われている(『基礎からのベイズ統計学』) • 頻度主義統計の最も便利なツールである「統計学的仮説検定」の「 p値」「有意性」が批判にさ らされており、ベイズ主義が台頭してきた ◦ 統計の誤解と濫用や「p値至上主義」を憂慮しp値の6原則を発表したASAの声明に対する統計学徒の素人意見

    
 ◦ 「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明に対する 某データサイエンティストのブログの声明に対する素人()の声明 
 ◦ 統計学的な有意性検定の意味のなさ • 一方で、どちらが正しい主義かという問いに意味はなく、好きな主義と好きな方法を使うこと ができる(『統計学入門 「主義」を心配するみなさまに』) 参考:統計初心者がベイズ統計学に入門するまでの勉強法
  26. ベイズ推論の導入 • この発表で今後統計学とは、主にベイズ推論を行うベイズ主義統計学のことをいう • ベイズ推論とは、ベイズの定理を用いて得られたデータから背景のパラメータ(母 集団の平均や分散など)の確率分布(事後分布)を推論すること ベイズの定理 パラメータ データ 事後分布

  27. 尤度関数 ベイズの定理 θをパラメータ、Dを観測したデータであるとすると、 同時分布は条件付き確率を使って以下のように2通りに書ける これら2つの式を結んで式変形すると 事前分布 事後分布 θ:パラメータ、D:データ 背景と結果が 入れ替わっている

  28. 事前分布・尤度関数・事後分布 ベイズの定理は、「背景パラメータθから結果Dが得られる確率p(D|θ)から、結果Dが得 られたときのパラメータθの確率p(θ|D)を逆計算する手続き」と言える 背景と結果が 入れ替わっている 尤度関数 事前分布 事後分布 例として、二項分布によるバスケットのフリースロー(パラメータ=入る確率 θ)を考える

    Dとして、Aさんが10回フリースローをして7回入ったという事象が観測できているとする。 • 事前分布:データを観測する前のパラメータの主観確率 例ーAさんのフリースローの入る確率を事前にどの程度と仮定するかという θの確率分布 • 尤度関数:あるパラメータのもとで観測したデータが発生する確率 例ー入る確率をθとしたときにDが起こる(10回中7回入る)確率は、 10 C 7 θ7(1−θ)3 ← θの関数 • 事後分布:データを観測した後のパラメータの確率分布。本来の時間の流れは θを元にDが発生すると いう流れであり、時間の流れに逆らった計算を行うので逆確率とも言う。 例ーD(10回中7回入った)を観測した後に更新される θの確率分布
  29. 事前分布とベイズ統計学への批判 • 事前分布を主観的に決める必要があり、一歩間違えるとデータ分析における科学的客観性を本質 的・根本的に脅かす ◦ R.A.Fisherの『研究者のための統計的方法』の中では「逆確率の理論(=ベイズ理論)はある誤謬の上に立脚 するものであって、完全に葬り去らなければならないのである」と全否定されている • 一方で、Fisherは、「観測上の根拠が前もって存在するような場合 を除くと、逆確率の方法では、既

    知の標本が取り出された母集団に関する推論を、確率的に表現することはできない」とも述べてお り、観測上の根拠が存在する場合にはベイズの定理の使用を認めている ◦ 観測上の根拠が前もって存在するような場合(検診では有病率が事前に知られている場合、迷惑メールフィル ターでは、迷惑メールに該当の言葉が含まれている確率など)には使える • できる限り主観を排するため、定義域の大きい一様分布や分散が非常に大きい正規分布など のできる限り事後分布に影響を与えない無情報事前分布を用いることが多い 参考:豊田秀樹. 『基礎からのベイズ統計学』
  30. 周辺化とベイズの定理 のように一方の変数を積分によって除去する操作を周辺化と呼び、ベイズの定理に代 入すると、次の等式を導くことができる 尤度関数 事前分布 モデルエビデンス 事後分布 θ:パラメータ、D:データ

  31. 事後分布の求め方 一般的にモデルエビデンス を解析的に解くことは不可能。 そこで、 という性質を利用し、マルコフ連鎖モンテカルロ法(MCMC)や変分推論法を用いて近似 計算を行うことが可能である θ:パラメータ、D:データ から導かれる

  32. データを抽出 母集団 標本 ベイズ主義

  33. モデル化 データを抽出 母集団 標本 ① 標本分布の形が正規分布のような 形をしていると評価する ベイズ主義

  34. 「真の」統計モデル 正規分布 モデル化 データを抽出 母集団 標本 ① 標本分布の形が正規分布のような 形をしていると評価する ②

    母集団の分布も正規分布なのでは ないかと仮定 = モデリングし、 事前分布p(θ)を設定する μ σ2 μ事前分布 σ事前分布 ベイズ主義
  35. 「真の」統計モデル 正規分布 モデル化 データを抽出 母集団 標本 ③ 標本から尤度関数p(D|θ)を計算して母集団のモデルのパラメータ (ここでは平均μと標準偏差σ)の事後分布p(θ|D)を推定 μ

    σ2 μ事後分布 σ事後分布 μ事前分布 σ事前分布 ② 母集団の分布も正規分布なのでは ないかと仮定 = モデリングし、 事前分布p(θ)を設定する ① 標本分布の形が正規分布のような 形をしていると評価する ベイズ主義
  36. 「真の」統計モデル 正規分布 モデル化 データを抽出 母集団 標本 μ σ2 パラメータを値で 推定するのではなく、

    分布を推定する μ事後分布 σ事後分布 μ事前分布 σ事前分布 ② 母集団の分布も正規分布なのでは ないかと仮定 = モデリングし、 事前分布p(θ)を設定する ① 標本分布の形が正規分布のような 形をしていると評価する ③ 標本から尤度関数p(D|θ)を計算して母集団のモデルのパラメータ (ここでは平均μと標準偏差σ)の事後分布p(θ|D)を推定 ベイズ主義
  37. 事後分布による点推定 ベイズ主義でも事後分布からパラメータを点推定することは可能 事後分布 MAP EAP • 事後中央値MED MED • 事後確率最大値MAP

    • 事後期待値EAP
  38. ベイズ主義における2群の平均値差の推測 • 頻度主義統計学における統計的仮説検定のp値とは、「帰無仮説が正しいと仮定 する時、手元のデータ以上に甚だしい状況が生じる確率」というもってまわったよう な分かりにくい確率(『基礎からのベイズ統計学』) • ベイズ主義においては、頻度主義における統計的仮説検定の代わりに、2群(もしく は複数群)の平均値に差がある確率を直接的に推測することが可能になる ◦ これがベイズ主義統計学を使用する場合の大きな利点の一つである

  39. データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 例 • A:弱い光を当てて育てた植物の重さ B:強い光を当てて育てた植物の重さ

    ベイズ主義
  40. モデル化 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 モデル化 例 •

    A:弱い光を当てて育てた植物の重さ B:強い光を当てて育てた植物の重さ ベイズ主義
  41. モデル化 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 モデル化 ベイズ主義 標本からそれぞれの母集団のモデルのパラメータ

    (ここでは平均μ(標準偏差σはおいておく))の事後分布p(θ|D)を推定 μ A 事後分布 μ B 事後分布
  42. ベイズ主義 μ A 事後分布 μ B 事後分布 μ 1A μ

    1B μ 2A μ 2B μ nA μ nB ・・・ ・・・ 比較 比較 比較 μ iB の方が大きい確率を 直接計算できる
  43. なぜベイズ主義統計学の発展が遅れてしまったのか • 歴史的には、主義論争に巻き込まれて、大勢派から弾圧されていた ◦ R.A.Fisherの『研究者のための統計的方法』の中でも「完全に葬り去らなければならないのであ る」と全否定されている • (弾圧理由①)事前分布を主観的に決める必要があり、一歩間違えるとデータ分析に おける科学的客観性を本質的・根本的に脅かす ◦

    この問題は根本的には解決していないが、できる限り無情報的事前分布を使用することで論争 を一定回避することは可能(決定的な立場はまだない) • (弾圧理由②)事後分布の計算には高次元の積分計算が含まれており、解析的には 解けない ◦ MCMC、変分推論法などの近似計算にもかなりの計算力が必要だが、マシンパワーの向上によ り十分に可能になった 参考:豊田秀樹. 『基礎からのベイズ統計学』
  44. • 統計学とは何か、統計モデリングとは何か? • ベイズ主義統計学入門 • 統計モデリングの注意点 • まとめ section1のアジェンダ

  45. 統計モデリングを行う上での注意 • 統計モデリングは、あくまで確率的にモデリングしているにすぎず、現象の裏側(母 集団)の想像はしているが、現象の原因や生起システムについては何も述べてい ない ◦ 因果関係が同時に推定できるというのはよくある誤解 ◦ 因果関係を推定するには、統計的因果探索で使われるような因果関係推定用の手法が必要 •

    統計モデリングを分析者が自ら行わなければならないのが統計学の難しさ • どれだけ多くのデータを集めても、母集団の分布を完全に理解できるということは ないし、モデリングの過程で分析者の主観・仮定が入り込む ◦ 統計学を用いた研究とは、限られたサンプルに対して、正しく統計学的に推察しているのか?前提 は妥当か?なども含めて、人々が納得できるかどうかで合意形成していくプロセス ◦ 不正や嘘でなくても、導いた結論が間違っている可能性は十分にある
  46. 統計学は説明のためだけの学問だという勘違い • よくある統計学と機械学習の違いの説明に「統計学は説明するための学問」「機械学 習は予測するための学問」というのがあるが、これはかなり雑な説明 • そもそもなぜ人々が統計学的説明に意義を感じるのかといえば、そのパーツである 確率論が”未来”をスコープにしているから ◦ 「男性の方が女性よりも身長が高い」という観測に基づく仮説は、将来に渡って何度サンプルを 取り出して平均しても大抵そうである(=確率が高い)からこそ意義がある

    ◦ 未来に起こることも確率的に説明しようとするからこそ、事象を統計学的に解釈することに意味 があるので、予測なしに統計学に価値はない
  47. • 統計学とは何か、統計モデリングとは何か? • ベイズ主義統計学入門 • 統計モデリングの注意点 • まとめ section1のアジェンダ

  48. まとめ • 統計学は、統計モデリングによってデータに潜む規則や構造を抽出し、現象の理解 や未知の現象に対する予測を行う • 統計学によって、現象の背景の確率的説明が可能になり、様々な科学の分野で実 験結果の比較などの統計学的手法が広まった • 統計学には頻度主義とベイズ主義という2つの立場が存在するが、どちらか一方の みが正しいということはない

    ◦ 近年はベイズ主義統計学の分析例が増えてきたのは事実 • 統計モデリングは分析者が自ら行わなければならず、(頻度主義・ベイズ主義に関 わらず)どうしても分析者の主観・仮定が入り込む
  49. 機械学習とは何か? 統計学と機械学習の違いは何か? 統計的機械学習とは何か?

  50. • 機械学習とは何か?統計学と機械学習との違い • 非統計的機械学習と統計的機械学習のアプローチの違い • まとめ section2のアジェンダ

  51. • 機械学習とは何か?統計学と機械学習との違い • 非統計的機械学習と統計的機械学習のアプローチの違い • まとめ section2のアジェンダ

  52. 機械学習とはなにか? • 「データに潜む規則や構造を抽出することによって、現象の理解や未知の現象に対 する予測を行う」が、必ずしも統計モデリングを行う必要はない ◦ モデルはどのようなアルゴリズムを使っていてもよく( ディープラーニング、ニューラルネットワーク、 ランダムフォレスト、ロジスティック回帰 etc、、、)、これらのアルゴリズムを統計モデリングの枠組み で説明できる必要はない

    • 統計的機械学習とは、統計的手法を用いて機械学習をする = 統計モデリングの アプローチを機械学習タスクに適応させる手法 ◦ 一般的な機械学習の入門書で目にするようなアルゴリズム( ディープラーニング、ニューラルネット ワーク、ランダムフォレスト、ロジスティック回帰 etc)は「非統計的機械学習」だと言える
  53. 統計学と機械学習の違いと接点 • 統計学とは、データの背後にある規則や構造をモデリングするのに確率論的アプ ローチを使う(=統計モデリングする)ことに主眼が置かれている「手法フォーカス」 な学問体系であり、 機械学習とは、データの背後にある規則や構造をモデリングして予測を行うことに 主眼が置かれている「目的フォーカス」な学問体系である ◦ だから、統計学でもあり機械学習でもある 「統計的機械学習」という融合分野が存在し得

    る • 機械学習では、予測精度を高めるためにモデルのパラメータを学習して特定の値 でストップするが、統計的機械学習では、パラメータの値ではなく事後分布p(w|D) を学習する ◦ 現代では、統計的機械学習はベイズ主義の立場で扱うことが多い
  54. • 機械学習とは何か?統計学と機械学習との違い • 非統計的機械学習と統計的機械学習のアプローチの違い • まとめ section2のアジェンダ

  55. 機械学習

  56. 機械学習

  57. 機械学習

  58. 機械学習

  59. 機械学習

  60. 機械学習

  61. 機械学習

  62. 機械学習

  63. 機械学習

  64. 機械学習

  65. 機械学習

  66. 機械学習

  67. 機械学習

  68. 識別問題・ニューラルネットワークまとめ • 教師あり機械学習の識別問題は、Xを入力してYを出力し、全データの識別率を高 めるために勾配降下法によって損失関数が最小化になるWを求める問題に帰着さ せられる ◦ 設定する損失関数と、損失関数を最小化するアルゴリズムは機械学習アルゴリズムに よって異なる 機械学習

  69. • 教師あり機械学習の識別問題は、Xを入力してYを出力し、全データの識別率を高 めるために勾配降下法によって損失関数が最小化になるWを求める問題に帰着さ せられる ◦ 設定する損失関数と、損失関数を最小化するアルゴリズムは機械学習アルゴリズムに よって異なる ベイジアン・ニューラルネットワーク 統計的機械学習 •

    パラメータに事前分布p(W)を設定し、与えられた教師データから事後分布p(W|X, Y)を学習する問題に帰着させることができる ◦ p(W|X, Y)を近似的に学習する方法として、ラプラス近似、 MCMC、変分推論法などが知 られてる ベイズ化
  70. 統計的機械学習

  71. 回帰とは

  72. 回帰問題の機械学習的アプローチ 回帰とは下記のようなデータから入出力関係 を学習する 問題である 最も簡単なモデルとして、 を想定すると、パラメータ を獲得する問題だと言える x y

  73. 回帰問題の機械学習的アプローチ:パラメータの学習 データ空間 パラメータ空間 損失関数として、二乗誤差の総和 が最小となるように パラメータ を求める x y w

    2 w 1
  74. 回帰問題のベイズ主義アプローチ 回帰モデル において、 誤差εの確率分布p(ε)を仮定すれば、条件付き確率分布p(y|x, w)を仮定したことになる パラメータの最適化問題は、ベイズ主義の枠組みで最適な事前分布p(w)を仮定して、 事後分布p(w|x, y)を学習する問題になる x y

  75. x y w 2 w 1 x y w 2

    w 1 データ空間 パラメータ空間 事後分布にもとづく回帰モデル パラメータwの事後分布p(w|x,y) 事前分布にもとづく回帰モデル パラメータwの事前分布p(w) 事前 事後
  76. 予想分布 学習されたwの分布を使って、新しい入力値x * に対する未知の出力値y * に関する予測 分布は x y 事後分布にもとづく回帰モデル

    事後 x * } 事後分布 MAP EAP MED y * となり、あらゆるwに対して予測モデル の事後分布 による 重み付き平均を計算しているイメージになる 直線が引きたければ点推定すればいい y *
  77. 教師あり学習へのベイズ主義アプローチ • 教師あり機械学習の識別・回帰問題は、Xを入力してYを出力し、全データの識別 率を高めるために勾配降下法によって損失関数が最小化になるWを求める問題に 帰着させられる ◦ 設定する損失関数と、損失関数を最小化するアルゴリズムは機械学習アルゴリズムに よって異なる • パラメータに事前分布p(W)を設定し、与えられた教師データから事後分布p(W|X,

    Y)を学習する問題に帰着させることができる ◦ p(W|X, Y)を近似的に学習する方法として、ラプラス近似、 MCMC、変分推論法などが知 られてる ベイズ化
  78. • 機械学習とは何か?統計学と機械学習との違い • 非統計的機械学習と統計的機械学習のアプローチの違い • まとめ section2のアジェンダ

  79. まとめ • 機械学習は予測するという目的フォーカスの学問体系であり、統計学は統計モデリ ングするという手段フォーカスの学問体系である • 統計学でもあり、機械学習でもある統計的機械学習という分野が注目されている • 機械学習は、予測精度を高めるためのパラメータのWの値を求めるが、統計的機 械学習では、与えられたデータからパラメータの事後分布p(W|D)を求める

  80. なぜ統計的機械学習が必要なのか?

  81. 機械学習がなぜここまで流行しているのか • 未知の現象の予想とは人類の夢である ◦ 資本主義では、予測した人は利益を得えて、さらにうまく予測できることに投資をすること ができるという循環が起こる • 従来の機械学習では、様々な欠点(後述)には目をつむり、予想さえできればいい という割り切った考え方をする ◦

    統計学のように難しいことを考えずにとりあえず予測できればいいんでしょ?という分かり やすさが、機械学習がウケている大きな要因だと考えている(笑) • 予測精度の高い機械学習アルゴリズムは使いつつ、統計モデリングの手法を導入 することで、機械学習の良さと統計学の良さをミックスさせたのが統計的機械学習 ◦ 多くの機械学習アルゴリズムで統計モデリングを導入することは可能
  82. 非統計的機械学習の限界 • データが膨大に必要、過学習が起こる、不確実性を扱うのが苦手、解釈性が低い、 etc..などの機械学習の限界(後ほど詳述)も認知されており、それを乗り越えるため に統計学的手法を導入する ビッグデータが必要 解釈性が低い 不確実性を扱うのが苦手 規則や構造を抽出 =モデル化する

    ②未知の現象に対する予測を行う 統計モデリング ① 現象を理解する
  83. 非統計的機械学習の限界と統計的機械学習による克服 • ①データが膨大に必要、過学習が起こる ◦ 精度が高い複雑なモデルでは、パラメーターの数が膨大であり、このようなデータに過剰適合せず に学習させるには、大量のデータが必要となる • ②不確実性を扱うのが苦手 ◦ 予測アルゴリズムが「何を知らないのかを知る」ことができない

    • ③解釈性が低い ◦ どうしてそのような予測を行ったのかの根拠を示すことができない
  84. • データが膨大に必要 ◦ 精度が高い複雑なモデルでは、パラメータの数が膨大であり、このようなデータに過剰適合せずに 学習させるには、大量のデータが必要となる ◦ 例えば、ガン診断の画像データのような専門家の手によるラベル付けが必要なものやでは、ラベル 付きデータの収集に非常にコストがかかる場合もある • 過学習が起こる

    ◦ 機械学習は統計学のように目の前のデータの背景知識を汲み取っているわけではなく、目の前の データにフィットしようとするので、本質的に過学習することは織り込み済みの手法 非統計的機械学習の限界と統計的機械学習による克服① • 学習した後もパラメータの事後分布は一定のゆらぎを持っている ◦ データが増えれば増えた分だけ、事後分布は確からしくはなる ◦ 統計学はもともと少ないデータから背景知識をゆらぎを許して想像するための学問 ベイズ化
  85. 非統計的機械学習の限界と統計的機械学習による克服② • 不確実性を扱うのが苦手 ◦ 学習時に現れなかった入力や、与えられたデータのみでは判断するための情報が本質的に 足りてないような状況において、一般的な機械学習は一定の自信で何かしらの出力を出して しまう ◦ 予測アルゴリズムが「何を知らないのかを知る」ことができない ベイズ化

    • 分からなさが分かる=判断に自信がないことが分かることによって、(人間の)判断を挟むなどの対 応が可能 • 自信のある領域とない領域が分かることによって、自信のない領域周辺のデータを追加すれば、効 果的に知識の探索ができる 曖昧なところは確率分布が広がる 参考:『ガウス過程と機械学習 』
  86. 非統計的機械学習の限界と統計的機械学習による克服③ • 解釈性が低い ◦ どうしてそのような予測を行ったのかの根拠を示すことができない ◦ 予測精度が高い場合に与えられたデータに過剰適合しているから予測精度が高いだけな のかが分からない ベイズ化 ※(解釈性の低さを補うために

    XAI(=AIを説明する技術)も注目されている) 参考:須山敦志. 『ベイズ深層学習』 • 統計学はモデリングを行うために、解きたい課題に合わせて分析者が自ら確率分 布を使ったモデルの構築を行う必要があるため、何を仮定しているのかが明確 ◦ 特にベイズ推論を行うためにはパラメータに対する事前分布を設定する必要もあり、パラ メータに関して持っている知識を取り込むことができる
  87. その他統計的機械学習の応用の方向性 統計的機械学習には、機械学習の弱点を克服する以外にも、下記のような応用の方向 性が存在する • 既存の機械学習手法をベイズ的に解釈する ◦ 例えば、深層学習における一部の計算技術はベイズ推論における計算技術と等価である ことが知られている ▪ 過剰適合を防ぐための正則化やドロップアウトといったテクニックは、ベイズ推論における変

    分推論法のある種の利用形態として捉えることができる ▪ 深層学習とベイズの手法であるガウス過程には深い繋がりを示せることが知られている • 機械学習アルゴリズムのベイズ推論への応用 ◦ 例えば、ベイズ推論の事後分布をニューラルネットワークを用いて計算する方法(償却推論)がある 参考:須山敦志. 『ベイズ深層学習』
  88. 統計的機械学習の今後 参考:須山敦志. 『ベイズ深層学習』 • マシンパワーの向上などにより課題が克服されてきたことで、社会実装されていく準 備は整ってきたが、高度な数学的な知識を要するため、機械学習よりもさらに一段と普及は難 しいだろう • 近年、Stanに代表される確率的プログラミング言語が発展しており、PythonやRなど と組み合わせて(PyStan、Rstan)統計モデルを記述すれば、MCMCや変分推論な

    どを自動的に実行することができるようになった ◦ 機械学習に統計モデリングを組み合わせて実装することも容易になり、今後実用例も増え ていくだろう • 研究分野としては、しばらく統計学と機械学習の蜜月は続き、互いに他に良い影響 を与えながら急速な発展を遂げていくだろう
  89. まとめ

  90. まとめ • 機械学習とは、データの背後にある規則や構造をモデリングして予測を行うことに 主眼が置かれている「目的フォーカス」な学問体系で、 統計学とは、データの背後にある規則や構造をモデリングするのに確率論的アプ ローチを使うことに主眼が置かれている「手法フォーカス」な学問体系 • 統計学的機械学習とは、統計学でもあり機械学習でもある学問分野であり、機械 学習の弱点を克服しつつ、精度高い予測も可能である ◦

    弱点の克服だけではなく、既存機械学習手法をベイズ的に解釈するような応用の方向性もある • 統計学と機械学習は今後も互いに他に良い影響を与え合いながら急速に発展して いくだろう