Save 37% off PRO during our Black Friday Sale! »

確率統計 - 機械学習その前に -

31b9c72bb29c5bbbeb6780f982c4350f?s=47 Hidekatsu Izuno
November 20, 2021

確率統計 - 機械学習その前に -

以前公開した確率統計の勉強会資料について、その後得た知見を元に内容を更新したものです。
間違っている記述を見つけた際はご指摘頂ければ幸いです。

旧バージョン:https://www.slideshare.net/HidekatsuIzuno/v20-91382793

主な更新内容
- Twitter でご連絡頂いた指摘の反映
- 対数変換、誤差が正規分布でない場合の対応を追加
- 統計的因果推論についての記述を追加

31b9c72bb29c5bbbeb6780f982c4350f?s=128

Hidekatsu Izuno

November 20, 2021
Tweet

Transcript

  1. 確率統計 -機械学習その前に- 伊津野 英克 hidetkatsu.izuno@gmail.com Version 2.2.0

  2. なぜ確率統計を学ぶのか ⚫システム開発に確率統計なんて使うの? 1. プロジェクトやログデータの分析 ⚫必要になったときにトンチンカンな分析をしてしま わないように最低限の理解は必要 2. 機械学習の基礎として ⚫機械学習と確率統計はベースが同じ ⚫線形回帰だって立派な機械学習のひとつ

    2
  3. 確率統計・機械学習の違い ⚫確率統計:主にデータを「説明」する手法 ⚫ 例:あるシステムは10人月で出来た。開発工数は一般的なレベルだろうか ⇒ そのデータになる原因が知りたい(因果関係を知りたい) ⚫機械学習:主にデータを「予測」する手法 ⚫ 例:あるシステムは10人月で出来た。別のシステムは何人月だろうか ⇒

    未知のデータに対応できて欲しい(因果関係までは不要) 3 データがあらわれた。どうする? とはいえ、道具立てには重なるところが多い
  4. 説明と予測の違い ⚫説明=因果関係を明らかにする ⚫原因がわかる必要がある ⚫ 例:売上が下がった原因は、安価な他社製品が発売されたから ⚫予測=回帰関係※を明らかにする ⚫必ずしも原因はわからなくてもいい ⚫ 例:夏になると売上が上がるので、この時期に注力しよう ⚫相関関係<回帰関係※<因果関係

    ⚫ 因果関係がわかるのが理想だけど「データのみから因果関係を判別 できるような統計的手法は存在しない」 ⚫ 「関係がないわけではなさそう」を数学を使って判断する 4 ※岩崎学 統計的因果推論の視点による重回帰分析(https://www.jstage.jst.go.jp/article/jjssj/50/2/50_363/_pdf)
  5. データを要約する 5

  6. 平均値・中央値・最頻値 ⚫データの要約値としては平均値がよく使われる ⚫正規分布するなら平均値≒中央値≒最頻値 ⚫中央値=データを順番に並べて中央に位置する値 ⚫正規分布しないものは中央値の方が実感に近いとされる 6 正規分布の例 (中央値と平均値と最頻値がほぼ同じ) 0 5

    10 15 20 25 30 35 0 500 1000 1500 2000 2500 3000 割合(%) 資産額(万円) 保有金融資産額 最頻値=0 中央値=400 平均値=1078 0 1 2 3 4 5 6 7 8 150 155 160 165 170 175 180 185 190 人数割合(%) 身長 17歳男子身長 最頻値=170 中央値=169 平均値=171 非正規分布の例 (中央値と平均値と最頻値が全然違う) ※このようにデータを要約して分析することを「記述統計」と呼びます。
  7. なぜ正規分布はよく使われるのか ⚫ある値を中心にランダムなばらつきがある⇒正規分布 ⚫ 中心極限定理:繰り返すと平均の分布が正規分布に近づいていく ⚫ 大数の法則:繰り返すと理論上の平均値に近づいていく ⚫ 大成功した翌年に調子を崩す、大失敗した翌年は奮起した、という ようなケースは実際にはこれかもしれない ⚫情報がない場合には正規分布(や一様分布)が仮定される

    ⚫ 意図がない⇒偏りがない⇒ランダムな分布 ⚫ 統計手法には中心極限定理を理由に正規分布が仮定されているもの も多い(例:回帰分析、仮説検定) ⚫ 実際には正規分布を仮定できない場合も多い。例えば、システム開 発の工数は上がりやすく、下がりにくいので誤差が正規分布に従わ ない。 7
  8. データの関係を調べる 8

  9. 相関分析 ⚫相関係数:平均値から各点の乖離を足し合わせて、-1~1の範囲 に正規化したもの ⚫ 1に近いほどプラス方向に強い関係 ⚫ -1に近いほどマイナス方向に強い関係 ⚫ 0は無相関 9

    2変数の関係を簡単に分析できる 永岡 淳一 散布図と相関係数・回帰分析(http://www.cuc.ac.jp/~nagaoka/2011/ouyou/10/expr/index.html)より引用
  10. 相関が大きい=因果関係がある? ⚫高い相関係数のデータが見つかる⇒因果関係があるのでは? 10 「科学・宇宙技術への投資金額」と「自殺率」の関係を示したデータ ⇒ 単なる偶然! Spurious Correlations(http://www.tylervigen.com/spurious-correlations)より引用

  11. 相関が大きい=因果関係がある? 相関関係は因果関係を意味しない ⚫隠れた共通要因 ⚫ アイスクリームが売れると水死者が増える ⇒ 「暑い夏」という共通要因 ⚫ 朝食を食べる子供は成績がいい ⇒

    「良好な家庭環境」という共通要因 ⚫逆の因果関係 ⚫ 会社への満足度が高いほど業績も好調 ⇒ 業績が好調な職場自体が高い満足度をもたらす ⚫ 癌での死亡率が増加している! ⇒ 他の病気で死ぬ人が減って長生きになったため ⚫選択バイアス ⚫ サッカー場でスポーツ振興についてのアンケートを取る ⇒ 母集団にすでに偏りがある ⚫ データ個数が少ない ⇒ 一部の特徴あるサンプルに強い影響を受ける ⚫単なる偶然 11
  12. 回帰分析 ⚫例えば、機能数と工数の間の関係を調べたい ⚫散布図を書いて線を引く ⇒ (単)回帰分析 ⚫誤差の2乗和が最小になるように線を動かす 12 0 50000 100000

    150000 200000 250000 300000 350000 400000 450000 500000 0 200 400 600 800 1000 人時工数 機能数 機能数と工数の関係 0 50000 100000 150000 200000 250000 300000 350000 400000 450000 500000 0 200 400 600 800 1000 人時工数 機能数 機能数と工数の関係 「回帰」分析の語源 身長の高い親からは身長の高い子が生まれ、その逆も同様であることを示そうとしたら実際には 「平均に帰っていく」、すなわち「平均への回帰」が見られたことに由来するとのこと。 データは「ソフトウェア開発データ白書2016-2017」を加工したもの
  13. 回帰分析でわかること ⚫傾きと切片 ⚫ 結果=傾き✕原因+切片 ⚫ 原因=説明変数、結果=目的変数、傾きは係数、切片は定数項と呼ばれる ⚫ 先ほどの例だと「人時工数=97✕機能数+25000 」 ⚫

    切片は常に0と仮定し原点を通る前提で求めることも出来る 傾きや切片はEXCELを使うと簡単に求められる。 ⚫決定係数(R2) ⚫ 分散に対する影響の割合(寄与率)。1に近いほど当てはまりはいい ⚫ おおむね相関係数の2乗と捉えていい(厳密にはいろいろある) ⚫ 先ほどの例だと R2 = 0.08 ⇒ 当てはまりは良くない 決定係数もEXCELで簡単に求められる ⚫有意性(p値) ⚫ 効果がないのに効果があるとしてしまっていないかを判断する指標値。小さいほど有 意性が高い。 ⚫ 一般に p値<0.05 以下で統計的有意であると呼ばれる(5%有意) ⚫ 先ほどの例だと p値 =0.00000002 ⇒ 有意 p値などを求める場合は、RやPythonを使う(EXCELでも計算できなくはない) 13
  14. EXCELで回帰分析 ⚫原因と結果の2つのデータ列を選択し、グラフ(散布図)を挿入 ⚫ 「グラフ要素を追加」から「近似曲線」⇒「線形」を追加 ⚫ 「近似曲線のグラフ設定」で式と決定係数を表示できる 14 回帰分析は一番簡単な 「機械学習」でもある

  15. 重回帰分析 ⚫重回帰:複数の説明変数に対する回帰 ⚫ 基本的には単回帰と同じ考えを多次元に拡張しただけ ⚫ 性別なども1/0で代替することで分析できる(ダミー変数) ⚫ 説明変数が複数になったことで問題も発生 ⚫ 説明変数が多すぎる

    ⇒ 過学習しやすくなってしまう ⚫ ラッソ回帰(L1正則化)で説明変数を削減 ⚫ ステップワイズ法も使えるが、変数選択に恣意性が入りやすい ⚫ 「予測」には有用だが「説明」には適さない ⚫ 説明変数同士が独立ではない ⇒ 多重共線性にて推定性能が悪化 ⚫ リッジ回帰(L2正則化)、主成分回帰、部分最小二乗回帰で独立な形に 変換 ⚫ 両方の問題に対応したい ⇒ Elastic Net(L1+L2正則化) ⚫ 自由度調整済み決定係数 ⚫ 通常の決定係数は変数が増えると1に近づく性質がある ⚫ 説明変数の数で正規化 15
  16. 次元の呪い ビッグデータならすごい分析ができる……? ⚫特徴(=説明変数)が増えると回帰がうまくいかなくなる ⚫ なぜか ⇒ 可能性のある説明の数に組み合わせ爆発が起こる ⚫ データを増やしても解決できない ⚫

    基本的には何とかして次元を減らすしかない ⚫ 解決策1:特徴選択 ⚫ 目的とは関係の弱い変数を削除する ⚫ L1正則化がよく使われるが、複数の相関を持つデータがひとつの基準で削除されてし まう「特徴量の見落とし」が起こるという問題がある ⚫ 解決策2:特徴変換 ⚫ 複数の特徴をまとめ、合成や加工することで、元の特徴をある程度保ったまま次元を 減らした分析ができるようになる ⚫ 主成分分析:目的変数を少ない説明変数だけで表現できるよう座標変換する手法 ⚫ Feature Hashing:複数の特徴をまとめたベクトル値をハッシュ関数に入れ加工する手 法 16
  17. 結論を確認する 17

  18. バイアス(偏り) ⚫Garbage In Garbage Out (GIGO) ⚫クズなデータからは、クズな結果しか得られない 18 選択バイアス 測定バイアス

    母集団からサンプリングすると きに生じる偏りのこと • 標本抽出バイアス • 自己選抜バイアス • 脱落バイアス • 生存(勝者)バイアス • 所属バイアス サンプルから得られる情報や情 報の受け手による偏りのこと • 先入観バイアス • 報告バイアス • 測定バイアス • 想起バイアス • リードタイムバイアス
  19. 回帰分析にも前提がある ⚫ 前提を満たさないと、意味のない結論が出るだけ ⚫ データの個数が十分にある ⚫ 少数のデータだと偏ったサンプルになっている可能性がある ⚫ データの発生源に偏りがない ⚫

    基準を設けて分割したり選び出したりすると、人工的な偏りが生まれる ⚫ 収集後だけでなく、データの収集時にも偏りが出ないように気をつける必要がある ⚫ (現実には難しいが)すべての原因(交絡要因)を説明変数に組み入れる必要がある ⚫ データがすべて独立 ⚫ 多重共線性(マルチコ):説明変数に強い相関があると分散が大きくなり、適切な分析結果 が出なくなる。 ⚫ 分散拡大係数(VIF)を使うことで確認ができる。一般に VIF > 10 となる説明変数は 対処が必要とされる。除外や合成により回避する。 ⚫ 同じデータを水増しすると有意にできるが、独立ではないので分析の意味がなくなる ⚫ 時系列データも独立ではない(時間的自己相関) ⚫ 外れ値が少ない ⚫ 外れ値があるとその影響を受けやすい(ロバスト回帰などを使うことで緩和できる) 19 サンプル数、サンプルサイズ 統計学の慣例として、データの個数のことをサンプルサイズ、サンプリング回数のことをサンプル数 (標本数)と呼ぶ。日本語だと誤解しか生まないが、英語の sample は個々のデータではなくデータ 群を表すことに由来する。本文では「データの個数」で統一している。
  20. 検定(仮説検定) ⚫検定:分析結果が妥当か評価すること ⚫関係があるように見える ⇒ 単なる偶然かも ⚫偽陽性(第一種の過誤) ⚫ 関係がないのに、あるとしてしまう間違い ⚫ p値はこの偽陽性を判定する検定を行った結果として得られる値(確率)

    ⚫ 検定方法は想定する分布に応じて様々なものがある ⚫ t 検定、カイ二乗検定、F検定、U検定、などなど ⚫偽陰性(第二種の過誤) ⚫ 関係があるのに、ないとしてしまう間違い ⚫ 偽陽性と偽陰性にはトレードオフがある。偽陽性を重視すると偽陰性が 発生する可能性が増す。 20 データ収集にバイアスがないという前提での評価であることに注意!
  21. 有意である=因果関係がある? ⚫p値はよく使われるが完璧な指標ではない ⚫p値は扱いやすいので普及しているが、問題も多い ⚫ アメリカ統計学会「統計的優位性とp値に関する声明」(2016) ⚫ データ個数を増やすと有意と判定されやすくなるという特徴がある ⚫有意である ⇒ 効果が

    0 ではないことがわかるだけ ⚫ 効果の強さは何もわからない ⚫ 有意であるが決定係数が低いなら、誤差程度の関係しかないとも言える ⚫ 逆に「有意ではない」ならば「因果関係がない」とも言えない ⚫有意水準 5% では、偽陽性を十分に排除できない ⚫ 有意水準 0.5% に設定すべきという提言がなされている(2017) ⚫ 心理学論文の半数は再現性に問題があるとするデータもある 21
  22. じゃあ、どうすればいいの? 1. 他の方法を使う ⚫ 効果量とその信頼区間:統計学者おすすめの方式 ⚫ 効果量:データ個数に依存せずに関係の強さを表すことができる指標 ⚫ 信頼区間:サンプリングを繰り返すとある確率で真値が含まれる区間(≠信用区間) ⚫

    情報量基準:変数が少なく予測精度が高い方が良いとする指標 ⚫ AIC(赤池情報量基準)、BIC(ベイズ情報量規準)、WAIC、WBIC ⚫ 信用区間:真値がある確率で含まれる区間。ベイズ統計を使うと算出できる。 ⇒ いずれも p値ほど簡単に使えるものではない 2. 気にしない ⚫ 論文書くならともかく、業務ならもっとカジュアルに使えばいい ⚫ たいていの場合、因果関係があるかないかは自ずと明らかでは? ⚫ データを眺めるだけでも気づきがある ⚫ そもそも、未知の要因は無数にあるため、因果関係を機械的な方法だけで判定するのは無理 がある ⚫ とはいえ、因果関係がある! と決めつける前に「そうでない可能性」がないかは検 討したほうがいい ⚫ 特に時系列データには注意が必要(後述) 22
  23. モデルを拡張する 23

  24. 統計モデリング ⚫いつでも(普通の)回帰分析の枠にはまるとは限らない ⇒ 問題に合わせて統計モデルを作って分析したい ⚫統計の構成要素 ⚫ モデルの形 ⇒ 普通の回帰なら「一次方程式」 ⚫

    誤差分布の形 ⇒ 普通の回帰なら「正規分布」 ⚫ 推定の方法 ⇒ 普通の回帰なら「最小二乗法」 ⚫ モデルは「☓☓関数」、誤差分布は「◯◯分布」に、など問題に合わせ て前提を変えたり緩めたりしたい ⚫ 推定の方法は、モデルと誤差分布の形でだいたい決まる 24 モデル 説明 変数 係数 目的 変数 入力 データ 出力 データ サンプル サンプル 推定アルゴリズム
  25. 対数変換 ⚫弾力性(xの変化率に対するyの変化率)を推定したい ⇒ 対数(log)化して一般線形モデルで扱えるようにする 25 y = b xa log(y)

    = a x + b 対数変換 ⚫ 原則として x も y も正の値をとるデータに対して使う ⚫ ゼロや負の値を含む場合は下駄をはかせて正の値にして計算する 例:log(y + 1) 、log(y + 0.01) ただし、この下駄が有意性に影響を与える危険性がある ⚫ HIS変換という手法を使うことで影響を防ぐことができる ⚫ 誤差分布が対数正規分布に従う ⚫ 通常の回帰分析は誤差分布が正規分布に従う場合にだけ使える ⚫ 対数正規分布を対数変換すると正規分布になる
  26. 誤差が正規分布でない場合 誤差が正規分布でないと通常の回帰分析が適用できない ⇒ 式を変換したり、重みを付けて誤差を正規分布に変換する ⚫重み付き線形回帰(加重最小二乗法) ⚫ 分散の変動要因でデータに重みを付けることで分散を小さくする 例:規模の逆数で重みを付けて機能数と工数の関係を求める ⚫式を変換する ⚫

    Box-Cox変換:誤差分布が正規分布となるように変換(対数変換の一般化) ⚫ Yeo-Johnson 変換: Box-Cox変換を負値でも扱えるよう拡張したもの 回帰分析は外れ値の影響を受けやすい ⚫ロバスト回帰 ⚫ 外れ度合いに応じて説明変数に重みを付ける ⚫分位点回帰 ⚫ 25%分位点、50%分位点、95%分位点など分布範囲ごとにモデルを導出できる ⚫ 50%分位点=平均値ではなく中央値に対する回帰分析を意味している。 ⚫ 外れ値や非対称な分布を持つデータにも適用できる ⚫ 分散の大きいシステム開発のデータを分析するのに向いている 26
  27. (線形)統計モデルの種類 (一般)線形モデル (LM) • 通常の単回帰/重回帰分析のモデルのこと • 誤差構造は正規分布を仮定 • 誤差構造=目的変数の確率分布 一般化線形モデル

    (GLM) • 誤差構造を自由に設定可能なモデル • リンク関数を使い誤差構造に適した形に変換 • 関数の形はリンク関数の逆関数になる 一般化線形混合モデル (GLMM) • 地域差のように、すべてに共通しないがグループご とには相関がある場合に対応したモデル • 階層線形モデル (HLM)、マルチレベルモデル (ML) とも呼ばれる 正規分布以外の誤差 構造を使いたい 27 グループごとに相関す る対象を分析したい ⚫ 次の3モデルが基本。下に行くほど前提条件が緩くなり、その分推定が難しくなる
  28. 一般化線形モデル(GLM) ⚫リンク関数は、誤差構造が決まるとだいたい決まる ⚫ リンク関数:分布を-∞~∞の範囲に変換することで線形モデルで扱いやすくする ⚫ 誤差構造で使う確率分布は離散型と連続型があるので問題に合わせて使う ⚫ ロジスティック回帰:誤差構造がN=1の2項分布(=ベルヌーイ分布)、リンク関数がロ ジット関数の回帰モデル。Yes/Noの判定やクラス分類に使われる。ただし、時間的な打ち切 りがある場合にはコックス回帰を使う必要がある。

    ⚫ ポアソン回帰:誤差構造がポアソン分布。影響割合(リスク比)の導出に使われる。 28 2項分布 (0~N) 離 散 型 連 続 型 ポワソン分布 (0~∞) 正規分布 (-∞~∞) ガンマ分布 (0~∞) 誤差構造 リンク関数 ロジット関数 対数関数 恒等関数 逆数関数 or 対数関数 関数の形 ロジスティック 関数 指数関数 恒等関数 逆数関数 or 指数関数
  29. 回帰分析の手順 ⚫手法は様々でも、手順自体は同じ 1. モデルの選定 ⚫ データを説明するのに適したモデルを選んだり作ったりします 2. 係数の推定 ⚫ モデルとデータの差などペナルティが最小になるように係数を最適化

    (=最小値を探索)します ⚫ 推定の方法としては最小二乗法、最尤推定法、ベイズ推定などがあります 3. モデルの評価 ⚫ p値のように経験的な基準で評価する方法と、他のモデルより簡単で良い結 果が得られるかで評価する2つの方法があります ⚫ 後者の場合は、AIC(赤池情報量基準)などを使用します 29 係数 ペナルティ
  30. 推定 ⚫ 得られたデータ(=観測値)から確率分布を推定 ⚫ 確率分布を決め打ちしないので、分析の自由度が上がる ⚫ 最尤推定 ⚫ 観測値になるであろう確率(尤度)を最大化することで推定する手法 ⚫

    尤度は犬度ではないので注意。「ゆうど」と読む ⚫ MAP推定 ⚫ 観測値に加えデータ量の補正を加えた手法 ⚫ 逆に言えば、最尤推定はデータ量が少ないときには使えない ⚫ ベイズ推定 ⚫ 事前分布と観測値から事後分布を推定 ⚫ 係数が定数ではなく確率分布として得られる ⚫ 最尤推定、MAP推定は、ベイズ推定の特殊パターンとみなせる 30
  31. ベイズ推定 ⚫ 従来の統計手法(頻度確率)の代わりにベイズ確率を利用 ⚫ 事後分布を事前分布にすることで繰り返し情報を更新できる ⚫ 事前分布を工夫することで1度しか起こらなかったことでも分析できる ⚫ 統計モデル自体は既存のものを使う ⚫

    一般線形モデルでも状態空間モデルでも何でもOK ⚫ どんなモデルでも同じ手法が利用できるので分析の自由度が上がる ⚫ 係数が定数ではなく確率変数になる ⚫ 係数の値が確率分布として求まるため、結果にどれくらい自信があるのかがわか る(裾が狭い=確信度が高い) ⚫ 従来の統計モデルに比べて理論体系がしっかりしていて結果の解釈も行いやすい 31 事前分布 得られたデータ 事後分布 A B
  32. ノンパラメトリック回帰 ⚫モデルや分散を想定せず、データからモデルなどを推定する手法 ⚫ 関数が複雑だと結果の解釈も難しい ⇒「説明」よりも「予測」向き ⚫ 解析的に解けないことが多く、解の探索が必要 ⇒ 結果にブレがあり確 定しない

    ⚫一般化加法モデル(GAM) ⚫ 平滑化スプライン関数などを使い曲線フィッティングを行う ⚫ 交差検証を使って良い予測をする関数を見つけ出す ⚫ データの抜けや突然の変化にも強い ⚫ 説明変数間の相互作用を考慮できる GA2M というものもある ⚫機械学習による回帰分析 ⚫ 機械学習で使われる手法を使って回帰曲線を推定する方法 ⚫ SVR(サポートベクター回帰):SVMを使い回帰曲線を推定する ⚫ 決定木回帰:決定木を使って回帰曲線を推定する ⚫ ニューラルネットワーク回帰:NNを使い回帰曲線を推定する 32
  33. 時系列の関係を調べる 33

  34. 時系列分析 ⚫時系列データの特徴=強い自己相関 ⚫ある時点のデータは過去のデータに依存している ⚫時系列データならではの特徴も多い ⚫ トレンド(長期的な趨勢)がある ⚫ 周期的変動(月の日数や季節ごとの気温の影響など) ⚫ 外部要因(制度変更など)の影響が残る

    ⚫ ランダムなノイズの影響が蓄積される(ランダムウォーク) 34 トレンド 周期的変動 外部要因 ランダムショック
  35. ランダムウォーク ⚫ランダムな動きが蓄積すると意味ありげなデータになる ⚫ ランダムウォーク同士で相関を取ると、存在しないはずの強い関係性が得 られてしまう(見せかけの回帰) ⚫ 例えば、為替レートと適当なランダムウォークの相関を取ると、0.67 とい う高い相関係数が出てしまう 35

    拡販費と売上の推移といった時系列データを 考えなしに分析すると間違った結論を導いてしまう可能性あり
  36. データの定常性 データが定常でなければ正しく分析できない ⚫定常:一定範囲をばらつくデータであること ⇒ 定常でないデータは過去との差分を取って定常化する ⚫ ただし、差分をとると本来の関係が見えなくなるので、適用する のは非定常のデータ限定 ⚫ 「共和分」と呼ばれる、足し合わせると定常になるような長期的

    な関係性がある場合には、差分を取るだけではダメ ⚫単位根検定 ⚫ データが定常かどうか判定する検定手法 ⚫ ランダムウォークと区別できるか調べる ⚫共和分検定 ⚫ 共和分があるか判定する検定手法 ⇒ 共和分がある場合は、ベクトル誤差修正モデルを使う 36
  37. ARIMAモデル ARIMA = AR+I+MA ⚫時系列分析に使用される代表的なモデル ⚫AR:自己回帰 ⚫ データはその過去から計算できる ⚫I:和分 ⚫

    データは前期からの差分を足し合わせて計算される ⚫MA:移動平均 ⚫ データは過去のランダムノイズの蓄積に影響される ⚫ARIMAの拡張 ⚫SARIMA:周期性を追加可能に ⚫ARIMAX:外生変数を追加可能に ⚫ARFIMA:差分階数を実数値で指定できるようにすることで階 差の悪影響を緩和可能に 37
  38. VARモデル VAR = ベクトル(V)自己回帰(AR) ⚫時系列の多変数(=ベクトル)を同時に分析す る場合に使うモデル ⚫経済計量分析でよく利用される ⚫VARIMAモデル(=ARIMAモデルのベクトル版)もあ るが、一部の係数が一意に決まらないなど実務上の 問題があり、ほとんど使われないらしい

    ⚫グレンジャー因果性検定 ⚫VARモデル変数間の因果関係を推定する手法 38
  39. 状態空間モデル (SSM) ⚫モデルを「状態モデル」と「観測モデル」に分ける ⚫ 状態モデル:真の状態を表現したモデル ⚫ 観測モデル:実際に観測される値を表現したモデル ⚫トレンドや周期的変動も観測誤差と考える ⚫ 不要な成分は観測誤差として統一的に扱えるため分析の自由度が高い

    ⚫ 推定はフィルタを使う方法とMCMC(マルコフ連鎖モンテカルロ法)を使う方法がある ⚫ 逐次処理が必要な場合はフィルタ(カルマンフィルタなど) ⚫ 一括処理できる場合はMCMC 39 時刻 真の 状態 真の 状態 真の 状態 真の 状態 観測値 観測値 観測値 観測値
  40. 統計的因果推論 40

  41. 因果関係を特定するには 厳密には特定は不可能 ⚫ ある時点では因果関係のように見えても偶然かもしれない ⚫ 過去、1しかでたことがないサイコロがあったとしても、次の瞬間には成立しな いかもしれない ⚫ そもそも因果関係のすべての必要条件が何かはわかっていない ⇒

    科学哲学の世界 ⚫ それでも必要条件の一部を満たすかは確認できる ⚫ミルの三原則 ⇒ 因果関係があるとみなせる条件として有名 ⚫ 時間的先行性: 原因Xは結果Yよりも時間的に先行していること ⚫ 共変関係: 原因Xが変化すると結果Yも変化すること ⚫ 交絡要因の除去: 結果Yに影響する要因が原因X以外にないこと 41 線形回帰分析などで因果関係を特定できるのは、手法の外側で 時間的先行性や交絡要因の除去の問題を解決していることが前提
  42. 統計的因果推論とは 反事実モデルを使って統計的に介入効果を推定する手法 ⚫反事実モデル 1. Aを実施する ⇒ Bが起きる/起きない 2. Aを実施しない ⇒

    Bが起きる/起きない ➢ 特定の事象としては、1か2どちらかの結果しか得られないが、多数の事象 を集めれば両方の結果が得られる ➢ 上記の事象“以外”の影響がランダムあるいは調整して除去できれば、ミルの 三原則を満たせそうか推測できるのでは? • 時間的な先行関係 ⇒ 反事実モデルによる仮想的な介入 • 共変関係 ⇒ 統計的に共起性を確認 • 交絡要因の除去 ⇒ ランダム化/調整による交絡の除去 ⇒ 交絡要因が除去できれば因果関係を特定したと言える 42
  43. 統計的因果推論の手法 ⚫実験計画を工夫して交絡要因を除去する手法 ⚫ ランダム化比較試験(RCT) ⚫ 自然実験 ⚫共変量を調整してマッチングする手法 ⚫ 傾向スコア・マッチング ⚫因果構造を分析して除去が必要な交絡要因を見つける手法

    ⚫ 因果ダイアグラム(DAG)とバックドア基準 ⚫統計的因果探索 ⚫ 因果探索では、どのような因果構造があるかをデータから推測する。 ⚫ 因果推論は、あくまで先に用意した因果構造において介入効果がある かを確認する手法 ⚫ LiNGAM 43
  44. 参考文献 ⚫ Takashi J. OZAKI「統計学と機械学習の違い」はどう論じたら良いのか」など ⚫ http://tjo.hatenablog.com/entry/2015/09/17/190000 ⚫ https://tjo.hatenablog.com/entry/2013/04/23/190417 ⚫

    佐藤俊夫「回帰分析の語源」 ⚫ http://satotoshio.net/blog/?p=1264 ⚫ 林岳彦「因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ」など ⚫ http://takehiko-i-hayashi.hatenablog.com/entry/20130418/1366232166 ⚫ http://takehiko-i-hayashi.hatenablog.com/entry/20130902/1378119705 ⚫ アレックス・ラインハート「ダメな統計学」 ⚫ http://id.fnshr.info/2014/12/17/stats-done-wrong-toc/ ⚫ himaginary「新発見の統計的有意性のp値の閾値は5%から0.5%に下げよ」 ⚫ http://d.hatena.ne.jp/himaginary/20170829/Redefine_Statistical_Significance ⚫ 久保拓弥「GLMM の紹介 - GLM→GLMM→階層ベイズモデル」 ⚫ http://hosho.ees.hokudai.ac.jp/~kubo/stat/2015/jssp/kubo2015jssp.pdf ⚫ Logics_of_Blue「時系列データへの回帰分析」 ⚫ https://logics-of-blue.com/time-series-regression/ ⚫ Hiroshi Shimizu「MCMCでマルチレベルモデル」 ⚫ https://www.slideshare.net/simizu706/mcmc-35634309 ⚫ 山口順也「一般化線形モデル (GLM) & 一般化加法モデル(GAM)」 ⚫ https://www.slideshare.net/DeepLearningLab/glm-gam ⚫ 吉田 寿夫、村井 潤一郎「心理学的研究における重回帰分析の適用に関わる諸問題」 ⚫ https://www.jstage.jst.go.jp/article/jjpsy/advpub/0/advpub_92.19226/_article/-char/ja/ ⚫ MARC F. BELLEMARE「‘Metrics Monday: What to Do Instead of log(x +1)」 ⚫ https://marcfbellemare.com/wordpress/12856 44