Slide 1

Slide 1 text

データ解釈学⼊⾨ データの本質をとらえる技術 第一部 データの性質に関する基礎知識

Slide 2

Slide 2 text

注記事項 • 本書は、筆者の学びのまとめであるため、 筆者にとって⾃明であることは細かく解 説しない • 江崎貴浩⽒の『データ解釈学⼊⾨』を参 考図書としているが、本書は筆者の個⼈ 的解釈を含んだまとめである

Slide 3

Slide 3 text

⽬次 1. 観測は簡単ではない 2. 誤差とばらつき 3. データに含まれるバイアス 4. 交絡因⼦と因果関係 5. データサンプリングの⽅法論

Slide 4

Slide 4 text

⽬次 1. 観測は簡単ではない 2. 誤差とばらつき 3. データに含まれるバイアス 4. 交絡因⼦と因果関係 5. データサンプリングの⽅法論

Slide 5

Slide 5 text

本章のまとめ 1. データを観測すること 1. 観測時に必ず含まれる歪み(bias)に対処することがデータ解 釈の柱の⼀つ。これを怠ると、それ以降の分析が全て無意味に なることもある。(俗に⾔う、Garbage in, garbage out.) 2. 観測には常に制約がつきまとう。対象の全てを観測することは できないことが多く、そういう場合は⼀部をサンプリングして、 対象の全体像を推し量る。 2. 測定の難しさ 1. ビッグデータを⾔われているものの、観測しやすいデータが膨 ⼤になる⼀⽅で、観測しづらいデータは依然観測しづらいまま。 2. 測れないものを代替指標で測るときは、「本来測るべきもの」 と違うものを測っていないか︖注意せよ。 3. 何らかのアウトプットを測るために測りやすいインプットで代 替させるという誤りが多いので気をつけよう

Slide 6

Slide 6 text

1. データを観測すること 分析対象 観測 観測結果 +バイアス 観測とバイアスはセット 分析対象の情報を観測という⼿続きにより、データとして取得するこ とが、データ分析のスタートである。ただし、バイアスなしに観測す ることはできない。観測結果は必ずバイアスを含んでいるので、分析 対象の真の姿を反映したものではない。

Slide 7

Slide 7 text

1. データを観測すること 分析対象 観測 観測結果 +バイアス 観測とバイアスはセット 観測結果に含まれるバイアスの内容を把握し、バイアスへの対処⽅法 (無視するか、適切な前処理を施すか)を判断し、実⾏することが重 要である。さもなくば、Garbage in, garbage out になってしまう。 分析の質の前に、input の質を最⼤限上げることを意識しよう。

Slide 8

Slide 8 text

1. データを観測すること データの制約とサンプリング 観測(=データの取得)では偏ったデータを取り出さない ように最⼤限⼯夫することは必要だが、コスト⾯や実現の 難しさといった観点から制約を伴うことが多い。 そこで、サンプリングを適切に⾏うことで、限られた情報 量でも全体を⾼い精度で予測することが可能になる。 スープの味⾒をするのに、全部飲み⼲す必要はない︕

Slide 9

Slide 9 text

2. 測定の難しさ • 観測しやすいデータは膨⼤に⽣成されている • ⼀⽅で、観測しにくいデータは依然⼿に⼊りにくい • 欲しいデータを⼗分に⼊⼿するには、莫⼤なコストが必 要 • 往々にして、時間的・⾦銭的コストを最⼩に抑えつつ分 析することが望まれる • 効率的に意思決定やデータを解釈できるように、データ 取得の質を⾼めることが求められる 欲しいデータ⼗分に⼊⼿できないことはよくある

Slide 10

Slide 10 text

2. 測定の難しさ 測れないもの(各⼤学の研究⼒, 新商品の好感度)を測る ときは、測れる何かで代替する。このとき、「測れる何か は、本当に測りたいものであるか︖」という視点を忘れな いようにしよう。ここから、測定で気をつけるべきことを 3点述べる。 1. 測定によって情報は⽋落する 2. 測りやすい指標を優先させない 3. 「標準化」によって情報は⽋落する 「測れないもの」を測るときの注意点

Slide 11

Slide 11 text

2. 測定の難しさ • 論理的に物事を考えたり、問題を解決する能⼒ 概念的定義 • IQ(Intelligence quotient) 操作的定義 1. 測定によって情報は⽋落する e.g. 個⼈の頭の良さ(知能)を測定する場合 測定するためには、操作的定義が必要である。ただし、操作的定義は、 あくまでも対象の「測定可能な⼀側⾯」しか表していない。

Slide 12

Slide 12 text

2. 測定の難しさ 誤った解釈をしないために以下が重要 1. 観測によって測られているものは何なのか 2. 「本当に測りたいもの」の中で捉えられていない要素 1. 測定によって情報は⽋落する

Slide 13

Slide 13 text

2. 測定の難しさ 2. 測りやすい指標を優先させない e.g. 研究者や研究期間の研究業績を測定したい場合 • 測定しやすい指標 – 獲得した研究費 • 測定しにくい指標 – 使った⾦額に対してどれぐらいの成果を上げたか 何かのアウトプットを測りたいとき、測りやすいインプットに関する 量で代替させるというのはよくある誤り

Slide 14

Slide 14 text

2. 測定の難しさ • 標準化(standardization)とは – データ観測時に測定される値の選択肢を事前に決めておくこと 3. 「標準化」によって情報は⽋落する e.g. • 書籍の評価アンケートを5段階評価にする • 交通網の混雑情報を3択(多い/普通/少ない)にする 情報の圧縮効果はあるが、解像度が落ちる (画像データと同じ、トレードオフの関係にある)

Slide 15

Slide 15 text

⽬次 1. 観測は簡単ではない 2. 誤差とばらつき 3. データに含まれるバイアス 4. 交絡因⼦と因果関係 5. データサンプリングの⽅法論

Slide 16

Slide 16 text

本章のまとめ 『分析者のためのデータ解釈学入門』(著:江崎貴裕)より引用

Slide 17

Slide 17 text

本章のまとめ 1. 誤差の分解 1. 誤差は、測定値と真値の差。誤差は系統誤差とランダム誤差か ら構成される。 2. (ランダム)誤差と確率分布 1. ランダム誤差の振る舞いは、背景に隠れているある確率分布に したがうものと考える。 3. 確率分布に関するまとめ 1. 仕組みから理論的に導く=数学的確率/理論分布 2. 複数の試⾏結果から経験的に定める=統計的確率/経験分布 4. ランダム誤差のばらつきに対処する 1. 観測値の平均値を⽤いる/統計的に評価する/ばらつきの⼩さ い指標に注⽬する

Slide 18

Slide 18 text

補⾜︓⼤数の法則 サンプルサイズ 1 の測定を n 回実⾏し、求めた標本平均 値は、元の測定値より 1/√n ばらつきが⼩さくなる(⼤数 の法則)nを⼤きくして、標本平均を求めると、真値に近 づく。 ※ただし、独⽴試⾏/バイアス無視が前提 n回測定して得られた標本平均値は ばらつき 1/√n

Slide 19

Slide 19 text

⽬次 1. 観測は簡単ではない 2. 誤差とばらつき 3. データに含まれるバイアス 4. 交絡因⼦と因果関係 5. データサンプリングの⽅法論

Slide 20

Slide 20 text

本章のまとめ 『分析者のためのデータ解釈学入門』(著:江崎貴裕)より引用

Slide 21

Slide 21 text

本章のまとめ 1. 測定基準に関するバイアス 1. 測定基準が明確か︖⽐較対象間で⼀定の基準か︖基準は時間変 化していないか︖ 2. 選択バイアス 1. 全体の内⼀部が選択されたことに起因するバイアスの総称 2. ⽣存者/サンプリング/志願者バイアスなど 3. 観測介⼊に関するバイアス 1. ⼈を対象とした観測には⼼理学的効果が働き、様々なバイアス が⽣じる 4. データの扱いに起因するバイアス 1. データの利害関係者がコントロールできるデータには⼈為的な 歪が⼊る。⼿⼊⼒時の単純な⼈為的なミスも無視できない。

Slide 22

Slide 22 text

3. データに含まれるバイアス 測定基準が基準⾜り得ない場合にバイアスが発⽣する • 温度の例(本書では⼀貫した測定基準の例として上げら れているものの、実際は計測器の製品誤差や故障により 誤った測定基準によってデータが取られることも⼗分に ある。IoTまわりでは重要なこと。) • 国ごとの弁護⼠数⽐較︓⽇本だけ⾮常に少ない。なぜな ら、諸外国では⼠業系全般を弁護⼠と呼ぶから。⽐較対 象ごとに基準が異なる例である。 • ⾃閉症児の割合増加︓実際の割合はほぼ変化していない が、⾃閉症に対する注⽬度や社会的な⽀援活動が増加し たことで上昇トレンドに。基準が時間変化した例。 1. 測定基準に関するバイアス

Slide 23

Slide 23 text

3. データに含まれるバイアス • ⽣存者バイアス︓帰還した戦闘機の傷がない部分を強化 するべき。「傷があるところ=損傷しても帰還できる」 「傷がないところ=損傷したら帰還できない=致命的」 ⽣存したものしか観測されない場合に⽣じるバイアス。 • サンプリングバイアス︓学⽣から被験者を募集して分析 した結果、(問題設定によっては)⼀般者に当てはまら ない。 • 志願者バイアス︓⼀般者から被験者を募集した結果、実 験参加に意欲の⾼い、実験内容に関⼼のある⼈が集まる 為、偏ったサンプルになりえる。 2. 選択バイアス(selection bias)

Slide 24

Slide 24 text

3. データに含まれるバイアス • 出版バイアス︓仮説ありきの観測や調査では、仮説に合 わない場合は報告されない、(偶然にも関わらず)仮説 に合う結果が得られたから報告される、といった事象が 起きる。報告というプロセスを経ることで⽣じるのデー タの偏りの例。 2. 選択バイアス(selection bias)

Slide 25

Slide 25 text

3. データに含まれるバイアス ⼈間を対象としたデータ分析では、⼼理学的効果によって、 知りたい情報を上⼿く測定できないケースがある。 同じ質問でも、選択肢が変わるとデータが変わる例 3. 観測介⼊に関するバイアス 2番⽬の選択肢に加えた変更 1. 「成⻑できる環境」を追加 2. 「働きやすさ」をより詳細に • その他は選ばれにくい • 2番⽬で「成⻑できる環境」を選んだ⼈≠1番⽬で「その他」を選んだ⼈ • 選択肢が多い⽅が判断上存在感が⼤きくなる • 1番⽬で「働きやすさ」を選んだ⼈ < 2番⽬で3〜6を選んだ⼈

Slide 26

Slide 26 text

3. データに含まれるバイアス 回答を歪める⼼理学的効果の例 • 黙従傾向 – 「Yes/No」系の質問では肯定的な選択肢を答えやすい • 中⼼化傾向 – 「全く○○できない < … <⾮常に○○できる」のような5段階 評価だと真ん中の「どちらともいえない」が選ばれやすい • キャリーオーバー効果 – 前の質問への回答が次の質問への回答に影響する • 質問⽂での誘導 – 「近年、データ分析需要が⾼まっていますが、貴社ではデータ 活⽤にどれぐらい取り組まれていますか︖」の前半部分 3. 観測介⼊に関するバイアス

Slide 27

Slide 27 text

3. データに含まれるバイアス • 答えにくい質問には嘘の回答しがち – 解決策︓匿名性確保+ランダム回答法 • 無意識な⾏動に誤った理由を後付しがち • 観測⾃体が被験者の⼼理に影響を与えることもある – プラセボ効果/ホーソン効果 3. 観測介⼊に関するバイアス

Slide 28

Slide 28 text

3. データに含まれるバイアス データを扱う⼈が意図的・無意識的にデータを歪めてしま うことがある。 • 意図的な歪み – データソースに影響のある⼈=データの利害関係者のケース – e.g. 営業売上ノルマ(超えた分を次⽉に持ち越し) • 無意識的な歪み – ⾃説や組織の決定に都合の良いデータばかりを集めてしまう (チェリーピッキング)こと。公開されているデータは何らか の⽅針に基づいて集められたものかもしれない、という視点を 持とう。 – ⼈為的なミス(単位のミス・⼊⼒のミス)→マニュアル⼊⼒を 極⼒介在させないことが重要 4. データの扱いに起因するバイアス

Slide 29

Slide 29 text

⽬次 1. 観測は簡単ではない 2. 誤差とばらつき 3. データに含まれるバイアス 4. 交絡因⼦と因果関係 5. データサンプリングの⽅法論

Slide 30

Slide 30 text

本章のまとめ 『分析者のためのデータ解釈学入門』(著:江崎貴裕)より引用

Slide 31

Slide 31 text

本章のまとめ 1. 2つの変数の間の関係 1. 変数間に相関が認められるときは、「因果関係がある」「相関 がある」「たまたま関係があるように⾒えているだけ」のいず れかを判断しよう。それによってあとの作業が変わる。 2. 交絡に対処する 1. 変数間の関係を調べるときは、交絡因⼦の影響を極⼒減らす 2. 因果推論の根本問題により、本当の対照実験はできないので、 現実的にはRCTなどで対処する 3. ランダム化⽐較実験(RCT)ができないとき 1. 重回帰分析 2. ロジスティック回帰 3. 回帰不連続デザイン 4. 傾向スコアマッチング

Slide 32

Slide 32 text

1. 2つの変数の間の関係 (ピアソンの)相関係数 「相関がある」って︖ 『分析者のためのデータ解釈学入門』(著:江崎貴裕)より引用

Slide 33

Slide 33 text

1. 2つの変数の間の関係 変数間の関係まとめ 『分析者のためのデータ解釈学入門』(著:江崎貴裕)より引用

Slide 34

Slide 34 text

1. 2つの変数の間の関係 • 勉強時間と数学の点数の例 – 1時間勉強するごとに数学の平均点が3点上がるという仮想デー タから⽣成したプロット • 武器軟膏の例 – 「傷ではなく武器に軟膏を塗ると治りが早くなる」→当時の軟 膏は衛⽣状態✗/有害物質含有であり、塗らずに⾃然治癒に任 せる⽅が治りが早かった • アイスと熱中症の例 – アイスの売上と熱中症患者数に正の相関→背景にある「気温の ⾼さ」により、⾒かけの因果関係が成り⽴ってしまう。 • 博⼠学位とウラン貯蔵量の例 – 全く関係ないのに、たまたま強い相関が出てしまう 変数間の関係まとめ(補⾜)

Slide 35

Slide 35 text

1. 2つの変数の間の関係 • たまたま相関が⽣じる – たまたま偶然。何の分析にもつながらない。 • 共通の原因となる要因がある – 着⽬している2つの変数両⽅に影響を与える要因(交絡因⼦)が ある • 逆の因果関係がある – 実は、因果関係を逆に認識してしまってるケース • 選択バイアスがかかる操作をしている – 変数間の相関がでるようにデータを切り出している。(例︓2つ の変数の値の和によって選抜する) ⾒かけの因果関係が⽣じるパターン

Slide 36

Slide 36 text

2. 交絡に対処する 着⽬する2つの変数の背後に共通の原因がある場合、⾒せ かけの相関関係・因果関係に騙されてしまう。「背後の共 通の原因」を交絡因⼦と呼ぶ。 交絡因⼦とは ■ マシュマロ・テストの例 子供の忍耐力を測る実験。目の前のマ シュマロを食べずに15分我慢すると、2つ マシュマロが食べられる。マシュマロ・テス トの結果とその後の社会的な成功度合い を比較した。 ▼ 1回目の結論: 忍耐力と社会的な成功は相関している。 ▼ 2回目の結論: データを増やすと直接的な相関が見られる わけではないという結論になった。(家庭の 経済力が本質的要因) 家庭の経済⼒ マシュマロ を我慢できる 社会的成功 交絡因子 因果関係 因果関係なし 家庭の経済力有り →別にいつでもマシュマロ食べられる=我慢余裕 →社会的成功と強い相関(教育環境など)

Slide 37

Slide 37 text

2. 交絡に対処する 介⼊した未来と介⼊しなかった未来両⽅を観察することは できない。真の意味での対照実験はできない。 そこで、現実的にはランダム化⽐較実験(RCT; randomized controlled trial)などを⽤いて、仮想的 に対照実験を⾏う。観察対象を集団にして、平均的な介⼊ 効果を測る。 因果推論の根本問題

Slide 38

Slide 38 text

2. 交絡に対処する ランダム化⽐較実験(RCT) 被験者 処置群 対照群 ランダムに 割り振り ■ 新薬テストの例 平均処置効果 平均処置効果 平均処置効果の差=新薬の効果 新薬を投与 偽薬を投与 ※着目変数の平均的な効果

Slide 39

Slide 39 text

• 実験データ – RCTのように被験者を集めて実際に介⼊を⾏って得たデータ – 取得コスト⾼い/交絡因⼦の影響をコントロールしやすい • 観察データ – 介⼊を⾏わず、ありのままの状態を観測したデータ – 取得コストが低い/交絡因⼦のコントロールが難しい – 例︓喫煙と健康の影響 • 既に喫煙してる⼈・してない⼈を集めてきて、その後の健康状況を 観測する(観察研究と⾔う) 観察データと実験データ 2. 交絡に対処する

Slide 40

Slide 40 text

3. ランダム化⽐較実験ができないとき 重回帰分析/ロジスティック回帰 • 省略

Slide 41

Slide 41 text

3. ランダム化⽐較実験ができないとき 回帰不連続デザイン RCTは、処置の割当をランダムにしているが、現実問題は「処置はラ ンダムではない」。このような場合に役⽴つのが回帰不連続デザイン である。 『分析者のためのデータ解釈学入門』(著:江崎貴裕)より引用 「ある年のサービス利用額が一定値を超えたユーザーにクーポンを付与したときの クーポン付与がサービス利用額の増加に与える効果検証」の例

Slide 42

Slide 42 text

3. ランダム化⽐較実験ができないとき 傾向スコアマッチング 複数の交絡因⼦が存在することがわかっているにも関わらず、それら についてランダムに割り当てることができない場合に役⽴つのが傾向 スコアマッチングである。 ■ 喫煙習慣が健康に与える影響の検証例 存在は分かっているがランダム付与できない交絡因子として、「飲酒の習慣」「経済状況」がある。 交絡因⼦群を説明変数とし て、「喫煙者or⾮喫煙者」 をロジスティック回帰で計 算 (=傾向スコア) 喫煙者群と⾮喫煙者群から 傾向スコアが近い者同⼠を マッチングしたらグループ へ 喫煙者群と⾮喫煙者群で交 絡因⼦の影響を同等にして 実験開始 傾 向 ス コ ア 非喫煙者 喫煙者 高 中 低 非喫煙者 喫煙者

Slide 43

Slide 43 text

交絡因⼦に注意して効果検証する 状況に応じた⼿法の選択 ランダム化⽐較実験(RCT)はできるか︖ 回帰不連続デザインは使えるか︖ 重回帰分析/ロジスティック回帰/傾向 スコアマッチング ※傾向スコアマッチングをより簡単化した手法として、交絡因子となりそうな要素を2つの群で一致するように する「バランス化」や、指定した要因が一定の値になるように選んでデータ収集する「一定化」がある。

Slide 44

Slide 44 text

⽬次 1. 観測は簡単ではない 2. 誤差とばらつき 3. データに含まれるバイアス 4. 交絡因⼦と因果関係 5. データサンプリングの⽅法論

Slide 45

Slide 45 text

本章のまとめ 『分析者のためのデータ解釈学入門』(著:江崎貴裕)より引用

Slide 46

Slide 46 text

本章のまとめ 1. サンプリングの考え⽅ 1. ⼀部から全体を推定するというアプローチ 2. ⼗分にランダムなサンプリングか︖⼗分に⼤きいサンプルサイ ズか︖に着⽬しよう。 2. 様々なサンプリング⼿法 1. ランダム性が担保できないとき、サンプリングコストを抑えた いときなど、各ケースで役⽴つサンプリング⼿法がある 3. サンプリングとバイアス 1. サンプリングによって様々なバイアスが⽣じる 2. バイアスをゼロにすることはできないので、どういった性質の バイアスが⽣じるのかを理解し、その後の対処につなげよう

Slide 47

Slide 47 text

1. サンプリングの考え⽅ • 全数調査 – 対象となる⺟集団全体を調査すること • 標本調査(サンプリング) – 対象となる⺟集団から⼀部を取り出して調査すること(+そこから全 体を推測することもセット) • サンプル数(the number of samples) – 標本調査をした回数 • サンプルサイズ(sample size) – ⼀回の標本調査で確認する対象の数 • 無作為抽出 – ランダムにサンプリングすること ⽤語

Slide 48

Slide 48 text

1. サンプリングの考え⽅ • ⼤数の法則より、サンプルサイズは⼤きい⽅が良い • とはいえ、限度があるのでどの程度なら⼗分か考える • 標本平均のばらつき(標準誤差︓SE; standard error) がどの程度であれば良いか︖という視点で決めると良い – 「⺟平均が95%信頼区間が X cm 以内」となるように定めれば、⼗分 結論が出せるだろうと判断した場合 – (1.96×SE) / 2 < X となるようにサンプルサイズ N を決める サンプルサイズの決め⽅ ※95%信頼区間…ランダムサンプリングした場合、95%の確率で母平均が「標本平均±1.96*SE」の範囲に存 在する ※標準誤差…標本平均の標準偏差 ※サンプルサイズ n とすると、標準誤差は 1/√n 倍になる

Slide 49

Slide 49 text

2. 様々なサンプリング⼿法 情報の取得コストを下げる為、そもそも⺟集団から無作為抽出できない状態を何とかす る為、いろいろなサンプリング⼿法がある。 状況に応じてサンプリング⼿法を選ぶ 無作為抽出 シンプル 単純無作為抽出 系統抽出 低コストで 層化多段抽出法 クラスター抽出 無作為でない抽出 有意抽出 便宜的抽出 母集団を代表していると思わ れる対象たちを主観的に選ぶ データを取りやすい対象を調 査する

Slide 50

Slide 50 text

2. 様々なサンプリング⼿法 補⾜︓層化多段抽出法 『分析者のためのデータ解釈学入門』 (著:江崎貴裕)より引用

Slide 51

Slide 51 text

2. 様々なサンプリング⼿法 サンプリング⼿法ごとに⼀般化⼿段を考える 『分析者のためのデータ解釈学入門』(著:江崎貴裕)より引用 有意抽出は、「データ選択時点で主観によるサンプリングバイアス」をもたらす。便宜的抽出は、どのようなサ ンプリングバイアスが含まれるかを事前に想定しておくことが重要。 「その標本において得られた結果が、母集団全体でも同じように成り立っているか」という観点での度合いを 一般性(generality)/外的妥当性(external validity)という。 サンプリングに含まれるバイアスを考慮した上で、結果の解釈を慎重に行う必要がある。

Slide 52

Slide 52 text

3. サンプリングとバイアス • サンプリング前に⽣じるバイアス – カバレッジ誤差 • 標本抽出枠と⺟集団の間に⽣じる差のこと。 • 回答時(観測時)に⽣じるバイアス – ⾯接調査 • 家庭訪問︓在宅してる⼈だけ/街⾓インタビュー︓⽴ち⽌まってくれる⼈ だけ/対⾯で答えにくいことは虚偽の回答をしがち – 郵送調査 • 郵送をめんどくさがる⼈からは回答得られない – 電話調査 • 電話にでてくれる⼈の回答しか得られない/在宅している⼈だけ、固定電 話を持っている⼈だけ…など サンプリングバイアス⼀覧

Slide 53

Slide 53 text

3. サンプリングとバイアス • 対象とする集団の選び⽅に起因する選択バイアス – ネットでの調査 • 低コストだが、調査対象者を選ぶことが難しい/ネットリテラシーのある ⼈に回答が偏る可能性がある – 集団に回答を依頼する(イベントなど実施するアンケート) • 回収率は⾼い。対象とする集団と回答する集団が⼀致している場合は、バ イアスが⽣じにくい。健康に関する調査などでは、⽣存者バイアス(体調 不良で⽋席した⼈の意⾒が聞けないなど)が⽣じ得る。 – 募集によるサンプリング • 志願者バイアスが⽣じ得る サンプリングバイアス⼀覧