Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ解釈学入門 第一部 / Data hermeneutics Part 1

masso
January 03, 2021

データ解釈学入門 第一部 / Data hermeneutics Part 1

『データ解釈学入門』(著:江崎貴裕)の読書アウトプット

※注記事項
・本スライドには、参考図書に基づいてスライド著者個人の解釈が含まれている
・本スライド著者の学びのアウトプットであるため、著者にとって自明な点は省略あるいは説明を簡素化している

masso

January 03, 2021
Tweet

More Decks by masso

Other Decks in Science

Transcript

  1. 本章のまとめ 1. データを観測すること 1. 観測時に必ず含まれる歪み(bias)に対処することがデータ解 釈の柱の⼀つ。これを怠ると、それ以降の分析が全て無意味に なることもある。(俗に⾔う、Garbage in, garbage out.)

    2. 観測には常に制約がつきまとう。対象の全てを観測することは できないことが多く、そういう場合は⼀部をサンプリングして、 対象の全体像を推し量る。 2. 測定の難しさ 1. ビッグデータを⾔われているものの、観測しやすいデータが膨 ⼤になる⼀⽅で、観測しづらいデータは依然観測しづらいまま。 2. 測れないものを代替指標で測るときは、「本来測るべきもの」 と違うものを測っていないか︖注意せよ。 3. 何らかのアウトプットを測るために測りやすいインプットで代 替させるという誤りが多いので気をつけよう
  2. 2. 測定の難しさ • 観測しやすいデータは膨⼤に⽣成されている • ⼀⽅で、観測しにくいデータは依然⼿に⼊りにくい • 欲しいデータを⼗分に⼊⼿するには、莫⼤なコストが必 要 •

    往々にして、時間的・⾦銭的コストを最⼩に抑えつつ分 析することが望まれる • 効率的に意思決定やデータを解釈できるように、データ 取得の質を⾼めることが求められる 欲しいデータ⼗分に⼊⼿できないことはよくある
  3. 2. 測定の難しさ • 論理的に物事を考えたり、問題を解決する能⼒ 概念的定義 • IQ(Intelligence quotient) 操作的定義 1.

    測定によって情報は⽋落する e.g. 個⼈の頭の良さ(知能)を測定する場合 測定するためには、操作的定義が必要である。ただし、操作的定義は、 あくまでも対象の「測定可能な⼀側⾯」しか表していない。
  4. 2. 測定の難しさ 2. 測りやすい指標を優先させない e.g. 研究者や研究期間の研究業績を測定したい場合 • 測定しやすい指標 – 獲得した研究費

    • 測定しにくい指標 – 使った⾦額に対してどれぐらいの成果を上げたか 何かのアウトプットを測りたいとき、測りやすいインプットに関する 量で代替させるというのはよくある誤り
  5. 2. 測定の難しさ • 標準化(standardization)とは – データ観測時に測定される値の選択肢を事前に決めておくこと 3. 「標準化」によって情報は⽋落する e.g. •

    書籍の評価アンケートを5段階評価にする • 交通網の混雑情報を3択(多い/普通/少ない)にする 情報の圧縮効果はあるが、解像度が落ちる (画像データと同じ、トレードオフの関係にある)
  6. 本章のまとめ 1. 誤差の分解 1. 誤差は、測定値と真値の差。誤差は系統誤差とランダム誤差か ら構成される。 2. (ランダム)誤差と確率分布 1. ランダム誤差の振る舞いは、背景に隠れているある確率分布に

    したがうものと考える。 3. 確率分布に関するまとめ 1. 仕組みから理論的に導く=数学的確率/理論分布 2. 複数の試⾏結果から経験的に定める=統計的確率/経験分布 4. ランダム誤差のばらつきに対処する 1. 観測値の平均値を⽤いる/統計的に評価する/ばらつきの⼩さ い指標に注⽬する
  7. 本章のまとめ 1. 測定基準に関するバイアス 1. 測定基準が明確か︖⽐較対象間で⼀定の基準か︖基準は時間変 化していないか︖ 2. 選択バイアス 1. 全体の内⼀部が選択されたことに起因するバイアスの総称

    2. ⽣存者/サンプリング/志願者バイアスなど 3. 観測介⼊に関するバイアス 1. ⼈を対象とした観測には⼼理学的効果が働き、様々なバイアス が⽣じる 4. データの扱いに起因するバイアス 1. データの利害関係者がコントロールできるデータには⼈為的な 歪が⼊る。⼿⼊⼒時の単純な⼈為的なミスも無視できない。
  8. 3. データに含まれるバイアス 測定基準が基準⾜り得ない場合にバイアスが発⽣する • 温度の例(本書では⼀貫した測定基準の例として上げら れているものの、実際は計測器の製品誤差や故障により 誤った測定基準によってデータが取られることも⼗分に ある。IoTまわりでは重要なこと。) • 国ごとの弁護⼠数⽐較︓⽇本だけ⾮常に少ない。なぜな

    ら、諸外国では⼠業系全般を弁護⼠と呼ぶから。⽐較対 象ごとに基準が異なる例である。 • ⾃閉症児の割合増加︓実際の割合はほぼ変化していない が、⾃閉症に対する注⽬度や社会的な⽀援活動が増加し たことで上昇トレンドに。基準が時間変化した例。 1. 測定基準に関するバイアス
  9. 3. データに含まれるバイアス ⼈間を対象としたデータ分析では、⼼理学的効果によって、 知りたい情報を上⼿く測定できないケースがある。 同じ質問でも、選択肢が変わるとデータが変わる例 3. 観測介⼊に関するバイアス 2番⽬の選択肢に加えた変更 1. 「成⻑できる環境」を追加

    2. 「働きやすさ」をより詳細に • その他は選ばれにくい • 2番⽬で「成⻑できる環境」を選んだ⼈≠1番⽬で「その他」を選んだ⼈ • 選択肢が多い⽅が判断上存在感が⼤きくなる • 1番⽬で「働きやすさ」を選んだ⼈ < 2番⽬で3〜6を選んだ⼈
  10. 3. データに含まれるバイアス 回答を歪める⼼理学的効果の例 • 黙従傾向 – 「Yes/No」系の質問では肯定的な選択肢を答えやすい • 中⼼化傾向 –

    「全く◦◦できない < … <⾮常に◦◦できる」のような5段階 評価だと真ん中の「どちらともいえない」が選ばれやすい • キャリーオーバー効果 – 前の質問への回答が次の質問への回答に影響する • 質問⽂での誘導 – 「近年、データ分析需要が⾼まっていますが、貴社ではデータ 活⽤にどれぐらい取り組まれていますか︖」の前半部分 3. 観測介⼊に関するバイアス
  11. 3. データに含まれるバイアス データを扱う⼈が意図的・無意識的にデータを歪めてしま うことがある。 • 意図的な歪み – データソースに影響のある⼈=データの利害関係者のケース – e.g.

    営業売上ノルマ(超えた分を次⽉に持ち越し) • 無意識的な歪み – ⾃説や組織の決定に都合の良いデータばかりを集めてしまう (チェリーピッキング)こと。公開されているデータは何らか の⽅針に基づいて集められたものかもしれない、という視点を 持とう。 – ⼈為的なミス(単位のミス・⼊⼒のミス)→マニュアル⼊⼒を 極⼒介在させないことが重要 4. データの扱いに起因するバイアス
  12. 本章のまとめ 1. 2つの変数の間の関係 1. 変数間に相関が認められるときは、「因果関係がある」「相関 がある」「たまたま関係があるように⾒えているだけ」のいず れかを判断しよう。それによってあとの作業が変わる。 2. 交絡に対処する 1.

    変数間の関係を調べるときは、交絡因⼦の影響を極⼒減らす 2. 因果推論の根本問題により、本当の対照実験はできないので、 現実的にはRCTなどで対処する 3. ランダム化⽐較実験(RCT)ができないとき 1. 重回帰分析 2. ロジスティック回帰 3. 回帰不連続デザイン 4. 傾向スコアマッチング
  13. 1. 2つの変数の間の関係 • 勉強時間と数学の点数の例 – 1時間勉強するごとに数学の平均点が3点上がるという仮想デー タから⽣成したプロット • 武器軟膏の例 –

    「傷ではなく武器に軟膏を塗ると治りが早くなる」→当時の軟 膏は衛⽣状態✗/有害物質含有であり、塗らずに⾃然治癒に任 せる⽅が治りが早かった • アイスと熱中症の例 – アイスの売上と熱中症患者数に正の相関→背景にある「気温の ⾼さ」により、⾒かけの因果関係が成り⽴ってしまう。 • 博⼠学位とウラン貯蔵量の例 – 全く関係ないのに、たまたま強い相関が出てしまう 変数間の関係まとめ(補⾜)
  14. 1. 2つの変数の間の関係 • たまたま相関が⽣じる – たまたま偶然。何の分析にもつながらない。 • 共通の原因となる要因がある – 着⽬している2つの変数両⽅に影響を与える要因(交絡因⼦)が

    ある • 逆の因果関係がある – 実は、因果関係を逆に認識してしまってるケース • 選択バイアスがかかる操作をしている – 変数間の相関がでるようにデータを切り出している。(例︓2つ の変数の値の和によって選抜する) ⾒かけの因果関係が⽣じるパターン
  15. 2. 交絡に対処する 着⽬する2つの変数の背後に共通の原因がある場合、⾒せ かけの相関関係・因果関係に騙されてしまう。「背後の共 通の原因」を交絡因⼦と呼ぶ。 交絡因⼦とは ▪ マシュマロ・テストの例 子供の忍耐力を測る実験。目の前のマ シュマロを食べずに15分我慢すると、2つ

    マシュマロが食べられる。マシュマロ・テス トの結果とその後の社会的な成功度合い を比較した。 ▼ 1回目の結論: 忍耐力と社会的な成功は相関している。 ▼ 2回目の結論: データを増やすと直接的な相関が見られる わけではないという結論になった。(家庭の 経済力が本質的要因) 家庭の経済⼒ マシュマロ を我慢できる 社会的成功 交絡因子 因果関係 因果関係なし 家庭の経済力有り →別にいつでもマシュマロ食べられる=我慢余裕 →社会的成功と強い相関(教育環境など)
  16. 2. 交絡に対処する ランダム化⽐較実験(RCT) 被験者 処置群 対照群 ランダムに 割り振り ▪ 新薬テストの例

    平均処置効果 平均処置効果 平均処置効果の差=新薬の効果 新薬を投与 偽薬を投与 ※着目変数の平均的な効果
  17. • 実験データ – RCTのように被験者を集めて実際に介⼊を⾏って得たデータ – 取得コスト⾼い/交絡因⼦の影響をコントロールしやすい • 観察データ – 介⼊を⾏わず、ありのままの状態を観測したデータ

    – 取得コストが低い/交絡因⼦のコントロールが難しい – 例︓喫煙と健康の影響 • 既に喫煙してる⼈・してない⼈を集めてきて、その後の健康状況を 観測する(観察研究と⾔う) 観察データと実験データ 2. 交絡に対処する
  18. 3. ランダム化⽐較実験ができないとき 傾向スコアマッチング 複数の交絡因⼦が存在することがわかっているにも関わらず、それら についてランダムに割り当てることができない場合に役⽴つのが傾向 スコアマッチングである。 ▪ 喫煙習慣が健康に与える影響の検証例 存在は分かっているがランダム付与できない交絡因子として、「飲酒の習慣」「経済状況」がある。 交絡因⼦群を説明変数とし

    て、「喫煙者or⾮喫煙者」 をロジスティック回帰で計 算 (=傾向スコア) 喫煙者群と⾮喫煙者群から 傾向スコアが近い者同⼠を マッチングしたらグループ へ 喫煙者群と⾮喫煙者群で交 絡因⼦の影響を同等にして 実験開始 傾 向 ス コ ア 非喫煙者 喫煙者 高 中 低 非喫煙者 喫煙者
  19. 本章のまとめ 1. サンプリングの考え⽅ 1. ⼀部から全体を推定するというアプローチ 2. ⼗分にランダムなサンプリングか︖⼗分に⼤きいサンプルサイ ズか︖に着⽬しよう。 2. 様々なサンプリング⼿法

    1. ランダム性が担保できないとき、サンプリングコストを抑えた いときなど、各ケースで役⽴つサンプリング⼿法がある 3. サンプリングとバイアス 1. サンプリングによって様々なバイアスが⽣じる 2. バイアスをゼロにすることはできないので、どういった性質の バイアスが⽣じるのかを理解し、その後の対処につなげよう
  20. 1. サンプリングの考え⽅ • 全数調査 – 対象となる⺟集団全体を調査すること • 標本調査(サンプリング) – 対象となる⺟集団から⼀部を取り出して調査すること(+そこから全

    体を推測することもセット) • サンプル数(the number of samples) – 標本調査をした回数 • サンプルサイズ(sample size) – ⼀回の標本調査で確認する対象の数 • 無作為抽出 – ランダムにサンプリングすること ⽤語
  21. 1. サンプリングの考え⽅ • ⼤数の法則より、サンプルサイズは⼤きい⽅が良い • とはいえ、限度があるのでどの程度なら⼗分か考える • 標本平均のばらつき(標準誤差︓SE; standard error)

    がどの程度であれば良いか︖という視点で決めると良い – 「⺟平均が95%信頼区間が X cm 以内」となるように定めれば、⼗分 結論が出せるだろうと判断した場合 – (1.96×SE) / 2 < X となるようにサンプルサイズ N を決める サンプルサイズの決め⽅ ※95%信頼区間…ランダムサンプリングした場合、95%の確率で母平均が「標本平均±1.96*SE」の範囲に存 在する ※標準誤差…標本平均の標準偏差 ※サンプルサイズ n とすると、標準誤差は 1/√n 倍になる
  22. 3. サンプリングとバイアス • サンプリング前に⽣じるバイアス – カバレッジ誤差 • 標本抽出枠と⺟集団の間に⽣じる差のこと。 • 回答時(観測時)に⽣じるバイアス

    – ⾯接調査 • 家庭訪問︓在宅してる⼈だけ/街⾓インタビュー︓⽴ち⽌まってくれる⼈ だけ/対⾯で答えにくいことは虚偽の回答をしがち – 郵送調査 • 郵送をめんどくさがる⼈からは回答得られない – 電話調査 • 電話にでてくれる⼈の回答しか得られない/在宅している⼈だけ、固定電 話を持っている⼈だけ…など サンプリングバイアス⼀覧
  23. 3. サンプリングとバイアス • 対象とする集団の選び⽅に起因する選択バイアス – ネットでの調査 • 低コストだが、調査対象者を選ぶことが難しい/ネットリテラシーのある ⼈に回答が偏る可能性がある –

    集団に回答を依頼する(イベントなど実施するアンケート) • 回収率は⾼い。対象とする集団と回答する集団が⼀致している場合は、バ イアスが⽣じにくい。健康に関する調査などでは、⽣存者バイアス(体調 不良で⽋席した⼈の意⾒が聞けないなど)が⽣じ得る。 – 募集によるサンプリング • 志願者バイアスが⽣じ得る サンプリングバイアス⼀覧