Upgrade to Pro — share decks privately, control downloads, hide ads and more …

oku-slide-20210721

 oku-slide-20210721

生命情報学とデータサイエンス
奥 牧人
2021/07/21
第14回 データサイエンス基礎論・データサイエンス特論

4103e5b7039a946281b536e04e86795f?s=128

Makito Oku

July 19, 2021
Tweet

Transcript

  1. 生命情報学とデータサイエンス 奥 牧人 2021/07/21 第14回 データサイエンス基礎論・データサイエンス特論 1 / 105

  2. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 2 / 105
  3. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 3 / 105
  4. 今回のテーマ 今回のテーマは 生命情報学とデータサイエンス です。 以下の解説文に沿って話をします。 奥牧人:遺伝子発現量データ解析の基礎、和漢研年報 (2018). http://hdl.handle.net/10110/00019294 4 /

    105
  5. 学習目標 生命情報学でよく使うデータサイエンス手法について知る。 分野間で共通する点と異なる点があることを理解する。 5 / 105

  6. クイズ 問題: 次のうち生命に関する情報でないものはどれでしょう? 1. ゲノム 2. トランスクリプトーム 3. マイクロバイオーム 4.

    サンダーストーム 6 / 105
  7. クイズ 問題: 次のうち生命に関する情報でないものはどれでしょう? 1. ゲノム 2. トランスクリプトーム 3. マイクロバイオーム 4.

    サンダーストーム 答え. ???番 7 / 105
  8. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 8 / 105
  9. よくあるパターン 9 / 105

  10. 開いてみると、、、 10 / 105

  11. 最初にすべきこと 実験の内容や各変数の意味をちゃんと確認する。 意味不明の呪文だと思って先に進むと、後でとんでもない 取り違えを引き起こす危険がある。 特に、「何と発音したら良いかわからない単語」は危険なので、 読み方を必ず調べる。 11 / 105

  12. 他の測定項目 もしメインデータの他に測定項目があるなら、先にそれらをプロット してみた方が良い場合も多い。 簡単なことから始める。 メインデータの解析に役立つドメイン知識を得る。 12 / 105

  13. エラーバーの種類 エラーバーの種類に注意する。 13 / 105

  14. 標準偏差 標準偏差 (Standard Deviation) は分散のルートをとったもの 特にデータから推定したものは標本標準偏差と呼ぶ。 分布の幅を表す。 標本分散には2つの流儀がある。 n-1 で割る:

    不偏推定 n で割る: 最尤推定 s = . ( − ∑ n i=1 xi x ¯)2 n − 1 − − − − − − − − − − − − √ 14 / 105
  15. 標準誤差 標準誤差 (Standard Error) は、標準偏差を で割ったもの 標本平均の標準偏差を表す。 n が大きいほど小さくなる。 不偏推定でも

    n を使う。 n − − √ SE = . s n − − √ 15 / 105
  16. 95 %信頼区間 95 %信頼区間は、標準誤差の約2倍の範囲 「95 %の確率で真の値を含む」と言うと統計学者に怒られる。 「母集団から n 個の標本を抽出して95 %信頼区間を計算」を

    何度も繰り返すと、それらの95 %が真の値を含む。 CI = [ − 1.96 SE, + 1.96 SE]. x ¯ x ¯ 16 / 105
  17. 信頼区間の便利な所 2つの信頼区間に重なりが無い場合は有意差がある。 重なりが無い 重なりがある 17 / 105

  18. グラフの種類 様々な種類のグラフが使われている。 18 / 105

  19. 折れ線グラフ 折れ線グラフは、一番シンプルで、横方向の比較もしやすい。 19 / 105

  20. 棒グラフ 棒グラフは、棒の長い部分を目立たせることが出来る。 20 / 105

  21. 箱ひげ図 箱ひげ図は、分布の非対称性や外れ値の確認に向いている。 21 / 105

  22. 箱ひげ図の見方 22 / 105

  23. 蜂群図 蜂群図は、データ点を全て描画したもので、多峰性なども分かる。 23 / 105

  24. バイオリン図 バイオリン図は、蜂群図を滑らかに繋げたような図で、点が多くても 使える。 24 / 105

  25. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 25 / 105
  26. データ研磨 データ研磨は面倒だが非常に大事な工程 26 / 105

  27. 主なIDの種類 IDの種類 例 遺伝子記号 Tnf フルネーム Tumor necrosis factor Entrez

    21926 Ensembl ENSMUSG00000024401 RefSeq NM_013693 UniProt P06804 Affymetrix 1419607_at Agilent A_51_P385099 27 / 105
  28. ID変換の難しさ 28 / 105

  29. 欠損値の処理 欠損値の表記を調べる。 空欄 / - / NA / -999 /

    0 / それらの混合 欠損した理由を調べる。 値が小さ過ぎる or 単に測定していないだけ 補間する or しない 欠損値を含む行を除外する or しない 一言でいうと、ケースバイケース 29 / 105
  30. グローバル正規化 グローバル正規化は、サンプル間の分布のズレを補正する処理 元の状態 正規化した後 30 / 105

  31. 分位数正規化 分位数正規化 (Quantile Normalization) は、各サンプルの分布を 全く同じ形にする手法 計算手順 1. サンプル毎に、データを大きい 順に並べる。

    2. 順位毎の平均を計算し、その値 で元の値を置き換える。 3. 位置を元に戻す。 31 / 105
  32. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 32 / 105
  33. 次元削減 データ全体の傾向を把握するため、次元削減がよく使われる。 33 / 105

  34. 2列にするメリット 2列なら散布図にすることが出来る。 34 / 105

  35. 例題1 次の図から何が分かるでしょう? 35 / 105

  36. 例題2 次の図から何が分かるでしょう? 36 / 105

  37. 主成分分析 主成分分析 (PCA) は簡単かつ有用なので、最初に試すべき手法 37 / 105

  38. よくあるPCAの説明 PCAとは座標変換である。 最も分散の大きい方向をPC1とする。 PC1に直交し、最も分散の大きい方向をPC2とする。 必要であれば、PC3以降も同様に計算する。 38 / 105

  39. 多次元尺度法 多次元尺度法 (MDS) は、各データ点を2次元上に並べたとき、 「近い点は近くに、遠い点は遠くに」なるよう調節する手法 39 / 105

  40. tSNE tSNE は、2008年に登場したMDSと同様の手法で、データ点が多く ても「良い感じ」に配置してくれるため、よく使われる。 40 / 105

  41. tSNEは凄いぞ PCAやMDSでは分離できない場合でも、tSNEだと分離出来る。 PCA MDS tSNE 41 / 105

  42. MDSとtSNEの注意点 縦軸と横軸に優劣は無い。 計算の度に結果が変わる。 tSNEでは、学習率を「データ点の数 / 12」にする。 数値データ以外にも適用出来る (塩基配列など)。 42 /

    105
  43. 平行分析 平行分析は、重要な主成分の数を推定する方法の一つ 43 / 105

  44. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 44 / 105
  45. 発現変動遺伝子 発現変動遺伝子とは、異なる条件やグループ間の比較において 発現量が大きく上昇または減少した遺伝子のことである。 45 / 105

  46. 倍率変化 倍率変化 (fold change) とは、各群の平均値の比のこと 発現変動遺伝子の判定によく使われる。 コントロールの2倍より大きいもの コントロールの1/2倍より小さいもの 46 /

    105
  47. 少し細かい話 対数を取る場合、一般に算術平均でなく幾何平均を用いる。 log FC = log( ), ⋯ a1 a2

    an − − − − − − − − √ n ⋯ b 1 b 2 b m − − − − − − − − √ m = log − log . 1 n ∑ i ai 1 m ∑ i bi 47 / 105
  48. 仮説検定 仮説検定による発現変動遺伝子の選択もしばしば行われる。 48 / 105

  49. 統計量とP値 統計量とは、データから所定の手順により算出される数値 P値とは、統計量の観測値またはそれより極端な値が出る確率 49 / 105

  50. 陽性と陰性 「帰無仮説を棄却」などと書くと混乱するので、次のように書く: 差がある場合を 陽性 (Positive) とする。 差がない場合を 陰性 (Negative) とする。

    50 / 105
  51. 混同行列 混同行列は、真の状態と予測を 2 × 2 の表にしたもの 判定基準の調節では、FPとFNを同時には減らせない。 P (予測) N

    (予測) P (真の状態) TP FN N (真の状態) FP TN 51 / 105
  52. 多重比較の問題 多重比較の場合、補正しないとFPが過度に増えてしまう。 52 / 105

  53. Bonferroniの補正 Bonferroniの補正は、有意水準を検定回数 で割る補正 FPは抑えられる。 しかし、特に が大きい時、FNが過度に増えてしまう。 n = . α

    ′ α n n 53 / 105
  54. FDR制御 FDR制御は、FPとFNをバランスよく抑える補正 Bonferroni補正では、FPが1つ以上混入する確率を5 %以下に抑 える。つまり、95 %以上の確率でTPのみが出力される。 一方、FDR制御では、FPの割合を5 %以下に抑える。 54 /

    105
  55. Benjamini-Hochberg法 Benjamini-Hochberg法はFDR制御の具体的な計算法の一つ 下の図で の条件下で最小の閾値を探す。 A/B ≤ 0.05 55 / 105

  56. クイズ 問題: T検定の説明として間違っているものはどれでしょう? 1. 2群の平均値の差の検定に用いられる。 2. サンプル数が多いほどP値が小さくなる。 3. 学生が考案したのでStudentのT検定と呼 ぶ。

    4. データが正規分布に従うと仮定している。 56 / 105
  57. クイズ 問題: T検定の説明として間違っているものはどれでしょう? 1. 2群の平均値の差の検定に用いられる。 2. サンプル数が多いほどP値が小さくなる。 3. 学生が考案したのでStudentのT検定と呼 ぶ。

    4. データが正規分布に従うと仮定している。 答え. ???番 57 / 105
  58. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 58 / 105
  59. 発現変動遺伝子リストが複数ある場合 59 / 105

  60. ベン図 ベン図 (Venn diagram) がよく用いられる。 集合が2つの場合 集合が3つの場合 60 / 105

  61. ベン図の具体例 実際に使う際は、各範囲に含まれる数を表示する。 集合が2つの場合 集合が3つの場合 61 / 105

  62. よく使う集合演算 62 / 105

  63. 集合が4つの場合 集合が4つの場合は正円では描けないので、少し工夫する。 ダメな例 (13領域) 正しい例 (15領域) 63 / 105

  64. 集合が5つ以上の場合 原理的には可能だが、領域数が多過ぎるので推奨はしない。 5集合の場合 (31領域) 6集合の場合 (63領域) 64 / 105

  65. 解決策 集合の数が多い場合は、表にすれば良い。 A B C D E 個数 ✓ ✓

    ✓ ✓ ✓ 30 ✓ ✓ ✓ - - 20 ✓ ✓ ✓ ✓ - 10 - ✓ ✓ - ✓ 5 - - ✓ ✓ - 5 その他 15 65 / 105
  66. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 66 / 105
  67. クラスタリング クラスタリングとは、似たもの同士をグループ別にまとめる手法。 67 / 105

  68. クラスタリングと分類 クラスタリングと分類とは別物である。 教師あり学習 分類 (Classification) 回帰 (Regression) 教師なし学習 クラスタリング (Clustering)

    次元削減 (Dimension reduction) 68 / 105
  69. 階層的クラスタリング 生命情報学の分野では階層的クラスタリングがよく用いられる。 計算手順 1. 最初に、各点を別々の クラスタに割り当てる。 2. 最も似た2つをまとめる。 3. 2番を繰り返し、全てが

    1つになったら止める。 4. 適当な閾値で切る。 右の図を樹形図 (dendrogram) と呼ぶ。 69 / 105
  70. Zスコア化 通常、データの前処理として遺伝子毎にZスコア化を行う。 元の値 ( ) は、平均が , 標準偏差が である。 Zスコア

    ( ) は、平均が 0, 標準偏差が 1 である。 = , (i = 1, … , n). zi − μ x i σ x i μ σ z i 70 / 105
  71. 「似ている」の基準 類似度 または 非類似度 の基準を決める必要がある。 1h 2h 3h 4h 遺伝子A

    0.3 -0.1 1.1 -1.3 遺伝子B 0.1 -0.3 1.3 -1.1 71 / 105
  72. ユークリッド距離 様々な分野でユークリッド距離がよく使われる。 d = . ( − ∑ i=1 n

    q i p i ) 2 − − − − − − − − − − √ 72 / 105
  73. 相関係数 生命情報学では相関係数もよく使われる。Zスコア化済みなら r = . 1 n − 1 ∑

    i=1 n xi yi 73 / 105
  74. は距離ではない は、三角不等式を満たさない場合があるので距離ではない。 三角不等式を満たさない例 1 − r 1 − r d(A,

    B) ≤ d(A, C) + d(C, B). 74 / 105
  75. 様々な距離と類似度 名前 式 種別 ユークリッド距離 距離 マンハッタン距離 距離 チェビシェフ距離 距離

    マハラノビス距離 距離 相関係数 類似度 コサイン類似度 類似度 d = ( − ∑ i qi pi )2 − − − − − − − − − − √ d = | − | ∑ i q i p i d = (| − |) max i q i p i d = (q − p (q − p) )T S−1 − − − − − − − − − − − − − − − √ r = ( − )( − ) ∑ i xi x ¯ y i y ¯ ( − ∑ i xi x ¯) 2 √ ( − ∑ i y i y ¯) 2 √ cos(θ) = ∑ i xi y i ∑ i x2 i √ ∑ i y2 i √ 75 / 105
  76. 連結法 クラスタ同士の「近さ」の測り方を、連結法と呼ぶ。 76 / 105

  77. Chaining現象 単連結法は、Chaining現象が起こるので使うべきではない。 単連結法 (Chaining現象が発生) 平均連結法 77 / 105

  78. なぜうまくいかないの? 主要なグループが早い段階で1つに合併してしまい、 残りの点はその巨大グループに1つずつ吸収されるだけだから。 78 / 105

  79. 分割基準 クラスタの分割基準も決める(例、閾値指定、クラスタ数指定)。 79 / 105

  80. 例題1 どこで切ったら良いでしょう? 80 / 105

  81. 例題2 どこで切ったら良いでしょう? 81 / 105

  82. ヒートマップの色 ヒートマップでは、赤と緑の対比を使ってはいけない。 82 / 105

  83. 色覚異常の人にはこう見える 83 / 105

  84. 使っても良い色の対比 赤と青や、紫と緑にすれば良い。 84 / 105

  85. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 85 / 105
  86. エンリッチメント解析 エンリッチメント解析とは、遺伝子リストの中にどのようなタイプの 遺伝子が多く含まれているかを調べるものである。 86 / 105

  87. タグ 各遺伝子には、タグ (annotation) が複数付けられている。 タグ 種別 inflammatory response GO (BP)

    macrophage cytokine production GO (BP) insulin signaling pathway KEGG cell cycle KEGG 87 / 105
  88. GO 最もよく使われるのが GO (Gene Ontology) タグ 3つのグループに分かれているが、通常はBP (Biological Process) に属するタグだけ調べれば良い。

    残り2グループは、結果の解釈が難しい。 あまりにも内容が漠然としたものや、逆に細かすぎるものは 役に立たない。 有用なタグだけを集めたサブセットも幾つか考案されている。 GO slim, GO FAT 88 / 105
  89. KEGG KEGGのタグも時々使われる。 89 / 105

  90. どういう計算しているのか? 入力リストとタグ毎のリストの重複を順に調べている。 90 / 105

  91. フィッシャーの正確検定 重複の有意性の判定にはフィッシャーの正確検定を使う。 91 / 105

  92. 検定ではダメなの? 2つの集合の独立性の判定法には、 検定もある。 しかし、 検定は正規分布を仮定しているため、期待値が5未満 のマスがある場合には適さない。 Bである Bでない Aである a

    b Aでない c d χ 2 χ 2 χ 2 92 / 105
  93. P値を過信してはダメ いくらP値が小さくても重複が数個程度しかない場合がある。 例えば、P値が0.001より小さいタグが見つかったが、重複は100 個中たったの2個だけだった、みたいなことがよくある。 「有意に多く」ても「多い」とは限らない。 を棒グラフで表す慣行が萬延しているが、やめるべき。 − log p 93

    / 105
  94. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 94 / 105
  95. ネットワーク図の描画 ネットワーク図は、要素間の繋がりを図で表したもの 95 / 105

  96. 例題 次の図から何が分かりますか? 96 / 105

  97. 巨大な毛玉? 97 / 105

  98. 目安 各頂点のラベルが無い場合、約1000頂点まで 各頂点のラベルがある場合、約100頂点まで 98 / 105

  99. ネットワークの取得法 測定データを使う。 相関係数の絶対値が閾値以上であれば枝を張る。 データベースで検索する。 既知または予測された相互作用があれば枝を張る。 99 / 105

  100. コミュニティ コミュニティとは、枝の密度が高い部分グラフのこと Louvain法やinfomap法などで分割出来る。 100 / 105

  101. 可視化で大事なこと 各属性に何を対応させるかをよく考える必要がある。 属性 頂点の大きさ 頂点の色 頂点の形 枝の太さ 枝の色 101 /

    105
  102. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 102 / 105
  103. キーワード 折れ線グラフ、棒グラフ、箱ひげ図、蜂群図、バイオリン図 データ研磨、ID変換、欠損値、正規化 次元削減、散布図、主成分分析、MDS、tSNE 発現変動遺伝子、倍率変化、仮説検定、Bonferroni、FDR ベン図 階層的クラスタリング、樹形図、ヒートマップ、Zスコア エンリッチメント解析、フィッシャーの正確検定 ネットワーク、コミュニティ 103

    / 105
  104. まとめ 生命情報学で使う様々な手法を紹介しました。 一口にデータサイエンスといっても分野によって内容が色々と 違うことが伝われば幸いです。 一方で、基本的な数学や統計学の知識はどの分野にも共通する ので、それらをしっかり学んで欲しいと思います。 104 / 105

  105. ご清聴どうもありがとうございました! 105 / 105