Upgrade to Pro — share decks privately, control downloads, hide ads and more …

oku-slide-20210721

 oku-slide-20210721

生命情報学とデータサイエンス
奥 牧人
2021/07/21
第14回 データサイエンス基礎論・データサイエンス特論

Makito Oku

July 19, 2021
Tweet

More Decks by Makito Oku

Other Decks in Education

Transcript

  1. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 2 / 105
  2. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 3 / 105
  3. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 8 / 105
  4. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 25 / 105
  5. 主なIDの種類 IDの種類 例 遺伝子記号 Tnf フルネーム Tumor necrosis factor Entrez

    21926 Ensembl ENSMUSG00000024401 RefSeq NM_013693 UniProt P06804 Affymetrix 1419607_at Agilent A_51_P385099 27 / 105
  6. 欠損値の処理 欠損値の表記を調べる。 空欄 / - / NA / -999 /

    0 / それらの混合 欠損した理由を調べる。 値が小さ過ぎる or 単に測定していないだけ 補間する or しない 欠損値を含む行を除外する or しない 一言でいうと、ケースバイケース 29 / 105
  7. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 32 / 105
  8. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 44 / 105
  9. 少し細かい話 対数を取る場合、一般に算術平均でなく幾何平均を用いる。 log FC = log( ), ⋯ a1 a2

    an − − − − − − − − √ n ⋯ b 1 b 2 b m − − − − − − − − √ m = log − log . 1 n ∑ i ai 1 m ∑ i bi 47 / 105
  10. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 58 / 105
  11. 解決策 集合の数が多い場合は、表にすれば良い。 A B C D E 個数 ✓ ✓

    ✓ ✓ ✓ 30 ✓ ✓ ✓ - - 20 ✓ ✓ ✓ ✓ - 10 - ✓ ✓ - ✓ 5 - - ✓ ✓ - 5 その他 15 65 / 105
  12. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 66 / 105
  13. Zスコア化 通常、データの前処理として遺伝子毎にZスコア化を行う。 元の値 ( ) は、平均が , 標準偏差が である。 Zスコア

    ( ) は、平均が 0, 標準偏差が 1 である。 = , (i = 1, … , n). zi − μ x i σ x i μ σ z i 70 / 105
  14. 様々な距離と類似度 名前 式 種別 ユークリッド距離 距離 マンハッタン距離 距離 チェビシェフ距離 距離

    マハラノビス距離 距離 相関係数 類似度 コサイン類似度 類似度 d = ( − ∑ i qi pi )2 − − − − − − − − − − √ d = | − | ∑ i q i p i d = (| − |) max i q i p i d = (q − p (q − p) )T S−1 − − − − − − − − − − − − − − − √ r = ( − )( − ) ∑ i xi x ¯ y i y ¯ ( − ∑ i xi x ¯) 2 √ ( − ∑ i y i y ¯) 2 √ cos(θ) = ∑ i xi y i ∑ i x2 i √ ∑ i y2 i √ 75 / 105
  15. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 85 / 105
  16. タグ 各遺伝子には、タグ (annotation) が複数付けられている。 タグ 種別 inflammatory response GO (BP)

    macrophage cytokine production GO (BP) insulin signaling pathway KEGG cell cycle KEGG 87 / 105
  17. GO 最もよく使われるのが GO (Gene Ontology) タグ 3つのグループに分かれているが、通常はBP (Biological Process) に属するタグだけ調べれば良い。

    残り2グループは、結果の解釈が難しい。 あまりにも内容が漠然としたものや、逆に細かすぎるものは 役に立たない。 有用なタグだけを集めたサブセットも幾つか考案されている。 GO slim, GO FAT 88 / 105
  18. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 94 / 105
  19. Outline 1. はじめに 2. 実験条件の確認と他の測定項目のプロット 3. データの前処理 4. データ全体の傾向把握 5.

    発現変動遺伝子の取得 6. 発現変動遺伝子リスト間の重複度合の確認 7. クラスタリング 8. エンリッチメント解析 9. ネットワーク図の描画 10. まとめ 102 / 105