Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Next Generation Sequencing (NGS)と機械学習

Shunsuke Kikuchi
June 08, 2024
82

Next Generation Sequencing (NGS)と機械学習

Single-cell 解析と機械学習の関わりについて。
6/8/2024 @ LAIME ai勉強会発表資料

Shunsuke Kikuchi

June 08, 2024
Tweet

Transcript

  1. June 8, 2024 1 Integrative Biology and Physiology Shunsuke Kikuchi

    3rd Year, Computational & Systems Biology + Applied Mathematics Next Generation Sequencing (NGS)と機械学習
  2. 2 自己紹介 • 菊地 駿輔 @ne_gi_chi__ • 所属: University of

    California, Los Angeles 学部3年 • 専攻: 計算生命科学 + 応用数学 (Double Major) • 研究: 他研究室のsingle-cell解析のお手伝い single-cell dataの解析手法の開発 (遺伝子ネットワークの再構築) • 最近のマイブーム: タコス食べること
  3. 3 そもそもSingle-cellってなんの話? • 高校生物のおさらい: 転写と翻訳 mRNA : DNAからたんぱく質を作るときに媒 介する物質 •

    生体の制御は主にタンパク質によって行われる →タンパク質の状況を追うことで何が起こっ ているかが分かる! タンパク質を直接調べるのは高コスト、同時サンプ ルできる上限にも限界がある 一方mRNAは増幅してシーケンスできる →細胞中に存在するmRNAのカウントを代わりに使 おう!
  4. 5 一般的なsingle-cell解析の流れ 1.前処理 – ノイズ、スパース性への対応 Quality Control (QC) – 異常なカウントの含まれる細胞、遺伝子の除去

    total countsにおけるmitochondrial, (ribosomal, hemoglobin genes)の占める割合 total counts, # genes detected in a cell Normalization 細胞ごとのカウント数をスケーリング、log1pPF, scran, scTransformなどのアルゴリ ズムが存在 Feature Selection 細胞間で差異の少ない、解析に意味のない遺伝子の除去 Dimensional Reduction 次元圧縮、計算効率の改善に加えノイズ除去の意味も 大抵PCA
  5. 8 一般的なsingle-cell解析の流れ 2. クラスタリングと細胞種の特定 隣接グラフ 主成分(n~30)に対しkNNグラフ計算 クラスタリング (コミュニティ検出) leidenかlouvainが多い 細胞種のアノテーション

    そのクラスタで発現量の差が有意な遺伝子(Differential Expressed Gene)の情報から細 胞種を割り当て せいぜいn<=25程度のクラスタのため手動でのアノテーションも多い 過去研究のデータベースから自動でアノテーションすることも可能
  6. 9 Single-cell 解析を用いた研究例 Ref. Wirka, R.C., Wagh, D., Paik, D.T.

    et al. Atheroprotective roles of smooth muscle cell phenotypic modulation and the TCF21 disease gene as revealed by single-cell analysis. Nat Med 25, 1280–1289 (2019). https://doi.org/10.1038/s41591-019-0512-5
  7. 10 一般的なsingle-cell解析の流れ 3. バッチ効果の除去 (Integration): データが複数のサンプルから成る時、サンプル特有のノイズを取り除く必要がある BBKNN, CCAなどの古典的手法からscVIといった深層学習(VAE)を利用したものまで様々なアルゴリ ズムが提案されている ※ここまで前処理

    面倒そうだが、パッケージを使えばそれほど大変でもない (50-100行程度のコード) - Scanpy (Python) - Seurat (R) 基本は片方の言語で事足りるが、双方とも使えない機能があり、両方使うケースもしばしば
  8. 12 一般的なsingle-cell解析の流れ 4. 解析 • Differentially Expressed Genes (DEGs): 群間で異なる発現量の見られる遺伝子の抽出

    ➢ 疾患に関連して異常な発現の見られる遺伝子の特定 • Pathway Enrichment: 関与している生物学的プロセスの予測 ➢ 疾患で起こり得る症状の推定 • RNA velocity: 細胞の形質変動(発達や分化)のtrajectoryを予測 ➢ 細胞の機能分化の経路 • 遺伝子制御ネットワーク ➢ 免疫反応の制御メカニズムの推定 • 細胞間コミュニケーション予測 この辺りの解析は機械学習を用いて行われることが多いが、 しばしばその精度が問題となる
  9. Single-cell 解析を用いた研究例 Ref. Wirka, R.C., Wagh, D., Paik, D.T. et

    al. Atheroprotective roles of smooth muscle cell phenotypic modulation and the TCF21 disease gene as revealed by single-cell analysis. Nat Med 25, 1280–1289 (2019). https://doi.org/10.1038/s41591-019-0512-5
  10. Single-Cell解析における課題・障壁 - カウントデータのスパース性と高いエラー率 - 計算効率 1サンプルでもおよそ30k×20kの疎行列 - データの信頼性 filteringしてるとは言え… -

    遺伝子発現パターンの複雑性 - 非線形の発現パターン - 二次解析におけるアノテーションの必要 - エラーの影響を特に受ける、生物学的には考えにくいアノテーションを得ることも 他にも… - Generalizing trajectory inference - Finding patterns in spatially resolved measurements - Validating and benchmarking analysis tools for single-cell measurements 等々… Ref: Lähnemann, D., Köster, J., Szczurek, E. et al. Eleven grand challenges in single-cell data science. Genome Biol 21, 31 (2020). https://doi.org/10.1186/s13059-020-1926-6
  11. Batch integration – embed, feature, graph Cell-Cell Communication – Ligand-Target,

    Source-Target Denoising Label Projection Spatial Decomposition Multimodal Data Integration Perturbation Prediction (2023 Kaggle/NeurIPS) ref: Open Problems in Single Cell Analysis - Benchmarks 15 Open problems
  12. 16 scVI – single-cell Variational Inference Variational AutoEncoder (VAE)に基づく前処理手法 VAE(変分オートエンコーダー):

    データを潜在空間にエンコード, 潜在表現から元データを 再構築することで学習 バッチ効果の補正、ノイズ除去、クラスタリングと異常検知が可能
  13. コンペ概要 18 Single-cell Dataを扱った初のコンペ? NeurIPS2021で やってた Open problemsによる、NeurIPS 2022の併設コンペ 造血幹細胞に関連する細胞群について、採集から2,

    3, 4, 7, 10日におけるデータを収集 ATAC-seq: DNAのChromatin AccessibilityとRNAを同 時に採取, RNAを予測 CITE-seq: RNAカウントと細胞の表面タンパク質の情 報を収集, 表面タンパクの発現レベルを予測
  14. データ 19 Cell-type: 血液に存在する7つの細胞種がアノテーション Train/Test Train: 2,3,4,7 days(ATAC), 2,3,4 days

    (CITE), ドナーA, B, C Public: 2,3,7 days (ATAC), 2,3,4 days (CITE), ドナーD Private: 10 days (ATAC), 7 days (CITE), ドナーA, B, C, D
  15. June 8, 2024 20 1st Solution (Public 27th) 前処理/後処理に工夫 ATAC-seq:

    Chromatin ①: nonzeroの中間値で割る→tSVDで圧縮 ②: バイナリ(0/1)化→tSVDで圧縮 RNA: nonzeroの中間値で割る→log1p→0をtSVDでノイズ除去→col方向でmedianを引く→tSVDで 圧縮 CITE-seq: RNA: non-zeroの中間値で割る→log1p→→①targetと高相関のgene data使用 ②上と同 Protein: Normalize→ 行方向でmedianを引く→tSVDで圧縮 →①targetと高相関のgene dataのみ取り出す ②上と同
  16. 21 1st Solution 前処理/後処理を大量に工夫 ATAC-seq: Linear1: 前処理したtargetにfitさせ、outputを逆処理 Linear2: 前処理しないtargetとlinear1の誤差にfit、outputに足す CITE-seq:

    前処理したtargetにfitさせ、outputを逆処理 アンサンブル:加重平均 Seed変更、batch combination(A, B, CやDaysの組み合わせ)の変更
  17. 22 2nd Solution (Public 27th) centered log ratio transformation (CLR)

    による前処理 ATAC-seq: ①CLR→tsvd→normalize ②高相関のgene→normalize ③Sqrt→normalize→batch corr ④①をLightGBM→tsvd→normalize CITE-seq: ①CLR→tsvd→normalize ②①をLightGBM/CatBoost/Kernel Ridge/Ridge →tsvd→normalize
  18. 23 3rd Solution Muonライブラリの利用: multimodal omics analysisに特化したscanpyみたいなモジュール ATAC-seq: Okapi bm25(出現頻度)→Latent

    Semantic Indexing(潜在意味解析) 他にBinary→svd、word2Vec、leiden clustering→pseudobulk by mean、leiden(Adj Matrix)→svd CITE-seq: Leiden、word2Vec Model: 4-layer MLP, CatBoost Ensemsble: 20MLP + 2 Catboost
  19. 2022 Multimodalコンペ https://www.kaggle.com/competitions/open-problems-multimodal 2023 Perturbationコンペ https://www.kaggle.com/competitions/open-problems-single-cell-perturbations Single-cell Best Practice https://www.sc-best-practices.org/preamble.html

    Discussion: Don’t Trust Cell Type https://www.kaggle.com/competitions/open-problems-single-cell-perturbations/discussion/458661 ヒト細胞アトラス時代の高精度1細胞RNA-seq法 https://jp.illumina.com/content/dam/illumina-marketing/apac/japan/documents/pdf/webinar/nsq-webinar-dr-nikaido-200512.pdf Ref. Wirka, R.C., Wagh, D., Paik, D.T. et al. Atheroprotective roles of smooth muscle cell phenotypic modulation and the TCF21 disease gene as revealed by single-cell analysis. Nat Med 25, 1280–1289 (2019). https://doi.org/10.1038/s41591-019- 0512-5 26 参考: