Upgrade to Pro — share decks privately, control downloads, hide ads and more …

主成分分析を用いた教師無し学習による変数選択の一細胞RNA-seqへの応用

 主成分分析を用いた教師無し学習による変数選択の一細胞RNA-seqへの応用

一細胞 RNA-seq は従来の臓器レベルの平均化された遺伝子発現プロファイルの観測を超えて、細胞ごとの発現プロファイルを観測できるという意味で画期的である。一方、個々の細胞にはラベルがついていないため、従来の臓器レベルの観測の様に、正常臓器と腫瘍で差が大きい遺伝子を選ぶ、などの基準で遺伝子を選択することができない。遺伝子を選択することは tSNE などのクラスタリングによる可視化を行う場合にも非常に重要なプロセスである。このため、ラベルを用いない教師なし学習による変数選択の方法がいくつか提案されてきた。ここでは、著者が従来から提唱している「主成分分析を用いた教師なし学習による変数選択法」を一細胞 RNA-seq における遺伝子選択に用いた場合を考察し、他の手法(highly variable genes, bimodal genes, dpFeature )による変数選択との比較を行う。

Y-h. Taguchi

March 09, 2019
Tweet

More Decks by Y-h. Taguchi

Other Decks in Science

Transcript

  1. 主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師無し学習による変し学習による変数学習による変数選択による変数選択の変数選択のの 一細胞 RNA-seq への応用いた教師無し学 中央大学理工学部物理学科田口善弘 本研究ははICIC2018(August 15-18, 2018 武漢,中国 )にて発表済みでにて発表済みです。発表済みです。みです。

    Principal Component Analysis-Based Unsupervised Feature Extraction Applied to Single-Cell Gene Expression Analysis https://doi.org/10.1007/978-3-319-95933-7_90 https://doi.org/10.1101/312892
  2. 一細胞RNA-seqは組織の細胞をバラしの細胞を用いた教師無しバラして個々の細胞し学習による変数て発表済みです。個々の細胞の遺伝の細胞の遺伝 子発現量を計測する技術を用いた教師無し計測する技術です。する変数選択の技術です。なので、です。なので、細胞にラベルが細胞にラして個々の細胞ベルがついてがついて発表済みです。 いない。この場合、細胞にラベルが「発現差で遺伝子を選択で遺伝子を用いた教師無し選択の」とかやりにくいとかやりにくい。 講演者は従来からは従来からから 主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択の 及びび テンソルがついて分解をを用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択の を用いた教師無し提唱してきた。サンし学習による変数て発表済みです。きた教師無し学習に。サンプルがついてラして個々の細胞ベルがついてを用いた教師無し用いた教師無し学いないで遺伝子選択のを用いた教師無し実 行する方法なのでする変数選択の方法なのでむしろ一なのでむし学習による変数ろ一細胞一細胞RNAseqが向いている(はずいて発表済みです。いる変数選択の(はず)にて発表済みで。 今回はこっちはこっち

  3. 主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択の N 遺伝子 カテゴリクラして個々の細胞ス 主成分分析を用いた教師無 PC1 サンプルがついて M サンプルがついて N

    × M 行する方法なので列X (実数値) PC2 PC1 クラして個々の細胞ス間差で遺伝子を選択異なしなし学習による変数 N遺伝子×Mサンプルの遺伝子発現量の遺伝子発現量/遺伝子発現量/プロモーターメプロモーターメチルの遺伝子発現量化/プロモーターメ non-coding RNA発現量の遺伝子発現量/行列があったとするがあったとする。Mサンプルの遺伝子発現量はクク ラス(図では4)に分図では4)に分かではク4)に分かれていると分かれているとすかれているとする。遺伝子を低次元に埋め込低次元に埋め込に分かれていると埋め込め込込 むとクラス間で差がある遺伝で差がある遺伝子ががある遺伝子が外側にはじき出されに分かれているとはクじき出される出されるされる (図では4)に分•)。PC1がクラス間で差がある遺伝差がある遺伝子が異を表現するのでを低次元に埋め込表現するの遺伝子発現量/で。 主成分 得点 主成分負荷量を計測する技術
  4. 人工データによるデモによる変数選択のデモ 人工データによるデモによる変数選択のデモ 10 サンプルがついて 10 サンプルがついて 90 遺伝子 10 遺伝子

    N(0,1/2) N(m,1/2) [N(m,1/2)+N(0,1/2)]/2 +:Top 10 外れ値れ値値 m=2 つまり、細胞にラベルが外れ値れ値値を用いた教師無し選べば、細胞にラベルが 2 クラして個々の細胞ス間で差で遺伝子を選択異なしがある変数選択の遺伝 子を用いた教師無し自動的に(教師なしでに(教師なし学習による変数で)にて発表済みで 選択のできる変数選択の 精度 精度:(100 :(100 試行する方法なので中 試行する方法なので中) ) 89.5% (m=2) 52.6% (m=1) PC1 PC2 正規分布 μ:平均  平均  ½ :標準偏 差で遺伝子を選択
  5. データによるデモセット GSE76381 In order to get a better molecular understanding of

    human midbrain development, this study defines cell types of the ventral midbrain in both human and mouse as well as …. Single cells according to Samples list consisting of: Human embryo ventral midbrain cells between 6 and 11 weeks of gestation, mouse ventral midbrain cells at six developmental stages between E11.5 to E18.5, Th+ neurons at P19-P27, and putative dopaminergic neurons at P28-P56 FACS-sorted from Slc6a3-Cre/tdTomato mice.
  6. ヒト x ij ∈ℝ19531×1977 x ij ∈ℝ24378×1907 マウス i:遺伝子 j:細胞数

    全く発現の無かっく発現の無し学習による変かった教師無し学習に遺伝子は除いた。いた教師無し学習に。 細胞ごとに分散1、細胞にラベルが平均0に正規化してかに正規化してから遺伝子し学習による変数て発表済みです。から遺伝子に主成分得点 uki、細胞にラベルが細胞に主成分負荷量を計測する技術vkjが付与されるようにされ値る変数選択のようにPCAする変数選択の(普通 とあべこべ)にて発表済みで
  7. uliが多重ガウス分布ででガウス分布でである変数選択のことを用いた教師無し帰無し学習による変仮説とする。とする変数選択の。 P i =P χ2 [ >∑ k=1 K (

    u ki σk ) 2 ] Pi: Benjamini-Hochbergで補正。 補正Pi < 0.01の遺伝子を用いた教師無し選択の。 ヒト: K=2, 116遺伝子 マウス:K=3, 118遺伝子 が選択のされ値た教師無し学習に。 53遺伝子 53遺伝子が共通。非常に共通性が高いに共通性が高い。が高い。い。
  8. 検証:平均  Enrichr(エンリッチメントサーバ)にて発表済みでにアップロード “MGI Mammalian Phenotype 2017” 上位5位 大脳皮質、細胞にラベルが神経繊維、細胞にラベルが歯状回はこっち、細胞にラベルが海馬、細胞にラベルが臭球→全く発現の無かって発表済みです。脳の部位

  9. “ヒト Allen Brain Atlas down” 上位5位 “マウス Allen Brain Atlas down” 上位5位

  10. “ヒト GTEx Tissue Sample Gene Expression Profiles down” 上位5位 “マウス

    GTEx Tissue Sample Gene Expression Profiles down” 上位5位
  11. Jensen TISSUES 脳と脳の発生に関連した遺伝に関連した遺伝子が拾し学習による変数た教師無し学習に遺伝子が拾えているので生えて発表済みです。いる変数選択のので生に関連した遺伝物学的に(教師なしでに妥当。 → 転写系の遺伝子とか拾の遺伝子とか拾えているので生える変数選択のか?

  12. ENCODE and ChEA Consensus TFs from ChIP-X 選択の遺伝子を用いた教師無し標的に(教師なしでにし学習による変数て発表済みです。いる変数選択の転写因子はた教師無し学習にくさんある変数選択の (太字は共通)。は共通)にて発表済みで。

  13. ヒト マウス RegNetworkによる変数選択の 転写因子ネットワーク

  14. 主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のは、細胞にラベルが教師な し学習による変数学習による変数選択である変数選択のにも関わらず関わらず ・マウスとヒトの中脳発生に関連した遺伝過程の遺伝子発現プの遺伝子発現プロファイルがついてから 別々の細胞の遺伝に選択のし学習による変数た教師無し学習に遺伝子が大きく重ガウス分布ででなって発表済みです。いた教師無し学習に。 ・選ばれ値た教師無し学習に遺伝子はいろ一細胞いろ一細胞な意味で脳や脳の発生で脳や脳の発生に関連した遺伝に巻稀 有していたし学習による変数て発表済みです。いた教師無し学習に ・選択の遺伝子を用いた教師無し標的に(教師なしでとする変数選択の多数の転写因子が見つかったつかった教師無し学習に ・これ値らの転写因子も関わらずヒトとマウスで大きく重ガウス分布ででなって発表済みです。いた教師無し学習に(マウ スで同定された転写因子され値た教師無し学習に転写因子などはほぼ全部、ヒトでも全く発現の無かっ部、細胞にラベルがヒトでも関わらず同定された転写因子され値 て発表済みです。いた教師無し学習に)にて発表済みで。

    ・選択のされ値た教師無し学習に転写因子は転写因子ネットワークを用いた教師無し構成し学習による変数て発表済みです。いた教師無し学習に 「教師なし学習による変数学習による変数選択」とかやりにくいである変数選択のにも関わらず関わらず。
  15. 一般に一細胞に一細胞RNA-seqは、細胞にラベルがラして個々の細胞ベルがついてなし学習による変数データによるデモなのだから、細胞にラベルが「主 成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択の」とかやりにくいがうまく使ええ る変数選択ののならこの方法なのでむしろ一を用いた教師無し使えうのは妥当な選択の肢の1つである。の1つである変数選択の。 他にも、ラベルなにも関わらず、細胞にラベルがラして個々の細胞ベルがついてなし学習による変数データによるデモセットで使ええる変数選択ののある変数選択のでし学習による変数ょ? ・Highly variable genes ・Bimodal genes (Unimodal

    test) ・dfFeature と比較
  16. log 10 ( σi mi )= 1 2 log 10

    ( β mi +α)+ϵi Highly variable genes Highly variable genes P i =P χ2 [ >( ϵi σ' i ) 2 ] μi : 遺伝子iの発現量を計測する技術の平均 σi : 遺伝子iの発現量を計測する技術の標準偏差で遺伝子を選択   σi : 残差で遺伝子を選択の標準偏差で遺伝子を選択 Pi: Benjamini-Hochbergで補正。 補正Pi < 0.01の遺伝子を用いた教師無し選択の。
  17. Unimodal test Unimodal test 遺伝子iの発現量の単峰性発現量の単峰性の発現量の単峰性単峰性(帰無仮説)を検定検定 Hartigans Dip Test Pi: Benjamini-Hochbergで補正。

    補正Pi < 0.01の遺伝子を用いた教師無し選択の。 dfFeature dfFeature Qiu, X., Mao, Q., Tang, Y., Wang, L., Chawla, R., Pliner, H.A., Trapnell, C.: Reversed graph embedding resolves complex single- cell trajectories. Nat. Methods. 14, 979–982 (2017)
  18. 結果:平均   Highly variable genes ヒト 168遺伝子遺伝子 マウス 171遺伝子 共通 44遺伝子 (主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のと相違)にて発表済みで 選択の遺伝子数、細胞にラベルがオーバーラして個々の細胞ップは提案手法なのでむしろ一と同等程の遺伝子発現プ度。

    エンリッチメント解を析を用いた教師無 “MGI Mammalian Phenotype 2017” →上位5位に脳関係なしなし学習による変数 “Allen Brain Atlas down” ヒト:平均  有していた意(FDR<0に正規化してか.0に正規化してか1)にて発表済みでなエンリッチメントなし学習による変数 マウス:平均  た教師無し学習にくさん検出 →これ値はヒトとマウスで共通に選ばれ値た教師無し学習に遺伝子に生に関連した遺伝物学的に(教師なしで な意味で脳や脳の発生が欠けている可能性けて発表済みです。いる変数選択の可能性が高い。を用いた教師無し強く示唆しているく示唆している。し学習による変数て発表済みです。いる変数選択の。
  19. “GTEx Tissue Sample Gene Expression Profiles down” ヒト、細胞にラベルがマウス、細胞にラベルがとも関わらず脳関係なしなし学習による変数。 “Jensen TISSUES”

    ヒト、細胞にラベルがマウス、細胞にラベルがとも関わらず脳関係なしなし学習による変数。 “ENCODE and ChEA Consensus TFs from ChIP-X” ヒトとマウスで一個ずつの転写因子が選択の遺伝子を用いた教師無し標的に(教師なしでとし学習による変数 て発表済みです。いる変数選択のだけだった教師無し学習に。 → 要するにする変数選択のにhighly variable genesは生に関連した遺伝物学的に(教師なしでな意味で脳や脳の発生が希薄 な遺伝子の選択のになって発表済みです。し学習による変数まって発表済みです。いる変数選択の。tSNEできれ値いなクラして個々の細胞ス タによるデモーが得られ値る変数選択のことが多いのでhighly variable genesはよく使えわ れ値て発表済みです。いる変数選択のが、細胞にラベルがいかがなも関わらずのか。
  20. Bimodal genes (unimodal test) ヒト 11344遺伝子 マウス 10に正規化してか8遺伝子49遺伝子遺伝子 → 多すぎる変数選択の。 上位20に正規化してか0に正規化してか位ずつ、細胞にラベルが選ぶ。 オーバーラして個々の細胞ップが21遺伝子(少ない)。ない)にて発表済みで。 (主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のと相違)にて発表済みで

    エンリッチメント解を析を用いた教師無 “MGI Mammalian Phenotype 2017” 有していた意(FDR<0に正規化してか.0に正規化してか1)にて発表済みでなエンリッチメントなし学習による変数
  21. “Allen Brain Atlas down” ヒト マウス 主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のの場合 (P〜10-11)にて発表済みでよりP値がずっと大きい(有していた意性が高い。が低い)。い)にて発表済みで。

  22. “GTEx Tissue Sample Gene Expression Profiles down” ヒト、細胞にラベルがマウス、細胞にラベルがとも関わらず脳関係なしなし学習による変数。 “Jensen TISSUES”

    主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のの場合 (P〜10-15,10-18)にて発表済みでよりP値がずっと小さいのでこれださいのでこれ値だけは勝っている。って発表済みです。いる変数選択の。 ...といって発表済みです。も関わらず主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択はそも関わらずそも関わらず10に正規化してか0に正規化してか個強く示唆している し学習による変数か選んでないので勝っている。ち様がない。がない。
  23. “ENCODE and ChEA Consensus TFs from ChIP-X” 太字は共通)。+赤:平均  ヒトとマウスのオーバーラして個々の細胞ップ 赤:平均

     主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のとのオー バーラして個々の細胞ップ
  24. ヒト マウス RegNetworkによる変数選択の 転写因子ネットワーク

  25. → Bimodal genesは200遺伝子という選択の数を用いた教師無し外れ値部基準 で与されるようにえる変数選択のことができれ値ば、細胞にラベルが悪く無い。しかしく無し学習による変い。し学習による変数かし学習による変数、細胞にラベルが一細胞RNA- seqではfold changeなどの基準がないのでそれ値はできない ので独立した手法としてし学習による変数た教師無し学習に手法なのでむしろ一とし学習による変数て発表済みです。は無し学習による変価値。 た教師無し学習にだ、細胞にラベルが転写因子の選択のは、細胞にラベルが遺伝子の被りが皆無なのにりが皆無し学習による変なのに主 成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のの場合と 大きく被りが皆無なのにって発表済みです。いる変数選択のので、細胞にラベルが主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択 による変数選択の変数選択のの変数選択のの結果の生に関連した遺伝物学的に(教師なしでな正し学習による変数さの

    傍証とし学習による変数て発表済みです。は意味で脳や脳の発生がある変数選択の。
  26. dpFeature ヒト 11375遺伝子 マウス 13362遺伝子 → 多すぎる変数選択の。 上位20に正規化してか0に正規化してか位ずつ、細胞にラベルが選ぶ。 オーバーラして個々の細胞ップが76遺伝子(多い)にて発表済みで。 (主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のとの被りが皆無なのに りも関わらず51遺伝子と44遺伝子で結構多い)にて発表済みで エンリッチメント解を析を用いた教師無 “MGI

    Mammalian Phenotype 2017” 脳と関係なしある変数選択ののは5番目だけ。だけ。
  27. “Allen Brain Atlas down” ヒト マウス 主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のの場合 (P〜10-11)にて発表済みでよりP値がずっと大きい(有していた意性が高い。が低い)。い)にて発表済みで。

  28. “GTEx Tissue Sample Gene Expression Profiles down” ヒト、細胞にラベルがマウス、細胞にラベルがとも関わらず脳関係なしなし学習による変数。 “Jensen TISSUES”

    主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のの場合 (P〜10-15,10-18)にて発表済みでよりP値がずっと小さいのでこれださいのでこれ値だけは勝っている。って発表済みです。いる変数選択の。 ...といって発表済みです。も関わらず主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択はそも関わらずそも関わらず10に正規化してか0に正規化してか個強く示唆している し学習による変数か選んでないので勝っている。ち様がない。がない。
  29. “ENCODE and ChEA Consensus TFs from ChIP-X” 太字は共通)。+赤:平均  ヒトとマウスのオーバーラして個々の細胞ップ 赤:平均

     主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のとのオー バーラして個々の細胞ップ → dpfeatureは200遺伝子という選択の数を用いた教師無し外れ値部基準で与されるようにえる変数選択のこ とができれ値ば、細胞にラベルが悪く無い。しかしく無し学習による変い。し学習による変数かし学習による変数、細胞にラベルが一細胞RNA-seqではfold change などの基準がないのでそれ値はできないので独立した手法としてし学習による変数た教師無し学習に手法なのでむしろ一とし学習による変数て発表済みです。 は無し学習による変価値。
  30. 主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のとの比較 における変数選択の、細胞にラベルがhighly variable gene, bimodal gene, dpFeatureの性が高い。能。 Highly variable genesは生に関連した遺伝物学的に(教師なしでに意味で脳や脳の発生のある変数選択の遺伝子を用いた教師無し選択の

    できない。 Bimodal geneやdpFeatureは「上位20に正規化してか0に正規化してか遺伝子を用いた教師無し選ぶ」とかやりにくいという基 準を用いた教師無し決めれば、めれ値ば、細胞にラベルが主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数 選択のと同等以上の性が高い。能が出せる変数選択のが、細胞にラベルがその基準がないと1万個 以上の遺伝子を用いた教師無し選んでし学習による変数まうのNG 現状では主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択の がベスト。
  31. おまけ 論文投稿後、細胞にラベルが Chen, B., Lau, K.S., Herring, C.A.: pyNVR: investigating

    factors affecting feature selection from scRNA-seq data for lineage reconstruction, Bioinformatcs (2018) が出版され、され値、細胞にラベルが主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選 択のを用いた教師無し含む複数の手法がむ複数の手法なのでむしろ一が比較され値た教師無し学習に(エンリッチメント解を析を用いた教師無を用いた教師無し用いた教師無し学 いた教師無し学習に評価)にて発表済みで。その結果、細胞にラベルが主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択によ る変数選択の変数選択のは他にも、ラベルな手法なのでむしろ一と同等の性が高い。能がある変数選択のと評価され値た教師無し学習に。