Upgrade to Pro — share decks privately, control downloads, hide ads and more …

主成分分析及びテンソル分解を用いた教師なし学習による 変数選択法の一細胞RNA-seqデータ解析

Y-h. Taguchi
September 24, 2019

主成分分析及びテンソル分解を用いた教師なし学習による 変数選択法の一細胞RNA-seqデータ解析

Presentation at RNA frontier meeting 2019
https://sites.google.com/keio.jp/rnafrontier2019
24th -26th Sep, 2019
at IBM Amagi Homestead (Japanese version)

Y-h. Taguchi

September 24, 2019
Tweet

More Decks by Y-h. Taguchi

Other Decks in Science

Transcript

  1. 主成分分析及びテンソル分解びテンソル分解をテンソル分解を用いた教分解を用いた教師なを用いた教師なし用いた教師なし学いた教師なし学習に教師なし学習によるなし学習による学習によるによる 変数選択法の一細胞の一細胞一細胞RNA-seqデータ解析 解を用いた教師な析 中央大学・理工学部・物理学科・田口善弘 テンソル分解を用いた教分解を用いた教師な: Y-h. Taguchi and Turki Turki,

    Tensor Decomposition-Based Unsupervised Feature Extraction Applied to Single-Cell Gene Expression Analysis, Front. Genet., (2019) Vol.10, p864 https://doi.org/10.3389/fgene.2019.00864 論文: 主成分分析: Y-h. Taguchi, Principal Component Analysis- Based Unsupervised Feature Extraction Applied to Single-Cell Gene Expression Analysis. ICIC 2018. (2018) Lecture Notes in Computer Science, vol 10955. Springer, Cham https://doi.org/10.1007/978-3-319-95933-7_90 Preprint: https://doi.org/10.1101/312892
  2. テンソル分解を用いた教とは? テンソル分解を用いた教とは?:行列の拡大版。の一細胞拡大版。 行列の拡大版。:遺伝子i×ヒトj(患者患者vs健常者):xij テンソル分解を用いた教:遺伝子i×ヒトj(患者患者vs健常者)×臓器k: xijk 主成分分析・テンソル分解を用いた教分解を用いた教師なとは? 主成分分析・テンソル分解を用いた教分解を用いた教師なとは? 行列の拡大版。やテンソルをベクテンソル分解を用いた教を用いた教師なしベクトル分解を用いた教の一細胞積に分解する。に分解を用いた教師なする。 N×M N

    M × 遺伝子i 遺伝子i ヒトj = ヒトj ヒトj 遺伝子i 臓 器 k ヒトj N M × 遺伝子i ヒトj = × M 臓 器 k ベクトル分解を用いた教に分解を用いた教師なす る こ と で 、 「遺伝 遺 伝 子」「遺伝ヒト」「遺伝臓器」 別のベクトルを得の一細胞ベクトル分解を用いた教を用いた教師なし得 て「遺伝意味 意味」を用いた教師なし解を用いた教師な釈 できる。 実際には一組のには一組のの一細胞 ベクトル分解を用いた教で表現はは できないの一細胞でベク トル分解を用いた教の一細胞積に分解する。の一細胞組のを用いた教師なし多 数加え合わせる。え合わせる。合わせる。わせる。
  3. 主成分分析を用いた教師なし用いた教師なし学いた教師なし学習に教師なし学習によるなし学習による学習によるによる変数選択 N 遺伝子 カテゴリクラス 主成分分析 PC1 サンプル分解を用いた教 M サンプル分解を用いた教 N

    × M 行列の拡大版。X (実数値) PC2 PC1 クラス間差異なしなし学習による N遺伝子×Mサンプルの遺伝子発現量の遺伝子発現量/遺伝子発現量/プロモーターメプロモーターメチルの遺伝子発現量化/プロモーターメ non-coding RNA発現量の遺伝子発現量/行列があったとするがあったとする。Mサンプルの遺伝子発現量はクク ラス(図では4)に分図では4)に分かではク4)に分かれていると分かれているとすかれているとする。遺伝子を低次元に埋め込低次元に埋め込に分かれていると埋め込め込込 むとクラス間で差がある遺伝で差がある遺伝子ががある遺伝子が外側にはじき出されに分かれているとはクじき出される出されるされる (図では4)に分•)。PC1がクラス間で差がある遺伝差がある遺伝子が異を表現するのでを低次元に埋め込表現するの遺伝子発現量/で。 主成分 得点 主成分負荷量
  4. 人工データ解析 によるデモ 人工データ解析 によるデモ 10 サンプル分解を用いた教 10 サンプル分解を用いた教 90 遺伝子

    10 遺伝子 N(0,1/2) N(m,1/2) [N(m,1/2)+N(0,1/2)]/2 +:Top 10 外れ値れ値値 m=2 つまり、外れ値れ値値を用いた教師なし選べば、 2 クラス間で差異なしがある遺伝 子を用いた教師なし自動的に(教師なしでに(患者教師なし学習によるなし学習によるで) 選択できる 精度 精度:(100 :(100 試行中 試行中) ) 89.5% (m=2) 52.6% (m=1) PC1 PC2 正規分布 μ:平均  ½ :標準偏 差
  5. ヒト x ij ∈ℝ19531×1977 x ik ∈ℝ24378×1907 マウス データ解析 セット GSE76381

    一細胞RNA-seq ヒトとマウスの一細胞中脳の発生過程の一細胞発生過程 i:遺伝子 j,k:細胞数 観測のタイムポインの一細胞タ解析 イムポイントと各々の細胞数はの一細胞細胞数は ヒトが、6週目:287細胞、7週目:131細胞、8週目:331細胞、9週目: 322細胞、10週目:509細胞、11週目:397細胞、の一細胞計1977細胞、 マウスが、E11.5:349細胞、E12.5:350細胞、E13.5:345細胞、E14.5: 308細胞、E15.5:356細胞、E18.5:142細胞、不明:57細胞、の一細胞計1907 細胞。
  6. 全く発現の無かっく発現の無かった発現はの一細胞無かった遺伝子はかった教師なし学習に遺伝子は除いた。いた教師なし学習に。 細胞ごとに分散1、平均0に正規化してかに正規化してから遺伝子し学習によるてから遺伝子に主成分遺伝子に主成分得点 uli、細胞に主成分負荷量vljが付与されるようにされ値るように主成分分析を用いた教師なし適用いた教師なし学 主成分分析を用いた教師なし適用いた教師なし学 (患者普通とあべこべ)。とあべこべ)。 uliが多重ガウス分布ででガウス分布でであることを用いた教師なし帰無かった遺伝子は仮説とする。とする。 P i =P χ2

    [ >∑ l=1 L ( u li σl ) 2 ] Pi: Benjamini-Hochbergで補正。 補正Pi < 0.01の一細胞遺伝子を用いた教師なし選択。 cf. 演題番号O-17 遺伝子選択の一細胞た教師なし学習にめの一細胞FDRカットオフ水準検討水準検討 藤澤孝太、宮田龍太 遺伝子の一細胞選択 遺伝子の一細胞選択 63 65 53 53 ヒト L=2 マウス L=3 遺伝子
  7. 検証:Enrichr(患者エンリッチメントサーバ)にアップロード “MGI Mammalian Phenotype 2017” 上位5位 大脳の発生過程皮質、神経繊維、歯状回、海馬、臭球→全く発現の無かって脳の発生過程の一細胞部位 他のエンリッチメの一細胞エンリッチメント解を用いた教師な析も多数やったが省多数やテンソルをベクった教師なし学習にが省略!

  8. テンソル分解を用いた教分解を用いた教師なを用いた教師なし使うう テンソル分解を用いた教分解を用いた教師なを用いた教師なし使うう 行列の拡大版。の一細胞要素をを用いた教師なし 行列の拡大版。の一細胞要素をを用いた教師なし掛けてけて 掛けてけてテンソル分解を用いた教を用いた教師なし作る。る。 テンソル分解を用いた教を用いた教師なし作る。る。 xijk = xij ×

    xik ∈ ℝ13384×1977×1907 サイズが大きすぎてテが大きすぎてテンソル分解を用いた教分解を用いた教師なできないの一細胞で縮約 xjk:を用いた教師なし特異なし値分解を用いた教師なし学習によるて vlj:第lヒト細胞特異なし値ベクトル分解を用いた教 vlk:第lマウス細胞特異なし値ベクトル分解を用いた教 を用いた教師なし得る。 何らかの時間依存ら遺伝子に主成分かの一細胞時間依存性があるがあるvljとvlkを用いた教師なしカテゴリ回帰(患者ANOVA)で選択。 v lj =a l +∑ t b lt δjt v lk =a l ' +∑ t b lt ' δkt δjt,δkt:細胞j,kが時刻tなら遺伝子に主成分1,そうじゃなけれ値ば0に正規化してか i:遺伝子 j,k:細胞数 x jk =∑ i x ijk
  9. 選択され値た教師なし学習に特異なし値ベクトル分解を用いた教の一細胞共通とあべこべ)。度 12 23 32 32 ヒト マウス vljとvlkから遺伝子に主成分uliを用いた教師なし作る。る u li

    ( j)=∑ j v lj x ij u li (k)=∑ k v lk x ik 第lヒト遺伝子特異なし値ベクトル分解を用いた教 第lマウス遺伝子特異なし値ベクトル分解を用いた教 遺伝子特異なし値ベクトル分解を用いた教にχ二乗分布を用いた教師なし仮定して遺伝子にし学習によるて遺伝子にP値を用いた教師なし 付与されるように、BH基準で多重ガウス分布でで比較補正し学習によるて0.01以下の遺伝子を選択の一細胞遺伝子を用いた教師なし選択
  10. 151 200 305 305 ヒト マウス 選択遺伝子 検証:Enrichr(患者エンリッチメントサー バ)にアップロード “Allen

    Brain Atlas” 上位5位 視床下の遺伝子を選択部∈中脳の発生過程 他のエンリッチメの一細胞エンリッチメント解を用いた教師な析も多数やったが省多数やテンソルをベクった教師なし学習にが省略!
  11. まとめ 主成分分析やテンソルをベクテンソル分解を用いた教分解を用いた教師なを用いた教師なし用いた教師なし学いて、教師なし学習によるなし学習による学習によるで生物 学的に(教師なしでに意味がある遺伝子を用いた教師なし選択できた教師なし学習に。 一細胞RNA-seqは細胞にラベル分解を用いた教がついていない、また教師なし学習には、 すく発現の無かったない、ことが多いの一細胞でこの一細胞方法の一細胞は有効である。である。 Springerから英語の単著で解英語の単著で解説書の遺伝子発現量/単著で解説書を出しで解説書を出しましを低次元に埋め込出されるしまし たの遺伝子発現量/で買って頂けると嬉って頂けると嬉しいでけると嬉しいです。とてしいです。とても高高 いの遺伝子発現量/で研究費での購入をお勧での遺伝子発現量/購入をお勧めしますを低次元に埋め込お勧めします。勧めします。め込します。