主成分分析を用いた教師無し学習による変数選択の一細胞RNA-seqへの応用

Slide 1

Slide 1 text

主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師無し学習による変し学習による変数学習による変数選択による変数選択の変数選択のの一細胞 RNA-seq への応用いた教師無し学中央大学理工学部物理学科田口善弘本研究ははICIC2018（August 15-18, 2018 武漢,中国）にて発表済みでにて発表済みです。発表済みです。みです。 Principal Component Analysis-Based Unsupervised Feature Extraction Applied to Single-Cell Gene Expression Analysis https://doi.org/10.1007/978-3-319-95933-7_90 https://doi.org/10.1101/312892

Slide 2

Slide 2 text

一細胞RNA-seqは組織の細胞をバラしの細胞を用いた教師無しバラして個々の細胞し学習による変数て発表済みです。個々の細胞の遺伝の細胞の遺伝子発現量を計測する技術を用いた教師無し計測する技術です。する変数選択の技術です。なので、です。なので、細胞にラベルが細胞にラして個々の細胞ベルがついてがついて発表済みです。いない。この場合、細胞にラベルが「発現差で遺伝子を選択で遺伝子を用いた教師無し選択の」とかやりにくいとかやりにくい。講演者は従来からは従来からから主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択の及びびテンソルがついて分解をを用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のを用いた教師無し提唱してきた。サンし学習による変数て発表済みです。きた教師無し学習に。サンプルがついてラして個々の細胞ベルがついてを用いた教師無し用いた教師無し学いないで遺伝子選択のを用いた教師無し実行する方法なのでする変数選択の方法なのでむしろ一なのでむし学習による変数ろ一細胞一細胞RNAseqが向いている（はずいて発表済みです。いる変数選択の（はず）にて発表済みで。今回はこっちはこっち

Slide 3

Slide 3 text

主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択の N 遺伝子カテゴリクラして個々の細胞ス主成分分析を用いた教師無 PC1 サンプルがついて M サンプルがついて N × M 行する方法なので列X (実数値) PC2 PC1 クラして個々の細胞ス間差で遺伝子を選択異なしなし学習による変数 N遺伝子×Mサンプルの遺伝子発現量の遺伝子発現量／遺伝子発現量／プロモーターメプロモーターメチルの遺伝子発現量化／プロモーターメ non-coding RNA発現量の遺伝子発現量／行列があったとするがあったとする。Mサンプルの遺伝子発現量はククラス（図では４）に分図では４）に分かではク４）に分かれていると分かれているとすかれているとする。遺伝子を低次元に埋め込低次元に埋め込に分かれていると埋め込め込込むとクラス間で差がある遺伝で差がある遺伝子ががある遺伝子が外側にはじき出されに分かれているとはクじき出される出されるされる（図では４）に分●）。PC1がクラス間で差がある遺伝差がある遺伝子が異を表現するのでを低次元に埋め込表現するの遺伝子発現量／で。主成分得点主成分負荷量を計測する技術

Slide 4

Slide 4 text

人工データによるデモによる変数選択のデモ人工データによるデモによる変数選択のデモ 10 サンプルがついて 10 サンプルがついて 90 遺伝子 10 遺伝子 N(0,1/2) N(m,1/2) [N(m,1/2)+N(0,1/2)]/2 +:Top 10 外れ値れ値値 m=2 つまり、細胞にラベルが外れ値れ値値を用いた教師無し選べば、細胞にラベルが２クラして個々の細胞ス間で差で遺伝子を選択異なしがある変数選択の遺伝子を用いた教師無し自動的に（教師なしでに（教師なし学習による変数で）にて発表済みで選択のできる変数選択の精度精度:(100 :(100 試行する方法なので中試行する方法なので中) ) 89.5% (m=2) 52.6% (m=1) PC1 PC2 正規分布 μ：平均　平均　½ :標準偏差で遺伝子を選択

Slide 5

Slide 5 text

データによるデモセット　GSE76381 In order to get a better molecular understanding of human midbrain development, this study defines cell types of the ventral midbrain in both human and mouse as well as …. Single cells according to Samples list consisting of: Human embryo ventral midbrain cells between 6 and 11 weeks of gestation, mouse ventral midbrain cells at six developmental stages between E11.5 to E18.5, Th+ neurons at P19-P27, and putative dopaminergic neurons at P28-P56 FACS-sorted from Slc6a3-Cre/tdTomato mice.

Slide 6

Slide 6 text

ヒト x ij ∈ℝ19531×1977 x ij ∈ℝ24378×1907 マウス i:遺伝子 j:細胞数全く発現の無かっく発現の無し学習による変かった教師無し学習に遺伝子は除いた。いた教師無し学習に。細胞ごとに分散１、細胞にラベルが平均０に正規化してかに正規化してから遺伝子し学習による変数て発表済みです。から遺伝子に主成分得点 uki、細胞にラベルが細胞に主成分負荷量を計測する技術vkjが付与されるようにされ値る変数選択のようにPCAする変数選択の（普通とあべこべ）にて発表済みで

Slide 7

Slide 7 text

uliが多重ガウス分布ででガウス分布でである変数選択のことを用いた教師無し帰無し学習による変仮説とする。とする変数選択の。 P i =P χ2 [ >∑ k=1 K ( u ki σk ) 2 ] Pi: Benjamini-Hochbergで補正。補正Pi < 0.01の遺伝子を用いた教師無し選択の。ヒト: K=2, 116遺伝子マウス:K=3, 118遺伝子が選択のされ値た教師無し学習に。５３遺伝子５３遺伝子が共通。非常に共通性が高いに共通性が高い。が高い。い。

Slide 8

Slide 8 text

検証：平均　Enrichr（エンリッチメントサーバ）にて発表済みでにアップロード “MGI Mammalian Phenotype 2017”　上位５位大脳皮質、細胞にラベルが神経繊維、細胞にラベルが歯状回はこっち、細胞にラベルが海馬、細胞にラベルが臭球→全く発現の無かって発表済みです。脳の部位

Slide 9

Slide 9 text

“ヒト Allen Brain Atlas down”　上位５位 “マウス Allen Brain Atlas down”　上位５位

Slide 10

Slide 10 text

“ヒト GTEx Tissue Sample Gene Expression Profiles down” 上位５位 “マウス GTEx Tissue Sample Gene Expression Profiles down” 上位５位

Slide 11

Slide 11 text

Jensen TISSUES 脳と脳の発生に関連した遺伝に関連した遺伝子が拾し学習による変数た教師無し学習に遺伝子が拾えているので生えて発表済みです。いる変数選択のので生に関連した遺伝物学的に（教師なしでに妥当。 →　転写系の遺伝子とか拾の遺伝子とか拾えているので生える変数選択のか？

Slide 12

Slide 12 text

ENCODE and ChEA Consensus TFs from ChIP-X 選択の遺伝子を用いた教師無し標的に（教師なしでにし学習による変数て発表済みです。いる変数選択の転写因子はた教師無し学習にくさんある変数選択の（太字は共通）。は共通）にて発表済みで。

Slide 13

Slide 13 text

ヒトマウス RegNetworkによる変数選択の転写因子ネットワーク

Slide 14

Slide 14 text

主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のは、細胞にラベルが教師なし学習による変数学習による変数選択である変数選択のにも関わらず関わらず・マウスとヒトの中脳発生に関連した遺伝過程の遺伝子発現プの遺伝子発現プロファイルがついてから別々の細胞の遺伝に選択のし学習による変数た教師無し学習に遺伝子が大きく重ガウス分布ででなって発表済みです。いた教師無し学習に。・選ばれ値た教師無し学習に遺伝子はいろ一細胞いろ一細胞な意味で脳や脳の発生で脳や脳の発生に関連した遺伝に巻稀有していたし学習による変数て発表済みです。いた教師無し学習に・選択の遺伝子を用いた教師無し標的に（教師なしでとする変数選択の多数の転写因子が見つかったつかった教師無し学習に・これ値らの転写因子も関わらずヒトとマウスで大きく重ガウス分布ででなって発表済みです。いた教師無し学習に（マウスで同定された転写因子され値た教師無し学習に転写因子などはほぼ全部、ヒトでも全く発現の無かっ部、細胞にラベルがヒトでも関わらず同定された転写因子され値て発表済みです。いた教師無し学習に）にて発表済みで。・選択のされ値た教師無し学習に転写因子は転写因子ネットワークを用いた教師無し構成し学習による変数て発表済みです。いた教師無し学習に「教師なし学習による変数学習による変数選択」とかやりにくいである変数選択のにも関わらず関わらず。

Slide 15

Slide 15 text

一般に一細胞に一細胞RNA-seqは、細胞にラベルがラして個々の細胞ベルがついてなし学習による変数データによるデモなのだから、細胞にラベルが「主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択の」とかやりにくいがうまく使ええる変数選択ののならこの方法なのでむしろ一を用いた教師無し使えうのは妥当な選択の肢の１つである。の１つである変数選択の。他にも、ラベルなにも関わらず、細胞にラベルがラして個々の細胞ベルがついてなし学習による変数データによるデモセットで使ええる変数選択ののある変数選択のでし学習による変数ょ？・Highly variable genes ・Bimodal genes (Unimodal test) ・dfFeature と比較

Slide 16

Slide 16 text

log 10 ( σi mi )= 1 2 log 10 ( β mi +α)+ϵi Highly variable genes Highly variable genes P i =P χ2 [ >( ϵi σ' i ) 2 ] μi : 遺伝子iの発現量を計測する技術の平均 σi : 遺伝子iの発現量を計測する技術の標準偏差で遺伝子を選択　 σi : 残差で遺伝子を選択の標準偏差で遺伝子を選択 Pi: Benjamini-Hochbergで補正。補正Pi < 0.01の遺伝子を用いた教師無し選択の。

Slide 17

Slide 17 text

Unimodal test Unimodal test 遺伝子iの発現量の単峰性発現量の単峰性の発現量の単峰性単峰性(帰無仮説)を検定検定 Hartigans Dip Test Pi: Benjamini-Hochbergで補正。補正Pi < 0.01の遺伝子を用いた教師無し選択の。 dfFeature dfFeature Qiu, X., Mao, Q., Tang, Y., Wang, L., Chawla, R., Pliner, H.A., Trapnell, C.: Reversed graph embedding resolves complex single- cell trajectories. Nat. Methods. 14, 979–982 (2017)

Slide 18

Slide 18 text

結果：平均　 Highly variable genes ヒト　１６８遺伝子遺伝子マウス　１７１遺伝子共通　４４遺伝子（主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のと相違）にて発表済みで選択の遺伝子数、細胞にラベルがオーバーラして個々の細胞ップは提案手法なのでむしろ一と同等程の遺伝子発現プ度。エンリッチメント解を析を用いた教師無 “MGI Mammalian Phenotype 2017” →上位５位に脳関係なしなし学習による変数 “Allen Brain Atlas down” ヒト：平均　有していた意（FDR＜０に正規化してか．０に正規化してか１）にて発表済みでなエンリッチメントなし学習による変数マウス：平均　た教師無し学習にくさん検出 →これ値はヒトとマウスで共通に選ばれ値た教師無し学習に遺伝子に生に関連した遺伝物学的に（教師なしでな意味で脳や脳の発生が欠けている可能性けて発表済みです。いる変数選択の可能性が高い。を用いた教師無し強く示唆しているく示唆している。し学習による変数て発表済みです。いる変数選択の。

Slide 19

Slide 19 text

“GTEx Tissue Sample Gene Expression Profiles down” ヒト、細胞にラベルがマウス、細胞にラベルがとも関わらず脳関係なしなし学習による変数。 “Jensen TISSUES” ヒト、細胞にラベルがマウス、細胞にラベルがとも関わらず脳関係なしなし学習による変数。 “ENCODE and ChEA Consensus TFs from ChIP-X” ヒトとマウスで一個ずつの転写因子が選択の遺伝子を用いた教師無し標的に（教師なしでとし学習による変数て発表済みです。いる変数選択のだけだった教師無し学習に。 →　要するにする変数選択のにhighly variable genesは生に関連した遺伝物学的に（教師なしでな意味で脳や脳の発生が希薄な遺伝子の選択のになって発表済みです。し学習による変数まって発表済みです。いる変数選択の。tSNEできれ値いなクラして個々の細胞スタによるデモーが得られ値る変数選択のことが多いのでhighly variable genesはよく使えわれ値て発表済みです。いる変数選択のが、細胞にラベルがいかがなも関わらずのか。

Slide 20

Slide 20 text

Bimodal genes (unimodal test) ヒト　１１３４４遺伝子マウス　１０に正規化してか８遺伝子４９遺伝子遺伝子 →　多すぎる変数選択の。上位２０に正規化してか０に正規化してか位ずつ、細胞にラベルが選ぶ。オーバーラして個々の細胞ップが２１遺伝子（少ない）。ない）にて発表済みで。（主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のと相違）にて発表済みでエンリッチメント解を析を用いた教師無 “MGI Mammalian Phenotype 2017” 有していた意（FDR＜０に正規化してか．０に正規化してか１）にて発表済みでなエンリッチメントなし学習による変数

Slide 21

Slide 21 text

“Allen Brain Atlas down” ヒトマウス主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のの場合（P〜10-11）にて発表済みでよりP値がずっと大きい（有していた意性が高い。が低い）。い）にて発表済みで。

Slide 22

Slide 22 text

“GTEx Tissue Sample Gene Expression Profiles down” ヒト、細胞にラベルがマウス、細胞にラベルがとも関わらず脳関係なしなし学習による変数。 “Jensen TISSUES” 主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のの場合（P〜10-15,10-18）にて発表済みでよりP値がずっと小さいのでこれださいのでこれ値だけは勝っている。って発表済みです。いる変数選択の。 ...といって発表済みです。も関わらず主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択はそも関わらずそも関わらず１０に正規化してか０に正規化してか個強く示唆しているし学習による変数か選んでないので勝っている。ち様がない。がない。

Slide 23

Slide 23 text

Slide 24

Slide 24 text

ヒトマウス RegNetworkによる変数選択の転写因子ネットワーク

Slide 25

Slide 25 text

→　Bimodal genesは200遺伝子という選択の数を用いた教師無し外れ値部基準で与されるようにえる変数選択のことができれ値ば、細胞にラベルが悪く無い。しかしく無し学習による変い。し学習による変数かし学習による変数、細胞にラベルが一細胞RNA- seqではfold changeなどの基準がないのでそれ値はできないので独立した手法としてし学習による変数た教師無し学習に手法なのでむしろ一とし学習による変数て発表済みです。は無し学習による変価値。た教師無し学習にだ、細胞にラベルが転写因子の選択のは、細胞にラベルが遺伝子の被りが皆無なのにりが皆無し学習による変なのに主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のの場合と大きく被りが皆無なのにって発表済みです。いる変数選択のので、細胞にラベルが主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のの変数選択のの結果の生に関連した遺伝物学的に（教師なしでな正し学習による変数さの傍証とし学習による変数て発表済みです。は意味で脳や脳の発生がある変数選択の。

Slide 26

Slide 26 text

dpFeature ヒト　１１３７５遺伝子マウス　１３３６２遺伝子 →　多すぎる変数選択の。上位２０に正規化してか０に正規化してか位ずつ、細胞にラベルが選ぶ。オーバーラして個々の細胞ップが７６遺伝子（多い）にて発表済みで。（主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のとの被りが皆無なのにりも関わらず５１遺伝子と４４遺伝子で結構多い）にて発表済みでエンリッチメント解を析を用いた教師無 “MGI Mammalian Phenotype 2017” 脳と関係なしある変数選択ののは５番目だけ。だけ。

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

“ENCODE and ChEA Consensus TFs from ChIP-X” 太字は共通）。＋赤：平均　ヒトとマウスのオーバーラして個々の細胞ップ赤：平均　主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のとのオーバーラして個々の細胞ップ →　dpfeatureは200遺伝子という選択の数を用いた教師無し外れ値部基準で与されるようにえる変数選択のことができれ値ば、細胞にラベルが悪く無い。しかしく無し学習による変い。し学習による変数かし学習による変数、細胞にラベルが一細胞RNA-seqではfold change などの基準がないのでそれ値はできないので独立した手法としてし学習による変数た教師無し学習に手法なのでむしろ一とし学習による変数て発表済みです。は無し学習による変価値。

Slide 30

Slide 30 text

主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のとの比較における変数選択の、細胞にラベルがhighly variable gene, bimodal gene, dpFeatureの性が高い。能。 Highly variable genesは生に関連した遺伝物学的に（教師なしでに意味で脳や脳の発生のある変数選択の遺伝子を用いた教師無し選択のできない。 Bimodal geneやdpFeatureは「上位２０に正規化してか０に正規化してか遺伝子を用いた教師無し選ぶ」とかやりにくいという基準を用いた教師無し決めれば、めれ値ば、細胞にラベルが主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のと同等以上の性が高い。能が出せる変数選択のが、細胞にラベルがその基準がないと１万個以上の遺伝子を用いた教師無し選んでし学習による変数まうのNG 現状では主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のがベスト。

Slide 31

Slide 31 text

おまけ論文投稿後、細胞にラベルが Chen, B., Lau, K.S., Herring, C.A.: pyNVR: investigating factors affecting feature selection from scRNA-seq data for lineage reconstruction, Bioinformatcs (2018) が出版され、され値、細胞にラベルが主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のを用いた教師無し含む複数の手法がむ複数の手法なのでむしろ一が比較され値た教師無し学習に（エンリッチメント解を析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に評価）にて発表済みで。その結果、細胞にラベルが主成分分析を用いた教師無を用いた教師無し用いた教師無し学いた教師無し学習に教師なし学習による変数学習による変数選択による変数選択の変数選択のは他にも、ラベルな手法なのでむしろ一と同等の性が高い。能がある変数選択のと評価され値た教師無し学習に。