Slide 1

Slide 1 text

腎臓明細胞癌ののmiRNA指標のテンソル分解のテンソル分解による解析分解による解析による解析解による解析析 田口 善弘 中央大学 呉 家樂 亜州大学 Ng, KL., Taguchi, YH. Identification of miRNA signatures for kidney renal clear cell carcinoma using the tensor-decomposition method. Sci Rep 10, 15149 (2020). https://doi.org/10.1038/s41598-020-71997-6

Slide 2

Slide 2 text

はじめに mRNAとmiRNA発現量の統合解析は難の統合解による解析析は難しい。しい。 理由:以下のの3条件を満たすを満たす満たすたすmRNAとmiRNAの組を選ぶ必要を満たす選ぶ必要ぶ必要必要 1)二群(例:患者と健常者)で差と健常者と健常者)で差)で差がある差があるがある解析mRNA 2)二群で差がある差があるがある解析miRNA 3)mRNAとmiRNAに相関がある。がある解析。 1),2),3)を満たす独立にやると全てをにやる解析と全てを満たす組がてを満たす満たすたす組を選ぶ必要が無かったりする。かったりする解析。 第60回バイオ情報学研バイオ情報学研究会情報学研究会 インバランスデータの場合、テンソの場合、テンソル分解をテンソル分解による解析分解による解析を満たす用いた教師なし学いた教師なし学なし学 習による変数選択による解析変数選ぶ必要択ががSOTAを満たす圧倒できることを報で差があるきる解析ことを満たす報告

Slide 3

Slide 3 text

本研究の目的: miRNAとmRNAのロバストな選択な選ぶ必要択が 2種類のサンプルでどのサンプル分解による解析で差があるどこまで差がある共通ののmRNAとmiRNAを満たす選ぶ必要べる解析か? 同じ条件(例:患じ条件を満たす(例:患者と健常者)で差と健常者と健常者)で差)の全てを満たす組がく別のサンプルで別のサンプルで共のサンプル分解による解析で差がある共通のした mRNAとmiRNAを満たす選ぶ必要ぶ必要のは案外難しい。しい。

Slide 4

Slide 4 text

結果

Slide 5

Slide 5 text

いく別のサンプルでらなんで差があるもこれはひどすぎる解析ので差があるはとおもうかもしれないけど、テンソル分解を 扱っているデータっている解析データの場合、テンソセットな選択がかなりヘテロ。 臓(淡)明細胞癌の(kidney renal clear cell carcinoma、テンソル分解を以下のKIRC) データの場合、テンソベース:TCGAとGEO 測定:共通のサンプル分解による解析に対ししmRNAとmiRNAを満たす計測(マイクロアレイ) サンプル分解による解析数:M TCGA:M=324(253KIRC vs 71正常腎臓) GEO:M=34(17KIRC vs 17正常肝臓) mRNA数:N TCGA:N=19,536, GEO:N=33,698 miRNA数:K TCGA:K=825,GEO:K=319

Slide 6

Slide 6 text

テンソル分解による解析分解による解析を満たす用いた教師なし学いた解による解析析 x ij mRNA∈ℝN ×M x kj miRNA∈ℝK ×M x ijk =x ij mRNA x kj miRNA∈ℝN ×M×K 本当ははx ijk を満たすテンソル分解による解析分解による解析したい x ijk =∑ l 1 ,l 2 ,l 3 G (l 1 l 2 l 3 )u l 1 i u l 2 j u l 3 k

Slide 7

Slide 7 text

x ijk ∈ℝ19536×324×825∼5×109 GEO TCGA x ijk ∈ℝ33698×34 ×319∼4×108 大きすぎてで差があるきないので差がある近似 x ik =∑j x ij mRNA x kj miRNA ∈ℝN× K

Slide 8

Slide 8 text

x ik を満たす特異値分解による解析 x ik =∑ l 1 =l 3 =l λl u l 1 i u l 3k u l 1 j mRNA =∑i u l 1 i x ij mRNA u l 3 j miRNA=∑k u l 3k x ij miRNA 元のテンソル分解のテンソル分解による解析分解による解析と一致する保証はないする解析保証はないはない

Slide 9

Slide 9 text

やってみた(TCGA) u 2 j mRNA vs u 2 j miRNA 相関がある。係数:0.905 (P=1.63 ⨉10-121) KIRC 正常腎 miRNAとmRNAは独 立にやると全てをな計測なので差があるこん なに一致する保証はないする解析わけ無かったりする。い から近似はうまく別のサンプルでいっ ている解析と期待できるで差があるきる解析

Slide 10

Slide 10 text

二群で差がある差があるがある解析か?(t検定) u 2 j mRNA : P=7.10×10−39 u 2 j miRNA : P=2.13×10−71 KIRC 正常腎 三条件を満たすを満たす満たすたす特異値ベクトな選択ル分解による解析 1)二群で差がある差があるがある解析mRNA 2)二群で差がある差があるがある解析miRNA 3)mRNAとmiRNAに相関がある。がある解析。

Slide 11

Slide 11 text

miRNA,mRNAを満たす選ぶ必要択がで差があるきる解析か? P i =P χ2 [> (u 2i mRNA σ2 )2] P k =P χ2 [> (u 2k miRNA σ2 )2] u 2i mRNA u 2k miRNA や がガウス分布であることを仮で差があるある解析ことを満たす仮定(帰 無かったりする。仮説)してP値を満たす付与 累積カイ二乗分布カイ二乗分布であることを仮

Slide 12

Slide 12 text

P i やP k を満たすBenjamini-Hochberg(BH)で差がある多重比較補正し補正P値が 0.01以下ののmRNA,miRNAを満たす選ぶ必要ぶ必要。 11 miRNA,72mRNAを満たす選ぶ必要択が。 選ぶ必要ばれたmiRNAとmRNAは相関がある。している解析か? 11⨉72=792ペアのうち、テンソル分解を353ペアが正に,358ペアが負に、有ペアが負に、有意にに、テンソル分解を有意にに 相関がある。していた(全てを満たす組が体の90%以上)の90%以上)。以上)。

Slide 13

Slide 13 text

t検定、テンソル分解をSAM、テンソル分解をlimmaと比較(SOTA) P値を満たす計算してしてBHで差がある多重比較補正して0.01以下のの物を選ぶのはを満たす選ぶ必要ぶ必要のは 同じ条件(例:患じ。 t検定:13,895mRNA,39mRNA,399miRNA SAM:14,485mRNA,441miRNA limma:18,225mRNA,662miRNA 元のテンソル分解々19,536mRNAと825miRNAだったことを満たす考えると数が多すえる解析と数が多すぎ る解析。本当はに二群で差がある差があるがある解析mRNA,miRNAを満たす選ぶ必要べている解析のか。サン プル分解による解析数が300個以上と多いので差がある非常にわずかの差があるも有意に差があるだと いうことになってしまっている解析ので差があるは?

Slide 14

Slide 14 text

mRNA,miRNA選ぶ必要択がに「意味」があるか意に味」があるかどう」がある解析かどうかを満たす調べる一つべる解析一つ の方法は独立サンプルは独立にやると全てをサンプル分解による解析による解析バリデーション。 GEOを満たす使って同じことをって同じ条件(例:患じことを満たすする解析。 u 2 j mRNA vs u 2 j miRNA 相関がある。係数:0.931 (P=1.58 ⨉10-15) t検定 u 2 j mRNA : P=6.74×10−22 u 2 j miRNA : P=2.54×10−18 →3 miRNA,209mRNAを満たす選ぶ必要択が。

Slide 15

Slide 15 text

mRNA選ぶ必要択がの混同じ条件(例:患行列 フィッシャーの正確確率検定:P=8.97⨉10-11 オ情報学研究会ッズ比:比:19.7 miRNAはGEOで差がある選ぶ必要ばれた3個がmRNAで差があるも選ぶ必要ばれている解析 かなりロバストな選択な選ぶ必要択がが出来ている。ている解析。

Slide 16

Slide 16 text

t検定、テンソル分解をSAM、テンソル分解をlimmaと比較(SOTA) P値を満たす計算してしてBHで差がある多重比較補正して0.01以下のの物を選ぶのはを満たす選ぶ必要ぶ必要のは 同じ条件(例:患じ。 t検定:12,152mRNA,78miRNA SAM:16,336mRNA,108miRNA limma:28,519mRNA,319miRNA 元のテンソル分解々33,698mRNAと319miRNAだったことを満たす考えると数が多すえる解析と数が多すぎる解析。 本当はに二群で差がある差があるがある解析mRNA,miRNAを満たす選ぶ必要べている解析のか。サンプル分解による解析 数が34個とそれほど多個とそれほど多く別のサンプルでなく別のサンプルでてもこんな感じ。じ。

Slide 17

Slide 17 text

これで差があるは数が多すぎてフッシャーの正確確率検定どころで差があるはな いので差があるP値のより小さい(有意差がさい(有意に差があるがある解析)mRNA、テンソル分解をmiRNAに限 定して比較(個数はテンソル分解による解析分解による解析に合わせる解析)。 → ほとんど、テンソル分解をオ情報学研究会ーバーラップが無かったりする。かった(最初に見せたフに見せたフせたフ ローチャートな選択参照) SOTAはmRNAやmiRNAを満たすたく別のサンプルでさん選ぶ必要びすぎる解析。上位のものをのものを満たす 絞り込んでもロバり込んでもロバストんで差があるもロバストな選択性に劣った結果がに劣った結果が得らった結果が得られてしまう。られてしまう。 →テンソル分解による解析分解による解析の方が優れている。れている解析。

Slide 18

Slide 18 text

※(統合解による解析析しないで差がある)別のサンプルで共々にやったらどうなる解析? →わざわざx ik を満たす作ってから特異値ってから特異値分解による解析する解析意に味」があるかどうある解析の? x ij =∑ l λl 1 u l 1i u l 1 j mRNA x kj =∑l λl 3 u l 3 k u l 2 j miRNA 相関がある。係数 t検定 TCGA 0.839(P=2.74⨉10-87) mRNA,miRNA選ぶ必要択が TCGA:70mRNA,10miRNA GEO:131mRNA,3miRNA u 2 j mRNA : P=2.33×10− 36 u 2 j miRNA : P=2.39×10−77 6mRNA, 3miRNA が共通の 統合解による解析析 の方がよい

Slide 19

Slide 19 text

※選ぶ必要ばれたmRNA,miRNAに生物を選ぶのは学的な意に味」があるかどうがある解析か? (TCGAにテンソル分解による解析分解による解析を満たす用いた教師なし学いた場合を満たす対し象とする)とする解析) エンリッチメントな選択解による解析析を満たす実行(次ページ以降)ページ以降)以降) がんに関がある。係する解析項目が多数有意にに関がある。連していたしていた →生物を選ぶのは学的な意に味」があるかどうもある解析。

Slide 20

Slide 20 text

oncogenic category in MsigDB (I) CAMP_UP.V1_UP (II) SNF5_DN.V1_DN (III)ESC_V6.5_UP_LATE. V1_UP (IV)ESC_V6.5_UP_EARL Y.V1_DN (V)ESC_J1_UP_LATE.V1_ UP (VI)SIRNA_EIF4GI_UP (VII) P53_DN.V1_DN (VIII) MEL18_DN.V1_UP (IX) LTE2_UP.V1_UP (X) RPS14_DN.V1_U 全てを満たす組がカテゴリ遺伝子 選ぶ必要択が遺伝子

Slide 21

Slide 21 text

REACTOME category in MsigDB. (I) regulation of insulin-like growth factor (IGF) transport and uptake by IGF binding proteins IGFBPS (II) cytokine signalling in immune system (III) response to elevated platelet cytosolic CA2+ (IV) signalling by interleukins (V) innate immune system (VI) platelet activation, signalling, and aggregation (VII) endosomal vacuolar pathway (VIII) gloconeogenesis (IX) post- translational protein modification (X) disease . 全てを満たす組がカテゴリ遺伝子 選ぶ必要択が遺伝子

Slide 22

Slide 22 text

Survival analysis of 24 genes among 72 genes 発現量の統合解析は難が高い/低いでい/低いで低いでいで差がある KIRCの生存率に有意に に差があるがある解析遺伝子。5 0:50じゃない分割のの 場合は赤丸(低いで側)と 青丸(高い/低いで側)で差がある示した。した。

Slide 23

Slide 23 text

KEGG pathway provided by DIANA- mirpath (I) Chronic myeloid leukemia (II) Proteoglycans in cancer (III) Prostate cancer (IV) Pathways in cancer (V) Pancreatic cancer (VI) Glioma (VII) Hepatitis B (VIII) Small cell lung cancer (IX) Non- small cell lung cancer (X) Colorectal cancer (XI) Endometrial cancer (XII) Viral carcinogenesis (XIII) Bladder cancer (XIV) Melanoma (XV) Renal cell carcinoma (XVI) Hepatitis C. 全てを満たす組がカテゴリ標のテンソル分解的遺伝子 選ぶ必要択が標のテンソル分解的遺伝子

Slide 24

Slide 24 text

結論 テンソル分解による解析分解による解析を満たす用いた教師なし学いた教師なし学なし学習による変数選択による解析変数選ぶ必要択が法は独立サンプルを満たすKIRC のmRNAとmiRNAの統合解による解析析に用いた教師なし学いてSOTAと比較した。 (1)SOTAはmRNAやmiRNAを満たす絞り込んでもロバり込んでもロバストむ力がない力がないがない (2)SOTAはロバストな選択ネス(サンプル分解による解析に依らない選択がでらない選ぶ必要択ががで差があるきる解析) に欠ける。ける解析。 また、テンソル分解を選ぶ必要ばれたmRNAやmiRNAは生物を選ぶのは学的にも妥当はで差があるある解析こと がエンリッチメントな選択解による解析析で差があるはっきりした。