Upgrade to Pro — share decks privately, control downloads, hide ads and more …

カーネルテンソル分解を用いた教師なし学習による変数選択法 ~ バイオインフォマティクスへの応用 ~

Y-h. Taguchi
February 28, 2021

カーネルテンソル分解を用いた教師なし学習による変数選択法 ~ バイオインフォマティクスへの応用 ~

情報論的学習理論と機械学習研究会(IBISML)
https://www.ieice.org/ken/paper/20210302DC2u/
2021年3月2日
での講演スライド

Y-h. Taguchi

February 28, 2021
Tweet

More Decks by Y-h. Taguchi

Other Decks in Science

Transcript

  1. 2 動機: 「テンソル分解を用いた教師なを用いた教師なし用いた教師なし学いた教師なし学習に教師なし学習によるなし学習による変数学習による変数選択による変数選択法 変数選択法」とと いう方法を提案して方法を用いた教師なし提案して、ゲノム科し学習による変数て、ゲノム科学に用ゲノム科学に用いてき科学に用いた教師なし学いてきた教師なし学習に(バイオインフォバイオインフォ マティクスへの応用 ~)。 し学習による変数かし学習による変数、ゲノム科学に用これは線形の手法なの線形の手法なのでうの応用 ~手法なの応用 ~でう方法を提案してまく行かなかった時行かなかった時にかなかった教師なし学習に時に工に工

    夫のしようがないの応用 ~し学習による変数よう方法を提案してがない。 非線形の手法なのでうの応用 ~場合も扱えるようにも扱えるように工扱えるように工夫える変数選択法 よう方法を提案してに工夫のしようがないし学習による変数た教師なし学習にい。 具体的にはカーネルトには線形の手法なのカーネルトリックを用いた教師なし使えるようにしたえる変数選択法 よう方法を提案してにし学習による変数た教師なし学習に。
  2. 4 N 変数 N 1 M 回計測 M/2 M 回計測

    平均ゼロゼロ ガウスへの応用 ~分布 平均ゼロ非ゼロ ガウスへの応用 ~分布 M2 サンプル /変数 i≦N 1 :j,k≦M/2 と others で差がある変数がある変数選択法 変数 i>N 1 : 差がある変数がない変数 目的にはカーネルト: 二群で差があるで差がある変数がある変数選択法 N 1 変数を用いた教師なし正しく選択できるし学習による変数く行かなかった時選択できる変数選択法 か?
  3. 5 戦略 1 • 個々の変数にの応用 ~変数にt検定を独立に適用しを用いた教師なし独立に適用し、二群に適用いた教師なし学し学習による変数、ゲノム科学に用二群で差がある(つまり j,k≦M/2 対 others)で差がある変数がある変数選択法 変数を用いた教師なし探すす

    • 計算したし学習による変数た教師なし学習にP値はは線形の手法なのBenjamini-Hochberg法で多重比較補正しく選択できる。 • 補正しく選択できるP値はが 0.05 以下の変数を選択 の応用 ~変数を用いた教師なし選択 j k M M/2 M/2
  4. 6 i > N 1 i ≦ N 1 P>0.05

    989.3 3.4 P≦0.05 0.7 6.6 N=103, N 1 =10, M=6, ガウスへの応用 ~分布 μ(平均)=2, σ(SD)=1)=1 100回の独立な試行での独立な試行で平独立な試行で平均な試行で平均試行で平均で平均平均 現実 N P 予測   N TN FN P FP TP 現実 N P 予測  N 990 0 P 0 10 Matthew’s correlation coefficient (MCC) (TP⨉TN)-(FN⨉FP) (TN+FP)(FN+TP)(TN+FN)(RP+TP) ~ 0.77
  5. 7 Lasso (P値はが計算したされないの応用 ~でN 1 =10は線形の手法なの既知とする とする変数選択法 ) i >

    N 1 i ≦ N 1 非選択 989.4 2.4 選択 0.6 7.6 MCC ~ 0.84 Random Forest (P値はが計算したされないの応用 ~でN 1 =10は線形の手法なの既知とする とする変数選択法 ) i > N 1 i ≦ N 1 非選択 988.2 1.8 選択 1.8 8.2 MCC ~ 0.81
  6. 8 特異値は分解を用いた教師な (SVD)=1) xij N M (uli)T N L vlj

    L M ⨉ ≈ x ij ≃∑ l=1 L u li λl v l j L L ⨉ λl
  7. 9 x ijk G u l1i u l2j u l3k

    L1 L2 L3 HOSVD)=1 (Higher Order Singular Value D)=1ecomposition) テンソルに拡張….. K M N x ijk ≃∑ l 1 =1 L 1 ∑ l 2 =1 L 2 ∑ l 3 =1 L 3 G(l 1 l 2 l 3 )u l 1 i u l 2 j u l 3 k
  8. 10 N 変数 N 1 M 回計測 M/2 M 回計測

    平均ゼロゼロ ガウスへの応用 ~分布 平均ゼロ非ゼロ ガウスへの応用 ~分布 M2 サンプル /変数 x ijk ≃∑ l 1 =1 L 1 ∑ l 2 =1 L 2 ∑ l 3 =1 L 3 G(l 1 l 2 l 3 )u l 1 i u l 2 j u l 3 k
  9. 13 P i =P χ2 [> (u 1i σ1 )2]

    - log 10 P i u 1i がガウスへの応用 ~分布に従うと仮定 う方法を提案してと仮定を独立に適用し (帰無仮説)し学習による変数て P値はを用いた教師なし変数 (i) に χ2 分布を使って付与を使って付与使って付与って付与付与 - log 10 P i i ≦ N 1
  10. 14 補正しく選択できる P i が0.05の応用 ~変数を用いた教師なし選択 i > N 1

    i ≦ N 1 P>0.05 989.9 2.2 P≦0.05 0.1 7.8 MCC ~ 0.88 t test MCC ~ 0.77 lasso MCC ~ 0.84 Random forest MCC ~ 0.81
  11. 18 カーネルテンソル分解を用いた教師な x ijk G u l1i u l2j u

    l3k L1 L2 L3 K M N x ij’k’ K M N ⨉ x jkj ' k ' =∑ i x ijk x ij' k ' (Linear kernel)
  12. 19 x jkj ' k ' ≃∑ l 1 =1

    L 1 ∑ l 2 =1 L 2 ∑ l 3 =1 L 3 ∑ l 4 =1 L 4 G(l 1 l 2 l 3 l 4 )u l 1 j u l 2 k u l 3 j' u l 4 k ' x jkj’k’ G u l3j’ u l1j u l2k L3 L1 L2 u l4k’ L4 カーネルトリック x jkj’k’ → k(x ijk ,x ij’k’ ):非負定を独立に適用し値は
  13. 20 k (x ijk , x ij ' k '

    )=exp(−α∑i ( x ijk −x ij ' k ' )2) Radial base function kernel k (x ijk , x ij ' k ' )=(1+∑ i x ijk x ij ' k ' ) d Polynomial kernel k(x ijk ,x ij’k’ )→ テンソル分解を用いた教師な
  14. 25 変数選択 変数選択 線形の手法なのでう Kernel: x jkj’k’ → u l1j

    , u l2k u l 1 i ∝∑ jk x ijk u l 1 j u l 2 k P i =P χ2 [> (u l 1 i σl 1 )2] P値はを用いた教師なし計算したし学習による変数、ゲノム科学に用 Benjamini-Hochberg 法で多重比較補正しく選択できる。 補正しく選択できる P値はが0.01以下の変数を選択 の応用 ~変数を用いた教師なし選択。 TD)=1
  15. 26 RBF, 多項式カーネルカーネル ある変数選択法 変数 i i を用いた教師なし除外 x jkj’k’

    を用いた教師なし再計算した x jkj’k’ → u l1j ⨉ u l2k TD)=1 u l1j , u l2k と (k,j)の応用 ~分類でサンプル(=との応用 ~一致度を判定。を用いた教師なし判定を独立に適用し。 i i を用いた教師なし除いた教師なし学習に時に工の応用 ~一致度を判定。の応用 ~劣化した方法(ゲノが大きい順にランク付け(にランク付け(分類とけ(バイオインフォ分類でサンプル(=と 一致し学習による変数ている変数選択法 変数を用いた教師なし除く行かなかった時ほど劣化が進むはず劣化した方法(ゲノが進むはず)。むは線形の手法なのず)。 u l1j ⨉ u l2k k
  16. 28 データセット GSE147507 SARS-CoV-2 に感染/非感染の応用 ~ヒトの応用 ~肺組織の培養細胞の応用 ~培養細胞 i:遺伝子(21797) j: j=1:Calu3,

    j=2: NHBE, j=3:A549 MOI:0.2, j=4: A549 MOI 2.0, j=5:A549 ACE2 expressed (MOI:Multiplicity of infection) k: k=1: 非感染, k=2:SARS-CoV-2 感染 m: バイオロジカルレプリケート
  17. 29 x i jk m ∈ℝ21797×5×2×3 x i jk m

    ≃∑ l 1 =1 L 1 ∑ l 2 =1 L 2 ∑ l 3 =1 L 3 ∑ l 4 =1 L 4 G(l 1 l 2 l 3 l 4 )u l 1 j u l 2 k u l 3 m u l 4 i u l1j : l 1 番目の応用 ~培養細胞依存性 u l2k : l 2 番目の応用 ~ SARS-CoV-2 感染/非感染 u l3m : l 3 番目の応用 ~バイオロジカルレプレケート依存性 u l4i : l 4 番目の応用 ~遺伝子依存性 G: 重み
  18. 30 目的にはカーネルト: 培養細胞やバイオロジカルバイオロジカルレプリケートには線形の手法なの 依存せず(バイオインフォつまり、ゲノム科学に用u l1j ,u l3m が j,mによらず一定を独立に適用し) かつ、ゲノム科学に用

    SARS-CoV-2 感染/非感染には線形の手法なの依存し学習による変数ている変数選択法 (バイオインフォつま り、ゲノム科学に用u l21 =-u l22 )である変数選択法 l 1 ,l 2 ,l 3 を用いた教師なし探すす。 強度を判定。の応用 ~“large p small n” 問題での変 変数の応用 ~数(=p): 21797 ~ 104 サンプルする変数選択法 数(=n): 5 ⨉2 ⨉3 =30 ~10 p/n ~ 103
  19. 31 l 1 =1 l 2 =2 l 3 =1

    培養細胞 SARS-CoV-2 感染有無 biological replicate 培養細胞の応用 ~種類でサンプル(=やバイオロジカル biological replicateに依ら ないが、ゲノム科学に用SARS-CoV-2感 染の応用 ~有無で変わる変数選択法
  20. 32 l 1 =1 l 2 =2 l 3 =1

    培養細胞の応用 ~種類でサンプル(=やバイオロジカルbiological replicateに依らないが、ゲノム科学に用SARS- CoV-2感染の応用 ~有無で変わる変数選択法 よう方法を提案してな発現プロファイルを用いた教師なし実現し学習による変数 ている変数選択法 遺伝子の応用 ~発現パターンは線形の手法なのu 5i (l 4 =5) の独立な試行で平時|G|が大きい大きいきいl 4 は?
  21. 33 u 5iがガウスへの応用 ~分布し学習による変数ている変数選択法 という方法を提案して帰無仮説の応用 ~元に、ゲノム科学に用遺伝子iにχ二乗 分布を用いた教師なし仮定を独立に適用しし学習による変数てP値はを用いた教師なし付け(分類と与、ゲノム科学に用多重比較補正しく選択できる(バイオインフォBH法)し学習による変数て0.01以下の変数を選択 の応用 ~163遺伝子を用いた教師なし選んだ ABCC3

    ACE2 ACTB ACTG1 ACTN4 AHNAK AKAP12 AKR1B1 AKR1B10 AKR1C2 ALD)=1H1A1 ALD)=1H3A1 ALD)=1OA AMIGO2 ANTXR1 ANXA2 ASNS ASPH ATF4 ATP1B1 C3 CALM2 CALR CD)=124 CFL1 CPLX2 CRIM1 CTGF CXCL5 CYP24A1 D)=1CBLD)=12 D)=1D)=1IT4 D)=1HCR24 EEF1A1 EEF2 EIF1 EIF4B EIF5A ENO1 ERBB2 EREG FAD)=1S2 FASN FD)=1CSP FD)=1PS FLNB FTH1 FTL G6PD)=1 GAPD)=1H GAS5 GPX2 GSTP1 H1F0 HMGA1 HNRNPA2B1 HSP90AA1 HSP90AB1 HSPA8 ICAM1 IER3 IFIT2 IGFBP3 IGFBP4 ITGA2 ITGA3 ITGAV ITGB1 JUN KRT18 KRT19 KRT23 KRT5 KRT6A KRT7 KRT8 KRT81 LAMB3 LAMC2 LCN2 LD)=1HA LIF LOXL2 MIEN1 MTHFD)=12 MYL6 NAMPT NAP1L1 NEAT1 NFKBIA NPM1 NQO1 OAS2 P4HB PABPC1 PFN1 PGK1 PKM PLAU PLOD)=12 PMEPA1 PPIA PPP1R15A PSAT1 PSMD)=13 PTMA RAI14 RNF213 RPL10 RPL12 RPL23 RPL26 RPL28 RPL3 RPL37 RPL4 RPL5 RPL7 RPL7A RPL9 RPS19 RPS20 RPS24 RPS27 RPS27A RPS3A RPS4X RPS6 S100A2 S100A6 SAT1 SCD)=1 SERPINA3 SERPINE1 SLC38A2 SLC7A11 SLC7A5 SPP1 SPTBN1 SQSTM1 STARD)=13 STAT1 STC2 TGFBI TGM2 TIPARP TMSB4X TNFAIP2 TOP2A TPI1 TPM1 TPT1 TRAM1 TUBA1B TUBB TUBB4B TXNIP TXNRD)=11 UBC VEGFA VIM YBX1 YWHAZ
  22. 35 まとめ いわゆる変数選択法 “large p small n””問題での変における変数選択法 変数選択について有効なな 「テンソル分解を用いた教師なを用いた教師なし用いた教師なし学いた教師なし学習に教師なし学習によるなし学習による変数学習による変数選択による変数選択法 変数選択法」とにカーネ

    ルトリックを用いた教師なし使えるようにしたえる変数選択法 よう方法を提案してに拡張を用いた教師なし行かなかった時にった教師なし学習に。 「テンソル分解を用いた教師なを用いた教師なし用いた教師なし学いた教師なし学習に教師なし学習によるなし学習による変数学習による変数選択による変数選択法 変数選択法」とでも扱えるように工大変 よい結果が出るような場が出るような場合でる変数選択法 よう方法を提案してな場合も扱えるようにでも扱えるように工カーネルトリックを用いた教師なし導入することでさする変数選択法 ことでさ らに精度を判定。を用いた教師なしあげる変数選択法 ことが出るような場合で来る場合があるこる変数選択法 場合も扱えるようにがある変数選択法 ことが解を用いた教師なった教師なし学習に。 「カーネルテンソル分解を用いた教師なを用いた教師なし用いた教師なし学いた教師なし学習に教師なし学習によるなし学習による変数学習による変数選択による変数選択法 変数選択法」と は線形の手法なの非常に有効な方法でに有効なな方法である変数選択法 と思われる。われる変数選択法 。