深層学習をはじめとする教師あり機械学習は大きな成功を収めているが、ラベル付きのサンプルが非常に多数個ある場合以外は適用が難しい。GANや転移学習を用いることで大量のラベル無しデータを有効活用する方法も提案されてきているが、ゲノムデータの場合、一サンプルの費用が高額なため、この様な方法を使っても有効な結果が出せるほどの良質なデータを多数用意することは難しい。一細胞RNA-seqの場合は、細胞数のサンプルがあるため、従来のゲノム科学の場合に比べれば数千個程度のサンプル数を確保できるという利点があるが、今度は欠損値が多いという欠点がある。今回紹介する「テンソル分解を用いた教師無し学習による変数選択法」は教師無し学習であり、サンプルが数個しかない場合でも生物学的な意味があるデータをさせることが知られており、また、条件が複数(被験者×臓器×遺伝子発現プロファイル)の場合もあつかうことができ、また、欠損値補完の能力ももっているため、これらの問題を同時に解決できる有望な方法である。今回はこの様な方法について説明する。
日時: 2020年5月14日(木) 15:00~16:30
場所: Zoom
連絡先: 理学系研究科 生物科学専攻 生物情報科学科
黒田 真也(skuroda AT bs.s.u-tokyo.ac.jp)
http://kurodalab.bs.s.u-tokyo.ac.jp/ja/20200514_ja/