Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
190821_jc38_saito
Search
yutaka-saito
August 21, 2019
Science
1
200
190821_jc38_saito
yutaka-saito
August 21, 2019
Tweet
Share
Other Decks in Science
See All in Science
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
130
機械学習 - ニューラルネットワーク入門
trycycle
PRO
0
810
サイゼミ用因果推論
lw
1
7.3k
Lean4による汎化誤差評価の形式化
milano0017
1
250
データベース03: 関係データモデル
trycycle
PRO
1
120
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
220
機械学習 - K近傍法 & 機械学習のお作法
trycycle
PRO
0
1.2k
機械学習 - 授業概要
trycycle
PRO
0
210
マウス肝炎ウイルス感染の遺伝子発現へのテンソル分解の適用によるSARS-CoV-2感染関連重要ヒト遺伝子と有効な薬剤の同定
tagtag
0
120
モンテカルロDCF法による事業価値の算出(モンテカルロ法とベイズモデリング) / Business Valuation Using Monte Carlo DCF Method (Monte Carlo Simulation and Bayesian Modeling)
ikuma_w
0
180
データベース10: 拡張実体関連モデル
trycycle
PRO
0
710
Factorized Diffusion: Perceptual Illusions by Noise Decomposition
tomoaki0705
0
390
Featured
See All Featured
GitHub's CSS Performance
jonrohan
1031
460k
We Have a Design System, Now What?
morganepeng
53
7.7k
Gamification - CAS2011
davidbonilla
81
5.4k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
A Tale of Four Properties
chriscoyier
160
23k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
29
9.6k
Making the Leap to Tech Lead
cromwellryan
134
9.4k
Rebuilding a faster, lazier Slack
samanthasiow
82
9.1k
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
GraphQLとの向き合い方2022年版
quramy
49
14k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.3k
Transcript
齋藤裕@産総研 https://staff.aist.go.jp/yutaka.saito/ がんの発現プロファイルから抗がん剤の効果を予測 転移学習で細胞株データから学習した予測器を腫瘍サンプルに適用
転移学習 ➢ ある問題 A を解くために学習されたモデルを別の問題 B へ適用する理論 ➢ 本当に解きたい問題 B
の学習データを取得するのは難しいが、 類似した問題 A の学習データは豊富にあるという状況で有用 ➢ 生命科学には転移学習ぽい状況がよくある : vivo の実験は難しいから vitro でやろう 非モデル生物は扱いが難しいからモデル生物を使おう ラボからフィールドへ 培養器から生産プラントへ 企業「本当に重要な機密データは見せたくない」etc ➢ ものすごく応用範囲が広そうなのに バイオインフォでは転移学習の研究はあまり行われていない? (個人の感想)
問題設定 ➢ がんの発現プロファイルから抗がん剤の効果を予測したい ➢ 実際の腫瘍サンプルの学習データは患者への投薬実験が必要 がん細胞株の薬効データ (IC50) は豊富 ➢ 細胞株データで学習した予測器を腫瘍サンプルへ適用する
転移学習のうち unsupervised domain adaptation というクラス : source と target の特徴次元数が同じでデータの分布は異なる source には label が付いているが target には付いていない 発現プロファイル IC50 Xs : ns samples p genes source : 細胞株 target : 腫瘍 発現プロファイル transfer Xt : nt samples p genes
提案手法 PRECISE ➢ 基本的なアイデア : 発現データを低次元空間へ写像 写像先の空間では source と target
の分布を類似させる 写像先の空間で学習した予測器は source, target どちらにも使えそう source space (p-dim) target space (p-dim) domain invariant space (d-dim) 実際は p ~ 20000 で d=20 くらいに設定 D : KS statistic
提案手法 PRECISE ➢ 写像先の空間に source, target 空間の情報をうまく入れたい : source, target
空間それぞれで PCA を行い 両方の PC から離れすぎない方向の写像を見つけるよう制約を付加 source space (p-dim) target space (p-dim) source, target の PC を d 次元で直行変換 (~ 回転) して 1 対 1 対応させる 制約条件 : 写像ベクトルは 1 対 1 対応させた 青 ↑ と 赤 ↑ の間から選ぶ i=1 i=2 [0, 1] の 0 は 青 ↑ 、1 は 赤 ↑
PC の直交変換とマッチング source space target space i=1 i=2 (うまく行き過ぎでは…?)
写像の効果 ➢ 写像先の各次元は生物学的に解釈可能な特徴量になった 第 1, 2 次元は既知の乳がんマーカー遺伝子 第 3 次元は
cell cycle 第 9 次元は immune system etc source : 乳がん細胞株 (n=51) target : 乳がん腫瘍 (n=1222) 各遺伝子への負荷量を使った gene set enrichment analysis
腫瘍サンプルの抗がん剤効果予測 ➢ 発現プロファイルから予測された IC50 と 発現以外の既知バイオマーカーの相関を評価 乳がん細胞株 (n=51) 乳がん腫瘍 (n=1222)
メラノーマ細胞株 (n=40) メラノーマ腫瘍 (n=472)
感想 ➢ かなり ad hoc な手法なので、どの部分が効いているのか知りたい : PC の制約なしで写像を決めると精度は? 写像しないで元の空間をそのまま使うと?
etc ➢ 既存の転移学習手法との比較はなかった : 論文を選んだときは深層学習を使っていると思っていたのだが… ➢ 生命科学において転移学習が重要なのは間違いないと思う : 色々な分野で学習済モデルの整備が進むと良いなあ