Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
190821_jc38_saito
Search
yutaka-saito
August 21, 2019
Science
1
200
190821_jc38_saito
yutaka-saito
August 21, 2019
Tweet
Share
Other Decks in Science
See All in Science
ランサムウェア対策にも考慮したVMware、Hyper-V、Azure、AWS間のリアルタイムレプリケーション「Zerto」を徹底解説
climbteam
0
110
AIによる科学の加速: 各領域での革新と共創の未来
masayamoriofficial
0
110
Hakonwa-Quaternion
hiranabe
1
130
機械学習 - 授業概要
trycycle
PRO
0
240
NASの容量不足のお悩み解決!災害対策も兼ねた「Wasabi Cloud NAS」はここがスゴイ
climbteam
0
120
Machine Learning for Materials (Challenge)
aronwalsh
0
320
KH Coderチュートリアル(スライド版)
koichih
1
46k
データベース10: 拡張実体関連モデル
trycycle
PRO
0
970
モンテカルロDCF法による事業価値の算出(モンテカルロ法とベイズモデリング) / Business Valuation Using Monte Carlo DCF Method (Monte Carlo Simulation and Bayesian Modeling)
ikuma_w
0
250
データベース05: SQL(2/3) 結合質問
trycycle
PRO
0
790
Quelles valorisations des logiciels vers le monde socio-économique dans un contexte de Science Ouverte ?
bluehats
1
490
CV_5_3dVision
hachama
0
150
Featured
See All Featured
How to train your dragon (web standard)
notwaldorf
96
6.2k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
Music & Morning Musume
bryan
46
6.8k
Statistics for Hackers
jakevdp
799
220k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
Writing Fast Ruby
sferik
628
62k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
51
5.6k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
BBQ
matthewcrist
89
9.8k
How to Think Like a Performance Engineer
csswizardry
26
1.9k
GraphQLの誤解/rethinking-graphql
sonatard
72
11k
Transcript
齋藤裕@産総研 https://staff.aist.go.jp/yutaka.saito/ がんの発現プロファイルから抗がん剤の効果を予測 転移学習で細胞株データから学習した予測器を腫瘍サンプルに適用
転移学習 ➢ ある問題 A を解くために学習されたモデルを別の問題 B へ適用する理論 ➢ 本当に解きたい問題 B
の学習データを取得するのは難しいが、 類似した問題 A の学習データは豊富にあるという状況で有用 ➢ 生命科学には転移学習ぽい状況がよくある : vivo の実験は難しいから vitro でやろう 非モデル生物は扱いが難しいからモデル生物を使おう ラボからフィールドへ 培養器から生産プラントへ 企業「本当に重要な機密データは見せたくない」etc ➢ ものすごく応用範囲が広そうなのに バイオインフォでは転移学習の研究はあまり行われていない? (個人の感想)
問題設定 ➢ がんの発現プロファイルから抗がん剤の効果を予測したい ➢ 実際の腫瘍サンプルの学習データは患者への投薬実験が必要 がん細胞株の薬効データ (IC50) は豊富 ➢ 細胞株データで学習した予測器を腫瘍サンプルへ適用する
転移学習のうち unsupervised domain adaptation というクラス : source と target の特徴次元数が同じでデータの分布は異なる source には label が付いているが target には付いていない 発現プロファイル IC50 Xs : ns samples p genes source : 細胞株 target : 腫瘍 発現プロファイル transfer Xt : nt samples p genes
提案手法 PRECISE ➢ 基本的なアイデア : 発現データを低次元空間へ写像 写像先の空間では source と target
の分布を類似させる 写像先の空間で学習した予測器は source, target どちらにも使えそう source space (p-dim) target space (p-dim) domain invariant space (d-dim) 実際は p ~ 20000 で d=20 くらいに設定 D : KS statistic
提案手法 PRECISE ➢ 写像先の空間に source, target 空間の情報をうまく入れたい : source, target
空間それぞれで PCA を行い 両方の PC から離れすぎない方向の写像を見つけるよう制約を付加 source space (p-dim) target space (p-dim) source, target の PC を d 次元で直行変換 (~ 回転) して 1 対 1 対応させる 制約条件 : 写像ベクトルは 1 対 1 対応させた 青 ↑ と 赤 ↑ の間から選ぶ i=1 i=2 [0, 1] の 0 は 青 ↑ 、1 は 赤 ↑
PC の直交変換とマッチング source space target space i=1 i=2 (うまく行き過ぎでは…?)
写像の効果 ➢ 写像先の各次元は生物学的に解釈可能な特徴量になった 第 1, 2 次元は既知の乳がんマーカー遺伝子 第 3 次元は
cell cycle 第 9 次元は immune system etc source : 乳がん細胞株 (n=51) target : 乳がん腫瘍 (n=1222) 各遺伝子への負荷量を使った gene set enrichment analysis
腫瘍サンプルの抗がん剤効果予測 ➢ 発現プロファイルから予測された IC50 と 発現以外の既知バイオマーカーの相関を評価 乳がん細胞株 (n=51) 乳がん腫瘍 (n=1222)
メラノーマ細胞株 (n=40) メラノーマ腫瘍 (n=472)
感想 ➢ かなり ad hoc な手法なので、どの部分が効いているのか知りたい : PC の制約なしで写像を決めると精度は? 写像しないで元の空間をそのまま使うと?
etc ➢ 既存の転移学習手法との比較はなかった : 論文を選んだときは深層学習を使っていると思っていたのだが… ➢ 生命科学において転移学習が重要なのは間違いないと思う : 色々な分野で学習済モデルの整備が進むと良いなあ