Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
190821_jc38_saito
Search
yutaka-saito
August 21, 2019
Science
1
200
190821_jc38_saito
yutaka-saito
August 21, 2019
Tweet
Share
Other Decks in Science
See All in Science
機械学習 - ニューラルネットワーク入門
trycycle
PRO
0
900
学術講演会中央大学学員会府中支部
tagtag
0
330
NASの容量不足のお悩み解決!災害対策も兼ねた「Wasabi Cloud NAS」はここがスゴイ
climbteam
1
250
AIによる科学の加速: 各領域での革新と共創の未来
masayamoriofficial
0
280
機械学習 - K近傍法 & 機械学習のお作法
trycycle
PRO
0
1.3k
Lean4による汎化誤差評価の形式化
milano0017
1
380
コンピュータビジョンによるロボットの視覚と判断:宇宙空間での適応と課題
hf149
1
450
(メタ)科学コミュニケーターからみたAI for Scienceの同床異夢
rmaruy
0
140
高校生就活へのDA導入の提案
shunyanoda
0
6.1k
People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text
rudorudo11
0
160
HDC tutorial
michielstock
0
240
mOrganic™ Holdings, LLC.
hyperlocalnetwork
0
210
Featured
See All Featured
Designing for Performance
lara
610
69k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
970
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
How to train your dragon (web standard)
notwaldorf
97
6.4k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.6k
Optimising Largest Contentful Paint
csswizardry
37
3.5k
[SF Ruby Conf 2025] Rails X
palkan
0
490
What's in a price? How to price your products and services
michaelherold
246
12k
How to Ace a Technical Interview
jacobian
280
24k
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
The Art of Programming - Codeland 2020
erikaheidi
56
14k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
121
20k
Transcript
齋藤裕@産総研 https://staff.aist.go.jp/yutaka.saito/ がんの発現プロファイルから抗がん剤の効果を予測 転移学習で細胞株データから学習した予測器を腫瘍サンプルに適用
転移学習 ➢ ある問題 A を解くために学習されたモデルを別の問題 B へ適用する理論 ➢ 本当に解きたい問題 B
の学習データを取得するのは難しいが、 類似した問題 A の学習データは豊富にあるという状況で有用 ➢ 生命科学には転移学習ぽい状況がよくある : vivo の実験は難しいから vitro でやろう 非モデル生物は扱いが難しいからモデル生物を使おう ラボからフィールドへ 培養器から生産プラントへ 企業「本当に重要な機密データは見せたくない」etc ➢ ものすごく応用範囲が広そうなのに バイオインフォでは転移学習の研究はあまり行われていない? (個人の感想)
問題設定 ➢ がんの発現プロファイルから抗がん剤の効果を予測したい ➢ 実際の腫瘍サンプルの学習データは患者への投薬実験が必要 がん細胞株の薬効データ (IC50) は豊富 ➢ 細胞株データで学習した予測器を腫瘍サンプルへ適用する
転移学習のうち unsupervised domain adaptation というクラス : source と target の特徴次元数が同じでデータの分布は異なる source には label が付いているが target には付いていない 発現プロファイル IC50 Xs : ns samples p genes source : 細胞株 target : 腫瘍 発現プロファイル transfer Xt : nt samples p genes
提案手法 PRECISE ➢ 基本的なアイデア : 発現データを低次元空間へ写像 写像先の空間では source と target
の分布を類似させる 写像先の空間で学習した予測器は source, target どちらにも使えそう source space (p-dim) target space (p-dim) domain invariant space (d-dim) 実際は p ~ 20000 で d=20 くらいに設定 D : KS statistic
提案手法 PRECISE ➢ 写像先の空間に source, target 空間の情報をうまく入れたい : source, target
空間それぞれで PCA を行い 両方の PC から離れすぎない方向の写像を見つけるよう制約を付加 source space (p-dim) target space (p-dim) source, target の PC を d 次元で直行変換 (~ 回転) して 1 対 1 対応させる 制約条件 : 写像ベクトルは 1 対 1 対応させた 青 ↑ と 赤 ↑ の間から選ぶ i=1 i=2 [0, 1] の 0 は 青 ↑ 、1 は 赤 ↑
PC の直交変換とマッチング source space target space i=1 i=2 (うまく行き過ぎでは…?)
写像の効果 ➢ 写像先の各次元は生物学的に解釈可能な特徴量になった 第 1, 2 次元は既知の乳がんマーカー遺伝子 第 3 次元は
cell cycle 第 9 次元は immune system etc source : 乳がん細胞株 (n=51) target : 乳がん腫瘍 (n=1222) 各遺伝子への負荷量を使った gene set enrichment analysis
腫瘍サンプルの抗がん剤効果予測 ➢ 発現プロファイルから予測された IC50 と 発現以外の既知バイオマーカーの相関を評価 乳がん細胞株 (n=51) 乳がん腫瘍 (n=1222)
メラノーマ細胞株 (n=40) メラノーマ腫瘍 (n=472)
感想 ➢ かなり ad hoc な手法なので、どの部分が効いているのか知りたい : PC の制約なしで写像を決めると精度は? 写像しないで元の空間をそのまま使うと?
etc ➢ 既存の転移学習手法との比較はなかった : 論文を選んだときは深層学習を使っていると思っていたのだが… ➢ 生命科学において転移学習が重要なのは間違いないと思う : 色々な分野で学習済モデルの整備が進むと良いなあ