Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
190821_jc38_saito
Search
yutaka-saito
August 21, 2019
Science
1
180
190821_jc38_saito
yutaka-saito
August 21, 2019
Tweet
Share
Other Decks in Science
See All in Science
AI Alignment: A Comprehensive Survey
s_ota
0
180
勉強会資料 / “Asymptotic Statistics” Section 3.1
asymptotic_minato
0
110
Introduction to Graph Neural Networks
joisino
4
1.4k
『データ可視化学入門』を PythonからRに翻訳した話
bob3bob3
1
360
Demucsを用いた音源分離
508shuto
0
180
Running llama.cpp on the CPU
ianozsvald
0
210
2023-10-03-FOGBoston
lcolladotor
0
170
名古屋市立大学データサイエンス学部 秋のオープンキャンパス模擬授業20231111
trycycle
1
1.2k
BigQueryで参加するレコメンドコンペ / bq-recommend-competition-kaggle-meetup-tokyo-2023
shimacos
1
1.3k
脳とAIは似ているか ― NeuroAI の挑戦
ykamit
9
6.8k
Machine Learning for Materials (Lecture 4)
aronwalsh
0
670
Non-Gaussian methods for causal discovery
sshimizu2006
0
180
Featured
See All Featured
5 minutes of I Can Smell Your CMS
philhawksworth
199
19k
Happy Clients
brianwarren
91
6.4k
The Straight Up "How To Draw Better" Workshop
denniskardys
227
130k
Designing Experiences People Love
moore
136
23k
The Cult of Friendly URLs
andyhume
74
5.7k
A Philosophy of Restraint
colly
196
16k
What’s in a name? Adding method to the madness
productmarketing
PRO
15
2.6k
How GitHub Uses GitHub to Build GitHub
holman
468
290k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
24
2.3k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
16
1.4k
Optimising Largest Contentful Paint
csswizardry
7
2.3k
What's new in Ruby 2.0
geeforr
337
31k
Transcript
齋藤裕@産総研 https://staff.aist.go.jp/yutaka.saito/ がんの発現プロファイルから抗がん剤の効果を予測 転移学習で細胞株データから学習した予測器を腫瘍サンプルに適用
転移学習 ➢ ある問題 A を解くために学習されたモデルを別の問題 B へ適用する理論 ➢ 本当に解きたい問題 B
の学習データを取得するのは難しいが、 類似した問題 A の学習データは豊富にあるという状況で有用 ➢ 生命科学には転移学習ぽい状況がよくある : vivo の実験は難しいから vitro でやろう 非モデル生物は扱いが難しいからモデル生物を使おう ラボからフィールドへ 培養器から生産プラントへ 企業「本当に重要な機密データは見せたくない」etc ➢ ものすごく応用範囲が広そうなのに バイオインフォでは転移学習の研究はあまり行われていない? (個人の感想)
問題設定 ➢ がんの発現プロファイルから抗がん剤の効果を予測したい ➢ 実際の腫瘍サンプルの学習データは患者への投薬実験が必要 がん細胞株の薬効データ (IC50) は豊富 ➢ 細胞株データで学習した予測器を腫瘍サンプルへ適用する
転移学習のうち unsupervised domain adaptation というクラス : source と target の特徴次元数が同じでデータの分布は異なる source には label が付いているが target には付いていない 発現プロファイル IC50 Xs : ns samples p genes source : 細胞株 target : 腫瘍 発現プロファイル transfer Xt : nt samples p genes
提案手法 PRECISE ➢ 基本的なアイデア : 発現データを低次元空間へ写像 写像先の空間では source と target
の分布を類似させる 写像先の空間で学習した予測器は source, target どちらにも使えそう source space (p-dim) target space (p-dim) domain invariant space (d-dim) 実際は p ~ 20000 で d=20 くらいに設定 D : KS statistic
提案手法 PRECISE ➢ 写像先の空間に source, target 空間の情報をうまく入れたい : source, target
空間それぞれで PCA を行い 両方の PC から離れすぎない方向の写像を見つけるよう制約を付加 source space (p-dim) target space (p-dim) source, target の PC を d 次元で直行変換 (~ 回転) して 1 対 1 対応させる 制約条件 : 写像ベクトルは 1 対 1 対応させた 青 ↑ と 赤 ↑ の間から選ぶ i=1 i=2 [0, 1] の 0 は 青 ↑ 、1 は 赤 ↑
PC の直交変換とマッチング source space target space i=1 i=2 (うまく行き過ぎでは…?)
写像の効果 ➢ 写像先の各次元は生物学的に解釈可能な特徴量になった 第 1, 2 次元は既知の乳がんマーカー遺伝子 第 3 次元は
cell cycle 第 9 次元は immune system etc source : 乳がん細胞株 (n=51) target : 乳がん腫瘍 (n=1222) 各遺伝子への負荷量を使った gene set enrichment analysis
腫瘍サンプルの抗がん剤効果予測 ➢ 発現プロファイルから予測された IC50 と 発現以外の既知バイオマーカーの相関を評価 乳がん細胞株 (n=51) 乳がん腫瘍 (n=1222)
メラノーマ細胞株 (n=40) メラノーマ腫瘍 (n=472)
感想 ➢ かなり ad hoc な手法なので、どの部分が効いているのか知りたい : PC の制約なしで写像を決めると精度は? 写像しないで元の空間をそのまま使うと?
etc ➢ 既存の転移学習手法との比較はなかった : 論文を選んだときは深層学習を使っていると思っていたのだが… ➢ 生命科学において転移学習が重要なのは間違いないと思う : 色々な分野で学習済モデルの整備が進むと良いなあ