Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
190821_jc38_saito
Search
yutaka-saito
August 21, 2019
Science
1
200
190821_jc38_saito
yutaka-saito
August 21, 2019
Tweet
Share
Other Decks in Science
See All in Science
機械学習 - K近傍法 & 機械学習のお作法
trycycle
PRO
0
1.3k
データベース08: 実体関連モデルとは?
trycycle
PRO
0
1k
白金鉱業Meetup_Vol.20 効果検証ことはじめ / Introduction to Impact Evaluation
brainpadpr
2
1.5k
データベース14: B+木 & ハッシュ索引
trycycle
PRO
0
640
2025-06-11-ai_belgium
sofievl
1
220
AIに仕事を奪われる 最初の医師たちへ
ikora128
0
1k
データから見る勝敗の法則 / The principle of victory discovered by science (open lecture in NSSU)
konakalab
1
260
AIによる科学の加速: 各領域での革新と共創の未来
masayamoriofficial
0
360
データベース06: SQL (3/3) 副問い合わせ
trycycle
PRO
1
710
Hakonwa-Quaternion
hiranabe
1
170
Rashomon at the Sound: Reconstructing all possible paleoearthquake histories in the Puget Lowland through topological search
cossatot
0
350
【RSJ2025】PAMIQ Core: リアルタイム継続学習のための⾮同期推論・学習フレームワーク
gesonanko
0
570
Featured
See All Featured
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.2k
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
130
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.6k
New Earth Scene 8
popppiees
0
1.3k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
1
100
Context Engineering - Making Every Token Count
addyosmani
9
590
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Statistics for Hackers
jakevdp
799
230k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Accessibility Awareness
sabderemane
0
33
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.4k
Transcript
齋藤裕@産総研 https://staff.aist.go.jp/yutaka.saito/ がんの発現プロファイルから抗がん剤の効果を予測 転移学習で細胞株データから学習した予測器を腫瘍サンプルに適用
転移学習 ➢ ある問題 A を解くために学習されたモデルを別の問題 B へ適用する理論 ➢ 本当に解きたい問題 B
の学習データを取得するのは難しいが、 類似した問題 A の学習データは豊富にあるという状況で有用 ➢ 生命科学には転移学習ぽい状況がよくある : vivo の実験は難しいから vitro でやろう 非モデル生物は扱いが難しいからモデル生物を使おう ラボからフィールドへ 培養器から生産プラントへ 企業「本当に重要な機密データは見せたくない」etc ➢ ものすごく応用範囲が広そうなのに バイオインフォでは転移学習の研究はあまり行われていない? (個人の感想)
問題設定 ➢ がんの発現プロファイルから抗がん剤の効果を予測したい ➢ 実際の腫瘍サンプルの学習データは患者への投薬実験が必要 がん細胞株の薬効データ (IC50) は豊富 ➢ 細胞株データで学習した予測器を腫瘍サンプルへ適用する
転移学習のうち unsupervised domain adaptation というクラス : source と target の特徴次元数が同じでデータの分布は異なる source には label が付いているが target には付いていない 発現プロファイル IC50 Xs : ns samples p genes source : 細胞株 target : 腫瘍 発現プロファイル transfer Xt : nt samples p genes
提案手法 PRECISE ➢ 基本的なアイデア : 発現データを低次元空間へ写像 写像先の空間では source と target
の分布を類似させる 写像先の空間で学習した予測器は source, target どちらにも使えそう source space (p-dim) target space (p-dim) domain invariant space (d-dim) 実際は p ~ 20000 で d=20 くらいに設定 D : KS statistic
提案手法 PRECISE ➢ 写像先の空間に source, target 空間の情報をうまく入れたい : source, target
空間それぞれで PCA を行い 両方の PC から離れすぎない方向の写像を見つけるよう制約を付加 source space (p-dim) target space (p-dim) source, target の PC を d 次元で直行変換 (~ 回転) して 1 対 1 対応させる 制約条件 : 写像ベクトルは 1 対 1 対応させた 青 ↑ と 赤 ↑ の間から選ぶ i=1 i=2 [0, 1] の 0 は 青 ↑ 、1 は 赤 ↑
PC の直交変換とマッチング source space target space i=1 i=2 (うまく行き過ぎでは…?)
写像の効果 ➢ 写像先の各次元は生物学的に解釈可能な特徴量になった 第 1, 2 次元は既知の乳がんマーカー遺伝子 第 3 次元は
cell cycle 第 9 次元は immune system etc source : 乳がん細胞株 (n=51) target : 乳がん腫瘍 (n=1222) 各遺伝子への負荷量を使った gene set enrichment analysis
腫瘍サンプルの抗がん剤効果予測 ➢ 発現プロファイルから予測された IC50 と 発現以外の既知バイオマーカーの相関を評価 乳がん細胞株 (n=51) 乳がん腫瘍 (n=1222)
メラノーマ細胞株 (n=40) メラノーマ腫瘍 (n=472)
感想 ➢ かなり ad hoc な手法なので、どの部分が効いているのか知りたい : PC の制約なしで写像を決めると精度は? 写像しないで元の空間をそのまま使うと?
etc ➢ 既存の転移学習手法との比較はなかった : 論文を選んだときは深層学習を使っていると思っていたのだが… ➢ 生命科学において転移学習が重要なのは間違いないと思う : 色々な分野で学習済モデルの整備が進むと良いなあ