Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
適応テンソル分解と主成分分析に基づく教師なし特徴抽出は、従来手法よりも生物学的に妥当な発現量差...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Y-h. Taguchi
PRO
March 12, 2026
Science
38
0
Share
適応テンソル分解と主成分分析に基づく教師なし特徴抽出は、従来手法よりも生物学的に妥当な発現量差のある遺伝子を選択する
SIGBIO84
https://www.ipsj.or.jp/kenkyukai/event/bio84.html
での講演スライドです。
Y-h. Taguchi
PRO
March 12, 2026
More Decks by Y-h. Taguchi
See All by Y-h. Taguchi
presen_司法書士学員会.pdf
tagtag
PRO
1
58
生成AIと司法書士の未来.pdf
tagtag
PRO
0
110
データ駆動型ゲノム解析で迫る睡眠研究
tagtag
PRO
0
51
知能とはなにか -ヒトとAIのあいだ-
tagtag
PRO
0
70
Genomic Differentiation of Sleep and Anesthesia: The Role of RHO GTPase and Cortical Neurons
tagtag
PRO
0
43
睡眠と麻酔による無意識状態のゲノム的差異:RHO GTPaseと皮質ニューロンの役割
tagtag
PRO
0
73
Somatostatin-Expressing Neurons Regulate Sleep Deprivation and Recovery: A Data-Driven Transcriptomic Analysis
tagtag
PRO
1
44
Sstニューロンによる睡眠不足と回復の制御:データ駆動型トランスクリプトーム解析
tagtag
PRO
0
81
テンソル分解を用いたVisiumデータの高精度・高速デコンボリューション手法
tagtag
PRO
0
69
Other Decks in Science
See All in Science
水耕栽培を始める前に知っておきたい植物の科学
grow_design_lab
0
170
データベース02: データベースの概念
trycycle
PRO
2
1.1k
HajimetenoLT vol.17
hashimoto_kei
1
230
防災デジタル分野での官民共創の取り組み (1)防災DX官民共創をどう進めるか
ditccsugii
0
630
人生を変えた一冊「独学大全」のはなし / Self-study ENCYCLOPEDIA: The Book Which Change My Life #独学大全 #EM推し本
expajp
0
160
(メタ)科学コミュニケーターからみたAI for Scienceの同床異夢
rmaruy
0
220
水耕栽培:古代の知恵から宇宙農業まで
grow_design_lab
0
110
20251212_LT忘年会_データサイエンス枠_新川.pdf
shinpsan
0
290
2026 Design Informatics 01: Introduction
kanaya
0
120
My Little Monster
juzishuu
0
700
なぜエネルギーは保存する? 〜自由落下でわかる“対称性”とネーターの定理〜
syotasasaki593876
0
140
共生概念の整理と AIアライメントの構想
hiroakihamada
0
190
Featured
See All Featured
Become a Pro
speakerdeck
PRO
31
5.9k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
Building Adaptive Systems
keathley
44
3k
Producing Creativity
orderedlist
PRO
348
40k
BBQ
matthewcrist
89
10k
Facilitating Awesome Meetings
lara
57
6.8k
The Invisible Side of Design
smashingmag
302
52k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.5k
GraphQLとの向き合い方2022年版
quramy
50
15k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1.1k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
2
190
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.7k
Transcript
TD/PCAベースの教師なし特徴抽出 — SD最適化でDEG選択を改善 — Scientific Reports (2022) 12:17438 | Taguchi
& Turki 20分講演スライド(日本語) 図1(論文より)
本日の流れ 20分 アジェンダ 1. 背景:DEG選択の難しさ(large p, small n) 2. 方法:TD/PCAベース教師なし特徴抽出(FE)
3. 改良点:Gaussian仮定に合わせたSD最適化 4. 結果①:MAQC/SEQC(遺伝子数・分布の妥当性) 5. 結果②:SARS-CoV-2薬剤リポジショニング 6. 結果③:多臓器×多薬剤(生物学的妥当性) 7. まとめ Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 2
背景:DEG選択は「large p, small n」問題 背景 なぜ難しい? • 遺伝子数pが非常に多く、サンプル数nが少な い •
多重検定補正で有意になりにくい • 既存法(例:DESeq2)は - 負の二項分布(NB) - 分散関係(dispersion relation) などの仮定に依存 論文の狙い TD/PCAベース教師なしFEは、 「PC/特異値ベクトルがGaussianに従う 」 という比較的シンプルな仮定でDEGを抽 出。 ただし従来版は: • P値のヒストグラムが帰無仮説とズレ る • 選ばれる遺伝子数が少なすぎる → SD(標準偏差)を最適化して改善す る。 Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 3
方法の全体像:SD最適化を「P値計算」に挿入 図1 図1:TD/PCAベース教師なしFEの流れ(赤が今回の改良点) ポイント • 既存のTD/PCAの分解・特徴量抽出はそのまま • 「PC/特異値ベクトルがGaussian」という帰無仮説に合わせるよう、 P値算出に使うSDを最適化 •
その後BH法などで多重検定補正し、遺伝子を選択 Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 4
PCAベース教師なしFE(例:MAQC) 図2 考え方(ざっくり) 1) 遺伝子×サンプルの行列を標準化 2) PCAでPCスコアuとローディングvを得る 3) 目的(例:処理群vs対照)と対応するPCを 選ぶ
4) uがGaussianに従うと仮定しP値を付与 5) 多重検定補正(BH)→ DEG選択 今回:4)の「SD」を最適化 図2:MAQCにPCAを適用した例 この図の読みどころ v2が群差(DE)を表す成分として使える → 対応するu2で遺伝子にP値 Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 5
なぜSD最適化が効くのか:P値ヒストグラムの「形」 図3 帰無仮説が正しければ… • u(PCスコア)がGaussianなら → 1−P はほぼ一様に分布 • 「本当の外れ値(DEG)」は
1−P ≈ 1 に鋭いピークとして現れる 従来:外れ値がSDを押し上げ → P値が過大になり、DEGが少なすぎる 図3:左=従来SD、右=最適化SD(MAQC) 観察 最適化後は「一様+ピーク」に近づき、 帰無仮説(Gaussian仮定)に整合。 → 外れ値(候補DEG)を拾いやすくなる Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 6
SD最適化:ヒストグラムが最も「平ら」になるSDを探す 図6 アルゴリズム(要点) 1) SD候補σでP値を計算 2) 1−Pのヒストグラムを作る 3) 「外れ値ではない部分(P >
P0)」に注 目 4) そのヒストグラムが最も平ら(分散が最小 ) になるσを選ぶ 5) そのσでP値を再計算し、BH補正 ※ σ=0で何も選ばれない解は除外 図6:最適化の指標(σh)とSDの比較 Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 7
結果①:MAQC(選択された遺伝子数が「現実的」へ) 表3 表3の要点 • 従来PCA-FE:344遺伝子(adj.P ≤ 0.01) • 最適化PCA-FE:12,252遺伝子 •
DESeq2:20,546遺伝子 論文の主張: 「344は少なすぎ、20,546は多すぎ」 最適化PCA-FEは中庸で、 偽陰性・偽陽性のバランスが改善 表3:MAQCでの遺伝子選択数 補足(MAQC) • P値の絶対値が適切になり、上位遺伝子ランキング 自体はDESeq2と整合(AUC高) • 「数が増えた」だけでなく、生物学的なエンリッチ メントも改善(後続図) Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 8
結果①:MAQC(MA-Plot上の分布が自然) 図8 読みどころ • 同じLFCでも 低発現ほどDEGに なりにくい • DESeq2は分散関係で この性質を
“明示的に”導入 • 本手法は仮定なしで “自然に”現れる と議論 Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 9
結果②:SEQC(サンプル数に依らず“適度な数”を選ぶ) 図10 SEQCの観察(13データセット) • 最適化PCA-FE: 選択遺伝子数が概ね10^3で安定 • DESeq2: 10^4規模になりやすく、サンプル数依存が 大きい
→ “過剰検出しにくい”点が利点として提示 図10:DEG数 vs サンプル数(◦=PCA-FE、△=DESeq2) 実務的な意味 サンプル数が変わっても “選択規模”が暴れにくいと、 後続の解釈・検証計画(Wet実験等)が立 てやすい。 Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 10
結果③:SARS-CoV-2(既知相互作用遺伝子との一致が改善) 図14 図14:既知のウイルスタンパク質相互作用遺伝子との重なり(-log10 P) 結論(このケース) • 最適化TD-FEが kernel TD /
従来TD / DESeq2 より良い重なり (高い- log10P) • 以前は163遺伝子→ 最適化で3,627遺伝子 (論文記載) → ノイズが大きい “現実データ”でも 改善が示された Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 11
結果③:薬剤リポジショニング(上位候補の例) 表4:GEO down(上位10) 表5:GEO up(上位10) ※ 講演では「候補例の提示」に留め、臨床有効性の断定は避ける。 Sci Rep (2022)
12:17438 | doi:10.1038/s41598-022-21474-z 12
結果④:多臓器×多薬剤(遺伝子数↑、組織特異性↑) 表8/図15 表8:選択遺伝子数(従来TD-FE vs 最適化TD-FE) 解釈 • 従来は「少なすぎて検出力不足」 • 最適化で大幅に増加
• さらに、DrugMatrix等との 一致(薬剤処理の識別)が 可能になったと報告 図15:Metascapeによる細胞/組織特異性エンリッチメント Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 13
考察:低発現遺伝子が“選ばれにくい”性質は自然に出る 図16 論文の議論(要約) • LFC = log2(x/y) は差Δ=x−yと関係 • 同じ|Δ|でも、平均が小さい(低発現)ほど
|LFC|が大きくなりやすい/扱いが不安定 • DESeq2は分散関係で“手動”調整 • TD/PCA-FEはGaussian仮定+SD最適化で MA-Plot上の自然な傾向が得られる 図16:一様乱数でも“低x+yは選ばれにくい”傾向の例 実務メモ • 後段でLFC閾値に頼らず“適度な数”に収まるのが利点として提示 Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 14
まとめ Takeaways 今日の持ち帰り • TD/PCAベース教師なしFEは「Gaussian仮定」でDEGを抽出できる。 • 問題だった“P値ヒストグラムのズレ”と“遺伝子数の少なさ”を、SD最適化で改善。 • MAQC/SEQCなどのベンチマークで、過少・過剰検出のバランスが良い結果を提示。 •
SARS-CoV-2や多臓器データでも、生物学的妥当性(既知相互作用・組織特異性)が改善。 次の一歩:自分のデータで「P値ヒストグラムの形」と「選択数」をまず確認。 ご清聴ありがとうございました(質疑) Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 15