適応テンソル分解と主成分分析に基づく教師なし特徴抽出は、従来手法よりも生物学的に妥当な発現量差のある遺伝子を選択する

TD/PCAベースの教師なし特徴抽出 — SD最適化でDEG選択を改善 — Scientific Reports (2022) 12:17438 | Taguchi
& Turki 20分講演スライド（日本語）図1（論文より）

本日の流れ 20分アジェンダ 1. 背景：DEG選択の難しさ（large p, small n） 2. 方法：TD/PCAベース教師なし特徴抽出（FE）
3. 改良点：Gaussian仮定に合わせたSD最適化 4. 結果①：MAQC/SEQC（遺伝子数・分布の妥当性） 5. 結果②：SARS-CoV-2薬剤リポジショニング 6. 結果③：多臓器×多薬剤（生物学的妥当性） 7. まとめ Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 2

背景：DEG選択は「large p, small n」問題背景なぜ難しい？ • 遺伝子数pが非常に多く、サンプル数nが少ない •
多重検定補正で有意になりにくい • 既存法（例：DESeq2）は - 負の二項分布（NB） - 分散関係（dispersion relation）などの仮定に依存論文の狙い TD/PCAベース教師なしFEは、「PC/特異値ベクトルがGaussianに従う」という比較的シンプルな仮定でDEGを抽出。ただし従来版は： • P値のヒストグラムが帰無仮説とズレる • 選ばれる遺伝子数が少なすぎる → SD（標準偏差）を最適化して改善する。 Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 3

方法の全体像：SD最適化を「P値計算」に挿入図1 図1：TD/PCAベース教師なしFEの流れ（赤が今回の改良点）ポイント • 既存のTD/PCAの分解・特徴量抽出はそのまま • 「PC/特異値ベクトルがGaussian」という帰無仮説に合わせるよう、 P値算出に使うSDを最適化 •
その後BH法などで多重検定補正し、遺伝子を選択 Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 4

PCAベース教師なしFE（例：MAQC）図2 考え方（ざっくり） 1) 遺伝子×サンプルの行列を標準化 2) PCAでPCスコアuとローディングvを得る 3) 目的（例：処理群vs対照）と対応するPCを選ぶ
4) uがGaussianに従うと仮定しP値を付与 5) 多重検定補正（BH）→ DEG選択今回：4)の「SD」を最適化図2：MAQCにPCAを適用した例この図の読みどころ v2が群差（DE）を表す成分として使える → 対応するu2で遺伝子にP値 Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 5

なぜSD最適化が効くのか：P値ヒストグラムの「形」図3 帰無仮説が正しければ… • u（PCスコア）がGaussianなら → 1−P はほぼ一様に分布 • 「本当の外れ値（DEG）」は
1−P ≈ 1 に鋭いピークとして現れる従来：外れ値がSDを押し上げ → P値が過大になり、DEGが少なすぎる図3：左=従来SD、右=最適化SD（MAQC）観察最適化後は「一様+ピーク」に近づき、帰無仮説（Gaussian仮定）に整合。 → 外れ値（候補DEG）を拾いやすくなる Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 6

SD最適化：ヒストグラムが最も「平ら」になるSDを探す図6 アルゴリズム（要点） 1) SD候補σでP値を計算 2) 1−Pのヒストグラムを作る 3) 「外れ値ではない部分（P >
P0）」に注目 4) そのヒストグラムが最も平ら（分散が最小）になるσを選ぶ 5) そのσでP値を再計算し、BH補正 ※ σ=0で何も選ばれない解は除外図6：最適化の指標（σh）とSDの比較 Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 7

結果①：MAQC（選択された遺伝子数が「現実的」へ）表3 表3の要点 • 従来PCA-FE：344遺伝子（adj.P ≤ 0.01） • 最適化PCA-FE：12,252遺伝子 •
DESeq2：20,546遺伝子論文の主張：「344は少なすぎ、20,546は多すぎ」最適化PCA-FEは中庸で、偽陰性・偽陽性のバランスが改善表3：MAQCでの遺伝子選択数補足（MAQC） • P値の絶対値が適切になり、上位遺伝子ランキング自体はDESeq2と整合（AUC高） • 「数が増えた」だけでなく、生物学的なエンリッチメントも改善（後続図） Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 8

結果①：MAQC（MA-Plot上の分布が自然）図8 読みどころ • 同じLFCでも低発現ほどDEGになりにくい • DESeq2は分散関係でこの性質を
“明示的に”導入 • 本手法は仮定なしで “自然に”現れると議論 Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 9

結果②：SEQC（サンプル数に依らず“適度な数”を選ぶ）図10 SEQCの観察（13データセット） • 最適化PCA-FE：選択遺伝子数が概ね10^3で安定 • DESeq2： 10^4規模になりやすく、サンプル数依存が大きい
→ “過剰検出しにくい”点が利点として提示図10：DEG数 vs サンプル数（◦=PCA-FE、△=DESeq2）実務的な意味サンプル数が変わっても “選択規模”が暴れにくいと、後続の解釈・検証計画（Wet実験等）が立てやすい。 Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 10

結果③：SARS-CoV-2（既知相互作用遺伝子との一致が改善）図14 図14：既知のウイルスタンパク質相互作用遺伝子との重なり（-log10 P）結論（このケース） • 最適化TD-FEが kernel TD /
従来TD / DESeq2 より良い重なり（高い- log10P） • 以前は163遺伝子→ 最適化で3,627遺伝子（論文記載） → ノイズが大きい “現実データ”でも改善が示された Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 11

結果③：薬剤リポジショニング（上位候補の例）表4：GEO down（上位10）表5：GEO up（上位10） ※ 講演では「候補例の提示」に留め、臨床有効性の断定は避ける。 Sci Rep (2022)
12:17438 | doi:10.1038/s41598-022-21474-z 12

結果④：多臓器×多薬剤（遺伝子数↑、組織特異性↑）表8/図15 表8：選択遺伝子数（従来TD-FE vs 最適化TD-FE）解釈 • 従来は「少なすぎて検出力不足」 • 最適化で大幅に増加
• さらに、DrugMatrix等との一致（薬剤処理の識別）が可能になったと報告図15：Metascapeによる細胞/組織特異性エンリッチメント Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 13

考察：低発現遺伝子が“選ばれにくい”性質は自然に出る図16 論文の議論（要約） • LFC = log2(x/y) は差Δ=x−yと関係 • 同じ|Δ|でも、平均が小さい（低発現）ほど
|LFC|が大きくなりやすい／扱いが不安定 • DESeq2は分散関係で“手動”調整 • TD/PCA-FEはGaussian仮定＋SD最適化で MA-Plot上の自然な傾向が得られる図16：一様乱数でも“低x+yは選ばれにくい”傾向の例実務メモ • 後段でLFC閾値に頼らず“適度な数”に収まるのが利点として提示 Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 14

まとめ Takeaways 今日の持ち帰り • TD/PCAベース教師なしFEは「Gaussian仮定」でDEGを抽出できる。 • 問題だった“P値ヒストグラムのズレ”と“遺伝子数の少なさ”を、SD最適化で改善。 • MAQC/SEQCなどのベンチマークで、過少・過剰検出のバランスが良い結果を提示。 •
SARS-CoV-2や多臓器データでも、生物学的妥当性（既知相互作用・組織特異性）が改善。次の一歩：自分のデータで「P値ヒストグラムの形」と「選択数」をまず確認。ご清聴ありがとうございました（質疑） Sci Rep (2022) 12:17438 | doi:10.1038/s41598-022-21474-z 15

適応テンソル分解と主成分分析に基づく教師なし特徴抽出は、従来手法よりも生物学的に妥当な発現量差...

適応テンソル分解と主成分分析に基づく教師なし特徴抽出は、従来手法よりも生物学的に妥当な発現量差のある遺伝子を選択する

Y-h. Taguchi PRO

More Decks by Y-h. Taguchi

Other Decks in Science

Featured

Transcript

TD/PCAベースの教師なし特徴抽出 — SD最適化でDEG選択を改善 — Scientific Reports (2022) 12:17438 | Taguchi

本日の流れ 20分アジェンダ 1. 背景：DEG選択の難しさ（large p, small n） 2. 方法：TD/PCAベース教師なし特徴抽出（FE）

背景：DEG選択は「large p, small n」問題背景なぜ難しい？ • 遺伝子数pが非常に多く、サンプル数nが少ない •

PCAベース教師なしFE（例：MAQC）図2 考え方（ざっくり） 1) 遺伝子×サンプルの行列を標準化 2) PCAでPCスコアuとローディングvを得る 3) 目的（例：処理群vs対照）と対応するPCを選ぶ

なぜSD最適化が効くのか：P値ヒストグラムの「形」図3 帰無仮説が正しければ… • u（PCスコア）がGaussianなら → 1−P はほぼ一様に分布 • 「本当の外れ値（DEG）」は

SD最適化：ヒストグラムが最も「平ら」になるSDを探す図6 アルゴリズム（要点） 1) SD候補σでP値を計算 2) 1−Pのヒストグラムを作る 3) 「外れ値ではない部分（P >

結果①：MAQC（選択された遺伝子数が「現実的」へ）表3 表3の要点 • 従来PCA-FE：344遺伝子（adj.P ≤ 0.01） • 最適化PCA-FE：12,252遺伝子 •

結果①：MAQC（MA-Plot上の分布が自然）図8 読みどころ • 同じLFCでも低発現ほどDEGになりにくい • DESeq2は分散関係でこの性質を

結果②：SEQC（サンプル数に依らず“適度な数”を選ぶ）図10 SEQCの観察（13データセット） • 最適化PCA-FE：選択遺伝子数が概ね10^3で安定 • DESeq2： 10^4規模になりやすく、サンプル数依存が大きい

結果③：SARS-CoV-2（既知相互作用遺伝子との一致が改善）図14 図14：既知のウイルスタンパク質相互作用遺伝子との重なり（-log10 P）結論（このケース） • 最適化TD-FEが kernel TD /

結果③：薬剤リポジショニング（上位候補の例）表4：GEO down（上位10）表5：GEO up（上位10） ※ 講演では「候補例の提示」に留め、臨床有効性の断定は避ける。 Sci Rep (2022)

結果④：多臓器×多薬剤（遺伝子数↑、組織特異性↑）表8/図15 表8：選択遺伝子数（従来TD-FE vs 最適化TD-FE）解釈 • 従来は「少なすぎて検出力不足」 • 最適化で大幅に増加

考察：低発現遺伝子が“選ばれにくい”性質は自然に出る図16 論文の議論（要約） • LFC = log2(x/y) は差Δ=x−yと関係 • 同じ|Δ|でも、平均が小さい（低発現）ほど