サンプル対応のない複数遺伝子発現プロファイルに対するテンソル分解型統合解析の要約

サンプル対応なしで複数の遺伝子発現プロファイルを統合する Tensor Decomposition–based Unsupervised Feature Extraction による AD
データ統合 Y-h. Taguchi & Turki Turki Scientific Reports 12, 21242 (2022) Dataset 1 RNA-seq Dataset 2 RNA-seq Dataset 3 RNA-seq 共通の遺伝子軸 Tensor

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis
お断り：ここ数年「自分ではやらずに生成AIに発表スライドを作らせてどこまでいけるか」にチャレンジしてきて今回も論文のPDFをアップロードして生成AI（ChatGPT）に作らせてここまで出来るようになりました。プロセスは以下の通りで極力簡単なプロンプトでどこまで出来るかのトライアルです。なお、論文からの図や表の大きさだけは最後は僕が手動で直しました。 https://chatgpt.com/share/6a457933-b36c-83e8-bc69-f726fba38291 まあ、これは「既発表論文を発表する」という場合にしか使えないですが。研究報告の原稿からでもしっかり作った原稿からなら可能かもしれません（試してないです）

今日の結論 20分講演のロードマップこの論文の一番の貢献は、通常は統合できないデータを「遺伝子 × 低次元成分 × データセット」のテンソルに落として統合した点です。 1 対応サンプルなし・共通ラベルなしでも統合可能 AD関連の複数RNA-seq・scRNA-seqを同じ枠組みで扱う 2 選択遺伝子は神経変性疾患・脳領域に濃縮 565 / 544 / 660 / 177遺伝子の複数解析で生物学的妥当性を確認 3 薬剤再配置・転移学習・scRNA-seq省メモリ化へ展開分類性能の追求ではなく、共通する遺伝子軸の抽出が目的 2

問題設定：何が「普通の統合解析」と違うのか sample matching / common label / batch effect サンプル対応あり例：同一個体の複数測定共通ラベルあり例：各研究に患者/対照本論文の設定共有しているのは遺伝子だけバッチ効果補正は、通常「同じラベルが複数研究にある」ことを前提にする。この論文では、患者/対照などのラベルも研究間で共有されないため、より難しい設定になる。必要条件：完全にデータ駆動・教師なしで、研究間の潜在的な対応を探すこと 3

なぜADデータでこの設定が重要なのか研究の動機小サンプル問題 • RNA-seqは遺伝子数が多い • 一方、疾患モデルや細胞実験のサンプル数は少ない • 1研究だけでは安定した特徴抽出が難しい研究目的の違い • AD/対照比較 • AD関連遺伝子の操作 • 薬剤処理や標的遺伝子活性化 • scRNA-seqの組織・疾患差統合したい理由疾患・加齢・遺伝子操作・薬剤応答に共通する「遺伝子の変動方向」を抽出したい。 AD研究では「直接対応しないデータを比べたい」場面が多い 4

基本アイデア：各データを低次元成分に圧縮してから統合手法の直観各データセット遺伝子 × サンプル SVD / HOSVD 上位成分を抽出共通テンソル遺伝子 × 成分 × データ HOSVD 共通遺伝子軸得られるもの uℓ₁i：全データセットに共通する「遺伝子方向」 vℓ₁jk：各データセット内サンプルを、その遺伝子方向へ射影した座標 P値＋BH補正：共通成分に強く寄与する遺伝子を選択 5

6 Figure S1：解析全体のワークフロー原図表補足資料のFigure S1を直接取り込み。データセット1–6からSVD/HOSVD、遺伝子選択、濃縮解析、薬剤選択へ進む流れを示す。出典：Taguchi & Turki, Scientific
Reports 12:21242 (2022), Supplementary Information.

Step 1：個別データを成分表示に変換する SVD / HOSVD of each study 元データ xijk 遺伝子 i × サンプル jk SVD xijk = Σ u[k]ℓi λ[k]ℓ v[k]ℓjk xiℓk 遺伝子 × 上位成分 × データ狙い：サンプル数が 9, 23, 8 のように違っても、上位 L 成分にそろえれば統合できる。この段階では、各研究のサンプル対応を作らない。符号の不定性には注意し、複数プロファイルを比較する前に相関が正になるよう調整する。 7

Step 2：統合テンソルをHOSVDし、遺伝子を選ぶ common gene directions xiℓk ∈ Rᴺ×ᴸ×ᴷ N：遺伝子数 L：各データの上位成分数 K：データセット数 xiℓk = Σ G(ℓ₁,ℓ₂,ℓ₃) × uℓ₁i × uℓ₂ℓ × uℓ₃k 遺伝子選択の流れ 1. 分類や条件と関連する成分 ℓ₁ を選ぶ 2. 各遺伝子 i について、uℓ₁i の大きさを統計量化 3. χ²分布でP値を付与 4. BH補正後 P < 0.01 を選択教師なしFE：ラベルで学習せず、後から関連性を見るサンプルを直接そろえないそろえるのは遺伝子軸だけ 8

使ったデータ：ADを軸に6つのGEOデータを統合データセット # GEO 内容サンプル構造遺伝子数 1 GSE160224 ADモデル細胞 9 samples 58k genes 2 GSE155567 CD33/PTPN6操作 23 samples 61k genes 3 GSE162873 AD/normal細胞 8 samples 48k genes 4 GSE164788 化合物処理 94 drugs × 4 doses × 3 reps 28k genes 5 GSE164642 ABCC1活性化 3 RNAs × 2 treatments × 3 reps 58k genes 6 GSE163577 AD scRNA-seq 25 profiles, ~10⁴ cells each 34k genes 1–3：基礎統合 4：薬剤再配置 5：転移学習 6：scRNA-seq 9

基礎解析：datasets 1–3は何を比較しているのか AD-related cell-line RNA-seq Dataset 1 NDC control vs APP duplication / corrected iPSC Dataset 2 CD33 knockout / PTPN6 silencing 4 classes Dataset 3 AD1 / AD2 / normal 3 classes この3データは、患者/対照などのラベルを研究間で共有していない。しかし、ADに関わる細胞状態・遺伝子操作を、共通の遺伝子方向として関連づけられるかを調べる。最初の実証：3研究を統合して、生物学的に妥当な遺伝子が選べるか 10

11 Table S1：潜在変数と分類の一致性原図表補足資料のTable S1を直接取り込み。統合・薬剤リポジショニング・transfer learningでのP値を一覧化。出典：Taguchi & Turki,
Scientific Reports 12:21242 (2022), Supplementary Information.

結果1：3つのAD関連データセットを統合 datasets 1–3: latent components and genes 565 genes BH補正後 P < 0.01 uℓ₁i, 1≤ℓ₁≤5 を遺伝子選択に使用各データセット内サンプルの射影 vℓ₁jk は、個別の分類と有意に対応。 dataset 1 AD / control dataset 2 WT / treated dataset 3 AD1 / AD2 / normal 重要：vℓ₁jk を比較すると、研究間の対応だけでなく、個別データのズレや異質性も見える可能性がある。 12

13 Figure S2：3データセット統合時のboxplot 原図表補足資料のFigure S2を直接取り込み。datasets 1–3の分類と潜在変数 vℓ₁jₖk の対応を確認する図。出典：Taguchi
& Turki, Scientific Reports 12:21242 (2022), Supplementary Information.

結果1の生物学的検証：神経変性関連の濃縮 enrichment analysis 濃縮解析の主要シグナル KEGG 2021 Human 神経変性疾患関連経路がtop10に6件 Jensen Diseases 神経変性疾患がtop10に4件 DAVID GAD_DISEASE top10に5つの神経変性疾患 g:Profiler KEGG 有意な16経路中、6つが神経変性関連統合で選ばれた遺伝子群は、ADを含む神経変性疾患・脳関連の生物学的語彙に一貫して結びつく。 14

15 Table S2：神経変性疾患関連語の濃縮原図表補足資料のTable S2を直接取り込み。565/544/660/147遺伝子の濃縮解析結果を比較。出典：Taguchi & Turki, Scientific

応用1：薬剤処理データを加えると薬剤再配置へ dataset 4 AD関連統合テンソル (datasets 1–3) 薬剤処理 94 drugs × 4 doses × 3 reps HOSVD 薬剤方向を評価 544 genes AD統合＋薬剤処理で選択上位薬剤は、元研究でADに有効候補とされたものが多い → 病態データと薬剤処理データを、サンプル対応なしで同じ遺伝子軸に置くことで、薬剤再配置の候補順位付けに使える可能性を示した。ポイント：疾患データを1つでなく複数まとめて薬剤解析へ使える 16

17 Figure S3：薬剤リポジショニング時のboxplot 原図表補足資料のFigure S3を直接取り込み。datasets 1–3にdrug treatmentデータを加えた統合で、分類との対応を示す。出典：Taguchi &
Turki, Scientific Reports 12:21242 (2022), Supplementary Information.

18 Table S3：薬剤ランキング上位5件原図表補足資料のTable S3を直接取り込み。各ℓ₁で上位に来た薬剤名とスコアを示す。：Taguchi & Turki, Scientific

応用2：「転移学習」に相当する使い方 dataset 5 / ABCC1 通常の流れ ABCC1活性化で変動する遺伝子 ADで既知の変動遺伝子と比較論文の流れ AD統合テンソルを事前知識として利用 ABCC1データを直接統合同時に変動する遺伝子を抽出 660 genes ADとABCC1活性化の双方に関係する遺伝子群深層学習の事前学習とは違うが、役割は「既存統合軸の再利用」 19

20 Figure S4：Transfer learning時のboxplot 原図表補足資料のFigure S4を直接取り込み。ABCC1過剰発現データを加えた場合の潜在変数と分類の対応を示す。出典：Taguchi & Turki,
Scientific Reports 12:21242 (2022), Supplementary Information.

応用3：scRNA-seqでは細胞数の巨大さを直接抱え込まない dataset 6 10⁴ cells 10⁴ cells 10⁴ cells 各scRNA-seq プロファイル SVD 上位10成分 33,538 × 10 × 25 のテンソル 25 profiles：海馬 / 皮質 × AD / control 約100倍の省メモリ化 177 genes 脳組織特異性＋脳関連疾患のシグナル 21

22 Figure S5：scRNA-seq統合の分類対応原図表補足資料のFigure S5を直接取り込み。AD/controlと脳領域の4群に対応する uℓ₃c を評価した図。出典：Taguchi &
Turki, Scientific Reports 12:21242 (2022), Supplementary Information.

scRNA-seqの結果の読み方 tissue specificity vs neurodegeneration RNA-seq統合とは濃縮結果の性質が少し違う通常RNA-seq統合神経変性疾患語が上位 scRNA-seq統合 Human Gene Atlasで脳組織が上位 Disease Perturbations 脳関連疾患が多く出る解釈 scRNA-seqでは、疾患差だけでなく、海馬・皮質などの組織差や細胞構成の違いが強く表れうる。したがって、上位語が神経変性疾患そのものに限定されないことは、むしろ単一細胞データらしい結果と読める。 23

比較：既存法や単純連結より何が良いのか CMF / GFA / concatenation 方法分類との対応生物学的妥当性 TD-based FE 全3データの分類に関連する成分を得る神経変性関連の濃縮が強い CMF 有意な潜在変数なし不十分 GFA dataset 1で分類と関連しない不十分単純連結 + SVD 一応関連するが弱い 147 genesで濃縮が弱い今回の目的は「サンプルを共有しない複数行列を統合する」こと。既存の多くの統合・multi-view手法は、サンプル共有や共通ラベルを前提にしやすい。 24

25 Table S9：既存手法との比較原図表補足資料のTable S9を直接取り込み。CMF/GFA/単純連結とTDベース統合の比較に対応。出典：Taguchi & Turki, Scientific

個別解析との比較：PCAを別々にかけるだけでは足りない separate PCA vs integrated TD 個別PCA dataset 1 dataset 2 dataset 3 それぞれのPCスコアは互いに相関しにくく、TDの uℓ₁i とも強く対応しない。統合TD 共通の uℓ₁i 全データセットに有効な遺伝子方向第4・第5成分のような、複数データにまたがる重要成分も拾いやすい。結論：別々に見てから重ねるより、最初から統合軸を推定するほうが本研究の目的に合う 26

27 Figure S6：個別PCAとTDの遺伝子比較原図表補足資料のFigure S6を直接取り込み。個別PCAと統合TDが選ぶ遺伝子集合の重なりを示す。出典：Taguchi & Turki, Scientific

Discussion：この実装の利点 what the method enables 1. サンプル対応なしの統合サンプル数が 9, 23, 8 のように異なる研究を、上位成分数 L にそろえて共通テンソル化する。 2. 関係の可視化共通遺伝子軸へ射影した vℓ₁jk を見ることで、異なる研究内の分類やズレを比較できる。 3. 省メモリ化 scRNA-seqでは、全細胞を直接統合せず、各プロファイルの上位成分だけを使う。共通する考え方：大きく異なるデータを、まず低次元の「成分」に変換してから比較する 28

限界：何を主張しすぎてはいけないか classification and interpretation できること • サンプル対応なしに、データセット間の潜在的対応を見る • データセット内サンプルを共通遺伝子軸へ射影する • scRNA-seqの大量細胞を上位成分へ圧縮する限界・注意点 • 分類性能を最大化する方法ではない • 通常のバッチ補正とは別問題 • 個別研究の目的と統合解析の比較軸は一致しない • 生物学的解釈は濃縮解析などで検証が必要この手法は「よく分類する」ためよりも、異なる研究の間に共有される遺伝子方向を発見するための方法。 29

まとめ：20分講演の結論 take-home message 1 統合 2 検証 3 応用サンプル対応も共通ラベルも不要 AD・神経変性疾患関連の濃縮薬剤再配置・TL scRNA-seq省メモリ化結論：TD-based unsupervised FE は、遺伝子だけを共有する独立研究を統合するための実用的な「前処理＋特徴抽出」フレームワークである。質疑で戻るポイント：問題設定 → 低次元化 → 統合テンソル → 遺伝子選択 → 濃縮解析 → 応用 30

サンプル対応のない複数遺伝子発現プロファイルに対するテンソル分解型統合解析の要約

サンプル対応のない複数遺伝子発現プロファイルに対するテンソル分解型統合解析の要約

Y-h. Taguchi PRO

More Decks by Y-h. Taguchi

Other Decks in Science

Featured

Transcript

サンプル対応なしで複数の遺伝子発現プロファイルを統合する Tensor Decomposition–based Unsupervised Feature Extraction による AD

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

6 Figure S1：解析全体のワークフロー原図表補足資料のFigure S1を直接取り込み。データセット1–6からSVD/HOSVD、遺伝子選択、濃縮解析、薬剤選択へ進む流れを示す。出典：Taguchi & Turki, Scientific

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

11 Table S1：潜在変数と分類の一致性原図表補足資料のTable S1を直接取り込み。統合・薬剤リポジショニング・transfer learningでのP値を一覧化。出典：Taguchi & Turki,

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

13 Figure S2：3データセット統合時のboxplot 原図表補足資料のFigure S2を直接取り込み。datasets 1–3の分類と潜在変数 vℓ₁jₖk の対応を確認する図。出典：Taguchi

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

15 Table S2：神経変性疾患関連語の濃縮原図表補足資料のTable S2を直接取り込み。565/544/660/147遺伝子の濃縮解析結果を比較。出典：Taguchi & Turki, Scientific

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

17 Figure S3：薬剤リポジショニング時のboxplot 原図表補足資料のFigure S3を直接取り込み。datasets 1–3にdrug treatmentデータを加えた統合で、分類との対応を示す。出典：Taguchi &

18 Table S3：薬剤ランキング上位5件原図表補足資料のTable S3を直接取り込み。各ℓ₁で上位に来た薬剤名とスコアを示す。：Taguchi & Turki, Scientific

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

20 Figure S4：Transfer learning時のboxplot 原図表補足資料のFigure S4を直接取り込み。ABCC1過剰発現データを加えた場合の潜在変数と分類の対応を示す。出典：Taguchi & Turki,

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

22 Figure S5：scRNA-seq統合の分類対応原図表補足資料のFigure S5を直接取り込み。AD/controlと脳領域の4群に対応する uℓ₃c を評価した図。出典：Taguchi &

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

25 Table S9：既存手法との比較原図表補足資料のTable S9を直接取り込み。CMF/GFA/単純連結とTDベース統合の比較に対応。出典：Taguchi & Turki, Scientific

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

27 Figure S6：個別PCAとTDの遺伝子比較原図表補足資料のFigure S6を直接取り込み。個別PCAと統合TDが選ぶ遺伝子集合の重なりを示す。出典：Taguchi & Turki, Scientific

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis

Taguchi & Turki, Scientific Reports 2022 | TD-based integrated analysis