(Neurips 2024) HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis

13F 勉強会 HEST-1k: A Dataset for Spatial Transcriptomics and Histology
Image Analysis 計算生命科学ユニット特任研究員西村和也

自己紹介  名前: 西村和也  学歴：~2019年3月松江高専 2019年4月~2024年3月九州大学博士（情報科学）
2024年4月~ 国立がん研究センター特任研究員 (学振PD)  研究内容：バイオメディカル画像認識, パターン認識, Label-efficient learning 細胞画像解析 [MICCAI 2019, 2021, 2023, ECCV2020, WACV2023] 内視鏡画像解析 [MICCAI 2024] 病理画像解析 Multiple-InstanceLearning [MICCAI W 2023]

本日紹介する論文の概要論文概要：画像と空間トランスクリプト－ムのデータセットの論文 1,108 の画像×空間トランスクリプト－ムのペアのデータセットを公開！ 1. 統一した扱い方を整備 2. 画像xSTの benchmark
を確立 3. HEST1k を用いた知識発見の方法を提案 4. Multimodal learning を検証本日考えたいこと画像×空間トランスクリプト－ムで何ができそう？

空間トランスクリプト－ムの急速な発展と問題点 1. 画像も撮影されているが画像は活用されていない 2. 統一された扱い方が確立されていない 3. コストが高いので撮影されている患者数が数が少ない課題：画像 Gene
expression (ST) ST Visium Visium HD Xenium 高解像度コスト大低解像度

HEST 1k: 画像とST の1108 samples のデータセットコホート：131 臓器：25 がんの種類：25 ヒトとマウス
観測機器

HEST 1k: 画像とST の1108 samples のデータセット異なるデータ形式を揃えて扱えるように Spot と
画像を揃えて扱えるように Sample 毎に5つのデータ

本日紹介する論文の概要論文概要：画像と空間トランスクリプト－ムのデータセットの論文 1,108 の画像×空間トランスクリプト－ムのペアのデータセットを公開！ 1. 統一した扱い方を整備 2. 画像xSTの benchmark
を確立 3. HEST1k を用いた知識発見の方法を提案 4. Multimodal learning を検証本日考えたいこと画像×空間トランスクリプト－ムで何ができそう？

画像 x STの benchmark を確立画像が遺伝子発現の情報を取得しているかを検証する共通のタスクを設定 Neural Network 基盤モデル (大量のデータで学習したモデル)
… 特徴 Benchmark：AI モデルの性能を評価する共通のタスク Downstream tasks 例：肺がんの分類腫瘍領域の認識など様々なタスクでモデルの性能を検証

Benchmark のタスク 9種類の人間のがんを対象に10個のタスクを設定 (選定方法は不明) 推定結果と観測値との相関で評価タスク臓器がん種発現の多い50の遺伝子の遺伝子発現推定
Breast IDC Prostate PRAD Pancreatic PPAD Skin SKCM Colon COAD Rectum READ Kidney ccRCC Liver HCC Lung LUAD axillary lymph nodes IDC 病理医でも難しいタスク本当に推定できるか不明？

既存の基盤モデルを Benchmark で評価右に行くほど性能が高いと言われているモデル画像特徴が取得できる最近のモデルの性能が高くなっている相関が低すぎる推定が困難なタスクも含んでいそう

HEST1k を用いた知識発見の方法 (1/2) IDC Xenium samples でGATA3 と neoplastic nuclei
Breast cancer で発現する遺伝子画像認識で細胞形状を認識細胞の大きさで色付け細胞のサイズと遺伝子発現をプロット細胞の短径と遺伝子発現をプロット

HEST1k を用いた知識発見の方法 (2/2) IDC Xenium sample で TPD52 との相関を観察

Multimodal learning を検証画像と遺伝子発現を用いてニューラルネットワークを学習対応するデータを入力した際に特徴の類似が向上するように学習対応する画像と遺伝子発現の特徴が類似するように学習普通は画像だけ入力のところを遺伝子発現も入力

Multimodal learning finetuning の効果 CONCH という基盤モデルを学習 invasive breast cancer の5
枚のXenium を用いて学習 ER, PR, and HER2 の発現を２値で推定軽微に性能向上

まとめ 1,108 の画像×空間トランスクリプト－ムのペアのデータセットを公開！ 1. 統一した扱い方を整備 2. 画像xSTの benchmark を確立
3. HEST1k を用いた知識発見の方法を提案 4. Multimodal learning を検証課題： 1. Benchmark で推定している遺伝子が画像に紐づいているとは限らない 2. Multi-modal な学習の効果が少ない 3. 複数の観測技術を統合する手法が必要

補足：画像×空間トランスクリプト－ムを扱うためにはとにかく大きなデータセットを作り全てのデータを model で学習してしまおう！ Stable diffusion, GPT などの登場！画像をはじめとする深層学習の流れ
Visium HD, Xenium Visium ST 解像度低い高い観測技術乳がん肺がん脳腫瘍大腸がん食道がん胃がん膀胱がん観測技術組織２種類のbatch effect を統合して扱う必要あり ※色が患者に対応 HER2-positive 乳がんの患者毎の遺伝子発現データ患者間で観測値にばらつきが生じる患者毎に観測値がシフト

補足：HEST に含まれる batch effect

(Neurips 2024) HEST-1k: A Dataset for Spatial ...

(Neurips 2024) HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis

Kazuya Nishimura

More Decks by Kazuya Nishimura

Featured

Transcript

13F 勉強会 HEST-1k: A Dataset for Spatial Transcriptomics and Histology

自己紹介  名前: 西村和也  学歴：~2019年3月松江高専 2019年4月~2024年3月九州大学博士（情報科学）

本日紹介する論文の概要論文概要：画像と空間トランスクリプト－ムのデータセットの論文 1,108 の画像×空間トランスクリプト－ムのペアのデータセットを公開！ 1. 統一した扱い方を整備 2. 画像xSTの benchmark

空間トランスクリプト－ムの急速な発展と問題点 1. 画像も撮影されているが画像は活用されていない 2. 統一された扱い方が確立されていない 3. コストが高いので撮影されている患者数が数が少ない課題：画像 Gene

HEST 1k: 画像とST の1108 samples のデータセットコホート：131 臓器：25 がんの種類：25 ヒトとマウス

HEST 1k: 画像とST の1108 samples のデータセット異なるデータ形式を揃えて扱えるように Spot と

本日紹介する論文の概要論文概要：画像と空間トランスクリプト－ムのデータセットの論文 1,108 の画像×空間トランスクリプト－ムのペアのデータセットを公開！ 1. 統一した扱い方を整備 2. 画像xSTの benchmark

画像 x STの benchmark を確立画像が遺伝子発現の情報を取得しているかを検証する共通のタスクを設定 Neural Network 基盤モデル (大量のデータで学習したモデル)

Benchmark のタスク 9種類の人間のがんを対象に10個のタスクを設定 (選定方法は不明) 推定結果と観測値との相関で評価タスク臓器がん種発現の多い50の遺伝子の遺伝子発現推定

既存の基盤モデルを Benchmark で評価右に行くほど性能が高いと言われているモデル画像特徴が取得できる最近のモデルの性能が高くなっている相関が低すぎる推定が困難なタスクも含んでいそう

HEST1k を用いた知識発見の方法 (1/2) IDC Xenium samples でGATA3 と neoplastic nuclei

HEST1k を用いた知識発見の方法 (2/2) IDC Xenium sample で TPD52 との相関を観察

Multimodal learning finetuning の効果 CONCH という基盤モデルを学習 invasive breast cancer の5

まとめ 1,108 の画像×空間トランスクリプト－ムのペアのデータセットを公開！ 1. 統一した扱い方を整備 2. 画像xSTの benchmark を確立

補足：画像×空間トランスクリプト－ムを扱うためにはとにかく大きなデータセットを作り全てのデータを model で学習してしまおう！ Stable diffusion, GPT などの登場！画像をはじめとする深層学習の流れ

補足：HEST に含まれる batch effect