Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
(Neurips 2024) HEST-1k: A Dataset for Spatial ...
Search
Kazuya Nishimura
April 23, 2025
0
3
(Neurips 2024) HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis
Kazuya Nishimura
April 23, 2025
Tweet
Share
More Decks by Kazuya Nishimura
See All by Kazuya Nishimura
Paper reading party (ICCV 2023):End-to-End Semi-Supervised Object Detection with Soft Teacher
naivete5656
0
3
(CVPR2022) Integrative Few-Shot Learning for Classification and Segmentation
naivete5656
0
5
(ECCV2024) Multistain Pretraining for Slide Representation Learning in Pathology
naivete5656
0
3
(CVPR2024) Modeling Dense Multimodal Interactions Between Biological Pathways and Histology for Survival Prediction
naivete5656
0
2
(CVPR2024) Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs
naivete5656
0
2
Deep generative modeling for single-cell transcriptomics
naivete5656
0
3
Featured
See All Featured
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.7k
The Cost Of JavaScript in 2023
addyosmani
55
9.1k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
GitHub's CSS Performance
jonrohan
1032
470k
Writing Fast Ruby
sferik
630
62k
Build The Right Thing And Hit Your Dates
maggiecrowley
38
2.9k
Mobile First: as difficult as doing things right
swwweet
225
10k
Build your cross-platform service in a week with App Engine
jlugia
233
18k
Raft: Consensus for Rubyists
vanstee
140
7.2k
Done Done
chrislema
185
16k
It's Worth the Effort
3n
187
28k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1k
Transcript
13F 勉強会 HEST-1k: A Dataset for Spatial Transcriptomics and Histology
Image Analysis 計算生命科学ユニット 特任研究員 西村和也
自己紹介 名前: 西村和也 学歴:~2019年3月 松江高専 2019年4月~2024年3月 九州大学 博士(情報科学)
2024年4月~ 国立がん研究センター 特任研究員 (学振PD) 研究内容: バイオメディカル画像認識, パターン認識, Label-efficient learning 細胞画像解析 [MICCAI 2019, 2021, 2023, ECCV2020, WACV2023] 内視鏡画像解析 [MICCAI 2024] 病理画像解析 Multiple-InstanceLearning [MICCAI W 2023]
本日紹介する論文の概要 論文概要:画像と空間トランスクリプト-ムのデータセットの論文 1,108 の 画像×空間トランスクリプト-ムのペアのデータセットを公開! 1. 統一した扱い方を整備 2. 画像xSTの benchmark
を確立 3. HEST1k を用いた知識発見の方法を提案 4. Multimodal learning を検証 本日考えたいこと 画像×空間トランスクリプト-ムで何ができそう?
空間トランスクリプト-ムの急速な発展と問題点 1. 画像も撮影されているが画像は活用されていない 2. 統一された扱い方が確立されていない 3. コストが高いので撮影されている患者数が数が少ない 課題: 画像 Gene
expression (ST) ST Visium Visium HD Xenium 高解像度 コスト大 低解像度
HEST 1k: 画像とST の1108 samples のデータセット コホート:131 臓器:25 がんの種類:25 ヒトとマウス
観測機器
HEST 1k: 画像とST の1108 samples のデータセット 異なるデータ形式を 揃えて扱えるように Spot と
画像を 揃えて扱えるように Sample 毎に5つのデータ
本日紹介する論文の概要 論文概要:画像と空間トランスクリプト-ムのデータセットの論文 1,108 の 画像×空間トランスクリプト-ムのペアのデータセットを公開! 1. 統一した扱い方を整備 2. 画像xSTの benchmark
を確立 3. HEST1k を用いた知識発見の方法を提案 4. Multimodal learning を検証 本日考えたいこと 画像×空間トランスクリプト-ムで何ができそう?
画像 x STの benchmark を確立 画像が遺伝子発現の情報を取得しているかを検証する共通のタスクを設定 Neural Network 基盤モデル (大量のデータで学習したモデル)
… 特徴 Benchmark:AI モデルの性能を評価する共通のタスク Downstream tasks 例:肺がんの分類 腫瘍領域の認識 など 様々なタスクでモデルの 性能を検証
Benchmark のタスク 9種類の人間のがんを対象に10個のタスクを設定 (選定方法は不明) 推定結果と観測値との相関で評価 タスク 臓器 がん種 発現の多い50の遺伝子の 遺伝子発現推定
Breast IDC Prostate PRAD Pancreatic PPAD Skin SKCM Colon COAD Rectum READ Kidney ccRCC Liver HCC Lung LUAD axillary lymph nodes IDC 病理医でも難しいタスク 本当に推定できるか不明?
既存の基盤モデルを Benchmark で評価 右に行くほど性能が高いと言われているモデル 画像特徴が取得できる最近のモデルの性能が高くなっている 相関が低すぎる推定が困難なタスクも含んでいそう
HEST1k を用いた知識発見の方法 (1/2) IDC Xenium samples でGATA3 と neoplastic nuclei
Breast cancer で発現する遺伝子 画像認識で細胞形状を認識 細胞の大きさで色付け 細胞のサイズと遺伝子発現をプロット 細胞の短径と遺伝子発現をプロット
HEST1k を用いた知識発見の方法 (2/2) IDC Xenium sample で TPD52 との相関を観察
Multimodal learning を検証 画像と遺伝子発現を用いてニューラルネットワークを学習 対応するデータを入力した際に特徴の類似が向上するように学習 対応する画像と遺伝子発現 の特徴が類似するように学習 普通は画像だけ入力のところを 遺伝子発現も入力
Multimodal learning finetuning の効果 CONCH という基盤モデルを学習 invasive breast cancer の5
枚のXenium を用いて学習 ER, PR, and HER2 の発現を2値で推定 軽微に性能向上
まとめ 1,108 の 画像×空間トランスクリプト-ムのペアのデータセットを公開! 1. 統一した扱い方を整備 2. 画像xSTの benchmark を確立
3. HEST1k を用いた知識発見の方法を提案 4. Multimodal learning を検証 課題: 1. Benchmark で推定している遺伝子が画像に紐づいているとは限らない 2. Multi-modal な学習の効果が少ない 3. 複数の観測技術を統合する手法が必要
補足:画像×空間トランスクリプト-ムを扱うためには とにかく大きなデータセットを作り 全てのデータを model で学習してしまおう! Stable diffusion, GPT などの登場! 画像をはじめとする深層学習の流れ
Visium HD, Xenium Visium ST 解像度 低い 高い 観測技術 乳がん 肺がん 脳腫瘍 大腸がん 食道がん 胃がん 膀胱がん 観測技術 組織 2種類のbatch effect を統合して扱う必要あり ※色が患者に対応 HER2-positive 乳がんの患者毎の 遺伝子発現データ 患者間で観測値にばらつきが生じる 患者毎に観測 値がシフト
補足:HEST に含まれる batch effect