Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BioPackathon2024 ゲノム立体構造解析とHiC1Dmetricsの紹介
Search
中戸隆一郎(Ryuichiro Nakato)
October 09, 2024
Research
0
76
BioPackathon2024 ゲノム立体構造解析とHiC1Dmetricsの紹介
Bio"Pack"athon 2024 #10 (2024年10月9日)の発表資料です。
中戸隆一郎(Ryuichiro Nakato)
October 09, 2024
Tweet
Share
More Decks by 中戸隆一郎(Ryuichiro Nakato)
See All by 中戸隆一郎(Ryuichiro Nakato)
BioPackathon2025 シングルセル解析プラットフォームShortCakeの紹介
rnakato
0
60
Other Decks in Research
See All in Research
Agentic AI Era におけるサプライチェーン最適化
mickey_kubo
0
110
EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues
satai
3
510
When Learned Data Structures Meet Computer Vision
matsui_528
1
1.8k
[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ
akifumi_wachi
19
9.1k
A History of Approximate Nearest Neighbor Search from an Applications Perspective
matsui_528
1
120
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
250
snlp2025_prevent_llm_spikes
takase
0
420
Stealing LUKS Keys via TPM and UUID Spoofing in 10 Minutes - BSides 2025
anykeyshik
0
170
Language Models Are Implicitly Continuous
eumesy
PRO
0
360
データサイエンティストをめぐる環境の違い2025年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
370
Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification
satai
3
390
競合や要望に流されない─B2B SaaSでミニマム要件を決めるリアルな取り組み / Don't be swayed by competitors or requests - A real effort to determine minimum requirements for B2B SaaS
kaminashi
0
420
Featured
See All Featured
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
How GitHub (no longer) Works
holman
316
140k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
110
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
0
3.4k
Accessibility Awareness
sabderemane
0
26
Un-Boring Meetings
codingconduct
0
170
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
150
Thoughts on Productivity
jonyablonski
73
5k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
3.5k
We Are The Robots
honzajavorek
0
120
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.3k
Transcript
ゲノム立体構造解析と HiC1Dmetricsの紹介 東京大学定量生命科学研究所 大規模生命情報解析研究分野 中戸隆一郎 2024/10/9 Bio"Pack"athon 2024 #10 @RyuichiroNakato
Contents Hi-Cを用いた立体構造解析 HiC1Dmetricsについて PyPIへの登録について 2
ゲノムは核内で規則的に折りたたまれている Misteli, Cell, 2020 階層的な立体構造を持つ 染色体テリトリー コンパートメント
トポロジカルドメイン (TAD) クロマチンループ 一定の構造を持ちつつ、核内で 動的に変動している 超解像度顕微鏡 動的な変動を観測できる 一度に観測できる領域は限定的 Hi-C(NGS解析) 全ゲノムを観測可能 ある時点での平均的な構造が得ら れる:時間軸の変動は得られない 3
Hi-Cを用いた立体構造解析の原理 ゲノム位置 ゲノム位置 三角形の表現(上三角) Lieberman-Aiden et al., Science, 2009 4
ゲノムをビンに区切って リードペアをカウント (ビンサイズを解像度と呼ぶ) 正規化
Silorska and Sexton, J Mol Biol., 2020 Hi-C法で観測される階層的ゲノム構造 染色体テリトリー コンパートメント
TAD クロマチンループ Hi-Cデータ 概念図 格子状パターン TAD境界 ドットとして表現される 5
Bonev et al, Cell, 2017 Beagan et al, Nat Genet,
2020 トポロジカルドメイン (Topology associating domain; TAD) 6
コヒーシン & ローダー アンローダー インシュレーター 異なる階層は異なる因子によって制御されている Silorska and Sexton, J
Mol Biol., 2020 それぞれの階層を分けて解析する必要がある 7
サンプル間で比較する場合 を考える 2サンプルの比較の場合 直接目視(上図) 簡単、直感的 主にTAD構造が注視される
細かい違いは見えない 相互作用頻度のlog2 比(下図) 変動パターンを概観できる 微細な変動もキャプチャできる 遠距離相互作用は再現性が低い 8
多サンプル解析の場合 視覚的な2次元マップの比較は客観的でない・全ゲノムに展開しにくい TAD・ループの二値比較はマップリード数や解像度に対して頑健でない 1次元の特徴ベクトルに変換することで、定量的な多サンプル比較が容易に 立体構造の個々の特徴(構造単位)を抽出する特徴ベクトル群の開発 サンプル
9
TAD Chromatin compaction Compartment Stripe TAD Chromatin hubs • 既存指標・新規指標を含めた種々の既存指標を統一的
に計算 • 新規スコアの開発により、これまで同定が難しかった 特殊な立体構造を定量的に抽出・比較可能 • 高速・効率的に多サンプル間の立体構造の定量的比較 が可能 HiC1Dmetrics [Wang and Nakato, Briefing in Bioinformatics, 2021] Jiankang Wang 10
最初はツール化する予定はなかった 新しい一次元スコアを思いついたので、「新規スコアの提案」と「そのスコアを用いた 解析による知見獲得」の(小さい)論文にするつもりだった 当時博士の学生だった王さんにお願いしたところ、HiC1Dmetricsが誕生した ユーティリティ性が増した
彼が頑張りました 新規スコアだけでなく、既存のスコアも併せて統一的に計算可能 論文は必然的に総説的な要素を含む 前半が既存スコアのレビュー、後半が新規スコアの説明 Briefing in Bioinformatics が望ましいと判断し、投稿(総説+新規手法の合わせ技) 一度リジェクトになったが、再投稿→採択(王さんが頑張りました) HiC1Dmetrics誕生秘話 11
1次元解析の例(インシュレーションスコア) [Crane et al. Nature, 2015] smaller square Larger square
スクウェアサイズが大きいほど、遠距離の相互 作用を考慮する 相互作用が少ない(TAD境界)を赤で示す Larger square (1M) smaller square (100kb) [Crane et al. Nature, 2015] 12
1次元解析の例(コンパートメント) [Lieberman-Aiden et al., Science, 2009] コンパートメントA コンパートメントB 第一主成分(PC1) 主成分分析
(PCA) 0 0.025 -0.025 Lieberman-Aiden et al., Science, 2009 13
1次元解析の例(クロマチンコンパクション) [Heinz et al, Cell, 2018] Heinz et al, Cell,
2018 クロマチンの局所的凝縮度を測る指標 DLR: 値が大きいほど凝縮(不活性)、 小さいほどオープン(活性) 14
新規スコアの例 “Intra-TAD score (IAS)” 各ゲノム領域のTAD内における相互作用 量をTADサイズで正規化 Stripe構造の抽出に利用できることが明 らかになった
15 [Wang and Nakato, Briefing in Bioinformatics, 2021]
見たかったもの:「TAD間」相互作用の欠損効果の違い 左右非対称なTAD間相互作用変動が観測された コンパートメントや、エピゲノムに関連があるのではないかと思わ れた このような領域を全ゲノム的に抽出するには? コンパートメント A/B
RNA pol2 高/低 相互作用ログ比 (対コントロール) コヒーシンKD NIPBL KD CTCF KD 相互作用頻度のlog比(対コントロール) 16
Directional relative frequency (DRF) 2サンプル比較における指標 相互作用頻度のlog比の平均値を5’末端側(A) および3’末端側(B)について計算し、BからA を引く
非対称な相互作用変動を示す領域について強く 変動することになる Nakato et al, Nat Commun, 2023 17
18 [Wang and Nakato, Briefing in Bioinformatics, 2021] Directional TAD
(dTAD):左右非対称な相互作用変動を示すTAD TAD間相互作用変動パターンは遺伝子発現と相関が ある コンパートメント構造とはおそらく異なる機構
HiC1Dmetrics (version 0.2.10) https://h1d.readthedocs.io/en/latest/index.html 入力: .hic, .cool, dense matrix
1サンプル用のスコア Insulation score, PC1など 2サンプル用のスコア DRFなど コンパートメントの計算に は遺伝子ファイルが必要 $ pip3 install h1d インストール 19
期待する使い方1:多サンプル類似度比較 [Wang and Nakato, Briefing in Bioinformatics, 2021] Stripe TADsの細胞種間比較
20 IASを用いたクラスタリング
期待する使い方2:エピゲノム情報との統合 立体構造情報を加味した クロマチン状態推定 [ROADMAP project, Nature, 2015] [Wang and Nakato,
Briefing in Bioinformatics, 2021] ヒストン修飾情報を利用した クロマチン状態推定 21
22 Springerにプロトコルを公開しています
アカウント発行が必要 チェック機構などはないので簡単 wheel, twineの2つのツールが必要(pipでインストールできる) バージョン管理・アップデート必須
TestPyPIをうまく活用する PyPIへの登録について 23 PyPI TestPyPI
公開するプログラム群 __init__.pyの準備(下図) プログラム名、バージョンなどを記載 Setup.pyの準備(右図) 公開するプログラム一覧
依存関係のあるライブラリ一覧 同時にインストールされる 必要なバージョン情報を記載 Python >= 3.7 など 24 setup.py __init__.py 登録ファイルの準備
25 # 必要なファイルの作成 $ python setup.py bdist_wheel # PyPIへのアップロード $
twine upload --repository pypi dist/* # TestPyPIへのアップロード $ twine upload --repository testpypi dist/* PyPIとTestPyPIでバージョン情報が異なることに注意 pipでダウンロードできることを確認 PyPIへのアップロード # TestPyPIの場合 $ pip install -i https://test.pypi.org/simple/ h1d
依存関係のあるパッケージのバージョン管理をしっかりする Pythonライブラリは頻繁にアップデートされ、後方互換性は保証されない バージョンが上がったことによるエラーが多発する 一方、厳しすぎると他のツールとのconflictが多発する 依存関係のあるパッケージは極力少なくする
「車輪の再開発はしない」が基本だが、外部のツールをimportするより自分で実装した方が ツールとしての頑健性は上がる 依存関係がどうしても多い場合 READMEで仮想環境を推奨する Dockerなどのイメージに環境そのものを登録する 少なくとも、Docker上では動く。という状況を保証できる 考慮すべき点 26
まとめ HiC1Dmetrics:Hi-Cデータから様々な特徴を抽出した1次元ベクトルを生成する 既存指標・新規指標を含めた種々の既存指標を統一的に計算 そのうちのいくつかを本日紹介しました 新規スコアの開発により、これまで同定が難しかった特殊な立体構造を定量的に抽出・比 較可能
高速・効率的に多サンプル間の立体構造の定量的比較が可能になる PyPIへの登録 こういうスコアを作ったら面白そう?みたいなアイデアがあればぜひご相談ください 27