Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BioPackathon2024 ゲノム立体構造解析とHiC1Dmetricsの紹介
Search
中戸隆一郎(Ryuichiro Nakato)
October 09, 2024
Research
0
71
BioPackathon2024 ゲノム立体構造解析とHiC1Dmetricsの紹介
Bio"Pack"athon 2024 #10 (2024年10月9日)の発表資料です。
中戸隆一郎(Ryuichiro Nakato)
October 09, 2024
Tweet
Share
Other Decks in Research
See All in Research
ノンパラメトリック分布表現を用いた位置尤度場周辺化によるRTK-GNSSの整数アンビギュイティ推定
aoki_nosse
0
330
大規模な2値整数計画問題に対する 効率的な重み付き局所探索法
mickey_kubo
1
270
Principled AI ~深層学習時代における課題解決の方法論~
taniai
3
1.2k
SSII2025 [SS1] レンズレスカメラ
ssii
PRO
2
980
とあるSREの博士「過程」 / A Certain SRE’s Ph.D. Journey
yuukit
6
2.8k
Self-supervised audiovisual representation learning for remote sensing data
satai
3
230
Towards a More Efficient Reasoning LLM: AIMO2 Solution Summary and Introduction to Fast-Math Models
analokmaus
2
410
Computational OT #4 - Gradient flow and diffusion models
gpeyre
0
320
NLP2025参加報告会 LT資料
hargon24
1
330
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
780
最適化と機械学習による問題解決
mickey_kubo
0
140
Submeter-level land cover mapping of Japan
satai
3
130
Featured
See All Featured
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
Why Our Code Smells
bkeepers
PRO
336
57k
The Pragmatic Product Professional
lauravandoore
35
6.7k
Making the Leap to Tech Lead
cromwellryan
134
9.4k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Code Reviewing Like a Champion
maltzj
524
40k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
126
53k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Side Projects
sachag
455
42k
GraphQLとの向き合い方2022年版
quramy
49
14k
Building an army of robots
kneath
306
45k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Transcript
ゲノム立体構造解析と HiC1Dmetricsの紹介 東京大学定量生命科学研究所 大規模生命情報解析研究分野 中戸隆一郎 2024/10/9 Bio"Pack"athon 2024 #10 @RyuichiroNakato
Contents Hi-Cを用いた立体構造解析 HiC1Dmetricsについて PyPIへの登録について 2
ゲノムは核内で規則的に折りたたまれている Misteli, Cell, 2020 階層的な立体構造を持つ 染色体テリトリー コンパートメント
トポロジカルドメイン (TAD) クロマチンループ 一定の構造を持ちつつ、核内で 動的に変動している 超解像度顕微鏡 動的な変動を観測できる 一度に観測できる領域は限定的 Hi-C(NGS解析) 全ゲノムを観測可能 ある時点での平均的な構造が得ら れる:時間軸の変動は得られない 3
Hi-Cを用いた立体構造解析の原理 ゲノム位置 ゲノム位置 三角形の表現(上三角) Lieberman-Aiden et al., Science, 2009 4
ゲノムをビンに区切って リードペアをカウント (ビンサイズを解像度と呼ぶ) 正規化
Silorska and Sexton, J Mol Biol., 2020 Hi-C法で観測される階層的ゲノム構造 染色体テリトリー コンパートメント
TAD クロマチンループ Hi-Cデータ 概念図 格子状パターン TAD境界 ドットとして表現される 5
Bonev et al, Cell, 2017 Beagan et al, Nat Genet,
2020 トポロジカルドメイン (Topology associating domain; TAD) 6
コヒーシン & ローダー アンローダー インシュレーター 異なる階層は異なる因子によって制御されている Silorska and Sexton, J
Mol Biol., 2020 それぞれの階層を分けて解析する必要がある 7
サンプル間で比較する場合 を考える 2サンプルの比較の場合 直接目視(上図) 簡単、直感的 主にTAD構造が注視される
細かい違いは見えない 相互作用頻度のlog2 比(下図) 変動パターンを概観できる 微細な変動もキャプチャできる 遠距離相互作用は再現性が低い 8
多サンプル解析の場合 視覚的な2次元マップの比較は客観的でない・全ゲノムに展開しにくい TAD・ループの二値比較はマップリード数や解像度に対して頑健でない 1次元の特徴ベクトルに変換することで、定量的な多サンプル比較が容易に 立体構造の個々の特徴(構造単位)を抽出する特徴ベクトル群の開発 サンプル
9
TAD Chromatin compaction Compartment Stripe TAD Chromatin hubs • 既存指標・新規指標を含めた種々の既存指標を統一的
に計算 • 新規スコアの開発により、これまで同定が難しかった 特殊な立体構造を定量的に抽出・比較可能 • 高速・効率的に多サンプル間の立体構造の定量的比較 が可能 HiC1Dmetrics [Wang and Nakato, Briefing in Bioinformatics, 2021] Jiankang Wang 10
最初はツール化する予定はなかった 新しい一次元スコアを思いついたので、「新規スコアの提案」と「そのスコアを用いた 解析による知見獲得」の(小さい)論文にするつもりだった 当時博士の学生だった王さんにお願いしたところ、HiC1Dmetricsが誕生した ユーティリティ性が増した
彼が頑張りました 新規スコアだけでなく、既存のスコアも併せて統一的に計算可能 論文は必然的に総説的な要素を含む 前半が既存スコアのレビュー、後半が新規スコアの説明 Briefing in Bioinformatics が望ましいと判断し、投稿(総説+新規手法の合わせ技) 一度リジェクトになったが、再投稿→採択(王さんが頑張りました) HiC1Dmetrics誕生秘話 11
1次元解析の例(インシュレーションスコア) [Crane et al. Nature, 2015] smaller square Larger square
スクウェアサイズが大きいほど、遠距離の相互 作用を考慮する 相互作用が少ない(TAD境界)を赤で示す Larger square (1M) smaller square (100kb) [Crane et al. Nature, 2015] 12
1次元解析の例(コンパートメント) [Lieberman-Aiden et al., Science, 2009] コンパートメントA コンパートメントB 第一主成分(PC1) 主成分分析
(PCA) 0 0.025 -0.025 Lieberman-Aiden et al., Science, 2009 13
1次元解析の例(クロマチンコンパクション) [Heinz et al, Cell, 2018] Heinz et al, Cell,
2018 クロマチンの局所的凝縮度を測る指標 DLR: 値が大きいほど凝縮(不活性)、 小さいほどオープン(活性) 14
新規スコアの例 “Intra-TAD score (IAS)” 各ゲノム領域のTAD内における相互作用 量をTADサイズで正規化 Stripe構造の抽出に利用できることが明 らかになった
15 [Wang and Nakato, Briefing in Bioinformatics, 2021]
見たかったもの:「TAD間」相互作用の欠損効果の違い 左右非対称なTAD間相互作用変動が観測された コンパートメントや、エピゲノムに関連があるのではないかと思わ れた このような領域を全ゲノム的に抽出するには? コンパートメント A/B
RNA pol2 高/低 相互作用ログ比 (対コントロール) コヒーシンKD NIPBL KD CTCF KD 相互作用頻度のlog比(対コントロール) 16
Directional relative frequency (DRF) 2サンプル比較における指標 相互作用頻度のlog比の平均値を5’末端側(A) および3’末端側(B)について計算し、BからA を引く
非対称な相互作用変動を示す領域について強く 変動することになる Nakato et al, Nat Commun, 2023 17
18 [Wang and Nakato, Briefing in Bioinformatics, 2021] Directional TAD
(dTAD):左右非対称な相互作用変動を示すTAD TAD間相互作用変動パターンは遺伝子発現と相関が ある コンパートメント構造とはおそらく異なる機構
HiC1Dmetrics (version 0.2.10) https://h1d.readthedocs.io/en/latest/index.html 入力: .hic, .cool, dense matrix
1サンプル用のスコア Insulation score, PC1など 2サンプル用のスコア DRFなど コンパートメントの計算に は遺伝子ファイルが必要 $ pip3 install h1d インストール 19
期待する使い方1:多サンプル類似度比較 [Wang and Nakato, Briefing in Bioinformatics, 2021] Stripe TADsの細胞種間比較
20 IASを用いたクラスタリング
期待する使い方2:エピゲノム情報との統合 立体構造情報を加味した クロマチン状態推定 [ROADMAP project, Nature, 2015] [Wang and Nakato,
Briefing in Bioinformatics, 2021] ヒストン修飾情報を利用した クロマチン状態推定 21
22 Springerにプロトコルを公開しています
アカウント発行が必要 チェック機構などはないので簡単 wheel, twineの2つのツールが必要(pipでインストールできる) バージョン管理・アップデート必須
TestPyPIをうまく活用する PyPIへの登録について 23 PyPI TestPyPI
公開するプログラム群 __init__.pyの準備(下図) プログラム名、バージョンなどを記載 Setup.pyの準備(右図) 公開するプログラム一覧
依存関係のあるライブラリ一覧 同時にインストールされる 必要なバージョン情報を記載 Python >= 3.7 など 24 setup.py __init__.py 登録ファイルの準備
25 # 必要なファイルの作成 $ python setup.py bdist_wheel # PyPIへのアップロード $
twine upload --repository pypi dist/* # TestPyPIへのアップロード $ twine upload --repository testpypi dist/* PyPIとTestPyPIでバージョン情報が異なることに注意 pipでダウンロードできることを確認 PyPIへのアップロード # TestPyPIの場合 $ pip install -i https://test.pypi.org/simple/ h1d
依存関係のあるパッケージのバージョン管理をしっかりする Pythonライブラリは頻繁にアップデートされ、後方互換性は保証されない バージョンが上がったことによるエラーが多発する 一方、厳しすぎると他のツールとのconflictが多発する 依存関係のあるパッケージは極力少なくする
「車輪の再開発はしない」が基本だが、外部のツールをimportするより自分で実装した方が ツールとしての頑健性は上がる 依存関係がどうしても多い場合 READMEで仮想環境を推奨する Dockerなどのイメージに環境そのものを登録する 少なくとも、Docker上では動く。という状況を保証できる 考慮すべき点 26
まとめ HiC1Dmetrics:Hi-Cデータから様々な特徴を抽出した1次元ベクトルを生成する 既存指標・新規指標を含めた種々の既存指標を統一的に計算 そのうちのいくつかを本日紹介しました 新規スコアの開発により、これまで同定が難しかった特殊な立体構造を定量的に抽出・比 較可能
高速・効率的に多サンプル間の立体構造の定量的比較が可能になる PyPIへの登録 こういうスコアを作ったら面白そう?みたいなアイデアがあればぜひご相談ください 27