Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BioPackathon2024 ゲノム立体構造解析とHiC1Dmetricsの紹介
Search
中戸隆一郎(Ryuichiro Nakato)
October 09, 2024
Research
0
47
BioPackathon2024 ゲノム立体構造解析とHiC1Dmetricsの紹介
Bio"Pack"athon 2024 #10 (2024年10月9日)の発表資料です。
中戸隆一郎(Ryuichiro Nakato)
October 09, 2024
Tweet
Share
Other Decks in Research
See All in Research
Global Evidence Summit (GES) 参加報告
daimoriwaki
0
190
LiDARとカメラのセンサーフュージョンによる点群からのノイズ除去
kentaitakura
0
180
システムから変える 自分と世界を変えるシステムチェンジの方法論 / Systems Change Approaches
dmattsun
3
900
RSJ2024「基盤モデルの実ロボット応用」チュートリアルA(河原塚)
haraduka
3
700
20240918 交通くまもとーく 未来の鉄道網編(こねくま)
trafficbrain
0
340
Weekly AI Agents News! 8月号 プロダクト/ニュースのアーカイブ
masatoto
1
210
新規のC言語処理系を実装することによる 組込みシステム研究にもたらす価値 についての考察
zacky1972
1
270
20240918 交通くまもとーく 未来の鉄道網編(太田恒平)
trafficbrain
0
350
snlp2024_multiheadMoE
takase
0
460
メタヒューリスティクスに基づく汎用線形整数計画ソルバーの開発
snowberryfield
3
620
Weekly AI Agents News! 10月号 プロダクト/ニュースのアーカイブ
masatoto
1
150
LLM時代にLabは何をすべきか聞いて回った1年間
hargon24
1
530
Featured
See All Featured
Bash Introduction
62gerente
608
210k
How to train your dragon (web standard)
notwaldorf
88
5.7k
A Modern Web Designer's Workflow
chriscoyier
693
190k
It's Worth the Effort
3n
183
28k
Building Applications with DynamoDB
mza
91
6.1k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
5
440
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
Visualization
eitanlees
146
15k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Building a Scalable Design System with Sketch
lauravandoore
460
33k
StorybookのUI Testing Handbookを読んだ
zakiyama
27
5.3k
Transcript
ゲノム立体構造解析と HiC1Dmetricsの紹介 東京大学定量生命科学研究所 大規模生命情報解析研究分野 中戸隆一郎 2024/10/9 Bio"Pack"athon 2024 #10 @RyuichiroNakato
Contents Hi-Cを用いた立体構造解析 HiC1Dmetricsについて PyPIへの登録について 2
ゲノムは核内で規則的に折りたたまれている Misteli, Cell, 2020 階層的な立体構造を持つ 染色体テリトリー コンパートメント
トポロジカルドメイン (TAD) クロマチンループ 一定の構造を持ちつつ、核内で 動的に変動している 超解像度顕微鏡 動的な変動を観測できる 一度に観測できる領域は限定的 Hi-C(NGS解析) 全ゲノムを観測可能 ある時点での平均的な構造が得ら れる:時間軸の変動は得られない 3
Hi-Cを用いた立体構造解析の原理 ゲノム位置 ゲノム位置 三角形の表現(上三角) Lieberman-Aiden et al., Science, 2009 4
ゲノムをビンに区切って リードペアをカウント (ビンサイズを解像度と呼ぶ) 正規化
Silorska and Sexton, J Mol Biol., 2020 Hi-C法で観測される階層的ゲノム構造 染色体テリトリー コンパートメント
TAD クロマチンループ Hi-Cデータ 概念図 格子状パターン TAD境界 ドットとして表現される 5
Bonev et al, Cell, 2017 Beagan et al, Nat Genet,
2020 トポロジカルドメイン (Topology associating domain; TAD) 6
コヒーシン & ローダー アンローダー インシュレーター 異なる階層は異なる因子によって制御されている Silorska and Sexton, J
Mol Biol., 2020 それぞれの階層を分けて解析する必要がある 7
サンプル間で比較する場合 を考える 2サンプルの比較の場合 直接目視(上図) 簡単、直感的 主にTAD構造が注視される
細かい違いは見えない 相互作用頻度のlog2 比(下図) 変動パターンを概観できる 微細な変動もキャプチャできる 遠距離相互作用は再現性が低い 8
多サンプル解析の場合 視覚的な2次元マップの比較は客観的でない・全ゲノムに展開しにくい TAD・ループの二値比較はマップリード数や解像度に対して頑健でない 1次元の特徴ベクトルに変換することで、定量的な多サンプル比較が容易に 立体構造の個々の特徴(構造単位)を抽出する特徴ベクトル群の開発 サンプル
9
TAD Chromatin compaction Compartment Stripe TAD Chromatin hubs • 既存指標・新規指標を含めた種々の既存指標を統一的
に計算 • 新規スコアの開発により、これまで同定が難しかった 特殊な立体構造を定量的に抽出・比較可能 • 高速・効率的に多サンプル間の立体構造の定量的比較 が可能 HiC1Dmetrics [Wang and Nakato, Briefing in Bioinformatics, 2021] Jiankang Wang 10
最初はツール化する予定はなかった 新しい一次元スコアを思いついたので、「新規スコアの提案」と「そのスコアを用いた 解析による知見獲得」の(小さい)論文にするつもりだった 当時博士の学生だった王さんにお願いしたところ、HiC1Dmetricsが誕生した ユーティリティ性が増した
彼が頑張りました 新規スコアだけでなく、既存のスコアも併せて統一的に計算可能 論文は必然的に総説的な要素を含む 前半が既存スコアのレビュー、後半が新規スコアの説明 Briefing in Bioinformatics が望ましいと判断し、投稿(総説+新規手法の合わせ技) 一度リジェクトになったが、再投稿→採択(王さんが頑張りました) HiC1Dmetrics誕生秘話 11
1次元解析の例(インシュレーションスコア) [Crane et al. Nature, 2015] smaller square Larger square
スクウェアサイズが大きいほど、遠距離の相互 作用を考慮する 相互作用が少ない(TAD境界)を赤で示す Larger square (1M) smaller square (100kb) [Crane et al. Nature, 2015] 12
1次元解析の例(コンパートメント) [Lieberman-Aiden et al., Science, 2009] コンパートメントA コンパートメントB 第一主成分(PC1) 主成分分析
(PCA) 0 0.025 -0.025 Lieberman-Aiden et al., Science, 2009 13
1次元解析の例(クロマチンコンパクション) [Heinz et al, Cell, 2018] Heinz et al, Cell,
2018 クロマチンの局所的凝縮度を測る指標 DLR: 値が大きいほど凝縮(不活性)、 小さいほどオープン(活性) 14
新規スコアの例 “Intra-TAD score (IAS)” 各ゲノム領域のTAD内における相互作用 量をTADサイズで正規化 Stripe構造の抽出に利用できることが明 らかになった
15 [Wang and Nakato, Briefing in Bioinformatics, 2021]
見たかったもの:「TAD間」相互作用の欠損効果の違い 左右非対称なTAD間相互作用変動が観測された コンパートメントや、エピゲノムに関連があるのではないかと思わ れた このような領域を全ゲノム的に抽出するには? コンパートメント A/B
RNA pol2 高/低 相互作用ログ比 (対コントロール) コヒーシンKD NIPBL KD CTCF KD 相互作用頻度のlog比(対コントロール) 16
Directional relative frequency (DRF) 2サンプル比較における指標 相互作用頻度のlog比の平均値を5’末端側(A) および3’末端側(B)について計算し、BからA を引く
非対称な相互作用変動を示す領域について強く 変動することになる Nakato et al, Nat Commun, 2023 17
18 [Wang and Nakato, Briefing in Bioinformatics, 2021] Directional TAD
(dTAD):左右非対称な相互作用変動を示すTAD TAD間相互作用変動パターンは遺伝子発現と相関が ある コンパートメント構造とはおそらく異なる機構
HiC1Dmetrics (version 0.2.10) https://h1d.readthedocs.io/en/latest/index.html 入力: .hic, .cool, dense matrix
1サンプル用のスコア Insulation score, PC1など 2サンプル用のスコア DRFなど コンパートメントの計算に は遺伝子ファイルが必要 $ pip3 install h1d インストール 19
期待する使い方1:多サンプル類似度比較 [Wang and Nakato, Briefing in Bioinformatics, 2021] Stripe TADsの細胞種間比較
20 IASを用いたクラスタリング
期待する使い方2:エピゲノム情報との統合 立体構造情報を加味した クロマチン状態推定 [ROADMAP project, Nature, 2015] [Wang and Nakato,
Briefing in Bioinformatics, 2021] ヒストン修飾情報を利用した クロマチン状態推定 21
22 Springerにプロトコルを公開しています
アカウント発行が必要 チェック機構などはないので簡単 wheel, twineの2つのツールが必要(pipでインストールできる) バージョン管理・アップデート必須
TestPyPIをうまく活用する PyPIへの登録について 23 PyPI TestPyPI
公開するプログラム群 __init__.pyの準備(下図) プログラム名、バージョンなどを記載 Setup.pyの準備(右図) 公開するプログラム一覧
依存関係のあるライブラリ一覧 同時にインストールされる 必要なバージョン情報を記載 Python >= 3.7 など 24 setup.py __init__.py 登録ファイルの準備
25 # 必要なファイルの作成 $ python setup.py bdist_wheel # PyPIへのアップロード $
twine upload --repository pypi dist/* # TestPyPIへのアップロード $ twine upload --repository testpypi dist/* PyPIとTestPyPIでバージョン情報が異なることに注意 pipでダウンロードできることを確認 PyPIへのアップロード # TestPyPIの場合 $ pip install -i https://test.pypi.org/simple/ h1d
依存関係のあるパッケージのバージョン管理をしっかりする Pythonライブラリは頻繁にアップデートされ、後方互換性は保証されない バージョンが上がったことによるエラーが多発する 一方、厳しすぎると他のツールとのconflictが多発する 依存関係のあるパッケージは極力少なくする
「車輪の再開発はしない」が基本だが、外部のツールをimportするより自分で実装した方が ツールとしての頑健性は上がる 依存関係がどうしても多い場合 READMEで仮想環境を推奨する Dockerなどのイメージに環境そのものを登録する 少なくとも、Docker上では動く。という状況を保証できる 考慮すべき点 26
まとめ HiC1Dmetrics:Hi-Cデータから様々な特徴を抽出した1次元ベクトルを生成する 既存指標・新規指標を含めた種々の既存指標を統一的に計算 そのうちのいくつかを本日紹介しました 新規スコアの開発により、これまで同定が難しかった特殊な立体構造を定量的に抽出・比 較可能
高速・効率的に多サンプル間の立体構造の定量的比較が可能になる PyPIへの登録 こういうスコアを作ったら面白そう?みたいなアイデアがあればぜひご相談ください 27