Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BioPackathon2024 ゲノム立体構造解析とHiC1Dmetricsの紹介
Search
中戸隆一郎(Ryuichiro Nakato)
October 09, 2024
Research
0
76
BioPackathon2024 ゲノム立体構造解析とHiC1Dmetricsの紹介
Bio"Pack"athon 2024 #10 (2024年10月9日)の発表資料です。
中戸隆一郎(Ryuichiro Nakato)
October 09, 2024
Tweet
Share
More Decks by 中戸隆一郎(Ryuichiro Nakato)
See All by 中戸隆一郎(Ryuichiro Nakato)
BioPackathon2025 シングルセル解析プラットフォームShortCakeの紹介
rnakato
0
60
Other Decks in Research
See All in Research
言語モデルの地図:確率分布と情報幾何による類似性の可視化
shimosan
8
2.4k
Time to Cash: The Full Stack Breakdown of Modern ATM Attacks
ratatata
0
180
データサイエンティストをめぐる環境の違い2025年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
360
音声感情認識技術の進展と展望
nagase
0
420
AIスパコン「さくらONE」のLLM学習ベンチマークによる性能評価 / SAKURAONE LLM Training Benchmarking
yuukit
2
920
20251023_くまもと21の会例会_「車1割削減、渋滞半減、公共交通2倍」をめざして.pdf
trafficbrain
0
140
大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Centric AI and Synthetic Data in Large Language Models
tsurubee
1
460
Unsupervised Domain Adaptation Architecture Search with Self-Training for Land Cover Mapping
satai
3
480
GPUを利用したStein Particle Filterによる点群6自由度モンテカルロSLAM
takuminakao
0
730
財務諸表監査のための逐次検定
masakat0
0
220
論文読み会 SNLP2025 Learning Dynamics of LLM Finetuning. In: ICLR 2025
s_mizuki_nlp
0
360
[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ
akifumi_wachi
19
9.1k
Featured
See All Featured
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.2k
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
90
GitHub's CSS Performance
jonrohan
1032
470k
Highjacked: Video Game Concept Design
rkendrick25
PRO
0
260
Navigating Team Friction
lara
191
16k
Applied NLP in the Age of Generative AI
inesmontani
PRO
3
2k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
410
Designing for Performance
lara
610
70k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
710
KATA
mclloyd
PRO
33
15k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Transcript
ゲノム立体構造解析と HiC1Dmetricsの紹介 東京大学定量生命科学研究所 大規模生命情報解析研究分野 中戸隆一郎 2024/10/9 Bio"Pack"athon 2024 #10 @RyuichiroNakato
Contents Hi-Cを用いた立体構造解析 HiC1Dmetricsについて PyPIへの登録について 2
ゲノムは核内で規則的に折りたたまれている Misteli, Cell, 2020 階層的な立体構造を持つ 染色体テリトリー コンパートメント
トポロジカルドメイン (TAD) クロマチンループ 一定の構造を持ちつつ、核内で 動的に変動している 超解像度顕微鏡 動的な変動を観測できる 一度に観測できる領域は限定的 Hi-C(NGS解析) 全ゲノムを観測可能 ある時点での平均的な構造が得ら れる:時間軸の変動は得られない 3
Hi-Cを用いた立体構造解析の原理 ゲノム位置 ゲノム位置 三角形の表現(上三角) Lieberman-Aiden et al., Science, 2009 4
ゲノムをビンに区切って リードペアをカウント (ビンサイズを解像度と呼ぶ) 正規化
Silorska and Sexton, J Mol Biol., 2020 Hi-C法で観測される階層的ゲノム構造 染色体テリトリー コンパートメント
TAD クロマチンループ Hi-Cデータ 概念図 格子状パターン TAD境界 ドットとして表現される 5
Bonev et al, Cell, 2017 Beagan et al, Nat Genet,
2020 トポロジカルドメイン (Topology associating domain; TAD) 6
コヒーシン & ローダー アンローダー インシュレーター 異なる階層は異なる因子によって制御されている Silorska and Sexton, J
Mol Biol., 2020 それぞれの階層を分けて解析する必要がある 7
サンプル間で比較する場合 を考える 2サンプルの比較の場合 直接目視(上図) 簡単、直感的 主にTAD構造が注視される
細かい違いは見えない 相互作用頻度のlog2 比(下図) 変動パターンを概観できる 微細な変動もキャプチャできる 遠距離相互作用は再現性が低い 8
多サンプル解析の場合 視覚的な2次元マップの比較は客観的でない・全ゲノムに展開しにくい TAD・ループの二値比較はマップリード数や解像度に対して頑健でない 1次元の特徴ベクトルに変換することで、定量的な多サンプル比較が容易に 立体構造の個々の特徴(構造単位)を抽出する特徴ベクトル群の開発 サンプル
9
TAD Chromatin compaction Compartment Stripe TAD Chromatin hubs • 既存指標・新規指標を含めた種々の既存指標を統一的
に計算 • 新規スコアの開発により、これまで同定が難しかった 特殊な立体構造を定量的に抽出・比較可能 • 高速・効率的に多サンプル間の立体構造の定量的比較 が可能 HiC1Dmetrics [Wang and Nakato, Briefing in Bioinformatics, 2021] Jiankang Wang 10
最初はツール化する予定はなかった 新しい一次元スコアを思いついたので、「新規スコアの提案」と「そのスコアを用いた 解析による知見獲得」の(小さい)論文にするつもりだった 当時博士の学生だった王さんにお願いしたところ、HiC1Dmetricsが誕生した ユーティリティ性が増した
彼が頑張りました 新規スコアだけでなく、既存のスコアも併せて統一的に計算可能 論文は必然的に総説的な要素を含む 前半が既存スコアのレビュー、後半が新規スコアの説明 Briefing in Bioinformatics が望ましいと判断し、投稿(総説+新規手法の合わせ技) 一度リジェクトになったが、再投稿→採択(王さんが頑張りました) HiC1Dmetrics誕生秘話 11
1次元解析の例(インシュレーションスコア) [Crane et al. Nature, 2015] smaller square Larger square
スクウェアサイズが大きいほど、遠距離の相互 作用を考慮する 相互作用が少ない(TAD境界)を赤で示す Larger square (1M) smaller square (100kb) [Crane et al. Nature, 2015] 12
1次元解析の例(コンパートメント) [Lieberman-Aiden et al., Science, 2009] コンパートメントA コンパートメントB 第一主成分(PC1) 主成分分析
(PCA) 0 0.025 -0.025 Lieberman-Aiden et al., Science, 2009 13
1次元解析の例(クロマチンコンパクション) [Heinz et al, Cell, 2018] Heinz et al, Cell,
2018 クロマチンの局所的凝縮度を測る指標 DLR: 値が大きいほど凝縮(不活性)、 小さいほどオープン(活性) 14
新規スコアの例 “Intra-TAD score (IAS)” 各ゲノム領域のTAD内における相互作用 量をTADサイズで正規化 Stripe構造の抽出に利用できることが明 らかになった
15 [Wang and Nakato, Briefing in Bioinformatics, 2021]
見たかったもの:「TAD間」相互作用の欠損効果の違い 左右非対称なTAD間相互作用変動が観測された コンパートメントや、エピゲノムに関連があるのではないかと思わ れた このような領域を全ゲノム的に抽出するには? コンパートメント A/B
RNA pol2 高/低 相互作用ログ比 (対コントロール) コヒーシンKD NIPBL KD CTCF KD 相互作用頻度のlog比(対コントロール) 16
Directional relative frequency (DRF) 2サンプル比較における指標 相互作用頻度のlog比の平均値を5’末端側(A) および3’末端側(B)について計算し、BからA を引く
非対称な相互作用変動を示す領域について強く 変動することになる Nakato et al, Nat Commun, 2023 17
18 [Wang and Nakato, Briefing in Bioinformatics, 2021] Directional TAD
(dTAD):左右非対称な相互作用変動を示すTAD TAD間相互作用変動パターンは遺伝子発現と相関が ある コンパートメント構造とはおそらく異なる機構
HiC1Dmetrics (version 0.2.10) https://h1d.readthedocs.io/en/latest/index.html 入力: .hic, .cool, dense matrix
1サンプル用のスコア Insulation score, PC1など 2サンプル用のスコア DRFなど コンパートメントの計算に は遺伝子ファイルが必要 $ pip3 install h1d インストール 19
期待する使い方1:多サンプル類似度比較 [Wang and Nakato, Briefing in Bioinformatics, 2021] Stripe TADsの細胞種間比較
20 IASを用いたクラスタリング
期待する使い方2:エピゲノム情報との統合 立体構造情報を加味した クロマチン状態推定 [ROADMAP project, Nature, 2015] [Wang and Nakato,
Briefing in Bioinformatics, 2021] ヒストン修飾情報を利用した クロマチン状態推定 21
22 Springerにプロトコルを公開しています
アカウント発行が必要 チェック機構などはないので簡単 wheel, twineの2つのツールが必要(pipでインストールできる) バージョン管理・アップデート必須
TestPyPIをうまく活用する PyPIへの登録について 23 PyPI TestPyPI
公開するプログラム群 __init__.pyの準備(下図) プログラム名、バージョンなどを記載 Setup.pyの準備(右図) 公開するプログラム一覧
依存関係のあるライブラリ一覧 同時にインストールされる 必要なバージョン情報を記載 Python >= 3.7 など 24 setup.py __init__.py 登録ファイルの準備
25 # 必要なファイルの作成 $ python setup.py bdist_wheel # PyPIへのアップロード $
twine upload --repository pypi dist/* # TestPyPIへのアップロード $ twine upload --repository testpypi dist/* PyPIとTestPyPIでバージョン情報が異なることに注意 pipでダウンロードできることを確認 PyPIへのアップロード # TestPyPIの場合 $ pip install -i https://test.pypi.org/simple/ h1d
依存関係のあるパッケージのバージョン管理をしっかりする Pythonライブラリは頻繁にアップデートされ、後方互換性は保証されない バージョンが上がったことによるエラーが多発する 一方、厳しすぎると他のツールとのconflictが多発する 依存関係のあるパッケージは極力少なくする
「車輪の再開発はしない」が基本だが、外部のツールをimportするより自分で実装した方が ツールとしての頑健性は上がる 依存関係がどうしても多い場合 READMEで仮想環境を推奨する Dockerなどのイメージに環境そのものを登録する 少なくとも、Docker上では動く。という状況を保証できる 考慮すべき点 26
まとめ HiC1Dmetrics:Hi-Cデータから様々な特徴を抽出した1次元ベクトルを生成する 既存指標・新規指標を含めた種々の既存指標を統一的に計算 そのうちのいくつかを本日紹介しました 新規スコアの開発により、これまで同定が難しかった特殊な立体構造を定量的に抽出・比 較可能
高速・効率的に多サンプル間の立体構造の定量的比較が可能になる PyPIへの登録 こういうスコアを作ったら面白そう?みたいなアイデアがあればぜひご相談ください 27