Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BioPackathon2024 ゲノム立体構造解析とHiC1Dmetricsの紹介
Search
中戸隆一郎(Ryuichiro Nakato)
October 09, 2024
Research
0
77
BioPackathon2024 ゲノム立体構造解析とHiC1Dmetricsの紹介
Bio"Pack"athon 2024 #10 (2024年10月9日)の発表資料です。
中戸隆一郎(Ryuichiro Nakato)
October 09, 2024
Tweet
Share
More Decks by 中戸隆一郎(Ryuichiro Nakato)
See All by 中戸隆一郎(Ryuichiro Nakato)
BioPackathon2025 シングルセル解析プラットフォームShortCakeの紹介
rnakato
0
72
Other Decks in Research
See All in Research
教師あり学習と強化学習で作る 最強の数学特化LLM
analokmaus
2
1k
[Devfest Incheon 2025] 모두를 위한 친절한 언어모델(LLM) 학습 가이드
beomi
2
1.5k
その推薦システムの評価指標、ユーザーの感覚とズレてるかも
kuri8ive
1
350
病院向け生成AIプロダクト開発の実践と課題
hagino3000
0
590
Dwangoでの漫画データ活用〜漫画理解と動画作成〜@コミック工学シンポジウム2025
kzmssk
0
190
衛星×エッジAI勉強会 衛星上におけるAI処理制約とそ取組について
satai
4
360
オーストリア流 都市の公共交通サービス水準評価@公共交通オープンデータ最前線2026
trafficbrain
0
110
2026 東京科学大 情報通信系 研究室紹介 (大岡山)
icttitech
0
1.3k
Sequences of Logits Reveal the Low Rank Structure of Language Models
sansantech
PRO
0
110
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
300
CyberAgent AI Lab研修 / Social Implementation Anti-Patterns in AI Lab
chck
6
4.2k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
440
Featured
See All Featured
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
91
Believing is Seeing
oripsolob
1
99
Git: the NoSQL Database
bkeepers
PRO
432
67k
Testing 201, or: Great Expectations
jmmastey
46
8.1k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.6k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
199
73k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
The Limits of Empathy - UXLibs8
cassininazir
1
280
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.3k
Statistics for Hackers
jakevdp
799
230k
Raft: Consensus for Rubyists
vanstee
141
7.4k
Transcript
ゲノム立体構造解析と HiC1Dmetricsの紹介 東京大学定量生命科学研究所 大規模生命情報解析研究分野 中戸隆一郎 2024/10/9 Bio"Pack"athon 2024 #10 @RyuichiroNakato
Contents Hi-Cを用いた立体構造解析 HiC1Dmetricsについて PyPIへの登録について 2
ゲノムは核内で規則的に折りたたまれている Misteli, Cell, 2020 階層的な立体構造を持つ 染色体テリトリー コンパートメント
トポロジカルドメイン (TAD) クロマチンループ 一定の構造を持ちつつ、核内で 動的に変動している 超解像度顕微鏡 動的な変動を観測できる 一度に観測できる領域は限定的 Hi-C(NGS解析) 全ゲノムを観測可能 ある時点での平均的な構造が得ら れる:時間軸の変動は得られない 3
Hi-Cを用いた立体構造解析の原理 ゲノム位置 ゲノム位置 三角形の表現(上三角) Lieberman-Aiden et al., Science, 2009 4
ゲノムをビンに区切って リードペアをカウント (ビンサイズを解像度と呼ぶ) 正規化
Silorska and Sexton, J Mol Biol., 2020 Hi-C法で観測される階層的ゲノム構造 染色体テリトリー コンパートメント
TAD クロマチンループ Hi-Cデータ 概念図 格子状パターン TAD境界 ドットとして表現される 5
Bonev et al, Cell, 2017 Beagan et al, Nat Genet,
2020 トポロジカルドメイン (Topology associating domain; TAD) 6
コヒーシン & ローダー アンローダー インシュレーター 異なる階層は異なる因子によって制御されている Silorska and Sexton, J
Mol Biol., 2020 それぞれの階層を分けて解析する必要がある 7
サンプル間で比較する場合 を考える 2サンプルの比較の場合 直接目視(上図) 簡単、直感的 主にTAD構造が注視される
細かい違いは見えない 相互作用頻度のlog2 比(下図) 変動パターンを概観できる 微細な変動もキャプチャできる 遠距離相互作用は再現性が低い 8
多サンプル解析の場合 視覚的な2次元マップの比較は客観的でない・全ゲノムに展開しにくい TAD・ループの二値比較はマップリード数や解像度に対して頑健でない 1次元の特徴ベクトルに変換することで、定量的な多サンプル比較が容易に 立体構造の個々の特徴(構造単位)を抽出する特徴ベクトル群の開発 サンプル
9
TAD Chromatin compaction Compartment Stripe TAD Chromatin hubs • 既存指標・新規指標を含めた種々の既存指標を統一的
に計算 • 新規スコアの開発により、これまで同定が難しかった 特殊な立体構造を定量的に抽出・比較可能 • 高速・効率的に多サンプル間の立体構造の定量的比較 が可能 HiC1Dmetrics [Wang and Nakato, Briefing in Bioinformatics, 2021] Jiankang Wang 10
最初はツール化する予定はなかった 新しい一次元スコアを思いついたので、「新規スコアの提案」と「そのスコアを用いた 解析による知見獲得」の(小さい)論文にするつもりだった 当時博士の学生だった王さんにお願いしたところ、HiC1Dmetricsが誕生した ユーティリティ性が増した
彼が頑張りました 新規スコアだけでなく、既存のスコアも併せて統一的に計算可能 論文は必然的に総説的な要素を含む 前半が既存スコアのレビュー、後半が新規スコアの説明 Briefing in Bioinformatics が望ましいと判断し、投稿(総説+新規手法の合わせ技) 一度リジェクトになったが、再投稿→採択(王さんが頑張りました) HiC1Dmetrics誕生秘話 11
1次元解析の例(インシュレーションスコア) [Crane et al. Nature, 2015] smaller square Larger square
スクウェアサイズが大きいほど、遠距離の相互 作用を考慮する 相互作用が少ない(TAD境界)を赤で示す Larger square (1M) smaller square (100kb) [Crane et al. Nature, 2015] 12
1次元解析の例(コンパートメント) [Lieberman-Aiden et al., Science, 2009] コンパートメントA コンパートメントB 第一主成分(PC1) 主成分分析
(PCA) 0 0.025 -0.025 Lieberman-Aiden et al., Science, 2009 13
1次元解析の例(クロマチンコンパクション) [Heinz et al, Cell, 2018] Heinz et al, Cell,
2018 クロマチンの局所的凝縮度を測る指標 DLR: 値が大きいほど凝縮(不活性)、 小さいほどオープン(活性) 14
新規スコアの例 “Intra-TAD score (IAS)” 各ゲノム領域のTAD内における相互作用 量をTADサイズで正規化 Stripe構造の抽出に利用できることが明 らかになった
15 [Wang and Nakato, Briefing in Bioinformatics, 2021]
見たかったもの:「TAD間」相互作用の欠損効果の違い 左右非対称なTAD間相互作用変動が観測された コンパートメントや、エピゲノムに関連があるのではないかと思わ れた このような領域を全ゲノム的に抽出するには? コンパートメント A/B
RNA pol2 高/低 相互作用ログ比 (対コントロール) コヒーシンKD NIPBL KD CTCF KD 相互作用頻度のlog比(対コントロール) 16
Directional relative frequency (DRF) 2サンプル比較における指標 相互作用頻度のlog比の平均値を5’末端側(A) および3’末端側(B)について計算し、BからA を引く
非対称な相互作用変動を示す領域について強く 変動することになる Nakato et al, Nat Commun, 2023 17
18 [Wang and Nakato, Briefing in Bioinformatics, 2021] Directional TAD
(dTAD):左右非対称な相互作用変動を示すTAD TAD間相互作用変動パターンは遺伝子発現と相関が ある コンパートメント構造とはおそらく異なる機構
HiC1Dmetrics (version 0.2.10) https://h1d.readthedocs.io/en/latest/index.html 入力: .hic, .cool, dense matrix
1サンプル用のスコア Insulation score, PC1など 2サンプル用のスコア DRFなど コンパートメントの計算に は遺伝子ファイルが必要 $ pip3 install h1d インストール 19
期待する使い方1:多サンプル類似度比較 [Wang and Nakato, Briefing in Bioinformatics, 2021] Stripe TADsの細胞種間比較
20 IASを用いたクラスタリング
期待する使い方2:エピゲノム情報との統合 立体構造情報を加味した クロマチン状態推定 [ROADMAP project, Nature, 2015] [Wang and Nakato,
Briefing in Bioinformatics, 2021] ヒストン修飾情報を利用した クロマチン状態推定 21
22 Springerにプロトコルを公開しています
アカウント発行が必要 チェック機構などはないので簡単 wheel, twineの2つのツールが必要(pipでインストールできる) バージョン管理・アップデート必須
TestPyPIをうまく活用する PyPIへの登録について 23 PyPI TestPyPI
公開するプログラム群 __init__.pyの準備(下図) プログラム名、バージョンなどを記載 Setup.pyの準備(右図) 公開するプログラム一覧
依存関係のあるライブラリ一覧 同時にインストールされる 必要なバージョン情報を記載 Python >= 3.7 など 24 setup.py __init__.py 登録ファイルの準備
25 # 必要なファイルの作成 $ python setup.py bdist_wheel # PyPIへのアップロード $
twine upload --repository pypi dist/* # TestPyPIへのアップロード $ twine upload --repository testpypi dist/* PyPIとTestPyPIでバージョン情報が異なることに注意 pipでダウンロードできることを確認 PyPIへのアップロード # TestPyPIの場合 $ pip install -i https://test.pypi.org/simple/ h1d
依存関係のあるパッケージのバージョン管理をしっかりする Pythonライブラリは頻繁にアップデートされ、後方互換性は保証されない バージョンが上がったことによるエラーが多発する 一方、厳しすぎると他のツールとのconflictが多発する 依存関係のあるパッケージは極力少なくする
「車輪の再開発はしない」が基本だが、外部のツールをimportするより自分で実装した方が ツールとしての頑健性は上がる 依存関係がどうしても多い場合 READMEで仮想環境を推奨する Dockerなどのイメージに環境そのものを登録する 少なくとも、Docker上では動く。という状況を保証できる 考慮すべき点 26
まとめ HiC1Dmetrics:Hi-Cデータから様々な特徴を抽出した1次元ベクトルを生成する 既存指標・新規指標を含めた種々の既存指標を統一的に計算 そのうちのいくつかを本日紹介しました 新規スコアの開発により、これまで同定が難しかった特殊な立体構造を定量的に抽出・比 較可能
高速・効率的に多サンプル間の立体構造の定量的比較が可能になる PyPIへの登録 こういうスコアを作ったら面白そう?みたいなアイデアがあればぜひご相談ください 27