Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BioPackathon2024 ゲノム立体構造解析とHiC1Dmetricsの紹介
Search
中戸隆一郎(Ryuichiro Nakato)
October 09, 2024
Research
0
73
BioPackathon2024 ゲノム立体構造解析とHiC1Dmetricsの紹介
Bio"Pack"athon 2024 #10 (2024年10月9日)の発表資料です。
中戸隆一郎(Ryuichiro Nakato)
October 09, 2024
Tweet
Share
Other Decks in Research
See All in Research
大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Centric AI and Synthetic Data in Large Language Models
tsurubee
0
110
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
240
[CV勉強会@関東 CVPR2025] VLM自動運転model S4-Driver
shinkyoto
2
560
Minimax and Bayes Optimal Best-arm Identification: Adaptive Experimental Design for Treatment Choice
masakat0
0
180
能動適応的実験計画
masakat0
2
900
HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery
satai
3
170
とあるSREの博士「過程」 / A Certain SRE’s Ph.D. Journey
yuukit
11
4.6k
【輪講資料】Moshi: a speech-text foundation model for real-time dialogue
hpprc
3
770
さまざまなAgent FrameworkとAIエージェントの評価
ymd65536
1
170
Pythonでジオを使い倒そう! 〜それとFOSS4G Hiroshima 2026のご紹介を少し〜
wata909
0
1k
AIスパコン「さくらONE」のLLM学習ベンチマークによる性能評価 / SAKURAONE LLM Training Benchmarking
yuukit
2
770
地域丸ごとデイサービス「Go トレ」の紹介
smartfukushilab1
0
300
Featured
See All Featured
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Rebuilding a faster, lazier Slack
samanthasiow
84
9.2k
Building a Scalable Design System with Sketch
lauravandoore
463
33k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1k
Automating Front-end Workflow
addyosmani
1371
200k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
jQuery: Nuts, Bolts and Bling
dougneiner
65
7.9k
[RailsConf 2023] Rails as a piece of cake
palkan
57
6k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.7k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.7k
Build The Right Thing And Hit Your Dates
maggiecrowley
38
2.9k
Transcript
ゲノム立体構造解析と HiC1Dmetricsの紹介 東京大学定量生命科学研究所 大規模生命情報解析研究分野 中戸隆一郎 2024/10/9 Bio"Pack"athon 2024 #10 @RyuichiroNakato
Contents  Hi-Cを用いた立体構造解析  HiC1Dmetricsについて  PyPIへの登録について 2
ゲノムは核内で規則的に折りたたまれている Misteli, Cell, 2020  階層的な立体構造を持つ  染色体テリトリー  コンパートメント
 トポロジカルドメイン (TAD)  クロマチンループ  一定の構造を持ちつつ、核内で 動的に変動している  超解像度顕微鏡  動的な変動を観測できる  一度に観測できる領域は限定的  Hi-C(NGS解析)  全ゲノムを観測可能  ある時点での平均的な構造が得ら れる:時間軸の変動は得られない 3
Hi-Cを用いた立体構造解析の原理 ゲノム位置 ゲノム位置 三角形の表現(上三角) Lieberman-Aiden et al., Science, 2009 4
ゲノムをビンに区切って リードペアをカウント (ビンサイズを解像度と呼ぶ) 正規化
Silorska and Sexton, J Mol Biol., 2020 Hi-C法で観測される階層的ゲノム構造 染色体テリトリー コンパートメント
TAD クロマチンループ Hi-Cデータ 概念図 格子状パターン TAD境界 ドットとして表現される 5
Bonev et al, Cell, 2017 Beagan et al, Nat Genet,
2020 トポロジカルドメイン (Topology associating domain; TAD) 6
コヒーシン & ローダー アンローダー インシュレーター 異なる階層は異なる因子によって制御されている Silorska and Sexton, J
Mol Biol., 2020 それぞれの階層を分けて解析する必要がある 7
サンプル間で比較する場合 を考える  2サンプルの比較の場合  直接目視(上図)  簡単、直感的  主にTAD構造が注視される
 細かい違いは見えない  相互作用頻度のlog2 比(下図)  変動パターンを概観できる  微細な変動もキャプチャできる  遠距離相互作用は再現性が低い 8
多サンプル解析の場合  視覚的な2次元マップの比較は客観的でない・全ゲノムに展開しにくい  TAD・ループの二値比較はマップリード数や解像度に対して頑健でない  1次元の特徴ベクトルに変換することで、定量的な多サンプル比較が容易に  立体構造の個々の特徴(構造単位)を抽出する特徴ベクトル群の開発 サンプル
9
TAD Chromatin compaction Compartment Stripe TAD Chromatin hubs • 既存指標・新規指標を含めた種々の既存指標を統一的
に計算 • 新規スコアの開発により、これまで同定が難しかった 特殊な立体構造を定量的に抽出・比較可能 • 高速・効率的に多サンプル間の立体構造の定量的比較 が可能 HiC1Dmetrics [Wang and Nakato, Briefing in Bioinformatics, 2021] Jiankang Wang 10
 最初はツール化する予定はなかった  新しい一次元スコアを思いついたので、「新規スコアの提案」と「そのスコアを用いた 解析による知見獲得」の(小さい)論文にするつもりだった  当時博士の学生だった王さんにお願いしたところ、HiC1Dmetricsが誕生した  ユーティリティ性が増した 
彼が頑張りました  新規スコアだけでなく、既存のスコアも併せて統一的に計算可能  論文は必然的に総説的な要素を含む  前半が既存スコアのレビュー、後半が新規スコアの説明  Briefing in Bioinformatics が望ましいと判断し、投稿(総説+新規手法の合わせ技)  一度リジェクトになったが、再投稿→採択(王さんが頑張りました) HiC1Dmetrics誕生秘話 11
1次元解析の例(インシュレーションスコア) [Crane et al. Nature, 2015] smaller square Larger square
スクウェアサイズが大きいほど、遠距離の相互 作用を考慮する 相互作用が少ない(TAD境界)を赤で示す Larger square (1M) smaller square (100kb) [Crane et al. Nature, 2015] 12
1次元解析の例(コンパートメント) [Lieberman-Aiden et al., Science, 2009] コンパートメントA コンパートメントB 第一主成分(PC1) 主成分分析
(PCA) 0 0.025 -0.025 Lieberman-Aiden et al., Science, 2009 13
1次元解析の例(クロマチンコンパクション) [Heinz et al, Cell, 2018] Heinz et al, Cell,
2018  クロマチンの局所的凝縮度を測る指標  DLR: 値が大きいほど凝縮(不活性)、 小さいほどオープン(活性) 14
新規スコアの例 “Intra-TAD score (IAS)”  各ゲノム領域のTAD内における相互作用 量をTADサイズで正規化  Stripe構造の抽出に利用できることが明 らかになった
15 [Wang and Nakato, Briefing in Bioinformatics, 2021]
見たかったもの:「TAD間」相互作用の欠損効果の違い  左右非対称なTAD間相互作用変動が観測された  コンパートメントや、エピゲノムに関連があるのではないかと思わ れた  このような領域を全ゲノム的に抽出するには? コンパートメント A/B
RNA pol2 高/低 相互作用ログ比 (対コントロール) コヒーシンKD NIPBL KD CTCF KD 相互作用頻度のlog比(対コントロール) 16
Directional relative frequency (DRF)  2サンプル比較における指標  相互作用頻度のlog比の平均値を5’末端側(A) および3’末端側(B)について計算し、BからA を引く
 非対称な相互作用変動を示す領域について強く 変動することになる Nakato et al, Nat Commun, 2023 17
18 [Wang and Nakato, Briefing in Bioinformatics, 2021] Directional TAD
(dTAD):左右非対称な相互作用変動を示すTAD  TAD間相互作用変動パターンは遺伝子発現と相関が ある  コンパートメント構造とはおそらく異なる機構
HiC1Dmetrics (version 0.2.10) https://h1d.readthedocs.io/en/latest/index.html  入力: .hic, .cool, dense matrix
 1サンプル用のスコア  Insulation score, PC1など  2サンプル用のスコア  DRFなど  コンパートメントの計算に は遺伝子ファイルが必要 $ pip3 install h1d インストール 19
期待する使い方1:多サンプル類似度比較 [Wang and Nakato, Briefing in Bioinformatics, 2021] Stripe TADsの細胞種間比較
20 IASを用いたクラスタリング
期待する使い方2:エピゲノム情報との統合 立体構造情報を加味した クロマチン状態推定 [ROADMAP project, Nature, 2015] [Wang and Nakato,
Briefing in Bioinformatics, 2021] ヒストン修飾情報を利用した クロマチン状態推定 21
22 Springerにプロトコルを公開しています
 アカウント発行が必要  チェック機構などはないので簡単  wheel, twineの2つのツールが必要(pipでインストールできる)  バージョン管理・アップデート必須 
TestPyPIをうまく活用する PyPIへの登録について 23 PyPI TestPyPI
 公開するプログラム群  __init__.pyの準備(下図)  プログラム名、バージョンなどを記載  Setup.pyの準備(右図)  公開するプログラム一覧
 依存関係のあるライブラリ一覧  同時にインストールされる  必要なバージョン情報を記載  Python >= 3.7 など 24 setup.py __init__.py 登録ファイルの準備
25 # 必要なファイルの作成 $ python setup.py bdist_wheel # PyPIへのアップロード $
twine upload --repository pypi dist/* # TestPyPIへのアップロード $ twine upload --repository testpypi dist/*  PyPIとTestPyPIでバージョン情報が異なることに注意  pipでダウンロードできることを確認 PyPIへのアップロード # TestPyPIの場合 $ pip install -i https://test.pypi.org/simple/ h1d
 依存関係のあるパッケージのバージョン管理をしっかりする  Pythonライブラリは頻繁にアップデートされ、後方互換性は保証されない  バージョンが上がったことによるエラーが多発する  一方、厳しすぎると他のツールとのconflictが多発する  依存関係のあるパッケージは極力少なくする
 「車輪の再開発はしない」が基本だが、外部のツールをimportするより自分で実装した方が ツールとしての頑健性は上がる  依存関係がどうしても多い場合  READMEで仮想環境を推奨する  Dockerなどのイメージに環境そのものを登録する  少なくとも、Docker上では動く。という状況を保証できる 考慮すべき点 26
まとめ  HiC1Dmetrics:Hi-Cデータから様々な特徴を抽出した1次元ベクトルを生成する  既存指標・新規指標を含めた種々の既存指標を統一的に計算  そのうちのいくつかを本日紹介しました  新規スコアの開発により、これまで同定が難しかった特殊な立体構造を定量的に抽出・比 較可能
 高速・効率的に多サンプル間の立体構造の定量的比較が可能になる  PyPIへの登録  こういうスコアを作ったら面白そう?みたいなアイデアがあればぜひご相談ください 27