Upgrade to Pro — share decks privately, control downloads, hide ads and more …

BioPackathon2024 ゲノム立体構造解析とHiC1Dmetricsの紹介

BioPackathon2024 ゲノム立体構造解析とHiC1Dmetricsの紹介

Bio"Pack"athon 2024 #10 (2024年10月9日)の発表資料です。

Other Decks in Research

Transcript

  1. ゲノムは核内で規則的に折りたたまれている Misteli, Cell, 2020  階層的な立体構造を持つ  染色体テリトリー  コンパートメント

     トポロジカルドメイン (TAD)  クロマチンループ  一定の構造を持ちつつ、核内で 動的に変動している  超解像度顕微鏡  動的な変動を観測できる  一度に観測できる領域は限定的  Hi-C(NGS解析)  全ゲノムを観測可能  ある時点での平均的な構造が得ら れる:時間軸の変動は得られない 3
  2. Hi-Cを用いた立体構造解析の原理 ゲノム位置 ゲノム位置 三角形の表現(上三角) Lieberman-Aiden et al., Science, 2009 4

    ゲノムをビンに区切って リードペアをカウント (ビンサイズを解像度と呼ぶ) 正規化
  3. Silorska and Sexton, J Mol Biol., 2020 Hi-C法で観測される階層的ゲノム構造 染色体テリトリー コンパートメント

    TAD クロマチンループ Hi-Cデータ 概念図 格子状パターン TAD境界 ドットとして表現される 5
  4. Bonev et al, Cell, 2017 Beagan et al, Nat Genet,

    2020 トポロジカルドメイン (Topology associating domain; TAD) 6
  5. サンプル間で比較する場合 を考える  2サンプルの比較の場合  直接目視(上図)  簡単、直感的  主にTAD構造が注視される

     細かい違いは見えない  相互作用頻度のlog2 比(下図)  変動パターンを概観できる  微細な変動もキャプチャできる  遠距離相互作用は再現性が低い 8
  6. TAD Chromatin compaction Compartment Stripe TAD Chromatin hubs • 既存指標・新規指標を含めた種々の既存指標を統一的

    に計算 • 新規スコアの開発により、これまで同定が難しかった 特殊な立体構造を定量的に抽出・比較可能 • 高速・効率的に多サンプル間の立体構造の定量的比較 が可能 HiC1Dmetrics [Wang and Nakato, Briefing in Bioinformatics, 2021] Jiankang Wang 10
  7.  最初はツール化する予定はなかった  新しい一次元スコアを思いついたので、「新規スコアの提案」と「そのスコアを用いた 解析による知見獲得」の(小さい)論文にするつもりだった  当時博士の学生だった王さんにお願いしたところ、HiC1Dmetricsが誕生した  ユーティリティ性が増した 

    彼が頑張りました  新規スコアだけでなく、既存のスコアも併せて統一的に計算可能  論文は必然的に総説的な要素を含む  前半が既存スコアのレビュー、後半が新規スコアの説明  Briefing in Bioinformatics が望ましいと判断し、投稿(総説+新規手法の合わせ技)  一度リジェクトになったが、再投稿→採択(王さんが頑張りました) HiC1Dmetrics誕生秘話 11
  8. 1次元解析の例(インシュレーションスコア) [Crane et al. Nature, 2015] smaller square Larger square

    スクウェアサイズが大きいほど、遠距離の相互 作用を考慮する 相互作用が少ない(TAD境界)を赤で示す Larger square (1M) smaller square (100kb) [Crane et al. Nature, 2015] 12
  9. 1次元解析の例(クロマチンコンパクション) [Heinz et al, Cell, 2018] Heinz et al, Cell,

    2018  クロマチンの局所的凝縮度を測る指標  DLR: 値が大きいほど凝縮(不活性)、 小さいほどオープン(活性) 14
  10. 18 [Wang and Nakato, Briefing in Bioinformatics, 2021] Directional TAD

    (dTAD):左右非対称な相互作用変動を示すTAD  TAD間相互作用変動パターンは遺伝子発現と相関が ある  コンパートメント構造とはおそらく異なる機構
  11. HiC1Dmetrics (version 0.2.10) https://h1d.readthedocs.io/en/latest/index.html  入力: .hic, .cool, dense matrix

     1サンプル用のスコア  Insulation score, PC1など  2サンプル用のスコア  DRFなど  コンパートメントの計算に は遺伝子ファイルが必要 $ pip3 install h1d インストール 19
  12.  公開するプログラム群  __init__.pyの準備(下図)  プログラム名、バージョンなどを記載  Setup.pyの準備(右図)  公開するプログラム一覧

     依存関係のあるライブラリ一覧  同時にインストールされる  必要なバージョン情報を記載  Python >= 3.7 など 24 setup.py __init__.py 登録ファイルの準備
  13. 25 # 必要なファイルの作成 $ python setup.py bdist_wheel # PyPIへのアップロード $

    twine upload --repository pypi dist/* # TestPyPIへのアップロード $ twine upload --repository testpypi dist/*  PyPIとTestPyPIでバージョン情報が異なることに注意  pipでダウンロードできることを確認 PyPIへのアップロード # TestPyPIの場合 $ pip install -i https://test.pypi.org/simple/ h1d
  14.  依存関係のあるパッケージのバージョン管理をしっかりする  Pythonライブラリは頻繁にアップデートされ、後方互換性は保証されない  バージョンが上がったことによるエラーが多発する  一方、厳しすぎると他のツールとのconflictが多発する  依存関係のあるパッケージは極力少なくする

     「車輪の再開発はしない」が基本だが、外部のツールをimportするより自分で実装した方が ツールとしての頑健性は上がる  依存関係がどうしても多い場合  READMEで仮想環境を推奨する  Dockerなどのイメージに環境そのものを登録する  少なくとも、Docker上では動く。という状況を保証できる 考慮すべき点 26