Upgrade to Pro — share decks privately, control downloads, hide ads and more …

クラウド計算環境を利用したがんゲノム解析について

 クラウド計算環境を利用したがんゲノム解析について

Yuichi Shiraishi

July 31, 2018
Tweet

More Decks by Yuichi Shiraishi

Other Decks in Science

Transcript

  1. 自己紹介 東大医科研で7年間がんゲノム解析プ ラットフォームを開発しておりました。 6月1日からがんセンターに新しく発足 した、がんゲノム情報管理センターで、 ゲノム解析室の室長になりました。 Kataoka et al., Nature,

    2016 ded uta- able ene ons un- iple uta- 12 gets edi- ving ause ding and d in g. 1, nge- tein ll as the itial NA nda U2 F2)– site o be ning 1)19. cing SR2 th a ome with three additional spliceosome-related genes, including U2AF65, SF1 and SRSF1, in a large series of myeloid neoplasms (N 5 582) using a high-throughput mutation screen of pooled DNA followed by con- firmation/identification of candidate mutations (refs 21 and 22 and Supplementary Methods II). In total, 219 mutationswere identified in 209 out ofthe582 specimens of myeloid neoplasms through validating 313 provisional positive events in the pooled DNA screen (Supplementary Tables 4 and 5). The muta- tions among four genes, U2AF35 (N5 37), SRSF2 (N5 56), ZRSR2 (N 5 23) and SF3B1 (N5 79), explained most of the mutations with much lower mutational rates for SF3A1 (N 5 8), PRPF40B (N5 7), U2AF65 (N 54) and SF1 (N 5 5) (Fig. 2). Mutations of the splicing machinery were highly specific to diseases showing myelodysplastic fea- tures, including MDS either with (84.9%) or without (43.9%) increased ring sideroblasts, chronic myelomonocytic leukaemia (CMML) (54.5%), and therapy-related AML or AML with myelodysplasia-related changes (25.8%), but were rare in de novo AML (6.6%) and myeloproliferative neoplasms (MPN) (9.4%) (Fig. 3a). The mutually exclusive pattern of the mutations in these splicing pathway genes was confirmed in this large case series, suggesting a common impact of these mutations on RNA splicing and the pathogenesis of myelodysplasia (Fig. 3b). The frequencies of mutations showed significant differences across disease types. Surprisingly, SF3B1 mutations were found in the majority of the cases with MDS characterized by increased ring sideroblasts, that is, refractory anaemia withring sideroblasts(RARS)(19/23 or 82.6%)and refractory cytopenia with multilineage dysplasia with $ 15% ring side- roblasts (RCMD-RS) (38/50 or 76%) with much lower mutation fre- quencies in other myeloid neoplasms. RARS and RCMD-RS account P to F65, U2AF35 (21q22.3) Zn UHM RS 240 aa Zn S34F(20) S34Y(5) Q157R(7) Q157P(4) ZRSR2 (Xp22.1) Zn UHM RS Zn N382K* C302R H330R N261Y I202N 483 aa I53T* N327fs G323fs W291X L237fs S40X A96fs R126X E118fs R68sp K257sp F239V E362X E148X E133G C326R PRPF40B (12q13.12) 871 aa SF3A1 Surf UbqL Surf (22q12.2) A57S I141M* Y772C 793 aa E373D T374P K166T M117I M667V RRM RS P95H(31)/L(14)/R(11) SRSF2 (17q25.1) 221 aa Y347X A26V P383L FF FF P15H* P540S D442N M58I* P212L* PR WW WW SF3B1 (2q33.1) 1,304 aa K700E(44) HD K666N(6)/T(3)/E(2)/R(2) H662Q(8)/D(2) E622D(4) Y623C R625L(2)/C(1) N626D K182E G347V D781G U2AF65 (19q13.42) UHM RS M144I R18W 475 aa L187V UHM UHM SF1 KH PR (11q13.1) Zn T474A A508G G372V Y476C T454M HD HD HD HD HD HD HD HD HD HD ARTICLE RESEARCH Yoshida et al., Nature, 2011
  2. がん遺伝子の同定 •  20/20 rule –  Oncogene •  20%以上が集中したミスセンス変異 –  TSG

    (tumor supressor gene) •  20%以上がtruncaIng変異 •  多くの検体で見られる変異 •  Back ground mutaIon rateでの補正が必要 –  遺伝子の長さ(TTNはとても巨大な遺伝子) –  GC contents, 塩基の組成 –  遺伝子発現量 –  replicaIon Iming •  SoSware –  MutSig –  Music (Dees et al, Genome Research, 2012) hTps://confluence.broadinsItute.org/display/ CGATools/MutSig Vogelstein et al., Science, 2013 Fig. 4. Distribution of mutations in two oncogenes (P suppressor genes (RB1 and VHL) The distribution of missense mutations (red arrow arrowheads) in representative oncogenes and tum were collected from genome-wide studies annotat version 61). For PIK3CA and IDH1, mutations ob randomized by the Excel RAND function, and the mutations recorded in COSMIC are plotted. aa, am NIH-PA Author Manuscript NIH-PA A Vogelstein et al. NIH-PA Author Man
  3. Pan cancer study Pan-Cancer Atlas ICGC PCAWG (Pan-Cancer Analysis of

    Whole) •  11,000 tumors data from 33 cancer types •  Focused on exome data •  >27 papers got published since Apr. 2018. •  >2,600 tumors data from 39 cancer types •  Focused on whole genome •  On going.
  4. ATLにおけるPD-L1の3’UTRおけるSVの 多発 •  成人T細胞白血病(adult T-cell Leukemia)の49検体の全ゲノム解 析(Kataoka et al., Nature

    GeneIcs, 2015)において,PD-L1の3’UTR領 域に複数検体でSVを検出 •  約27%の患者で検出. •  SVの切断点の向こう側の位置 は様々であった. •  ATLとは •  HTLV-1ウイルス感染を原因とする白 血病・悪性リンパ腫である. •  日本では沖縄県と南九州,海外では 中南米諸国に多い. Kataoka, Shiraishi, Takeda et al., Nature, 2016
  5. スプライシング変異の網羅的検出 •  Intronの端の2bp (GT – AG)は、splicingの制御に 非常に重要。 –  遺伝性の疾患では、GT-AG以外の場所以外 の変異も重要ということが知られている。

    •  スプライシング変異を網羅的に検出する統計手 法を開発した。 •  提案手法を~9000検体のがんゲノム・トランスク リプトームシークエンスデータに適用。 Shiraishi et al., Genome Research, 2018
  6. スプライシング変異の置換パターン •  Splicing donor moIf •  EssenIal splice site (GT)の他に、exonの最後、intronの5bpに集中。

    •  Splicing acceptor moIf •  多くはessenIal splice site (AG)に集中している。 Shiraishi et al., Genome Research, 2018 Exon Exon Intron G G T C/T G N C/T C/T A A/G A G T G A C/T Donor disrupIon Acceptor disrupIon
  7. Pan-cancer解析について •  がん種横断的な解析により、 –  「ある一つのがんで見つかった現象が、どのくらい一 般的か?」がわかる。 –  新しい現象の発見にもつながる。 –  たくさんの検体を扱うことで、S/N比が高くなり、重要

    な現象、変異の発見につながる。 •  たくさんのデータを扱うので、計算環境の構築が 重要になる。 –  データのダウンロードなどが大変。。。 –  できる限りの自動化が必要。
  8. これまでのシークエンス解析モデル Standard Model of Computational Analysis Local Data U N

    I V E R S I T Y U N I V E R S I T Y Locally Developed Software Publicly Available Software Local storage and compute resources Network Download Public Data hTps://www.genome.gov/mulImedia/slides/tcga4/23_davidsen.pdf
  9. これまでの解析モデルの問題点 •  公共データの大規模解析 – TCGAのデータが全部で2.5PB (2015, 5月時点) •  RNA-seqのbamファイルだけで、約70TB – まずダウンロードが大変。。。 – ミラーサイトの構築が技術的、倫理的に難しい。 • 

    それぞれの研究グループで、TCGAのデータの利用申 請が必要(使い回しができない)。 •  TCGAとの交渉が必要?? – 規模の大きい研究室だけしか、大規模解析がで きない。。。。
  10. クラウドを通じた解析モデル Co-located Compute & Data API Data Access Security Resource

    Access Core Data (TCGA) User Data Computational Capacity Standard tools User uploaded tools hTps://www.genome.gov/mulImedia/slides/tcga4/23_davidsen.pdf データのダウンロードの必要がなくなり、誰もが大規模ゲノムデータにアクセス可能に!
  11. DemocraIze Cancer Genomics! •  NCI cloud pilot – 3つの研究機関でモ デルケースの開発 – 独占が生じないよう

    に。。。 www.isb-cgc.org Institute for Systems Biology The goals of the NCI Cloud Pilots are to democratize access to NCI-generated genomic and related data, and to create a cost-effective way to provide scalable computational capacity to the cancer research community. The Institute for Systems Biology (ISB) Cloud provides interactive and programmatic access to data, leveraging many aspects of the Google Cloud Platform. The interactive ISB-CGC web-app allows scientists to interactively define and compare cohorts, examine underlying molecular data for specific genes or pathways of interest, and share insights with collaborators. For computational users, programmatic interfaces and GCP tools such as BigQuery, Genomics, and Compute Engine allow users to perform complex queries from R or Python scripts, or run Dockerized workflows on sequence data available in cloud storage. www.isb-cgc.org Institute for Systems Biology Seven Bridges Genomics www.cancergenomicscloud.org The goals of the NCI Cloud Pilots are to democratiz genomic and related data, and to create a cost-effec computational capacity to the cancer rese The Institute provides inte data, leveragi Cloud Platfor allows scienti compare coh data for speci and share ins computationa and GCP tool Compute Eng queries from Dockerized w in cloud stora Seven Bridge Cloud enable analysis of lar secure, repro rich query sy exact data of own private d Common Wo makes it easy bench biologi reproducible genomics dat www.cancergenomicscloud.org Broad Institute www.firecloud.org own private Common W makes it ea bench biolo reproducib genomics d Broad Insti Firehose an facilitates c scalable pla at-large. Us Google Clou tool develo perform lar curation, an upload thei workspaces tools and p
  12. Genomic Data Commons (harmonize data!) Biden unveils launch of major,

    open-access database to advance cancer research The Washington Post, June 6, 2016
  13. NCI Cancer Research Data Commons •  Data Commons Framework (

    データ共有の基盤構築のため の「規格」) •  ユーザー認証 •  メタデータ •  計算リソースへのアクセス 法 •  ソフトウェア、パイプライン の実行方法など •  Genomic Data CommonsやNCI Cloud Pilotの経験を元にする。
  14. Genome Cloud Plaqorm St. Jude Cloud •  4000検体以上の小児がん全ゲノムなど •  St.

    Jude + MicrosoS + DNAnexusにより 開発 Canadian Genomics Cloud •  ゲノムデータ、臨床情報、ソフトウェアの シェアリング •  CGEn (Canadian naIonal network of genome sequencing centers), Personal Genome Project Canadaなどをサポート
  15. 世界のゲノムプロジェクト The ICGC ARGO Project aims to analyze biospecimens from

    at least 100,000 cancer paIents with high quality clinical data AstraZeneca launches project to sequence 2 million genomes The project will sequence 100,000 genomes from around 70,000 people. The All of Us Research Program seeks to create one of the world’s largest and most comprehensive precision medicine research plaqorms with a data resource containing mulI-layered data on 1 million or more parIcipants
  16. “bring the analysis to the data” 27 •  大量のシークエンスデータをダウンロードして解析することが不可能になりつつある。 • 

    GA4CHでの議論において、データの提供者はデータを配置するだけではなく、解析する ための「環境」を整備することが求められるとされている。 •  IaaS型クラウド環境であり、解析者が自前のワークフローを実行できること。 •  データのセキュリティーを「安全」に保つこと。 •  データの利用者が容易に「課金」できるシステムを提供すること。 Data Bio-sphere; by Benedict Paten
  17. データ公開の新たなモデル NATURE BIOTECHNOLOGY VOLUME 36 NUMBER 5 MAY 2018 391

    data sharing in the biomedical community, less attention has been paid to new kinds of biomedical data sharing, particularly the sharing of confidential patient data. In the traditional paradigm of data sharing, researchers transfer their data directly to data modelers. Here we describe an alternative model that allows the protection of confidential data through a process we term ‘model to data’ (MTD). In the MTD model, the flow of information between data generators and data modelers is reversed. This new sharing paradigm has been successfully demonstrated in crowdsourced competitions and represents a promising alternative for increasing the use of data that cannot—or will not—be more broadly shared. Biomedical studies generate vast clinical, radiologic, cellular and molecular data sets, and enable new basic and translational science. However, there is substantial disagreement around the best ways to share these valuable assets, particularly in the context of clinical trials. Some advocate for immediate and fully open sharing, arguing that wide accessibility will facilitate creative new analyses and improved reproducibility1. Others suggest more closed and/or delayed data sharing, arguing that broad availability will disincentivize the substantial effort required to accurately collect and generate large data sets2. Still others highlight the importance of keeping patient data private and not betraying patients’ trust3. These points were highlighted by researchers involved in a large cardiovascular study, who remarked that the public release of their data puts projects and manuscripts “in jeopardy of being scooped”4. Ultimately, the question at hand is simple: what data-sharing model will most effectively incentivize funders, clinicians, scientists and patients, and catalyze new biomedical discovery? Data sharing traditionally implies a flow of information from data generator to data cornerstone of scientific research; data modelers acquire direct access to data to develop and test hypotheses. Recently, alternative forms of data sharing have emerged, enabled by new technologies and propelled by a small, albeit growing, community that organizes research questions around ‘challenges’. These challenges are crowdsourced competitions that pose quantitative questions to the multidisciplinary collaboration (e.g., Kaggle, Innocentive, CASP (Critical Assessment of Protein Structure Prediction), CAGI (Critical Assessment of Genome Interpretation), the DREAM (Dialogue for Research Engineering Assessments and Methods) Challenges, and others5,6). In these challenges, the dissemination and availability of data are critical to their operation and have motivated challenge Figure 1 Sharing paradigms for data challenges. (a) Data to modeler (DTM). Both training and validation data sets are provided to participants for model development and generation of predictions. (b) Model to data (MTD). Participants submit ‘containerized’ models to organizers. Hidden data sets are used for unbiased model validation, as well as potential model training. Challenge cloud platform (private) Training data Model Leaderboards & benchmarks Challenge participants (public) Challenge participants (public) !"#$$%&'%()%#*+( Validation data Ground truth Predictions Prediction Challenge teams Scoring Model Containerized model Validation data sets Model submissions Prospective data sets Future models Leaderboards & benchmarks Scoring Training data Challenge cloud platform (private) Challenge teams a b AlternaIve models for sharing confidenIal biomedical data. JusIn et al., Nature Biotechnology, 2018 •  DTM (Data to Modeler)から MTD (Model to data)へ。 •  MTD 1.  トレーニングデータのみ が公開されており、解析 手法(モデル)をチューニ ング。 2.  解析手法(コンテナ化が 望ましい)をデータのある クラウドにアップロード。 3.  解析結果が生成され、そ れを何らかの形でユー ザーが閲覧、ダウンロー ドするという形。 •  テクニカルに詰めることはたく さんあるが、、、新しいフレーム ワークを考え続けることは非常 に需要。
  18. Private IaaS型 Cloud •  Amazon AWSなどのIaaS型クラウドと同様のインフラを、オンプレミスの環境で 配置したもの。 –  ポリシーに合わせたシステム構成。 – 

    高度なセキュリティーが実現可能。 –  倫理面の説明がしやすい。 –  海外の学術機関で数多い事例。 •  主要なOSSのprivate cloudのソフトウェア –  OpenStack –  Apache Cloud Stack –  国内のクラウド事業者(富士通、NTTコミュニケーションズなど)もOpenStackを取り 入れている! 29
  19. Genomon2について •  Genomon DNA –  WGS, WES, targetに対応 –  SNV,

    indel, SVの検出 •  FLT3-ITDも検出可能 •  Genomon RNA –  融合遺伝子検出 –  発現量算出 •  インタラクティブレポートの自動生成 •  東京大学医科学研究所のスパコン にインストールされている •  国内では多くのユーザー –  京都大学医学系研究科 –  東大医科研 –  東大小児科 –  九州大学別府病院 •  三人で開発 –  白石、千葉、岡田 hTps://github.com/Genomon-Project
  20. Genomonの依存パッケージ 33 •  Python (2.7.10) •  Perl (5.14.4) •  R

    (3.3.1) •  bwa (0.7.8) •  blat (v34) •  samtools (1.2) •  Biobambam (0.0.191) •  PCAP-core (20150511) •  htslib (1.3) •  bedtools (2.24.0) •  GenomonPipeline (2.5.3) •  GenomonSV (0.4.2rc) •  GenomonFisher (0.2.0) •  GenomonMutaIonFilter (0.2.1) •  EBFilter (0.2.1) •  GenomonPostAnalysis (1.4.0) •  GenomonQC (2.0.1) •  GenomonExpression (0.3.0) •  fusionfusion (0.3.0) •  paplot (0.5.5) •  sv_uIls (0.4.0b2) •  annot_uIls (0.1.0) •  fusion_uIls (0.2.0 膨大な無の基本ライブラリ数 OS 移植にあたりこれらの設定を準備する 必要あり!
  21. On-Demand ExtracIon TransformaIon Load (ETL) approach VM VM VM 仮想マシン領域

    ストレージ領域 sequence data 1 sequence data 2 sequence data 3 analyIcal result 1 analyIcal result 2 analyIcal result 3 1. Virtual Machine (VM)が立ち上がる 3. VM上のdockerコンテナ上で 解析処理 4. 解析結果がVM からストレージに転 送される 2. 入力データがス トレージからVMに 転送される 5. VMが除去される •  dsub (google cloud plaqorm) •  Amazon AWS Batch •  Azure Batch Amazon AWS S3 Google Cloud Storage MicrosoS Azure Storage ポイント •  ストレージ始まり、ストレージ終わりであること。 •  仮想マシンが終わったら除去されること •  Dockerを利用していること。
  22. On Demand ETLの利点 •  終わった後にすぐ仮想マシンが落ちるので、 コスト削減につながる。 •  シェルスクリプト + Docker

    imageによってバッ チジョブの定義ができる。 – Docker imageにより、環境がカプセル化され、処 理が再現可能になる。 – シェルスクリプトはCWL (Common Workflow Language)にそのうち置き換わるかも?
  23. On demand ETLを達成するパッケージ •  ecsub (by ai okada) –  hTps://github.com/aokad/ecsub

    –  Amazon ECSを利用 •  本当はAWS Batchを利用したかった。。。 •  azurebatchmon (by kenichi chiba) –  hTps://github.com/Genomon-Project/azurebatchmon –  MicrosoS Azure Batchを利用。 •  awsub (by Hiromu Ochiai) –  hTps://github.com/oIai10/awsub –  docker-machineに基づく –  Extended ETLを実装(shared instanceの利用) dsubのバッチジョブ定義とほぼcompaIbleに!!
  24. Successive ETL as a Pipeline (SEaaP) VM VM VM 仮想マシン領域

    ストレージ領域 fastq 1 fastq 2 fastq 3 VM VM VM fastq 1 fastq 2 fastq 3 bam 1 bam 2 bam 3 vcf 1 vcf 2 vcf 3 bam 1 bam 2 bam 3 bam 1 bam 2 bam 3 vcf 1 vcf 2 vcf 3
  25. genomon_pipeline_cloud (仮)の特徴 •  逐次的にETLジョブを実行。 –  各ステップの計算環境が完全に Docker imageでカプセル化されてい るので、完全に再現可能。 – 

    各ステップで、使う仮想マシンのス ペックの指定が可能。 •  費用の削減につながる。 •  準備・インストールが非常に簡単。 –  genomon_pipeline_cloud自身 –  ETL engine package (dsub, ecsub, azurebatchmon, awsubのどれか) –  追加でクラウド側の準備を少々 •  Genomon2でのモジュールの移植 をほぼ完了。 (hTps://github.com/Genomon-Project/genomon_pipeline_cloud)
  26. クラウドを使った 新しい解析アプリケーション (SeqPod) •  新しいシークエンスデータ解析の提案 1.  ソフトウェアを自分のローカル環境に ダウンロード、インストール。 2.  ソフトウェアを立ち上げる。

    3.  シークエンスデータをドラッグ&ドロッ プ。 4.  バックエンドでAmazonクラウドの仮想 マシンが立ち上がり、計算が始まる. 5.  計算が終わると、結果がメールで送 られてくる.
  27. ETLに基づくゲノム解析プログラムの 評価基盤構築 •  ゲノム解析プログラムの評価はとにかく大変。。。。 –  計算リソースの用意が大変。 –  多くのライブラリに依存している。 –  各々のプログラムの出力するファイルのフォーマットがバラバラ。

    –  後処理のフィルタリング。 •  解析ワークフローをETLに基づくジョブとして定義(シェルスクリプト+Docker image) •  テストデータでのETLジョブ実行、評価プログラムによる評価結果の算出、結果の 可視化を自動で実行する仕組み。
  28. クラウドの利用に向けて •  倫理面 –  様々な論点の整理 •  クラウドへのデータのアップ ロードは「第三者提供」に当た るか? • 

    同意取得の必要性(クラウド 利用について同意書に記載 する必要があるか?)  •  運用面 –  満たすべきセキュリティー・ 運用条件について •  データ転送の方法 •  アクセス制限について •  計算環境 閉域網でETLジョブを実行するフレー ムワークを開発中
  29. クラウドプラットフォームの構築に向けて •  クラウドプラットフォームの構築のための必要技術 –  アカデミアではこれまで必要とされていなかったスキルセットが 必要。 –  フロントエンド開発 •  ウェブ技術全般、ユーザーインターフェースについての理

    解 •  JavaScript, Node.js, React.js, Vue.js, REST APIなど。。 –  コンテナ仮想化 •  Docker, Singularity, Kubernetes –  クラウドについて日々進化を繰り返して、キャッチアップが必要 –  サーバーレス(AWS lambda, google cloud funcIon) –  GPU, FPGAを利用した計算 •  企業とアカデミックの双方の人材育成が必要 –  企業 •  ゲノム+クラウドの両方ができる企業の育成。 •  ハードを提供する企業(レガシー企業?)と、ソフトウェア を提供する企業(ベンチャー企業?)を分けて考えた方が 良い気がする。 –  アカデミック •  クラウドを利用したビックデータ解析ができる人材の育成。 プラットフォー ムのUI開発 最先端の解析ソ フトウェア開発 GPU, FPGAなどを 利用した最適化 クラウド上でのパ イプライン実装 生物・医学 的発見 企業 アカデミック
  30. まとめ •  クラウドの活用は今後のゲノム研究において必須のも のになる。 –  「ゲノムデータ」、「解析ワークフロー」の円滑なシェアリン グに不可欠。 •  クラウド技術の利用は簡単な問題ではない – 

    アカデミアではこれまで必要とされていなかったスキル セットが必要。 –  クラウドを通じてビックデータ解析ができる人材の育成が 急務 –  企業との連携、役割分担について議論・試行錯誤が必要。 がんゲノム情報管理センター ゲノム解析室 室員 募集中!! •  一緒にゲノムデータの解析のプラットフォームを開発してくれる方。 •  最先端の情報技術が好きな方。
  31. Acknowledgement •  NaIonal Cancer Center –  Kenichi Chiba –  Ai

    Okada –  Hiromu Ochiai –  Keisuke Kataoka –  Yasunori Kogure •  Tokyo University, Human Genome Center –  Satoru Miyano •  Kyoto University –  Seishi Ogawa