Pro Yearly is on sale from $80 to $50! »

The Sequence Read Archive search system to make use of public high-throughput sequencing data

The Sequence Read Archive search system to make use of public high-throughput sequencing data

2018/11/29 MBSJ2018 ワークショップ
「いかにして公共データベースを生命科学研究に活用するか?」

公共データベースに登録されたNGSデータを検索・活用する
大田達郎, 仲里猛留, 坊農秀雅
ライフサイエンス統合データベースセンター (DBCLS)

991f3366d9cc17386e6a66ef4abc6dbc?s=128

Tazro Inutano Ohta

November 29, 2018
Tweet

Transcript

  1. 公共デー タベー スに登録されたNGS デー タを 検索・ 活用する 大田達郎, 仲里猛留, 坊農秀雅

    ライフサイエンス統合デー タベー スセンター (DBCLS) 2018/11/29 MBSJ2018 ワー クショップ 「 いかにして公共デー タベー スを生命科学研究に活用するか?」
  2. 来場者アンケー ト NGS 使ってますか DDBJ にNGS デー タを登録したことがありますか デー タの解析を自分でやりますか、

    人に任せますか 公共のNGS デー タを 検索したことがありますか 使って解析したことがありますか それで論文書けましたか
  3. まとめ DDBJ/DBCLS で公共NGS デー タ検索エンジンを作っています https://sra.dbcls.jp 2019 年度DDBJ にて正式稼働予定 是非フィー

    ドバックを 解析済み公共NGS デー タを提供するDB をどんどん活用しましょう
  4. Agenda Sequence Read Archive (SRA) について SRA デー タ検索の問題点 DDBJ

    Search の実装 SRA デー タを用いたアプリケー ションの紹介 まとめ
  5. Sequence Read Archive (SRA) について 何がどれくらい入っているのか

  6. Sequence Read Archive (SRA) について いわゆる NGS デー タを収載する公共デー タレポジトリ

    INSDC が運用 INSDC: International Nucleotide Sequence Database Collaboration 米国NCBI + 欧州EBI + 日本DDBJ 研究者が登録するもの 配列デー タ (FASTQ, BAM, etc.) 実験やサンプルについての記述 ( メタデー タ)
  7. SRA のデー タ量と伸び 20PB! https://www.ncbi.nlm.nih.gov/sra/docs/sragrowth/

  8. Open access bytes per quarter

  9. Controlled access bytes per quarter

  10. Statistics: Library source

  11. Statistics: Library strategy (application)

  12. Statitsitcs: Platform

  13. Statistics: Organisms (Top50)

  14. Statistics: Organisms (51‑100)

  15. SRA デー タ検索の問題点 こんなにあるのに何故欲しいデー タが見つからないのか

  16. SRA デー タ検索の問題点 たくさんあるが… 1. メタデー タオブジェクトの関係性が複雑である 2. メタデー タに記載された情報が検索に不十分である

    3. 検索の仕方が悪いのか、 そもそもアー カイブにないのか?
  17. メタデー タオブジェクトの関係性 個別の情報のアップデー トや削除に対応するために情報の単位ごと に分割されID が振られる 知らないと検索するときに混乱する

  18. メタデー タに含まれる情報の不足 お花見メタゲノムプロジェクト で取られたメタデー タ plant‑associate metagenome の package に従っている

    登録者が記載する情報と検索者が記載してほしい情報は一致しない
  19. 検索の仕方が悪いのか、 そもそもアー カイブ にないのか なんでも入っているわけではない 世界のどこかでシー ケンスされ、 登録されたものだけ メタ情報が適切に書かれていない =

    存在しないのと同じ 対策 論文を探す 統計情報を活用する 効率よく検索するプログラムを書く
  20. DDBJ Search の実装

  21. DDBJ Search の実装 メタデー タの全文検索インデックス構築 プログラムからアクセス可能なAPI サー バの構築 Graphical User

    Interface (WebUI) の構築 停電知らずのクラウド環境
  22. システム構成

  23. DDBJ Search twitter でのフィー ドバックお待ちしてます https://sra.dbcls.jp

  24. SRA デー タを用いたアプリケー ションの紹介 その公共デー タ、 既に誰かが解析している ( かも)

  25. SRA デー タを用いたアプリケー ションの紹介 Name Org SeqApp Organisms Quanto DBCLS

    FastQC All RefEx DBCLS RNA‑Seq Human, Mouse, Rat ARCHS4 Mount Sinai RNA‑Seq Human, Mouse ChIP‑Atlas Kyushu‑ Univ. ChIP‑Seq, DNase‑ Seq Human, Mouse, Rat, Fluit fly, Roundworm, Yeast MicrobeDB.jp NIG Metagenome, Meta‑16S, Meta‑ transcriptome
  26. Quanto SRA デー タのクオリティ統計値 詳しくは BioDB2 ( 統合DB DBCLS) のブー

    スへ http://data.dbcls.jp/~inutano/fastqc/ https://doi.org/10.1093/gigascience/gix029
  27. RefEx 公共遺伝子発現デー タから作られた "reference transcriptome" 詳しくは BioDB2 ( 統合DB DBCLS)

    のブー スへ http://refex.dbcls.jp
  28. ARCHS4 kallisto による human/mouse RNA‑Seq の発現定量 結果は全てDL 可能 https://amp.pharm.mssm.edu/archs4/ https://doi.org/10.1038/s41467‑018‑03751‑6

  29. ChIP‑Atlas SRA のChIP‑Seq/DNase‑Seq を解析、Enrichment analysis も 詳しくは BioDB9 ( 統合DB

    九州大学) のブー スへ https://chip‑atlas.org https://doi.org/10.15252/embr.201846255
  30. Microbedb.jp SRA のメタゲノム・ メタ16S・ メタトランスクリプトー ムが解析済 み 詳しくは BioDB7 (

    統合DB 微生物統合 遺伝研他) のブー スへ http://microbedb.jp/
  31. まとめ DDBJ/DBCLS で公共NGS デー タ検索エンジンを作っています https://sra.dbcls.jp 2019 年度DDBJ にて正式稼働予定 是非フィー

    ドバックを 解析済み公共NGS デー タを提供するDB をどんどん活用しましょう
  32. おまけ:NCBI, EBI, DDBJ の検索サー ビス どうやって探すか

  33. NCBI でSRA デー タを検索する http://ncbi.nlm.nih.gov/sra

  34. NCBI でSRA デー タを検索する SRA Advanced Search Builder

  35. EBI でSRA デー タを検索する https://www.ebi.ac.uk/ena

  36. EBI でSRA デー タを検索する Advanced Search

  37. EBI でSRA デー タを検索する インクリメンタルサー チも可能

  38. DDBJ でSRA デー タを検索する http://ddbj.nig.ac.jp/DRASearch/

  39. DDBJ でSRA デー タを検索する インクリメンタルサー チ

  40. DDBJ でSRA デー タを検索する