Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模で多様な バイオデータ管理・解析のためのSnowflake データウェアハウス

Tatsuya Koreeda
October 31, 2024
43

大規模で多様な バイオデータ管理・解析のためのSnowflake データウェアハウス

2024/11/01(金)14:00 〜 18:00 開催
【Snowflake】製薬業界におけるデータ分析基盤の最前線 ~データエンジニアリングが変えるライフサイエンスの未来~

https://techplay.jp/event/959622

Tatsuya Koreeda

October 31, 2024
Tweet

Transcript

  1. 2 自己紹介 名前 是枝達也 略歴 クリニックフォア田町 バイオインフォマティシャン クリエイティブサーベイ データエンジニア 専門

    トランスクリプトーム・ゲノミクス・マルチオミクス解析 アワード Snowflake Squad 2024(First Japanese Member) 活動 SnowVillage Mayors Snowflake ヘルスケア UG リーダー Snowflake WEST リーダー
  2. 6 Agenda Introduction Demonstration • Single Cell RNA-seq using Snowpark

    Container Service • Stored VCF Files from Public Database and Annotated for Variant Analysis • In silico Drug Discovery Snowflake Notebooks and Streamlit Other Topics
  3. 10 項目 サブカテゴリ 内容 (1)保健医療介護のリアル ワールドデータ(RWD) (1)-i 臨床疫学系RWD 患者登録、保険データベース( DPCデータ、

    特定健診・レセプト情報、介護レセプト情報な ど)、電子カルテ情報、など。 (1)-ii 健康予防系RWD スマートフォンアプリ、ウェアラブルデバイ ス、家庭内診断用センサーデバイスなどを用 いた、生活習慣病予防等に活用される情 報。 (2)ライフ・サイエンス系のオミ クス情報 ゲノム、トランスクリプトーム、プロテオーム、メタボロームなどの遺伝子や生体 分子情報 医療ビックデータ 「医療ヘルスケアのためのリアルワールドデータ活用」より表を改変して引用
  4. 12 多岐に渡るバイオデータの種類 reference image: https://www.semanticscholar.org/paper/The-European-Bioinformatics-Institute%E2%80%99s-data-2014-Brooksbank-Bergman/1 c11992577c22af41ef1e861656d146fdd5d0f53 DNA, RNA, エピゲノム ,

    タンパク質、タ ンパク質や化合物の構造情報、相互作 用情報などバイオデータの種類は多く 容量が大きくなる バイオデータを管理するための、 ス トレージコストと管理コストの増大が 課題
  5. 15 10x genomicsフォーマットを Snowpark Container Serviceで分析
 single-cell RNA sequencing 個々の細胞内の遺伝子発現パターンを研究するために使用される方法です。これにより、細胞集団内の個々の細胞での遺伝子発現を分

    析することができます。今回はINF-βで刺激されたサンプルを用いてSeuratでUMAPプロットを書いてみようと思います。 
 10 X genomics format Seurat DataからSeuratObjectを ロードして解析をする
  6. 16 SPCS上にRstudioをホストしてシングルセル RNA-seq解析 1. ローカルで Rstudio ServerのDocker imageを作成し、 snowflakeのイメージレ ポジトリにプッシュ

    2. プッシュされたイメージを下に snowpark container service上でサービスを作成。 エンドポイントが払い出される。 3. 指定エンドポイントの Rstudio Server環 境を使って Seuratによる解析を実施 解析手順
  7. 21 Registry of Open Data on AWS https://registry.opendata.aws/ • AWS(Amazon

    Web Services)が提供 する研究者、データサイエンティスト向け の公開データセットのカタログ • S3バケットにデータが格納されている • オープンデータの利用促進とコミュニティ の形成を目的としている Registry of Open Dataの特徴
  8. 22 公共データの外部ステージ登録と VCFデータのアノテーション付け 1. Open Data RegistryのDRAGEN 1000-Genomesプロジェクトの8人 分ゲノムデータが入った S3を外部

    ステージ登録する 2. snowflakeのテーブルに取り込む 3. Panelの情報が入ったS3を外部ス テージ登録し、アノテーションを実行 する 解析の流れ
  9. 30 Streamlit in Snowflake • Pythonのオープンソースライブラリで、 データをインタラクティブな Webアプリケー ションとして素早く簡単に可視化可能 •

    HTML、CSS、JavascriptなどのWebアプ リケーション開発に必要な知識がなくても 構築可能 • Snowflakeのデータクラウド上で Streamlitアプリを構築、展開、共有できる Streamlit in Snowflakeの特徴
  10. 31 Snowflake Notebooks • Python および SQL 用のインタラクティブ なセルベースのプログラミング環境を提供 する

    Snowsight の開発インターフェイス • Streamlit などの他のライブラリを使用し て、データをインタラクティブに視覚化可能 • Snowflake にすでに存在するデータを探 索したり、ローカル ファイル、外部クラウド ストレージ などから Snowflake にアップ ロード可能 Snowflake Notebooksの特徴
  11. 33 In silico創薬「化合物類似度の評価」 1. ライブラリ(RDkit)のインポート 2. 化合物の分子構造をSMILES表記から 生成 Cc1ccccc1:トルエン Clc1ccccc1:トリクロロベンゼン

    3. 生成した分子構造の画像を描画し、 Streamlitを使って表示 4. タニモト係数で類似度の評価 ここでの類似度結果は 「0.5384615384615384」 処理の流れ
  12. 38 マルチオミクスを行う環境が簡単にセットアップ可能 • 解析で用いる多種のデータが一元 管理可能 • Snowflake NotebooksでSQLや Pythonを用いていつでも呼び出 し、組み合わせてマルチオミクス解

    析ができる • 公共データベースのデータを Snowflake内部に入れずとも外部 ステージとして管理できる 化合物などの ケモインフォマティクス データ VCFファイルなどの ゲノミクスデータ 公共データベース アノテーション用のステージ トランスクリプトーム解析 SPCSのイメージ管理 マルチオミクスにおけるメリット