Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Snowflakeによる統合バイオインフォマティクス

 Snowflakeによる統合バイオインフォマティクス

Laboratory Automation月例勉強会 / 2024.07 で登壇した資料になります。
https://laboratoryautomation.connpass.com/event/314094/

Tatsuya Koreeda

July 25, 2024
Tweet

More Decks by Tatsuya Koreeda

Other Decks in Science

Transcript

  1. 6 多岐に渡るバイオデータの種類 reference image: https://www.semanticscholar.org/paper/The-European-Bioinformatics-Institute%E2%80%99s-data-2014-Brooksbank-Bergman/1 c11992577c22af41ef1e861656d146fdd5d0f53 DNA, RNA, エピゲノム ,

    タンパク質、タ ンパク質や化合物の構造情報、相互作 用情報などバイオデータの種類は多く 容量が大きくなる バイオデータを管理するための、 ス トレージコストと管理コストの増大が 課題
  2. 7 学術利用に使われる主なコンピュートリソース種類 ラボPC(オンプレミス) メリット データが内部に保持されるため、 機密性の高いデータを扱うのに最 適ハードウェアとソフトウェアを 自由にカスタマイズできる デメリット ハードウェア、ソフトウェア、施設の構築など

    高額な初期投資が必要。 アップグレードや修理など維持管理が困難で、専任のITスタッフが必 要。 スパコン メリット 高い計算能力を提供し、 大規模で複雑なシミュレーションやデータ解 析に最適。特定の計算タスクに特化したシステム設計が可能で、 性 能の最適化が容易。 デメリット 利用には予約が必要であり、使用時間に制約がある場合があり。 The image of server and computer is from TogoTV (© 2016 DBCLS TogoTV, CC-BY-4.0https://creativecommons.org/licenses/by/4.0/deed.ja
  3. 9 クラウドで解析するメリット スケーラビリティと柔軟性 クラウドサービスは、必要に応じて計算リソー スを動的に拡張または縮小することができま す。 コスト効率 使用したリソースに対してのみ料金が発生す る従量課金制。また、ハードウェアの保守や更 新のコストもクラウドプロバイダーに含まれて

    いる。 自動化と効率化 さまざまな自動化ツールやサービスを提供し ており、データ処理パイプラインの自動化や ワークフローの効率化が可能。 データの共有とコラボレーション データや解析結果を簡単に共有することがで き、複数の研究者やチームが同時にアクセス して共同作業を行うことが可能。 セキュリティとコンプライアンス データの暗号化、アクセス制御、監査ログな ど、機密性の高いバイオデータを安全に管理 できる。 高性能コンピューティング 高性能コンピューティング( HPC)クラスターを 迅速に構築して、大規模なシミュレーションや データ解析が可能。
  4. 12 Snowflakeの主な特徴① 伸縮性のある高性能エンジン • 複雑なデータパイプライン、大規模アナリ ティクス、特徴量エンジニアリング、アプリ ケーションを自動でスケール • 即時かつコスト効率の良いスケーリング で、性能に影響を与えることがない

    • SQLを始め、Python、Java、Scala用 Snowpark開発者フレームワークが用意さ れている reference image: https://www.snowflake.com/ja/data-cloud/platform/?utm_cta=websi te-homepage-platform-card-elastic-compute
  5. 13 Snowflakeの主な特徴② 最適化されたストレージ • PDFなどの非構造化データも一元的に管 理可能 • 最適化された圧縮、自動マイクロパーティ ション、ACIDコンプライアンス、Time Travelなどを活用

    • オープンテーブル形式(Iceberg Tableな ど)が利用可能 reference image: https://www.snowflake.com/ja/data-cloud/platform/?utm_cta=website-ho mepage-platform-card-elastic-compute
  6. 17 Snowpark Container Service(SPCS) • Snowflake エコシステム内でコンテナ化さ れたフルマネージドのコンテナ製品 • Docker

    など)を使用して、アプリケーショ ン イメージを Snowflake に簡単にアップ ロードできる • 外部にデータを移すことなく、 Snowflake 上で直接アプリを動かせる https://docs.snowflake.com/en/developer-guide/snowpark-container-services/overview Snowpark Container Serviceの特徴
  7. 18 Snowpark Container Serviceの使い方 1. COMPUTE POOLを作成し INSTANCE_FAMILY で CPUやGPUスペック

    を定義する 2. Specを定義し、リソースの詳細な仕様を記述 する 3. Service作成する コードの流れ
  8. 19 SPCS上にRstudioをホストしてシングルセル RNA-seq解析 1. ローカルで Rstudio ServerのDocker imageを作成し、 snowflakeのイメージレ ポジトリにプッシュ

    2. プッシュされたイメージを下に snowpark container service上でサービスを作成。 エンドポイントが払い出される。 3. 指定エンドポイントの Rstudio Server環 境を使って Seuratによる解析を実施 解析手順
  9. 27 Snowpark Container Serviceで用意できるスペック Mapping 
 vCPU
 Memory (GiB) 


    Storage (GiB) 
 GPU
 GPU Memory (GiB) 
 CPU / XS~L 
 2~32
 8~128 
 250
 該当なし
 該当なし
 ハイメモリCPU / S,M,L 
 8~128 
 64~1024 
 250
 該当なし
 該当なし
 GPU / S 
 8
 32
 250
 1 NVIDIA A10G 
 24
 GPU / M 
 48
 192
 250
 4 NVIDIA A10G 
 96
 GPU / L 
 192
 2048
 250
 8 NVIDIA H100 
 640
 スペック CPUメモリは1024GiBまで拡張可能。 NVIDIA GPU使用可能。
  10. 29 Tableと外部ステージ • Tableはデータを構造化する基本単位。 snowflakeのtableはマイクロパーティ ション、クラスタリングを自動で行ってくれ る • AWS S3などを外部のストレージとして統

    合することが可能 • SQLでのデータスクリーニングやアノテー ションが可能 https://docs.snowflake.com/ja/user-guide/data-load-s3 Tableと外部ステージの特徴
  11. 30 Registry of Open Data on AWS https://registry.opendata.aws/ • AWS(Amazon

    Web Services)が提供 する研究者、データサイエンティスト向け の公開データセットのカタログ • S3バケットにデータが格納されている • オープンデータの利用促進とコミュニティ の形成を目的としている Registry of Open Dataの特徴
  12. 31 公共データの外部ステージ登録と VCFデータのアノテーション付け 1. Open Data RegistryのDRAGEN 1000-Genomesプロジェクトの8人 分ゲノムデータが入った S3を外部

    ステージ登録する 2. snowflakeのテーブルに取り込む 3. Panelの情報が入ったS3を外部ス テージ登録し、アノテーションを実行 する 解析の流れ
  13. 39 Streamlit in Snowflake • Pythonのオープンソースライブラリで、 データをインタラクティブな Webアプリケー ションとして素早く簡単に可視化可能 •

    HTML、CSS、JavascriptなどのWebアプ リケーション開発に必要な知識がなくても 構築可能 • Snowflakeのデータクラウド上で Streamlitアプリを構築、展開、共有できる Streamlit in Snowflakeの特徴
  14. 40 Snowflake Notebooks • Python および SQL 用のインタラクティブ なセルベースのプログラミング環境を提供 する

    Snowsight の開発インターフェイス • Streamlit などの他のライブラリを使用し て、データをインタラクティブに視覚化可能 • Snowflake にすでに存在するデータを探 索したり、ローカル ファイル、外部クラウド ストレージ などから Snowflake にアップ ロード可能 Snowflake Notebooksの特徴
  15. 42 In silico創薬「化合物類似度の評価」 1. ライブラリ(RDkit)のインポート 2. 化合物の分子構造をSMILES表記から 生成 Cc1ccccc1:トルエン Clc1ccccc1:トリクロロベンゼン

    3. 生成した分子構造の画像を描画し、 Streamlitを使って表示 4. タニモト係数で類似度の評価 ここでの類似度結果は 「0.5384615384615384」 処理の流れ
  16. 48 マルチオミクスを行う環境が簡単にセットアップ可能 • 解析で用いる多種のデータが一元 管理可能 • Snowflake NotebooksでSQLや Pythonを用いていつでも呼び出 し、組み合わせてマルチオミクス解

    析ができる • 公共データベースのデータを Snowflake内部に入れずとも外部 ステージとして管理できる 化合物などの ケモインフォマティクス データ VCFファイルなどの ゲノミクスデータ 公共データベース アノテーション用のステージ トランスクリプトーム解析 SPCSのイメージ管理 マルチオミクスにおけるメリット
  17. 49 簡単にトライアル環境を作成できます • 30日間の無料トライアル • 400ドルの無料枠で snowflakeを存分にトライ可 • 画像のフォームに入力するだ けで簡単に開始可能

    https://signup.snowflake.com/?_l=ja&utm_source=google&utm_medium=paidsearch&utm_campaign=ap-jp-jp-brand-trial-exact&utm_content=go-rsa-evg-ss-free-trial&utm_term=c-g-snowflake%E3%83%88%E3%83%A9%E3 %82%A4%E3%82%A2%E3%83%AB-e&_bt=610748255507&_bk=snowflake%E3%83%88%E3%83%A9%E3%82%A4%E3%82%A2%E3%83%AB&_bm=e&_bn=g&_bg=142614214047&gclsrc=aw.ds&gad_source=1&gclid= CjwKCAjw4f6zBhBVEiwATEHFVkAg8jsfD0OH2W26UNyKTUFlMrCI8WhFO2Kcq4qgYhDGgEhwIRl5rhoC7N8QAvD_BwE