Slide 1

Slide 1 text

大規模で多様な バイオデータ管理・解析のためのSnowflake データウェアハウス 2024年11月1日 Snowflake HealthCare UG Tatsuya Koreeda

Slide 2

Slide 2 text

2 自己紹介 名前 是枝達也 略歴 クリニックフォア田町 バイオインフォマティシャン クリエイティブサーベイ データエンジニア 専門 トランスクリプトーム・ゲノミクス・マルチオミクス解析 アワード Snowflake Squad 2024(First Japanese Member) 活動 SnowVillage Mayors Snowflake ヘルスケア UG リーダー Snowflake WEST リーダー

Slide 3

Slide 3 text

真摯で正しい標準医療 グループの大前提として「真摯でハイレベルな標準的医療」を最重要視 しています。 コロナ禍では、全国最速で発熱外来を設置し、帰国者・接触者外来 の認定を受けまし た。その後も、全襲来波において、 日本一の発熱患者数を診療 しました。 「高次医療機関より、こちらのほうがよかったです」といって当院に通院し続ける難しい病 態の患者さんも多数います。

Slide 4

Slide 4 text

「日本一」の診療の質 ほぼ全院で Google評価★4〜5を維持しています 。 「都市部コンビニ型診療所」としては極めて異例。「この診療所はす ごい!」という「感動」を与え続けています。

Slide 5

Slide 5 text

次世代医療の最前線 当グループは、次世代医療の最前線を走っています。 デ ジタルトランスフォーメーション( DX)を筆頭に、統合型医 療プラットフォームへの成長に挑戦 しています。 自費医療領域のオンライン診療は、業界シェア No.1であ り、強い後発事業者を迎え撃つ立場です。 在宅医療においても、今後は通信機器を用いた情報共有 や能率的な診療が重要視されていくことは必定です。 我々 は、間違いなく日本で一番、その準備が万全にできてい る診療所です。

Slide 6

Slide 6 text

6 Agenda Introduction Demonstration ● Single Cell RNA-seq using Snowpark Container Service ● Stored VCF Files from Public Database and Annotated for Variant Analysis ● In silico Drug Discovery Snowflake Notebooks and Streamlit Other Topics

Slide 7

Slide 7 text

7 本日の内容は TogoTVにて公開されています https://togotv.dbcls.jp/20240712.html Bio"Pack"athon 2024 #7にて登壇した内容になります。本日はダイジェスト版で発表させていただきます。 


Slide 8

Slide 8 text

8 本日の内容は論文発表いたしました Research collaborators ・花王株式会社 ・理化学研究所 ・中外製薬株式会社 日本バイオインフォマティクス学会の国内誌に 単著論文として掲載 共同研究者とともに国際誌へ投稿準備

Slide 9

Slide 9 text

Introduction

Slide 10

Slide 10 text

10 項目 サブカテゴリ 内容 (1)保健医療介護のリアル ワールドデータ(RWD) (1)-i 臨床疫学系RWD 患者登録、保険データベース( DPCデータ、 特定健診・レセプト情報、介護レセプト情報な ど)、電子カルテ情報、など。 (1)-ii 健康予防系RWD スマートフォンアプリ、ウェアラブルデバイ ス、家庭内診断用センサーデバイスなどを用 いた、生活習慣病予防等に活用される情 報。 (2)ライフ・サイエンス系のオミ クス情報 ゲノム、トランスクリプトーム、プロテオーム、メタボロームなどの遺伝子や生体 分子情報 医療ビックデータ 「医療ヘルスケアのためのリアルワールドデータ活用」より表を改変して引用

Slide 11

Slide 11 text

11 増え続けるバイオデータ SRAデータの容量 2007年5月:47.04 GB 2024年2月:27.93 PB 62万倍 https://www.ncbi.nlm.nih.gov/sra/docs/sragrowth/ シーケンシング技術の進歩によりゲノム データの 生成速度が急速に増加 。データの 生成コストも劇的に低下 している

Slide 12

Slide 12 text

12 多岐に渡るバイオデータの種類 reference image: https://www.semanticscholar.org/paper/The-European-Bioinformatics-Institute%E2%80%99s-data-2014-Brooksbank-Bergman/1 c11992577c22af41ef1e861656d146fdd5d0f53 DNA, RNA, エピゲノム , タンパク質、タ ンパク質や化合物の構造情報、相互作 用情報などバイオデータの種類は多く 容量が大きくなる バイオデータを管理するための、 ス トレージコストと管理コストの増大が 課題

Slide 13

Slide 13 text

13 今回Snowflake上で行う解析 1. Snowpark Container Serviceでシングルセル RNA-seq 2. 公共データベースから VCFファイルのアノテーション付けとバリアントフィルタリング 3. Snowflake Notebooks + StreamlitでIn silico創薬

Slide 14

Slide 14 text

Snowpark Container Service で Single Cell RNA-seq

Slide 15

Slide 15 text

15 10x genomicsフォーマットを Snowpark Container Serviceで分析
 single-cell RNA sequencing 個々の細胞内の遺伝子発現パターンを研究するために使用される方法です。これにより、細胞集団内の個々の細胞での遺伝子発現を分 析することができます。今回はINF-βで刺激されたサンプルを用いてSeuratでUMAPプロットを書いてみようと思います。 
 10 X genomics format Seurat DataからSeuratObjectを ロードして解析をする

Slide 16

Slide 16 text

16 SPCS上にRstudioをホストしてシングルセル RNA-seq解析 1. ローカルで Rstudio ServerのDocker imageを作成し、 snowflakeのイメージレ ポジトリにプッシュ 2. プッシュされたイメージを下に snowpark container service上でサービスを作成。 エンドポイントが払い出される。 3. 指定エンドポイントの Rstudio Server環 境を使って Seuratによる解析を実施 解析手順

Slide 17

Slide 17 text

17 解析に用いるコード 1. データの準備 SeuratDataライブラリをロードし、データ を読み込む 2. 次元削減とクラスタリング データをフィルタリングし、正規化、変数 特徴の抽出、スケーリング、 PCA、 UMAP、クラスタリングを実行 3. クラスタリング結果をプロット UMAPの結果をDimplotで可視化する 処理の流れ

Slide 18

Slide 18 text

18 Results SPCSにホストしたRstudioでシングルセルRNA-seq解析が成功

Slide 19

Slide 19 text

19 パブリックの Docker Imageのホスト - https://github.com/Kan-E/RNAseqChef/tree/v1.0.0 shiny-applicationがSPCSに問題なくホスト可能 = 多くの生命科学系ツールの snowflakeでの利用が可能


Slide 20

Slide 20 text

公共データベースの外部ステージ登録と VCF データのアノテーション付け

Slide 21

Slide 21 text

21 Registry of Open Data on AWS https://registry.opendata.aws/ ● AWS(Amazon Web Services)が提供 する研究者、データサイエンティスト向け の公開データセットのカタログ ● S3バケットにデータが格納されている ● オープンデータの利用促進とコミュニティ の形成を目的としている Registry of Open Dataの特徴

Slide 22

Slide 22 text

22 公共データの外部ステージ登録と VCFデータのアノテーション付け 1. Open Data RegistryのDRAGEN 1000-Genomesプロジェクトの8人 分ゲノムデータが入った S3を外部 ステージ登録する 2. snowflakeのテーブルに取り込む 3. Panelの情報が入ったS3を外部ス テージ登録し、アノテーションを実行 する 解析の流れ

Slide 23

Slide 23 text

23 DRAGENのS3を外部ステージ登録 外部ステージの作成 S3のURI (s3://1000genomes-dragen-3.7.6/data /individuals/hg38-graph-based)を Snowflakeのステージに登録する SQLでS3に入っているデータセットを確 認できる(DIRECTORY関数)

Slide 24

Slide 24 text

24 DRAGENをsnowflakeのテーブルに取り込みクエリをする テーブルの定義・作成 DRAGENを取り込むためのテーブルを定義する。テーブルは Snowflakeでパフォーマンス最適化されているの でSQLでデータ確認が高速で可能。

Slide 25

Slide 25 text

25 Panelのアノテーション情報をつける準備 Panel 表現型データで各サンプルの地理的起 源と性別、およびサンプル間の家族連鎖 を記述したもの Panelの入ったS3のURI (s3://1000genomes/1000G_2504_hig h_coverage/additional_698_related/) をSnowflakeのステージに登録する

Slide 26

Slide 26 text

26 バリアントフィルタリング DRAGENとPanelデータを統合 左の例は、特定の人口統計条件(今回 は、イギリスの女性)の人々について、指 定されたクロマソーム(クロマソーム 10) の特定の位置範囲(100,000から 500,000の間)の遺伝子型情報を取得し た例。SQLのjoinで簡単にアノテーション 付与が可能

Slide 27

Slide 27 text

27 Snowflakeを使ったゲノムバリアント解析事例 koreeda et al., under review https://doi.org/10.1101/2024.09.29.24313285

Slide 28

Slide 28 text

28 SnowflakeでVCFファイルのバリアント解析をするメリット フィルタリングワークフローの管理 バリアント解析はcsvやvcfなど大量な中間ファイルができがち。 Snowflakeなら全てテーブルで 保存できる。 SQLによる簡便なデータフィルタリング Snpsiftなどのツールと比較するとフィルタリング条件が SQLで保存しやすい。 Snowflake上でのストレージ圧縮メリットを受けれる SnowflakeはVCFを含む非構造化データをサポートしている。 Snowflakeに取り込むだけでスト レージ容量を圧縮してくれる。

Slide 29

Slide 29 text

StreamlitとSnowflake Notebooksを用いたIn silico創薬

Slide 30

Slide 30 text

30 Streamlit in Snowflake ● Pythonのオープンソースライブラリで、 データをインタラクティブな Webアプリケー ションとして素早く簡単に可視化可能 ● HTML、CSS、JavascriptなどのWebアプ リケーション開発に必要な知識がなくても 構築可能 ● Snowflakeのデータクラウド上で Streamlitアプリを構築、展開、共有できる Streamlit in Snowflakeの特徴

Slide 31

Slide 31 text

31 Snowflake Notebooks ● Python および SQL 用のインタラクティブ なセルベースのプログラミング環境を提供 する Snowsight の開発インターフェイス ● Streamlit などの他のライブラリを使用し て、データをインタラクティブに視覚化可能 ● Snowflake にすでに存在するデータを探 索したり、ローカル ファイル、外部クラウド ストレージ などから Snowflake にアップ ロード可能 Snowflake Notebooksの特徴

Slide 32

Slide 32 text

32 StreamlitとSnowflake Notebooksを用いたバーチャルスクリーニング 
 特許や論文で薬の候補となる化合物が発表された場合、より有望な類似化合物を探したいことがあります。ここでは、インフルエンザ 治療薬であるノイラミニダーゼ阻害薬「ラニナミビル」に類似した化合物を、 ZINC DBを利用して調査します。 laninamivir ZINC DB バーチャルスクリーニング Screening Compounds

Slide 33

Slide 33 text

33 In silico創薬「化合物類似度の評価」 1. ライブラリ(RDkit)のインポート 2. 化合物の分子構造をSMILES表記から 生成 Cc1ccccc1:トルエン Clc1ccccc1:トリクロロベンゼン 3. 生成した分子構造の画像を描画し、 Streamlitを使って表示 4. タニモト係数で類似度の評価 ここでの類似度結果は 「0.5384615384615384」 処理の流れ

Slide 34

Slide 34 text

34 1. SMILESファイルから化合物データを読み込み 2. ノイラミニダーゼ阻害薬(ラニナミビル)の分子構造を定義し、類 似度を計算するための関数を作成 3. 類似度が高い化合物をリストに追加し、その中から上位 10個を 選ぶ 4. 選ばれた化合物を画像として Streamlitで可視化 処理の流れ In silico創薬「バーチャルスクリーニング」 


Slide 35

Slide 35 text

35 In silico創薬「バーチャルスクリーニング」 
 Snowflake Notebooks上でノイラミニダーゼ阻害薬「ラニナミビル」に類似した化合物 Top10をスクリーニングし、Streamlitで分子構 造を可視化した

Slide 36

Slide 36 text

36 SnowflakeでIn silico創薬をするメリット Snowflakeが用意する機械学習フレームワークを利用可能 Snowpark MLなどデータの移動や複雑なインフラの設定、ローカルでの環境構築が不要で迅速かつ 効率的な機械学習の実行が可能 大量の化合物データセットを効率よく格納 創薬プロセスにおいて必要となる大量の化合物データや生物学的データを一元管理が可能。めぼし い化合物を類縁体スクリーニングに素早くかける事ができる ハイコンピューティングリソースが要求される解析まで一貫して解析が可能 SPCSを利用すれば、 MDやドッキングシミュレーションといったハイコンピューティングリソースが要求 される解析までエンドツーエンドで解析することが可能

Slide 37

Slide 37 text

Other Topics

Slide 38

Slide 38 text

38 マルチオミクスを行う環境が簡単にセットアップ可能 ● 解析で用いる多種のデータが一元 管理可能 ● Snowflake NotebooksでSQLや Pythonを用いていつでも呼び出 し、組み合わせてマルチオミクス解 析ができる ● 公共データベースのデータを Snowflake内部に入れずとも外部 ステージとして管理できる 化合物などの ケモインフォマティクス データ VCFファイルなどの ゲノミクスデータ 公共データベース アノテーション用のステージ トランスクリプトーム解析 SPCSのイメージ管理 マルチオミクスにおけるメリット

Slide 39

Slide 39 text

最後に

Slide 40

Slide 40 text

40 各種SNSフォローしていただけると嬉しいです X(Twitter):@cs_dev_engineer Medium:@t.koreeda LinkedIn:@tkoreeda Zenn:@t_koreeda Zennでの発信例

Slide 41

Slide 41 text

THANK YOU