Slide 1

Slide 1 text

AWSで挑むゲノム解析 普段使わない技術を知ろう 2024.7.5 AWS事業本部 ⼤村 保貴

Slide 2

Slide 2 text

Xへの投稿の際は、 ハッシュタグ #devio2024 でお願いいたします。 2 お願い

Slide 3

Slide 3 text

⽬次 1. ⾃⼰紹介 2. ゲノム解析ってなんだ? 3. ゲノム解析のアプリ 4. AWSを活⽤したゲノム解析ソリューション 5. まとめ 3

Slide 4

Slide 4 text

⾃⼰紹介 4 大村 保貴 クラスメソッド株式会社 AWS事業本部 コンサルティング部 ソリューションアーキテクト 仕事 ● エンプラ企業を中心に技術支援 受賞 ● 2024 Japan AWS Top Engineers ● 2024 Japan AWS All Certifications Engineers 好きな公園 ● 中島公園、モエレ沼公園

Slide 5

Slide 5 text

ゲノム解析ってなんだ? 5

Slide 6

Slide 6 text

⽣物のソースコード(DNA)を解読し、 機能を解明、仕組みを理解するプロセス 6

Slide 7

Slide 7 text

⽣物素⼈には疑問があった 7

Slide 8

Slide 8 text

疑問 どうやってDNAをコンピュータで処理するの? 8 出典: DNA 二重らせん C © DBCLS TogoTV (CC-BY-4.0) 0111000001100010000 1110000101010001111 1000010101111110100 0001110101011110000

Slide 9

Slide 9 text

ITエンジニア向け 今⽇使うところだけDNA講座 9

Slide 10

Slide 10 text

DNA DNAの⼆重らせん構造 10 出典: DNA 二重らせん C © DBCLS TogoTV (CC-BY-4.0)

Slide 11

Slide 11 text

4つの塩基 構成する物質は4つ ・Adenine (アデニン) ・Thymine (チミン) ・Guanine (グアニン) ・Cytosine (シトシン) 11

Slide 12

Slide 12 text

4つの塩基 構成する物質は4つ、ペアは2通り ・Adenine (アデニン) ・Thymine (チミン) ・Guanine (グアニン) ・Cytosine (シトシン) 12

Slide 13

Slide 13 text

塩基対 2つ物質がペア(対)になっています 13 出典: DNA 二重らせん C © DBCLS TogoTV (CC-BY-4.0)

Slide 14

Slide 14 text

この並びのことを塩基配列と呼びます 塩基配列 14 A T G C G A G ・Adenine (アデニン) ・Thymine (チミン) ・Guanine (グアニン) ・Cytosine (シトシン) 画像の左端のみ利用 出典: DNA 二重らせん C © DBCLS TogoTV (CC-BY-4.0)

Slide 15

Slide 15 text

復習終了 🎉 15

Slide 16

Slide 16 text

コンピュータで扱うには デジタルデータに変換しないと 話がはじまらない 16

Slide 17

Slide 17 text

この並びを文字列情報として扱いたい ⽂字列データへ変換 17 A T G C G A G 画像の左端のみ利用 出典: DNA 二重らせん C © DBCLS TogoTV (CC-BY-4.0)

Slide 18

Slide 18 text

文字列情報に変換できる専用マシンがある シーケンシング 18 A T G C G A G 前処理 出典: 次世代シーケンサー8_1 © DBCLS TogoTV (CC-BY-4.0) 出典: ナノポアDNAシーケンシングの原理 © DBCLS TogoTV (CC-BY-4.0)

Slide 19

Slide 19 text

FASTQ形式のテキストファイルが手に入る ⽂字列データへ変換 19 .fastq

Slide 20

Slide 20 text

これらと同じくらいよく見かける拡張子 ⽂字列データへ変換 20 .txt .xls .pdf .json .zip .csv .jpg

Slide 21

Slide 21 text

⽂字列データへの変換 21 素人が読み取るには難しい

Slide 22

Slide 22 text

DNAの塩基配列がテキストファイルになった ⽂字列データへ変換 22 A T G C G A G .fastq 画像の左端のみ利用 出典: DNA 二重らせん C © DBCLS TogoTV (CC-BY-4.0)

Slide 23

Slide 23 text

コンピュータの出番だ 23

Slide 24

Slide 24 text

ゲノム解析のアプリ 24

Slide 25

Slide 25 text

解析アプリは多様多種 25

Slide 26

Slide 26 text

バイオインフォマティクス 26 出典: nf-core/rnaseq © nf-core(CC-BY-4.0) 適材適所でいろんなアプリを実⾏します

Slide 27

Slide 27 text

バイオインフォマティクス アプリケーションはOSSのことが多いです 27

Slide 28

Slide 28 text

アプリの実⾏環境構築が⼀苦労 28

Slide 29

Slide 29 text

バイオインフォマティクス 29

Slide 30

Slide 30 text

しかし、それでも⼤変 30

Slide 31

Slide 31 text

コンテナだ 31

Slide 32

Slide 32 text

バイオインフォマティクス 32 Apptainer 出典: Docker icons created by Freepik - Flaticon

Slide 33

Slide 33 text

バイオインフォマティクス 実はECRからも提供されています 33

Slide 34

Slide 34 text

⼀例を紹介 34

Slide 35

Slide 35 text

ゲノムアセンブリ 35 コピー シュレッダー シュレッダー 細切れになった (.fastq)

Slide 36

Slide 36 text

ヒトゲノムの場合 36 A T G C G A G 出典: DNA 二重らせん C © DBCLS TogoTV (CC-BY-4.0) … 約30億文字続く

Slide 37

Slide 37 text

細かく切っていた 37 画像トリミング 出典: DNA 二重らせん C © DBCLS TogoTV (CC-BY-4.0)

Slide 38

Slide 38 text

ゲノムアセンブリ 38 コピー シュレッダー シュレッダー 重複した紙の断⽚ 元の紙へ復元を試みる

Slide 39

Slide 39 text

他にもいろいろあります 39

Slide 40

Slide 40 text

AWSを活⽤した ゲノム解析ソリューション 40

Slide 41

Slide 41 text

AWSのサービス 41 AWS ParallelCluster AWS Batch AWS HealthOmics Amazon EC2 ゲノム解析に使いやすいサービスは4つ

Slide 42

Slide 42 text

AWSのサービス 42 Amazon Genomics CLI 2024年5⽉31⽇にEoLを迎えました

Slide 43

Slide 43 text

AWSのサービス 43 AWS ParallelCluster AWS Batch AWS HealthOmics Amazon EC2 汎用 特化 HPC(スパコン)

Slide 44

Slide 44 text

AWSのサービス 44 AWS ParallelCluster AWS Batch AWS HealthOmics Amazon EC2 Self-service Managed

Slide 45

Slide 45 text

AWSのサービス 45 AWS ParallelCluster AWS Batch AWS HealthOmics Amazon EC2 スケールできない スケールできる

Slide 46

Slide 46 text

AWSのサービス 46 AWS ParallelCluster AWS Batch AWS HealthOmics Amazon EC2 コンテナも動かせる コンテナ必須

Slide 47

Slide 47 text

AWSのサービス 47 AWS ParallelCluster AWS Batch AWS HealthOmics Amazon EC2 Apptainer コンテナも動かせる Docker コンテナのみ対応

Slide 48

Slide 48 text

AWSのサービス 48 Amazon EC2 Pros ・導入がお手軽 Cons ・スケールしたかったら自前で実装 汎用

Slide 49

Slide 49 text

AWSのサービス 49 AWS ParallelCluster Pros ・オンプレのスパコンライクな使用感 ・EC2なのでカスタマイズ可能 ・Apptainer コンテナ実行も対応可 Cons ・EC2インスタンスの管理が発生 HPC(スパコン)

Slide 50

Slide 50 text

AWSのサービス 50 AWS Batch Pros ・モダンな設計になったスパコン ・ユーザーが管理するリソースが少ない Cons ・アプリは Docker コンテナ化必須 ・Apptainer 非対応 HPC(スパコン)

Slide 51

Slide 51 text

AWSのサービス 51 AWS HealthOmics Pros ・研究者などの現場の方に優しい設計 ・AWSの学習コストを下げるために抽象化 Cons ・アプリは Docker コンテナ化必須 ・Apptainer 非対応 ・スポットインスタンス非対応 ・東京リージョン非対応 特化

Slide 52

Slide 52 text

まとめ 52

Slide 53

Slide 53 text

まとめ ・DNAは文字列情報になるのでコンピュータで処理可能 ・ゲノム解析アプリはOSSが多い ・EC2の様なサーバーか、コンテナが動けば解析できる 53

Slide 54

Slide 54 text

やる気になればできる 54

Slide 55

Slide 55 text

55

Slide 56

Slide 56 text

参考 ● https://www.env.go.jp/chemi/rhm/h29kisoshiryo/h29kiso-03-02-02.html ● https://www.jst.go.jp/pr/announce/20070310/index.html ● https://www.megabank.tohoku.ac.jp/genome/archives/447 56

Slide 57

Slide 57 text

No content

Slide 58

Slide 58 text

58