AWSで挑むゲノム解析 : 普段使わない技術を知ろう
by
Yasutaka OHMURA
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
AWSで挑むゲノム解析 普段使わない技術を知ろう 2024.7.5 AWS事業本部 ⼤村 保貴
Slide 2
Slide 2 text
Xへの投稿の際は、 ハッシュタグ #devio2024 でお願いいたします。 2 お願い
Slide 3
Slide 3 text
⽬次 1. ⾃⼰紹介 2. ゲノム解析ってなんだ? 3. ゲノム解析のアプリ 4. AWSを活⽤したゲノム解析ソリューション 5. まとめ 3
Slide 4
Slide 4 text
⾃⼰紹介 4 大村 保貴 クラスメソッド株式会社 AWS事業本部 コンサルティング部 ソリューションアーキテクト 仕事 ● エンプラ企業を中心に技術支援 受賞 ● 2024 Japan AWS Top Engineers ● 2024 Japan AWS All Certifications Engineers 好きな公園 ● 中島公園、モエレ沼公園
Slide 5
Slide 5 text
ゲノム解析ってなんだ? 5
Slide 6
Slide 6 text
⽣物のソースコード(DNA)を解読し、 機能を解明、仕組みを理解するプロセス 6
Slide 7
Slide 7 text
⽣物素⼈には疑問があった 7
Slide 8
Slide 8 text
疑問 どうやってDNAをコンピュータで処理するの? 8 出典: DNA 二重らせん C © DBCLS TogoTV (CC-BY-4.0) 0111000001100010000 1110000101010001111 1000010101111110100 0001110101011110000
Slide 9
Slide 9 text
ITエンジニア向け 今⽇使うところだけDNA講座 9
Slide 10
Slide 10 text
DNA DNAの⼆重らせん構造 10 出典: DNA 二重らせん C © DBCLS TogoTV (CC-BY-4.0)
Slide 11
Slide 11 text
4つの塩基 構成する物質は4つ ・Adenine (アデニン) ・Thymine (チミン) ・Guanine (グアニン) ・Cytosine (シトシン) 11
Slide 12
Slide 12 text
4つの塩基 構成する物質は4つ、ペアは2通り ・Adenine (アデニン) ・Thymine (チミン) ・Guanine (グアニン) ・Cytosine (シトシン) 12
Slide 13
Slide 13 text
塩基対 2つ物質がペア(対)になっています 13 出典: DNA 二重らせん C © DBCLS TogoTV (CC-BY-4.0)
Slide 14
Slide 14 text
この並びのことを塩基配列と呼びます 塩基配列 14 A T G C G A G ・Adenine (アデニン) ・Thymine (チミン) ・Guanine (グアニン) ・Cytosine (シトシン) 画像の左端のみ利用 出典: DNA 二重らせん C © DBCLS TogoTV (CC-BY-4.0)
Slide 15
Slide 15 text
復習終了 🎉 15
Slide 16
Slide 16 text
コンピュータで扱うには デジタルデータに変換しないと 話がはじまらない 16
Slide 17
Slide 17 text
この並びを文字列情報として扱いたい ⽂字列データへ変換 17 A T G C G A G 画像の左端のみ利用 出典: DNA 二重らせん C © DBCLS TogoTV (CC-BY-4.0)
Slide 18
Slide 18 text
文字列情報に変換できる専用マシンがある シーケンシング 18 A T G C G A G 前処理 出典: 次世代シーケンサー8_1 © DBCLS TogoTV (CC-BY-4.0) 出典: ナノポアDNAシーケンシングの原理 © DBCLS TogoTV (CC-BY-4.0)
Slide 19
Slide 19 text
FASTQ形式のテキストファイルが手に入る ⽂字列データへ変換 19 .fastq
Slide 20
Slide 20 text
これらと同じくらいよく見かける拡張子 ⽂字列データへ変換 20 .txt .xls .pdf .json .zip .csv .jpg
Slide 21
Slide 21 text
⽂字列データへの変換 21 素人が読み取るには難しい
Slide 22
Slide 22 text
DNAの塩基配列がテキストファイルになった ⽂字列データへ変換 22 A T G C G A G .fastq 画像の左端のみ利用 出典: DNA 二重らせん C © DBCLS TogoTV (CC-BY-4.0)
Slide 23
Slide 23 text
コンピュータの出番だ 23
Slide 24
Slide 24 text
ゲノム解析のアプリ 24
Slide 25
Slide 25 text
解析アプリは多様多種 25
Slide 26
Slide 26 text
バイオインフォマティクス 26 出典: nf-core/rnaseq © nf-core(CC-BY-4.0) 適材適所でいろんなアプリを実⾏します
Slide 27
Slide 27 text
バイオインフォマティクス アプリケーションはOSSのことが多いです 27
Slide 28
Slide 28 text
アプリの実⾏環境構築が⼀苦労 28
Slide 29
Slide 29 text
バイオインフォマティクス 29
Slide 30
Slide 30 text
しかし、それでも⼤変 30
Slide 31
Slide 31 text
コンテナだ 31
Slide 32
Slide 32 text
バイオインフォマティクス 32 Apptainer 出典: Docker icons created by Freepik - Flaticon
Slide 33
Slide 33 text
バイオインフォマティクス 実はECRからも提供されています 33
Slide 34
Slide 34 text
⼀例を紹介 34
Slide 35
Slide 35 text
ゲノムアセンブリ 35 コピー シュレッダー シュレッダー 細切れになった (.fastq)
Slide 36
Slide 36 text
ヒトゲノムの場合 36 A T G C G A G 出典: DNA 二重らせん C © DBCLS TogoTV (CC-BY-4.0) … 約30億文字続く
Slide 37
Slide 37 text
細かく切っていた 37 画像トリミング 出典: DNA 二重らせん C © DBCLS TogoTV (CC-BY-4.0)
Slide 38
Slide 38 text
ゲノムアセンブリ 38 コピー シュレッダー シュレッダー 重複した紙の断⽚ 元の紙へ復元を試みる
Slide 39
Slide 39 text
他にもいろいろあります 39
Slide 40
Slide 40 text
AWSを活⽤した ゲノム解析ソリューション 40
Slide 41
Slide 41 text
AWSのサービス 41 AWS ParallelCluster AWS Batch AWS HealthOmics Amazon EC2 ゲノム解析に使いやすいサービスは4つ
Slide 42
Slide 42 text
AWSのサービス 42 Amazon Genomics CLI 2024年5⽉31⽇にEoLを迎えました
Slide 43
Slide 43 text
AWSのサービス 43 AWS ParallelCluster AWS Batch AWS HealthOmics Amazon EC2 汎用 特化 HPC(スパコン)
Slide 44
Slide 44 text
AWSのサービス 44 AWS ParallelCluster AWS Batch AWS HealthOmics Amazon EC2 Self-service Managed
Slide 45
Slide 45 text
AWSのサービス 45 AWS ParallelCluster AWS Batch AWS HealthOmics Amazon EC2 スケールできない スケールできる
Slide 46
Slide 46 text
AWSのサービス 46 AWS ParallelCluster AWS Batch AWS HealthOmics Amazon EC2 コンテナも動かせる コンテナ必須
Slide 47
Slide 47 text
AWSのサービス 47 AWS ParallelCluster AWS Batch AWS HealthOmics Amazon EC2 Apptainer コンテナも動かせる Docker コンテナのみ対応
Slide 48
Slide 48 text
AWSのサービス 48 Amazon EC2 Pros ・導入がお手軽 Cons ・スケールしたかったら自前で実装 汎用
Slide 49
Slide 49 text
AWSのサービス 49 AWS ParallelCluster Pros ・オンプレのスパコンライクな使用感 ・EC2なのでカスタマイズ可能 ・Apptainer コンテナ実行も対応可 Cons ・EC2インスタンスの管理が発生 HPC(スパコン)
Slide 50
Slide 50 text
AWSのサービス 50 AWS Batch Pros ・モダンな設計になったスパコン ・ユーザーが管理するリソースが少ない Cons ・アプリは Docker コンテナ化必須 ・Apptainer 非対応 HPC(スパコン)
Slide 51
Slide 51 text
AWSのサービス 51 AWS HealthOmics Pros ・研究者などの現場の方に優しい設計 ・AWSの学習コストを下げるために抽象化 Cons ・アプリは Docker コンテナ化必須 ・Apptainer 非対応 ・スポットインスタンス非対応 ・東京リージョン非対応 特化
Slide 52
Slide 52 text
まとめ 52
Slide 53
Slide 53 text
まとめ ・DNAは文字列情報になるのでコンピュータで処理可能 ・ゲノム解析アプリはOSSが多い ・EC2の様なサーバーか、コンテナが動けば解析できる 53
Slide 54
Slide 54 text
やる気になればできる 54
Slide 55
Slide 55 text
55
Slide 56
Slide 56 text
参考 ● https://www.env.go.jp/chemi/rhm/h29kisoshiryo/h29kiso-03-02-02.html ● https://www.jst.go.jp/pr/announce/20070310/index.html ● https://www.megabank.tohoku.ac.jp/genome/archives/447 56
Slide 57
Slide 57 text
No content
Slide 58
Slide 58 text
58