Slide 1

Slide 1 text

Naoki Kimoto Friday, 11 Sep 2020 @_kimoton Computational Genomics with R ゼロから始めるゲノム解析

Slide 2

Slide 2 text

自己紹介 経歴 趣味 生命科学系学部卒
 →バイオベンチャー企業 →コンサル企業 ・バーピージャンプ ・チャーハン作り 野望 データサイエンティスト・機械学習エンジニア をバイオインフォ界隈に。 木本 直樹 (@_kimoton)

Slide 3

Slide 3 text

アンケート集計結果

Slide 4

Slide 4 text

Chapter 1. Introduction to Genomics ゲノミクス入門

Slide 5

Slide 5 text

おことわり 自分はゲノム研究の専門家ではありません。
 情報の信頼度はゲノム関連企業で働いた程度だと思って下さい。 ・ 質問は随時Meetsのコメントにてお願いします。 ・

Slide 6

Slide 6 text

1.1 Genes, DNA and central dogma 遺伝子、DNA、セントラルドグマ

Slide 7

Slide 7 text

各組織の細胞はそれぞれの役割に特化している 肝臓の細胞:毒素を分解する酵素の産生を助ける細胞 心臓の細胞:心臓を鼓動させる特殊な筋肉細胞 細胞の運命を決めている のが、みんな大好きDNA 幹細胞の組織への分化 人体の細胞:37兆個 Definition, Types, Uses, Function and Research (https://www.microscopemaster.com/stem-cells.html)

Slide 8

Slide 8 text

1.1.1 What is a genome? ゲノムとは何なのか。

Slide 9

Slide 9 text

ゲノム = 生物の設計図 すべての遺伝情報を含む生物の完全な DNA配列は、ゲノムと呼ばれます。 真核細胞では、DNAはタンパク質(ヒス トン)の周りを包み、クロマチンや染色 体を構成するヌクレオソームのような高 次構造を形成します(右図) ヌクレオソーム クロマチン クロマチン クロモソーム(伸ばした状態) クロモソーム consists of consists of ヌクレオソーム クロモソーム consists of クロマチン ゲノム解析の目的:ゲノム配列を読み、生物学的示唆を得る! ヌクレオソーム ヒストン, DNA ATCTCGATCTATCT.... TAGAGCTAGATAGA...

Slide 10

Slide 10 text

(補足)生物種間のゲノムサイズは異なる ヒト:30億塩基 大麦:150億塩基 How big are genomes? (http://book.bionumbers.org/how-big-are-genomes/)

Slide 11

Slide 11 text

ゲノムはどのように読むのか ゲノムを読む際の基本的な流れ 1. 対象のゲノム配列(DNA、RNA)を
 検体から抽出 2. 抽出した配列をバラバラにする (断片化) 3. 断片化した配列を読む 4.断片同士を並べる(アライメント) 5.バラバラにする前の配列を推測する The Cost of Sequencing a Human Genome (https://www.genome.gov/about-genomics/fact-sheets/Sequencing-Human-Genome-cost)

Slide 12

Slide 12 text

No content

Slide 13

Slide 13 text

ゲノムシーケンスのコストは劇的に落ちている 1999-2000年では$30億だった。 ↓ 2020年現在$1000を下回った。 コストが下がることにより生成される データ量は指数関数的に増加している。 データストレージのコストが増加、
 バイオインフォマティクス関連データ を扱える人材の需要も高まる。 チャンス!! 米国のマーケット別次世代シーケンシング市場 ヒトゲノム1検体のシーケンシングコスト変化 The Cost of Sequencing a Human Genome (https://www.genome.gov/about-genomics/fact-sheets/Sequencing-Human-Genome-cost) Next Generation Sequencing (NGS) Market Analysis And Segment Forecasts To 2022
 (https://healthcaremarketanalysis.wordpress.com/2016/03/21/next-generation-sequencing-ngs-market-analysis-and-segment-forecasts-to-2022/)

Slide 14

Slide 14 text

1.1.2 What is a gene? 遺伝子とは何なのか。

Slide 15

Slide 15 text

遺伝子の定義 機能的な転写産物をコード化するため に必要なすべての配列要素を含む1つま たは複数の領域(Eilbeck et al。2005) 単一のタンパク質または単一の触媒お よび構造RNA分子に対応するDNA配列 のセグメント(Alberts et al。2002) 遺伝子はすべての生物の 遺伝の基本単位である ゲノムの中には、遺伝産物がコードされている特定の領域がある。 この配列を遺伝子という。 コードする DNAは暗号のようなもの。
 あるゲノム配列が、ある遺伝情報を 持っていることを「コードする」 という。
 例)配列Aは遺伝子Aをコードする ヒトでは約5%!

Slide 16

Slide 16 text

AUGUGGCGA..... . WR...... A TGTGGCGA...... AUGUGGCGA..... WR...... 遺伝産物ができる流れ DNA 細胞分裂によってDNAの複製を行う RNA 活性化された遺伝子領域はRNAに転写される タンパク質 タンパク質をコードする遺伝子の場合、
 RNAはタンパク質に翻訳される これら一連の流れを分子生物学では
 「セントラルドグマ」と呼ぶ。 転写 翻訳 :3文字1セットで変換 :T→Uになる

Slide 17

Slide 17 text

遺伝子がなぜ重要なのか 細胞の刺激に対する振る舞いはそれらが コードされている遺伝子及び機能分子の 活性により支配される。 遺伝子発現(制御)によって 生物に関する全てが決定される。
 遺伝子がゲノム生物学の中心的な概念 遺伝子発現 単に発現ともいい、遺伝子の情報が 細胞における構造および機能(タン パク質)に変換される過程を指す 遺伝子発現制御 細胞が特定の遺伝子産物(タンパ ク質やRNA)の合成を増加または 減少させるメカニズムのこと いっぱい作る? 作るの止める?

Slide 18

Slide 18 text

1.1.3 How genes are controlled? 
 The transcriptional and 
 the post-transcriptional regulation
 遺伝子発現はどのように制御されるか。 転写及び転写後調節

Slide 19

Slide 19 text

DNAからRNAへの転写・転写調節 1. 3. 4. RNAポリメラーゼがある領域に結合 し、RNAの合成を開始 RNAポリメラーゼはテンプレートとなる DNAに沿って移動しpre-RNAを次々に作成 スプライシングによりpre-RNAはmRNAとし てタンパク質の鋳型となる RNAへの転写は、RNAポリメラーゼという 酵素によって行われる。
 DNA配列に特定の領域が存在することで RNAへの転写・転写の調節が可能となる。 どれだけRNAが作られるかは 転写制御・転写後調節次第!

Slide 20

Slide 20 text

転写後調節(スプライシング) エクソン エクソン DNAまたはRNAの塩基配列中で 成熟RNAに残る塩基配列 DNA
 (遺伝子領域) 転写 転写 スプライシング pre-RNA RNA イントロン 転写はされるが転写産物から
 スプライシング反応によって
 除去される塩基配列 イントロン スプライシングにより、 1つの遺伝子配列から多様なRNAが生まれる → 多様なタンパク質が生まれる pre-RNAには、タンパク質をコードする領域(エクソン)がゲノムDNA上に分断 されて存在している。転写後、この領域を選択的に繋ぎ合わせる操作が行われている

Slide 21

Slide 21 text

non-coding RNA (ncRNA) 生体中のRNAは、タンパク質に翻訳 されることなく機能構造をとるRNA がほとんど(96%)を占める これらは下記のような機能を持つ。 全RNA non-coding RNA 96% pre mRNA mRNA pre rRNA pre tRNA rRNA tRNA sncRNA lncRNA coding RNA 4% タンパク質翻訳を調節(rRNA, tRNA) 遺伝子発現を調節(sncRNA) ・ ・

Slide 22

Slide 22 text

1.1.4 What does a gene look like?
 遺伝子はどのように見えるか

Slide 23

Slide 23 text

DNA配列を可視化 この箱がエクソン ex) UCSC Genome Browser で BRCA1領域のDNA配列を可視化 この線がイントロン

Slide 24

Slide 24 text

DNA配列を可視化 ex) NCBI GenBankでBRCA1領域のDNA配列を検索

Slide 25

Slide 25 text

1.1 まとめ ゲノムとはすべての遺伝情報を含む生物の完全なDNA配列を指す ・ 遺伝子とはゲノムの中でも遺伝産物がコードされている特定の領 域を指す ・ 遺伝子の発現によって生命の振る舞いは規定される → 遺伝子はゲノム生物学の中心的な概念 ・ 生命はRNAへの転写を調節することにより遺伝子の発現量
 (RNA・タンパク質の生成)を制御している ・ 遺伝子はあくまで文字列(A、T、G、C)の集合 ・

Slide 26

Slide 26 text

1.2 Elements of gene regulation 遺伝子発現調節とは

Slide 27

Slide 27 text

遺伝子発現調節のメカニズム 転写調節 ・転写因子による調節 ・エピジェネティックな調節 転写後調節 ・スプライシング ・キャップの形成・ポリアデニル化 AAAAAA スプライシング AAAAAA pre-RNA mRNA DNAからpre-mRNAへの変換 pre-mRNAからmRNAへの変換

Slide 28

Slide 28 text

1.2.1 Transcriptional regulation 転写調節

Slide 29

Slide 29 text

転写因子による調節 転写因子は、特定のDNAモチーフを認識して調節領域に結合し、
 それらの協調作用が転写率を制御します。 ・コア プロモーター
 (RNAポリメラーゼが結合)
 ・エンハンサー(転写を活性化) ・サイレンサー(転写を抑制化) ・インスレーター(転写を安定化)

Slide 30

Slide 30 text

エピジェネティックな調節 エピジェネティック?
 遺伝子発現調節に影響を与えるDNA配列以外の構造
 (クロマチン構造、DNAメチル化等 ) i)DNA修飾 ・メチル化(CpG island等) ・ヒドロキシメチル化 ・ホルミル化 ii)ヒストン修飾 ・メチル化 ・アセチル化 ・リン酸化
 ・ユビキチン化 エピジェネティクス|環境儀 No.59|国立環境研究所
 (https://www.nies.go.jp/kanko/kankyogi/59/column2.html) ヒストンメチル化・アセチル化の例

Slide 31

Slide 31 text

1.2.2 Post-transcriptional regulation 転写後調節

Slide 32

Slide 32 text

スプライシング制御 ・スプライシングエンハンサー(ESE、ISE)
 スプライシングを促進する配列 ・スプライシングサイレンサー(ESS、ISS) スプライシングを抑制する配列 DNA 転写 スプライシング pre-RNA RNA スプライシングを調節することにより、
 タンパク質の多様性が生まれる。

Slide 33

Slide 33 text

non-coding RNAによる調整 long non-coding RNAs(lncRNA) クロマチン再構築因子と相互作用するこ とによりエピジェネティック制御に関与
 small-interferring RNAs(siRNA)
 Argonauteタンパク質と協力して標的遺 伝子を抑制
 
 などなど micro RNA(miRNA)
 相補的な配列を使用してターゲット遺伝 子と相互作用し分解を促進 Non-coding RNA - Wikipedia (https://en.wikipedia.org/wiki/Non-coding_RNA) ・ ・ ・

Slide 34

Slide 34 text

1.2 まとめ 遺伝子発現調節のメカニズムには、
 転写調節と転写後調節の2種類がある。 ・ 転写調節のメカニズムには、転写因子による調節とエピジェネ ティックな調節の2種類がある。 ・ 転写後調節のメカニズムには、スプライシングの制御と non-coding RNAによる調節の2種類がある。 ・

Slide 35

Slide 35 text

1.3 Shaping the genome: 
 DNA mutation ゲノムの形成:DNA変異

Slide 36

Slide 36 text

生物種間でゲノム配列は異なる チンパンジーとヒトのゲノムは 98.8%が相同。 1.2%の違いがチンパンジー
 とヒトを区別している。 Scientists discover protein factories hidden in human jumping genes (https://phys.org/news/2015-10-scientists-protein-factories-hidden-human.html)

Slide 37

Slide 37 text

生物種内でもゲノム配列は異なる 突然変異が起きることにより、同じ生物種間でもゲノム配列は異なる。 選択プロセスが適応を必要とする比較的孤立した環境で長時間続く場合、別の 種への進化に繋がる。遺伝子変異が起きるお陰で進化が可能となっている。 「自然淘汰」:個体群の生存拡大に有益な突然変異はやがて適応する

Slide 38

Slide 38 text

突然変異のメカニズム ゲノムの変異は、いくつかの理由で発生します。 DNA複製のミス : : 環境要因 : DNA修復のミス 10 ~ 10 塩基対に 1 回ミスをする 10 8 紫外線などの変異原はゲノムに変異を誘発する 毎日、人間の細胞は複数のDNA損傷を受けている。
 その度にDNA修復が行われるが、このプロセスでミスをする
 (DNA修復メカニズムによってエラー率は異なる) DNA polymerase II - Wikipedia (https://en.wikipedia.org/wiki/DNA_polymerase_II)

Slide 39

Slide 39 text

突然変異の種類 突然変異はその種類、サイズによって分けられます。 変異のサイズで分類することもできる 全ゲノム倍数化:全ゲノム単位での重複 点突然変異:1塩基が関与する変異 小規模突然変異:いくつかの塩基を含む突然変異 大規模突然変異:より大きな染色体領域を含む突然変異 異数性:染色体全体の挿入または削除 転座:DNA断片がゲノムの別の場所に移動する 挿入:ゲノムに新しい塩基が挿入される 遺伝子重複:DNA断片が重複する 欠失:ゲノムから塩基が欠失する 反転:DNA断片の向きが変わる Different types of DNA mutations (gene vs chromosomal). Their causes and the Ames test procedure.
 (https://biology.reachingfordreams.com/biology/molecular-genetics/18-gene-and-chromosomal-types-of-dna-mutations)

Slide 40

Slide 40 text

突然変異の種類(遺伝子機能への影響) 遺伝子産物が新しい分子機能または遺伝子発現の 新しいパターンを持っているような変異 タンパク質機能の低下または廃止をもたらす変異 B. 機能損失型変異(Loss-of-function mutation) A. 機能獲得型変異(Gain-of-function mutation)
 突然変異は遺伝子機能への影響によっても分けられます。

Slide 41

Slide 41 text

1.3 まとめ 生物種内・生物種間でゲノム配列は異なる。 ・ ゲノム配列が異なる原因は突然変異が蓄積した結果であり、 突然変異こそが進化の要因となっている。 ・ 変異はその種類、サイズ、遺伝子機能への影響によって分類が可能 ・

Slide 42

Slide 42 text

1.4 High-throughput experimental methods in genomics ゲノミクスにおけるハイスループットな実験法

Slide 43

Slide 43 text

ハイスループットとは…? 要するに、自動化、高速化により時間と経費が抑えられたハイテク評価系! > 時間と経費を節約するための高速化合物評価系。 何百万という化合物を 一つ一つ人の手でスクリーニングすれば,時間がかかるばかりでなく経 費が高くつく。化合物の評価系を単純化、ミニチュア化できる場合、ロ ボットを用いて自動的に高速で化合物を評価することで、時間と経費を 抑えられる。このようなハイテク評価系をハイスループットアッセイと いう。一方、単純化もしくはミニチュア化することができず、人の手に よって行なう職人的な評価系をロースループットアッセイという。 バイオキーワード集|実験医学onlineより引用

Slide 44

Slide 44 text

ハイスループットな実験法により分かること 新しい問いに答えるため、既存の手法の改良版が日々提案されている。 ・ どの遺伝子がどの程度発現しているか 転写因子はどこに結合するか? ・ ゲノム中でどの塩基がメチル化されているか? ・ どの転写産物が翻訳されるか? ・ RNA結合タンパク質はどこに結合するか? ・ ゲノムのどの部分が互いに接触しているか? ・ ゲノムの変異がどこにあるか? ・ ゲノムのどの部分がNucleosome-free(ヒス トンとヒストンの間の領域)なのか? ・

Slide 45

Slide 45 text

1.4.1 The general idea behind high-throughput techniques ハイスループット技術の背後にある考え

Slide 46

Slide 46 text

ex1. タンパク質をコードする遺伝子の発現を測定したい場合
 タンパク質をコードする遺伝子の転写後のmRNA分子を増幅 遺伝子発現とか、転写活性とか… ex2. ある遺伝子の転写因子結合を探している場合
 目的のタンパク質が結合しているDNAフラグメントを増幅 ステップ① 知りたい領域の配列をとってくる 生物学的イベントについて知りたい!! そもそもの目的: 観測したい生物学的イベントが起きた領域のゲノム配列を増幅する ① 目的のRNAまたはDNAフラグメントを検出可能なレベルGET!

Slide 47

Slide 47 text

ステップ② 取れた配列がどこの?どれくらい? 生成したフラグメントがゲノムのどこから来ているのか、どれだけあるのか を定量化する ② マイクロアレイ ハイスループット
 シーケンシング 2005年辺り 「プローブ」と呼ばれる
 相補的な配列を設計。 ・「プローブ」と呼ばれる
 相補的な配列を設計。 ・ ・遺伝物質を直接シーケンス ・ ・リファレンス配列に対して
 アライメントし、定量化 ・ ・実際のフラグメントに基づく 定量化が可能 ・ 蛍光強度から遺伝物質量が分かる ・ 設計したプローブに関してのみ定量化 ・ 「プローブ」とフラグメントが
 反応すると蛍光を発光 ・

Slide 48

Slide 48 text

マイクロアレイ画像の例 マイクロアレイとは マイクロアレイと呼ばれる機器に固定された多数のDNAプローブにサンプルの RNAを結合させる。DNAプローブとRNAの結合数が多い部分は強く蛍光し、結合 数が少ない部分は弱く蛍光する。各セルの蛍光強度の強さを測定することで、サ ンプル中の各RNAの発現量を解析できる。 引用:マイクロアレイとは?||マイクロアレイを用いた発現解析の原理と解析方法
 (https://www.thermofisher.com/blog/learning-at-the-bench/start-microarray/)

Slide 49

Slide 49 text

ハイスループットシーケンシングとは 次世代シーケンサーを用いた網羅的シーケンシング。 ランダムに切断された数千万–数億のDNA断片の塩基配列を同時並行で決定する ことができる。従来の手法と比較して、100倍のスループットを達成している。 Sequencing Platforms - イルミナ株式会社 (https://jp.illumina.com/systems/sequencing-platforms.html) Ion GeneStudio™ S5 System - Thermo Fisher Scientific (https://www.thermofisher.com/order/catalog/product/A38194)

Slide 50

Slide 50 text

ハイスループット技術による解析の流れ Extraction
 目的の遺伝物質(RNA or DNA)を抽出する Enrichment
 関心領域の配列を増幅する。 Quantification
 増幅した配列を定量化する。

Slide 51

Slide 51 text

1.4.2 High-throughput sequencing ハイスループットシーケンシング

Slide 52

Slide 52 text

ハイスループットゲノムシーケンシングの今後 父、母から引き継いだ配列の同定 PacBio Sequel Systems Oxford Nanopore Technologie MinION Long read sequencing - WEHI bioinformatics seminar - tue 16 june 2015 
 (https://www.slideshare.net/torstenseemann/long-read-sequencing-wehi-bioinformatics-seminar-tue-16-june-2015) Pacbio Sequel Systems - Pacbio (https://www.pacb.com/products-and-services/sequel-system/) Products - Oxford Nanopore Technologies (https://nanoporetech.com/products/minion) 特徴: より長いリード長を使って配列を読むことが可能 メリット: ロングリードシーケンシング 繰り返し配列が多い領域も正確に読み取り可能 ・ 構造変異を検出しやすい ・ が可能 ハプロタイプフェージング ・

Slide 53

Slide 53 text

ハイスループットゲノムシーケンシングの今後 メリット: 特徴:
 1細胞レベルでの発現変動を定量化可能 シングルセルシーケンシング 10X Genomics
 Chromium Single cell sequencing - Wikipedia (https://en.wikipedia.org/wiki/Single_cell_sequencing) Chromium Controller - 10x Genomics(https://www.10xgenomics.com/jp/instruments/chromium-controller/) より精緻なセルタイプの同定が可能になる ・ 微量のサンプルで検出が可能 ・

Slide 54

Slide 54 text

1.4 まとめ ハイスループットシーケンシングによるシーケンシングが可能と なったことにより、より高速な配列の解読が可能となった。 ・ ハイスループットシーケンシングの大きな流れは、抽出→増幅→定量化 ・ より長いリード長を使ったロングリードシーケンシング技術、より精緻 なシングルセルレベルでのシーケンシングにより、これまでの手法では 分からなかった生物学的示唆が見出されている。 ・

Slide 55

Slide 55 text

1.5 Visualization and data repositories for genomics ゲノミクスのための可視化とデータリポジトリ

Slide 56

Slide 56 text

ゲノムデータの可視化 ゲノムブラウザ用いると、下記のようなことがわかる シーケンスされたゲノムデータを持っており、そのゲノムデータにアノテー ションを付けたい場合、ゲノムブラウザを用いた可視化が有用となる。 アノテーションが付加された遺伝子のゲノム上の位置 保存配列、繰り返し配列、SNPの情報 遺伝子間の相互関係 ・ ・ ・

Slide 57

Slide 57 text

ゲノムブラウザいろいろ UCSC Genome Browser (http://genome.ucsc.edu/) Ensembl (http://www.ensembl.org/) IGV (http://software.broadinstitute.org/software/igv/) UCSC Table BrowserからデータDL可能

Slide 58

Slide 58 text

ハイスループットデータの公開データベース 通常、論文に使用されたデータは公開データベースに保存する必要がある。 Gene expression Omnibus (GEO)
 (http://www.ncbi.nlm.nih.gov/geo/) European nucleotide archive (ENA) (http://www.ebi.ac.uk/ena) 運営:EMBL-EBI 
 対象:核酸配列の一次データとそのアノテーション 運営:NCBI 
 対象:遺伝子発現情報(マイクロアレイ、RNA-seq)

Slide 59

Slide 59 text

特定の生物学領域や疾患に関するデータベース その他、独自の目的で構築されたデータベースが公開されている。 用途に応じて適切なデータベースを使い分けることが必要。 コンソーシアム名 転写因子結合部位、遺伝子発現およびエピゲノミクスデータ 複数のセルタイプに関するエピゲノミクスデータ 対象データ ENCODE Epigenomics Roadmap 複数のがんの種類に関する発現、変異、エピゲノミクスデータ 数千人の個人をシーケンシングして得られた人間の遺伝的変異データ The cancer genome atlas 1000 genomes project

Slide 60

Slide 60 text

1.5 まとめ ゲノムブラウザを用いると、遺伝子のゲノム上の位置とアノテー ション情報をグラフィカルに確認することができる。 ・ 現在、論文に使用されたデータは公開が義務付けられており、 それらはシーケンス後の配列データとして保管されている。 ・ コンソーシアムが主導となり、特定の目的で集められた データベースも存在している。 ・

Slide 61

Slide 61 text

Q & A

Slide 62

Slide 62 text

Q. 真核生物が主体ですが原核生物の話は? A. 転写後調節(スプライシング等)がない。
 発現の調節はおもに転写のレベルのみ。 ゲノムサイズ
 大腸菌:420万~470万塩基対 アメーバ:2,900億塩基対(ヒトの約100倍) 真核生物のように染色体構造は持っておらず、 1本のDNA分子が環状につながった単純な構造を持つ ・ ・ ・ 本資料は真核生物を対象としていますが、解析部分に関して基本 的な流れは変わりません。原核生物の解析を行う際に留意すべき 特徴は下記です。 既知の最大ゲノムを持った生物はアメーバ → ポリカオス・ドゥビウム (Polychaos dubium) 引用:Biology 10e Textbook (chapter 4, Pg: 63)

Slide 63

Slide 63 text

Q. ゲノムブラウザで可視化した際に何本もあるのは染色 体対の数を反映しているのか? A. それぞれがDNAにおけるスプライシングバリアントを示しています 。 スプライシングはpre-RNAに対して起きる現象ですが、pre-RNA自体は DNA中のT(チミン)がU(ウラシル)に変換された配列となっているた め、DNA上でスプライシングがバリアントを表現することができます 。
 因みにBRCA1遺伝子は17番染色体にあります 。

Slide 64

Slide 64 text

Q. エンハンサーの中にスプライシングを促進するもの とそもそもの転写を促進する2種類(多種類)あるのか A. スプライシングエンハンサーはエクソン内に存在するスプライシングを指 示・促進する配列のことを指します(6塩基からなるDNA配列)。 一般的にエンハンサーというと、遺伝子の上流、下流あるいは遺伝子内に 存在し、転写因子が結合することで遺伝子発現を促進するような配列のこ とを指します 。 以上から、スプライシングエンハンサーは一般的なエンハンサーの定義か らは少し異なったものと捉えるのが正しいかもしれません。

Slide 65

Slide 65 text

Q. 今の技術だと繰り返し配列のエラー率はどれくらいに なりますか? A. アセンブリの際のエラー率は、繰り返し配列の量・長さに依ります 。
 一般的に繰り返し配列はユニークな配列に対し、エラー率が高くなること が言われています 。 Repetitive DNA and next-generation sequencing: computational challenges and solutions
 https://pubmed.ncbi.nlm.nih.gov/22124482 参考:

Slide 66

Slide 66 text

Q. ロングリードシーケンスについて、PacBioはランニン グコストが高いが正確、Nonoporeは安いが不安定? A. PacBioは構造上分子を複数回シーケンスして高品質のデータを生成するこ とができるのに対し、ONTは分子を2回しかシーケンスできません。
 精度に関してはPacBioの方が高いといえます 。
 導入コストに関してPacBioは$350万~750万、ONTは$1000 のため、ONTの方が安価です(ライブラリのコストは同程度)。

Slide 67

Slide 67 text

Q. よく「ドラフトゲノム」という言葉を耳にするが、
 これは不完全に決定、という意味か? A. 多くのゲノム配列は繰り返し配列などの解読が困難な部分が多くをを占め ており、ゲノムアセンブリによって染色体への対応付けを含む全ゲノムの 完全な配列を決定することは膨大な労力と時間がかかります 。
 解読率が低く、配列が不連続であったり、正確に配列推定されていない概 要配列の状態でも、おおよその遺伝子情報は得ることができるため、この ようなデータを用いて研究を行うことが可能となります 。
 上記のような可能な範囲で全ゲノム配列を決定したリードのデータを「ド ラフトゲノム」と表現します 。