【第1回】ゼロから始めるゲノム解析（R編）

Naoki Kimoto Friday, 11 Sep 2020 @_kimoton Computational Genomics with
R ゼロから始めるゲノム解析

自己紹介経歴趣味生命科学系学部卒  →バイオベンチャー企業 →コンサル企業・バーピージャンプ・チャーハン作り野望データサイエンティスト・機械学習エンジニア
をバイオインフォ界隈に。木本直樹 (@_kimoton)

アンケート集計結果

Chapter 1. Introduction to Genomics ゲノミクス入門

おことわり自分はゲノム研究の専門家ではありません。  情報の信頼度はゲノム関連企業で働いた程度だと思って下さい。・質問は随時Meetsのコメントにてお願いします。・

1.1 Genes, DNA and central dogma 遺伝子、DNA、セントラルドグマ

各組織の細胞はそれぞれの役割に特化している肝臓の細胞：毒素を分解する酵素の産生を助ける細胞心臓の細胞：心臓を鼓動させる特殊な筋肉細胞細胞の運命を決めているのが、みんな大好きDNA 幹細胞の組織への分化人体の細胞：37兆個 Definition, Types, Uses,
Function and Research (https://www.microscopemaster.com/stem-cells.html)

1.1.1 What is a genome? ゲノムとは何なのか。

ゲノム = 生物の設計図すべての遺伝情報を含む生物の完全な DNA配列は、ゲノムと呼ばれます。真核細胞では、DNAはタンパク質（ヒストン）の周りを包み、クロマチンや染色体を構成するヌクレオソームのような高次構造を形成します（右図）ヌクレオソーム
クロマチンクロマチンクロモソーム（伸ばした状態）クロモソーム consists of consists of ヌクレオソームクロモソーム consists of クロマチンゲノム解析の目的：ゲノム配列を読み、生物学的示唆を得る！ヌクレオソームヒストン, DNA ATCTCGATCTATCT.... TAGAGCTAGATAGA...

（補足）生物種間のゲノムサイズは異なるヒト：30億塩基大麦：150億塩基 How big are genomes? (http://book.bionumbers.org/how-big-are-genomes/)

ゲノムはどのように読むのかゲノムを読む際の基本的な流れ 1. 対象のゲノム配列（DNA、RNA）を  検体から抽出 2. 抽出した配列をバラバラにする（断片化） 3. 断片化した配列を読む
4.断片同士を並べる（アライメント） 5.バラバラにする前の配列を推測する The Cost of Sequencing a Human Genome (https://www.genome.gov/about-genomics/fact-sheets/Sequencing-Human-Genome-cost)

ゲノムシーケンスのコストは劇的に落ちている 1999-2000年では$30億だった。 ↓ 2020年現在$1000を下回った。コストが下がることにより生成されるデータ量は指数関数的に増加している。データストレージのコストが増加、  バイオインフォマティクス関連データを扱える人材の需要も高まる。チャンス！！
米国のマーケット別次世代シーケンシング市場ヒトゲノム1検体のシーケンシングコスト変化 The Cost of Sequencing a Human Genome (https://www.genome.gov/about-genomics/fact-sheets/Sequencing-Human-Genome-cost) Next Generation Sequencing (NGS) Market Analysis And Segment Forecasts To 2022  (https://healthcaremarketanalysis.wordpress.com/2016/03/21/next-generation-sequencing-ngs-market-analysis-and-segment-forecasts-to-2022/)

1.1.2 What is a gene? 遺伝子とは何なのか。

遺伝子の定義機能的な転写産物をコード化するために必要なすべての配列要素を含む1つまたは複数の領域（Eilbeck et al。2005）単一のタンパク質または単一の触媒および構造RNA分子に対応するDNA配列のセグメント（Alberts et
al。2002）遺伝子はすべての生物の遺伝の基本単位であるゲノムの中には、遺伝産物がコードされている特定の領域がある。この配列を遺伝子という。コードする DNAは暗号のようなもの。  あるゲノム配列が、ある遺伝情報を持っていることを「コードする」という。  例）配列Aは遺伝子Aをコードするヒトでは約５％！

AUGUGGCGA..... . WR...... A TGTGGCGA...... AUGUGGCGA..... WR...... 遺伝産物ができる流れ DNA 細胞分裂によってDNAの複製を行う
RNA 活性化された遺伝子領域はRNAに転写されるタンパク質タンパク質をコードする遺伝子の場合、  RNAはタンパク質に翻訳されるこれら一連の流れを分子生物学では  「セントラルドグマ」と呼ぶ。転写翻訳：3文字1セットで変換：T→Uになる

遺伝子がなぜ重要なのか細胞の刺激に対する振る舞いはそれらがコードされている遺伝子及び機能分子の活性により支配される。遺伝子発現（制御）によって生物に関する全てが決定される。  遺伝子がゲノム生物学の中心的な概念遺伝子発現単に発現ともいい、遺伝子の情報が細胞における構造および機能（タン
パク質）に変換される過程を指す遺伝子発現制御細胞が特定の遺伝子産物（タンパク質やRNA）の合成を増加または減少させるメカニズムのこといっぱい作る？作るの止める？

1.1.3 How genes are controlled?   The transcriptional and  
the post-transcriptional regulation  遺伝子発現はどのように制御されるか。転写及び転写後調節

DNAからRNAへの転写・転写調節 1. 3. 4. RNAポリメラーゼがある領域に結合し、RNAの合成を開始 RNAポリメラーゼはテンプレートとなる DNAに沿って移動しpre-RNAを次々に作成スプライシングによりpre-RNAはmRNAとしてタンパク質の鋳型となる
RNAへの転写は、RNAポリメラーゼという酵素によって行われる。  DNA配列に特定の領域が存在することで RNAへの転写・転写の調節が可能となる。どれだけRNAが作られるかは転写制御・転写後調節次第！

転写後調節（スプライシング）エクソンエクソン DNAまたはRNAの塩基配列中で成熟RNAに残る塩基配列 DNA  （遺伝子領域）転写転写スプライシング
pre-RNA RNA イントロン転写はされるが転写産物から  スプライシング反応によって  除去される塩基配列イントロンスプライシングにより、 1つの遺伝子配列から多様なRNAが生まれる → 多様なタンパク質が生まれる pre-RNAには、タンパク質をコードする領域（エクソン）がゲノムDNA上に分断されて存在している。転写後、この領域を選択的に繋ぎ合わせる操作が行われている

non-coding RNA (ncRNA) 生体中のRNAは、タンパク質に翻訳されることなく機能構造をとるRNA がほとんど（96%）を占めるこれらは下記のような機能を持つ。全RNA non-coding RNA
96% pre mRNA mRNA pre rRNA pre tRNA rRNA tRNA sncRNA lncRNA coding RNA 4% タンパク質翻訳を調節（rRNA, tRNA）遺伝子発現を調節（sncRNA）・・

1.1.4 What does a gene look like?  遺伝子はどのように見えるか

DNA配列を可視化この箱がエクソン ex) UCSC Genome Browser で BRCA1領域のDNA配列を可視化この線がイントロン

DNA配列を可視化 ex) NCBI GenBankでBRCA1領域のDNA配列を検索

1.1 まとめゲノムとはすべての遺伝情報を含む生物の完全なDNA配列を指す・遺伝子とはゲノムの中でも遺伝産物がコードされている特定の領域を指す・遺伝子の発現によって生命の振る舞いは規定される → 遺伝子はゲノム生物学の中心的な概念
・生命はRNAへの転写を調節することにより遺伝子の発現量  （RNA・タンパク質の生成）を制御している・遺伝子はあくまで文字列（A、T、G、C）の集合・

1.2 Elements of gene regulation 遺伝子発現調節とは

遺伝子発現調節のメカニズム転写調節・転写因子による調節・エピジェネティックな調節転写後調節・スプライシング・キャップの形成・ポリアデニル化 AAAAAA スプライシング AAAAAA
pre-RNA mRNA DNAからpre-mRNAへの変換 pre-mRNAからmRNAへの変換

1.2.1 Transcriptional regulation 転写調節

転写因子による調節転写因子は、特定のDNAモチーフを認識して調節領域に結合し、  それらの協調作用が転写率を制御します。・コアプロモーター  （RNAポリメラーゼが結合）  ・エンハンサー（転写を活性化）・サイレンサー（転写を抑制化）・インスレーター（転写を安定化）

エピジェネティックな調節エピジェネティック？  遺伝子発現調節に影響を与えるDNA配列以外の構造  （クロマチン構造、DNAメチル化等） i）DNA修飾・メチル化（CpG island等）・ヒドロキシメチル化・ホルミル化
ii）ヒストン修飾・メチル化・アセチル化・リン酸化  ・ユビキチン化エピジェネティクス｜環境儀 No.59｜国立環境研究所  （https://www.nies.go.jp/kanko/kankyogi/59/column2.html）ヒストンメチル化・アセチル化の例

1.2.2 Post-transcriptional regulation 転写後調節

スプライシング制御・スプライシングエンハンサー（ESE、ISE）  スプライシングを促進する配列・スプライシングサイレンサー（ESS、ISS）スプライシングを抑制する配列 DNA 転写スプライシング pre-RNA RNA
スプライシングを調節することにより、  タンパク質の多様性が生まれる。

non-coding RNAによる調整 long non-coding RNAs（lncRNA）クロマチン再構築因子と相互作用することによりエピジェネティック制御に関与  small-interferring RNAs（siRNA）  Argonauteタンパク質と協力して標的遺
伝子を抑制    などなど micro RNA（miRNA）  相補的な配列を使用してターゲット遺伝子と相互作用し分解を促進 Non-coding RNA - Wikipedia (https://en.wikipedia.org/wiki/Non-coding_RNA) ・・・

1.2 まとめ遺伝子発現調節のメカニズムには、  転写調節と転写後調節の2種類がある。・転写調節のメカニズムには、転写因子による調節とエピジェネティックな調節の2種類がある。・転写後調節のメカニズムには、スプライシングの制御と non-coding
RNAによる調節の2種類がある。・

1.3 Shaping the genome:   DNA mutation ゲノムの形成：DNA変異

生物種間でゲノム配列は異なるチンパンジーとヒトのゲノムは 98.8%が相同。 1.2％の違いがチンパンジー  とヒトを区別している。 Scientists discover protein factories hidden
in human jumping genes (https://phys.org/news/2015-10-scientists-protein-factories-hidden-human.html)

生物種内でもゲノム配列は異なる突然変異が起きることにより、同じ生物種間でもゲノム配列は異なる。選択プロセスが適応を必要とする比較的孤立した環境で長時間続く場合、別の種への進化に繋がる。遺伝子変異が起きるお陰で進化が可能となっている。「自然淘汰」：個体群の生存拡大に有益な突然変異はやがて適応する

突然変異のメカニズムゲノムの変異は、いくつかの理由で発生します。 DNA複製のミス：：環境要因： DNA修復のミス 10 ～
10 塩基対に 1 回ミスをする 10 8 紫外線などの変異原はゲノムに変異を誘発する毎日、人間の細胞は複数のDNA損傷を受けている。  その度にDNA修復が行われるが、このプロセスでミスをする  （DNA修復メカニズムによってエラー率は異なる） DNA polymerase II - Wikipedia (https://en.wikipedia.org/wiki/DNA_polymerase_II)

突然変異の種類突然変異はその種類、サイズによって分けられます。変異のサイズで分類することもできる全ゲノム倍数化：全ゲノム単位での重複点突然変異：1塩基が関与する変異小規模突然変異：いくつかの塩基を含む突然変異大規模突然変異：より大きな染色体領域を含む突然変異異数性：染色体全体の挿入または削除転座：DNA断片がゲノムの別の場所に移動する挿入：ゲノムに新しい塩基が挿入される
遺伝子重複：DNA断片が重複する欠失：ゲノムから塩基が欠失する反転：DNA断片の向きが変わる Different types of DNA mutations (gene vs chromosomal). Their causes and the Ames test procedure.  (https://biology.reachingfordreams.com/biology/molecular-genetics/18-gene-and-chromosomal-types-of-dna-mutations)

突然変異の種類（遺伝子機能への影響）遺伝子産物が新しい分子機能または遺伝子発現の新しいパターンを持っているような変異タンパク質機能の低下または廃止をもたらす変異 B. 機能損失型変異（Loss-of-function mutation） A. 機能獲得型変異（Gain-of-function mutation） 
突然変異は遺伝子機能への影響によっても分けられます。

1.3 まとめ生物種内・生物種間でゲノム配列は異なる。・ゲノム配列が異なる原因は突然変異が蓄積した結果であり、突然変異こそが進化の要因となっている。・変異はその種類、サイズ、遺伝子機能への影響によって分類が可能・

1.4 High-throughput experimental methods in genomics ゲノミクスにおけるハイスループットな実験法

ハイスループットとは…？要するに、自動化、高速化により時間と経費が抑えられたハイテク評価系！ > 時間と経費を節約するための高速化合物評価系。何百万という化合物を一つ一つ人の手でスクリーニングすれば，時間がかかるばかりでなく経費が高くつく。化合物の評価系を単純化、ミニチュア化できる場合、ロボットを用いて自動的に高速で化合物を評価することで、時間と経費を抑えられる。このようなハイテク評価系をハイスループットアッセイという。一方、単純化もしくはミニチュア化することができず、人の手に
よって行なう職人的な評価系をロースループットアッセイという。バイオキーワード集｜実験医学onlineより引用

ハイスループットな実験法により分かること新しい問いに答えるため、既存の手法の改良版が日々提案されている。・どの遺伝子がどの程度発現しているか転写因子はどこに結合するか？・ゲノム中でどの塩基がメチル化されているか？・どの転写産物が翻訳されるか？・
RNA結合タンパク質はどこに結合するか？・ゲノムのどの部分が互いに接触しているか？・ゲノムの変異がどこにあるか？・ゲノムのどの部分がNucleosome-free（ヒストンとヒストンの間の領域）なのか？・

1.4.1 The general idea behind high-throughput techniques ハイスループット技術の背後にある考え

ex1. タンパク質をコードする遺伝子の発現を測定したい場合  タンパク質をコードする遺伝子の転写後のmRNA分子を増幅遺伝子発現とか、転写活性とか… ex2. ある遺伝子の転写因子結合を探している場合  目的のタンパク質が結合しているDNAフラグメントを増幅ステップ① 知りたい領域の配列をとってくる生物学的イベントについて知りたい！！
そもそもの目的：観測したい生物学的イベントが起きた領域のゲノム配列を増幅する ① 目的のRNAまたはDNAフラグメントを検出可能なレベルGET！

ステップ② 取れた配列がどこの？どれくらい？生成したフラグメントがゲノムのどこから来ているのか、どれだけあるのかを定量化する ② マイクロアレイハイスループット  シーケンシング 2005年辺り「プローブ」と呼ばれる 
相補的な配列を設計。・「プローブ」と呼ばれる  相補的な配列を設計。・・遺伝物質を直接シーケンス・・リファレンス配列に対して  アライメントし、定量化・・実際のフラグメントに基づく定量化が可能・蛍光強度から遺伝物質量が分かる・設計したプローブに関してのみ定量化・「プローブ」とフラグメントが  反応すると蛍光を発光・

マイクロアレイ画像の例マイクロアレイとはマイクロアレイと呼ばれる機器に固定された多数のDNAプローブにサンプルの RNAを結合させる。DNAプローブとRNAの結合数が多い部分は強く蛍光し、結合数が少ない部分は弱く蛍光する。各セルの蛍光強度の強さを測定することで、サンプル中の各RNAの発現量を解析できる。引用：マイクロアレイとは？｜｜マイクロアレイを用いた発現解析の原理と解析方法  （https://www.thermofisher.com/blog/learning-at-the-bench/start-microarray/）

ハイスループットシーケンシングとは次世代シーケンサーを用いた網羅的シーケンシング。ランダムに切断された数千万–数億のDNA断片の塩基配列を同時並行で決定することができる。従来の手法と比較して、100倍のスループットを達成している。 Sequencing Platforms - イルミナ株式会社 (https://jp.illumina.com/systems/sequencing-platforms.html) Ion
GeneStudio™ S5 System - Thermo Fisher Scientific (https://www.thermofisher.com/order/catalog/product/A38194)

ハイスループット技術による解析の流れ Extraction  目的の遺伝物質(RNA or DNA)を抽出する Enrichment  関心領域の配列を増幅する。 Quantification  増幅した配列を定量化する。

1.4.2 High-throughput sequencing ハイスループットシーケンシング

ハイスループットゲノムシーケンシングの今後父、母から引き継いだ配列の同定 PacBio Sequel Systems Oxford Nanopore Technologie MinION Long
read sequencing - WEHI bioinformatics seminar - tue 16 june 2015   (https://www.slideshare.net/torstenseemann/long-read-sequencing-wehi-bioinformatics-seminar-tue-16-june-2015) Pacbio Sequel Systems - Pacbio (https://www.pacb.com/products-and-services/sequel-system/) Products - Oxford Nanopore Technologies (https://nanoporetech.com/products/minion) 特徴：より長いリード長を使って配列を読むことが可能メリット：ロングリードシーケンシング繰り返し配列が多い領域も正確に読み取り可能・構造変異を検出しやすい・が可能ハプロタイプフェージング・

ハイスループットゲノムシーケンシングの今後メリット：特徴：  1細胞レベルでの発現変動を定量化可能シングルセルシーケンシング 10X Genomics  Chromium Single cell
sequencing - Wikipedia (https://en.wikipedia.org/wiki/Single_cell_sequencing) Chromium Controller - 10x Genomics(https://www.10xgenomics.com/jp/instruments/chromium-controller/) より精緻なセルタイプの同定が可能になる・微量のサンプルで検出が可能・

1.4 まとめハイスループットシーケンシングによるシーケンシングが可能となったことにより、より高速な配列の解読が可能となった。・ハイスループットシーケンシングの大きな流れは、抽出→増幅→定量化・より長いリード長を使ったロングリードシーケンシング技術、より精緻なシングルセルレベルでのシーケンシングにより、これまでの手法では分からなかった生物学的示唆が見出されている。
・

1.5 Visualization and data repositories for genomics ゲノミクスのための可視化とデータリポジトリ

ゲノムデータの可視化ゲノムブラウザ用いると、下記のようなことがわかるシーケンスされたゲノムデータを持っており、そのゲノムデータにアノテーションを付けたい場合、ゲノムブラウザを用いた可視化が有用となる。アノテーションが付加された遺伝子のゲノム上の位置保存配列、繰り返し配列、SNPの情報遺伝子間の相互関係・・・

ゲノムブラウザいろいろ UCSC Genome Browser (http://genome.ucsc.edu/) Ensembl (http://www.ensembl.org/) IGV (http://software.broadinstitute.org/software/igv/) UCSC
Table BrowserからデータDL可能

ハイスループットデータの公開データベース通常、論文に使用されたデータは公開データベースに保存する必要がある。 Gene expression Omnibus (GEO)  (http://www.ncbi.nlm.nih.gov/geo/) European nucleotide archive
(ENA) (http://www.ebi.ac.uk/ena) 運営：EMBL-EBI   対象：核酸配列の一次データとそのアノテーション運営：NCBI   対象：遺伝子発現情報（マイクロアレイ、RNA-seq）

特定の生物学領域や疾患に関するデータベースその他、独自の目的で構築されたデータベースが公開されている。用途に応じて適切なデータベースを使い分けることが必要。コンソーシアム名転写因子結合部位、遺伝子発現およびエピゲノミクスデータ複数のセルタイプに関するエピゲノミクスデータ対象データ ENCODE Epigenomics Roadmap
複数のがんの種類に関する発現、変異、エピゲノミクスデータ数千人の個人をシーケンシングして得られた人間の遺伝的変異データ The cancer genome atlas 1000 genomes project

1.5 まとめゲノムブラウザを用いると、遺伝子のゲノム上の位置とアノテーション情報をグラフィカルに確認することができる。・現在、論文に使用されたデータは公開が義務付けられており、それらはシーケンス後の配列データとして保管されている。・コンソーシアムが主導となり、特定の目的で集められたデータベースも存在している。
・

Q. 真核生物が主体ですが原核生物の話は？ A. 転写後調節（スプライシング等）がない。  発現の調節はおもに転写のレベルのみ。ゲノムサイズ  大腸菌：420万～470万塩基対アメーバ：2,900億塩基対（ヒトの約100倍）真核生物のように染色体構造は持っておらず、１本のＤＮＡ分子が環状につながった単純な構造を持つ
・・・本資料は真核生物を対象としていますが、解析部分に関して基本的な流れは変わりません。原核生物の解析を行う際に留意すべき特徴は下記です。既知の最大ゲノムを持った生物はアメーバ → ポリカオス・ドゥビウム (Polychaos dubium) 引用：Biology 10e Textbook (chapter 4, Pg: 63)

Q. ゲノムブラウザで可視化した際に何本もあるのは染色体対の数を反映しているのか？ A. それぞれがDNAにおけるスプライシングバリアントを示しています。スプライシングはpre-RNAに対して起きる現象ですが、pre-RNA自体は DNA中のT（チミン）がU（ウラシル）に変換された配列となっているため、DNA上でスプライシングがバリアントを表現することができます。 
因みにBRCA1遺伝子は17番染色体にあります。

Q. エンハンサーの中にスプライシングを促進するものとそもそもの転写を促進する2種類(多種類)あるのか A. スプライシングエンハンサーはエクソン内に存在するスプライシングを指示・促進する配列のことを指します（6塩基からなるDNA配列）。一般的にエンハンサーというと、遺伝子の上流、下流あるいは遺伝子内に存在し、転写因子が結合することで遺伝子発現を促進するような配列のことを指します。
以上から、スプライシングエンハンサーは一般的なエンハンサーの定義からは少し異なったものと捉えるのが正しいかもしれません。

Q. 今の技術だと繰り返し配列のエラー率はどれくらいになりますか？ A. アセンブリの際のエラー率は、繰り返し配列の量・長さに依ります。  一般的に繰り返し配列はユニークな配列に対し、エラー率が高くなることが言われています。 Repetitive
DNA and next-generation sequencing: computational challenges and solutions  https://pubmed.ncbi.nlm.nih.gov/22124482 参考：

Q. ロングリードシーケンスについて、PacBioはランニングコストが高いが正確、Nonoporeは安いが不安定？ A. PacBioは構造上分子を複数回シーケンスして高品質のデータを生成することができるのに対し、ONTは分子を2回しかシーケンスできません。  精度に関してはPacBioの方が高いといえます。  導入コストに関してPacBioは$350万～750万、ONTは$1000 のため、ONTの方が安価です（ライブラリのコストは同程度）。

Q. よく「ドラフトゲノム」という言葉を耳にするが、  これは不完全に決定、という意味か？ A. 多くのゲノム配列は繰り返し配列などの解読が困難な部分が多くをを占めており、ゲノムアセンブリによって染色体への対応付けを含む全ゲノムの完全な配列を決定することは膨大な労力と時間がかかります。  解読率が低く、配列が不連続であったり、正確に配列推定されていない概要配列の状態でも、おおよその遺伝子情報は得ることができるため、この
ようなデータを用いて研究を行うことが可能となります。  上記のような可能な範囲で全ゲノム配列を決定したリードのデータを「ドラフトゲノム」と表現します。

【第1回】ゼロから始めるゲノム解析（R編）

【第1回】ゼロから始めるゲノム解析（R編）

More Decks by nkimoto

Other Decks in Science

Featured

Transcript