Upgrade to Pro — share decks privately, control downloads, hide ads and more …

アミノ酸の類似性スコアと その統計的評価ー安田健士郎

アミノ酸の類似性スコアと その統計的評価ー安田健士郎

Graduate School of Advanced Mathematical Sciences, Meiji University (Tokyo, Japan)
Network Design Program

Kenshiro Yasuda

安田健士郎

May 26, 2023
Tweet

More Decks by 安田健士郎

Other Decks in Education

Transcript

  1. 全体概要 配列アライメントの相同性を分析する際には、配列アライメントの類似性ス コアを算出し、そのスコアを元に統計的有意性の観点から評価していく。 文字対①:ACAGATCCGT・・・ 文字対②:ACGG--- CGT・・・ 配列アライメントの 類似性スコア 配列アライメントの 相同性評価

    配列アライメントにおける相同性を評価したい時のフロー • 配列アライメント:文字対比較のための配列(塩基対・アミノ酸対の比較) • 相同性:とあるアミノ酸配列や遺伝子の塩基配列が共通の祖先に由来すること 配列アライメント ➢ どのくらい類似しているか を計算してスコア化 ➢ 相同性があるかどうかを 統計的有意性で評価 4
  2. 配列アライメントの類似性スコア 配列アライメントの類似性スコアの構成要素は文字対ごとのスコアとギャッ プペナルティであり、進化過程の変化度合いを考慮して定義される。 • 配列アラインメントの類似性スコア ◦ 構成要素 ▪ 文字(塩基・アミノ酸)対ごとの類似性スコア ▪

    ギャップペナルティ 文字対①:ACAGATCCGT・・・ 文字対②:ACGG--- CGT・・・ 配列アライメントの 類似性スコア 配列アライメント • AとAの類似性スコア → +1 • CとCの類似性スコア → +1 • AとGの類似性スコア → -3 • GとGの類似性スコア → +1 • ギャップペナルティ → -2         ︙ それぞれのスコアは、各進化過程における 変化(置換)の度合いを考慮して定義される 6
  3. アミノ酸類似性スコア行列 (1/3) アミノ酸間の類似性スコアは置換の起こりやすさによって定義される。全て のアミノ酸(22種類)間の類似性スコアは行列形式でまとめることができる。 • アミノ酸間の類似性スコア ➢ アミノ酸間の置換の起こりやすさによって定義される ➢ スコアは類似性を比較するアミノ酸ごとにバラバラである

    ◦ 置換の起こりやすさがそれぞれ異なるため 全アミノ酸(22種類)間の類似性スコアを行列で一気にまとめてしまおう PAM行列 BLOSUM行列 BLOSUM行列のほんの一部分[1] [1] https://bio.davidson.edu/courses/genomics/2008/Simpson/Tutorial.html アミノ酸類似性スコア行列 7
  4. アミノ酸類似性スコア行列 (2/3) アミノ酸類似性スコア行列はアミノ酸a,bの類似性を定義した対称行列で、 各アミノ酸の出現確率と配列される確率の対数オッズによって算出される。 • アミノ酸類似性スコア行列:s(a, b) ◦ アミノ酸aとアミノ酸bの類似性を定義した行列 ◦

    対称行列である→ s(a, b) = s(b, a) ◦ スコアの定義は対数オッズによって定められる BLOSUM行列のほんの一部分[1] [1] https://bio.davidson.edu/courses/genomics/2008/Simpson/Tutorial.html s(A, N) = -2 s(N, A) = -2 s(N, D) = 1 s(D, N) = 1 対称行列の例 8
  5. アミノ酸類似性スコア行列 (3/3) アミノ酸類似性スコア行列はアミノ酸a,bの類似性を定義した対称行列で、 各アミノ酸の出現確率と配列される確率の対数オッズによって算出される。 • アミノ酸類似性スコア行列:s(a, b) ◦ アミノ酸aとアミノ酸bの類似性を定義した行列 ◦

    対称行列である→ s(a, b) = s(b, a) ◦ スコアの定義は対数オッズによって定められる アミノ酸aの出現確率 アミノ酸bの出現確率 アミノ酸a,bが配列アライメント で並べられる確率 s(a, b) >=0:類似性の高い組み合わせ s(a, b) <0:類似性の低い組み合わせ 対数オッズ 9
  6. PAM行列とBLOSUM行列 アミノ酸類似性スコア行列はPAM行列とBLOSUM行列の2種がある。それぞ れの違いは、置換確率を求めるために必要なデータの集め方の差異である。 • PAM行列とBLOSUM行列って? ◦ それぞれ、アミノ酸類似性スコア行列の1種 ◦ 2つの違いは、データの集め方の違い ▪

    p:アミノ酸の出現頻度 ▪ q:配列アライメントで並べられる確率 過去のタンパク質の 進化的な過程 近縁・遠縁の相同配列を広く含む 配列アラインメントDBから算出 PAM行列 BLOSUM行列 近縁なタンパク質ファミリーから 系統的に置換確率を算出 10
  7. ギャップペナルティ 配列内で一度に複数の塩基が挿入・欠損するケースがある。ギャップとして は挿入・欠損回数が少ないほうが望ましく、ペナルティの値にも影響する。 • 配列アライメントとして望ましいギャップとは ◦ 連続する複数の塩基が一度に挿入・欠損するケースがある ◦ 1回の挿入・欠損で説明がつくaの方がbより望ましいと言える ➢

    aを優遇するためのギャップペナルティ計算方法がある 文字対①:ACAGATCCGT 文字対②:ACGG CGT 配列アライメントa - - - 文字対①:ACAGATCCGT 文字対②:AC G G CGT 配列アライメントb - - - 1回の挿入・欠損 3回の挿入・欠損 → アフィンギャップ 12
  8. 論文概要 “Mining for class-specific motifs in protein sequence classification” 「タンパク質配列の分類におけるクラス固有のモチーフ探索」

    Satish M Srinivasan, Suleyman Vural, Brian R King, Chittibabu Guda PMID:23496846, BMC Bioinformatics 14, 96 (2013). https://doi.org/10.1186/1471-2105-14-96 • 目的: ◦ タンパク質配列を正確に分類し、分類に寄与する特定の配列特徴を明らかにする • 仮説: ◦ n-gramを利用することで、タンパク質配列の全体像を探索し、分類時にクラス を識別するための特異的なモチーフ(独自の配列パターン)を特定できると想定 • 目的に対する提案: ◦ 分類クラスにおける特異的なモチーフを特定するためのスコアリング関数を提案 • n-gram:任意の文字数で文字列を分割する手法・連続するn個の文字列 20
  9. Figure1 Figure1では、特定のn-gramの長さにて検出された特異的なn-gramの総数を 示している。置換を許容することで、多くの特異的なn-gramを得られる。 • x軸:n-gramの長さ(即ち、nの値) • y軸:特異的なn-gramsの検出総数 • 緑線:類似性にて置換を許容する場合 (BLOSUMで求めたスコアが正)

    • 赤線:類似性にて置換を許容しない場合 (特異的なn-gramと完全一致) “Number of n-grams generated before and after substitution as a function of n-gram length at a selection threshold of 5.” • 特定のn-gramの長さにおける、各クラスでの特異的なn-gramの検出総数をグラフ化 • n-gramの類似性において置換を許容することで、特異的なn-gramの数が増える ◦ 置換を許容しなかった場合に比べ約1.16~2.69倍を多く検出することが可能 ◦ 特異的なn-gramの数が増えると、各クラスの特徴がより明確になる!! 22
  10. Figure2 Figure2はスコアリング関数のn-gramの特異性分類におけるROC曲線を示し ている。結果として左上にプロットが落ち着き、分類予測精度は高かった スコアリング関数のn-gramの特異性分類 におけるROC曲線 • 閾値プロット:5~10の範囲でのDRの値 • x軸:FPR(偽陽性率) •

    y軸:TPR(感度・真陽性率・再現率) • ラベル:細胞小器官の10種(付録参照) “ROC curve showing the performance of the scoring function in predicting true positive and false positive n -grams.” • ほとんどのクラスの真の値がPositiveだったので、左上に寄った結果となった ◦ Positive:n-gramが細胞小器官の配列に含まれている 24
  11. Figure3 Figure3は特異性分類における本研究手法と従来手法(Wordspy)との性能比 較をROC曲線で示したものである。置換許容版の本研究手法が優れていた 従来の分類手法と本研究での手法を ROC曲線を使用して性能比較 • SF1:本研究手法(置換を許容する) • SF2:本研究手法(置換を許容しない) •

    Wordspy:従来手法              (辞書ベースの検索アルゴ) • Z-score:本研究で言うDRみたいな指標 “ROC curve comparing the performance of SF1, Wordspy and SF2” 【原著の誤植】SF1 Selection Threshold10→ • 置換を許容した本研究の提案手法が従来の分類手法より優れていることがわかった。 25
  12. Figure4 Figure4は実際のタンパク質配列にて、本研究で求めた特異的なn-gramを強 調させたものである。特異性の視覚化は、機能注釈や新たな分類に有用 “Protein sequences with mapped discriminative n -grams

    and non-discriminative regions masked with ‘X’.” • 特異的なn-gramの部分を赤文字、特異性を見出せなかった部分は黒文字でXと記載 • 異なるタンパク質ファミリーの中で特定のパターンが共有されているかが確認可能 • タンパク質の機能注釈や、新たなタンパク質の分類に有用である 26
  13. Figure5 Figure5は実際のタンパク質配列にて本手法の有用性があるかどうかを実験 したものである。全体的にどの閾値においても精度が高いので、有用性あり • a “ Average coverage across 50

    prosite families               for different selection thresholds.” 実際のタンパク質配列で得た特異性n-gram による、50クラスの閾値毎の分類成功率 • x軸:DRの閾値(4~12) • y軸:50クラスにおける分類成功率の平均 • Prositeという配列DBから得た特異n-gramが50クラスの分類を行えるかどうかを評価 • 理論的にはDRの閾値が増えると分類成功率が下がるが、本手法は横一線を保っている • 平均的にどの閾値でも90%を超えているので、本手法は大変有用性があると言える 27
  14. (参考)アラインメント周りの用語整理 解説キーワード:「アラインメント」、「ギャップ」、「類似性スコア」、 「ギャップペナルティ」 A C A G A T C

    C G T - A C G G - - - C G T G ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※ 一致(6個) 不一致(1個) ギャップ(4個) 一致  :+3 ←対ごとの類似性スコア 不一致 :−1 ←対ごとの類似性スコア ギャップ:−2 ←ギャップペナルティ |-2| 類似性スコア = 3×6+(-1)×1+(-2)×4        = 9        → どのくらい似てるか 配列アラインメント 配列アライメントのための 31
  15. (参考)Table1で登場した細胞小器官の日本語名称 細胞小器官の英称 文字コード 細胞小器官の日本語名称 Cytoskeleton CSK 細胞骨格 Cytoplasm CYT 細胞質

    Endoplasmic Reticulum END 小胞体 Extracellular EXC 細胞外器官←正直これはよくわからないです。 Golgi apparatus GOL ゴルジ体 Lysosome LYS リソソーム Mitochrondria MIT ミトコンドリア Nuclear NUC 核 Plasma membrane PLA 細胞膜 Perixosome POX ペルオキシソーム 32
  16. (参考)提案されたスコアリング関数について (2/2) • 判別比(DR): ◦ n-gramが各クラスにおいて特異的であるかを評価する指標 • 判別比(DR)の算出方法: ◦ 1:任意のn-gramの出現頻度数をそれぞれクラス毎において正規化させる

    ◦ 2:正規化出現頻度数を全クラス分並べる(例)[A, B, C] = [100, 20, 30] ◦ 3:出現頻度数の最高値以外の値の平均値を求める(例)(20 + 30)/2=25 ◦ 4:出現頻度数の最高値をその平均値で割る(例)(100 + 25)/2=4 仮に、特異的と認める閾値が3であった場合はDR=4>3なので、そのn-gramは正規化 出現頻度数最高値が所属するクラスにおいて特異的であると判定できる!!! 34