Finding a Protein Motif: Fetching Data and Using Regular Expressions

by nkimoto

Slide 1

Slide 1 text

【第11回】ゼロから始めるゲノム解析（Python編） Finding a Protein Motif @kimoton

Slide 2

Slide 2 text

本勉強会の概要・目的書籍名対象者/目的 Mastering Python for Bioinformatics Python・バイオインフォ知識ほぼゼロの人を対象に、正しいPythonのコーディング手法について学ぶ頻度毎週〜隔週開催予定登壇者募集中！

Slide 3

Slide 3 text

Rosalindとは ● 問題解決を通じてバイオインフォマティクス、プログラミング、およびアルゴリズムを学習するためのプラットフォーム ● 大学やハッカソン、就職の面接にも 600回以上の採用実績あり参考：https://qiita.com/_kimoton/items/d534d0fa9b83dd7dc412 概要

Slide 4

Slide 4 text

環境構築 - 必要パッケージ群のインストール # 公開されているレポジトリからファイル群を取得 $ git clone https://github.com/kyclark/biofx_python $ cd biofx_python # requirements.txt に記載のパッケージをインストール $ pip3 install -r requirements.txt # pylintの設定ファイルをホームディレクトリに移動 $ cp pylintrc ~/.pylintrc # mypyの設定ファイルをホームディレクトリに移動 $ cp mypy.ini ~/.mypy.ini

Slide 5

Slide 5 text

本日のお題タンパク質モチーフ配列の位置を出力せよ https://rosalind.info/problems/mprt/

Slide 6

Slide 6 text

● プログラムを用いてインターネットからデータをfetchする方法 ● 正規表現を用いてタンパク質のモチーフを探索する方法 ● マニュアルでタンパク質のモチーフを探索する方法本日学ぶこと

Slide 7

Slide 7 text

前提知識編

Slide 8

Slide 8 text

UniProtについて https://www.uniprot.org/ SIB Swiss Institute of BioinformaticsとEuropean Bioinformatics Institute が運営するタンパク質のアミノ酸配列およびその機能情報を提供する代表的なデータベース。タンパク質に関連するさまざまな情報を横断的・網羅的に調べることができる世界で最も広範なタンパク質の情報カタログ

Slide 9

Slide 9 text

UniProtのURL http://www.uniprot.org/uniprot/{uniprot_id} UniProtでは、タンパク質にユニークなアクセッションIDが割り振られており、詳細ページのURL、及びFASTAファイルのURLは以下のように対応している。 https://www.uniprot.org/uniprot/B5ZC00 http://www.uniprot.org/uniprot/{uniprot_id}.fasta https://www.uniprot.org/uniprot/B5ZC00.fasta

Slide 10

Slide 10 text

IDを元にUniProtのURLを作成 UniProtでは、タンパク質にユニークなアクセッションIDが割り振られており、 URLも以下のように対応している。 def main() -> None: args = get_args() for prot_id in map(str.rstrip, args.file): print(f'http://www.uniprot.org/uniprot/{prot_id}') $ ./mprt.py tests/inputs/1.txt http://www.uniprot.org/uniprot/A2Z669 http://www.uniprot.org/uniprot/B5ZC00 http://www.uniprot.org/uniprot/P07204_TRBM_HUMAN http://www.uniprot.org/uniprot/P20840_SAG1_YEAST

Slide 11

Slide 11 text

FASTAファイルのダウンロード（bash） bashスクリプトによりファイルのダウンロードを自動化 #!/usr/bin/env bash if [[ $# -ne 1 ]]; then printf "usage: %s FILE\n" $(basename "$0") exit 1 fi OUT_DIR="fasta" [[ ! -d "$OUT_DIR" ]] && mkdir -p "$OUT_DIR" while read -r PROT_ID; do echo "$PROT_ID" URL="https://www.uniprot.org/uniprot/${PROT_ID}" OUT_FILE="$OUT_DIR/${PROT_ID}.fasta" wget -q -o "$OUT_FILE" "$URL" done < $1 1 1 PATH環境変数の通っている場所からbashを使用 2 2 引数の数「$#」が1でなければエラー終了 3 3 出力ディレクトリがなければ作成 4 4 ファイルの各行をPROT_IDとして格納 5 5 wgetコマンドでファイルをダウンロード

Slide 12

Slide 12 text

FASTAファイルのダウンロード（python） 1 2 4 1 出力ディレクトリがなければ作成 2 ファイルからIDを読み取り 5 3 requestsモジュールにより作成したURLにGETリクエストを投げる 3 4 ステータスコード200の場合、レスポンスをファイルに格納 5 200以外の場合、エラーメッセージを表示して継続

Slide 13

Slide 13 text

N-glycosylation モチーフの構造正規表現を用いて N [^P] [ST] [^P] で表される P以外 P以外 SorT https://prosite.expasy.org/PDOC00001

Slide 14

Slide 14 text

正規表現でN-glycosylationモチーフを表現 2つのN-glycosylationモチーフを持つ配列からN-glycosylationモチーフを取得 >>> seq = 'NNTSYS' >>> regex = re.compile('(?=(N[^P][ST][^P]))') >>> regex.findall(seq) ['NNTS', 'NTSY'] >>> [match.start() + 1 for match in regex.finditer(seq)] [1, 2] マッチしたポジションを出力

Slide 15

Slide 15 text

解法編

Slide 16

Slide 16 text

解法１正規表現を用いてモチーフ探索 1 ファイルに記載されているID のFASTAファイルを取得 1 2 正規表現を作成 2 3 FASTAファイルをSeqIOモジュールで読み込んでレコードがあればrecに格納 3 4 その配列に正規表現のマッチが存在すれば開始位置を出力 4

Slide 17

Slide 17 text

解法２マニュアルでモチーフ探索 1 2 1 モチーフがマッチしたインデックスを取得正規表現を使わず、条件式を用いて全てのkmerについて一致を確認 2 インデックスを1始まりに修正 3 IDとともに開始位置のリストをスペース区切りで出力