Finding a Protein Motif: Fetching Data and Using Regular Expressions

【第11回】ゼロから始めるゲノム解析（Python編） Finding a Protein Motif @kimoton

本勉強会の概要・目的書籍名対象者/目的 Mastering Python for Bioinformatics Python・バイオインフォ知識ほぼゼロの人を対象に、正しいPythonのコーディング手法について学ぶ
頻度毎週〜隔週開催予定登壇者募集中！

Rosalindとは • 問題解決を通じてバイオインフォマティクス、プログラミング、およびアルゴリズムを学習するためのプラットフォーム • 大学やハッカソン、就職の面接にも 600回以上の採用実績あり参考：https://qiita.com/_kimoton/items/d534d0fa9b83dd7dc412
概要

環境構築 - 必要パッケージ群のインストール # 公開されているレポジトリからファイル群を取得 $ git clone https://github.com/kyclark/biofx_python $
cd biofx_python # requirements.txt に記載のパッケージをインストール $ pip3 install -r requirements.txt # pylintの設定ファイルをホームディレクトリに移動 $ cp pylintrc ~/.pylintrc # mypyの設定ファイルをホームディレクトリに移動 $ cp mypy.ini ~/.mypy.ini

本日のお題タンパク質モチーフ配列の位置を出力せよ https://rosalind.info/problems/mprt/

• プログラムを用いてインターネットからデータをfetchする方法 • 正規表現を用いてタンパク質のモチーフを探索する方法 • マニュアルでタンパク質のモチーフを探索する方法本日学ぶこと

前提知識編

UniProtについて https://www.uniprot.org/ SIB Swiss Institute of BioinformaticsとEuropean Bioinformatics Institute が運営するタンパク質のアミノ酸配列お
よびその機能情報を提供する代表的なデータベース。タンパク質に関連するさまざまな情報を横断的・網羅的に調べることができる世界で最も広範なタンパク質の情報カタログ

UniProtのURL http://www.uniprot.org/uniprot/{uniprot_id} UniProtでは、タンパク質にユニークなアクセッションIDが割り振られており、詳細ページのURL、及びFASTAファイルのURLは以下のように対応している。 https://www.uniprot.org/uniprot/B5ZC00 http://www.uniprot.org/uniprot/{uniprot_id}.fasta https://www.uniprot.org/uniprot/B5ZC00.fasta

IDを元にUniProtのURLを作成 UniProtでは、タンパク質にユニークなアクセッションIDが割り振られており、 URLも以下のように対応している。 def main() -> None: args = get_args()
for prot_id in map(str.rstrip, args.file): print(f'http://www.uniprot.org/uniprot/{prot_id}') $ ./mprt.py tests/inputs/1.txt http://www.uniprot.org/uniprot/A2Z669 http://www.uniprot.org/uniprot/B5ZC00 http://www.uniprot.org/uniprot/P07204_TRBM_HUMAN http://www.uniprot.org/uniprot/P20840_SAG1_YEAST

FASTAファイルのダウンロード（bash） bashスクリプトによりファイルのダウンロードを自動化 #!/usr/bin/env bash if [[ $# -ne 1 ]];
then printf "usage: %s FILE\n" $(basename "$0") exit 1 fi OUT_DIR="fasta" [[ ! -d "$OUT_DIR" ]] && mkdir -p "$OUT_DIR" while read -r PROT_ID; do echo "$PROT_ID" URL="https://www.uniprot.org/uniprot/${PROT_ID}" OUT_FILE="$OUT_DIR/${PROT_ID}.fasta" wget -q -o "$OUT_FILE" "$URL" done < $1 1 1 PATH環境変数の通っている場所からbashを使用 2 2 引数の数「$#」が1でなければエラー終了 3 3 出力ディレクトリがなければ作成 4 4 ファイルの各行をPROT_IDとして格納 5 5 wgetコマンドでファイルをダウンロード

FASTAファイルのダウンロード（python） 1 2 4 1 出力ディレクトリがなければ作成 2 ファイルからIDを読み取り 5
3 requestsモジュールにより作成したURLにGETリクエストを投げる 3 4 ステータスコード200の場合、レスポンスをファイルに格納 5 200以外の場合、エラーメッセージを表示して継続

N-glycosylation モチーフの構造正規表現を用いて N [^P] [ST] [^P] で表される P以外 P以外
SorT https://prosite.expasy.org/PDOC00001

正規表現でN-glycosylationモチーフを表現 2つのN-glycosylationモチーフを持つ配列からN-glycosylationモチーフを取得 >>> seq = 'NNTSYS' >>> regex = re.compile('(?=(N[^P][ST][^P]))')
>>> regex.findall(seq) ['NNTS', 'NTSY'] >>> [match.start() + 1 for match in regex.finditer(seq)] [1, 2] マッチしたポジションを出力

解法編

解法１正規表現を用いてモチーフ探索 1 ファイルに記載されているID のFASTAファイルを取得 1 2 正規表現を作成 2 3 FASTAファイルをSeqIOモ
ジュールで読み込んでレコードがあればrecに格納 3 4 その配列に正規表現のマッチが存在すれば開始位置を出力 4

解法２マニュアルでモチーフ探索 1 2 1 モチーフがマッチしたインデックスを取得正規表現を使わず、条件式を用いて全てのkmerについて一致を確認 2 インデックスを1始まりに修正
3 IDとともに開始位置のリストをスペース区切りで出力

Finding a Protein Motif: Fetching Data and Usin...

Finding a Protein Motif: Fetching Data and Using Regular Expressions

nkimoto

More Decks by nkimoto

Other Decks in Programming

Featured

Transcript

【第11回】ゼロから始めるゲノム解析（Python編） Finding a Protein Motif @kimoton

本勉強会の概要・目的書籍名対象者/目的 Mastering Python for Bioinformatics Python・バイオインフォ知識ほぼゼロの人を対象に、正しいPythonのコーディング手法について学ぶ

環境構築 - 必要パッケージ群のインストール # 公開されているレポジトリからファイル群を取得 $ git clone https://github.com/kyclark/biofx_python $

本日のお題タンパク質モチーフ配列の位置を出力せよ https://rosalind.info/problems/mprt/

• プログラムを用いてインターネットからデータをfetchする方法 • 正規表現を用いてタンパク質のモチーフを探索する方法 • マニュアルでタンパク質のモチーフを探索する方法本日学ぶこと

前提知識編

UniProtについて https://www.uniprot.org/ SIB Swiss Institute of BioinformaticsとEuropean Bioinformatics Institute が運営するタンパク質のアミノ酸配列お

IDを元にUniProtのURLを作成 UniProtでは、タンパク質にユニークなアクセッションIDが割り振られており、 URLも以下のように対応している。 def main() -> None: args = get_args()

FASTAファイルのダウンロード（bash） bashスクリプトによりファイルのダウンロードを自動化 #!/usr/bin/env bash if [[ $# -ne 1 ]];

FASTAファイルのダウンロード（python） 1 2 4 1 出力ディレクトリがなければ作成 2 ファイルからIDを読み取り 5

N-glycosylation モチーフの構造正規表現を用いて N [^P] [ST] [^P] で表される P以外 P以外

正規表現でN-glycosylationモチーフを表現 2つのN-glycosylationモチーフを持つ配列からN-glycosylationモチーフを取得 >>> seq = 'NNTSYS' >>> regex = re.compile('(?=(N[^P][ST][^P]))')

解法編

解法１正規表現を用いてモチーフ探索 1 ファイルに記載されているID のFASTAファイルを取得 1 2 正規表現を作成 2 3 FASTAファイルをSeqIOモ

解法２マニュアルでモチーフ探索 1 2 1 モチーフがマッチしたインデックスを取得正規表現を使わず、条件式を用いて全てのkmerについて一致を確認 2 インデックスを1始まりに修正