Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2018年度 化学工学特論2 第9回

2018年度 化学工学特論2 第9回

前回の達成目標
今回の達成目標
化学構造の表現形式
分子を扱う一般的な流れ
SMILES 形式
MOL file 形式
Python で分子を扱ってみよう!
2つの分子はどれくらい似ているか?
分子間の類似度の計算手順
たくさんの分子、そしてその活性・物性も!
分子の数値化
今後のお話の概要

Hiromasa Kaneko

January 27, 2019
Tweet

More Decks by Hiromasa Kaneko

Other Decks in Technology

Transcript

  1. 化学構造の表現形式 SMILES (すまいるず) MOL file (もるふぁいる) InChI (いんち) InChIKey (いんちきー)

    など、たくさん・・・ • それぞれメリット・デメリット 今回は MOL file と SMILES を扱う ただし、(この道の研究者以外は) 表現形式を覚える必要はない • こんな感じで化学構造を表現できるんだ、くらいで聞いてもらえたら • 必要になったら調べる、くらいでよいです • 便利な形式変換ソフト (フリー) もあります Open Babel: http://openbabel.org/wiki/Main_Page 3
  2. 分⼦を扱う⼀般的な流れ 1. 化学構造描画ソフトを使って分⼦を描画 • MarvinSketch, ChemDraw, ChemSketch など 2. 化学構造描画ソフトを使って

    MOL file 形式で化学構造を保存 • 1. 2. の代わりに、公共データベース [1,2] からデータを入手することも 3. Python で MOL file を扱う • 分⼦を⾒る • 複数の分⼦をまとめる • 分⼦を数値化する • 2つの分⼦の間の類似度を計算する • SMILES に変換する • 化学構造に物性情報を付け加える 4 [1] ChEMBL (けんぶる): https://www.ebi.ac.uk/chembl/ [2] PubChem (ぱぶけむ): https://pubchem.ncbi.nlm.nih.gov/
  3. SMILES 形式 Simplified Molecular Input Line Entry System ⼀列の⽂字列で化学構造を表現 •

    エタノール: CCO • シクロヘキサン: C1CCCCC1 • ベンゼン: c1ccccc1 • アラニン: CC(N)C(=O)O • トランス-2-ブテン: C/C=C/C • シス-2-ブテン: C/C=C¥C 少ない情報量 (ファイルの容量) で表現可能 三次元情報は表現できない • シクロヘキサンの⽴体配座は判別できない 参考: https://en.wikipedia.org/wiki/Simplified_molecular-input_line-entry_system 5
  4. 分⼦間の類似度の計算手順 1. 分⼦を fingerprint (ふぃんがーぷりんと) で表現  fingerprint (直訳すると︖) 2.

    Fingerprint の間で tanimoto 係数 (= 類似度) の計算  2つの分⼦で fingerprint の 1 が共通しているほど、似ている︕ 10 (0, 1, 0, 0, 1, 0, 0, 1, …, 0, 0) 分⼦ a と 分⼦ b で共通する 1 の数 a の 1 の数 + b の 1 の数 − a と b で共通する 1 の数 分⼦ a : (0, 1, 0, 0, 1, 1, 0) 分⼦ b : (1, 1, 0, 1, 1, 0, 0) 2 3 + 4 − 2 = 0.4
  5. 分⼦の数値化 化学構造をどうやって数値化するか もちろん fingerprint でも OK もう少し意味のある数値化として、構造記述⼦ • 分⼦量、部分構造 (-OH

    とか) の数、・・・、原⼦間の距離、・・・、 van der waals 体積、、、 これで、実験計画法に組みこめる︕ 12
  6. 今後のお話の概要 変数がたくさんあるけど、重要なのってどれか分かる︖ → LASSO(線形), RF(非線形) 30 くらいのサンプルで構築した回帰モデルを使って、何千ものサンプルの y の値を、本当に精度よく推定できるの︖ →

    モデルの適用範囲 モデルの適用範囲を考慮して、次の実験候補を探すには︖ → GP, ベイズ最適化 y が連続値ではなく、何かのカテゴリーのときで、回帰分析が できないときは︖ → クラス分類︓LDA, SVM 14