Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第6回ケモインフォマティクス若手の会-初学者のための勉強会資料
Search
yamasakih
November 08, 2017
Science
1.6k
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
第6回ケモインフォマティクス若手の会-初学者のための勉強会資料
yamasakih
November 08, 2017
More Decks by yamasakih
See All by yamasakih
構造活性フォーラム2023-山﨑担当分
yamasakih
0
550
第6回ケモインフォマティクス若手の会-山崎発表
yamasakih
0
470
Other Decks in Science
See All in Science
20260220 OpenIDファウンデーション・ジャパン ご紹介 / 20260220 OpenID Foundation Japan Intro
oidfj
0
360
水耕栽培を始める前に知っておきたい植物の科学
grow_design_lab
0
250
不動産業界における業界特化のデータ整備とAI活用 ─Vertical DataとVertical AI─
estie
1
680
20260410_SystemsThinking
takusamar
1
110
俺たちは本当に分かり合えるのか? ~ PdMとスクラムチームの “ずれ” を科学する
bonotake
2
2.4k
防災デジタル分野での官民共創の取り組み (1)防災DX官民共創をどう進めるか
ditccsugii
0
670
Distributional Regression
tackyas
0
540
フィードフォワードニューラルネットワークを用いた記号入出力制御系に対する制御器設計 / Controller Design for Augmented Systems with Symbolic Inputs and Outputs Using Feedforward Neural Network
konakalab
0
140
TypeScript で WebAssembly を用いた 型安全なプラグイン設計
nagano
2
530
力学系から見た現代的な機械学習
hanbao
4
4.3k
大黒市で発生した大規模インシデント の ポストモーテムから読み解く、 記憶媒体消去の大切さ
shucho0103
0
190
SHINOMIYA Nariyoshi
genomethica
0
150
Featured
See All Featured
Un-Boring Meetings
codingconduct
0
320
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
170
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
210
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.3k
Making the Leap to Tech Lead
cromwellryan
135
9.9k
Designing for humans not robots
tammielis
254
26k
The agentic SEO stack - context over prompts
schlessera
0
820
Done Done
chrislema
186
16k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
540
BBQ
matthewcrist
89
10k
SEO for Brand Visibility & Recognition
aleyda
0
4.6k
The Limits of Empathy - UXLibs8
cassininazir
1
370
Transcript
ケモメトリックス解析の流れ ① 化学構造データの表現・保存 ② 化学構造データの利⽤ 1 データベース 構造検索 統計解析 化学構造
線形表記など CC(=O)Oc1ccccc1C(=O)O (Graphics is uploaded originally by TAX IMAGES, Derek Gavey, and reynermedia)
ケモメトリックス解析の流れ ① 化学構造データの表現・保存 ② 化学構造データの利⽤ 2 データベース 構造検索 統計解析 化学構造
線形表記など CC(=O)Oc1ccccc1C(=O)O (Graphics is uploaded originally by TAX IMAGES, Derek Gavey, and reynermedia) 化学構造を表現しデータベースに保存するまで
ケモメトリックス解析の流れ ① 化学構造データの表現・保存 ② 化学構造データの利⽤ 3 データベース 構造検索 統計解析 化学構造
線形表記など CC(=O)Oc1ccccc1C(=O)O (Graphics is uploaded originally by TAX IMAGES, Derek Gavey, and reynermedia) 保存されたデータを特定の条件で検索し取り出した後 統計解析を⾏う(この資料ではここの解説はなし)。
資料の流れ 4 化学構造データの 表現・保存 データベース 化学構造データの 利⽤ まとめ 構造検索 化学構造の表現・保存
総括 統計解析 ケモインフォマティクスツール
化学構造の表現・保存 ① 化学構造データの表現・保存 5 (Graphics is uploaded by TAX IMAGES originally)
データベース 化学構造 線形表記など CC(=O)Oc1ccccc1C(=O)O
化学構造の表現・保存 6 (Graphics is uploaded by TAX IMAGES originally) データベース
化学構造 CC(=O)Oc1ccccc1C(=O)O 化学構造を表現・保存するときに望ましくないこと Ø 同じ化学構造を別の化学構造と認識してしまう。 Ø 別の化学構造を同じ化学構造と認識してしまう。
どうしている? 例えば、アスピリンの化学構造を コンピュータはどうやって表現・保存している? Ø 画像? Ø 組成式? コンピュータでは 次に⽰すような表記法で表現・保存している。 7
表現・保存⽅法 Ø 線形表記法 (linear notation) Ø 結合表 (connection table)
Ø CML (Chemical Markup Language) 8
線形表記法 (linear notation) 化学構造を1⾏の⽂字列で表したもの。 Ø Wiswesser Line Notation (WLN) [1]
Ø Simplified Molecular Input Line Entry Specification (SMILES) Ø International Chemical Identifier (InChI) [2] Ø Web3 Unique Representation of Carbohydrate Structures (WURCS) [3] [1] J. Chem. Inf. Comput. Sci. 1982, 22, 88-93 [2] J. Cheminformatics. 2012, 4, 22 [3] J. Chem. Inf. Model. 2014, 54, 1558-1566 9
線形表記法 (linear notation) 10 化学構造を1⾏の⽂字列で表したもの。 Ø Wiswesser Line Notation (WLN)
[1] Ø Simplified Molecular Input Line Entry Specification (SMILES) Ø International Chemical Identifier (InChI) [2] Ø Web3 Unique Representation of Carbohydrate Structures (WURCS) [3] [1] J. Chem. Inf. Comput. Sci. 1982, 22, 88-93 [2] J. Cheminformatics. 2012, 4, 22 [3] J. Chem. Inf. Model. 2014, 54, 1558-1566
SMILES 特定の原⼦からスタートし、すべての原⼦をたどるように ⽂字列を作る。 SMILES表記法によって書かれた⽂字列を SMILES⽂字列やSMILESキーと呼ぶこともある。 注意:どの原⼦から始めるかで得られる⽂字列が変わる 11 CC(=O)Oc1ccccc1C(=O)O O=C(C)Oc1ccccc1C(=O)O ≠
??
Morgan Algorithm[4]などを⽤いることによりどの原⼦から スタートするか決め、ユニークな⽂字列を得る。 *canonical : 基準の、正準の unique : 固有の、ただ⼀つだけの Canonical
SMILES 12 CC(=O)Oc1ccccc1C(=O)O O=C(C)Oc1ccccc1C(=O)O CC(O)=Oc1ccccc1C(=O)O SMILES Canonical SMILES =
線形表記法 (linear notation) 13 化学構造を1⾏の⽂字列で表したもの。 Ø Wiswesser Line Notation (WLN)
[1] Ø Simplified Molecular Input Line Entry Specification (SMILES) Ø International Chemical Identifier (InChI) [2] Ø Web3 Unique Representation of Carbohydrate Structures (WURCS) [3] [1] J. Chem. Inf. Comput. Sci. 1982, 22, 88-93 [2] J. Cheminformatics. 2012, 4, 22 [3] J. Chem. Inf. Model. 2014, 54, 1558-1566
近年の線形表記法 (linear notation) 14 Ø International Chemical Identifier (InChI) [2]
InChIはIUPAC, NISTが制定した線形表記法である。 ⽴体異性体などを考慮している。 Ø Web3 Unique Representation of Carbohydrate Structures (WURCS) [3] 糖鎖の線形表記法である。 [2] J. Cheminformatics. 2012, 4, 22 [3] J. Chem. Inf. Model. 2014, 54, 1558-1566
表現・保存⽅法 Ø 線形表記法 (linear notation) Ø 結合表 (connection table)
Ø CML (Chemical Markup Language) 15
結合表 (connection table) Ø 分⼦中の原⼦のリスト Ø 分⼦中の結合のリスト をまとめて化学構造を表現・保存しているもの 結合表の⼀例 ü
MDL Molfile V2000 ü MDL Molfile V3000 ü Structure data file (SDF) ü Mol2 ü PDB 16
結合表 (connection table) 17 Mol V2000形式で 作成した⼀例
結合表 (connection table) 18 原⼦の情報 結合の情報
mol 19 x 座標 y 座標 z 座標 原⼦記号 i
番⽬ j番⽬ 次数
Structure data file (SDF) MDL Molfileの機能に加えて Ø 化学構造に関連した情報を記述することができる。 Ø 複数の化学構造を1つのファイルに保存できる。
20
Structure data file (SDF) 21 SDF形式で 作成した⼀例
Structure data file (SDF) 22 ü タグ< >をにて化学構造以外の 情報を追加することができる。 ü
$$$$と$を4個書くことで1個の 化合構造に関する記載が終わっ たことを意味する。
表現・保存⽅法 Ø 線形表記法 (linear notation) Ø 結合表 (connection table)
Ø CML (Chemical Markup Language) 23
CML (Chemical Markup Language) 24 CMLは化学構造をXML表記で表現・保存している[4]。 XML表記を利⽤しているため複雑な情報を追加することが できる。 [4] J.
Chem. Inf. Comput. Sci. 1999, 39, 928-942
CML (Chemical Markup Language) 25 CML形式で 作成した⼀例
表現・保存⽅法 Ø 線形表記法 (linear notation) Ø 結合表 (connection table)
Ø CML (Chemical Markup Language) 様々な表記があり、今回説明しなかって例以外にも ソフトウェア上でデータを扱いやすくするために、 そのソフトウェアのために開発された形式などもある。 このことからもファイルの間の変換が必要になってくる。 26
形式変換ツール 例えば、ファイル形式変換のための ケモインフォマティクスツールの⼀つであるOpenBabel[5]では 118個の形式に対応しており、形式の変換が可能である。 ドキュメント [5] http://openbabel.org/docs/current/FileFormats/Overview.html 27
化学構造の表現・保存 ⼩括 ケモインフォマティクスツールなどを⽤いて化学構造を 適切な形式で表現・保存したり、ある形式から別の適切な 形式へと変換する必要などがある。 28 (Graphics is uploaded by TAX
IMAGES originally) データベース 化学構造 線形表記など CC(=O)Oc1ccccc1C(=O)O
本⽇の流れ 29 化学構造データの 表現・保存 データベース 化学構造データの 利⽤ まとめ 構造検索 化学構造の表現・保存
総括 統計解析 ケモインフォマティクスツール
データベース ⾃⾝が⾏いたい研究に対して、どのようなデータベースを ⽤いるのかは⾮常に重要である。 30 どのようなデータベースが公開されているのか理解したり、 ⾃⾝が望むデータベースを作成するといった必要もある。
データベースの種類 Ø Relational Database ü Oracle ü MySQL ü PostgreSQL
ü sqlite3 Ø noSQL ü redis Ø RDF ü SPARQL 31
データベースカートリッジを導⼊することにより、 化学構造を保存し、部分構造検索や類似構造検索といった、 化学構造データベースに必須な構造検索も可能になる。 Ø CambridgeSoft[6] Ø BIOVIA Isentris[7] Ø Pgchem[8]
(無料) Ø RDKit database cartridge[9] (無料) Ø Bingo[10] (無料) [6] http://www.cambridgesoft.com/ [7] http://www.ctcls.co.jp/products/accelrys/accelrys_isentris.html [8] http://www.pgchem.sk [9] http://www.rdkit.org/docs/Cartridge.html [10] http://lifescience.opensource.epam.com/bingo/index.html 化学構造データベースの構築 32
Ø JSME[11] JavaScript分⼦エディター Ø CH5M3D[12] JavaScript3D分⼦図 Ø Molecule database framework[13]
分⼦構造データベースのフレームワークである。 BingoCartridgeを⽤いて化学構造を扱っている。 [11] J. Cheminformatics. 2013, 5, 24 [12] J. Cheminformatics. 2013, 5, 46 [13] J. Cheminformatics. 2013, 5, 48 データベース作成⽀援ソフトウェア 33 JSME分⼦エディター([11]より抜粋) CH5M3Dによる3D描画([12]より抜粋)
データベース ⼩括 新規のデータベースを構築する研究は活発に⾏われている。 ⾃⾝の研究に適したデータベースが新たに作られていないか 常に注意しておく必要がある。 また⾃⾝でデータベースを作成する環境も整っている。 34
様々な問題点 化学構造の表現・保存の仕⽅からデータベースの構築に 関するヒントまでを話してきましたが ここでそれらに関する問題点にもふれておく。 Ø 回転異性体、互変異性体の表現・保存 Ø ケモインフォマティクスツールによる差 35
回転異性体、互変異性体の表現・保存 Canonical SMILESやInChIなどの表現・保存では 回転異性体を区別できなかったり、互変異性体を 同⼀の化学構造と認識できないという問題がある[12]。 (どちらの図も[13]より抜粋) [13] J. Chem. Inf.
Model. 2012, 52, 285-292 36 回転異性体 互変異性体
ケモインフォマティクスツールによる差 化学構造を表現・保存する際に、ケモインフォマティクス ツールの仕様・バグが原因で、差が⽣じる可能性がある[14]。 [14] J. Cheminformatics. 2013, 7, 30 37
([14]より抜粋)
本⽇の流れ 38 化学構造データの 表現・保存 データベース 化学構造データの 利⽤ まとめ 構造検索 化学構造の表現・保存
総括 統計解析 ケモインフォマティクスツール
ケモメトリックス解析の流れ ① 化学構造データの表現・保存 ② 化学構造データの利⽤ 39 データベース 構造検索 統計解析 化学構造
線形表記など CC(=O)Oc1ccccc1C(=O)O (Graphics is uploaded originally by TAX IMAGES, Derek Gavey, and reynermedia)
化学構造の⼆次元での表現 40 データベース 構造検索 統計解析 (Graphics is uploaded originally by
TAX IMAGES, Derek Gavey, and reynermedia) ② 化学構造データの利⽤
構造検索 Ø 完全⼀致検索 検索したい化学構造*とまったく同じ化学構造を検索する。 Ø 部分構造検索 検索したい化学構造を含む化学構造を検索する。 Ø 類似構造検索 検索したい化学構造と似ている化学構造を検索する。
*検索したい化学構造を検索クエリ(query)と表現することもあります。 41
有機合成における部分構造検索 新しい薬などを作る有機合成では、合成反応の試薬となる 化学構造が販売しているかを調査するために部分構造検索を ⾏うことがある。 42
部分構造検索の仕組み 部分構造検索は2段階の検索システムで構成されている。 ① Fingerprintによる擬陽性を含むものの⾼速な検索 ② Ullmann algorithm[15]などを⽤いた低速だが正確な検索 [15] An Introduction
to Chemoinformatics, Chapter 1 43
Fingerprintによる部分構造検索 Fingerprintは0か1の値を取る数字(ビット)の列でできている。 Ø 構造辞書をもつFingerprint Ø Hashed fingerprint 44 0 1
1 1 1 0 1 0 0 1 1 0 1 0 Fingerprint ビット
構造辞書をもつFingerprint 構造辞書をもつFingerprintではある部分構造を含む場合、 それに対応しているビットの値が1になるようにしている。 構造辞書をもつFingerprintとしてMACCSキーなどがある。 [15] An Introduction to Cheminformatics, Chapter
1 を参考に作成 45 0 1 1 1 1 1 1 0 1 0 Fingerprint O N N=
データベース Hashed Fingerprint Fingerprintの⻑さは固定されており(例えば1024など)、 化学構造からフラグメントを作成しFingerprintの各ビットに フラグメントを割り振る。 *hashed: 細切れにされた 46 0 0
0 0 0
Fingerprintの特徴 どのように分割するかでFingerprintに特徴が出てくる。 例えば、ECFPではある原⼦を中⼼にその周りにどのような 原⼦が存在しているかということに注⽬している[15]。 ([16]より抜粋) [16] J. Chem. Inf. Model.
2010, 50, 742-754 47
創薬における類似構造検索 化学構造が類似の化合物は同じ薬効を持つ傾向があると 考えられおり、Ligand based drug design(LBDD)などでは 既存の薬から類似構造構造を探索することがある。 48 クロミプラミン イミプラミン
アミトリプチリン <三環系抗うつ薬の⼀例>
特許における構造検索 製薬メーカーでは類似の化学構造を以下のようなMarkush 表記と呼ばれる表現を⽤いて特許を取ることが多い[15]。 [15] An Introduction to Chemoinformatics, Chapter 1
49 <各官能基の条件> R1=メチルあるいはエチル R2=アミノ基 R3=アルキルまたは ヘテロ環を含む酸素 m=1-3 ([11]を参考に作成)
類似構造検索 化学構造間の類似性が⾼い*かどうかをどうやって調べる? *似ていることを類似性が⾼いと表現する。 50 0 1 1 1 1 1
1 0 1 0 Fingerprint O N N= Fingerprintを⽤いることで化学構造間の類似性を調べることが できるのではないか?
Fingerprintによる類似性の計算 Tanimoto係数などの類似性の指標を⽤いることで類似性を 計算することができる。 51 0 1 1 1 1 1
1 0 1 0 A B SAB = a + b - c c = 4 + 3 - 2 2
類似性の指標 Why is Tanimoto index an appropriate choice for fingerprint-based
similarity calculations? J. Cheminformatics. 2015, 7, 20 から抜粋 52 0 1 1 1 1 1 1 0 1 0 Fingerprint
Hashed Fingerprintの擬陽性 Hashed Fingerprintは複数のフラグメントが特定のビットに 割り当てられることもあり、擬陽性が⽣じる可能性がある。 しかし部分構造検索の場合はHashed Fingerprintに検索の後、 より正確な検索を⾏っているので特に問題はない。 53 データベース
0 0 0 0 0
Fingerprintの特徴 O’Boyleらは以下の⽬的に対してそれぞれに適している Fingerpirntが何か検討している[16]。 1. 類縁体の化合物を探索する 2. 似ていない化合物を探索する 3. バーチャルスクリーニングで購⼊可能な化合物をactiveと decoyにわける
このように単純に⼀つのFingerprintを⽤いるのではなく やりたい作業に合わせて変更すべきである。 [16] J. Cheminformatics. 2016, 8, 36 54
他の類似性の計算⼿法 55 Ø Maximum Common Subgraph (MCS) 基本⾻格などコア構造が共通しているものを抽出したいに 適している[17]。完全につながっている部分のみを抽出 してい類似性を計算するのか、つながっていない部分も
考慮して計算するのかなどMCSにもいくつか種類がある[18]。 MCSの⼀例(⾊がついている部分共通している)
検索結果の相補性 56 三次元構造類似性検索と⼆次元構造類似性検索では 類似であると検索ヒットする化合物に違いが⽣まれる[19]。 どちらも⽤いることで互いの検索結果を補うことができる。 [19] J. Cheminformatics. 2016, 8,
62
構造検索 ⼩括 化学構造データベースには完全⼀致検索だけではなく、 部分構造検索、類似構造検索といった検索⽅法がある。 ⾃⾝が⾏いたいことに適した検索⽅法などを使う必要がある。 57
本⽇の流れ 58 化学構造データの 表現・保存 データベース 化学構造データの 利⽤ まとめ 構造検索 化学構造の表現・保存
総括 統計解析 ケモインフォマティクスツール
ケモインフォマティクスツール 59 ツール名 利⽤するのに⽤いるプログラム⾔語の⼀例 Daylight Toolkit[20] C OEChem TK[21] C++,
Python, Java OpenBabel[22] C++, Python, Java, Perl, Ruby CDK[23] Java RDKit[24] Python, C++ ツール名 プログラム⾔語 利⽤可能なツール RCDK[25] R CDK Rubabel[26] Ruby OpenBabel Cinfony[27] Python OpenBabel, CDK, RDKit ODDT[28] Python OpenBabel, CDK, RDKit Knime[29] CDK, RDKit ラッパーツール、統合ツール ケモインフォマティクスツール
ケモインフォマティクスツール 60 [20] http://www.daylight.com/products/toolkit.html [21] http://www.eyesopen.com/ja/oechem-tk [22] J. Cheminformatics. 2011,
3, 33 [23] J. Chem. inf. Comput. Sci. 2003, 43, 493-500 [24] http://www.rdkit.org/ [25] https://cran.r-project.org/web/packages/rcdk/rcdk.pdf [26] J. Cheminformatics. 2013, 5, 35 [27] Chemistry Central Journal. 2008, 2, 24 [28] J. Cheminformatics. 2015, 7, 26 [29] https://www.knime.org/
オープンソースソフトウェア 様々なオープンソースソフトウェア(OSS)が 報告されてまとめられているサイトがある。 https://opensourcemolecularmodeling.github.io/ こちらでバージョンアップしたかどうか などをチェックしておくと良い。 61
総括 化学構造を線形表記法などの⽂字列として表現・保存し、 記述⼦などの数字情報へ変換する⽅法などを学んだ。 これらの数字情報をどう統計解析していくか、 それはまた別のお話…。 62 データベース 構造検索 統計解析 化学構造
線形表記など CC(=O)Oc1ccccc1C(=O)O