-- Views
April 17, 26
スライド概要
1986年にDavid Weiningerが開発したSMILESは、原子を大文字で、芳香族は小文字で表記し、分岐は括弧、環は数字で示すなどのシンプルなルールで構造を記述します。二重結合は"="、三重結合は"#"、立体中心は"@"や"@@"で示し、電荷や特殊原子は角括弧で囲みます。具体例としてメタンからベンゼン、フェニルアラニンのような立体異性体まで幅広く表せますが、記述方法が一意でないため、データベースごとに異なるSMILESが存在します。そのため、正規化(カノニカル化)を行い、同一構造を統一した表記に変換することが重要です。
より詳しい記事は、Zennで書いています。
https://zenn.dev/poclabweb/books/chemoinfomatics_theory_descriptor/viewer/lesson02_011_coumpoundinformation1
横浜国立大学化学生命系学科にて、化学と情報科学に関わる研究(ケモインフォマティクス)を行っています。 無料で読めるケモインフォマティクス入門書を執筆中です。 https://zenn.dev/poclabweb?tab=books データ駆動型のアプローチを通じて、新しい分子と材料の発見と設計を加速することを目指し、化学構造の情報を整理し世界中の人々がアクセスして使えるようにしていきます。
1 化合物の表現方法の SMILESって何? Hiroaki Gotoh
SMILES 2 • 1986年、David Weiningerは化学データ処理のためのSMILES (Simplified Molecular Input Line Entry System)表記法を開発 した。 SMILES自体は無料だが、正規化させるソフトは有料で販売 • この言語は柔軟で習得しやすく、化学構造情報をグラフに基づく 高度に圧縮・簡略化された線表記で記述 文字列へ変換 C(N)C(=O)O 文字列にすることで、データ量が少なくコンピューターが認識可能
SMILESのルールと具体例 3 0. 水素や単結合は基本省略 表. 左の0から5に示したルールの具体例 1. 原子をアルファベットの大文字 Entry "C", "O", "N" など 2. 分岐構造は括弧()で表記 構造 IUPAC名 SMILES 1 propane CCC 2 isobutane CC(C)C 3 cyclohexane C1CCCCC1 4 benzene c1ccccc1 5 buta-1,3diene C=CC=C “CC(C)C” など 3. 環は、関係する原子に数字 "C1CCCCC1"など 4. 芳香族性を小文字で表現 "c", "o", "n"など 5. 二重結合と三重結合 (単結合は省略) “=” , “#” など 6. 立体中心や幾何異性 (後で説明) “@”, “@@” , “/”, “\” など 7. 特定の原子と電荷は[]で囲んで表現 (次回講義(第3回)で説明) “[Fe+2]”, “[NH4+]”など 8. 共有結合が無いものを表現する場合”.” “[Cl-].[Na+]”など
SMILESの具体例とIUPAC名の比較 4 IUPAC名 SMILES表記 IUPAC名 SMILES表記 methane C Isopropyl methyl ether COC(C)C ethane CC Ethyl phenyl ehter c1ccccc1OCC propane CCC p-Dimethoxybenzene COc1ccc(OC)cc1 butane CCCC 4-tert-butoxy-1-cyclohexene CC(C)(C)OC1CC=CCC1 pentane CCCCC hexane CCCCCC heptane CCCCCCC octane CCCCCCCC nonane CCCCCCCCC decane CCCCCCCCCC IUPAC名だとR1 – O – R2 のR1とR2が変わるだけで名前が変わっていたが、 SMILES表記だと規則的に命名が可能になる。 COC(C)C c1ccccc1OCC COc1ccc(OC)cc1 CC(C)(C)OC1CC=CCC1 原子 (頂点: node)を元素記号(芳香族性を小文字)とし、 結合(エッジ: Edges)の表現として、単結合(省略)、二重結合(=)、三重結合(#) 多くの化合物が、より単純なルールで表現できる。
SMILESの具体例(立体表現) N[C@@H](Cc1ccccc1)C(=O)O L-phenylalanine N[C@H](Cc1ccccc1)C(=O)O D-phenylalanine オレイン酸 エライジン酸 Isomeric SMILES 同位体や不斉中心についての記述を含むSMILESを「isomeric SMILES」という。 5
SMILESの”一意性”に注意 分子構造の書き方が一意でない理由と似ている。 どこからスタートするのか、芳香族をどう書くかなどが異なる。 立体の書き方も2通りある。 化学構造の書き方は 一意ではない 原子とそれらの間の結合のみを記述したSMILESは「generic SMILES」です。どの原子を先頭にし て、どの向きに原子を辿り分岐でどちらを側鎖とみなすかによって、同一の構造に対して複数通りの generic SMILESを記述できることがある。 6
SMILESは一意性は無い(データベースごと) CAS C([C@@H](C(O)=O)N)C1=CC=CC=C1 7 pubchem C1=CC=C(C=C1)C[C@@H](C(=O)O)N https://commonchemistry.cas.org/detail?ref=63-91-2 ChEMBL N[C@@H](Cc1ccccc1)C(=O)O https://www.ebi.ac.uk/chembl/compound_report_card/CHEMBL301523/ wikipedia c1ccc(cc1)C[C@@H](C(=O)O)N https://ja.wikipedia.org/wiki/%E3%83%95%E3%82%A7%E3%83%8B%E3%8 3%AB%E3%82%A2%E3%83%A9%E3%83%8B%E3%83%B3 SMILESは、同じ化合物にも関わらずデータベースごとに表記が異なる → 複数データベースから集めたものは、一意では無い
SMILESの正規化 8 • 正規化(Normalization, Canonicalization) 項目間での横断的な比較体制を確立 項目間に相違ないか確認できるよう表記を統一 データベースごとに異なる表現 CAS 単一の表現に変換 Normalization Canonicalize (正規化) ChEMBL C([C@@H](C(O)=O)N)C1=CC=CC=C1 pubchem C1=CC=C(C=C1)C[C@@H](C(=O)O)N 正規化させるソフトを使用 N[C@@H](Cc1ccccc1)C(=O)O ChEBMLは処理ソフトを webで公開している https://www.ebi.ac.uk/chembl/api/utils/docs 構造が同じならば 表現が異なるSMILES を入力しても同じ SMILESが出力される