---
title: 化合物の表現方法のSMILES
tags:  #化学 #smiles #分子表記 #データベース #正規化  
author: [gotoh-poclab](https://image.docswell.com/user/gotoh-poclab)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/57GLRGN5EL.jpg?width=480
description: 1986年にDavid Weiningerが開発したSMILESは、原子を大文字で、芳香族は小文字で表記し、分岐は括弧、環は数字で示すなどのシンプルなルールで構造を記述します。二重結合は&quot;=&quot;、三重結合は&quot;#&quot;、立体中心は&quot;@&quot;や&quot;@@&quot;で示し、電荷や特殊原子は角括弧で囲みます。具体例としてメタンからベンゼン、フェニルアラニンのような立体異性体まで幅広く表せますが、記述方法が一意でないため、データベースごとに異なるSMILESが存在します。そのため、正規化（カノニカル化）を行い、同一構造を統一した表記に変換することが重要です。  より詳しい記事は、Zennで書いています。 https://zenn.dev/poclabweb/books/chemoinfomatics_theory_descriptor/viewer/lesson02_011_coumpoundinformation1
published: April 17, 26
canonical: https://image.docswell.com/s/gotoh-poclab/Z3JGRM-2026-04-17-134737
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/57GLRGN5EL.jpg)

1
化合物の表現方法の
SMILESって何？
Hiroaki Gotoh


# Page. 2

![Page Image](https://bcdn.docswell.com/page/4EQYVXQLJP.jpg)

SMILES
2
• 1986年、David Weiningerは化学データ処理のためのSMILES
（Simplified Molecular Input Line Entry System）表記法を開発
した。 SMILES自体は無料だが、正規化させるソフトは有料で販売
• この言語は柔軟で習得しやすく、化学構造情報をグラフに基づく
高度に圧縮・簡略化された線表記で記述
文字列へ変換
C(N)C(=O)O
文字列にすることで、データ量が少なくコンピューターが認識可能


# Page. 3

![Page Image](https://bcdn.docswell.com/page/KJ4WM6N571.jpg)

SMILESのルールと具体例
3
0. 水素や単結合は基本省略
表. 左の0から5に示したルールの具体例
1. 原子をアルファベットの大文字
Entry
&quot;C&quot;, &quot;O&quot;, &quot;N&quot; など
2. 分岐構造は括弧（）で表記
構造
IUPAC名
SMILES
1
propane
CCC
2
isobutane
CC(C)C
3
cyclohexane
C1CCCCC1
4
benzene
c1ccccc1
5
buta-1,3diene
C=CC=C
“CC(C)C” など
3. 環は、関係する原子に数字
&quot;C1CCCCC1&quot;など
4. 芳香族性を小文字で表現
&quot;c&quot;, &quot;o&quot;, &quot;n&quot;など
5. 二重結合と三重結合 (単結合は省略)
“=” , “#” など
6. 立体中心や幾何異性 (後で説明)
“@”, “@@” , “／”, “＼” など
7. 特定の原子と電荷は[]で囲んで表現
(次回講義(第３回)で説明)
“[Fe+2］”, “[NH4+］”など
8. 共有結合が無いものを表現する場合”.”
“[Cl-].[Na+]”など


# Page. 4

![Page Image](https://bcdn.docswell.com/page/LE1Y8V527G.jpg)

SMILESの具体例とIUPAC名の比較
4
IUPAC名
SMILES表記
IUPAC名
SMILES表記
methane
C
Isopropyl methyl ether
COC(C)C
ethane
CC
Ethyl phenyl ehter
c1ccccc1OCC
propane
CCC
p-Dimethoxybenzene
COc1ccc(OC)cc1
butane
CCCC
4-tert-butoxy-1-cyclohexene
CC(C)(C)OC1CC=CCC1
pentane
CCCCC
hexane
CCCCCC
heptane
CCCCCCC
octane
CCCCCCCC
nonane
CCCCCCCCC
decane
CCCCCCCCCC
IUPAC名だとR1 – O – R2 のR1とR2が変わるだけで名前が変わっていたが、
SMILES表記だと規則的に命名が可能になる。
COC(C)C
c1ccccc1OCC
COc1ccc(OC)cc1
CC(C)(C)OC1CC=CCC1
原子 (頂点: node)を元素記号(芳香族性を小文字)とし、
結合(エッジ: Edges)の表現として、単結合(省略)、二重結合(=)、三重結合(#)
多くの化合物が、より単純なルールで表現できる。


# Page. 5

![Page Image](https://bcdn.docswell.com/page/GEWGZL52J2.jpg)

SMILESの具体例(立体表現)
N[C@@H](Cc1ccccc1)C(=O)O
L-phenylalanine
N[C@H](Cc1ccccc1)C(=O)O
D-phenylalanine
オレイン酸
エライジン酸
Isomeric SMILES
同位体や不斉中心についての記述を含むSMILESを「isomeric SMILES」という。
5


# Page. 6

![Page Image](https://bcdn.docswell.com/page/47ZL1MN4J3.jpg)

SMILESの”一意性”に注意
分子構造の書き方が一意でない理由と似ている。
どこからスタートするのか、芳香族をどう書くかなどが異なる。
立体の書き方も2通りある。
化学構造の書き方は
一意ではない
原子とそれらの間の結合のみを記述したSMILESは「generic SMILES」です。どの原子を先頭にし
て、どの向きに原子を辿り分岐でどちらを側鎖とみなすかによって、同一の構造に対して複数通りの
generic SMILESを記述できることがある。
6


# Page. 7

![Page Image](https://bcdn.docswell.com/page/YJ6WLN8GJV.jpg)

SMILESは一意性は無い(データベースごと)
CAS
C([C@@H](C(O)=O)N)C1=CC=CC=C1
7
pubchem
C1=CC=C(C=C1)C[C@@H](C(=O)O)N
https://commonchemistry.cas.org/detail?ref=63-91-2
ChEMBL
N[C@@H](Cc1ccccc1)C(=O)O
https://www.ebi.ac.uk/chembl/compound_report_card/CHEMBL301523/
wikipedia
c1ccc(cc1)C[C@@H](C(=O)O)N
https://ja.wikipedia.org/wiki/%E3%83%95%E3%82%A7%E3%83%8B%E3%8
3%AB%E3%82%A2%E3%83%A9%E3%83%8B%E3%83%B3
SMILESは、同じ化合物にも関わらずデータベースごとに表記が異なる
→ 複数データベースから集めたものは、一意では無い


# Page. 8

![Page Image](https://bcdn.docswell.com/page/GJ5M159XJ4.jpg)

SMILESの正規化
8
• 正規化(Normalization, Canonicalization)
項目間での横断的な比較体制を確立
項目間に相違ないか確認できるよう表記を統一
データベースごとに異なる表現
CAS
単一の表現に変換
Normalization
Canonicalize
（正規化)
ChEMBL
C([C@@H](C(O)=O)N)C1=CC=CC=C1
pubchem
C1=CC=C(C=C1)C[C@@H](C(=O)O)N
正規化させるソフトを使用
N[C@@H](Cc1ccccc1)C(=O)O
ChEBMLは処理ソフトを
webで公開している
https://www.ebi.ac.uk/chembl/api/utils/docs
構造が同じならば
表現が異なるSMILES
を入力しても同じ
SMILESが出力される


