287 Views
April 21, 26
スライド概要
IUPACが定義した非独占的な化合物識別子InChIは、構造情報から正規化・統一化・ハッシュ化して文字列化します。InChIからは25文字のInChIKeyに変換され、前半14文字は主層、後半14文字は副層情報を表し、フラグで標準・非標準やイオン化状態を示します。InChIKeyは検索インデックスとして便利ですが、ハッシュ化のため不可逆であり、稀に衝突が起こることがあります。PubChemやChEMBLなど複数のデータベースで同一化合物は同じInChIKeyで表されます。
より詳しい記事は、Zennで書いています。
https://zenn.dev/poclab_techblog/articles/what_is_inchi
https://zenn.dev/poclabweb/books/chemoinfomatics_theory_descriptor/viewer/lesson02_012_coumpoundinformation1
横浜国立大学化学生命系学科にて、化学と情報科学に関わる研究(ケモインフォマティクス)を行っています。 無料で読めるケモインフォマティクス入門書を執筆中です。 https://zenn.dev/poclabweb?tab=books データ駆動型のアプローチを通じて、新しい分子と材料の発見と設計を加速することを目指し、化学構造の情報を整理し世界中の人々がアクセスして使えるようにしていきます。
1 InChIとInChIKeyとは何か? Hiroaki Gotoh
国際化学物質識別子(InChI)とInChIKey 2 • IUPAC International Chemical Identifier (InChI) は、化合物に対する非独 占的なバイ・ユニーク識別子である。2000年から開発されているオープン ソースのInChIアルゴリズムは、現在多くの分子エディタに実装されており、 化合物をユニークな英数字の文字列に変換 • 自由に使え、非営利である。 • 構造情報から計算でき、組織による割当が必要ない。 • 作成時に構造の正規化が行われる。 • (ほとんどの情報は、人が読むことができる。) InChI > 構造> InChI変換が、正しく復元可能になるように設計されている
*1 InChIとInChIKeyの作成方法 3 正規化 Input Structural data Normalization Canonicalization Serialization 規格化 統一化*2 整列 同じ情報へと変換 結合の順番を統一 情報を整理 output Hashing output 要約 InChI InChIKey 0. 処理方法 InChI=1S/C5H5N/c1-2-4-6-5-3-1/h1-5H 1. 分子式 /区切りで化合物情報を一意に表現 2. 結合情報 3 .水素の 付加情報 分子式C5H5N。結合は省略 番号は分子式から1から5がC、6がN *1 InChI, the IUPAC International Chemical Identifier J Cheminform. 2015; 7: 23. Published online 2015 May 30. https://doi.org /10.1186%2Fs13321-015-0068-4 *2 InChIにおけるCanonicalization (グラフの番号の付け方)は、以下の論文から “McKay, B. D.: Practical Graph Isomorphism. Congressus Numerantium 1981, 30:45–87”. [http://cs.anu.edu.au/~bdm/papers/pgi.pdf] JUJWROOIHBZHMG-UHFFFAOYSA-N 25文字の固定長 (2箇所に-で区切り) で構造から化合物を表現
Normalization(規格化)の例 電荷分離パターン を中性に変換 金属含有化合物の切断 単純な互変異性検出と変換 4 結合情報 の除去 化合物を一意に表現するために、表現方法を統一する処理を行う。 InChI, the IUPAC International Chemical Identifier J Cheminform. 2015; 7: 23. Published online 2015 May 30. https://doi.org /10.1186%2Fs13321-015-0068-4
フェニルアラニンの標準的なInChI 1から9はC 10はN 11と12はO の番号になる 水素は省略 SMILESと同じくグラフを文字で表す 分岐は()で表現 原子に接続している水素の数 1から5と8は、水素が1つ 6と10は水素が2つ 11と12のどちらかに水素が1つ InChI=1S/C9H11NO2/c10-8(9(11)12)6-7-4-2-1-3-5-7/h1-5,8H,6,10H2,(H,11,12) Chemical formula Version Connection sublayer ‘/c‘から始まる 現在、InChIの構造情報は、階層に分類 H atom sublayer ‘/h‘から始まる Main layer Main layer(化学式、接続、H原子の接続を / で区切って表現する) また、電荷、立体化学、同位体等がある場合には、その後ろに接続させて表現する(次ページ)。 InChI, the IUPAC International Chemical Identifier J Cheminform. 2015; 7: 23. Published online 2015 May 30. https://doi.org/10.1186%2Fs13321-015-0068-4 注意) InChIは、SMILESと異なり結合の種類(二重結合 や3重結合など)や芳香族性の原子などを明示しない 5
同位体、電荷、立体化学等の具体例 化合物 CH3CH2OH 13CH CH OH 3 2 InChI InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3 InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3/i1+1 CH3NH2 InChI=1S/CH5N/c1-2/h2H2,1H3 CH3N+H3 InChI=1S/CH5N/c1-2/h2H2,1H3/p+1 同位体を表現 電荷を表現 InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2 立体化学を表現 InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1 https://ja.wikipedia.org/wiki/InChI 6
InChIをInChIKeyへと変換 7 AAAAAAAAAAAAAA-BBBBBBBBFV-Pの25文字と区切り文字である-の2文字に変換 ハッシュ化 14文字 InChIKey への変換 ハイフン 区切り文字 ハッシュ化 8文字 2文字 ハイフン 1文字 (フラグ) COLNVLDHVKWLRT-UHFFFAOYSA-N InChI=1S/C9H11NO2/c10-8(9(11)12)6-7-4-2-1-3-5-7/h1-5,8H,6,10H2,(H,11,12) 1. InChIKeyの最初のブロック(14文字) AAAAAAAAAAAAAAA 2. InChIKeyの2番目のブロック(14文字) BBBBBBBB 3. Fフラグ文字 標準InChIの場合は'S'、非標準の場合は’N‘ 4. バージョン文字 現在は’A’で、これはバージョン1を意味する。 5. Pプロトン化/デプロトン化フラグ ’N’はプロトンに関連するイオン化がない (「中性」)であることを意味する。 Main layer由来 (化学式、接続、H原子) Sub layer由来 (同位体、電荷、立体化学等) InChIKey変換時のハッシュ化の注意点 1. 不可逆 ハッシュ化された文字だけからでは元の構造へは変換不可 2. 同一性保持 同じ化合物は同じ文字列へと変換される 3. 別々にハッシュ化(最初のブロックと二番目のブロック) Main layerが同じでSub layerが異なる場合には8文字部 分のみが異なる。 InChI, the IUPAC International Chemical Identifier. J Cheminform. 2015 May 30;7:23. https://doi.org/10.1186%2Fs13321-015-0068-4
InChI及びInChIKeyと立体の関係 ハッシュ化 14文字 InChIKey への変換 ハイフン 区切り文字 8 ハッシュ化 8文字 2文字 ハイフン 1文字 (フラグ) COLNVLDHVKWLRT-UHFFFAOYSA-N InChI=1S/C9H11NO2/c10-8(9(11)12)6-7-4-2-1-3-5-7/h1-5,8H,6,10H2,(H,11,12) Main layer由来 (化学式、接続、H原子) Sub layer由来 (同位体、電荷、立体化学等) 以下の例の立体化学のみ異なる次の2つの化合物は、Second Blockの8文字のみが異なる 化合物 InChIとInChIKey InChI=1S/C9H11NO2/c10-8(9(11)12)6-7-4-2-1-3-5-7/h1-5,8H,6,10H2,(H,11,12)/t8-/m0/s1 COLNVLDHVKWLRT-QMMMGPOBSA-N InChI=1S/C9H11NO2/c10-8(9(11)12)6-7-4-2-1-3-5-7/h1-5,8H,6,10H2,(H,11,12)/t8-/m1/s1 COLNVLDHVKWLRT-MRVPVSSYSA-N
InChIKeyとプロトン関連のイオン化 InChI, the IUPAC International Chemical Identifier. J Cheminform. 2015 May 30;7:23. https://doi.org/10.1186%2Fs13321-015-0068-4 9
InChIとInChIkeyの一意性 データベース名 CAS 化学構造 InChIとInChIKey InChI=1S/C9H11NO2/c10-8(9(11)12)6-7-4-2-1-3-5-7/h1-5,8H,6,10H2,(H,11,12)/t8-/m0/s1 COLNVLDHVKWLRT-QMMMGPOBSA-N pubchem InChI=1S/C9H11NO2/c10-8(9(11)12)6-7-4-2-1-3-5-7/h1-5,8H,6,10H2,(H,11,12)/t8-/m0/s1 ChEMBL InChI=1S/C9H11NO2/c10-8(9(11)12)6-7-4-2-1-3-5-7/h1-5,8H,6,10H2,(H,11,12)/t8-/m0/s1 wikipedia COLNVLDHVKWLRT-QMMMGPOBSA-N COLNVLDHVKWLRT-QMMMGPOBSA-N InChI=1S/C9H11NO2/c10-8(9(11)12)6-7-4-2-1-3-5-7/h1-5,8H,6,10H2,(H,11,12)/t8-/m0/s1 COLNVLDHVKWLRT-QMMMGPOBSA-N InChIとInChiKeyは、同じ化合物ならばデータベースが変わっても同じ →同じ方法を使って文字列にしている。 10
InChIKeyは稀に衝突(collision)が起こる InChIKeyは、一意ではないときが稀にある。 OCPAUTFLLNMYSX-UHFFFAOYSA-N https://chem-bla-ics.blogspot.com/2011/09/inchikey-collision-diy-copypastables.html InChI Keyは、情報量を削減するために暗号化している。 検索のためのIndexとして使われることが多い。 化合物によって、ごく稀に衝突(collision)することがある。 InChIKey collision resistance: an experimental testing. J Cheminform 4, 39 (2012). https://doi.org/10.1186/1758-2946-4-39 11