(Translated by https://www.hiragana.jp/)
SMILES記法 - Wikipedia

SMILES記法きほう

分子ぶんし化学かがく構造こうぞうをASCII符号ふごう英数字えいすうじ文字もじれつした、構造こうぞう曖昧あいまいせい表記ひょうき方法ほうほう

SMILES記法きほうスマイルスきほう、英語えいご: simplified molecular input line entry system)とは、分子ぶんし化学かがく構造こうぞうASCII符号ふごう英数字えいすうじ文字もじれつした、構造こうぞう曖昧あいまいせい表記ひょうき方法ほうほうである。SMILES文字もじれつおおくの種類しゅるい分子ぶんしエディタにおいてインポート可能かのうで、次元じげん図表ずひょうあるいはさん次元じげんのモデルとして表示ひょうじすることができる。

SMILES表記ひょうき1980年代ねんだいわりにDavid Weiningerにより開発かいはつされ、その多数たすうひと変更へんこうあるいは拡張かくちょうがなされてきた。なかでもDaylight Chemical Information Systemsしゃ貢献こうけんおおきい。線形せんけい同様どうよう表記ひょうきほうとしてはWiswesser Line Notation (WLN), ROSDAL そして SLN (Triposしゃ)がげられる。

グラフ理論りろんもとづいた記法きほう定義ていぎ

編集へんしゅう

グラフ理論りろんもとづくコンピュータ処理しょり観点かんてんでは、SMILESは分子ぶんしグラフ英語えいごばんふか優先ゆうせん走査そうさして、節点せってん原子げんし)とあたり結合けつごう)を表現ひょうげんする文字もじれつである。分子ぶんしグラフの構築こうちくでは、まずけい水素すいそ原子げんしのぞき(ただしひとし中心ちゅうしんのぞく)、たまき形成けいせいしているところはひらいて全域ぜんいきspanning tree)に変換へんかんする。たまきひらいたところには数字すうじラベル付らべるつけ(おけ)して、つながっていた節点せってん同士どうししめす。まる括弧かっこparenthesis, ())はぶんえだしている場所ばしょあらわすのに使用しようする。

原子げんしかく括弧かっこbracket, [])でくくられるが、organic subset、すなわち B, C, N, O, P, S, F, Cl, Br, I のいずれかで、形式けいしき電荷でんかたず、同位どういたい指定していする必要ひつようがなく、かつひとし中心ちゅうしんでない場合ばあい[]省略しょうりゃくしてもよい。この場合ばあい原子げんしもとづいて水素すいそ暗黙あんもくてき付加ふかしているものとみなされる。たとえばONはそれぞれみずアンモニアである(水素すいそくと[H]O[H]などになるが、このようにかれることはほとんどない)。形式けいしき電荷でんかっている場合ばあい+-数字すうじこうおけする(たとえばアンモニウムイオン[NH4+]てつ (II) は[Fe+2])。同位どういたい指定していする場合ばあい質量しつりょうすう整数せいすうぜんおけする(たとえば炭素たんそ14[14C])。ひとし中心ちゅうしんについては後述こうじゅつする。

結合けつごういちじゅうからじゅん-=#で、芳香ほうこうたまき(1.5じゅう結合けつごう)では:あらわされる(ただし一重ひとえ結合けつごう-通常つうじょう省略しょうりゃくされる)。OpenSMILES 拡張かくちょうよんじゅう結合けつごう$ である。じゅう結合けつごう=につながっているいちじゅう結合けつごうきを/\あらわすことでシス-トランス異性いせいたい区別くべつする。たとえばC/C=C\CC/C=C/Cはそれぞれシス・トランス2-ブテンである。結合けつごうがないことは.表現ひょうげんされる(たとえば過酸化水素かさんかすいそOOたいO.Oみず2分子ぶんし)。

かん構造こうぞうではつながっている原子げんしうしろに数字すうじラベル付らべるつけする。たとえばプロパンシクロプロパンをSMILESであらわすとそれぞれCCCC1CC1となる。 ラベルの数字すうじは1つの原子げんしに1つが原則げんそくだが、あるラベルがすでに2箇所かしょあらわれ、その2箇所かしょのペアが同一どういつ原子げんしであることをしめ役目やくめえた場合ばあいは、その数字すうじべつのペアのためにさい利用りようしてもよい。 ラベルはいちけた数字すうじとみなされ、たとえばC12はラベル12につながっている炭素たんそである。けたのラベルをあらわすには%まえおけする(たとえばC%12はラベル12)。

芳香ほうこうたまき構成こうせいする原子げんし炭素たんそ窒素ちっそ酸素さんそリン硫黄いおうヒ素ひそセレン;OpenSMILES 拡張かくちょうではさらにホウ素ほうそ)は小文字こもじにする。たとえばシクロヘキサンC1CCCCC1たいベンゼンc1ccccc1である。芳香ほうこうたまき結合けつごういちじゅうじゅう結合けつごうあらわすこと(ベンゼンを1,3,5-シクロヘキサトリエンのようにC1=CC=CC=C1)をケクレ (英語えいご: kekulization) とよぶことがある。

ひとし中心ちゅうしんには@または@@こうおけし、方向ほうこうからてそれぞれひだりまわり・みぎまわりに後続こうぞく原子げんしだんならんでいることをあらわす(@がひだりまわりのため)。たとえばS-アラニンのSMILESは、アミノもとにするとN[C@@H](C)C(=O)Oである(N[C@@]([H])(C)C(=O)Oのようにいてもよい)。

あるけいについてのSMILESはかならずしも一意いちいさだまらず、たとえばS-アラニンは上記じょうきのSMILESだけでなく、C[C@H](N)C(=O)OC[C@@H](C(=O)O)NOC(=O)[C@H](C)Nなどでもあらわすことができる。そのため、あるアルゴリズムにもとづいてけいたい一意いちいになるよう変換へんかんしたものを、正規せいきされた(canonical)SMILESとぶ。ただし、データベースやプログラムによってはアルゴリズムがちがうことがある。

化学かがく反応はんのうはらけい>>生成せいせいけいまたははらけい>触媒しょくばいなど>生成せいせいけいあらわされる。たとえばプロペンみず付加ふかしてプロパン-2-オールができる反応はんのうCC=C.O>>CC(O)Cである。

詳細しょうさいについては[1][2]参照さんしょうすること。

発展はってん

編集へんしゅう

SMARTS[3]部分ぶぶん構造こうぞう検索けんさくができるようにSMILESを拡張かくちょうしたものであり、化学かがくデータベース検索けんさくプログラムなどで使用しようされる。原子げんしならびに結合けつごうについてのクエリが追加ついかされており、たとえば[C,c]任意にんいの(脂肪しぼうぞくまたは芳香ほうこうぞくの)炭素たんそにマッチする。

SMIRKS[4]はSMILESとSMARTSのハイブリッドで、一般いっぱんてき化学かがく反応はんのう記述きじゅつする。

特徴とくちょう

編集へんしゅう

SMILES記法きほう長所ちょうしょ化学かがく構造こうぞうを、すくないバイトちょう表現ひょうげんできることと、ルールが簡単かんたんなので人間にんげん文字もじれつ変換へんかんするさい複雑ふくざつ演算えんざん必要ひつようてんにある。

一方いっぽう欠点けってんとしてはもと構造こうぞうしききや置換ちかんもと方向ほうこうなどの構造こうぞうしきたときの印象いんしょう完全かんぜんうしなわれるてんがある。ほかにも、標準ひょうじゅんSMILES記法きほうでは相対そうたい配置はいち絶対ぜったい配置はいち表現ひょうげんすることができない。

実例じつれい

編集へんしゅう
分子ぶんし 構造こうぞう SMILES記法きほう
窒素ちっそ N≡N N#N
イソシアンさんメチル (MIC) CH3N=C=O CN=C=O
硫酸りゅうさんどう(II) Cu2+ SO42- [Cu+2].[O-]S(=O)(=O)[O-]
エナントトキシン (C17H22O2)   CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO
ピレトリン II (C21H28O5)   COC(=O)C(\C)=C\C1C(C)(C)[C@H]1C(=O)O[C@@H]2C(C)=C(C(=O)C2)CC=CC=C
アフラトキシンB1 (C17H12O6)   O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
グルコース (glucose, glucopyranose) (C6H12O6)   OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@@H](O)1
クスクチンまたベルゲニン(天然てんねん樹脂じゅし) (C14H16O9)   OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
カリフォルニアしゅうカイガラムシフェロモン   CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
2S,5R-カルコガラン:キクイムシ(ホシガタキクイムシ(Pityogenes chalcographus))のフェロモン [5]   CC[C@H](O1)CC[C@@]12CCCO2
バニリン   O=Cc1ccc(O)c(OC)c1
メラトニン (C13H16N2O2)   CC(=O)NCCC1=CNc2c1cc(OC)cc2
フラボペレイリン (C17H15N2)   CCc(c1)ccc2[n+]1ccc3c2Nc4c3cccc4
ニコチン (C10H14N2)   CN1CCC[C@H]1c2cccnc2
ツジョン (C10H16O)   CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
チアミン (C12H17N4OS+)
(vitamine B1)
  OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2

脚注きゃくちゅう

編集へんしゅう
  1. ^ Daylight Theory: SMILES”. 2019ねん10がつ9にち閲覧えつらん
  2. ^ OpenSMILES specification” (2016ねん5がつ15にち). 2019ねん10がつ9にち閲覧えつらん
  3. ^ Daylight Theory: SMARTS - A Language for Describing Molecular”. 2019ねん10がつ9にち閲覧えつらん
  4. ^ Daylight Theory: SMIRKS - A Reaction Transform Language”. 2019ねん10がつ9にち閲覧えつらん
  5. ^ ISOLATION OF PHEROMONE SYNERGISTS OF BARK BEETLE, Pityogenes chalcographus, FROM COMPLEX INSECT-PLANT ODORS BY FRACTIONATION AND SUBTRACTIVE-COMBINATION BIOASSAY

関連かんれん項目こうもく

編集へんしゅう

外部がいぶリンク

編集へんしゅう