fbpx
维基百科

简化分子线性输入规范

简化分子线性输入规范(英語:Simplified molecular input line entry specification,簡稱SMILES),是一种用ASCII字符串明确描述分子结构的规范。

SMILES
扩展名.smi
互联网媒体类型chemical/x-daylight-smiles
格式类型化学文件格式
环丙沙星的 SMILES 生成算法:打开环,然后写成一条主链上的分支形式

SMILES字符串可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。转换成二维图形可以使用Helson的“结构图生成算法”(Structure Diagram Generation algorithms)[1]

最初的 SMILES 规范始于 1980 年代,已经被多次修改和扩展。 2007 年,开源化学社区开发了一个名为 OpenSMILES 的开放标准

历史

最初的 SMILES 规范由David Weininger在 1980 年代在德卢斯的 USEPA 大陆生态部实验室发起。 [2] [3] [4] [5]感谢他们在早期开发中的贡献:“Gilman Veith 和 Rose Russo (USEPA) 以及 Albert Leo 和Corwin Hansch (Pomona College) 支持这项工作,以及 Arthur Weininger (Pomona; Daylight CIS) 和 Jeremy Scofield (Cedar River Software, Renton, WA) 为系统编程提供帮助。” [6]环境保护署资助了开发 SMILES 的初始项目。 [7] [8]

它已被其他人或组织修改和扩展,例如日光化学信息系统(Daylight Chemical Information Systems)。 2007 年,Blue Obelisk开源化学社区开发了一个名为“OpenSMILES”的开放标准。其他字符串符号表示方法包括 Wiswesser Line Notation (WLN)、 ROSDAL和SLN (Tripos Inc)。

2006年7月,IUPAC引入了InChI作为公式表示的标准。 通常认为SMILES比InChI具有更易于人类可读的优点;它还拥有广泛的软件支持基础,具有广泛的理论支持(例如图论)。

术语

术语 SMILES 是指用于编码分子结构的行符号,特定实例应严格称为 SMILES 字符串。然而,术语 SMILES 也常用于指单个 SMILES 字符串和多个 SMILES 字符串。确切的含义通常从上下文中显而易见。当应用于 SMILES 时,术语“规范”和“异构”可能会导致一些混淆。这些术语描述了 SMILES 字符串的不同属性,并不相互排斥。

可以为一个分子通常具有多个同样有效的 SMILES 字符串。例如, CCOOCCC(O)C 都指定了乙醇的结构。为给定的分子生成相同的 SMILES 字符串的算法已经被开发完毕;这些算法在许多可能的字符串中只选择其中一个。依赖于用于生成它的规范化算法,这个 SMILES 对于每个结构都是唯一的,这个 SMILES 被称为规范 SMILES。这些算法首先将 SMILES 转换为分子结构的内部表示;然后算法会检查该结构并生成唯一的 SMILES 字符串。下面是一些包含用于生成规范 SMILES 的算法的工具,包括 Daylight Chemical Information Systems、 OpenEye Scientific Software 、 MEDIT 、 Chemical Computing Group 、 MolSoft LLC 和Chemistry Development Kit的算法。规范 SMILES 的一个常见应用是索引并确保数据库中分子的唯一性。

描述 CANGEN [9]算法的原始论文声称可以为表示分子的图形生成唯一的 SMILES 字符串,但该算法在许多简单情况下都失败了(例如cuneane 、1,2-二环丙基乙烷)并且被认为不能使用正确的方法典型地表示图形。 [10]目前没有跨商业软件的系统比较来测试这些软件包中是否存在此类缺陷。

SMILES 符号允许指定四面体中心的配置和双键几何形状。这些是不能仅由连接性指定的结构特征,因此编码此信息的 SMILES 称为异构 SMILES。这些规则的一个显着特征是它们允许对手性进行严格的部分说明。术语异构 SMILES 也适用于指定异构体的 SMILES。

基于图的定义

就基于图的计算过程而言,SMILES 是通过深度优先遍历分子结构式的中遇到的符号节点获得的字符串。首先去除图里氢原子,然后打开环以将其变成生成树。在环中断的地方插入包含数字后缀标签(相同数字的节点表示该两个原子相连)。括号用于表示支链。

生成的 SMILES 形式取决于选择:

SMILES 定义为上下文无关语言的字符串

从形式语言理论的角度来看,SMILES 是一个词。 SMILES 可以用上下文无关的解析器解析。基于相似分子具有相似特性的化学信息学的主要原理,这种表示的使用一直用于预测生化特性(包括毒性和生物降解性)。预测模型实现了句法模式识别方法(涉及定义分子距离) [11] ,以及基于统计模式识别的更强大的方案。 [12]

典范SMILES

典范SMILES保证每个化学分子只有一个SMILES表达式。典范SMILES常用于分子数据库的索引。

记法

原子

原子由方括号中的化学元素的标准缩写表示,例如[Au]表示。在以下原子的常见情况下可以省略括号:

  1. 属于BCNOPSFClBrI的“有机子集”
  2. 没有形式电荷
  3. 具有 SMILES 化合价模型所暗示的氢的数量(通常是它们的正常化合价,但对于 N 和 P,它是 3 或 5,对于 S,它是 2、4 或 6)
  4. 是正常同位素
  5. 不是手性中心

所有其他元素必须用括号括起来,并明确显示电荷和氢。例如,的 SMILES 可以写为O[OH2] 。氢也可以写成一个单独的原子;水也可以写成[H]O[H]

使用括号时,如果括号中的原子与一个或多个氢键合,则添加符号H ,如果大于 1,则添加氢原子数,然后添加符号+表示正电荷或-表示负电荷。例如, [NH4+]表示( NH+
4
)。如果有多个电荷,通常写为数字;但是,也可以根据离子的电荷多次重复该符号:对于(IV) Ti 4+ ,可以写为[Ti+4][Ti++++] 。因此,氢氧根阴离子OH ) 由[OH-]表示,水合氢阳离子 (H3O+)是[OH3+](III)阳离子(Co 3+ )是[Co+3][Co+++]

化学键

使用其中一个符号表示键. - = # $ : / \

除非另有说明,否则脂肪族化合物原子之间的键被假定为单键,并且通过 SMILES 字符串中的邻接来暗示。虽然单键可以写为- ,但通常省略。例如,乙醇的 SMILES 可以写成CCOCC-OC-CO ,但通常写成CCO

双键、三键和四分别用符号=#$表示,如 SMILES O=C=O二氧化碳)、 C#N氰化氢HCN)和[Ga+]$[As-]砷化镓)。

另一种键是“不成键”,用 表示., 表示两个部分没有粘合在一起。例如,氯化钠水溶液可写为[Na+].[Cl-]显示解离。

芳香味化合物的芳香键可以用: ,见下面的§ 环

与双键相邻的单键可以使用/\表示立体化学构型;见下面的§ 立体化学

为了形成无环结构,需要在所有环的任意点(某些特定的选择可能会使结果更简明)打断。添加数字标签以显示不相邻原子之间的连接性。

例如,环己烷二恶烷可以分别写成C1CCCCC1O1CCOCC1 。我们将第二个环的顺序编为2,例如,十氢化萘可以写为C1CCCC2C1CCCC2

这是一些符合SMILES规范但很少用的环号编码方法:

  • 环号的顺序可以是任意的
  • 在环结束之后可以重用环号
  • 可以使用0作为环号

但是这通常会使SMILES更难阅读。例如,环己基环己烷通常写为C1CCCCC1C2CCCCC2 ,但也可能写为C0CCCCC0C0CCCCC0

单个原子后的多个数字表示多个闭环键。例如,十氢化萘的另一种 SMILES 符号是C1CCCC2CCCCC12,其中最终的碳同时结束了环1和环2。

如果需要两位数的环号,则标签前面有% ,因此C%12是环12的单个闭环键。

环号前面可以有一个化学键符号用以指示闭环键的类型。例如,环丙烯通常写作C1=CC1,但如果选择双键作为闭环键,则可以写作C=1CC1C1CC=1C=1CC=1(尽量使用C1=CC1)。不可以对同一个闭环键指定多种类型,因此C=1CC-1是非法的。

Ring-closing bonds may not be used to denote multiple bonds. For example, C1C1 is not a valid alternative to C=C for ethylene. However, they may be used with non-bonds; C1.C2.C12 is a peculiar but legal alternative way to write propane, more commonly written CCC.

闭环键不能用于表示多重键。例如乙烯C1C1不是C=C的有效替代品。但它们可以与不成键一起使用C1.C2.C12是一种特殊但合法的书写丙烷的替代方式,更常见的是书写CCC

选择与支链相邻的断环点可以得出更简单的 SMILES 形式。例如,1,2-环己二醇最简单地写为OC1CCCCC1O。选择不同的位置断环会产生一个分支结构。

芳香环

诸如之类的芳香环可以写成以下三种形式之一:

  1. 具有交替单键和双键的凯库勒CC=CC=C1
  2. 使用芳香键符号: ,例如C1:C:C:C:C:C1
  3. 最常见的是,通过分别以小写形式bcnops编写构成 B、C、N、O、P 和 S 原子。

在最后一种情况下,允许未指出两个芳香原子之间的键是芳香键。因此,吡啶呋喃可以分别用 SMILES c1ccccc1n1ccccc1o1cccc1

吡咯中发现的与氢键合的芳香氮必须表示为[nH] ;因此咪唑用 SMILES 表示法写为n1c[nH]cc1

当芳族原子彼此单键时,必须明确显示单键。例如联苯c1ccccc1-c2ccccc2 。这是需要单键符号-的少数情况之一。(实际上大多数 SMILES 软件可以正确推断出两个环之间的键不能是芳香的,因此会接受非标准形式c1ccccc1c2ccccc2 。 )

用于生成规范 SMILES 的 Daylight 和 OpenEye 算法在处理芳香性方面有所不同。

 
3-氰基苯甲醚 表示为COc(c1)cccc1C#N

分支

支链用括号描述,如丙酸CCC(=O)O氟仿FC(F)F 。括号内的第一个原子和括号内的基团之后的第一个原子都与相同的分支点原子键合。化学键符号必须出现在括号内;外部(例如: CCC=(O)O )无效。

取代的环可以用环中的分支点书写,如编码 3 和 4-氰基苯甲醚异构体的 SMILES COc(c1)cccc1C#N (见图片 (页面存档备份,存于互联网档案馆))和COc(cc1)ccc1C#N (见图片)所示。以这种方式为替代环编写 SMILES 可以使它们更易于阅读。

可以按任何顺序编写分支。例如,二氟一氯一溴甲烷可写为FC(Br)(Cl)FBrC(F)(F)ClC(F)(Cl)(F)Br等。通常,如果较简单的分支出现在最前面,则 SMILES 表单最容易阅读,最后的未加括号的部分是最复杂的。这种重新排列的唯一警告是:

  • 如果环号被重复使用,它们将根据它们在 SMILES 字符串中出现的顺序进行配对。可能需要进行一些调整以保持正确的配对。
  • 如果指定了立体化学,则必须进行调整。

不需要括号的一种分支形式是闭环键。在合适的位置断环能减少括号的数量。例如,甲苯通常写成Cc1ccccc1c1ccccc1C ,避免写成c1cc(C)ccc1c1cc(ccc1)C时所需的括号。

立体化学

 
反-1,2-二氟乙烯

SMILES 允许但不要求对立体异构体进行规范。

双键周围的配置使用字符/\指定,以显示与双键相邻的定向单键。例如, F/C=C/F (见图示 (页面存档备份,存于互联网档案馆))是-1,2-二氟乙烯的一种表示,其中氟原子位于双键的相对两侧(如图所示),而F/C=C\F (见图示)是-1,2-二氟乙烯的一种可能表示形式,其中氟位于双键的同一侧。

键方向符号总是以至少两个为一组出现,其中第一个是任意的。也就是说, F\C=C\FF/C=C/F相同。当存在交替的单双键时,基团大于两个,中间方向符号与两个双键相邻。例如,(2,4)-己二烯的常见形式写作C/C=C/C=C/C (见图示 (页面存档备份,存于互联网档案馆))。

 
β-胡萝卜素,突出显示了 11 个双键

作为一个更复杂的例子, β-胡萝卜素有一个很长的单键和双键交替的主链,可以写成CC1CCC/C(C)=C1/C=C/C(C)=C/C=C/C(C)=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C2=C(C)/CCCC2(C)C (见图示 (页面存档备份,存于互联网档案馆))。

手性碳的顺序由@@@指定。按从字符串左侧到右侧的顺序以顺序规则考虑四个键。从第一个键的角度看向碳,其他三个是顺时针@@或逆时针@(因为@符号本身是逆时针螺旋)。

 
L-丙氨酸

例如,考虑丙氨酸。它的 SMILES 形式之一是NC(C)C(=O)O ,更完整地写为N[CH](C)C(=O)OL-丙氨酸,更常见的一种对映异构体,写作N[C@@H](C)C(=O)O (见描述 (页面存档备份,存于互联网档案馆))。从氮碳键看,氢 ( H )、甲基 ( C ) 和羧酸盐 ( C(=O)O ) 基团顺时针出现。 D -丙氨酸可以写成N[C@H](C)C(=O)O (见描述 (页面存档备份,存于互联网档案馆))。

虽然在 SMILES 中指定分支的顺序通常并不重要,但在这种情况下它很重要;交换任何两个组需要反转手性指标。如果分支颠倒,因此丙氨酸写为NC(C(=O)O)C ,那么配置也会颠倒; L-丙氨酸写为N[C@H](C(=O)O)C (见描述 (页面存档备份,存于互联网档案馆))。其他写法包括C[C@H](N)C(=O)O, OC(=O)[C@@H](N)COC(=O)[C@H](C)N

第一个键通常出现在手性碳原子的左侧,但如果 SMILES 以手性碳开头,例如C(C)(N)C(=O)O ,那么所有四个键都是右边。但最先出现的(在这种情况下是[CH]键)被用作对以下三个进行排序的参考: L -丙氨酸也可以写作[C@@H](C)(N)C(=O)O

SMILES 规范包括对@符号的详细说明,以指示更复杂的手性中心周围的立体化学,例如双三角锥形分子构型

同位素

同位素的指定数字等于原子符号前的整数同位素质量。其中一个原子是碳14写成[14c]1ccccc1氘代氯仿写成[2H]C(Cl)(Cl)Cl

例子

分子 结构 SMILES
氮气 N≡N N#N
异氰酸甲酯(MIC) CH3−N=C=O CN=C=O
硫酸铜 (II) Cu2+SO2−
4
[Cu+2].[O-]S(=O)(=O)[O-]
香兰素   O=Cc1ccc(O)c(OC)c1COc1cc(C=O)ccc1O
褪黑激素(C13H16N2O2)   CC(=O)NCCC1=CNc2c1cc(OC)cc2CC(=O)NCCc1c[nH]c2ccc(OC)cc12
Flavopereirin(C17H15N2)

//译者翻不出来,希望有人能帮忙补全

  CCc(c1)ccc2[n+]1ccc3c2[nH]c4c3cccc4CCc1c[n+]2ccc3c4ccccc4[nH]c3c2cc1
尼古丁(C10H14N2)   CN1CCC[C@H]1c2cccnc2
鱼尾藻毒素(C17H22O2)   CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\COCCC[C@@H](O)CC/C=C/C=C/C#CC#C/C=C/CO
除虫菊素II(C22H28O5)   CC1=C(C(=O)C[C@@H]1OC(=O)[C@@H]2[C@H](C2(C)C)/C=C(\C)/C(=O)OC)C/C=C\C=C
黄曲霉毒素B1(C17H12O6)   O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
葡萄糖(β- D-吡喃葡萄糖)(C6H12O6)   OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@H](O)1
Bergenin(cuscutin,一种树脂)(C14H16O9)

//译者翻不出来,希望有人能帮忙补全

  OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
加利福尼亚介壳虫的一种信息素   CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
(2 S ,5 R )-Chalcogran

树皮甲虫Pityogenes chalcographus [13]信息素

  CC[C@H](O1)CC[C@@]12CCCO2
α-Thujone(C10H16O)   CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
硫胺素(维生素B1)(C12H17N4OS+   OCCc1c(C)[n+](cs1)Cc2cnc(C)nc2N

为了说明具有超过 9 个环的分子,请考虑头孢他汀 -1, [14]一种具有经验式C 54 H 74 N 2 O 10的甾体 13 环吡嗪,从印度洋半脊索动物Cephalodiscus gilchristi中分离出来:

 

从图中最左边的甲基开始:

CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO

注意%出现在 9 以上的闭环标签索引前面;见§ 环上面的§ 环

SMILES 的其他例子

SMILES 符号在 Daylight Chemical Information Systems 提供的 SMILES 理论手册中进行了广泛的描述,并提供了许多说明性示例。 Daylight 的描绘实用程序为用户提供了检查他们自己的 SMILES 示例的方法,并且是一种有价值的教育工具。

发展

SMARTS是SMILES基础之上的改进版。SMARTS中增加的一点是,它允许使用通配符表示原子和化学键。因此,它在化合物数据库中广泛用于结构的计算机化搜索。这种搜索的机理是先通过输入的SMILES式重构化学式,再搜索子图的同形;而不是直接通过SMILES式的对比完成的。

USMILES(有时成为广义SMILES),这种“Unique SMILES”是日光化学信息系统有限公司关于结构的规范表达。不管内部原子的编码顺序如何,通过这种算法总可以得到关于化合物规范的、无歧义的、唯一的描述(化学结构表达的唯一性,可参见国际化合物标识)。

SMIRKS 是“reaction SMILES”的超集和“reaction SMARTS”的子集,是用于指定反应变换的线符号。反应扩展的一般语法是REACTANT > AGENT > PRODUCT (不带空格),其中任何字段可以留空或填充以点 ( . ) 分隔的多个分子,以及其他依赖于基本语言的描述。原子还可以用数字标识(例如[C:1] ) 用于映射,例如[15]在 . [16]

SMILES 对应于离散的分子结构。然而,许多材料都是大分子,它们太大(而且通常是随机的),无法方便地为其生成 SMILES。 BigSMILES 是 SMILES 的扩展,旨在为大分子提供有效的表示系统。 [17]

转换

可以使用结构图生成 (SDG) 算法将 SMILES 转换回二维表示。 [18]这种转换并不总是明确的。通过能量最小化方法实现向三维表示的转换。有许多可下载和基于 Web 的转换实用程序。

其他记法及比较

其他著名的线性记法包括維斯威歇線性表示式Wiswesser Line Notation,WLN),ROSDAL和SLN。最近国际纯粹与应用化学联合会推荐国际化合物标识作为标准的分子式表达式。

然而普遍认为,SMILES与InChI相比更具有(對人來說的)可读性;而且很多软件都支持SMILES,其中不少软件都具有图论等方面的理论基础。

另请参照

外部链接


  1. ^ Helson, Harold E. Structure Diagram Generation. Lipkowitz, Kenny B. (编). Reviews in Computational Chemistry. Hoboken, NJ, USA: John Wiley & Sons, Inc. 2007-01-05: 313–398 [2022-02-22]. ISBN 978-0-470-12590-8. doi:10.1002/9780470125908.ch6. (原始内容于2022-04-21). 
  2. ^ SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules. Journal of Chemical Information and Computer Sciences. February 1988, 28 (1): 31–6. doi:10.1021/ci00057a005. 
  3. ^ SMILES. 2. Algorithm for generation of unique SMILES notation. Journal of Chemical Information and Modeling. May 1989, 29 (2): 97–101. doi:10.1021/ci00062a008. 
  4. ^ SMILES. 3. DEPICT. Graphical depiction of chemical structures. Journal of Chemical Information and Modeling. August 1990, 30 (3): 237–43. doi:10.1021/ci00067a005. 
  5. ^ https://wayback.archive-it.org/2118/20100925010036/http://64.251.202.97/pubs/asist2002/17-swanson.pdf |chapterurl=缺少标题 (帮助) (PDF). The Entrance of Informatics into Combinatorial Chemistry. Medford, NJ: Information Today. 2004: 205. ISBN 978-1-57387-229-4. 
  6. ^ Acknowledgements on Daylight Tutorial smiles-etc page. 1998 [24 June 2013]. (原始内容于2022-04-24). 
  7. ^ SMILES: A line notation and computerized interpreter for chemical structures (PDF). Duluth, MN: U.S. EPA, Environmental Research Laboratory-Duluth. 1987 [2022-04-18]. Report No. EPA/600/M-87/021. (原始内容 (PDF)于2022-04-11). 
  8. ^ . U.S. EPA. [2012-09-23]. (原始内容存档于28 March 2008). 
  9. ^ SMILES. 2. Algorithm for generation of unique SMILES notation. Journal of Chemical Information and Modeling. May 1989, 29 (2): 97–101. doi:10.1021/ci00062a008. 
  10. ^ https://doi.org/10.1007%2F11530084_13 |chapterurl=缺少标题 (帮助). Assigning Unique Keys to Chemical Compounds for Data Integration: Some Interesting Counter Examples. Lecture Notes in Computer Science 3615. Berlin: Springer. 2005: 145–157 [2013-02-12]. ISBN 978-3-540-27967-9. doi:10.1007/11530084_13. 
  11. ^ NLP-inspired structural pattern recognition in chemical application.. Pattern Recognition Letters. August 2014, 45: 11–16. doi:10.1016/j.patrec.2014.02.012. 
  12. ^ Bridging from syntactic to statistical methods: Classification with automatically segmented features from sequences.. Pattern Recognition. November 2015, 48 (11): 3749–3756. doi:10.1016/j.patcog.2015.05.001. 
  13. ^ Isolation of pheromone synergists of bark beetle,Pityogenes chalcographus, from complex insect-plant odors by fractionation and subtractive-combination bioassay. Journal of Chemical Ecology. March 1990, 16 (3): 861–876. PMID 24263601. doi:10.1007/BF01016496. 
  14. ^ CID 183413. PubChem. [May 12, 2012]. (原始内容于2022-05-25) (英语). 
  15. ^ SMIRKS Tutorial. Daylight Chemical Information Systems, Inc. [29 October 2018]. (原始内容于2022-06-15). 
  16. ^ Reaction SMILES and SMIRKS. Daylight Chemical Information Systems, Inc. [29 October 2018]. (原始内容于2022-01-19). 
  17. ^ BigSMILES: A Structurally-Based Line Notation for Describing Macromolecules. ACS Central Science. September 2019, 5 (9): 1523–1531. PMC 6764162 . PMID 31572779. doi:10.1021/acscentsci.9b00476. 
  18. ^ Reviews in Computational Chemistry 13. New York: Wiley-VCH. 1999: 313–398. ISBN 978-0-470-12590-8. doi:10.1002/9780470125908.ch6. 

简化分子线性输入规范, 英語, simplified, molecular, input, line, entry, specification, 簡稱smiles, 是一种用ascii字符串明确描述分子结构的规范, smiles扩展名, smi互联网, 媒体类型chemical, daylight, smiles格式类型化学文件格式环丙沙星的, smiles, 生成算法, 打开环, 然后写成一条主链上的分支形式, smiles字符串可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型, 转换成二维图形可以. 简化分子线性输入规范 英語 Simplified molecular input line entry specification 簡稱SMILES 是一种用ASCII字符串明确描述分子结构的规范 SMILES扩展名 smi互联网 媒体类型chemical x daylight smiles格式类型化学文件格式环丙沙星的 SMILES 生成算法 打开环 然后写成一条主链上的分支形式 SMILES字符串可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型 转换成二维图形可以使用Helson的 结构图生成算法 Structure Diagram Generation algorithms 1 最初的 SMILES 规范始于 1980 年代 已经被多次修改和扩展 2007 年 开源化学社区开发了一个名为 OpenSMILES 的开放标准 目录 1 历史 2 术语 3 基于图的定义 4 SMILES 定义为上下文无关语言的字符串 5 典范SMILES 6 记法 6 1 原子 6 2 化学键 6 3 环 6 4 芳香环 6 5 分支 6 6 立体化学 6 7 同位素 6 8 例子 6 9 SMILES 的其他例子 7 发展 8 转换 9 其他记法及比较 10 另请参照 11 外部链接历史 编辑最初的 SMILES 规范由David Weininger在 1980 年代在德卢斯的 USEPA 大陆生态部实验室发起 2 3 4 5 感谢他们在早期开发中的贡献 Gilman Veith 和 Rose Russo USEPA 以及 Albert Leo 和Corwin Hansch Pomona College 支持这项工作 以及 Arthur Weininger Pomona Daylight CIS 和 Jeremy Scofield Cedar River Software Renton WA 为系统编程提供帮助 6 环境保护署资助了开发 SMILES 的初始项目 7 8 它已被其他人或组织修改和扩展 例如日光化学信息系统 Daylight Chemical Information Systems 2007 年 Blue Obelisk开源化学社区开发了一个名为 OpenSMILES 的开放标准 其他字符串符号表示方法包括 Wiswesser Line Notation WLN ROSDAL和SLN Tripos Inc 2006年7月 IUPAC引入了InChI作为公式表示的标准 通常认为SMILES比InChI具有更易于人类可读的优点 它还拥有广泛的软件支持基础 具有广泛的理论支持 例如图论 术语 编辑术语 SMILES 是指用于编码分子结构的行符号 特定实例应严格称为 SMILES 字符串 然而 术语 SMILES 也常用于指单个 SMILES 字符串和多个 SMILES 字符串 确切的含义通常从上下文中显而易见 当应用于 SMILES 时 术语 规范 和 异构 可能会导致一些混淆 这些术语描述了 SMILES 字符串的不同属性 并不相互排斥 可以为一个分子通常具有多个同样有效的 SMILES 字符串 例如 CCO OCC 和 C O C 都指定了乙醇的结构 为给定的分子生成相同的 SMILES 字符串的算法已经被开发完毕 这些算法在许多可能的字符串中只选择其中一个 依赖于用于生成它的规范化算法 这个 SMILES 对于每个结构都是唯一的 这个 SMILES 被称为规范 SMILES 这些算法首先将 SMILES 转换为分子结构的内部表示 然后算法会检查该结构并生成唯一的 SMILES 字符串 下面是一些包含用于生成规范 SMILES 的算法的工具 包括 Daylight Chemical Information Systems OpenEye Scientific Software MEDIT Chemical Computing Group MolSoft LLC 和Chemistry Development Kit的算法 规范 SMILES 的一个常见应用是索引并确保数据库中分子的唯一性 描述 CANGEN 9 算法的原始论文声称可以为表示分子的图形生成唯一的 SMILES 字符串 但该算法在许多简单情况下都失败了 例如cuneane 1 2 二环丙基乙烷 并且被认为不能使用正确的方法典型地表示图形 10 目前没有跨商业软件的系统比较来测试这些软件包中是否存在此类缺陷 SMILES 符号允许指定四面体中心的配置和双键几何形状 这些是不能仅由连接性指定的结构特征 因此编码此信息的 SMILES 称为异构 SMILES 这些规则的一个显着特征是它们允许对手性进行严格的部分说明 术语异构 SMILES 也适用于指定异构体的 SMILES 基于图的定义 编辑就基于图的计算过程而言 SMILES 是通过深度优先遍历分子结构式的中遇到的符号节点获得的字符串 首先去除图里氢原子 然后打开环以将其变成生成树 在环中断的地方插入包含数字后缀标签 相同数字的节点表示该两个原子相连 括号用于表示支链 生成的 SMILES 形式取决于选择 选择打破周期的化学键 用于深度优先遍历的起始原子 顺序规则SMILES 定义为上下文无关语言的字符串 编辑从形式语言理论的角度来看 SMILES 是一个词 SMILES 可以用上下文无关的解析器解析 基于相似分子具有相似特性的化学信息学的主要原理 这种表示的使用一直用于预测生化特性 包括毒性和生物降解性 预测模型实现了句法模式识别方法 涉及定义分子距离 11 以及基于统计模式识别的更强大的方案 12 典范SMILES 编辑维基数据中的相关属性 规范SMILES P233 使用情况 異構簡化分子線型輸入規範 P2017 使用情况 典范SMILES保证每个化学分子只有一个SMILES表达式 典范SMILES常用于分子数据库的索引 记法 编辑原子 编辑 原子由方括号中的化学元素的标准缩写表示 例如 Au 表示金 在以下原子的常见情况下可以省略括号 属于B C N O P S F Cl Br或I的 有机子集 没有形式电荷 具有 SMILES 化合价模型所暗示的氢的数量 通常是它们的正常化合价 但对于 N 和 P 它是 3 或 5 对于 S 它是 2 4 或 6 是正常同位素 不是手性中心所有其他元素必须用括号括起来 并明确显示电荷和氢 例如 水的 SMILES 可以写为O或 OH2 氢也可以写成一个单独的原子 水也可以写成 H O H 使用括号时 如果括号中的原子与一个或多个氢键合 则添加符号H 如果大于 1 则添加氢原子数 然后添加符号 表示正电荷或 表示负电荷 例如 NH4 表示铵 NH 4 如果有多个电荷 通常写为数字 但是 也可以根据离子的电荷多次重复该符号 对于钛 IV Ti 4 可以写为 Ti 4 或 Ti 因此 氢氧根阴离子 OH 由 OH 表示 水合氢阳离子 H3O 是 OH3 钴 III 阳离子 Co 3 是 Co 3 或 Co 化学键 编辑 使用其中一个符号表示键 除非另有说明 否则脂肪族化合物原子之间的键被假定为单键 并且通过 SMILES 字符串中的邻接来暗示 虽然单键可以写为 但通常省略 例如 乙醇的 SMILES 可以写成CCO CC O或C CO 但通常写成CCO 双键 三键和四键分别用符号 和 表示 如 SMILES O C O 二氧化碳 C N 氰化氢HCN 和 Ga As 砷化镓 另一种键是 不成键 用 表示 表示两个部分没有粘合在一起 例如 氯化钠水溶液可写为 Na Cl 显示解离 芳香味化合物的芳香键可以用 见下面的 环 与双键相邻的单键可以使用 或 表示立体化学构型 见下面的 立体化学 环 编辑 为了形成无环结构 需要在所有环的任意点 某些特定的选择可能会使结果更简明 打断 添加数字标签以显示不相邻原子之间的连接性 例如 环己烷和二恶烷可以分别写成C1CCCCC1和O1CCOCC1 我们将第二个环的顺序编为2 例如 十氢化萘可以写为C1CCCC2C1CCCC2 这是一些符合SMILES规范但很少用的环号编码方法 环号的顺序可以是任意的 在环结束之后可以重用环号 可以使用0作为环号但是这通常会使SMILES更难阅读 例如 环己基环己烷通常写为C1CCCCC1C2CCCCC2 但也可能写为C0CCCCC0C0CCCCC0 单个原子后的多个数字表示多个闭环键 例如 十氢化萘的另一种 SMILES 符号是C1CCCC2CCCCC12 其中最终的碳同时结束了环1和环2 如果需要两位数的环号 则标签前面有 因此C 12是环12的单个闭环键 环号前面可以有一个化学键符号用以指示闭环键的类型 例如 环丙烯通常写作C1 CC1 但如果选择双键作为闭环键 则可以写作C 1CC1 C1CC 1或C 1CC 1 尽量使用C1 CC1 不可以对同一个闭环键指定多种类型 因此C 1CC 1是非法的 Ring closing bonds may not be used to denote multiple bonds For example C1C1 is not a valid alternative to C C for ethylene However they may be used with non bonds C1 C2 C12 is a peculiar but legal alternative way to write propane more commonly written CCC 闭环键不能用于表示多重键 例如乙烯 C1C1不是C C的有效替代品 但它们可以与不成键一起使用 C1 C2 C12是一种特殊但合法的书写丙烷的替代方式 更常见的是书写CCC 选择与支链相邻的断环点可以得出更简单的 SMILES 形式 例如 1 2 环己二醇最简单地写为OC1CCCCC1O 选择不同的位置断环会产生一个分支结构 芳香环 编辑 诸如苯之类的芳香环可以写成以下三种形式之一 具有交替单键和双键的凯库勒式CC CC C1 使用芳香键符号 例如C1 C C C C C1 最常见的是 通过分别以小写形式b c n o p和s编写构成 B C N O P 和 S 原子 在最后一种情况下 允许未指出两个芳香原子之间的键是芳香键 因此 苯 吡啶和呋喃可以分别用 SMILES c1ccccc1 n1ccccc1和o1cccc1 在吡咯中发现的与氢键合的芳香氮必须表示为 nH 因此咪唑用 SMILES 表示法写为n1c nH cc1 当芳族原子彼此单键时 必须明确显示单键 例如联苯c1ccccc1 c2ccccc2 这是需要单键符号 的少数情况之一 实际上大多数 SMILES 软件可以正确推断出两个环之间的键不能是芳香的 因此会接受非标准形式c1ccccc1c2ccccc2 用于生成规范 SMILES 的 Daylight 和 OpenEye 算法在处理芳香性方面有所不同 将 3 氰基苯甲醚 表示为COc c1 cccc1C N 分支 编辑 支链用括号描述 如丙酸的CCC O O和氟仿的FC F F 括号内的第一个原子和括号内的基团之后的第一个原子都与相同的分支点原子键合 化学键符号必须出现在括号内 外部 例如 CCC O O 无效 取代的环可以用环中的分支点书写 如编码 3 和 4 氰基苯甲醚异构体的 SMILES COc c1 cccc1C N 见图片 页面存档备份 存于互联网档案馆 和COc cc1 ccc1C N 见图片 所示 以这种方式为替代环编写 SMILES 可以使它们更易于阅读 可以按任何顺序编写分支 例如 二氟一氯一溴甲烷可写为FC Br Cl F BrC F F Cl C F Cl F Br等 通常 如果较简单的分支出现在最前面 则 SMILES 表单最容易阅读 最后的未加括号的部分是最复杂的 这种重新排列的唯一警告是 如果环号被重复使用 它们将根据它们在 SMILES 字符串中出现的顺序进行配对 可能需要进行一些调整以保持正确的配对 如果指定了立体化学 则必须进行调整 不需要括号的一种分支形式是闭环键 在合适的位置断环能减少括号的数量 例如 甲苯通常写成Cc1ccccc1或c1ccccc1C 避免写成c1cc C ccc1或c1cc ccc1 C时所需的括号 立体化学 编辑 反 1 2 二氟乙烯 SMILES 允许但不要求对立体异构体进行规范 双键周围的配置使用字符 和 指定 以显示与双键相邻的定向单键 例如 F C C F 见图示 页面存档备份 存于互联网档案馆 是反 1 2 二氟乙烯的一种表示 其中氟原子位于双键的相对两侧 如图所示 而F C C F 见图示 是顺 1 2 二氟乙烯的一种可能表示形式 其中氟位于双键的同一侧 键方向符号总是以至少两个为一组出现 其中第一个是任意的 也就是说 F C C F与F C C F相同 当存在交替的单双键时 基团大于两个 中间方向符号与两个双键相邻 例如 2 4 己二烯的常见形式写作C C C C C C 见图示 页面存档备份 存于互联网档案馆 b 胡萝卜素 突出显示了 11 个双键 作为一个更复杂的例子 b 胡萝卜素有一个很长的单键和双键交替的主链 可以写成CC1CCC C C C1 C C C C C C C C C C C C C C C C C C C C C C C2 C C CCCC2 C C 见图示 页面存档备份 存于互联网档案馆 手性碳的顺序由 或 指定 按从字符串左侧到右侧的顺序以顺序规则考虑四个键 从第一个键的角度看向碳 其他三个是顺时针 或逆时针 因为 符号本身是逆时针螺旋 L 丙氨酸 例如 考虑丙氨酸 它的 SMILES 形式之一是NC C C O O 更完整地写为N CH C C O O L 丙氨酸 更常见的一种对映异构体 写作N C H C C O O 见描述 页面存档备份 存于互联网档案馆 从氮碳键看 氢 H 甲基 C 和羧酸盐 C O O 基团顺时针出现 D 丙氨酸可以写成N C H C C O O 见描述 页面存档备份 存于互联网档案馆 虽然在 SMILES 中指定分支的顺序通常并不重要 但在这种情况下它很重要 交换任何两个组需要反转手性指标 如果分支颠倒 因此丙氨酸写为NC C O O C 那么配置也会颠倒 L 丙氨酸写为N C H C O O C 见描述 页面存档备份 存于互联网档案馆 其他写法包括C C H N C O O OC O C H N C和OC O C H C N 第一个键通常出现在手性碳原子的左侧 但如果 SMILES 以手性碳开头 例如C C N C O O 那么所有四个键都是右边 但最先出现的 在这种情况下是 CH 键 被用作对以下三个进行排序的参考 L 丙氨酸也可以写作 C H C N C O O SMILES 规范包括对 符号的详细说明 以指示更复杂的手性中心周围的立体化学 例如双三角锥形分子构型 同位素 编辑 同位素的指定数字等于原子符号前的整数同位素质量 其中一个原子是碳14的苯写成 14c 1ccccc1 氘代氯仿写成 2H C Cl Cl Cl 例子 编辑 分子 结构 SMILES氮气 N N N N异氰酸甲酯 MIC CH3 N C O CN C O硫酸铜 II Cu2 SO2 4 Cu 2 O S O O O 香兰素 O Cc1ccc O c OC c1COc1cc C O ccc1O褪黑激素 C13H16N2O2 CC O NCCC1 CNc2c1cc OC cc2CC O NCCc1c nH c2ccc OC cc12Flavopereirin C17H15N2 译者翻不出来 希望有人能帮忙补全 CCc c1 ccc2 n 1ccc3c2 nH c4c3cccc4CCc1c n 2ccc3c4ccccc4 nH c3c2cc1尼古丁 C10H14N2 CN1CCC C H 1c2cccnc2鱼尾藻毒素 C17H22O2 CCC C H O CC C C C C C CC C C C COCCC C H O CC C C C C C CC C C C CO除虫菊素II C22H28O5 CC1 C C O C C H 1OC O C H 2 C H C2 C C C C C C O OC C C C C C黄曲霉毒素B1 C17H12O6 O1C C C H C H 1O2 c3c2cc OC c4c3OC O C5 C4CCC O 5葡萄糖 b D 吡喃葡萄糖 C6H12O6 OC C H O1 C H O C H O C H O C H O 1Bergenin cuscutin 一种树脂 C14H16O9 译者翻不出来 希望有人能帮忙补全 OC C H O1 C H O C H O C H 2 C H 1c3c O c OC c O cc3C O O2加利福尼亚介壳虫的一种信息素 CC O OCCC C C C C H C C C CCC C 2 S 5 R Chalcogran 树皮甲虫Pityogenes chalcographus 13 的信息素 CC C H O1 CC C 12CCCO2a Thujone C10H16O CC C C 12C C H 1 C H C C O C2硫胺素 维生素B1 C12H17N4OS OCCc1c C n cs1 Cc2cnc C nc2N为了说明具有超过 9 个环的分子 请考虑头孢他汀 1 14 一种具有经验式C 54 H 74 N 2 O 10的甾体 13 环吡嗪 从印度洋半脊索动物Cephalodiscus gilchristi中分离出来 从图中最左边的甲基开始 CC C O1 C C H O C 1 O2 C H C C H 3CC C4 C 3 C2 C O C C H 5 C H 4CC C H C6 C 5 C Cc n7 c6nc C C 89 C c7C C H 8CC C H 10 C H 9C C H O C 11 C C 10 C C H O 12 C 11 O C H C C 12 O 13 C H O C C 13 C CO注意 出现在 9 以上的闭环标签索引前面 见 环上面的 环 SMILES 的其他例子 编辑 SMILES 符号在 Daylight Chemical Information Systems 提供的 SMILES 理论手册中进行了广泛的描述 并提供了许多说明性示例 Daylight 的描绘实用程序为用户提供了检查他们自己的 SMILES 示例的方法 并且是一种有价值的教育工具 发展 编辑SMARTS是SMILES基础之上的改进版 SMARTS中增加的一点是 它允许使用通配符表示原子和化学键 因此 它在化合物数据库中广泛用于结构的计算机化搜索 这种搜索的机理是先通过输入的SMILES式重构化学式 再搜索子图的同形 而不是直接通过SMILES式的对比完成的 USMILES 有时成为广义SMILES 这种 Unique SMILES 是日光化学信息系统有限公司关于结构的规范表达 不管内部原子的编码顺序如何 通过这种算法总可以得到关于化合物规范的 无歧义的 唯一的描述 化学结构表达的唯一性 可参见国际化合物标识 SMIRKS 是 reaction SMILES 的超集和 reaction SMARTS 的子集 是用于指定反应变换的线符号 反应扩展的一般语法是REACTANT gt AGENT gt PRODUCT 不带空格 其中任何字段可以留空或填充以点 分隔的多个分子 以及其他依赖于基本语言的描述 原子还可以用数字标识 例如 C 1 用于映射 例如 15 在 16 SMILES 对应于离散的分子结构 然而 许多材料都是大分子 它们太大 而且通常是随机的 无法方便地为其生成 SMILES BigSMILES 是 SMILES 的扩展 旨在为大分子提供有效的表示系统 17 转换 编辑可以使用结构图生成 SDG 算法将 SMILES 转换回二维表示 18 这种转换并不总是明确的 通过能量最小化方法实现向三维表示的转换 有许多可下载和基于 Web 的转换实用程序 其他记法及比较 编辑其他著名的线性记法包括維斯威歇線性表示式 Wiswesser Line Notation WLN ROSDAL和SLN 最近国际纯粹与应用化学联合会推荐国际化合物标识作为标准的分子式表达式 然而普遍认为 SMILES与InChI相比更具有 對人來說的 可读性 而且很多软件都支持SMILES 其中不少软件都具有图论等方面的理论基础 另请参照 编辑SMILES 任意目标规范 SMARTS SMILES 的扩展 用于规范子结构查询 SYBYL Line Notation 另一种行符号 国际化学品标识符 InChI IUPAC的 SMILES 替代品 Molecular Query Language 一种查询语言 也允许数值属性 例如物理化学值或距离 化学开发套件 二维布局和转换软件 OpenBabel JOELib OELib 转换 外部链接 编辑SMILES指南 http www daylight com smiles index html 页面存档备份 存于互联网档案馆 在线SMILES式二维图片转换软件 https web archive org web 20011202023429 http www daylight com daycgi depict https web archive org web 20041015134803 http cactus nci nih gov services gifcreator converter with more controls 能生成SMILES的分子编辑器软件 http www molinspiration com jme index html 页面存档备份 存于互联网档案馆 SMILES分析 http www dalkescientific com writings diary archive 页面存档备份 存于互联网档案馆 自由SMILES转换软件 http www acdlabs com download chemsk html 页面存档备份 存于互联网档案馆 SMILES式三维模型转换软件 http jmol sourceforge net 页面存档备份 存于互联网档案馆 JSDraw 页面存档备份 存于互联网档案馆 能生成SMILES SMILES Depictor Helson Harold E Structure Diagram Generation Lipkowitz Kenny B 编 Reviews in Computational Chemistry Hoboken NJ USA John Wiley amp Sons Inc 2007 01 05 313 398 2022 02 22 ISBN 978 0 470 12590 8 doi 10 1002 9780470125908 ch6 原始内容存档于2022 04 21 SMILES a chemical language and information system 1 Introduction to methodology and encoding rules Journal of Chemical Information and Computer Sciences February 1988 28 1 31 6 doi 10 1021 ci00057a005 SMILES 2 Algorithm for generation of unique SMILES notation Journal of Chemical Information and Modeling May 1989 29 2 97 101 doi 10 1021 ci00062a008 SMILES 3 DEPICT Graphical depiction of chemical structures Journal of Chemical Information and Modeling August 1990 30 3 237 43 doi 10 1021 ci00067a005 https wayback archive it org 2118 20100925010036 http 64 251 202 97 pubs asist2002 17 swanson pdf chapterurl 缺少标题 帮助 PDF The Entrance of Informatics into Combinatorial Chemistry Medford NJ Information Today 2004 205 ISBN 978 1 57387 229 4 Acknowledgements on Daylight Tutorial smiles etc page 1998 24 June 2013 原始内容存档于2022 04 24 SMILES A line notation and computerized interpreter for chemical structures PDF Duluth MN U S EPA Environmental Research Laboratory Duluth 1987 2022 04 18 Report No EPA 600 M 87 021 原始内容存档 PDF 于2022 04 11 SMILES Tutorial What is SMILES U S EPA 2012 09 23 原始内容存档于28 March 2008 SMILES 2 Algorithm for generation of unique SMILES notation Journal of Chemical Information and Modeling May 1989 29 2 97 101 doi 10 1021 ci00062a008 https doi org 10 1007 2F11530084 13 chapterurl 缺少标题 帮助 Assigning Unique Keys to Chemical Compounds for Data Integration Some Interesting Counter Examples Lecture Notes in Computer Science 3615 Berlin Springer 2005 145 157 2013 02 12 ISBN 978 3 540 27967 9 doi 10 1007 11530084 13 NLP inspired structural pattern recognition in chemical application Pattern Recognition Letters August 2014 45 11 16 doi 10 1016 j patrec 2014 02 012 Bridging from syntactic to statistical methods Classification with automatically segmented features from sequences Pattern Recognition November 2015 48 11 3749 3756 doi 10 1016 j patcog 2015 05 001 Isolation of pheromone synergists of bark beetle Pityogenes chalcographus from complex insect plant odors by fractionation and subtractive combination bioassay Journal of Chemical Ecology March 1990 16 3 861 876 PMID 24263601 doi 10 1007 BF01016496 CID 183413 PubChem May 12 2012 原始内容存档于2022 05 25 英语 SMIRKS Tutorial Daylight Chemical Information Systems Inc 29 October 2018 原始内容存档于2022 06 15 Reaction SMILES and SMIRKS Daylight Chemical Information Systems Inc 29 October 2018 原始内容存档于2022 01 19 BigSMILES A Structurally Based Line Notation for Describing Macromolecules ACS Central Science September 2019 5 9 1523 1531 PMC 6764162 PMID 31572779 doi 10 1021 acscentsci 9b00476 引文格式1维护 显示 作者 link Reviews in Computational Chemistry 13 New York Wiley VCH 1999 313 398 ISBN 978 0 470 12590 8 doi 10 1002 9780470125908 ch6 取自 https zh wikipedia org w index php title 简化分子线性输入规范 amp oldid 74902443, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。