fbpx
维基百科

化学数据库

化学数据库是为记录化学信息而专门设计的数据库。这些信息包括了物质的分子结构晶体结构、谱学信息、相关反应与合成方法,以及化学热力学性质数据等。

化学数据库的种类 编辑

分子结构数据库 编辑

一般来说,用二维键线式来描述分子结构,对大多数小分子而言是较为常见的方法。尽管这种表述方法对化学家们来说简单明了,却不适合于在数据库中的存储和搜索算法的编写。因此在数据库中小分子(在药物设计领域也常称为配体)通常以将分子中的原子及其键连列表的方式描述,而大分子如蛋白质等,则常用氨基酸组装单元序列等更紧凑的方式表示。

化学文献数据库 编辑

化学文献数据库的目的是将化学物质与相关文献——如科学论文或专利——关联起来。此类数据库的典型代表如化学文摘社STNSciFinder。许多专注于物质表征的数据库都提供了文献链接。

晶体学数据库 编辑

晶体学数据库主要提供物质的X射线衍射数据。这些数据反映了物质的结构信息。最典型的代表是蛋白质资料库和剑桥晶体学数据库。

核磁共振谱数据库 编辑

核磁共振谱数据库提供物质的核磁共振波谱信息。这类数据库一般也提供物质的其他谱学信息,如傅立叶变换红外吸收光谱质谱等。

反应数据库 编辑

大多数数据库所记录的都是稳态分子的信息,但也有一些反应数据库,着重记录反应中瞬间产生的亚稳态分子或中间体。这类反应数据库一般还会提供反应前驱物、产物和反应机理的信息。

热物理学性质数据库 编辑

热物理学性质包括以下方面:

分子结构的表示 编辑

在数字化的化学数据库中,分子结构一般有两种表示方法,包括:

搜索 编辑

亚结构搜索 编辑

化学研究者在搜索某一物质时,可以不必输入整个分子式,而只搜索其结构的一部分,或其IUPAC命名法名称的一部分。这种亚结构搜索功能,正是化学数据库与一般数据库最大的区别之一。这种搜索是基于子图同构问题实现的,而这一问题也在图论中被广泛研究。一般来说这类搜索具有O (n3)或O (n4)的时间复杂性,其中n是涉及原子的数目。

构象搜索 编辑

在一定的空间限制条件下,搜索物质特定的三维构象,也是化学数据库常需要实现的功能之一(尤其是在药物设计领域)。这样的搜索相当消耗资源,因而人们也设计了多种近似方法来加以解决[1][2][3][4][5]

描述单元 编辑

分子的所有性质都可以拆分为具体的物理/化学性质或药学性质,这些性质被称作描述单元。最重要的描述单元当然是化合物名,在这方面,多年来已发展起多种接近标准化的命名方法,从而得以减少含义不清的命名或一物多名现象。其中,IUPAC名是一个很好的选择,不仅对人而言直接可读,从计算机角度也提供了独一无二的字符串。不过,对大分子而言,IUPAC名就显得过分冗长了。至于化合物的俗名,则难免受到数词同音或数词同义的干扰,不适合作为搜索关键词。另一方面,分子的物理/化学描述单元,诸如分子量、(部分)电荷溶解度等等,几乎可以直接从分子结构计算出来,而药学描述单元则一般能从多元统计分析或实验(药物筛选生物检定法等)结果中获得。所有这些描述单元都和分子的表达式被储存在一起。

化学相似性 编辑

对于化学相似性,并没有统一的定义。不过,仍然可以将化学相似性从应用角度进行定义,比如描述为两种分子在描述单元空间上距离的倒数。例如,如果两种分子的分子量差距(比之其他分子对)较小,那么就可以认为这两种分子较为相似。多种衡量方式可以组合起来,产生多变量的距离度量。根据三角不等式的成立与否,距离度量还可以分为欧几里得度量和非欧几里得度量。通过进行最大共同子图同构问题(MCS)基础上的亚结构搜索[6] ,来进行距离度量和化学相似性评估的方法也很常见。MCS也被用于药物筛选,即尝试与现有药物具有共同亚结构的不同分子 [7]

数据库中的化学品根据其相似性被归入不同的群组中,对于属性繁多的化学品,既可采用分级分类方法,又可采用不分级的分类方法。而这些化学品的性质则可能通过经验或计算机计算得到。最为广泛应用的分类方法是Jarvis-Patrick算法[8]

另外,在面向药学应用的化学数据库中,相似性通常被定义为化合物的生物效应。后者通常可以由分子的物理/化学性质,应用定量构效关系半自动地得到。

化学品登录系统 编辑

记录化合物独特性信息的数据库被称为化学品登录系统。这类系统通常被用于化合物的索引化,专利注册以及工业数据库中。 物质登录系统一般对化合物在数据库中的唯一表达有强制性要求。一般来说,这样的唯一表达是所谓的“正则”字符串,例如“正则SMILES”。有些化学品登录系统,如CAS则利用计算哈希的方法达到相同的目的。 化学品登录系统与一般化学数据库的关键区别在于,前者能够准确地区分一种物质究竟是已知,未知抑或部分已知。譬如说,一般的化学数据库中可能记录了一个分子,但其立体化学信息则付诸阙如,而在化学品登录系统中,登录者将会被要求提供关于分子构象的准确信息——构象已知或未知,是否是混合物乃至外消旋体,等。每一种不同的情形在化学品登录系统中都作为一个单独的记录。 化学品登录系统也对分子信息进行一些前处理,避免不重要的差别(如不同的离子)产生影响。 这类系统的一个典型例子是化学文摘注册系统。参见CAS号

参见 编辑

参考文献 编辑

  1. ^ Pearlman, R.S.; Smith, K.M. Metric Validation and the Receptor-Relevant Subspace Concept. J. Chem. Inf. Comput. Sci. 1999, 39: 28–35 (英语). 
  2. ^ Lin Jr, Hung; Clark, Timothy. An analytical, variable resolution, complete description of static molecules and their intermolecular binding properties. JCIM. 2005, 45 (4): 1010–1016 (英语). 
  3. ^ Meek, P. J.; Liu, Z.; Tian, L.; Wang, C. J; Welsh, W. J; Zauhar, R. J. Shape Signatures: speeding up computer aided drug discovery. DDT 2006. 2006, 19–20: 895–904 (英语). 
  4. ^ Grant, J. A; Gallardo, M. A.; Pickup, B. T. A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape. JCIC. 1996, 17 (14): 1653–1666 (英语). 
  5. ^ Ballester, P. J.; Richards, W. G. Ultrafast shape recognition for similarity search in molecular databases. Proc R Soc A. 2007, 463: 1307–1321 (英语). 
  6. ^ S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader and J. M. Thornton, Small Molecule Subgraph Detector (SMSD) toolkit, Journal of Cheminformatics 2009, 1:12. doi:10.1186/1758-2946-1-12(英式英语)
  7. ^ Rahman, S. Asad; Bashton, M.; Holliday, G. L.; Schrader, R.; Thornton, J. M. Small Molecule Subgraph Detector (SMSD) Toolkit. Journal of Cheminformatics. 2009, 1: 12 [2012-06-28]. doi:10.1186/1758-2946-1-12. (原始内容于2020-01-28) (英国英语). 
  8. ^ Butina, Darko. Unsupervised Data Base Clustering Based on Daylight’s Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets. Chem. Inf. Comput. Sci. 1999, 39: 747–750 (英语). 

外部链接 编辑

化学数据库和物质注册软件 编辑

Database and registration software 编辑

  • CDK,一个开源的化学品数据JAVA图书馆 (页面存档备份,存于互联网档案馆(英文)
  • JChem Base (页面存档备份,存于互联网档案馆(英文)(英文) ChemAxon英语ChemAxon提供的Java和.NET版本数据库管理搜索工具
  • (英文) ChemAxon英语ChemAxon提供的Java桌面数据库管理搜索软件。个人版免费
  • SMSD (小分子子图探测器) (页面存档备份,存于互联网档案馆(英式英语) 基于JAVA的数据库软件,可以计算小分子之间的最大共同子图(MCS)
  • JOELib (页面存档备份,存于互联网档案馆(英文),基于JAVA的化学品数据库
  • '化学品查找服务' 与 'NCI 增强版数据浏览器' (页面存档备份,存于互联网档案馆(英文),国家癌症研究院(NCI)CADD小组提供的网络数据库服务

名称数据库 编辑

  • MOLBASE Online Database (页面存档备份,存于互联网档案馆(英文),免费化学数据库,可以方便检索查询化学品名称、CAS号、化合物结构、子结构和相似结构搜索,可查询化学品物化性质;上下游关系。
  • [失效連結],一个免费的化学品名称数据库,有37000个以上的条目,在化学品名称日英互译方面十分有用。
  • ChemSub Online (页面存档备份,存于互联网档案馆(法文),免费的化学品信息网上门户,提供八种语言的化学品名称。
  • ,免费的化学数据库。

化学数据库, 是为记录化学信息而专门设计的数据库, 这些信息包括了物质的分子结构, 晶体结构, 谱学信息, 相关反应与合成方法, 以及化学热力学性质数据等, 目录, 的种类, 分子结构数据库, 化学文献数据库, 晶体学数据库, 核磁共振谱数据库, 反应数据库, 热物理学性质数据库, 分子结构的表示, 搜索, 亚结构搜索, 构象搜索, 描述单元, 化学相似性, 化学品登录系统, 参见, 参考文献, 外部链接, 和物质注册软件, database, registration, software, 名称数据库的种类, 编. 化学数据库是为记录化学信息而专门设计的数据库 这些信息包括了物质的分子结构 晶体结构 谱学信息 相关反应与合成方法 以及化学热力学性质数据等 目录 1 化学数据库的种类 1 1 分子结构数据库 1 2 化学文献数据库 1 3 晶体学数据库 1 4 核磁共振谱数据库 1 5 反应数据库 1 6 热物理学性质数据库 2 分子结构的表示 3 搜索 3 1 亚结构搜索 3 2 构象搜索 4 描述单元 5 化学相似性 6 化学品登录系统 7 参见 8 参考文献 9 外部链接 9 1 化学数据库和物质注册软件 9 2 Database and registration software 9 3 名称数据库化学数据库的种类 编辑分子结构数据库 编辑 一般来说 用二维键线式来描述分子结构 对大多数小分子而言是较为常见的方法 尽管这种表述方法对化学家们来说简单明了 却不适合于在数据库中的存储和搜索算法的编写 因此在数据库中小分子 在药物设计领域也常称为配体 通常以将分子中的原子及其键连列表的方式描述 而大分子如蛋白质等 则常用氨基酸组装单元序列等更紧凑的方式表示 化学文献数据库 编辑 化学文献数据库的目的是将化学物质与相关文献 如科学论文或专利 关联起来 此类数据库的典型代表如化学文摘社的STN和SciFinder 许多专注于物质表征的数据库都提供了文献链接 晶体学数据库 编辑 晶体学数据库主要提供物质的X射线衍射数据 这些数据反映了物质的结构信息 最典型的代表是蛋白质资料库和剑桥晶体学数据库 核磁共振谱数据库 编辑 核磁共振谱数据库提供物质的核磁共振波谱信息 这类数据库一般也提供物质的其他谱学信息 如傅立叶变换红外吸收光谱和质谱等 反应数据库 编辑 大多数数据库所记录的都是稳态分子的信息 但也有一些反应数据库 着重记录反应中瞬间产生的亚稳态分子或中间体 这类反应数据库一般还会提供反应前驱物 产物和反应机理的信息 热物理学性质数据库 编辑 热物理学性质包括以下方面 相平衡热力学数据 如气 液平衡 固溶胶 气溶胶 混合热效应 蒸发焓 熔化焓等 热量数据 如热容 生成热或燃烧热等 传热 传质相关数据 如粘度和热导率等 分子结构的表示 编辑在数字化的化学数据库中 分子结构一般有两种表示方法 包括 将原子表示为节点 化学键表示为边 将分子表达为连接表或邻接矩阵 采取这一方法的有蛋白质资料库和化学标记语言等 将分子按照深度优先搜索或广度优先搜索的原则表达为线性字符串 这一方法的典型例子是简化分子线性输入规范 SMILES 搜索 编辑亚结构搜索 编辑 化学研究者在搜索某一物质时 可以不必输入整个分子式 而只搜索其结构的一部分 或其IUPAC命名法名称的一部分 这种亚结构搜索功能 正是化学数据库与一般数据库最大的区别之一 这种搜索是基于子图同构问题实现的 而这一问题也在图论中被广泛研究 一般来说这类搜索具有O n3 或O n4 的时间复杂性 其中n是涉及原子的数目 构象搜索 编辑 在一定的空间限制条件下 搜索物质特定的三维构象 也是化学数据库常需要实现的功能之一 尤其是在药物设计领域 这样的搜索相当消耗资源 因而人们也设计了多种近似方法来加以解决 1 2 3 4 5 描述单元 编辑分子的所有性质都可以拆分为具体的物理 化学性质或药学性质 这些性质被称作描述单元 最重要的描述单元当然是化合物名 在这方面 多年来已发展起多种接近标准化的命名方法 从而得以减少含义不清的命名或一物多名现象 其中 IUPAC名是一个很好的选择 不仅对人而言直接可读 从计算机角度也提供了独一无二的字符串 不过 对大分子而言 IUPAC名就显得过分冗长了 至于化合物的俗名 则难免受到数词同音或数词同义的干扰 不适合作为搜索关键词 另一方面 分子的物理 化学描述单元 诸如分子量 部分 电荷 溶解度等等 几乎可以直接从分子结构计算出来 而药学描述单元则一般能从多元统计分析或实验 药物筛选 生物检定法等 结果中获得 所有这些描述单元都和分子的表达式被储存在一起 化学相似性 编辑对于化学相似性 并没有统一的定义 不过 仍然可以将化学相似性从应用角度进行定义 比如描述为两种分子在描述单元空间上距离的倒数 例如 如果两种分子的分子量差距 比之其他分子对 较小 那么就可以认为这两种分子较为相似 多种衡量方式可以组合起来 产生多变量的距离度量 根据三角不等式的成立与否 距离度量还可以分为欧几里得度量和非欧几里得度量 通过进行最大共同子图同构问题 MCS 基础上的亚结构搜索 6 来进行距离度量和化学相似性评估的方法也很常见 MCS也被用于药物筛选 即尝试与现有药物具有共同亚结构的不同分子 7 数据库中的化学品根据其相似性被归入不同的群组中 对于属性繁多的化学品 既可采用分级分类方法 又可采用不分级的分类方法 而这些化学品的性质则可能通过经验或计算机计算得到 最为广泛应用的分类方法是Jarvis Patrick算法 8 另外 在面向药学应用的化学数据库中 相似性通常被定义为化合物的生物效应 后者通常可以由分子的物理 化学性质 应用定量构效关系半自动地得到 化学品登录系统 编辑记录化合物独特性信息的数据库被称为化学品登录系统 这类系统通常被用于化合物的索引化 专利注册以及工业数据库中 物质登录系统一般对化合物在数据库中的唯一表达有强制性要求 一般来说 这样的唯一表达是所谓的 正则 字符串 例如 正则SMILES 有些化学品登录系统 如CAS则利用计算哈希的方法达到相同的目的 化学品登录系统与一般化学数据库的关键区别在于 前者能够准确地区分一种物质究竟是已知 未知抑或部分已知 譬如说 一般的化学数据库中可能记录了一个分子 但其立体化学信息则付诸阙如 而在化学品登录系统中 登录者将会被要求提供关于分子构象的准确信息 构象已知或未知 是否是混合物乃至外消旋体 等 每一种不同的情形在化学品登录系统中都作为一个单独的记录 化学品登录系统也对分子信息进行一些前处理 避免不重要的差别 如不同的卤离子 产生影响 这类系统的一个典型例子是化学文摘注册系统 1 参见CAS号 参见 编辑盖墨林数据库 伯恩斯坦数据库 有机小分子生物活性数据库 DrugBank参考文献 编辑 Pearlman R S Smith K M Metric Validation and the Receptor Relevant Subspace Concept J Chem Inf Comput Sci 1999 39 28 35 英语 Lin Jr Hung Clark Timothy An analytical variable resolution complete description of static molecules and their intermolecular binding properties JCIM 2005 45 4 1010 1016 英语 Meek P J Liu Z Tian L Wang C J Welsh W J Zauhar R J Shape Signatures speeding up computer aided drug discovery DDT 2006 2006 19 20 895 904 英语 Grant J A Gallardo M A Pickup B T A fast method of molecular shape comparison A simple application of a Gaussian description of molecular shape JCIC 1996 17 14 1653 1666 英语 Ballester P J Richards W G Ultrafast shape recognition for similarity search in molecular databases Proc R Soc A 2007 463 1307 1321 英语 S A Rahman M Bashton G L Holliday R Schrader and J M Thornton Small Molecule Subgraph Detector SMSD toolkit Journal of Cheminformatics 2009 1 12 doi 10 1186 1758 2946 1 12 英式英语 Rahman S Asad Bashton M Holliday G L Schrader R Thornton J M Small Molecule Subgraph Detector SMSD Toolkit Journal of Cheminformatics 2009 1 12 2012 06 28 doi 10 1186 1758 2946 1 12 原始内容存档于2020 01 28 英国英语 Butina Darko Unsupervised Data Base Clustering Based on Daylight s Fingerprint and Tanimoto Similarity A Fast and Automated Way To Cluster Small and Large Data Sets Chem Inf Comput Sci 1999 39 747 750 英语 外部链接 编辑化学数据库和物质注册软件 编辑 Database and registration software 编辑 CDK 一个开源的化学品数据JAVA图书馆 页面存档备份 存于互联网档案馆 英文 JChem Base 页面存档备份 存于互联网档案馆 英文 和 JChem Cartridge 英文 ChemAxon 英语 ChemAxon 提供的Java和 NET版本数据库管理搜索工具 Instant JChem 英文 ChemAxon 英语 ChemAxon 提供的Java桌面数据库管理搜索软件 个人版免费 SMSD 小分子子图探测器 页面存档备份 存于互联网档案馆 英式英语 基于JAVA的数据库软件 可以计算小分子之间的最大共同子图 MCS JOELib 页面存档备份 存于互联网档案馆 英文 基于JAVA的化学品数据库 化学品查找服务 与 NCI 增强版数据浏览器 页面存档备份 存于互联网档案馆 英文 国家癌症研究院 NCI CADD小组提供的网络数据库服务名称数据库 编辑 MOLBASE Online Database 页面存档备份 存于互联网档案馆 英文 免费化学数据库 可以方便检索查询化学品名称 CAS号 化合物结构 子结构和相似结构搜索 可查询化学品物化性质 上下游关系 Chemical Substances Database 失效連結 一个免费的化学品名称数据库 有37000个以上的条目 在化学品名称日英互译方面十分有用 ChemSub Online 页面存档备份 存于互联网档案馆 法文 免费的化学品信息网上门户 提供八种语言的化学品名称 EuroChem Online Database 免费的化学数据库 取自 https zh wikipedia org w index php title 化学数据库 amp oldid 69854449, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。