化学验证与标准化平台(CVSP)

化学验证与标准化平台(CVSP)是在开放式PHACTS IMI项目期间开发的。通过测试验证和标准化协议处理化学结构文件。其目的是为社区提供对其化学结构文件的严格分析,以确保通过在线数据库发布到公共领域的数据得到预先验证。在线cvsp站点提供了一种有用的方法来测试规则集,并允许用户验证其结构文件,但这家独立网站于2018年11月下线。作为遗产,代码库和规则集已经发展并应用于deposit.chemspider.com的chemspider沉积系统。关于化学结构文件适当标准化的社区讨论还在继续。原始代码也可从Github获得。4

  1. 化学验证与标准化平台(CVSP):化学结构数据集的大规模自动化验证,J凯因夫,2015,:30,网址:https://doi.org/10.1186/s13321-015-0072-8
  2. 网址:https://www.openphacts.org
  3. https://deposit.chemspider.com网站/
  4. https://github.com/openphacts/ops-crs/tree/master/cvsp

Chemspider预沉积过滤器

作者:马克·阿奇博尔德。

在上一篇文章中(在Chemspider的幕后)我们讨论了在世界上最大的化学数据库中维护数据质量的一些挑战。当处理的记录远远超过人类可以合理处理的数量时,我们将自动过滤确定为一个关键工具。在这篇文章中,我们将详细介绍过滤的工作原理,挑战是什么,以及人为干预所起的作用。

为了进行过滤,我们使用knime,一个开源的数据处理平台。由活跃的化学信息学团体开发的广泛的knime节点允许我们对我们处理的数据提出化学方面的具体问题。竞猜简单来说,输入符合我们标准的化学结构传递到下一个节点,而那些没有写入错误文件的。处理完所有结构后,其结果是成功地通过所有过滤器的结构文件和由于各种原因被拒绝的结构的几个(通常较小)文件。

结构被过滤。检查标记结构,并将通过的结构添加到Chemspider中。

无法完整地查看所有生成的文件,因为这将消除自动化处理的省时优势。然而,对所有类型的输出文件进行抽样检查,以确保准确性,并迭代地改进过滤条件。某些输出文件具有很高的误报可能性,因此我们会对其进行全面审查。

格式和标识符

提交的文件可以是几种不同格式中的一种。最常见的是SDF(结构数据文件,一种化学结构格式,包含具有相关数据字段的多个结构。这种格式的优点是它包含2维或3维结构,因此,我们可以立即开始处理文件,而不必将标识符转换为结构。这意味着我们存放的最终结构更有可能与原始结构完全匹配。SDF格式的缺点是它是专门化的——许多用户不熟悉它,或者没有软件来创建和显示文件。

我们还接收不同的电子表格格式(Excel,猪瘟病毒使用基于文本的符号系统编码的结构,如微笑英奇.这种格式的优点是不需要专门的软件(前提是提交者对化合物有微笑或英寸)。缺点是结构需要在处理和沉积到Chemspider之前转换为SDF。此外,这些格式包含有关原子及其连接性的信息,但缺少布局信息。这可能会导致错误,因为不同的结构绘图包可以稍微不同地解析这些结构,导致最终沉积结构的改变。

筛选条件

根据我们的经验和化学知识,我们判断化学结构的标准是确定的化学规则和不太明确的“经验法则”的混合物。下面两个例子。

空结构,查询原子和不正确的价

第一个过滤器是最简单的——Chemspider是一个以结构为中心的数据库,因此,不可能存储任何缺少结构的输入项。

同样地,每个Chemspider记录都需要一个单独定义的化学结构,因此,我们排除使用查询原子来表示变量原子或连接点的任何内容。

另一个简单的过滤器是排除原子具有无效价的结构。

电荷不平衡

一般来说,Chemspider中的条目应代表真实世界,可隔离化合物。这意味着我们过滤掉总电荷为非零的结构。然而,对于某些反离子一般不重要的例子,我们也有例外,只考虑带电粒子是有用的,比如胆碱(Chemspider记录

含有未定义立体中心的结构

单是未定义的立体中心并不代表化学误差。然而,如下图所示的结构(胆固醇没有任何固定的立体中心)经常出现,并且,虽然化学上有效,它们极不可能代表预期的结构。

没有明确立体化学的胆固醇骨架竞猜

无立体化学的胆固醇骨架竞猜

因此,我们有一个经验法则,排除含有两个以上未定义立体中心的结构。这不是一个硬性和快速的规则,而是试图在排除像上面这样的结构和包括那些不确定的立体中心是有意且正确的结构之间取得平衡。

不确定立体中心的计数(通过检查inchi确定)有时包括常规排除立体化学楔子的情况。例如,没有明确立体化学的磷酸基和金刚烷基上没有楔形物的核酸——用楔形物来提取这些化合物是不常见的,竞猜而且用户在搜索中很少使用楔子。这些潜在的误报将被过滤掉并手动审查。然后馆长可以决定是否将它们包括在证词中,提高过滤器的整体精度。

包含许多组件的结构

这是另一个经验法则——正确描述的化学物质可以有多少个独立成分没有上限。然而,根据经验,我们发现,排除具有四个以上独立组件的结构会删除最明显的无意义条目(例如试图描绘合金)同时保留大部分正确条目。

应用此规则时,药物分子是假阳性物质的主要来源,因为它们通常是多种水合物和/或具有多种反离子的盐(例如盐酸伊立替康三水合物)排除的结构是水合物或含有常见的药用盐标记供人类审查。

同义词过滤器

该过滤器将分配给给定结构的同义词与其分子式进行比较,并执行一些“常识”检查。例如,比较常见的错误是将盐形式的名称(例如,盐酸莫扎维坦)自由基结构(莫扎帕坦)在这种情况下,由于分子式不含Cl,过滤器删除了含有“盐酸盐”的同义词。

聪明的人

聪明的人(维基百科页面)是描述一般化学结构的一种方法。这是基于微笑,但是它还有一些附加功能,可以指定不同的链长,债券数量,氢的数量,可变债券订单,或者一个地点有多个潜在元素。

我们使用Smarts来识别结构中常见的错误特性。这些包括:

  • 用五价氮描述的叠氮化物和重氮基团
  • 与主结构不连接的“浮动”烷烃(可能是由于绘图程序中的意外单击所致)
  • 金属羧酸盐,描述为具有元素金属原子的原代羧酸。
  • 六氟磷酸盐(及类似物种)描述为五氟化磷和一个单独的氟离子。

傻笑

微笑是微笑的进一步延伸,用来描述反应。我们不会用它来代表真实的反应,但是定义结构转换——允许我们修复简单的结构错误,这些错误可以通过破坏和创建键来解决。

一个例子是连接电荷分离的格氏试剂,以给出更准确的描述:

重新连接断开的格氏试剂

重新连接Grignards

有机金属化合物

以机器可读格式对有机金属结构进行编码的困难已被充分记录在案。(J化学。英孚模型。51,12,3149~3157)正在进行的IUPAC项目扩展inchi的功能,但是现在,挑战依然存在。

每个Chemspider记录基本上都是以一个inchi为基础的,因此,我们受到了当前的限制。这意味着我们不能描述配位键或非整数级的键——任何一个键被解释为一个标准的共价键,每个原子贡献一个电子。

虽然我们通常不能用人类化学家所喜欢的方式来表示有机金属结构,我们仍然试图从各种可能的妥协中选择“最小错误”的结构。

二茂铁是这个问题的一个典型例子,说明了我们必须考虑的几个问题。下面显示了几种常用的绘制二茂铁的方法(还有很多方法)。

二茂铁在转换成分子文件时丢失键合信息的常见描述

将二茂铁结构转化为分子式会导致分子式的错误。键序或价

所示的大多数结构都利用了化学绘图包的扩展特性,以一种对人类化学家有吸引力且易于理解的方式来表示二茂铁的结合。不幸的是,一旦转换为简化但通用的MOL格式,有些功能丢失了,导致无意义的结构。虽然结构d不变,这种表示还有其他问题:铁的化合价不正确,并且没有环戊二烯配体的芳香性表示。

我们可以用有限的方法来描绘Chemspider中的二茂铁及其相关结构,它们都不能准确地表示键合,也不能满足无机化学家的观点。然而,我们可以选择可能的折衷方案中的“最小坏处”,并允许机器可读性:

Fe2+和(C5H5-)2

我们的妥协

尽管这个结构(Chemspider记录)不捕捉二茂铁的触觉,单一碳的电荷定位不准确,它保留了正确的总电荷和化合价,并且没有显示配体是sigma键合的。

更一般地说,我们应用一些规则和转换来标准化有机金属结构的表示。其中许多规则涉及选择将金属-碳(或金属-杂原子)描述为共价或离子,取决于金属和配体的性质。再一次,在机器可读结构的限制范围内工作时,必须作出让步,但我们试图将“更多离子”和“更多共价”键分类。以下是一些例子:

  • 从1组和2组金属上断开氧气
  • 把氧气和所有其他金属连接起来
  • 断开碳与钠的连接,钾和钙
  • 将碳连接到11组和12组金属,P块金属和一些类金属

果不其然,像这样的一般规则在某些情况下会失效。因此我们有额外的,更具体的规则来涵盖例外情况,我们反复改进。

但是这些错误仍然出现在Chemspider中!

目前所描述的过滤仅适用于进入Chemspider的新数据。完整的Chemspider数据库,经过多年积累,当然包含了这里描述的每个错误的例子。要修复这些遗留错误,我们打算通过相同的质量过滤器运行整个数据库。这是一项重要的任务,有一些具体的挑战:需要人工审查的文件数量将增加一个数量级,处理时间和内存/CPU开销很高,数据集越大,我们越有可能遇到误报。为了应对这些挑战,我们正在花时间完善新的存款流程,并通过过滤器运行完整Chemspider数据库的子集,定期检查我们的进度。我们知道你需要访问你可以信任的数据,所以我们要确保我们做对了。随着项目的进展,我们将继续更新您的信息,所以请注意!

英国皇家化学学会与ACD/实验室重竞猜新建立合作关系,继续向全球研究界提供行业领先的数据。

ACD/Labs算法将在十年里程碑之后继续为Chemspider配备物理化学性质值和化学术语。

多伦多,加拿大(7月26日,2018)-ACD/LAB,一家开发和商业化解决方案以支持研发的信息学公司,今天宣布继续与化学蜘蛛,英国皇家化学学会拥有一个领先的化学数据库,竞猜继续向不断扩大的平台提供预测的理化性质和化学术语。 十多年来,科学家们利用这一公开的免费资源,在准备研究或实验的过程中收集有关化合物的信息。

作为理化预测软件的行业标准,选择ACD/Labs生成包括日志在内的属性信息,日志D(在各种PHS下)Lipinski规则-5值,沸点,并提供结构(反之亦然)功能的名称。伙伴关系的更新进一步反映了该平台的成功及其作为科学界最强大的在线化学结构数据库之一的持续重要性。随着平台的推进,Chemspider将继续使用ACD/Labs算法为研究人员提供质量见解。

理查德基德说:“我们的任务是让研究人员能够全面了解化学数据,从而为研发活动提供信息。”出版商,英国皇家化学学会。竞猜“通过与ACD/实验室合作并利用其财产信息,我们已经能够满足用户的知识需求,这反映在我们自皇家化学学会十年前收购Chemspider以来的快速增长中。竞猜到目前为止,由ACD/Labs算法填充的属性信息是Chemspider上访问最多的信息之一,并且仍然是我们服务的关键驱动因素。”

尽管Chemspider的数据库规模翻了一番,它仍然致力于从有选择的来源维护高质量的数据。随着平台的不断发展,Chemspider将以批量方式使用ACD/Percepta预测算法和ACD/Name工具来填充数据库并增强公共可用的化学智能。

“促进化学知识的传播和提供加速研发的解决方案是我们在ACD/实验室的首要任务之一,”Gabriela Cimpan说,高级销售总监,欧洲,ACD/实验室。“Chemspider正在整个化学界赋予知识,我们感到很荣幸能够支持全世界的学习。”

有关acd/percepta的更多信息,参观网址:https://www.acdlabs.com/percepta

有关ACD/Labs化学命名工具的更多信息,参观网址:https://www.acdlabs.com/name

有关Chemspider的更多信息,参观网址:http://www.chemspider.com

关于高等化学发展,竞猜股份有限公司。

ACD/Labs是一家领先的科学信息技术供应商,为研发机构提供决策所需的分析数据和分子信息。解决问题,以及产品生命周期控制。我们的软件自动化并加速分子表征,产品开发,以及知识管理。我们与现有的信息系统集成,并承担包括企业级自动化在内的定制项目。

ACD/Labs解决方案在全球范围内应用于各种行业,包括制药/生物技术,化学制品,消费品,农用化学品,石油化工以及学术/政府机构。我们提供全球销售和支持,20多年的经验和成功帮助企业加速研发和利用企业智能。更多信息,请访问www. ACDLabscom.在Twitter上关注我们@ ACDLabs.

关于英国皇家化学学会竞猜

英国皇家化学学会是世界领先的化学团体,竞猜促进化学科学的卓越发展。竞猜拥有超过50000名会员和遍布全球的知识产业,我们是英国化学科学家的专业机构;一个有着175年历史和对未来的国际视野的非营利性组织。我们提倡,支持并庆祝化学。竞猜我们致力于塑造化学科学的未来——造福科学和人类。竞猜

在Chemspider的幕后

看看我们是谁,我们如何管理网站,以及我们如何管理数据质量。

什么是Chemspider以及谁运行该服务?

Chemspider是世界上最大的化学数据库之一,包含超过6500万个化学结构的数据。此数据可在以下网址免费向公众提供:化学蜘蛛网,由英国皇家化学学会竞猜.

英国皇家化学学会如何支持Chemspider?竞猜

Chemspider.com是一个独立的服务,不依赖直接或研究资助。英国皇家化学学会支持该网站使用我们出版活动竞猜产生的盈余,使我们能够提供可持续可靠的服务。我们还通过广告和提供付费网络服务获得收入,如我们的API,对于非学术用户。这些活动有助于保持Chemspider的财务可持续性,并有助于支持我们的服务器成本,工作时间和发展。

这些服务使我们能够让世界上任何人都能免费使用这个网站,2017年,我们拥有超过600万的独特用户。这些用户包括寻求家庭作业帮助的在校学生,学术界和工业界的研究人员,对于希望保持化学知识最新的普通用户。它们来自除南极洲以外的所有大陆,几乎地球上的每个国家。

什么东西进入了Chemspider?

Chemspider数据来自化学科学界本身——由研究人员提交,竞猜数据库,出版商,化学品供应商等等。

我们对Chemspider数据有两个主要的包含标准:

  1. 机器可读性–储户必须以机器可读的格式提供结构,通常是一个.mol文件,可由英奇–开源化学结构表示算法.mol格式描述了化合物的排列方式,原子一个原子,键一个键。这意味着它只能准确地描述具有特定结构的小分子。对ChemSpider来说,“小型”指高达4000道尔顿的结构,包括短肽,寡核苷酸,以及其他结构。大蛋白,扩展的晶体格或长核苷酸太大,无法在Chemspider中准确描述。但也可以从其他适合大分子的数据库中找到。

    我们也只接受“定义的结构”——具有精确链长的化合物,完全表达的功能组,和整数键序-由于需要描述分子中的每一个重原子。这意味着我们只能接受可以为其生成有效inchi的结构。

    大部分的Chemspider结构都是有机分子。然而,我们接受一些无机和有机金属化合物,用特定的方法来管理这些。

  2. 真化合物–我们不接受虚拟或预言的化合物。

尽可能地,我们只接受以物理形式合成或分离的化合物。这意味着我们不接受过渡状态,理论预测化合物,来自供应商的虚拟化合物或来自专利的预言化合物。

谁是我们的数据源?

我们收到了来自近250个独特数据源的数据,包括化学品供应商的数据,专业数据库,个人,研究小组和出版商。这些来源跨越了化学科学的各个领域,包括生物化学,竞猜竞猜药理学和毒理学,天然产品,光谱学和结晶学。每个Chemspider记录都包含到化合物的所有数据源的链接,允许用户查找和检查数据的来源。

我们的数据源列表不断变化,当我们发现要添加和删除过时或低质量数据源的新数据源时。

我们不再接受来自其他数据聚合器的数据。我们已经采取了这一步骤,以使我们的质量要求与其他数据库相匹配,并减少由预言源产生的算法错误的传播。其中一个例子是棋盘,它源自光学结构识别程序,将专利中的数据表解释为化学结构。结果是一个81碳网格结构,被错误地鉴定为复杂的环烷烃,存储在公共存储库中,并在多个聚合器之间共享。

因为这个,我们只直接从原始数据源获取数据,我们对数据的来源和准确性有更大的把握,并且正在努力在Chemspider中管理遗留数据。

因为像棋盘棋这样的例子,我们谨慎地接受来自文本和数据挖掘源的数据,这些数据是由存储者以编程方式从专利或科学文献中的文本或编码图像中提取的。回顾之后,我们添加了一些最优质的数据挖掘源。我们将继续逐一审查潜在的新数据挖掘源,以确保其数据符合我们的质量标准。

自动过滤器

对Chemspider中6500万条记录中的每一条进行手动检查 一个人需要600多年的时间才能日以继夜地完成工作,即使我们每一张唱片只花了5分钟的保管时间。

相反,我们通过一系列的自动过滤器来筛选出不合适的结构,比如那些不正确的价,不平衡电荷,或者缺少立体化学。竞猜除了结构过滤器外,我们还应用基本名称和同义词过滤,并定期检查处理过的文件,以便改进我们的过滤器。

我们在下面简要概述了这一过程,并将在单独的博客文章

结构在knime中通过过滤器运行。那些不合格的过滤器将被移除和审查。通过的结构沉积到Chemspider

由Chemspider员工管理

Chemspider由一小队全职馆长,他们致力于添加新化合物,删除错误,并响应用户反馈。我们的员工在化学数据和实际化学方面都有丰富的经验,竞猜有有机合成和艺术保护等领域的背景,以及在其他英国皇家化学学会数据库工作的丰富经验,竞猜如默克指数*在线的 分析摘要.

社区管理

因为我们不能自己审查每一个记录,我们非常感谢用户的评论或更正。帮助我们改进Chemspider的最简单方法是在发现错误时留下反馈或发送电子邮件给我们。我们尝试在几天内根据用户反馈采取行动,以便更快地进行更简单的查询。如果您在相关的Chemspider记录上留言发现错误,请告知我们。或者给我们发邮件(chemspider@rsc.org网站

希望更多参与的用户可以直接存储结构并管理与其研究或工作相关的同义词,无需向Chemspider团队发送电子邮件。

我们非常感谢社区管理者多年来所做的贡献。

继续使用和贡献Chemspider

获取6500多万个化学结构的信息,去化学蜘蛛网,可按结构完全搜索,姓名,或高级查询,从任何设备,任何地方,免费。

存储数据,告诉我们一个错误,成为馆长,或任何其他查询,请随时发电子邮件至chemspider@rsc.org网站

*默克指数的名称由默克夏普和多哈公司所有。默克公司的子公司,股份有限公司。,白宫站,N.J.美国并被授权给英国皇家化学学会在美国使用。竞猜和加拿大。

新Chemspider网站简介

大卫夏普写的博客文章。

皇家化学学会的Chemspider团队自豪地宣布,我们的新外观Chemspider网站已竞猜经启动。正如我们在最后一篇文章这种新设计的一个关键特性是使Chemspider在尽可能多的设备上工作(从台式机到移动电话)。

Chemspider主页

Chemspider主页,它可能出现在台式计算机(左)和移动电话(右)上。

正如上面的截图所示,尺寸上的差异,形状和与页面交互的方法意味着你需要的网站视图在设备之间是非常不同的。响应式网站设计的性质也意味着我们提供的一些截图可能与您访问网站时看到的视图略有不同,然而,差异应该是清楚的。我们希望这会带来一种体验,即可用性和可读性不会因为功能而牺牲。

发生了什么变化?…什么保持不变?

从保持不变的事物开始:Chemspider仍然基于相同的质量数据,并为用户提供提供和管理数据的机制。我们也没有改变搜索查询的工作方式,因此,您以前运行的搜索仍应返回相同的结果。

关键变化

1。新页面标题

我们把所有的旧菜单项移到了每页最上面的一个栏中。(1),我们还在主页内容上方显示搜索栏(2).在较小的显示器上,您将看到快速搜索框的图标,登录和帮助项目,所有其他选项都可以在“汉堡包”符号下找到。(3).

大屏幕和小屏幕上Chemspider页面标题的比较

2。较短的记录页

让Chemspider在移动设备上工作的最大挑战之一是如何在更小的屏幕上显示我们拥有的所有信息。我认为我们的解决方案实际上将使Chemspider更好地为每个人——无论他们如何查看该站点。

以前,Chemspider记录是一个大的长页面,页面顶部有关于化学结构的基本细节,然后是一些可以打开或关闭的信息框,也可以重新订购。这在大多数情况下都很有效,但会导致不得不进行大量上下滚动的情况,可能无法找到您要查找的信息框。现在,我们仍然会在页面顶部显示一些关于化学结构的信息(1)但是,下面是一个窗格(2)其中包含制表符(3)允许您选择要显示的记录部分。这意味着查看某些信息并查看与之相关的结构总是很容易的。

Chemspider记录布局

新页面布局由复合标题组成(1)和一个窗格(2)显示信息选项卡的内容(3)

三。没有Java,别担心

许多浏览器不再支持Java小程序。好的Java免费版本的化学工具在过去的18个月里真的开竞猜始起飞了,开始切换的时间是正确的。这意味着站点现在合并了JSMOL——启用3D结构视图,cif-viewer和nmr/ir/ms光谱显示,以及用于结构输入/编辑的ketcher和elemental。

4。简化结构搜索

以前,创建一个结构搜索有点像你不得不做的那样痛苦:在弹出窗口中打开结构编辑器,画出你的结构,然后将其保存回搜索页面–现在我们的结构编辑器嵌入到界面中,减少获取结果所需的步骤数量,并使调整搜索更容易。

对于任何通过平板电脑或手机访问网站的人来说,一个特别有用的功能是转换结构可用于在复杂结构中加载作为搜索基础的选项卡,例如,在结构转换中使用“二苄基胺”可得到一种结构,该结构可快速地被阐述为辛普金斯手性碱前体胺显示在屏幕截图中。

接下来是什么?

等一下!我们只是把所有这些伟大的功能都放到了网站上!我在开玩笑,但我们将花时间调整和完善新的设计。然后,我们将能够专注于进一步发展,如果我想推测的话,我建议我们看看更多的(非Java)工具,这些工具可以加入到网站中,以获得更好的体验。以及提高我们记录中数据质量的新方法。

与此同时,请浏览该网站,并通过Chemspider向我们发送电子邮件AT -rsc.org让我们知道你对这个新网站的看法。

Chemspider有什么新功能?

大卫夏普写的博客文章。

这个博客的订户可能已经注意到我们最近有点沉默。我想保证,这并不意味着我们一直在努力工作。事实上,我们一直在致力于对Chemspider进行一系列改进——改进我们的基础设施,开发提高数据质量的方法,并为我们的记录设计新的布局。

我们将在单独的文章中更详细地讨论数据质量工作和网站重新设计工作,但在发布新的网站设计之前,我想提供一些洞察,了解当这些更改生效时会发生什么。

为什么我们现在要更改网站?

好吧,有很多原因:

  1. 主要是我们需要一个符合现代互联网标准的网站。这意味着该网站不仅需要在台式电脑上可用,还需要在平板电脑或手机上可用。这通常被称为自适应网页设计
  2. Chemspider的记录总是充满了丰富多样的信息类型,在呈现这些信息时,这就构成了一个挑战,因此一旦发现这些信息,就很容易发现和理解。我们希望新的布局将以直观和清晰的方式呈现数据,从而为每个人提供更好的体验。
  3. 我们需要远离那些被广泛使用的浏览器所不支持的技术。基于Java的工具在某些平台上已经成为用户的一个问题,而这种情况只会变得更糟。长期以来,我们在Java工具旁边提供了非Java结构编辑器(站点的当前版本)。元素的凯特尔结构图。此版本将采用JSMOL公司为不支持Java的设备启用3D结构视图和频谱显示小部件。在这个时候,我们提供Java和非Java解决方案,但希望在不久的将来逐步淘汰Java小程序。
  4. 改进与更广泛的集成英国皇家化学学会竞猜网络家庭

现场的工作方式还有什么变化吗?

网站的某些方面肯定会有一些变化,原因是:用户反馈和错误修复。我们还要看看如何使更复杂的接口(如高级搜索)更可用,但我们希望网站不会有任何重大变化。

您使用的所有功能是否仍然可以访问?

在主要方面,答案是:对!可能它们现在看起来略有不同,或者可以通过不同的接口访问。有两个注意事项:

  1. 在移动设备上访问网站时

    小屏幕和平板电脑上的页面布局通常需要有所不同——只要可能,这可以通过重新排列页面元素并添加新控件来实现。但是对于Chemspider接口的某些部分,我们意识到没有一种好的方法来显示所有的数据,唯一的解决方案是不在这些较小的屏幕上显示页面的该部分。

  2. 删除的功能

    有一些功能(如打印按钮)我们觉得与新设计不再相关,或者需要重新设计以使其更可用。

新网站什么时候推出?

我们希望新网站将在下周发布。

这些变化将如何影响您?

我们希望每个人都能顺利过渡。新设计上线后,您可能需要刷新/清除浏览器缓存。新的设计确实需要一个现代的浏览器,并且很好地支持HTML5规范。我们将尽力确保该网站在尽可能广泛的浏览器和平台上可用,但预计该网站在IE7等较旧的浏览器中无法正常工作。

是否仍可以使用旧界面访问网站?

不幸的是,旧接口将不能与新接口一起使用。

你将如何提供新设计的反馈?

提供反馈的最佳方式是通过Chemspider向我们发送电子邮件。AT -RSC.ORG

注意新设计——当它上线时,我们会写一篇关于变化的博客文章。

向Chemspider添加RSC CIFS

写的是爱玲日。

我们很高兴地宣布,我们刚刚向Chemspider进口了1047 CIFS晶体结构,这些晶体结构以前在RSC文件中报告过(并作为ESI提供给Chemspider),用于相关化合物,并将这些链接回原始文章和CCDC的WebCSD,例如带RSC文章CIF的示例化合物(参见CIF信息框)。由于上传到Chemspider的每个CIF必须与Chemspider化合物关联,这项任务的困难部分是计算出一个二维分子结构(在.mol文件格式)对于每个3D晶体结构(in.cif文件格式)–这尤其困难,因为CIFS只包含有关每个原子位置的信息,而不包含原子在晶体中是如何相互结合的,或者它们是否带电。
最后,我们希望这个CIF到MOL的转换(以及整个上传)可以在没有人为干预的情况下以编程方式执行。然而,目前还没有可靠的方法做到这一点——尽管诸如开巴贝尔可用于从每个到岸价中提取钼,这种转换的可靠性不是100%。
因此,作为我们在南安普敦大学的一个学生实习生项目(与南安普顿大学的另一个学生实习生项目,在Chemspider共享论文数据)我们使用了OpenBabel(版本2.3.2,从命令行运行选项-i cif inputfilename.txt-o mol-m-unique-d-addpolarh,提取rsc存档中所有cif的mols(截至2013年6月超过43000个文件),并登记julija kezina(如下所示),以检查这些转换的结果,以确保只有良好的结构和cif对将存放到c血蛛属为了更好地理解转换过程中的问题,以期解决这些问题。一个立即变得明显的问题是,由于获得的二维结构只是三维结构沿细胞轴的投影,这并不总是最清楚地显示分子的方向,即使它们在原子之间有写化学连接,所以所有的分子结构都是贯穿的奥佩涅审查前的清理算法。

Julija Kezina-南安普顿大学实习生,负责检查CIF到MOL的转换。

Julija Kezina——南安普顿大学实习生,负责检查CIF到MOL的转换。

Julija将输出MOL文件中的每个结构与原始CIF文件中的每个结构进行了比较,以判断转换是否准确。此外,作为额外的支票,所有输出分子结构均提交给Chemspider验证和标准化平台过滤出有结构问题的分子(例如立体化学,竞猜价格或拥挤问题)。
总体而言,Julija检查的约30%的CIF-MOL转化率良好,原子和离子的正确连接(尽管其中约30%需要重新定位原子位置以清洁或整理结构,手动或使用chemdraw的清洁功能)。只有一个分子(没有溶剂分子或共晶等)的1047个分子是那些已经沉积到Chemspider中的分子及其相应的CIFS。
成功转化率最高的期刊是分子生物系统(57%)医学化学通讯(51%)有机和生物分子化学竞猜(44%)和绿色化学竞猜(44%)——通常是关于小有机分子的杂志。
Julija在国家晶体学局办公室在南安普顿大学,在西蒙·科尔斯教授的共同监督下,感谢他们对CIF文件格式的帮助和建议。

CIF到MOL转换失败

在这样一个庞大而多样的结构集合上运行和评估OpenBabel为我们提供了一个识别和分类遇到的最常见问题的有用机会。在这里,我们分享这些,并给出一些示例,这些示例能够识别管道中一些容易的修复,这些修复可能有益于整个社区,并在进行此操作时用作测试用例。我们会将这些错误报告给OpenBabel论坛因为OpenBabel是开源的,希望通过与其他开发人员的协作,在将来至少解决其中的一些问题。

以下OpenBabel错误看起来可能是最容易修复的:

细节 例子
  • 类别:坏硝基
  • 频率:233
  • 描述:在结构抽屉中表示硝基有不同的方法——OpenBabel目前通过使用五价氮生成MOL来表示。在Chemspider中,我们选择避免这种情况,而采用电荷分离硝基的格式。
  • 解决方案:允许openbabel对硝基有不同的输出选项来输出它们,如更正的MOL文件中所示。

  • 类别:坏骡子
  • 频率:434
  • 说明:重复(完全相同,包括立体化学)分子存在于生成的M竞猜OL文件中,尽管使用–unique选项运行openbabel(该选项应根据其inchis筛选出重复的分子)。
  • 解决方案:使用–unique选项运行时修复openbabel,使其正常工作。

  • 类别:分子的不良缺失部分
  • 频率:724
  • 说明:部分分子缺失
  • 原因:openbabel不理解晶体对称性——只有cif中明确列出位置的原子包含在生成的mol文件中,而那些通过对称性推断出来的则不是。
  • 解决方案:使openbabel根据cif文件中的对称性生成完整的分子,或者建议在OpenBabel之前运行一个脚本/程序,该脚本/程序可以处理一个CIF以生成另一个包含所有原子的CIF。

  • 类别:不好的偏执
  • 频率:432
  • 描述:CIF文件中特定原子部分占用多个站点
  • 原因:在CIF文件中,有时指定多个站点的位置占用率小于一个–OpenBabel无法识别这一点,并假定所有站点的占用率都是一个有效的站点,所以在MOL文件中有一些原子或碎片的副本。
  • 解决方案:如果Atom站点占用率小于1,把原子组合成相互替代的原子(按类型,接近,以及那些加起来总占用率为1)并且只选择其中一个包含在最终的MOL文件中的文件(具有最高站点占用率的文件,或者如果两个拥有相同的占有率,例如0.5然后随机选择一个)。注意要有一致性,所以如果一个C被丢弃,然后,所有相邻的部分占用的H也会被丢弃,但是那些与C相连的包含在内(如所附示例中所示)。

许多问题都是由输入CIFS的特殊性或错误引起的,但总体上,OpenBabel并没有很好地处理这些问题(例如写一条错误消息并终止程序),但是,在大多数情况下,程序进入无限循环并挂起。因为这个,因为OpenBabel转换是较长脚本的一部分,所有openbabel作业都必须以任意超时运行,这样如果在超时之后仍在运行,它们就会被杀死,它可能丢弃了一些有效但长期运行的OpenBabel作业。我们将调查是否有一个可以在CIFS上自动执行的验证程序来过滤出有这些问题的验证程序(类似于CCDC的加密程序但可以通过编程方式运行,但是,通过在遇到这些问题时能够很好地退出,使OpenBabel更加可靠是相对简单的,这样就不需要进行预验证。下表列出了这些问题:

细节 例子
  • 类别:到岸价
  • 频率:378
  • 说明:CIF不包含任何坐标
  • 原因:一些CIFS包含例如粉末衍射细化数据,不含坐标。
  • 解决方案:OpenBabel已经发出一个错误:“CIF错误:找不到Atom!(在数据块中:xxx)“–如果找到了,只需终止程序(而不是尝试继续)。
  • 类别:CIF MissingLoop
  • 频率:85
  • 说明:CIF未命中“循环”行
  • 解决方案:在尝试进行转换之前,首先检查预期位置是否至少有一条循环线。

  • 类别:CIF备注字段
  • 频率:36
  • 说明:如果CIF的注释部分中有CIF字段名,openbabel不会忽略它并进入一个内嵌循环
  • 解决方案:确保openbabel忽略被注释掉的cif字段名(在一对分号之间)是很简单的。

以下OpenBabel错误是最常见的,但很难解决。它们产生于这样一个问题:cif格式不记录原子/离子的电荷或它们之间的键的类型,因此openbabel需要计算出这些电荷,而这很难做到正确。

细节 例子
  • 类别:坏电池丢失
  • 频率:830
  • 说明:分子中的一个或多个离子在生成的MOL文件中对它们具有错误的电荷。

  • 类别:不良协调
  • 频率:747
  • 说明:分子中的一个或多个原子或离子具有错误的配位-在金属离子中观察到的问题,S,P,硒和硼

  • 类别:不良债券缺失
  • 频率:587
  • 说明:分子中的一个或多个键顺序错误,例如单键而不是双键。

  • 类别:不良债券
  • 频率:452
  • 说明:单键/双键顺序错误。

  • 类别:坏的
  • 频率:52
  • 描述:与配体没有配位。

  • 类别:坏漏
  • 频率:18
  • 说明:氢气缺失。

还有一些生成的问题MOL文件无法由OpenBabel修复(因为它们是由于输入CIF文件的错误或限制而导致的,这些输入CIF文件无法进行追溯修复),或者太难修复和/或太少发生而不值得进行此项工作:

    • 共有237例在CIF中存在溶剂分子(其中许多缺少氢,分子或分子的一部分的部分占有,从而产生虚假的氧化剂,生成的分子文件中的分子和自由基碎片(参见cif:CCDC 213787和Chemspider记录:六千八百万五千七百零六)其中148个是水溶剂分子,氢原子缺失或分离。溶剂分子的低定义是衍射的CIF文件的限制,因此OpenBabel不可能在从它们派生的输出分子中更好地定义它们。然而,使用-r选项运行openbabel来删除除最大的连续片段之外的所有片段,非常成功地删除了这些问题溶剂分子,因此不需要采取进一步的措施来处理此问题,我们将来将使用此选项。
    • 原CIF中至少有一个氢缺失的病例有81例(或3例,所有氢元素缺失)–见CCDC 259871.
    • 一些CIFS含有与连续网络相对应的晶体结构,而不是小分子(例如聚合物,MOFs沸石分子筛POMS)不能以MOL格式有意义地捕捉到的——见CCDC 206593.
    • 有少数(24)个案例,其中获得的MOL文件中的立体化学定义不正确。竞猜然而,因为Openbabel对立体化学有很好的解竞猜释,这些病例相对较少,进一步调查这些可能不值得打扰苹果车——看CCDC 238611Chemspider 9419187.

更多的六边形在飞机上

科林·巴奇勒著。

最近我听到有人骑着从约翰·奥格罗特到兰斯端1400公里的自行车,一路逆风,因为它在地图上看起来像是在下坡,因此比较容易。(我很感激尼尔斯温斯顿关于这件轶事的曼彻斯特大学。)

你可能认为在3D空间中,页面上的“向下”不太可能是“向下”的,但有一个有趣的例外,至少对于某些“向下”的解释。

前一段时间我对我的谢菲尔德讲话开了个玩笑,现在在线在这里在这里.讨论的数学主题是重新绘制小分子中的糖环,以便用化学信息系统对其进行适当的索引。摘要显示了六边形的分类,这样我们就可以知道要应用哪些规则。

事实证明,对于我们在实践中看到最多的六边形,六角椅子和六角霍沃斯,至少如果六边形本身的长轴在页面上大致水平,如果一个键在页面上指向“向下”,当我们重新画出从“上面”看的六边形时,然后债券仍将指向下方,需要用虚线债券重新支取。同样适用,作必要的修改,对于“向上”的债券。

到目前为止,简单得让人心痛。有时候任务真的比看起来容易。还有两件事要解决,不过。一个很简单,涉及到在任何给定结构中绘制多少立体键的著名规则。(我以前提过这个)另一个是整理分子,这样布局算法就不会撤销你所有的好工作。这是一个有点棘手的问题,我需要看更多的工具已经在那里做这件事。

南安普敦大学实习将论文数据传输到实验室和Chemspider

写的是爱玲日。

今年夏天,南安普敦大学有许多学生在该大学与英国皇家化学学会和Chemspider联合项目上实习。竞猜其中三名学生一直在筛选理查德·惠特比的研究小组为了提取化合物,其中的光谱和反应数据(以及相关的实验室笔记簿,将光谱文件归档)并在Labtrove中共享,ChemSpiderCSSP。学生们——亚历克斯·哈特克,然而,Wai Lee和Josh Whittam(所有二年级本科生)与论文数据框一起显示如下:实验室的笔记本和光谱打印出来,它们数字化了。

南安普顿大学实习生

南安普顿大学实习生

他们将7篇论文数字化,作者A.亨德森,L.塞耶,d.欧文,D. Macfarlanef.GiustinianoG.SalusteJSTEC这导致1035个Labtrove页面被发布到惠特比集团的实验室博客.

这些论文是丰富的复合信息来源,包括复合结构,姓名,性质和光谱,所有这些都被存放在化学反应器中,导致208页新复合页,关于600谱.

对于这个项目,学生们手工将化合物信息存入实验室,然后将化合物和光谱存入Chemspider。然而,我们目前正在开发一系列Chemspider jquery小部件,这些小部件可以集成到基于Web的ELN中,例如Labtrove,这样可以更容易地将Chemspider中的复合信息输入到实验中。并将化合物和反应数据从ELN发布到Chemspider,CSSP和Chemspider反应。这将从最初开始概念证明检索Chemspider信息并将其输入实验室页面。

鉴于这一长期目标,实习生储存化合物和反应数据的实验页面是使用实验模板构建的。这种结构将使发布小部件更容易理解数据并以正确的方式进行处理。这样,该项目的一部分是为了确保模板适用于在Labtrove中存储复合数据而进行的测试。以及Chemspider化合物和相关数据模板(带有相应的帮助页面,还编写模板以格式化方式存储反应数据,因为这些论文主要集中在化合物的合成上。最简单的说,基本反应数据可使用Chemspider反应模板(和相应的帮助页面,最终,以这种格式撰写的文章将很容易发布到Chemspider的反应中。更详细的反应数据可以使用Chemspider合成反应模板(和相应的帮助页面.最初的目的是将所有这些反应数据存入Chemspider合成器但很明显,除了进行反应的研究人员之外,其他人都很难做到这一点,或其监督人为提交CSSP提供必要的详细信息,尤其是通过回顾性地总结论文是不容易达到的。因此,只有少数反应提交给了CSSP,大多数(超过500)被储存在实验室中,以备将来提交给化学反应实验室。

如果反应可以很容易地从ELN发布到Chemspider反应,并且其他研究人员和他们的应用程序在执行新的反应时很容易查询到,这将是朝着拨号A分子(EPSRC大挑战网络)。需要捕获的反应数据的一个重要部分是反应中使用和产生的物质的化学计量表。然而,这些化学计量学表太复杂,无法合并到实验室模板中,因此,labtrove反应模板将与一个新的chemspider jquery小部件一起使用,该小部件目前正在与labtrove集成(稍后将在本博客上详细介绍!)这将构成它们。该小部件执行chemspider查找以检索复合信息,并计算当量,从而节省研究人员计算所需反应物量或所得产物产量的时间。最初使用Chemspider反应模板然后通过使用Chemspider编辑化学计量表小部件向其添加化学计量表进行补充在这里.

如果您是一个labtrove用户,并且希望使用chemspider模板,他们的来源可以通过上面的链接获得,并记录了在Labtrove中使用模板的说明。在这里.

Chemspider搜索的最新改进(第3部分)

第一部分在这个系列中,我们讨论了用分子式范围搜索,并结合子结构搜索和其他类型的搜索。第二部分包括如何通过生物活性等补充信息进行搜索,外观或熔点。这次我们将演示如何结合这些新特性使用搜索来帮助回答您在实验室可能遇到的问题。

对苯酚进行溴化反应后,分离出熔点为90-93°C的产品。如果你只搜索三条信息——你的产品是苯酚的衍生物,它应该至少含有一个溴,你的熔点是90-93°C——你可以在高级搜索页帮助您开始识别产品。

既然现在可以将子结构搜索与其他搜索结合起来,你首先要找一种含有苯酚的化合物(按子结构搜索)为了限制你的结果溴化酚,添加C6H(1-5)O1Br(1-5)的分子式范围搜索(按属性搜索)最后,你寻找熔点90-93°C的化合物(按补充信息搜索

您的搜索将显示一个结果-2,4,6-三溴苯酚.虽然您需要更多信息来最终确认身份,这就为你的分析/解释提供了线索。

看看记录,您可能会注意到它有一个来自NIST的交互式红外光谱。如果检查数据源部分,您会发现记录有很多数据源。

为了更简单地识别有用的信息,您可以浏览选项卡以查找特定类型的信息:例如,“光谱数据”选项卡提供指向马斯班克NMRSIFTDB数据库,这将有助于您确认/确定产品是否为2,4,6-三溴苯酚。

这只是一个示例,说明如何在高级搜索页.高级搜索是缩小搜索范围以帮助您准确查找所需内容的一种好方法,还有很多选择我们还没有讨论,所以看看周围,看看哪些组合可能适合你。