当有机化学家鉴定出有用的化合物时,比如可以用作药物,就轮到化学工程师来确定如何批量生产了。
而在合成化学中,100种不同的反应都可能产生相同的最终产物,但其中一些反应只需要相对来说更便宜的原料以及更低的反应温度。最重要的是,有些反应能够持续进行,只要技术人员不断在不同的反应室中补充反应原料。
历史上,确定生产给定分子的最有效和最具成本效益的方法与其说是科学问题,不如说是一门艺术。 而如今,麻省理工学院的研究人员正尝试使用更加安全、基于实验的机器学习系统来完成这个任务。他们的计算机系统接受了数千个实验反应实例的培训,并学会预测反应的主要产物。
这项研究发表在美国化学学会的《中心科学》杂志上。 像所有的机器学习系统一样,系统以概率的方式显示结果。 测试结果显示,系统能正确预测反应的主要产物的概率是72%。
麻省理工学院化学工程专业的沃伦·刘易斯教授和本文四位资深作者之一的克拉夫斯·詹森(Klavs Jensen)说:“今天,我们对化学反应有了很多理解,但是它仍是一门深奥的学科。化学家需要观察原子结构,并借助预测技术来确定如何从原料开始一步步合成出理想分子。”
詹森说:“这个新系统的应用场景就是,你对系统说‘我想要制造这个分子’,软件就会告诉你合成这个分子的化学反应路线,并自动合成这个分子。”
鉴于预测反应的主要产物的准确率只有72%,该系统尚未如詹森所愿能够将化学合成路线完全自动确定并完成。但它可以帮助化学工程师更快速地确定最佳的反应顺序,还能提出工程师想不到的反应路线。
定向反应
单个有机分子可以由几十个甚至几百个原子组成。但是,两个有机分子之间的反应可能只涉及两、三个原子,这会破坏其现有的化学键并形成新化学键。数百种不同试剂之间的数千种反应通常会被归结为同一对“反应位点”之间的单一共用反应。
然而,大的有机分子可能具有多个反应位点,并且当它遇到另一个大的有机分子时,几个可能的反应位点中只有一个会发生反应。这就使得预测反应结果变得相当困难。
在过去,化学家建立了基于反应位点相互作用算机模型来给不同的化学反应分类。 但是,经常有例外出现。这种情况下,化学家必须独立研究并手工编码。例如,计算机模型模型可以认为,如果分子A具有反应位点X,而分子B具有反应位点Y,则X和Y将反应形成基团Z。但真实情况是,分子A还可能同时具有反应位点P,Q,R,S ,T,U或V。
单个计算机模型伴随着十几个例外的情况并不罕见。在科学文献中发现这些例外,并将它们添加到模型中是一项艰巨的任务,这限制了模型的实用性。
麻省理工学院开发的机器学习系统的主要目标之一就是解决这个困难,因此克利及其合作者利用在美国专利申请中报道的15,000个经验反应来训练他们的系统。但是机器学习系统必须学习一定会与一定不会出现的产物,仅有成功的反应案例是不够的。
负面例子
因此,对于一个反应中列出的每一对反应分子,柯利根据分子的反应位点预测了一批额外的可能的产物。然后,他将化学反应条件与人工验证增添的可能产物列表一起提供给被称为神经网络的人工智能系统,该系统的任务是按照可能性的顺序排列出反应产物。
通过这种培训,新系统上升了一个处理层级。在没有的人工费力插手情况下,系统能够自动判断出哪些反应位点优先于其他的反应位点。
分子的其他特征可能会影响反应活性。例如,给定反应位点处的原子可以具有不同的电荷分布,这取决于周围的其它原子。并且分子的物理形状有可能使得反应位点难以进入。因此,麻省理工学院研究人员的模型还包括这两个特征的数值测量。
据诺华药物公司的化学技术研究员理查德·罗宾逊(Richard Robinson)说,麻省理工学院的研究人员“在靶向合成领域提供了新的机器学习方法,在将来或可用于把实验设计转化为靶向分子”。
罗宾逊还说:“目前,我们严重依赖的化学合成学科训练,与我们自己的个人科研经验相关,并且大量使用搜索引擎搜索反应数据库。” “这方法是行之有效,但往往仍然伴随很高的失败率。即使经验丰富的化学家也会经常得到意外产物。在化学合成行业,如果能将所有失败综合累积起来,就是对时间和金钱的投资。我们要怎么做才能提高成功率呢?机器学习系统就是一种新颖的方法能够以比传统方法更高准确性预测化学反应。”
作者:Larry Hardesty
翻译:刘佳
留言