人工智能能产生多大程度的分子论物理科学 - bob游戏平台,bob电子体育竞技,bob体育手机app下载

由Charles delvio在Unsplash上拍摄

深层分子生成模型……使大量的分子可以从一小组已知的分子中生成

化学信息学的主要目标之一是通过探索整个化学空间来设计新的分子。这个虚拟的化学空间由所有可能的分子组成，据估计大约有10^60个分子。

直到最近，化学空间探索都是通过使用遗传算法生成分子，或者通过将小分子结合形成大分子来完成的。

另一种仍在进行中的方法是生成数据库（GeneratedDatabase，GDB）项目，该项目的目的是枚举所有分子，直到一定数量的非氢原子。到目前为止，已经列举了多达11个、13个和17个原子的类药物化学空间，并分别产生了2500万、10亿和1650亿个分子的数据库。

然后可以搜索这些庞大的数据库，以发现感兴趣的新分子。随着化学空间随着原子的数量呈指数增长，探索更广阔的区域变得越来越困难。

与许多科学学科一样，深度学习和人工智能（AI）为化学信息学开辟了新的视角。例如，我们可以用来自不同来源的数据训练神经网络来预测分子的毒性，或者我们可以设计算法来获得合成任何分子所需的所有步骤。

但迄今为止最令人印象深刻的进展之一是深层分子生成模型，它使大量分子能够从一小部分已知分子中生成。

特别是，使用以一种称为微笑的文本格式表示的分子在探索化学空间方面是非常成功的。

他们工作类似于手机键盘的自动完成功能和构建分子逐字符已经考虑到生成的部分分子模型(图1),学习如何创建分子从训练数据,生成的分子倾向于显示相同的属性作为训练集。

因此，可以通过从RNN重复生成（也称为采样）分子来探索训练集周围的化学空间。

分子生成模型的缺点之一是采用置换取样法:当模型取样多次时，可能会出现重复的分子。这可能会产生这样一种情况:模型似乎生成了一组不同的分子，但它却在反复生成同一组分子。

或者，一个模型可以生成大量与训练集完全无关的分子，这意味着模型不能从训练集分子中学习。在我们的研究中，我们开发了一种基准测试方法，能够检测这两种情况。

为了做到这一点，我们在前面提到的GDB-13分子数据库的子集上训练模型，我们对模型进行20亿次采样，并计算有多少独特生成的分子是GDB-13的一部分，又有多少在它之外。然后，根据从一小部分样本中学习时能够生成的整个数据库的多少，对模型进行排名。

我们用这种方法来几种分子生成模型的基准测试有两种表示分子的方法：标准微笑和随机微笑。这种基于文本的表示法是通过对分子中的原子进行编号，然后遍历分子，当它是碳时添加“C”，氧时添加“O”，等等（图2）。

默认情况下，大多数化学软件计算一个唯一的原子编号，称为规范排序，并由此生成规范微笑。当原子编号随机化时，可以获得代表同一分子的不同微笑串，从而获得随机化微笑。

在训练过程中，使用标准微笑的模型总是对每个分子使用相同的表示，而使用随机微笑的模型则不断地改变它。这使得模型能够从不同的角度观察同一分子，每次都能学到不同的信息。

当比较模型训练子集一百万GDB-13分子(0.1%的数据库)规范和随机微笑,结果表明,规范微笑模型能够生成GDB-13高达70%,而随机微笑模型更好的工作,获得高达83%的整个数据库。

还使用了较小的训练集，当使用1000个分子（GDB-13的0.0001%）训练随机微笑模型时，获得了整个数据库的34%，而使用规范微笑模型生成的仅为14%。

考虑到随机smile得到的改进，最后在ChEMBL数据库训练的模型上进行了一次实验。这个数据库保存了从文献中获得的150万个分子选择，这些分子代表了整个已知的类药物化学空间的样本。

结果表明，用随机微笑训练的模型从20亿个样本中产生了大约13亿个独特的分子，这几乎是用标准微笑训练的两倍。

此外，我们还表明，由标准微笑模型生成的任何分子都可以由随机微笑模型生成，但反之亦然。

总之，用小分子样本训练的生成模型能够概率地持有很大的化学空间。然后，可以利用训练过的模型，或者通过广泛的采样和过滤，或者通过使用诸如强化学习.

拥有能够将尽可能多的信息从小的训练集传递到生成的分子的架构在药物发现中是极其重要的，随机微笑是一种有助于这一方向的改进。

这些开发的方法目前在阿斯利康的许多药物发现项目中使用，我们希望在适当的时候向科学界报告将其应用于内部项目的结果。

在物理科学