AI医疗系列二：AI大模型辅助先导药物的发现

语言	格式	评分
中文（简体）	.pdf	3
概览
随着2006年DeepLearning算法的提出，人工智能(AI)的发展进入了第三次浪潮。DeepLearning凭借自身优秀的信息表征及关系提取能力，已经为计算机视觉(cv)及自然语言处理(nlp)等领域带来了突破性的进展。现在，AI的魔力已经被逐步引入药物研发的领域，并正在深刻地改变这个领域的研究和发展流程。无论是在早期的药物筛选、药物优化，还是在药物的临床试验和后期的上市监控，AI的应用都愈发广泛。在上篇 "AI for 医疗" 的专题文章“AI for 医疗: AI大模型在药物靶点识别中的应用”中，我们整体描述了药物研发的流程，并介绍了AI 大模型在药物研发的第一步: 靶点识别中的应用。这篇文章，我们将延续这一路线，介绍AI在药物研发的第二步: 先导化合物发现中的应用。图1：药物研发生产流程，图片引自[1] 传统方法在先导化合物发现中的局限性在AI大模型时代到来之前，先导化合物的发现以实验方法及计算机辅助药物设计(CADD)的方法为主。这些方法都有着一些自身难以解决的问题。实验方法: 当前，药物化学实验方法在很大程度上依赖于"试错法"。这些技术涉及检查大量潜在的药物化合物，以识别具有所需特性的化合物。显然，这些方法速度缓慢且成本高昂，若是完全基于实验方法进行药物虚拟筛选，完成化合物数据库的筛选所需的时间是一个天文数字。此外，实验方法还受到可用测试化合物的供应和准确预测它们在体内行为的难度的限制。计算机辅助药物设计方法(CADD): CADD相较实验方法极大地加速了先导化合物发现的速度。在CADD中，先导化合物的筛选被普遍称为: 虚拟筛选 (virtual screening)。他使用基于分子力场或者量子力场的分子对接方式，对数据库中的海量化合物与靶点进行对接，从而依据自由能最小化等方式，计算靶点与药物的亲和力，完成药物的筛选。基于CADD的方法除了能够加速，还不受化合物是否可以获得的限制。然而，基于CADD的虚拟筛选存在一个trade off，即想要进行精确的筛选需要大量的计算资源和时间，而想要快速的完成筛选，则会损失较大的精度。在药物发现这个先导化合物准确率极为重要的领域，大量的计算资源和时间很难避免。曾有研究统计过，若想要对100亿个小分子进行令人满意的筛选，则需要长达3000年的时间。简而言之，利用CADD进行高精度的药物虚拟筛选，所需的时间同样是难以接受的。 AI大模型辅助药物虚拟筛选基于AI的算法，包括监督学习，无监督学习，自监督学习，强化学习以及基于规则的算法，可能有助于解决传统方法中存在的问题。 AI方法通常基于对数据特征的学习。具体来说，就是从大量的已知药物化合物和非药物化合物中，去学习成药所需的潜在特征，并依据这一特征对化合物进行能否成药的分类。这样的方法同CADD一样，是一种虚拟筛选的方法，不受到化合物是否可得的限制。但是相比于CADD，他有着一个巨大的优势，即AI方法并不基于复杂的物理计算，而是基于已有的数据去自主学习。这一优势主要的体现便在于，他打破了CADD中的trade off，即在高质量数据的支持下，AI方法能够做到同时保持高精度以及高速的药物筛选。然而，高质量数据这一前提条件十分的苛刻，简而言之，高质量数据要求具备两个特征: 1，进行训练的药物或者非药化合物涵盖了大范围的化合物特征空间，2，药物针对特定靶点的亲和力数据十分准确。如果数据不符合特征1，则 AI方法的泛化性将十分有限，基本无法预测训练数据中没有见过的化合物种类。如果不符合特征2，AI方法的可信度同样无法保证。虽然随着药物数据库的发展，高质量有标签数据变得越来越多，但想要足以支撑高精度的AI模型，数量还是远远不够的。如常用的药物亲和力数据集 PDBbind，其包含的蛋白-复合物条目仅仅24万左右。这使得数据很难覆盖全部的化合物空间。而大规模的虚拟筛选数据集DUD-E，虽然包含超过100万个蛋白-复合物条目，但也因为数据自身的质量而饱受诟病。随着transformer模型的出现，人们注意到了利用无标签数据对模型进行预训练可以提高模型的性能，正如目前风头正热的GPT，GPT利用了大量无标签文本数据进行自监督预训练，这些文本数据虽然没有标签，但是数据量远远多于有标签的数据。相应的，模型也可以进行大规模的设计以适应海量的数据。这便是 AI大模型的由来。经过了自监督训练任务，AI模型方法仿佛理解了自然语言的语法，从而为自然语言处理带来了质的飞跃。而在药物筛选领域，如果我们依照类似的方式，让AI模型去充分利用海量的蛋白、分子数据去进行自监督训练，是否也有可能学习到分子世界中的"语法"规则? 这种方法的潜在优势在于，它可以利用现有的大量无标签分子数据集，就像 GPT使用互联网上的无标签文本一样。通过自监督学习，模型可以无需昂贵的实验数据标签，就能够识别和理解生物分子的本质特性，从而为新颖和强大的药物发现机制奠定基础。如果AI能够“理解”分子的“语言”，那么它在预测未知分子活性，以及预测分子对特定靶标的亲和力方面的潜力将是无限的。因此，越来越多的自监督AI方法被提出以进行药物虚拟筛选。在这里，我们以近期提出的分子表征大模型Uni-Mol为例，为大家阐述AI大模型是如何助力虚拟筛选的。 Uni-Mol: 通用分子3D表征模型在药物设计等领域，分子自身性质的表征对先导化合物筛选而言至关重要，在给定的药物靶点先验下，如果能够将分子进行完美的潜空间嵌入，那么能够成药的分子和不能成药的分子将会自然的在潜空间分隔开，从而便可以非常直观的进行药物的筛选。目前已经存在许多学习分子表征的AI方法，这些分子表征学习方法通常将分子视为一维的字符串或二维的图进行预训练。然而，分子的三维结构对其性质和药效的影响是至关重要的。如果仅关注一维或二维信息，将限制它们在包括三维信息的下游任务中的应用。Uni-Mol的提出正是为了解决这一瓶颈问题，通过构建一个可以直接处理三维位置信息的通用学习框架，让AI模型可以充分学习到分子的三维结构信息，从而更完美的表征分子。数据： Uni-Mol是一个预训练模型，他可以利用大量的无监督数据去充分学习分子的"自身语法"。作者通过对海量的小分子数据进行清洗，获得了19M个小分子数据。对于每个小分子数据，使用RDKit创建了该分子的10个三维构像，而对于无法创建三维构像的分子，作者为其创建了2D构像。最终，作者获得了总计209M 个小分子的三维构像数据，并利用这些数据对Uni-Mol进行了充分的预训练。 Uni-Mol模型：基本结构：Uni-Mol模型参考了transformer的骨架。他将分子进行了序列表征以及结构表征，并在更新的过程中不断以自注意力的方式对两个表征相互融合迭代。最终，可以以分子的CLS token 来表示整个分子在潜空间的嵌入。Uni-Mol相对传统transformer的创新主要有两点：旋转平移不变的空间位置编码，原子对表征。旋转平移不变的空间位置编码：Uni-Mol的模型是可以处理分子3D结构信息的Transformer。由于 Transformer 自身有置换不变性，它在没有位置编码的情况下无法区分输入的具体位置，而且对于分子来说，位置编码需要在全局旋转和平移的情况下保持不变。因此，作者以原子对的欧氏距离对原子的位置进行表示，之后经过高斯核函数得到位置编码。从而实现了旋转平移不变的空间位置编码。编码方式记录在图2的中图。原子对表征：通常 Transformer 只对 Token（原子）进行表征，然而由于分子的空间位置信息是在原子对级别上编码的，原子的成对距离表征也会十分重要。因此Uni-Mol在具体实现中对原子成对距离信息进行了表征。原子对表征的初始化是上文提到的旋转平移不变的空间位置编码。在更新时，则会把原子token的信息不断融入。这一空间位置编码同样也会不断地加入到 token信息之后，通过充分的信息融合，以达到模型能更充分理解分子"语义"的效果。原子对成对表征记录在图2右图。预训练策略：与 BERT 类似，Uni-Mol 中也使用了对原子掩码进行"完形填空"的任务。然而，由于 3D 空间位置编码是有化学键信息泄露的，模型很容易依据相互间的距离推测出被掩盖的原子类型，因此单独对原子掩码进行预测并不能帮助模型充分的学习到分子"语义"。为了解决这个问题，Uni-Mol 设计了一个基于 3D 坐标的"去噪声"任务。即对于被掩盖的原子，给坐标加入 [-1Å ，1Å] 的均匀分布噪声，之后模型根据加了噪声的坐标计算出来空间位置编码进行原子预测。这样一来，对于原子掩码的预测任务就不再可有可无。此外，这里还加入了两个额外的任务单元来直接对于原子坐标进行预测：1，基于原子对表征，预测被掩盖的原子对的欧氏距离。2，直接预测被掩盖的原子坐标。基于上述的三个预训练策略，作者认为可以充分的学习到分子的合理表征。图2：Uni-Mol模型骨架。左图为整体的pretrain模型及预训练策略。中图为模型的输入，包括分子序列及结构信息。右图为Block内部的计算，图片引自[2] 作为结果，Uni-Mol达到了充分的分子表征效果。以分子生化性质数据集 MoleculeNet为例，MoleculeNet数据集中包括分子的水化自由能，亲脂性等生化性质任务，同时也包含了针对特定靶点蛋白的药物虚拟筛选任务。Uni-Mol 在 MoleculeNet 14/15 个数据集上取得 SOTA，尤其是在 3D 结构强相关的任务上有着大幅度提升，涨幅甚至可达21%。可见Uni-Mol有着极强的小分子表征能力，这对先导化合物的筛选尤为重要。虽然无法确定Uni-Mol是否已经学到了分子的"语法"，但毫无疑问的是，在充分利用了大规模的无标签数据后，模型表征分子的能力进一步加强了，这也进一步证明了充分利用无标签的分子数据，将AI模型做大，对分子性质表征任务而言，是有着明显的优势的。 AI大模型在先导药物发现中面临的挑战贯彻着"AI for 医疗"系列的一贯理念，我们认为 AI对药物研发的帮助并非是颠覆性的，而是一种在目前技术框架下的优化和增强。AI在先导化合物的发现中同样存在着自身的问题。下文将主要列举三点。准确性的验证：不同于大语言模型，来自分子AI大模型的结果通常难以进行准确的验证。利用大语言模型进行自然语言处理时，我们可以直观的去判断模型返回给我们的答案是否正确，也能依据模型的结果进行奖励建模及强化学习。但利用分子大模型进行虚拟筛选得到的结果，往往涉及到分子具体的药物性质，这是人类无法直观评价的性质，需要昂贵的实验进行证明。这一问题往往使得分子大模型在实际应用中处于尴尬的地位。算法的透明度和解释性： AI在药物虚拟筛选中的另一个挑战是算法的“黑箱”性质。复杂的机器学习模型，尤其是深度学习模型，虽然在预测性能上表现优异，但其内部的决策过程往往缺乏透明度，这对于药物发现来说是一个严重的问题。因为成药需要是一个严谨且透明的过程，如果不能解释分子为何有效，那么在实验证明药效不及预期后，甚至不知如何进行优化。药物发现不仅需要预测哪些分子可能有效，还需要理解为什么这些分子会有效，以及它们可能产生的副作用。数据偏差与不平衡：虽然理想情况下分子大模型能够能够充分利用无标签的分子数据进行分子表征，之后利用高维的分子表征便可以将分子进行分类筛选。然而实际情况下，模型并无法得到完美的分子表征，因此在实际应用中，往往需要对大规模预训练进行微调，从而优化分子的表征。而微调这一过程同有监督学习一样，受到数据标签偏差的影响。在虚拟筛选这个领域，分子的标签是严重不平衡的，因为药物化合物的数量实际是远远少于非药物化合物的。这就导致了微调阶段模型可能会不自觉地过度拟合到现有药物化合物上，造成模型在实际应用中的假阴性上升。写在最后：总的来说，基于AI的虚拟筛选方法相较传统的实验和CADD方法有着突破，他不仅加速了先导化合物的发现，同时还提高了虚拟筛选的准确率。但毫无疑问，他仍在发展之路上，即便是现在最先进的分子表征大模型，也无法充分理解分子的语义。同时,数据不平衡问题、模型的验证、以及算法的可解释性，都是我们必须面对并克服的挑战。尽管如此，随着计算能力的提升，算法的不断优化，以及跨学科合作的加深，我们有理由相信，AI在药物虚拟筛选中的应用将越来越广泛，其精准度和可靠性也将不断提升。展望未来，AI大模型辅助的药物虚拟筛选方法方法将继续促进创新药物的研发。它是一个诞生于大数据时代的工具，也将作为大数据时代的代表将药物筛选由principle base 推向 data base。这不仅有助于缩短药物从实验室到市场的时间，还有望为患者带来更加个性化的治疗方案。随着AI技术的不断进步，我们期待着一个更加高效、经济和精确的药物研发新时代的到来。 Reference [1] Zhang Y, Luo M, Wu P, et al. Application of computational biology and artificial intelligence in drug design[J]. International journal of molecular sciences, 2022, 23(21): 13568. [2] Zhou G，Gao Z，Ding Q，et al。Uni-Mol: a universal 3D molecular representation learning framework[J]. 2023.