科研进展

陈语谦团队提出一种新颖双向长短期记忆架构识别潜在药物

稿件来源:智能工程学院 编辑:郑龙飞、王冬梅 审核:夏瑛 阅读量:

中大新闻网讯(通讯员陈语谦)药物发现和开发对制药业和患者具有巨大的潜在利益。湿实验技术的识别既昂贵又耗时,因此使用人工智能的方法识别潜在药物可以显着降低成本,大大缩短药物研发进程。分子表示是可靠的定量活性-结构或性质-结构关系研究的基础,但分子表示仍面临子结构多义性、原子团间信息流不畅等几个亟需解决的问题。

近日,我校智能工程学院陈语谦教授团队在国际知名杂志Briefings in Bioinformatics在线发表了题为“Mol2Context-vec: learning molecular representation from context awareness for drug discovery”的研究论文。该研究提出了一种新颖的深度上下文双向长短期记忆架构Mol2Context-vec,它可以整合不同层次的内部状态来以动态表示分子子结构,并且获得的分子上下文表示可以捕获任何原子团之间的相互作用,尤其是一对拓扑上相距遥远的原子团。


图1. Mol2Context-vec的网络架构和步骤概述


图2. Mol2Context-vec和14种基线方法在生物活性和生理相关的基准数据集上的预测性能对比


Mol2Context-vec在大规模语料库中使用无监督学习,结果显示比其他模型的性能更稳定。该研究使用的分层方法使得相同子结构在不同分子中有了动态表示,对隐含捕捉分子连通性提供了新思路。Mol2Context-vec 在多个生物化学基准数据集上取得了最先进的性能,证明了该研究在促进分子表示学习方面的竞争力。该研究还提供了易于解释的模型结果,这将增进研究人员对分子活性、毒性的潜在因素的理解。

图3. Mol2Context-vec 对苯妥英的化学直觉解释

(a) 苯妥英原子相似度矩阵的热图  (b) 苯妥英分子结构中每个原子对溶解度的贡献可视化


图4. 三个子结构的高维上下文向量嵌入到3D空间中的分布可视化并显示了其中八个分子的注意力权重


值得注意的是,Mol2Context-vec提供动态子结构表示来捕捉不同分子中相同子结构的局部效应。对于有歧义的子结构,Mol2Context-vec 生成的上下文向量正确地分离了3D空间中的不同类别。此外,多个分子的注意力权重显示了Mol2Context-vec模型可以学习长距离关系,尤其是分子内氢键。提议的模型通常关注的原子团和支架非常接近人类对分子的化学理解。

陈语谦教授团队长期致力于人工智能交叉研究。上述研究得到了国家自然科学基金面上项目(No.62176272)等项目的支持,由我校智能工程学院博士生吕秋杰在陈语谦教授指导下完成。吕秋杰为论文共同第一作者,陈语谦教授为论文通讯作者。

论文链接:https://academic.oup.com/bib/article/22/6/bbab317/6357185