近日,浙江大学伊利诺伊大学厄巴纳香槟校区联合学院(ZJUI)研究员、助理教授张强的一项研究成果“Knowledge-aware Reinforced Language Models for Protein Directed Evolution”被机器学习领域顶级会议ICML 2024接收。该工作构建了一个知识感知强化语言模型 (Knowledge-aware Reinforced Language Models),能有效地识别高适应度突变体,并能通过氨基酸知识图谱找到氨基酸转化的最佳路径。该论文的共同第一作者和通讯作者为ZJUI研究员、助理教授张强。
蛋白质是生物体内执行各种功能的关键分子,科学家们长期致力于通过定向进化来优化蛋白质功能。定向进化是一种模拟自然选择的过程,通过对蛋白质进行突变和筛选来发现性能更优的变体。然而,传统的定向进化方法存在效率低、突变筛选范围有限等问题。近年来,科学家们开始利用机器学习(Machine Learning)来加速定向进化过程,称为机器学习辅助定向进化(Machine Learning-Assisted Directed Evolution)。然而,这些方法往往只关注数据本身,而忽略了生物学家已经积累的宝贵知识,比如氨基酸之间复杂的生化关系。
为了解决上述问题,本文提出了一种名为知识感知强化语言模型(Knowledge-aware Reinforced Language Models)的新方法,通过结合生物知识和强化学习算法,更加精确地指导蛋白质的突变过程,显著提高蛋白质定向进化的效率。
1 论文简介
在这项研究中,研究人员提出了一个基于强化学习的优化框架,结合蛋白质序列的统计特征和氨基酸的生物化学特性来优化蛋白质的突变过程。研究团队构建了一个氨基酸知识图谱(Amino Acid Knowledge Graph),以捕捉氨基酸之间复杂的关联,从而使知识感知强化语言模型能够更好地理解蛋白质的结构和功能,为突变提供更有指导性的参考。
结合知识图谱,该方法首先使用蛋白质语言模型(Protein Language Model)进行突变预测。在突变过程中,系统通过强化学习策略对每一步的突变效果进行评估,为知识感知策略提供反馈,并根据反馈结果调整突变路径,从而逐步优化蛋白质序列的适应度(即功能表现)。这种方法有效地克服了传统随机突变容易陷入只能实现局部最优的缺陷,通过不断学习和调整,实现全局最优的突变方案。
该研究展示了将知识感知的强化学习引入蛋白质定向进化的巨大潜力。随着生物信息学与人工智能技术的进一步结合,这种方法在药物开发、工业酶优化等领域具有广泛的应用前景。通过不断提升AI模型的预测能力,未来有望加速生物工程领域的创新,推动精准医学、绿色化工等多个行业的发展。
▲ 知识感知强化语言模型 (KnowRLM)示意图
2 作者介绍
张强博士,曾在伦敦大学学院(University College London)计算机系攻读博士学位并担任博士后,师从国际著名的信息检索与数据挖掘领域的Emine Yilmaz教授。他在Nature Machine Intelligence、Nature Communications、NeurIPS、ICML、ICLR、AAAI、WWW、ACL等顶级学术会议和SCI期刊发表四十余篇文章。他担任中国中文信息学会语言与知识计算专委会委员,教育部知识工程虚拟教研室成员,Big Data Research(中科院3区期刊)编辑,主持或参与国家自然科学基金、科技部重大项目、浙江省“尖兵”“领雁”重点研发计划项目、CCF-腾讯犀牛鸟基金等近10项。曾获得中英教育信托者等荣誉。
论文链接:https://proceedings.mlr.press/v235/wang24cq.html