高彩霞团队开发基于人工智能的通用蛋白质工程方法
发布时间:2025-07-08
蛋白质工程基于蛋白质具有的灵活性,通过人工手段改变氨基酸序列,实现对蛋白质结构和功能的修饰和改造。与基因组工程相比,它可直接对蛋白质分子进行操纵,借助突变的迭代积累,快速完成蛋白功能的优化和创新,速度较自然演变实现了指数级提升。鉴于蛋白质工程在基础研究和产业应用的广泛潜力,预计相关的市场规模超过数百亿美元。
目前,蛋白质工程改造的策略主要包括结构引导的蛋白质理性设计和定向进化,但这些方法往往依赖经验,且存在实验周期长、成本高的问题,限制了其规模化应用。理想的蛋白质工程策略,应能以最小的投入实现最优的工程性能。近年来,人工智能(Artificial Intelligence, AI)迅猛发展,在生命科学领域的应用也不断涌现。通过训练特定蛋白专有的人工智能模型实现突变模拟和功能改造是蛋白质工程新方向。但这些模型在拓展应用到多种蛋白时存在困难,面临通用性欠佳的问题;此外,模型训练和下游验证需要大量的计算和实验成本,进一步限制了其广泛应用(图A)。因此,有必要开发一种高效、普适且无需复杂模型训练的蛋白质工程计算模拟策略,以最大限度地减少计算负荷、实现最大化性能,这对推动蛋白质改造具有重要价值。
2025年7月7日,中国科学院遗传与发育生物学研究所高彩霞团队在Cell杂志发表题为Advancing protein evolution with inverse folding models integrating structural and evolutionary constraints的研究论文(DOI:10.1016/j.cell.2025.06.014)。该研究基于整合了结构与进化约束的通用逆折叠模型,开发了一种新型人工智能蛋白质工程计算模拟方法AiCE (AI-informed Constraints for protein Engineering)。该方法无需训练专属人工智能模型,即可实现蛋白质高效进化模拟和功能设计。研究团队利用AiCE对多种基因编辑工具进行进化优化,成功实现了其效率和精度的快速提升。
蛋白质逆折叠(inverse folding)是利用AI模型,通过给定三维结构预测可兼容序列的过程。通用的蛋白质逆折叠模型,例如ESM-IF1和ProteinMPNN,通过天然蛋白质结构和序列的训练,可以隐式学习蛋白质骨架的几何和物理特性,捕捉由进化动力学塑造的蛋白质序列的复杂分布模式。研究团队基于现有通用逆折叠模型开发了AiCEsingle模块,具体来说:基于给定的蛋白质三维结构,对逆折叠模型输出的氨基酸序列开展采样,来提名高频出现的氨基酸类型,进一步通过结构约束对氨基酸频率开展差异筛选,得到最终预测的单个氨基酸替换类型。团队利用60个深度突变扫描(DMS)数据,测试了AiCEsingle的性能,发现其实现了16%的预测准确率;通过消融实验和逻辑回归分析,证明结构限制在方法中的必要性,相比于无限制方案性能提升了37%;进一步的平行比较分析表明AiCEsingle相比于其它常见AI模型实现了36-90%以上的性能提升。从蛋白类型来看,AiCEsingle实现了复杂蛋白和蛋白质-核酸复合物诸如CRISPR蛋白、SARS-CoV-2病毒蛋白等的有效进化,具有广泛的通用性。为了克服突变组合广泛存在的负向上位效应,研究团队进一步假设存在进化耦合的氨基酸位置可能存在功能协同,构建了通过预测进化耦合性来预测突变组合位置的AiCEmulti模块(图B)。6个突变文库的分析结果表明,AiCEmulti与蛋白质大模型SaProt预测能力相当,但计算成本极低。团队建立的包含两类模块的AiCE方法,可实现单突和组合突变的快速有效预测。该方法利用了现有的通用逆折叠模型而无需重新/迁移训练专有蛋白模型,极大降低了计算成本,只需1.15个CPU时即可识别SpCas9蛋白(>1000个氨基酸)的单突和双突变体。
利用该方法,研究团队进一步在湿实验层面实现了包括脱氨酶、核定位序列、核酸酶和逆转录酶等8种结构和功能多样蛋白质的AiCE功能验证,证明了其简单、高效和通用性。借助于优化的脱氨酶,团队深入开发了可用于精准医疗和分子育种的新型碱基编辑器,包括编辑窗口缩小近一半的新型胞嘧啶碱基编辑器enABE8e、保真度提升1.3倍的新型腺嘌呤碱基编辑器enSdd6-CBE以及活性提升13倍的新型线粒体碱基编辑器enDdd1-DdCBE。
综上所述,这项研究开发了一种基于人工智能的新型蛋白质工程计算模拟方法AiCE。与传统蛋白质工程方案相比,该方法在效率、可扩展性和通用性方面均展现出显著优越。通过计算模拟甚至替代湿实验,是当前生命科学领域的重要发展趋势和前沿方向,而本研究在此方面开展的探索具有积极意义。当前,基于人工智能的蛋白质分析工具往往依赖大量计算资源,这对许多实验室而言难以获取。而本项工作表明,通过开发更高效的生物信息学工具,能够最大限度降低计算负荷,从而让更多生物学家切实享受到人工智能技术带来的科研便利。正如审稿专家所评价的:“AiCE将基于人工智能的蛋白质进化提升到了一个全新的水平”。
中国科学院遗传与发育生物学研究所高彩霞研究员为该论文的通讯作者,博士后费宏源、博士生李运嘉为该论文的共同第一作者,已毕业博士生刘怡静、博士后魏京京和硕士生陈奥捷在课题研究中做出了重要贡献。中国科学院遗传与发育生物学研究所王秀杰研究员、西湖大学卢培龙研究员、华中科技大学薛宇教授、荆楚理工学院郑竹清副教授提供了建设性意见。该研究得到农业农村部项目、国家自然科学基金、国家重点研发计划、北京市科学技术委员会和新基石科学基金等项目的资助。
图:常见蛋白质工程方法的示意图和AiCE方法概述
附件下载: