·宋乐将xTrimo比喻为生命科学领域的“ChatGPT时刻”——正如ChatGPT在与全世界用户多轮对话、不断迭代后能生成越来越优质的回答一样,生命科学大模型也需要通过高通量多轮湿实验的闭环验证和数据补充进行持续升级。
·澎湃科技独家获悉,百图生科即将发布AIGP平台(相当于生命科学大模型的出口)和相应的合作计划,开放部分能力接口。
“现在大家都知道ChatGPT,好像它是突然出现的,但它实际上是AI领域持续研究慢慢进步的结果。”百图生科CTO、国际机器学习大牛宋乐在接受澎湃科技(www.thepaper.cn)专访时说,“ChatGPT代表了一种新的范式,这个范式转换其实在AI其它领域都在发生,比如在自然语言、图像领域都有大规模预训练模型,然后再微调到下游应用。我们一开始就把这个范式引入生命科学,很早就在人才、AI模型开发以及对应算力方面布局,所以到今天才能够拥有一个千亿级别的生命科学大模型xTrimo。”
百图生科CTO宋乐。
在采访中,宋乐将xTrimo比喻为生命科学领域的“ChatGPT时刻”——正如ChatGPT在与全世界用户多轮对话、不断迭代后能生成越来越优质的回答一样,生命科学大模型也需要通过高通量多轮湿实验的闭环验证和数据补充进行持续升级。
xTrimo选择了与CPT-3.5相类似的技术范式,ChatGPT近期发布后表现惊艳也给宋乐“再一次印证”的感觉,“我们再一次看到大规模预训练模型加下游模式的成功。从某种意义上说,我们在自己的试验或者AI模型里也看到这种效果。”
宋乐认为,过去几年,随着大模型的出现,生命科学或制药领域也出现了一些阶跃式的提升。“比如去年热门的Alpha Fold 2,其已经预测了全球几乎所有蛋白质结构,实际上它也是依赖大规模的Transformer模型去做阶跃性的提升。”
“AI For Life Sciences(人工智能用于生命科学)越来越走向生成的道路,不管是在蛋白质序列生成,还是蛋白质结构生成方面。后面我们可能持续看到AIGP(AI generated protein,AI生成蛋白质)方面有趣的进展出现。”宋乐说。
在采访中,澎湃科技独家获悉,百图生科将发布AIGP平台(相当于生命科学大模型的出口)和相应的合作计划,开放部分能力接口。据介绍,这是一个可以解读蛋白质语言、解决生命科学行业问题的平台,由百图生科近300位AI+BioTech的跨国技术团队花费2年多时间开发。这个平台进行了湿实验系统与AI干实验系统两套系统的闭环。为了保证平台的高效和稳定,百图生科和百度合作,专门设计了大模型xTrimo专用的高性能超算中心。百图生科将在3月23日的发布会上揭晓这个AIGP平台的具体功能。
为何要做这件事?
宋乐以数据为例解释道,“因为生命体的高度复杂度。目前数据量很大,但仍然是有限的。随着生命科学领域观测手段和技术的发展,吸收更多的数据尤其是垂直类数据,将使我们能够更加精细精准地理解进化,理解生命。这也就意味着,要实现这一目标,我们需要不断吸纳新的合作伙伴,特别是那些在体外模拟体系、超精度观测和特殊验证体系等方面具有丰富知识和技术的生命科学家。”
生命科学与AI的融合已加速
过去十年,生物学领域的数据量出现了爆炸式增长。
这种趋势可以追溯到人类基因组计划(Human Genome Project)的启动,该计划在2003年完成了人类基因组的测序。从基因组测序到RNA测序、蛋白质组学和代谢组学等多个方面,生物学领域的技术不断进步,数据的规模和种类也不断增加。
“过去几年最大的变化是数据的爆炸。”宋乐回忆道,“2008年我在CMU(卡内基梅隆大学)做研究时,比较大的基因测序数据集是几百个数据点,而且是bulk sequencing(传统的高通量混池测序)数据,但就现在的单细胞测序来看,数据量已经可以达到亿级。此外,还有很多其他类型的生物数据,也达到了亿级或十亿级以上的规模。”
这种数据增长的速度,使得研究已经很难再用传统的小工具进行分析。同时,得益于人工智能技术的发展,尤其是预训练范式的出现,使得跨模态生物数据分析成为可能。
2020年9月,百度创始人李彦宏发起成立百图生科,希望将先进AI技术与前沿生物技术融合创新,打造新型多组学检测分析、高通量实验模拟、智能化分子发现引擎,加速新型药物和诊断产品的研发。当时,百图生科即着手搭建生命科学大模型xTrimo。
也是在2020年,以全球大流行的新冠疫情为分水岭,生命科学领域与AI的融合也进一步加速。
2020年11月,谷歌母公司Alphabet旗下DeepMind团队开发的AlphaFold 2取得惊人突破,预测结构被认为和真实结构基本一致,困扰学界数十年的蛋白质分子折叠问题见到了曙光。2022年,该系列模型已经预测了全球几乎所有的蛋白质结构。Meta公司也于2022年推出了蛋白质结构预测模型ESMFold。
“回想起我读博士生期间,那时我们集世界计算方法大成预测结构,最后预测的结果却一塌糊涂,当时的计算真的很尴尬。而如今,AI已经开始颠覆我们对于蛋白质结构的预测。”宋乐察觉到,伴随着大量数据的积累、算力的提升、AI模型的精进,如果能让AI和湿实验闭环,前沿AI技术将会有更大的用武之地。
2021年,宋乐离开了美国佐治亚理工学院计算机学院。也是在这一年,他全职加入百图生科。“我们要打造生命科学的self-driving lab(自动驾驶实验室是指利用人工智能和自动化技术进行实验和发现新材料的实验室),生命科学大模型会全面支撑这个实验室。有了这样的self-driving lab之后,针对某类疾病、某些生命科学问题,我们就能够很快地发现相关靶点线索和解决方案,以及针对靶点来优化相关药物。”
得益于人工智能技术的发展,尤其是预训练范式的出现,使得跨模态生物数据分析成为可能。图片来源:百图生科
对于短期目标,宋乐希望能有一部分疾病或者靶点发现实验和生命科学大模型闭环,至少在实验室层面或者动物实验层面证明AI发现的靶点有效或药物有效。更加长期的目标,即是至少在免疫治疗这一领域能够实现靶点发现和药物设计的自动化。
新药研发的“反摩尔定律”
当前主流药物研发主要还是依托传统生物学,根据相对有限的实验数据或文献报道结果,筛选可能的靶点或作为推动功能验证的依据。这种实验主导的新药研发模式通常包括药物发现、药物设计、体外实验、动物实验和临床试验等环节。其优势在于可以通过实验来发现潜在的药物分子,并逐步进行优化和验证。
然而,其缺点也很明显,例如需要大量时间和资源、研究成果的可重复性和可靠性存在一定问题等。
新药研发领域甚至流传着一个“反摩尔定律(Erooms Law)”,即新药研发的成本和时间随着时间的推移而呈现指数级增长的趋势。一款新药的面世可能历经“10亿(资金)、10-12年(研发周期)、14%(成功率)”。即便排除万难进入临床一期阶段的药物,最终真正能够成功获批上市的几率,也就是10%左右。更不用说在早期的靶点发现和验证阶段,淘汰率更是高得惊人。
药物研发的“反摩尔定律(Erooms Law)”:制药公司正花费越来越多的钱开发更少的药物。(图片来源:research gate)
当前,新药研发行业正在逐渐转向更加智能化和数据化的研究模式。例如,利用人工智能、机器学习等技术,可以快速分析大量数据,发现药物分子的潜在作用机制,快速筛选出最有潜力的药物分子。
“很多情况下,一个有效蛋白质的设计或一组靶点的搜寻都要考虑多个因素的组合,比如设计一段蛋白质,有20个不同的位置,每个位置有20种不同的选择。这是一个巨大的空间,人的思维很难对这个空间进行整体的筛选或对比,而计算来做这件事就有一个巨大的优势。”宋乐说,当AI预测的准确性到达一定水平时,毫无疑问会比人类做的好得多。
2021年5月,著名结构生物学家施一公在“首届中国生物计算大会”中称,AI已进入收获期,对于科学家来说,这是一个如何应用AI的问题。现阶段,AI完成的蛋白、基因组预测遥遥领先于人类预测的结果,评判预测好坏的标准有两个,一是将最精准的结构分析方法精确到1埃(埃是一种长度单位,用于表示原子和分子的尺寸,1埃等于0.1纳米)以内,二是用世界上最好的分子动力学,模拟出它的最佳动态,这已经到了理论预测和实际情况接近的地步了。
xTrimo能被用来做什么?
谈到xTrimo的名字,宋乐笑言,发音听起来有点像“极限(extreme)”,在一些指标项上,它可以取得世界第一的位置。
具体而言,围绕整个xTrimo,百图生科构建了世界最大的免疫图谱,包含66亿个蛋白,超300亿条蛋白互作关系,1亿个单细胞,以及超6100万条免疫互作关系和6000亿条泛细胞共现关系。
xTrimo全称 Cross-modal Transformer Representation of Interactome and Multi-Omics(交互组和多模态的跨模态转换器表述),是全球首个、也是目前最大的生命科学领域的超大规模多模态模型体系。这一体系由千亿参数的预训练模型、蛋白生成模型和多个下游任务模型组成,旨在探索从蛋白到复杂生物体的进化规律,并基于此针对性生成满足特殊需求的蛋白,以蛋白生成和与生物体对话的方式,加速人工设计蛋白进化的速度,从而解决生命科学行业的痛点问题。
如果针对新药研发的场景,这个生命科学大模型核心要做两件事:一是靶点发现,二是发现靶点之后,更好地基于这个靶点去设计药物。
具体而言,最底层是预训练模型的底座,通过预训练模型去吸收大量非监督和弱相关的复杂数据中的信息,学习其中的表征,以帮助下游任务,包括靶点推荐的算法、基于靶点对蛋白质设计的算法。
xTrimo的设计逻辑包括4层嵌套结构,第一层是对单个蛋白质的建模,第二层是对细胞中蛋白质相互作用的建模,第三层是对细胞本身的建模,第四层则是对细胞系统的建模。这样的通用大模型建成以后,再微调到需要的疾病靶点或设计生成的蛋白上,即可减少对数据和试验的需求。
比如当我们知道有一个疾病靶点,要设计一个蛋白质,这时候有几个关键的参数。首先是结构或者说形状,其要和靶点有一定的契合程度。可以将疾病相关的靶点想象成一把锁,设计的蛋白即是钥匙,要打开锁,锁齿和钥匙就要有比较准确的契合程度。第二是亲和力,即结合紧密的强弱程度,这个需要模型来预测。
所以在底座通用模型上,可以想象有两个下游的模型,一个做结构预测,另一个完成结合的紧密强弱预测。当这两个都有比较准确的预测之后,就可以在计算机里筛选可能的设计。可以生成很多蛋白,然后通过预测去筛选最适用的,最后再送去试验侧,收集试验反馈。
如果试验反馈是需要的蛋白,那么这个过程就结束了。如果还不是或不够好,这个试验就会给模型反馈,然后它会进行下一轮同样的过程。几轮迭代之后就会找到一个符合设计要求的蛋白。在这个过程中,模型也在学习,越来越准确和聪明。
“一位医生一生中可能最多看一万个病例,但一个AI模型可以把所有的病人都看过。”宋乐说,在药物设计的情况下,AI模型可以考虑到几十亿的蛋白质,这是任何人类专家都无法企及的数据量。同时,不同于每个专家常常在某个领域专长,难以跨越不同疾病种类去设计药物,xTrimo模型吸收了大量数据,有更好的泛化性。它还可以从不同的疾病信息里学到可迁移性知识,从而在遇到新的领域疾病时有更少的数据需求。
目前,在蛋白质结构预测上,“好的情况下和真实结构相似度可以达到95%以上,有些比较难的蛋白可能相似度只有50%,但是很多蛋白我们发现做得很好。”宋乐预期未来3至5年内,这些模型的准确度都会达到80%以上。
“我们看到现在一些试验体系,它自身相互印证的准确率可能有80%到90%,如果计算的模型能够达到上述阶段,那么三五年内就可以取代很多试验,基本上在计算机里搜寻最想要的设计之后,再做一两轮的验证和优化就可以了。”宋乐说。
要实现这个目标,一个重要的挑战在于人才结构,生命科学大模型不单单需要AI人才,也有工程人才(比如高性能计算工程师)的参与,本身就是两个不同团队的合作。除此之外,其还需要一些很了解生物知识、对生物数据分析很有经验的人才。这种团队的内部合作不容易,但如果成功也会收效颇丰。
宋乐提到一次成功经验。
在靶点发现算法建设过程中,算法任务就是预测扰动后的细胞状态的变化,但这个任务可以直接利用的数据少,描述状态变化的信息是上万维度的基因信息,直接建模将会是一个难以完成的任务。
而通过生物和AI算法研发人员的共同碰撞,一方面从AI算法出发,找到利用大量无监督单细胞数据形成预训练模型,抓住细胞千变万化的基因表达的内在联系,让预测扰动后的细胞状态有了一个好的基础。另一方面,从生物角度出发,将大量已有的生物通路数据详细归类和甄别,辅助AI建立基于细胞调控图谱的扰动传播模型。这两方面结合就建立了xTrimoCell模型,这也成为业界首创的免疫细胞扰动后功能变化预测模型,并用于靶点发现。
这也是xTrimo体系最终能够表征单体蛋白质、蛋白质相互作用、免疫细胞、免疫系统等多层次生物问题,理解生物数据之间关联性,让大量可能没有标签、不是针对特定问题产生的数据转化成一类标准,并且在训练之后,成功在多个面向生命科学的重大任务中刷新行业纪录的重要支撑。
0 留言