通过阿尔法折叠,提前十年检测老年痴呆就容易多了。
人工智能领域第一大家族,来自DeepMind的Alpha家族最喜欢做的事情就是出其不意。
它们所有的小确幸都是,意料之中、精彩尤甚。
比如之前一战成名的AlphaGo、后续傲娇的AlphaZero,以及这两天刚刚加入家族战队的AlphaFold,中文封号为,阿尔法折叠。
生物医学领域,一向都是冷静与热情并存,而这位AI新宠儿AlphaFold的性格虽然还不明朗,但至少目前看来,势必会引发生物医学领域新一轮的研究加速。
“小奇妙”阿尔法折叠
据DeepMind介绍,阿尔法折叠这项成果的重大意义就在于,你给它一段基因序列(生物学上称其为蛋白质一级结构),在电脑上跑一下,就可以成功对这种蛋白质建模。
看似简单,但意义非凡。
在过去五十年,和阿尔法折叠起到相同功能的技术有冷冻电子显微镜、核磁共振或X射线晶体学等实验技术。单看仪器,它们就需要高昂的价格,但最重要的是,其实验成本也很高,需要专人做大量的实验,器材损耗不说,实验用料就要花费数万美元。
花钱不说,最主要的是,整个过程太慢,需要耗费研究者几年甚至数十年的光阴。
有了阿尔法折叠就不一样了,生物学家再也不用在实验器材面前耗费数十年的光阴,只需要简单录入数据就好。
当然,阿尔法折叠的好处不仅这么点,最终它还是惠及到我们普罗大众的身上。
以老年痴呆症(学名为阿尔茨海默氏症)为例,它在人体的潜伏期长达十几年之久,且病因复杂,以目前的医学技术,临床上甚至很难在发病前几年检测出这一疾病。
在生物学研究上,科学家普遍认为蛋白质的变化是引发老年痴呆的病因。换句话说,老年痴呆患者的某一部分蛋白质长得一定和正常人不一样。但是由于我们的研究速度太慢,所以生物学家不知道身体中所有的蛋白质形态,因此检测哪一部分不一样就难如登天。
想象一下,通过阿尔法折叠,提前十年检测老年痴呆就容易多了,只要通过电脑看下蛋白质长得是否有差异就可以了。
人工智能对蛋白质结构的“深度宠爱”
这一次,让阿尔法折叠一战成名的还是一项比赛。
在1994年,为了促进研究和衡量最新方法在提高预测准确性方面的进展,蛋白质结构预测技术关键评估社区范围实验(CASP)的双年度全球竞赛被设立。演变至今,其比赛结果已经成为行业标准。
虽然没有AlphaGo当年成名那么壮观,但作为阿尔法家族的一员,阿尔法折叠一出手就是不凡。在今年的CASP比赛上,它不出所料的成功拿到了第一。
据DeepMind官网上的介绍,基于深度神经网络,他们设计了两种方法以用来构建完整而精确的蛋白质结构。
首先,他们先采集氨基酸对之间的距离和连接这些氨基酸的化学键之间的角度数据,接着将这些数据设计成用以评估蛋白质结构准确度的分析工具。
使用这一分析工具,研究团队想出第一种方法,就是在现有蛋白质数据库里找到最匹配的蛋白质,如果找不到,他们就基于最接近的搜索结构上,用新的基因片段不断替换,以创造出匹配要求的新结构。
而这第二种方法要更简单一些。据他们介绍,研究人员主要用的就是梯度下降 -a数学技术,它的精度相较于第一种会更高一些。相较于第一种方式,这种技术一步就可以预测整个蛋白质链,而不用经历组装的过程,整个过程更简单。
DeepMind没有公布更多细节,但经过这样“简单”的设计,奇迹就这样发生了。
最后,科普来了
在人体内,蛋白质是一种神奇的存在。
众所周知,蛋白质是构成人体结构的主要成分,其含量仅次于水,约占一个人体重的五分之一。我们身体所要执行的几乎所有功能,包括肌肉的收缩与拉伸、身体对光线的感知和食物的转化,都需要蛋白质在其中起关键作用。
而科学家指出,蛋白质的结构很大程度上决定了一种蛋白质的特性,因此研究蛋白质3D结构的重要性就显而易见了。在我们的身体里,这样的案例比比皆是,如构成我们免疫系统的抗体蛋白质是“Y形”的;胶原蛋白的形状像绳索;用于基因编辑的CRISPR和Cas9,它们则像剪刀一样。
但是纯粹从基因序列只能够找出蛋白质的三维形状是一项复杂的任务,按照传统的研究方法,科学家需要从一级结构、二级结构来一层层研究,花费几十年甚至千百年才能够完全建立蛋白质的形态模型。
而阿尔法折叠的出现,让生物学家省去了不少功夫。
在DeepMind官网上,他们是这么介绍这一重大成果的面世的:“我们很高兴与大家分享DeepMind在展示人工智能研究如何推动和加速新科学发现方面的第一个重要里程碑。DeepMind汇集了来自结构生物学、物理学和机器学习领域的专家们,通过跨学科方式将尖端技术运用其中,设计出了仅根据其基因序列就可以预测蛋白质3D结构的AlphaFold。”
相关信息参见DeepMind官网,点击阅读原文获取链接。