您好,欢迎来到爱一起仪器仪表网(IYIQI.VIP)!咨询电话:

体验手机版

当前位置:爱一起仪器仪表网»百态»颜宁等点评:AI 精准预测蛋白质结构,结构生物学何去何从?

颜宁等点评:AI 精准预测蛋白质结构,结构生物学何去何从?

浏览量:254 转载自:仪器信息网 发布时间:2020-12-04 19:30:09

 

12 月 1 日,谷歌旗下的 DeepMind 公司宣布发表,其新一代 AlphaFold 野生智能体系在国际蛋白质构造猜测比赛(CASP)上击败了其他的参会选手,精确猜测了蛋白质的三维构造精确性可与冷冻电子显微镜(cryo-EM)、核磁共振或 X 射线晶体学等尝试技术相媲美。


(详见《处理生物学 50 年来的严重应战!生物界「AlphaGo」精准猜测蛋白质构造》)这一消息激起了环球媒体关注,前 Genentech 首席实施官 Arthur D. Levinson 博士盛赞这一成绩是「划时期的前进」


野生智能的「进击」对生物学、对其他学科会有甚么影响?收集上有人提出:AI 都能解蛋白质构造了,构造生物学家是否是该失业了?


《返朴》总编、构造生物学家颜宁特邀几位同仁对这一消息各持己见, 回答大家的疑问。

微信图片_20201204191414.jpg

by Asier Sanz | https://asiersanz.com/


AlphaFold2 是个大突破,但我们另有勤劳的标的目标


张阳

(ITASSER 缔造者,美国密歇根大学传授)


AlphaFold2 明显是蛋白质构造猜测范围的严重突破。这能够是从 1969 年第一篇 Journal of Molecular Biology 用比较建模办法猜测蛋白质构造发表 51 年以来最大的突破。


这个范围已往 20 年来,平息不竭比较缓慢,但近来几年,随着配合退化、打仗图猜测和引入深度学习以后,许多软件,好比 I-TASSER 和 Rosetta 等,都有了很猛前进。


就 I-TASSER 来讲,两年前在第 13 届 CASP(CASP13)时,它能够精确猜测的非同源蛋白数目比其六年前在 CASP11 前程步了 5 倍。此次 CASP14 也比 CASP13 的猜测才气前进了许多。但 AlphaFold2 此次比上次前进更大,和两年前的上一个版本相比, AlphaFold2 的主要变革是直接锻炼蛋白质构造的原子坐标,而不是用以平居用的、简化了的原子间距大概打仗图。


传统上,蛋白质构造猜测能够分红基于模板和重新猜测,但是 AlphaFold2 只用同一种办法 —— 机器学习,对险些统统的蛋白质都猜测出了精确的拓扑学的构造,其中有约莫 2/3 的蛋白质猜测精度到达了构造生物学尝试的丈量精度。这阐明,起码是在单构造域的蛋白构造,他们靠近处理了这个成绩。


谷歌此次为甚么能够得到云云大的胜利?


这首先与它们具有壮大的人力和计算资本有关。


计算机上,他们利用 TPU(据他们的宣扬是比 GPU 快 15 倍),学术界的尝试室只需 CPU 大概 GPU,而许多尝试室都还没有 GPU。他们对媒体宣扬中说 Alphafold2 最后只用相称于 100 个 GPU 的资本锻炼了两周就发生了最后的模子,学界大多数尝试室都能够做到,这是不客观的。因为发生一个新的设法,到锻炼胜利的模子,中心起码要重复测试重复 100 次以至 1000 次。这就像吃了十个馒头的饿汉一 样,不能说吃了最后一个馒头吃饱了,就觉得只吃最后一个馒头就够了。


别的,他们能够高薪招聘大批专业人才,集合精神攻关一件事,不需求担心基金申请、教学和门生结业论文等等。这些人力和计算资本上的差别是谷歌 DeepMind 如许的产业钻研机构比起学术界在攻关科学大概工程成绩上的最大劣势。


固然,学术界在蛋白质构造猜测这么多年的积聚,也给 AlphaFold2 的胜利奠基了根底。


我自己很欢愉他们得到了这么大突破。这个事情首先证清楚明了蛋白质构造猜测成绩是能够被处理的。这实在不是一个简朴的成绩,因为蛋白质构造和序列的庞大干系,常常让人们 —— 特别是做构造猜测的人 —— 狐疑,蛋白质折叠这个成绩是否是可解, 大概有没有唯一解。


我们在 15 年前的一篇 PNAS 论文中提到,用 PDB 库中的模板,在实际上能够处理 “单构造域蛋白质构造猜测” 这个成绩,但那是一个基于模板的传统解法, 难点是如何找到最好的模板。谷歌他们此次用「暴力」的机器学习,「暴力」地处理了这个成绩。这个做法的胜利会对许多相干范围都发生深远影响。


有人说这个 AlphaFold2 会让许多相干行业的人失业。我觉得恰好相反,它给许多范围供给理处理成绩的新路子和新思想,因此会极大敦促相干范围的展开,因此会发生更多更大的机会。即即是在蛋白质构造猜测这个相对较小的范围,我们另有许多事情要做。


AlphaFold2 此次只需 2/3 的蛋白猜测做到尝试精度,另有 1/3 做不到,能否另有更快更好的路子来发生更高精度构造的算法?基于贸易或别的思考,我信赖谷歌能够不会公然代码或 Server。


所以,终极能够还得学术界的同行配合勤劳,完善和推行这一技术,让其真正惠及生物医学钻研和一般公众的安康需求。


共赢大于合作


龚新奇

(中国群众大学数学科学钻研院传授,清华大学北京构造生物学高精尖中心合作钻研员)


2020 年第 14 届国际蛋白质构造猜测比赛(CASP14)共有 84 个通例(Regular)题目成绩,其中有 14 个题目成绩因为生物尝试没给出肯定构造等缘故起因被打消或延缓,其他 70 个题目成绩的单体和复合物蛋白质所含有的氨基酸个数从 73 到 2180 不等。


19 个国家的 215 个小组到场了 CASP14。终极,谷歌旗下 DeepMind 公司的野生智能体系 AlphaFold2 在 2018 年的 Alphafold 根底上迭代创新,超凡阐扬,一枝独秀,根柢处理了「从氨基酸序列猜测蛋白质构造」这个搅扰人类 50 年的生物学第二遗传暗码成绩。


AlphaFold2 的胜利表现在三个方面:

1.许多构造的猜测精确度跟尝试晶体构造相称,能够替换晶体构造;

2.一些含有多个构造域的庞大超长的单链构造也到达了能够跟尝试构造比较的水平;

3.帮手剖析了比赛中触及到的、尝试多年没拿到的 X 射线晶体和 cryo-EM 冷冻电镜构造,好比 T1058 的膜蛋白是用了 Alphafold2 的猜测模子以后,才跟原有晶体学数据综合胜利剖析了构造。

AlphaFold2 团队的 John Jumper 陈述表明,他们利用了基于留神机制的神经收集,静态调解收集中节点的次第和链接;依托的是端到真个优化团体构建构造,而不是氨基酸距离;收集中内置了大批的序列、构造和宏基因组等多重比较信息;还依靠分子模仿软件优化去掉了原子的聚集碰撞。


在 AlphaFold2 的摘要作者名单里,交叉团队的 30 位作者中有 19 位都被标识表记标帜为不异贡献的第一作者。他们将近 8 分钟的宣介视频,纪录了团队成员在新冠疫情时期精诚合作、攻坚克难的贵重场景。


CASP 构造者 John Moult 指出,计算下一步另有更艰难的成绩要处理:超大复合物构造、静态构象变革、蛋白质假想、药物假想等等。


除我们蛋白质构造猜测小同行对 AlphaFold2 的胜利很欣喜以外,社会上另有多个差别标的目标的学术界、财产界和消息界对它寄予了厚望。


在欣喜的同时,蛋白质构造猜测小同行也有一些保存定见:

1.工程化较着,依靠于壮大的 GPU 计算资本和代码优化团队;

2.谷歌公司险些能够汇集环球统统收集信息,固然看起来 AlphaFold2 的自动化水平很高,但他们在野生操纵中利用了哪些信息值得关注;

3.猜测对了构造,但不即是明白了蛋白质折叠历程和道理。


生物尝试科学家也有许多观点:

1.算出构造只是生物学纪律发明的第一步;

2.计算的多个 models 中,偶然打分排序禁绝;

3.开放 AlphaFold2 的 server 以后,利用结果纷歧定那末好;

4.只是在已有蛋白质构造数据集上锻炼得到的模子,尚不能计算别的构象或别的种别的分子构造。


另有体贴这个范围的其他标的目标的专家也提出了成绩:如何了解这个算法胜利的道理?如何跟原本的热力学、物理学等根前导发端根底理相融相通?


我觉得 AlphaFold2 是个大突破,后续能够性许多,会替换一些简朴的构造生物学尝试,但对当下科学家追求的前沿生物学来讲,共赢大于合作;对生物学、数学和计算机学等学科而言,则会带来新的机遇。

技术效率于科学探求,构造生物学早就进入新时期
颜宁

(美国普林斯顿大学雪莉?蒂尔曼毕生讲席传授,美国科学院外籍院士)


首先,简朴说一下,甚么是生物学里的「构造」。


用个不太恰当的类比:变形金刚。好比擎天柱是辆车还是个机器人,这就是差别的构造了,机器人能打斗大车做运输,服从也纷歧样。而差别的汽车人组成身分能够差未几,都有合金、玻璃、橡胶,但是形状各异,专长也纷歧样。
生物分子的组成身分和根柢单元就那末几种,但是组装起来,差别的序列差别的构造,因而服从各异、八门五花。这个构造不是静止的,每个生物大分子根柢都像个小机器,比变形金刚更庞大、更变革无量。


因为构造决定了生物大分子的服从,所以剖析高辩白率构造在已往几十年不竭是了解生物大分子事情机理最有力的工具。但是不竭以来,因为技术范围,关于绝大多数生物大分子的构造剖析艰难重重。所以,一批科学家另辟门路,试图在已有的知识根底上,绕开劳心劳力又劳财的尝试法式,从蛋白质的序列直接经过历程计算猜测出它们精准的三维构造。


蛋白构造猜测实在不是一个新奇学科,不竭以来就是构造生物学的一个分支,许多科学家不竭开辟算法,期望按照序列猜测出来的构造愈来愈精确。
这个范围在已往十几年前进快速,而且与尝试构造生物学融合度愈来愈高。好比,自从进入电镜时期,看到一堆口角灰的密度,假如其中某些部门没有同源构造,经过历程软件猜测一个大抵的构造模子,放到密度图里面做框架,再按照尝试数据调解,曾经是个通例操纵。


此次野生智能赢得 CASP 的消息亮点有两个,一是 AI,二是精确度高。这的确是突破,但是有了两年前的消息(注:2018 年,DeepMind 开辟的第一代 AlphaFold 初度到场 CASP 而且拔得头筹)做铺垫,现在此次委实是预料当中。
至于衍生出来的所谓「构造生物学家都要失业了」的调侃 —— 假如你对构造生物学的了解还停止在 20 年前,那这么说也不是不可。但是构造生物学自己不竭在展开着,一场冷冻电镜的辩白率反动更是令构造生物学差别旧日了。
我在 2015 年掌管一个学术钻研会的时分曾经批评过:构造生物学的主语是生物学,是了解性命、是做诞生物学发明。
但是,在 X - 射线晶体学为主要手腕的时期,得到大多数钻研工具的构造自己太难了,因而许多钻研者把「得到构造」自己作为了目标,让老手误觉得构造生物学就是解构造。但我从进入这个范围之初,就被教诲得明显白白:构造自己只是手腕,它们是为了回答成绩、做解缆现。而电镜使得「发明」二字尤其凸起。

看到构造自己、知道你的钻研工具长啥样,倒也能够称之为发明,但我方才说的「发明」,特指那些超乎假想的、经过历程构造才提示出来的、自然界里奇特的存在大概令人蔚为大观的机理。


我授课最喜好举的例子之一就是施一公组的剪接体构造。为啥呢?因为它汇合了构造生物学发明里险些统统的出色要素和应战。

第一,在剪接体构造出来之前,有许多剪接体的组分以至是未知的。差别于传统的构造生物学,先知道你要钻研工具是啥,再吭哧吭哧地去把它们的构造解出来 —— 剪接体的电镜分析是看到了密度图以后,完整不知道这是啥,需求经过历程质谱等手腕去审定组分。我从 2015 年就猜测:电镜与质谱组合,将会酿成一个主要的生物学钻研发明手腕。在电镜时期,如许的例子愈来愈多。好比清华大学隋森芳西席组的那个宏大的藻胆体构造,靠质谱都不够了。为了搞明白组分,他们以至先做了基因组测序。

第二,几十上百个蛋白如何众星捧月地把那末几条貌似简朴的 RNA 掰成与几个小小的金属离子配合的核酶反应中心,在茫茫碱基中,在精确的工夫精确的地点牵线搭桥,剪掉 intron(内含子),毗连 exon(外显子)?就为了这一「剪子」 一「勾针」,为了几毫秒的历程,这么个庞然大物的几十上百个组成部件却要分分合合,这个历程是真奇特。


微信图片_20201204191624.jpg

施一公尝试室报道的首个酵母剪接体的构造

(图源:生物化学规范课本 Lehninger Principles of Biochemistry(第七版)封面)


构造生物学目前的尝试手腕只能得到静止的 3D 照片,为了提示这部影戏,就要不竭得到中心态的 3D 照片,帧数越多,影戏越精准。但即便云云,这个历程中的动力学成绩,简朴说,就是变革速率,依旧不是现在的构造生物学尝试手腕能够提示的,需求借助更多生物物理技术、计算生物学手腕去探求。
我自己的事情固然没有剪接体那末酷炫,但是电压门控钠离子通道如何感到感染膜电势的变革,开门关门,就这么个历程,听着简朴,我们逝世磕三年了,依旧一筹莫展。别的,我们今年发的两篇 PNAS 论文实在代表了构造生物学的另外一个勤劳标的目标:在尝试操纵历程中对生物大分子施加外力(电场、磁场、各种长度的波......)。
大概是遭到我自己专业范围的范围,AlphaFold 迄今带给我的震惊还赶不上冷冻电镜的反动,后者将我们从技术挣扎中束厄局促出来,能够专注于构造带来的生物学发明自己。

AlphaFold 目前最胜利的猜测是针对单链分子,固然未来猜测复合物的高精构造也该当不在话下。相比于对蛋白折叠的贡献,我倒是更期望 AI 能够助力 Molecular Dynamics Simulation(分子动力学模仿)。对构造生物学而言,这个范围才是亟需前进的。

我小我私人觉得性命是地球上最奇特的存在,那末多未知要探求,任何一次技术前进都是契机。该思考的是如何把新技术为我所用,去问出、去探求更故意义的成绩。
最后,当 AI 能够胜利猜测我们正在孜孜以求的生物大分子静态、原位高辩白率构造的时分,那失业的一定不止是构造生物学家、大概生物学家了 :p

各持己见


按照现在表露的功效,AlphaFold2 曾经根柢到达尝试剖析构造的精度。前天 AlphaFold2 团队的陈述展示了新冠病毒 SARS-COV-2 的猜测功效,阐明 RNA 聚合酶这么大的蛋白也能根柢猜测精确。


实际上,这会对构造生物学有很大打击,特别是当前单颗粒 cryo-EM 的尝试办法上,能否还需求把辩白率做得那末高?低辩白率的电子密度图,以至 SAXS 数据分离猜测功效该当就可以处理成绩了。
但是,理想中的打击不会那末大。这是因为,AlphaFold2 模子的创新性十分高,其平分离的 2D transformer 和 3D equivariant transformer 都是 AI 范围的前沿技术,模子的锻炼难度很大。


DeepMind 的锻炼办法在学术界很难复现,估计学术界要花几年的工夫才气跟上,因此短时间内 AlphaFold2 对构造生物学的影响会比较有限。DeepMind 能够会和个体尝试室合作,猜测蛋白质构造。


—— 龚海鹏(计算生物学家,清华大学构造生物学高精尖创新中心钻研员)



AlphaFold 为构造生物学家供给了除晶体学、冷冻电镜、NMR 以外的别的一种手腕,用于提示生物大分子阐扬感化的分子机制。


—— 张鹏(构造生物学家,主要操纵晶体学和冷冻电镜技术;中科院分子植物科学杰出创新中心钻研员)



AlphaFold 目前还不能猜测庞大的分子机器,主如果因为蛋白 - 蛋白相互感化十分庞大,存在极多的能够性。尝试手腕所提示出来的蛋白 - 蛋白相互感化方法还只是冰山一角,更况且在差别心理条件和历程中的构造变革。因此,未来对有特定服从的、多个身分组成的、生物大分子复合体的构造剖析,和体内的构造分析,将成为构造生物学尝试钻研的主要内容。不论有没有 AlphaFold,构造生物学也正在野这个标的目标展开。

Rosetta(注:重新蛋白构造建模算法)也好,AI 也罢,构造猜测都是基于已有的尝试数据够大。没有充足的数据积聚,这些基于统计和数据库的猜测就没法完成。完整基于物理学和化学第一性道理的构造猜测还没有闪现。
尝试科学永久是探求未知的须要手腕。新的软件算法该当是成为尝试科学家的更有力工具,而不是替换尝试科学。



—— 王雄伟(cryo-EM 专家,清华大学构造生物学高精尖创新中心实檀越任,清华大门性命科学学院院长)



      近来两年,构造生物学范围经历了与围棋界相似的故事。Alphago Fan 版本时围棋界实在不觉得它能够打败人类顶尖妙手,但是 Alphago Lee 后全部围棋界甘拜下风,而且转向 AI 拜师学艺。2018 年 Alphafold 闪现时,尝试构造生物学范围觉得被打败的仅仅是传统的构造猜测范围,2020 年 Alphafold2 以后,尝试构造生物学范围该当开端思考如何与之共存和如何「拜师学艺」了。


      目前阶段野生智能在围棋上曾经远远逾越人类顶尖棋手,但是人类围棋角逐并未因此打消,好像汽车缔造后奥林匹克仍旧在停止田径角一一样。缘故起因之一是野生智能固然逾越了人类,但并未处理围棋的终极解。一样的道理,关于庞大的构造生物学成绩,猜测手腕自己还不能号称完整处理了成绩。


      尝试构造生物学范围接下来需求做的一个事情是要拥抱变革,更好地与猜测办法分离和配合展开。


—— 周强(cryo-EM 专家,西湖大门性命科学学院特聘钻研员)



蛋白质体系越大,构造的剖析越难仅依靠计算办法。Cryo-ET (冷冻电镜断层成像) 技术善于剖析体外难表达的大分子机器构造、细胞中的原位蛋白构造等庞大体系,因此很难被离开尝试手腕的办法替换。目前,因为体系过于庞大,利用分子动力学模仿整颗病毒还没有完成,要模仿细菌、细胞、构造,还要很长的路要走。