近,我又被 AI 新聞給刷屏了,當(dāng)年開發(fā)出 AlphaGo ,下棋下哭柯潔的谷歌DeepMind 公司,在 Nature 上公布了他們新一代 AlphaFold 3 模型。
AlphaFold ,這個(gè)聽起來有點(diǎn)像折疊屏手機(jī)型號(hào)的名字,是他家專門預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的新 AI 。
生物體內(nèi)幾乎所有的分子結(jié)構(gòu),它都可以預(yù)測(cè)。
這意味著生物醫(yī)學(xué)研究從此開了真 · 上帝視角,任何生物分子作用機(jī)理都將從黑盒中打開,變成透視模式。
不少媒體和網(wǎng)友開始?xì)g呼, 21 世紀(jì),這下真要成生物的世紀(jì)了。
要看懂這次新發(fā)布的 AlphaFold 3 有多牛,咱們就得先知道, DeepMind 和它的 AlphaFold ,曾給了分子生物圈多大的震撼。
我們?cè)诰拍炅x務(wù)教育里都學(xué)過,生物體內(nèi)多的物質(zhì)就是蛋白質(zhì),而要搞清楚生物分子的底層原理,就必須知道每個(gè)蛋白質(zhì)具體長啥樣。
這么說吧,在 AlphaFold 之前,大伙們預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)主要兩種辦法,
一是用 X 光照蛋白質(zhì)晶體,也就是先拍片子再分析片子,再來搞懂它長啥樣。
二是核磁共振 ( NMR ) 光譜,拍出大體形狀輪廓,再推測(cè)它的結(jié)構(gòu)。
這些傳統(tǒng)辦法不僅慢,適用范圍小,需要不斷試錯(cuò),還費(fèi)錢,每拍一次片子就花好幾萬美金,抵一輛小米 su7 。
這也是為啥蛋白質(zhì)研究方向生物學(xué)家,費(fèi)錢且需要大量經(jīng)驗(yàn)。
只有那些經(jīng)驗(yàn)的老師傅,蛋白質(zhì)仙人,才能更快猜到蛋白質(zhì)的準(zhǔn)確形狀,少拍點(diǎn)片子。
所以人們就琢磨,這種需要經(jīng)驗(yàn)總結(jié)的工作能不能靠 AI 解決呢?
DeepMind 就來干這事了,為了克服傳統(tǒng)拍片子的問題,第一代 AlphaFold 選擇技術(shù)路線的時(shí)候就攤牌了:
不拍片子!
蛋白質(zhì)既然由氨基酸構(gòu)成,初代 AlphaFold 用的方法就是,利用來自各處公開的已知蛋白質(zhì)結(jié)構(gòu),把這些蛋白質(zhì)中每一對(duì)氨基酸的距離,鏈接角度,匯總起來做成一張圖, AI 用神經(jīng)網(wǎng)絡(luò)消化完他們,再讓 AI 做出自己的預(yù)測(cè)。
而 2018 年第一代 AlphaFold 一經(jīng)發(fā)布,就技驚四座,力壓一眾實(shí)驗(yàn)室老師傅,獲得第 13 屆蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)大賽 ( CASP ) 冠軍。
AI ,很神奇吧。
不過,初代 AlphaFold 有個(gè)問題,它更依賴局部數(shù)據(jù)的特征來訓(xùn)練,它不太能提取到較遠(yuǎn)元素之間的關(guān)系。
就好像一個(gè)只會(huì)寫短文,但學(xué)不會(huì)寫長篇小說的作家。
問題是,很多蛋白質(zhì)分子有長距離的依賴性,這讓初代 AlphaFold 的實(shí)力就有點(diǎn)捉襟見肘了。
好在 2020 年發(fā)布的 AlphaFold2.0 ,用上了后來在 ChatGPT 上大火的 Transformer 模型。
Transformer 模型的注意力機(jī)制,則完美解決了長距離氨基酸的問題,進(jìn)步有多大呢?
2018 年蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)大賽里 1.0 版本準(zhǔn)確度得分不到 60 分,但是 2020 年大賽里 2.0 版本拿到了驚人的 92.4 分,它能生成的范圍已經(jīng)涵蓋了人類已知蛋白質(zhì)的 98% ,更重要的是它完全開源。
可以說, 2.0 版本已經(jīng)基本解決了單鏈蛋白質(zhì)的預(yù)測(cè)問題。
到 2021 年,基于 2.0 改版的 AlphaFold-Multimer 發(fā)布,也支持上了多鏈,準(zhǔn)確度上也取得了突破,蛋白質(zhì)之間作用的預(yù)測(cè)準(zhǔn)確率超過 70% 。
所以現(xiàn)在很多公司也用上了它們,甚至助力了國外一些新冠疫苗研發(fā)。
但在 DeepMind 看來,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)上的勝利,還遠(yuǎn)遠(yuǎn)沒發(fā)揮完 AI 的潛力,因?yàn)樯矬w內(nèi)的復(fù)雜分子結(jié)構(gòu)不止有蛋白質(zhì),還有核酸,小分子配體等等,
這就好比你花了十年時(shí)間學(xué)刻鑰匙開鎖技術(shù),結(jié)果一出師,發(fā)現(xiàn)大家用的都是指紋鎖密碼鎖,用傳統(tǒng)鑰匙的人太少了!
所以這次 AlphaFold 3 ,他們更新了一個(gè)更牛逼的全方位模型,不僅能預(yù)測(cè)蛋白質(zhì) DNA RNA 等各種小分子,還能揭示他們之間的互相作用。
那這是怎么干的呢?答案是,他們用了 Diffusion 。
對(duì),就是大名鼎鼎的擴(kuò)散模型,在 AI 繪畫大火的時(shí)候,想必大家就聽說過。
它的原理就是把原圖像不斷打碼,再讓 AI 學(xué)會(huì)預(yù)測(cè)這些馬賽克的生成過程,然后反過來實(shí)現(xiàn)從馬賽克到圖像的生成。
不過,就像 AI 畫畫生成不好手指, Sora 椅子視頻會(huì)穿模一樣, Diffusion 加持下的 AlphaFold 3 也會(huì)預(yù)測(cè)錯(cuò)誤,特別是在一些長得相似難以區(qū)分的結(jié)構(gòu)上,比如各位高中有機(jī)化學(xué)里學(xué)過的手性分子。
所以在這些容易出錯(cuò)的地方, DeepMind 用了一個(gè)叫做交叉蒸餾的操作,說白了就是讓有 Transform 模型的 2 代版本先預(yù)測(cè),再把預(yù)測(cè)數(shù)據(jù)添加到 AlphaFold 3 的訓(xùn)練中,也就是相當(dāng)于讓 2 代扮演教師,領(lǐng)著 3 代去做,這樣就能減少預(yù)測(cè)失誤。
生成的效果有多好?直接看官方圖吧。
AlphaFold 3 對(duì) 7BBV - 酶 ( 存在于一種土壤真菌體內(nèi) ) 的預(yù)測(cè),其中酶蛋白( 藍(lán)色 )、離子( 黃色球體 )和單糖( 黃色 )與真實(shí)結(jié)構(gòu)( 灰色 )幾乎重合
AlphaFold 3 對(duì)感冒病毒刺突蛋白( 藍(lán)色 )與抗體( 綠松石色 )和單糖( 黃色 )相互作用時(shí)的結(jié)構(gòu)預(yù)測(cè),與真實(shí)結(jié)構(gòu)準(zhǔn)確匹配( 灰色的)
AlphaFold 3 對(duì)蛋白復(fù)合物的預(yù)測(cè),其中蛋白質(zhì)( 藍(lán)色 )與 DNA ( 粉色 )結(jié)合,預(yù)測(cè)模型與實(shí)驗(yàn)測(cè)定的真實(shí)分子結(jié)構(gòu)( 灰色 )近乎完美匹配
除了生成質(zhì)量相當(dāng)哇塞,精度也是遙遙領(lǐng)先的原子級(jí)。在蛋白質(zhì)與核酸配體的模擬上全面優(yōu)于其他產(chǎn)品,抗原抗體的模擬也同樣優(yōu)秀。
而操作 AlphaFold3 就更容易了。
用 ChatGPT ,咱還得想辦法提個(gè)好問題、寫好提示詞,而在 AlphaFold 3 ,你只需要輸入一些分子列表,它就能預(yù)測(cè)出它們是如何組合在一起的。
試想一下,原先需要花大量時(shí)間精力和資金才能觀察到的現(xiàn)象,現(xiàn)在只需要在網(wǎng)站輸入?yún)?shù)再單擊,幾分鐘后就能產(chǎn)生極高清晰度和準(zhǔn)確度的生物大分子模型。
甚至細(xì)胞系統(tǒng)內(nèi)部的生化過程,現(xiàn)象, DNA 如何發(fā)揮作用,藥物和激素的反應(yīng)如何進(jìn)行,也全都能在極短時(shí)間內(nèi)被整明白。
這些遙遙領(lǐng)先的數(shù)據(jù),和大家的熱情好像都在說:這次發(fā)布已經(jīng)不是跨越式進(jìn)步了,而是革命性的突破,整個(gè)傳統(tǒng)生物醫(yī)療的科研方式,似乎都要被改變了。
不過我覺得,樂觀是好的,但是科學(xué)這玩意兒除了樂觀,要的還得是中肯和嚴(yán)謹(jǐn)。
在各路媒體和網(wǎng)友都在 “ 炸裂 ” “ 顛覆 ” “ 改變世界 ” 的時(shí)候,圈內(nèi)對(duì)的不少大佬,也發(fā)表了些對(duì) AlphaFold 3 的評(píng)價(jià)。
比如顏寧教授團(tuán)隊(duì)就發(fā)現(xiàn), 3.0 版本在一個(gè)糖蛋白預(yù)測(cè)中就翻車了,表現(xiàn)甚至不如前代版本。
也有不少科學(xué)家吐槽 3.0 相比 2.0 它還不開源了,使用次數(shù)也有限制。
甚至,還有人質(zhì)疑 DeepMind 的老板 Hassabis ,他自己就創(chuàng)立過一家 “ 專注人工智能的藥物公司 ” ,號(hào)稱要 “ 利用人工智能重新定義藥物發(fā)現(xiàn) ” ,但從 2021 年到,今天他們還沒有推出任何藥物。
當(dāng)然這就有點(diǎn)在尬黑了,畢竟藥物研發(fā)過程中,蛋白質(zhì)結(jié)構(gòu)問題只是其中一小部分,這并不能對(duì)藥物研發(fā)進(jìn)度產(chǎn)生決定性影響。
總之,我覺得 AlphaFold 的三代產(chǎn)品確實(shí)喜人,但在生命科學(xué)的漫漫實(shí)踐長路上,它依舊有著不少難題需要去突破。
不過說到底,進(jìn)步總還是好事,希望 DeepMind 能再多搞點(diǎn),搞快點(diǎn)吧。
本文鏈接:http://www.horoscopes9.com/news-129256.html下棋下哭柯潔的DeepMind 又要讓生物界大地震