微信 手機版
首頁 > 行業 > 金融 >
擊敗李世石的AI公司,又研發出生物版“阿爾法狗” 2020-12-01 23:11:48  來源:

來源:紅星新聞

當地時間11月30日,谷歌旗下的人工智能公司DeepMind宣布,其研發的AI系統AlphaFold成功解開了一個困擾人類長達50年之久的生物學難題——“蛋白質折疊問題”。

這一驚人的成果立刻引發了關注。科學家們表示,這個突破性的成就不僅將幫助科研人員弄清引發某些疾病的機制,為更快研發藥物、農作物增產,以及可降解塑料的超級酶研發鋪平道路,還可能對大部分人類產生革命般的影響。

“這是該研究領域激動人心的一刻,”DeepMind聯合創始人兼CEO哈薩比斯說:“這些算法今天已經足夠成熟強大,足以被應用于真正具有挑戰性的科學問題上。”

為何“蛋白質折疊問題”如此重要?

蛋白質被稱為地球生命的“基石”,它幾乎支持著地球上每一種生物的生命功能。而這些由氨基酸鏈組成的復雜大分子,其功能很大程度上取決于自身獨特的3D結構。

1972年,諾貝爾化學獎得主、美國科學家克安芬森提出了一個著名的假設:從理論上來說,蛋白質的氨基酸序列應該可以完全決定其結構。自此,人類科學開始了一場半個世紀的新探索。

自安芬森提出假設后,科學家們一直在尋找一種快速預測蛋白質結構的方法,一旦能掌握這樣的方法,就能更好地理解蛋白質在人體內的作用以及其工作原理,但他們卻遲遲未能得以突破。

弄清蛋白質的氨基酸序列如何決定其折疊成何種形狀,即“蛋白質折疊問題”,被稱為過去的50年里生物學領域最棘手、最持久的謎團之一。

蛋白質的形狀由氨基酸之間數以百萬計的微小相互作用決定的,而“一旦這些氨基酸發生一次微小的重組,就會對人體的健康造成災難性的影響,因此,研究相關蛋白質是了解人類疾病和找到新治療方法最有效的方法之一。”致力于研究蛋白質結構預測問題的CASP14小組主席約翰·莫爾特博士解釋道。

不僅如此,世界上許多重要的科研挑戰,如開發治療疾病的方法或找到分解工業廢料的超級酶,基本上都與蛋白質及其所扮演的角色有關。

然而,人體內有成千上萬種蛋白質,細菌、病毒等其他物種則有多達上億種蛋白質。目前已知的蛋白質有兩億種,但只有一小部分已被破解,因為按照傳統研究方式,僅僅破譯一種蛋白質的結構就需要耗費大量時間和金錢。

據《財富》雜志介紹,迄今為止,唯一破譯蛋白質結構的方法是通過X射線晶體學。這涉及到將數以百萬計的蛋白質溶液轉變成晶體,這是一個十分棘手的化學過程。然后,X射線被射向這些晶體,科學家根據它們產生的衍射圖案逆向工作,從而建立蛋白質本身的圖像。而對許多蛋白質來說,不是任何X射線都可以“勝任”,它們需要由一個巨大的、視距大小的圓形粒子加速器——同步加速器產生。

這一整個過程既昂貴又耗時。根據多倫多大學研究人員的一項估計,用X射線晶體學方法確定單個蛋白質的結構大約需要12個月和12萬美元。目前全球每年新增發現大約3千萬種蛋白質,但其中只有不到20萬種能通過用X射線晶體學繪制出結構圖。DeepMind高級研究員、蛋白質折疊問題團隊負責人約翰·江珀曾表示:“我們的無知程度正在迅速增長。”

可有助理解生命形成,研究治療癌癥、新冠的救命藥

解決蛋白質折疊問題意味著什么?答案是:可能會對大部分人類產生革命般的影響。

如今,科學家們通過Alphafold 2已經擁有了預測蛋白質3D折疊形狀的能力,對于人們理解生命形成的機制至關重要。

《自然》雜志指出,準確預測蛋白質結構的能力將是生命科學和醫學領域的巨大福音。因為幾乎所有的疾病,包括癌癥、新冠病毒等,都與蛋白質3D結構有關,而通過確定以前不為人知的蛋白質結構,可以更快地開發更有針對性的治療方法和藥物。這可能會加快新藥上市的時間,可能會減少新藥開發的幾年時間和數億美元的成本,可能因此拯救數億人的生命。

不僅如此,該領域科學家們指出,這一突破將徹底改變生物學。

英國皇家學會主席拉馬克里希南指出,在AlphaFold的幫助下,人類攻克“蛋白質折疊問題”比此前的預期提前了好幾十年。“它將從根本上改變生物學眾多領域的研究,這將是令人興奮的。”他說道。

“它改變了游戲規則,”德國進化生物學家安德烈·盧普斯說道。AlphaFold已經幫助他找到了一種困擾了團隊長達10年的蛋白質結構,他預計,這將改變團隊的工作方式和他的科研任務。“這將改變醫學,改變大家的研究方向,改變生物工程,改變一切,”他補充道。

哥倫比亞大學計算生物學家 Mohammed AlQuraishi 在《自然》雜志上的撰文指出,“可以說這將對蛋白質結構預測領域造成極大影響。我懷疑許多人會離開這個領域,因為核心問題已經解決。這是一流的科學突破,是我一生中最重要的科學成果之一。”

但盧普斯認為,這將允許新一代的分子生物學家提出更高級的問題。

毫無疑問,AlphaFold 也是 DeepMind 迄今為止取得的最重要進展之一,也是人工智能領域最重要的成就之一。但對于DeepMind的研究人員而言,還有很多后續問題有待解決,包括弄清楚多種蛋白質如何形成復合物以及它們如何與DNA相互作用。江珀表示,DeepMind下一步計劃將應對這些挑戰。

問題的開始:打破人類智商“天花板” 解決“根節點問題”

作為全球領先的人工智能研究中心之一,DeepMind研發的AI系統已經讓世人驚嘆。此前,該公司最為人所知的成就當屬擊敗了圍棋世界冠軍李世石的AlphaGo。

然而這并不是DeepMind的目標,利用人工智能解決一些最緊迫的科學難題,才是其聯合創始人兼CEO杰米斯·哈薩比斯成立這家企業的初衷。

而DeepMind之所以要瞄準了蛋白質折疊問題,一切要從一個游戲開始說起。

哈薩比斯曾是一名國際象棋神童,13歲時就成為象棋大師,曾一度在同齡人中排名世界第二。他對國際象棋的熱愛讓他癡迷于兩件事:游戲設計和自己內心的思維機制。

在進入劍橋大學學習計算機科學后,他于1998年創立了自己的電腦游戲公司Elixir Studios。在制作出兩款獲獎游戲后,他賣掉了知識產權并關閉了公司。隨后,哈薩比斯又在倫敦大學學院獲得了認知神經科學博士學位。

2009年,哈薩比斯在美國麻省理工學院做博士后研究時,聽說了一款名為Foldit的網絡游戲。Foldit由華盛頓大學的研究人員設計的,是一個關于蛋白質折疊的“公民科學”項目。這款游戲引起了哈薩比斯濃厚的興趣。

2010年,哈薩比斯創立了人工智能公司DeepMind,目標是“解決智力問題,然后用它來解決其他一切問題”。此時的哈薩比斯已經對蛋白質折疊有了初步的認識,使其成為了“其他一切問題”之一。

2016年3月15日,AlphaGo擊敗世界頂級棋手李世石當天,DeepMind一戰成名。同樣在當天,哈薩比斯在首爾街頭對AlphaGo團隊負責人大衛·西爾弗表示:“告訴你吧,我們可以解決蛋白質折疊問題。”

DeepMind人工智能科學應用的部門負責人普什米特·科利表示,DeepMind的目標是試圖解決“根節點問題”,也就是說,解開通向眾多不同科學途徑的根本問題,而蛋白質折疊問題正是這些根節點之一。

Alphafold是如何突破這一難題的?短短4年:從誕生到成功

時間回到1994年,當許多科學家第一次開始使用復雜的計算機算法來嘗試預測蛋白質折疊問題時,馬里蘭大學的生物學家莫爾特決定創建一個競賽,以提供一個公正的方式來評估出最好的算法。他將這個比賽命名為“蛋白質結構預測的關鍵評估(CASP)”,每兩年舉行一次。此后,CASP被譽為蛋白質結構預測領域的奧林匹克競賽。

2016年,在AlphaGo擊敗李世石后不久,DeepMind向爭奪這塊CASP金牌發起了進攻。

為了解決這個問題,DeepMind成立了一個由六名AI研究人員和工程師組成的尖兵隊伍,隨后蛋白質折疊問題專家約翰·江珀也加入了。經過一番摸索,通過一種名為“監督式深度學習”的簡單訓練方法,并使用來自蛋白質數據庫(一個大型生物分子的3D結構數據在線數據庫)的17萬份公開數據作為訓練數據,AlphaFold很快有了雛形。

所謂“監督式深度學習”,就是大多數商業應用中使用的人工智能:從一組已建立的數據輸入和相應輸出,神經網絡學習如何匹配給定的輸入和給定的輸出。

此前,一些生物學家也嘗試使用“監督式深度學習”來預測蛋白質如何折疊,但正確率只有50%。隨后,有科學家根據蛋白質的進化史將其分門別類并發現,在各類別中,DNA序列中可能存在著“協同進化”的氨基酸對,在蛋白質的折疊結構中相互接觸。

2018年第13屆CASP比賽,DeepMind在“協同進化”和接觸預測的基本觀點上增加了兩個重要的轉折因素——距離和角度。首先,讓算法預測蛋白質中所有氨基酸對之間的距離,而不是試圖確定兩個氨基酸是否會接觸。其次,研發了第二個神經網絡,以預測氨基酸對之間的角度。

至此,DeepMind的算法已經能夠計算出蛋白質可能結構的粗略輪廓。然后又使用了一種非人工智能的算法對結構進行優化。將以上所有元素合并后,“AlphaFold”AI系統正式誕生。

在2018年第13屆CASP比賽中,AlphaFold擊敗了所有對手。在最難的43種蛋白質預測中,AlphaFold獲得了25種蛋白質的最高分,而緊隨其后的第二名僅得到了3個最高分。

比賽結果一出便震驚了整個領域。盡管如此,此時的AlphaFold距離哈薩比斯的目標——解決蛋白質折疊問題,還差得很遠。AlphaFold幾乎有一半的結果相當不準確,且在104個蛋白質靶點中,僅有三種情況的結果與X射線晶體學得出的結果一樣好。“我們不僅僅想成為這方面的佼佼者,我們還想做到最好。我們實際上想要一個對生物學家有意義的系統,”江珀說道。

2018年比賽結束后,DeepMind開始更加努力。但研究團隊并不是僅在AlphaFold的基礎上改進,而是重新回到白板前,開始提出完全不同的想法,希望讓系統更接近于X射線晶體學達到的精確度。

然而接下來,據江珀回憶,是整個項目中最可怕、最令人沮喪的一段時期:一切嘗試都是無用功。他說道:“我們花了三個月的時間,都沒有比CASP13更好的結果,這讓我們開始感到恐慌。”但后來,研究人員嘗試進行了一些輕微的改動,六個月后,該系統明顯優于最初的AlphaFold。

在接下來的兩年里,江珀和整個團隊都陷入了一種循環:三個月沒有任何進展,接著是三個月的快速發展,接著是另一個停滯期。

2019年11月21日,新系統AlphaFold 2終于在性能上有了巨大的飛躍。2020年5月至8月,第14屆CASP比賽開始,11月30日公布排名中,AlphaFold 2打破了精確度的紀錄,以平均預測準確度為92.4分(滿分100分),最具挑戰性的蛋白質分類平均得分87分的成績,獲得了比賽冠軍,同時也撼動了全球生物學領域。

紅星新聞記者 徐緩

相關閱讀:
熱點文章
终极急速赛车中文版 江西快3开奖记录 浙江体彩6+1历史开奖结果文库 网赌ds视讯有真的吗 秒速时时彩走势分析图 江西快三彩经网 彩票幸运飞艇投注技巧 河南快三走势图481 山东群英会缩水工具 查香港六合彩记录 快乐扑克371期 吉林快三提前预测 mg游戏平台手机版网站 bg视讯h5入口 安徽11选5近15天走势图 香港六合彩白小姐信息心提供 谁有正规平台河内五分彩