一種能說蛋白質(zhì)語言的人工智能 (AI)模型——迄今為止為生物學(xué)開發(fā)的最大的模型之一——已被用于創(chuàng)造新的熒光分子。
本月,EvolutionaryScale在紐約市宣布了原理驗(yàn)證演示,同時還獲得了1.42億美元的新資金,用于將其模型應(yīng)用于藥物開發(fā)、可持續(xù)性和其他追求。該公司由曾在科技巨頭Meta工作的科學(xué)家創(chuàng)辦,是一個日益擁擠的領(lǐng)域的最新進(jìn)入者,該領(lǐng)域正在將語言和圖像訓(xùn)練的尖端機(jī)器學(xué)習(xí)模型應(yīng)用于生物數(shù)據(jù)。
該公司首席科學(xué)家Alex Rives曾參與Meta將人工智能應(yīng)用于生物數(shù)據(jù)的工作,他表示:“我們希望開發(fā)出能夠讓生物學(xué)可編程的工具。”
EvolutionaryScale公司的人工智能工具ESM3 被稱為蛋白質(zhì)語言模型 。它接受了超過27億個蛋白質(zhì)序列和結(jié)構(gòu)以及這些蛋白質(zhì)功能信息的訓(xùn)練。該模型可用于根據(jù)用戶提供的規(guī)格創(chuàng)建蛋白質(zhì),類似于ChatGPT等聊天機(jī)器人吐出的文本。
威斯康星大學(xué)麥迪遜分校(University of Wisconsin-Madison)的計(jì)算生物學(xué)家Anthony Gitter表示:“這將成為生物學(xué)中每個人都關(guān)注的人工智能模型之一。”
Rives和他的同事們曾在Meta研究ESM模型的早期迭代,但在去年Meta結(jié)束了在這一領(lǐng)域的工作后,他們開始了自己的研究。他們之前使用ESM-2模型創(chuàng)建了一個免費(fèi)的數(shù)據(jù)庫,其中包含6億個預(yù)測的蛋白質(zhì)結(jié)構(gòu)。此后,其他團(tuán)隊(duì)使用ESM-1版本設(shè)計(jì)了具有更好的抗病原體活性的抗體,包括SARS-CoV-2,并重新設(shè)計(jì)了“抗CRISPR ”蛋白質(zhì),以提高基因編輯工具的效率。
今年,位于加州伯克利的另一家生物人工智能公司Profluent利用自己的蛋白質(zhì)語言模型創(chuàng)造了新的受CRISPR啟發(fā)的基因編輯蛋白質(zhì),并免費(fèi)提供了一種這樣的分子。
為了展示其最新的模型,Rives的團(tuán)隊(duì)開始對另一種生物技術(shù)的主力進(jìn)行徹底檢查:綠色熒光蛋白(GFP),它吸收藍(lán)光并發(fā)出綠光。研究人員在20世紀(jì)60年代從生物發(fā)光水母Aequorea victoria中分離出綠色熒光蛋白。后來的工作——隨著這一發(fā)現(xiàn),獲得了諾貝爾獎——展示了綠色熒光蛋白是如何在顯微鏡下標(biāo)記其他蛋白質(zhì)的,解釋了其熒光的分子基礎(chǔ),并開發(fā)出了這種蛋白質(zhì)的合成版本,這種蛋白質(zhì)發(fā)出的光更明亮,顏色也不同。
研究人員已經(jīng)發(fā)現(xiàn)了其他類似形狀的熒光蛋白,它們都共享一個被桶狀支架包圍的吸光和發(fā)光的“發(fā)色團(tuán)”核心。Rives的團(tuán)隊(duì)要求ESM3創(chuàng)造出含有GFP發(fā)色團(tuán)中發(fā)現(xiàn)的一組關(guān)鍵氨基酸的GFP樣蛋白質(zhì)的例子。
研究人員合成了88種最有前途的設(shè)計(jì),并測量了它們的熒光能力。大多數(shù)都是無用的,但有一種設(shè)計(jì),與已知的熒光蛋白不同,發(fā)出微弱的光——比自然形式的綠色熒光蛋白弱約50倍。以這種分子的序列為起點(diǎn),研究人員要求ESM3改進(jìn)其工作。當(dāng)研究人員制作了大約100個最終設(shè)計(jì)時,有幾個和天然的GFP一樣明亮,但仍然比實(shí)驗(yàn)室設(shè)計(jì)的變體暗淡得多。
其中一種最亮的esm3設(shè)計(jì)的蛋白質(zhì),被稱為esmGFP ,預(yù)計(jì)具有與天然熒光蛋白相似的結(jié)構(gòu)。然而,它的氨基酸序列差異很大,與訓(xùn)練數(shù)據(jù)集中最密切相關(guān)的熒光蛋白序列匹配不到60%。在bioRxiv4服務(wù)器上發(fā)布的預(yù)印本中,Rives和他的同事們說,根據(jù)自然突變率,這種水平的序列差異相當(dāng)于“超過5億年的進(jìn)化”。
這種比較對描述尖端人工智能模型的產(chǎn)品沒有幫助,而且可能具有誤導(dǎo)性。“當(dāng)你想到人工智能和加速進(jìn)化時,這聽起來很可怕,”Gitter說。“我覺得過度宣傳模特的工作可能會傷害這個領(lǐng)域,對公眾來說也可能是危險的。
ESM3通過各種序列的迭代產(chǎn)生新的蛋白質(zhì),類似于進(jìn)化。Rives補(bǔ)充說:“我們認(rèn)為,大自然需要什么才能產(chǎn)生這樣的東西,這是一個有趣的觀點(diǎn)。”
風(fēng)險閾值
根據(jù)2023年的一項(xiàng)總統(tǒng)行政命令,ESM-3是首批在培訓(xùn)期間使用足夠計(jì)算能力的生物人工智能模型之一,要求開發(fā)人員通知美國政府并報告風(fēng)險緩解措施。EvolutionaryScale 公司表示,他們已經(jīng)與美國科技政策辦公室取得了聯(lián)系。
超過這個閾值的ESM3版本——包含近1000億個參數(shù),或模型用來表示序列之間關(guān)系的變量——尚未公開。對于較小的開源版本,某些序列,例如來自病毒和美國政府令人擔(dān)憂的病原體和毒素清單的序列,被排除在培訓(xùn)之外。科學(xué)家在任何地方都可以下載并獨(dú)立運(yùn)行的ESM3-open也不能被提示生成這種蛋白質(zhì)。
瑞士洛桑聯(lián)邦理工學(xué)院(Swiss Federal Institute of Technology)的結(jié)構(gòu)生物學(xué)家Martin Pacesa對開始與ESM3合作感到興奮。他指出,這是第一個允許研究人員使用自然語言描述其特性和功能來指定設(shè)計(jì)的生物模型之一,他渴望看到這個和其他特征在實(shí)驗(yàn)中是如何表現(xiàn)的。
Pacesa印象深刻的是,EvolutionaryScale發(fā)布了一個開源版本的ESM3,并清楚地描述了最大的版本是如何訓(xùn)練的。但他說,最大的模型需要大量的計(jì)算資源才能獨(dú)立開發(fā)。“沒有一個學(xué)術(shù)實(shí)驗(yàn)室能夠復(fù)制它。”
Rives渴望將ESM-3應(yīng)用到其他設(shè)計(jì)中。Pacesa是使用一種不同的蛋白質(zhì)語言模型來制造新的CRISPR蛋白質(zhì)的團(tuán)隊(duì)的一員,他說,看看ESM-3如何做到這一點(diǎn)將是很有趣的。Rives設(shè)想在可持續(xù)性方面的應(yīng)用——他們網(wǎng)站上的一個視頻展示了可食用塑料酶的設(shè)計(jì)——以及抗體和其他基于蛋白質(zhì)的藥物的開發(fā)。他說:“這確實(shí)是一個前沿模式。”
(文章來源:www.ebiotrade.com/newsf/2024-7/20240709071122401.htm )