為了設(shè)計(jì)出具有有用功能的蛋白質(zhì),研究人員通常從具有理想功能的天然蛋白質(zhì)開始,比如發(fā)出熒光燈,然后對(duì)其進(jìn)行多輪隨機(jī)突變,最終產(chǎn)生優(yōu)化版本的蛋白質(zhì)。
這個(gè)過程產(chǎn)生了許多重要蛋白質(zhì)的優(yōu)化版本,包括綠色熒光蛋白(GFP)。然而,對(duì)于其他蛋白質(zhì),已證明很難產(chǎn)生優(yōu)化版本。麻省理工學(xué)院的研究人員現(xiàn)在已經(jīng)開發(fā)出一種計(jì)算方法,可以基于相對(duì)少量的數(shù)據(jù),更容易地預(yù)測(cè)導(dǎo)致更好蛋白質(zhì)的突變。
利用這個(gè)模型,研究人員產(chǎn)生了帶有突變的蛋白質(zhì),這些突變被預(yù)測(cè)會(huì)導(dǎo)致改進(jìn)版本的綠色熒光蛋白和來自腺相關(guān)病毒(AAV)的蛋白質(zhì),AAV用于為基因治療提供DNA。他們希望它也可以用于開發(fā)神經(jīng)科學(xué)研究和醫(yī)學(xué)應(yīng)用的額外工具。
“蛋白質(zhì)設(shè)計(jì)是一個(gè)難題,因?yàn)閺腄NA序列到蛋白質(zhì)結(jié)構(gòu)和功能的映射非常復(fù)雜。序列中可能有一個(gè)很大的蛋白質(zhì)發(fā)生了10次變化,但每一次中間變化都可能對(duì)應(yīng)于一個(gè)完全沒有功能的蛋白質(zhì)。這就像試圖找到通往山脈流域的路,但沿途有崎嶇的山峰擋住了你的視線。“目前的工作試圖使河床更容易找到,”Ila Fiete說,她是麻省理工學(xué)院大腦和認(rèn)知科學(xué)教授,麻省理工學(xué)院麥戈文大腦研究所的成員。
麻省理工學(xué)院人工智能與健康工程學(xué)院杰出教授Regina Barzilay和麻省理工學(xué)院電氣工程與計(jì)算機(jī)科學(xué)托馬斯·希貝爾教授Tommi Jaakkola也是關(guān)于這項(xiàng)工作的一篇開放獲取論文的資深作者,該論文將于5月在國(guó)際學(xué)習(xí)表征會(huì)議上發(fā)表。麻省理工學(xué)院的研究生Andrew Kirjner和Jason Yim是這項(xiàng)研究的主要作者。其他作者包括麻省理工學(xué)院博士后Shahar Bracha和捷克技術(shù)大學(xué)研究生Raman Samusevich。
優(yōu)化蛋白質(zhì)
許多天然存在的蛋白質(zhì)都具有可用于研究或醫(yī)學(xué)應(yīng)用的功能,但它們需要一點(diǎn)額外的工程來優(yōu)化它們。在這項(xiàng)研究中,研究人員最初對(duì)開發(fā)可在活細(xì)胞中用作電壓指示器的蛋白質(zhì)感興趣。這些蛋白質(zhì)是由一些細(xì)菌和藻類產(chǎn)生的,當(dāng)檢測(cè)到電勢(shì)時(shí)就會(huì)發(fā)出熒光。如果將這種蛋白質(zhì)用于哺乳動(dòng)物細(xì)胞,研究人員就可以在不使用電極的情況下測(cè)量神經(jīng)元的活動(dòng)。
盡管數(shù)十年的研究一直在研究如何讓這些蛋白質(zhì)在更快的時(shí)間尺度上產(chǎn)生更強(qiáng)的熒光信號(hào),但它們還沒有變得足夠有效,無法廣泛使用。Barzilay在麥戈文研究所愛德華·博伊登的實(shí)驗(yàn)室工作,他聯(lián)系了Fiete的實(shí)驗(yàn)室,看看他們是否能在一種計(jì)算方法上合作,這種方法可能有助于加快優(yōu)化蛋白質(zhì)的過程。
Fiete說:“這項(xiàng)工作體現(xiàn)了人類的意外發(fā)現(xiàn),這是許多科學(xué)發(fā)現(xiàn)的特點(diǎn)。”它源于楊潭集體靜修(Yang Tan Collective retreat),這是麻省理工學(xué)院(MIT)多個(gè)研究中心的研究人員的科學(xué)會(huì)議,在K. Lisa Yang的共同支持下,他們肩負(fù)著不同的使命。我們了解到,我們對(duì)大腦如何學(xué)習(xí)和優(yōu)化建模的一些興趣和工具可以應(yīng)用于完全不同的蛋白質(zhì)設(shè)計(jì)領(lǐng)域,正如博伊登實(shí)驗(yàn)室所做的那樣。”
對(duì)于研究人員可能想要優(yōu)化的任何給定蛋白質(zhì),通過在序列中的每個(gè)點(diǎn)交換不同的氨基酸,可以產(chǎn)生幾乎無限數(shù)量的可能序列。有這么多可能的變體,不可能用實(shí)驗(yàn)測(cè)試所有的,所以研究人員轉(zhuǎn)向計(jì)算建模,試圖預(yù)測(cè)哪些是最有效的。
在這項(xiàng)研究中,研究人員著手克服這些挑戰(zhàn),利用來自GFP的數(shù)據(jù)開發(fā)和測(cè)試一個(gè)計(jì)算模型,該模型可以預(yù)測(cè)更好的蛋白質(zhì)版本。
他們首先在實(shí)驗(yàn)數(shù)據(jù)上訓(xùn)練一種被稱為卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型,這些實(shí)驗(yàn)數(shù)據(jù)包括GFP序列及其亮度——他們想要優(yōu)化的特征。
該模型能夠基于相對(duì)少量的實(shí)驗(yàn)數(shù)據(jù)(來自大約1000個(gè)GFP變體)創(chuàng)建一個(gè)“適應(yīng)度景觀”——一個(gè)三維地圖,描繪了給定蛋白質(zhì)的適應(yīng)度以及它與原始序列的差異。
這些景觀包含代表更適合蛋白質(zhì)的峰和代表不太適合蛋白質(zhì)的谷。預(yù)測(cè)一種蛋白質(zhì)達(dá)到適合度峰值所需要遵循的路徑是很困難的,因?yàn)橥ǔR环N蛋白質(zhì)在達(dá)到附近的更高適合度峰值之前,需要經(jīng)歷一種使其不太適合的突變。為了克服這個(gè)問題,研究人員使用了一種現(xiàn)有的計(jì)算技術(shù)來“平滑”健身景觀。
一旦景觀中的這些小凸起被平滑,研究人員就會(huì)重新訓(xùn)練CNN模型,并發(fā)現(xiàn)它能夠更容易地達(dá)到更高的適應(yīng)度峰值。該模型能夠預(yù)測(cè)優(yōu)化后的GFP序列,其中含有多達(dá)7種不同的氨基酸,與他們開始使用的蛋白質(zhì)序列相比,其中最好的蛋白質(zhì)估計(jì)比原始蛋白質(zhì)更適合2.5倍。
Kirjner說:“一旦我們有了這個(gè)代表模型認(rèn)為在附近的景觀,我們就把它平滑,然后我們?cè)诟交木坝^版本上重新訓(xùn)練模型。”“現(xiàn)在從你的起點(diǎn)到頂端有一條平滑的路徑,現(xiàn)在模型可以通過迭代地進(jìn)行小改進(jìn)來達(dá)到這一目標(biāo)。對(duì)于不平滑的風(fēng)景來說,這通常是不可能的。”
概念驗(yàn)證
研究人員還表明,這種方法在鑒定腺相關(guān)病毒(AAV)的病毒衣殼的新序列方面效果很好,AAV是一種通常用于傳遞DNA的病毒載體。在這種情況下,他們優(yōu)化了衣殼包裝DNA有效載荷的能力。
Bracha說:“我們使用GFP和AAV作為概念驗(yàn)證,表明這是一種適用于非常有特征的數(shù)據(jù)集的方法,正因?yàn)槿绱?,它?yīng)該適用于其他蛋白質(zhì)工程問題。”
研究人員現(xiàn)在計(jì)劃將這種計(jì)算技術(shù)用于Bracha在電壓指示蛋白上產(chǎn)生的數(shù)據(jù)。
“幾十個(gè)實(shí)驗(yàn)室已經(jīng)為此研究了20年,但仍然沒有更好的東西,”她說。“我們希望,現(xiàn)在通過生成更小的數(shù)據(jù)集,我們可以在計(jì)算機(jī)上訓(xùn)練一個(gè)模型,并做出比過去20年的人工測(cè)試更好的預(yù)測(cè)。”
(文章來源:www.ebiotrade.com/newsf/2024-4)
|