一種新的機(jī)器學(xué)習(xí)方法可以幫助科學(xué)家更有效地確定在復(fù)雜系統(tǒng)(如基因組調(diào)節(jié))中實現(xiàn)特定結(jié)果的最佳干預(yù)措施,所需的實驗試驗比其他方法少得多。
但人體有大約2萬個基因,基因的擾動可能是基因的組合,也可能是調(diào)節(jié)基因的1000多個轉(zhuǎn)錄因子中的任何一個。由于搜索空間巨大,基因?qū)嶒灣杀靖甙?,科學(xué)家們常常難以找到適合其特定應(yīng)用的理想擾動。
麻省理工學(xué)院和哈佛大學(xué)的研究人員開發(fā)了一種新的計算方法,可以根據(jù)比傳統(tǒng)方法少得多的實驗數(shù)量有效地識別最佳遺傳擾動。
他們的算法技術(shù)利用復(fù)雜系統(tǒng)中因素之間的因果關(guān)系,比如基因組調(diào)控,在每一輪連續(xù)實驗中優(yōu)先考慮最佳干預(yù)措施。
研究人員進(jìn)行了嚴(yán)格的理論分析,以確定他們的技術(shù)確實確定了最佳干預(yù)措施。有了這個理論框架,他們將算法應(yīng)用于模擬細(xì)胞重編程實驗的真實生物數(shù)據(jù)。他們的算法是最有效的。
“很多時候,大規(guī)模實驗都是根據(jù)經(jīng)驗設(shè)計的。一個仔細(xì)的順序?qū)嶒炓蚬蚣芸赡茉试S用更少的試驗確定最佳干預(yù)措施,從而降低實驗成本。”資深作者Caroline Uhler說,她是電氣工程和計算機(jī)科學(xué)系(EECS)教授,也是麻省理工學(xué)院和哈佛大學(xué)布羅德研究所埃里克和溫迪施密特中心的聯(lián)合主任,也是麻省理工學(xué)院信息和決策系統(tǒng)實驗室(LIDS)和數(shù)據(jù),系統(tǒng)和社會研究所(IDSS)的研究員。
這篇論文發(fā)表在《自然機(jī)器智能》雜志上。
主動學(xué)習(xí)
當(dāng)科學(xué)家們試圖為一個復(fù)雜的系統(tǒng)設(shè)計一種有效的干預(yù)措施時,比如在細(xì)胞重編程中,他們經(jīng)常按順序進(jìn)行實驗。這種設(shè)置非常適合使用一種被稱為主動學(xué)習(xí)的機(jī)器學(xué)習(xí)方法。收集數(shù)據(jù)樣本并用于學(xué)習(xí)包含到目前為止收集到的知識的系統(tǒng)模型。從這個模型中,設(shè)計了一個獲取函數(shù)——一個評估所有潛在干預(yù)措施并選擇最佳干預(yù)措施在下一次試驗中進(jìn)行測試的方程。
這一過程不斷重復(fù),直到確定最佳干預(yù)措施(或資助后續(xù)實驗的資源耗盡)。
Sapsis解釋說:“雖然順序設(shè)計實驗有幾種通用的獲取功能,但這些功能對如此復(fù)雜的問題無效,導(dǎo)致收斂速度非常慢。”
獲取功能通??紤]因素之間的相關(guān)性,例如哪些基因共表達(dá)。但只關(guān)注相關(guān)性忽略了系統(tǒng)的調(diào)節(jié)關(guān)系或因果結(jié)構(gòu)。例如,基因干預(yù)只能影響下游基因的表達(dá),但基于相關(guān)性的方法將無法區(qū)分上游或下游的基因。
“你可以從數(shù)據(jù)中了解到一些因果知識,并利用它來更有效地設(shè)計干預(yù)措施”。
麻省理工學(xué)院和哈佛大學(xué)的研究人員在他們的技術(shù)中利用了這種潛在的因果結(jié)構(gòu)。首先,他們精心構(gòu)建了一個算法,使其只能學(xué)習(xí)解釋因果關(guān)系的系統(tǒng)模型。
然后,研究人員設(shè)計了習(xí)得函數(shù),這樣它就可以根據(jù)這些因果關(guān)系的信息自動評估干預(yù)措施。他們精心設(shè)計了這個功能,使其優(yōu)先考慮最具信息量的干預(yù)措施,即最有可能在隨后的實驗中導(dǎo)致最佳干預(yù)措施的干預(yù)措施。
“通過考慮因果模型而不是基于相關(guān)性的模型,我們已經(jīng)可以排除某些干預(yù)措施。然后,每當(dāng)你得到新的數(shù)據(jù),你就可以學(xué)習(xí)一個更準(zhǔn)確的因果模型,從而進(jìn)一步縮小干預(yù)的空間,”烏勒解釋說。
更小的搜索空間,加上獲取功能對最具信息量的干預(yù)的特別關(guān)注,使他們的方法如此高效。
受復(fù)雜系統(tǒng)中極端事件研究的啟發(fā),研究人員利用一種被稱為輸出加權(quán)的技術(shù)進(jìn)一步改進(jìn)了他們的獲取功能。這種方法謹(jǐn)慎地強(qiáng)調(diào)可能更接近最佳干預(yù)的干預(yù)措施。
Sapsis說:“從本質(zhì)上講,我們認(rèn)為最優(yōu)干預(yù)措施是所有可能的‘極端事件’,次優(yōu)干預(yù)措施是我們針對這些問題開發(fā)的一些想法。”
提高效率
他們在模擬的細(xì)胞重編程實驗中使用真實的生物數(shù)據(jù)來測試他們的算法。在這項測試中,他們尋找一種基因擾動,這種擾動會導(dǎo)致平均基因表達(dá)的預(yù)期變化。在多階段實驗的每一步中,他們的習(xí)得功能一致地識別出比基線方法更好的干預(yù)措施。
“如果你在任何階段切斷實驗,我們的效率仍然會比基線更高。這意味著你可以進(jìn)行更少的實驗,得到相同或更好的結(jié)果。”
研究人員目前正在與實驗學(xué)家合作,將他們的技術(shù)應(yīng)用于實驗室的細(xì)胞重編程。
他們的方法也可以應(yīng)用于基因組學(xué)以外的問題,比如確定消費(fèi)品的最佳價格,或者在流體力學(xué)應(yīng)用中實現(xiàn)最佳反饋控制。
在未來,他們計劃增強(qiáng)他們的優(yōu)化技術(shù),超越那些尋求匹配期望平均值的技術(shù)。此外,他們的方法假設(shè)科學(xué)家已經(jīng)理解了他們系統(tǒng)中的因果關(guān)系,但未來的工作可以探索如何使用人工智能來學(xué)習(xí)這些信息。
這項工作的部分資金來自海軍研究辦公室、麻省理工學(xué)院- ibm沃森人工智能實驗室、麻省理工學(xué)院機(jī)器學(xué)習(xí)與健康j診所、布羅德研究所的埃里克和溫迪施密特中心、西蒙斯研究員獎、空軍科學(xué)研究辦公室和國家科學(xué)基金會研究生獎學(xué)金。
(文章來源:www.ebiotrade.com/newsf/2023-10/) |