在最近發(fā)表在《Nature Communications》雜志上的一項研究中,研究人員分析了來自63,000多個宏基因組和近88,000個分離基因組的數(shù)據(jù),構(gòu)建了一個新的全球微生物小型開放閱讀框架(smORFs)目錄,名為全球微生物小型開放閱讀框架目錄(GMSC)。該目錄利用尖端的蛋白質(zhì)基因組學(xué)和比較基因組學(xué)技術(shù),對75個棲息地中超過9.64億個非冗余smORF進行了全面注釋,其規(guī)模約為以往任何smORF工作的20倍。研究人員進一步開發(fā)并發(fā)布了一種公開可用的鑒定和注釋工具,名為“GMSC-mapper”,使未來的研究能夠快速表征他們的微生物宏基因組數(shù)據(jù)集,并且比以前可能的準確性大大提高。最后,本研究發(fā)現(xiàn)古生菌中smORFs的比例明顯高于細菌,這表明小蛋白在古生菌生物學(xué)中的作用更為復(fù)雜,并突出了微生物組生態(tài)學(xué)中大量小蛋白的多樣性。
小開放閱讀框(smORFs)是短的(小于100個密碼子)DNA片段,經(jīng)常出現(xiàn)在基因組中,可能編碼推定的肽。它們在生物體的所有三個領(lǐng)域都被發(fā)現(xiàn),估計占所有注釋基因的5%到10%。以前被認為包含無功能的“垃圾”DNA,但越來越多的早期預(yù)測模型和最近的研究揭示了它們在應(yīng)激反應(yīng)、基因表達、管家功能、信號通路、抗菌活性和光合作用中的廣泛生物學(xué)作用,特別是在微生物中。
傳統(tǒng)的蛋白質(zhì)發(fā)現(xiàn)技術(shù)在利用基因組數(shù)據(jù)可靠地識別和表征smORFs方面面臨著重大挑戰(zhàn),導(dǎo)致它們在微生物組宏基因組研究中被廣泛忽視。高通量比較基因組學(xué)、核糖核酸測序和蛋白質(zhì)基因組學(xué)的最新進展已經(jīng)解決了這些挑戰(zhàn)的技術(shù)方面的問題。然而,大量潛在的smORF和潛在的假陽性smORF預(yù)測限制了全球smORF數(shù)據(jù)庫的發(fā)展,阻礙了微生物組相關(guān)研究的努力。
本研究應(yīng)用高度相似的smORF衍生推定肽的“重復(fù)獨立觀察”原則,從理論上最大限度地減少smORF假陽性預(yù)測,從而允許開發(fā)全球微生物smORF目錄(GMSC)。該研究的數(shù)據(jù)來自SPIRE數(shù)據(jù)庫(63,410個組裝的宏基因組)和ProGenomes2數(shù)據(jù)庫(87,920個分離基因組)。
使用MEGAHIT 1.2.9軟件將鑒定出的≥60個堿基對(bp)的reads組裝成contigs。隨后通過改進的Prodigal算法傳遞這些contigs以識別smORFs。使用SPIRE數(shù)據(jù)庫對假定的smORFs進行了棲息地微生物學(xué)(8類)標記,并使用GeoPandas平臺對其地理范圍進行了標記。
然后使用啟發(fā)式Linclust算法使用分層聚類方法構(gòu)建非冗余smORF目錄,從而識別單序列聚類(singleton)。為了驗證這些簇并防止smORF重復(fù),研究人員仔細估計了假陰性單基因的比率,允許那些包含生物學(xué)上有意義的同源序列的單基因。最后,為了測試鑒定的smORF的質(zhì)量,研究人員進行了廣泛的硅質(zhì)測試(QC),并與已有的蛋白質(zhì)序列數(shù)據(jù)庫(RefSeq和人類微生物組小蛋白家族數(shù)據(jù)集)交叉引用獲得的結(jié)果。通過所有QC的smORFs被標記為“高質(zhì)量”。
為了提高目錄的實用性和用戶友好性,研究人員開發(fā)了一個名為“GMSC-mapper”的表征和注釋工具。該工具可以掃描呈現(xiàn)的宏基因組,并從宏基因組數(shù)據(jù)集中自動識別和注釋小蛋白質(zhì)(假定的肽)。為了驗證和展示最終目錄和工具的實用性,研究人員分析了來自RefSeq的古細菌和細菌宏基因組。他們使用他們的新工具來比較這兩個生命領(lǐng)域的smORF密度。
研究結(jié)果表明,Prodigal算法的初步結(jié)果確定了27.2億個潛在的smORF,其中84.7%被歸類為“單子”。隨后的假陽性篩選分析將這些假定的smORF減少到96,497,049個smORF,包括GMSC目錄。
值得注意的是,盡管這個近10億個強大的smORF目錄比以前確定的大20倍,但稀薄分析表明,這只代表了全球可用smORF多樣性的一小部分。
在計算機QC和附加數(shù)據(jù)庫基因組預(yù)測匹配中,43,642,695(4.5%)的GMSC數(shù)據(jù)庫為“高質(zhì)量”。每個高質(zhì)量的預(yù)測都標有綜合注釋,如分類、棲息地和(如果可用)生物功能。
“為了評估我們目錄的全面性,我們將GMSC smORF編碼的小蛋白與RefSeq數(shù)據(jù)庫和先前發(fā)表的人類微生物組小蛋白家族數(shù)據(jù)集進行了匹配。在我們的目錄中,只有5.3%的smORF與這些先前報道的小蛋白同源。另一方面,我們的目錄包含了80%以上的參考數(shù)據(jù)集。”
基于GMSC的smORF密度比較顯示,盡管采樣數(shù)量明顯減少(18個古細菌門對131個細菌門),但古細菌含有的smORF比例明顯高于細菌。這一發(fā)現(xiàn)引發(fā)了關(guān)于古細菌中小蛋白質(zhì)功能多樣性和進化意義的有趣問題。不幸的是,鑒于目前古細菌宏基因組學(xué)文獻的局限性,對這些生命形式中smORF生物學(xué)功能的預(yù)測無法得到充分驗證。
本研究介紹了第一個全球微生物小型開放閱讀框架目錄的開發(fā),命名為GMSC第1版(GMSCv1)。該目錄包含了近10億個預(yù)測的smORF,比以前已知的增加了約20倍。其中4300萬個smORF被QC驗證為“高質(zhì)量”,并對其分類單元、潛在生物功能、地理位置和棲息地進行了全面注釋。
研究人員還開發(fā)并驗證了一種自動注釋工具(GMSC-mapper),該工具能夠篩選(元)基因組數(shù)據(jù)集,并有效地表征其中smORF的多樣性。這項研究的公開結(jié)果為微生物組研究人員提供了前所未有的數(shù)據(jù)訪問,使小蛋白發(fā)現(xiàn)這一嚴重未被開發(fā)的領(lǐng)域進入了一個新時代。
(文章來源:www.ebiotrade.com/newsf/2024-9/20240904072837291.htm) |