亚洲精品国产无码成人av_国产大学生酒店激情视频_99reAV国产精品无码_亚洲一级av无码毛片精品色欲_国产成人精品三上悠亚

設(shè)為首頁 | 添加收藏

新聞中心

廣州市皓博儀器儀表有限公司
地址：廣州市番禺區(qū)洛浦街上漖村迎賓路99號卓維商務(wù)樓201A
TEL：020-34702588 020-34703386
FAX：020-34702518

行業(yè)動態(tài)

您的當前位置：首頁 > 新聞中心 > 行業(yè)動態(tài)

小蛋白質(zhì)全球目錄！將改變我們對微生物組的理解

[ 發(fā)布日期：2024-9-5 9:25:16 閱讀次數(shù)：444 ]

在最近發(fā)表在《Nature Communications》雜志上的一項研究中，研究人員分析了來自63,000多個宏基因組和近88,000個分離基因組的數(shù)據(jù)，構(gòu)建了一個新的全球微生物小型開放閱讀框架（smORFs）目錄，名為全球微生物小型開放閱讀框架目錄（GMSC）。該目錄利用尖端的蛋白質(zhì)基因組學(xué)和比較基因組學(xué)技術(shù)，對75個棲息地中超過9.64億個非冗余smORF進行了全面注釋，其規(guī)模約為以往任何smORF工作的20倍。研究人員進一步開發(fā)并發(fā)布了一種公開可用的鑒定和注釋工具，名為“GMSC-mapper”，使未來的研究能夠快速表征他們的微生物宏基因組數(shù)據(jù)集，并且比以前可能的準確性大大提高。最后，本研究發(fā)現(xiàn)古生菌中smORFs的比例明顯高于細菌，這表明小蛋白在古生菌生物學(xué)中的作用更為復(fù)雜，并突出了微生物組生態(tài)學(xué)中大量小蛋白的多樣性。

小開放閱讀框（smORFs）是短的（小于100個密碼子）DNA片段，經(jīng)常出現(xiàn)在基因組中，可能編碼推定的肽。它們在生物體的所有三個領(lǐng)域都被發(fā)現(xiàn)，估計占所有注釋基因的5%到10%。以前被認為包含無功能的“垃圾”DNA，但越來越多的早期預(yù)測模型和最近的研究揭示了它們在應(yīng)激反應(yīng)、基因表達、管家功能、信號通路、抗菌活性和光合作用中的廣泛生物學(xué)作用，特別是在微生物中。

傳統(tǒng)的蛋白質(zhì)發(fā)現(xiàn)技術(shù)在利用基因組數(shù)據(jù)可靠地識別和表征smORFs方面面臨著重大挑戰(zhàn)，導(dǎo)致它們在微生物組宏基因組研究中被廣泛忽視。高通量比較基因組學(xué)、核糖核酸測序和蛋白質(zhì)基因組學(xué)的最新進展已經(jīng)解決了這些挑戰(zhàn)的技術(shù)方面的問題。然而，大量潛在的smORF和潛在的假陽性smORF預(yù)測限制了全球smORF數(shù)據(jù)庫的發(fā)展，阻礙了微生物組相關(guān)研究的努力。

本研究應(yīng)用高度相似的smORF衍生推定肽的“重復(fù)獨立觀察”原則，從理論上最大限度地減少smORF假陽性預(yù)測，從而允許開發(fā)全球微生物smORF目錄（GMSC）。該研究的數(shù)據(jù)來自SPIRE數(shù)據(jù)庫（63,410個組裝的宏基因組）和ProGenomes2數(shù)據(jù)庫（87,920個分離基因組）。

使用MEGAHIT 1.2.9軟件將鑒定出的≥60個堿基對（bp）的reads組裝成contigs。隨后通過改進的Prodigal算法傳遞這些contigs以識別smORFs。使用SPIRE數(shù)據(jù)庫對假定的smORFs進行了棲息地微生物學(xué)（8類）標記，并使用GeoPandas平臺對其地理范圍進行了標記。

然后使用啟發(fā)式Linclust算法使用分層聚類方法構(gòu)建非冗余smORF目錄，從而識別單序列聚類（singleton）。為了驗證這些簇并防止smORF重復(fù)，研究人員仔細估計了假陰性單基因的比率，允許那些包含生物學(xué)上有意義的同源序列的單基因。最后，為了測試鑒定的smORF的質(zhì)量，研究人員進行了廣泛的硅質(zhì)測試（QC），并與已有的蛋白質(zhì)序列數(shù)據(jù)庫（RefSeq和人類微生物組小蛋白家族數(shù)據(jù)集）交叉引用獲得的結(jié)果。通過所有QC的smORFs被標記為“高質(zhì)量”。

為了提高目錄的實用性和用戶友好性，研究人員開發(fā)了一個名為“GMSC-mapper”的表征和注釋工具。該工具可以掃描呈現(xiàn)的宏基因組，并從宏基因組數(shù)據(jù)集中自動識別和注釋小蛋白質(zhì)（假定的肽）。為了驗證和展示最終目錄和工具的實用性，研究人員分析了來自RefSeq的古細菌和細菌宏基因組。他們使用他們的新工具來比較這兩個生命領(lǐng)域的smORF密度。

研究結(jié)果表明，Prodigal算法的初步結(jié)果確定了27.2億個潛在的smORF，其中84.7%被歸類為“單子”。隨后的假陽性篩選分析將這些假定的smORF減少到96,497,049個smORF，包括GMSC目錄。

值得注意的是，盡管這個近10億個強大的smORF目錄比以前確定的大20倍，但稀薄分析表明，這只代表了全球可用smORF多樣性的一小部分。

在計算機QC和附加數(shù)據(jù)庫基因組預(yù)測匹配中，43,642,695（4.5%）的GMSC數(shù)據(jù)庫為“高質(zhì)量”。每個高質(zhì)量的預(yù)測都標有綜合注釋，如分類、棲息地和（如果可用）生物功能。

“為了評估我們目錄的全面性，我們將GMSC smORF編碼的小蛋白與RefSeq數(shù)據(jù)庫和先前發(fā)表的人類微生物組小蛋白家族數(shù)據(jù)集進行了匹配。在我們的目錄中，只有5.3%的smORF與這些先前報道的小蛋白同源。另一方面，我們的目錄包含了80%以上的參考數(shù)據(jù)集。”

基于GMSC的smORF密度比較顯示，盡管采樣數(shù)量明顯減少（18個古細菌門對131個細菌門），但古細菌含有的smORF比例明顯高于細菌。這一發(fā)現(xiàn)引發(fā)了關(guān)于古細菌中小蛋白質(zhì)功能多樣性和進化意義的有趣問題。不幸的是，鑒于目前古細菌宏基因組學(xué)文獻的局限性，對這些生命形式中smORF生物學(xué)功能的預(yù)測無法得到充分驗證。

本研究介紹了第一個全球微生物小型開放閱讀框架目錄的開發(fā)，命名為GMSC第1版（GMSCv1）。該目錄包含了近10億個預(yù)測的smORF，比以前已知的增加了約20倍。其中4300萬個smORF被QC驗證為“高質(zhì)量”，并對其分類單元、潛在生物功能、地理位置和棲息地進行了全面注釋。

研究人員還開發(fā)并驗證了一種自動注釋工具（GMSC-mapper），該工具能夠篩選（元）基因組數(shù)據(jù)集，并有效地表征其中smORF的多樣性。這項研究的公開結(jié)果為微生物組研究人員提供了前所未有的數(shù)據(jù)訪問，使小蛋白發(fā)現(xiàn)這一嚴重未被開發(fā)的領(lǐng)域進入了一個新時代。

（文章來源：www.ebiotrade.com/newsf/2024-9/20240904072837291.htm）

[返回]

代理品牌：