利用一種名為FLSHclust(“flash clust”)的新算法,研究人員在數(shù)十億蛋白質(zhì)序列中發(fā)現(xiàn)了188種罕見的和以前未知的crispr相關(guān)基因模塊——包括一種新的VII型CRISPR-Cas系統(tǒng)。該方法及其發(fā)現(xiàn)為利用CRISPR系統(tǒng)和理解微生物蛋白質(zhì)的巨大功能多樣性提供了新的機(jī)會(huì)。
CRISPR系統(tǒng)已被用于開發(fā)越來越多的新型生物分子方法,包括CRISPR/ cas介導(dǎo)的基因組編輯。以前未知的CRISPR系統(tǒng)的發(fā)現(xiàn)有可能導(dǎo)致這些生物技術(shù)的進(jìn)一步發(fā)展,包括更安全和更有效的基因組治療。通過對(duì)蛋白質(zhì)序列數(shù)據(jù)庫的計(jì)算搜索,CRISPR工具箱得到了擴(kuò)展。
然而,通常使用的算法方法對(duì)于挖掘包含數(shù)十億蛋白質(zhì)的指數(shù)增長(zhǎng)數(shù)據(jù)集已經(jīng)變得不切實(shí)際。為了解決這一限制,Han Altae-Tran及其同事開發(fā)了FLSHclust(快速基于位置敏感散列的聚類)——一種通過序列相似性對(duì)蛋白質(zhì)進(jìn)行聚類的算法,與目前可用的方法不同,它可以快速有效地分析大量的蛋白質(zhì)序列數(shù)據(jù)庫。
為了評(píng)估他們的方法,Altae-Tran等人使用FLSHclust在包含80億個(gè)蛋白質(zhì)和1020萬個(gè)CRISPR陣列的8.8個(gè)堿基對(duì)宏基因組數(shù)據(jù)庫中搜索罕見的CRISPR系統(tǒng)。該分析發(fā)現(xiàn)了188個(gè)以前未知的crispr相關(guān)基因。
作者還鑒定并表征了一類新的含有CRISPR系統(tǒng)的cas14, VII型,它作用于RNA。根據(jù)研究結(jié)果,新發(fā)現(xiàn)的系統(tǒng)是罕見的,并且許多只包含F(xiàn)LSHclust揭示的近13萬個(gè)crispr鏈接簇中的一個(gè)簇。
Altae-Tran等人寫道:“以前未知的cas基因和CRISPR系統(tǒng)的發(fā)現(xiàn)極大地?cái)U(kuò)展了已知的CRISPR多樣性,強(qiáng)調(diào)了CRISPR功能的多功能性,即以前未發(fā)現(xiàn)的蛋白質(zhì)和結(jié)構(gòu)域經(jīng)常被招募,要么取代先前存在的成分,要么將新識(shí)別的功能賦予先前存在的cas蛋白支架。”
“總的來說,這項(xiàng)工作的結(jié)果揭示了CRISPR系統(tǒng)前所未有的組織和功能靈活性和模塊化,但也表明大多數(shù)變體是罕見的,只在相對(duì)不尋常的細(xì)菌和古細(xì)菌中發(fā)現(xiàn)。”
文章標(biāo)題
Uncovering the functional diversity of rare CRISPR-Cas systems with deep terascale clustering
(文章來源:www.ebiotrade.com/newsf/2023-11) |