藏族人群對高海拔環(huán)境的遺傳適應是現代人適應性進化最經典的案例之一。遺傳學和考古學研究表明藏族人群祖先早在舊石器時代就遷居到了青藏高原,世代的自然選擇使得藏族人群積累了適應性的遺傳變異,并獲得了生理上的適應特征,包括較低的血紅蛋白水平、更強的低氧通氣反應、更好的心肺功能和更好的生殖適合度等。
為了能更深入的探究這種適應性遺傳變異的秘密,來自中科院昆明動物所和西藏大學的研究人員在國家自然科學基金基礎科學中心項目、中科院戰(zhàn)略先導專項、中科院青促會項目、西藏自治區(qū)重點研發(fā)計劃和云南省自然科學基金項目的資助下,使用來自Illumina的測序平臺進行了“千人藏族基因組測序”項目。該項目發(fā)表在Genome Biology(IF:12.3)上。
論文的網址鏈接為:
https://doi.org/10.1186/s13059-023-02912-1
進入基因組時代以來,國內外學者利用全基因組信號掃描找到了一系列在藏族人群基因組中受到正選擇的變異位點,共報道了682個基因。然而,由于樣本量小、變異位點密度低、檢測方法單一等局限,只有EPAS1和EGNL1兩個基因能在多項獨立研究中成功重復,而其他基因的選擇信號仍不確定。
此外,目前的功能研究發(fā)現這兩個基因只能解釋少數幾個適應性狀,而其他藏族人群高原適應性特征,比如更好的心肺功能,仍無法被目前的正選擇基因所解釋。因此,在藏族人群高原適應遺傳研究的拼圖中,目前的數據仍有許多不足和未確定的部分,需要大規(guī)模全基因組測序(WGS)數據和綜合性達爾文正選擇檢測方法重新評估和確定。
為了全面評估藏族人群高原適應的遺傳位點,中國科學院昆明動物所宿兵團隊與西藏大學、西藏阜康醫(yī)院等單位合作,利用Illumina NovaSeqTM產生了1,001個藏族人群的WGS數據,樣本覆蓋了中國青藏高原的主要人口分布區(qū)。
通過對“千人藏族基因組”數據的系統分析,發(fā)現了3500萬個變異,其中超過三分之一是新發(fā)現的變異。利用大規(guī)模WGS數據,基于藏族人群的變異位點頻譜和連鎖不平衡譜,研究人員構建了首個藏族人群基因組參考面板(1,000 Tibetan-Genome Panel,1KTGP)。
此外,通過使用多信號綜合分析(Composite of Multiple Signals,CMS)方法,重新確定了藏族人群基因組中受到達爾文正選擇的遺傳位點和基因,包括4320個高可信的受選擇位點,涉及192個基因。功能注釋和富集分析表明,這192個基因涉及多個基因器官和生理系統,支持藏族人群高原適應是多基因效應的假說。研究團隊發(fā)現了4個具有強選擇信號的新基因:TMEM132C、ATP13A3、SANBR和KHDRBS2,與藏族更好的心肺功能相關。該研究基于大規(guī)模的藏族全基因組測序數據和發(fā)現的適應性基因將成為未來高原地區(qū)人群遺傳和醫(yī)學研究的寶貴資源。

在最近的人類進化研究中,藏族人對高海拔環(huán)境的遺傳適應被視為一個經典案例。遺傳和考古數據都支持藏族人在高海拔地區(qū)的舊石器時代聚居地(超過1000代人)就已經出現雛形,這使得自然選擇能夠豐富賦予藏族人適應能力的基因突變。這些已知的適應特征包括相對較低的血紅蛋白水平,更有效的呼吸,更好的心肺功能,以及更好的生殖能力。
然而,在過去的十年里,盡管科學家們已經進行了許多使用全基因組數據的研究,以尋找在藏族人中顯示達爾文陽性選擇信號的變異和基因——總共已經報道了682個基因;并且只有兩個基因(EPAS1和EGNL1) 在多次研究中被成功復制,其他基因的選擇信號仍無法得到驗證。此外,已發(fā)表的EPAS1和EGLN1的遺傳關聯分析和功能實驗數據似乎只占適應性特征的一小部分,包括保護藏族人免受高原紅細胞增多癥影響的相對較低的血紅蛋白水平和更好的通風。因此,目前的研究仍無法解答藏族的基因適應。
藏族基因適應未解之謎源于當前數據的三大局限性:
(1)樣本量小,即所有已報道的藏族全基因組測序(WGS)數據的個體數都不到50個,導致對等位基因頻率的估計不準確,檢測基因組中選擇信號的能力有限;
(2)變異密度低,即已報道的大樣本研究只產生覆蓋有限基因組的SNP陣列數據;
(3)在檢測自然選擇信號方面存在偏差, 即已發(fā)表的研究只采用一種或兩種方法(但研究不同)來尋找選擇信號,研究結果不一致。
取樣及測序
在中國西藏自治區(qū)拉薩某醫(yī)院(海拔3650 m)共招募1064名受試者。這些被招募的藏族女性均無親屬關系(來自醫(yī)院婦產科),她們來自83個不同的地理位置(海拔范圍:2300-4900米)。每位受試者均獲得書面知情同意。本研究方案經中國科學院昆明動物研究所內審委員會審核通過(批準號:SMKX-20160311-45)。采集血樣,通過prefill Blood DNA Kit-DUO (KFRPD801212)提取基因組DNA,在Illumina NovaSeq™平臺上進行WGS,平均每人40 Gb (11.8×depth)數據(圖1B)。在測序和分析之前,為了保護隱私,所有樣本都被剝離了個人標識符。所有程序都符合人體實驗負責委員會的道德標準。
1,001名藏族人的全基因組測序

圖1:抽樣調查藏族地理位置及WGS數據質量評估
A 本研究中藏族樣本的地理位置。標明了抽樣地點和樣本量。
科研人員招募了來自青藏高原83個不同地理位置(海拔范圍:2300-4900米)的1064名藏族參與者。
B 藏區(qū)1001WGS數據的質量,反映在深度和Q30值上。平均深度和Q30用紅色虛線表示。
共計1064名個體的基因在Illumina NovaSeq™平臺上進行了WGS測序,測序平均深度為11.8×,數據質量平均Q30為93%。經過嚴格的過濾,最終保留了1001個個體的WGS數據,用于全基因組變異調用和下游分析。
C 所有已鑒定SNV的次要等位基因頻譜。已知的和新的變種分別以紅色和藍色顯示。
使用標準的GATK流程,鑒定出3470萬個變異,其中包括2990萬個單核苷酸變異(SNV)和480萬個INDELs(插入和缺失大小小于50bp)。在2820萬個雙等位SNV中,有36%是沒有在數據庫dbSNP (版本154)中報告的新SNV。
D 藏族和18個東亞代表性群體的全基因組主成分分析圖。紅圈是本次研究的1001個樣本(藏族),藍圈是已發(fā)表的33個WGS樣本(藏族*)
通過主成分分析(PCA),包括1000基因組計劃第三階段(簡稱1KGP3)和人類基因組多樣性計劃(HGDP)的1001名藏族人和6527名全球個體,以及33名已發(fā)表的藏族人。當只包括東亞人口時,1001名藏族人與33名藏族人緊密地聚集在一起,他們一起形成了一個獨立于其他東亞人口的群體,且來自中國的三個民族(土族、納西族和彝族)與藏族人關系較近。這三個民族生活在青藏高原周圍與藏族人雜居。藏族的全基因組雜合率為1.41±0.046,藏族與漢族(藏漢)的遺傳距離為0.0095。
藏族人的變異頻率和連鎖不平衡譜系

圖2:藏族的全基因組變異頻率和LD譜系
A 1001 WGS數據和公共的數據之間的MAF的SNV計數比較。1001個WGS數據在檢測罕見變異方面比公共的數據要強大得多。
基于1001個基因組序列建立了西藏人的全基因組變異頻率和LD譜系與以往小樣本量的西藏WGS研究或大樣本量的陣列數據相比,該的變異集在檢測罕見變異(小等位基因頻率,MAF<3%)和全基因組的無偏覆蓋方面表現出顯著的能力
B 人群間差異較大的SNVs(FST(Tibetan-Han))的HWE偏差分布,HWE偏差的卡值為1e-6。
對藏族人的全基因組變異進行了Hardy-Weinberg平衡(Hardy–Weinberg equilibrium ,HWE)偏離測試,有207個變異顯示出明顯的HWE偏差(P<1e-6)。同時,它們也顯示出藏族和漢族之間的深度分化,這是強烈自然選擇的表現(FST(Tibetan-Han)>0.2)。這些變異的質量都很穩(wěn)定,并通過了所有嚴格的質量控制,包括讀深度、映射質量(MQ)、堿基質量(BQ)和基因型質量(GQ)。
C 通過Sanger測序驗證三個具有高FST(Tibetan-Han)的HWE偏移的SNVs(藏族-漢族)。中間的直方圖表示三個數據集中三個SNVs的小等位基因頻率(MAF),包括1001個藏族人的WGS數據(藍色),1001個WGS數據中的96個隨機樣本(綠色),以及96個樣本的Sanger測序數據(紅色)。直方圖下的p值表示基于三個數據集的三個SNPs的HWE偏差的顯著性水平。
為了進一步驗證這些HWE偏移的變異,并排除測序錯誤的可能性,研究人員選擇了三個具有高FST(Tibetan-Han)值的變異(rs117115595,rs9954838和rs6490276),并在在96個隨機選擇的藏族人中進行Sanger測序。三個被選擇的變異的基因型頻率和HWE模式與WGS數據高度一致,表明HWE偏移的變異很可能是在藏族中經歷了正向選擇的真正突變,而不是基因分型錯誤。結果表明:對于經歷強烈自然選擇的人群(如西藏人),HWE偏差的顯著性閾值應該更寬松。
D 藏族和世界其他人群的LD衰減模式的比較。虛線框表示藏族人獨特的LD衰變模式。對于長基因組區(qū)域(>100kb)的衰變,藏族顯示出比世界其他人群更慢的衰變(反映在更高的r2值),這是擴展單倍型同質性的表現。
E 來自1001個西藏WGS數據和3008個西藏陣列數據的全基因組SNVs的派生等位基因頻率(derived allele frequency, DAF)的相關性,由1KTGP進行歸因。
利用獲取的1001個基因組序列重建了一個西藏特有的LD參考(簡稱1KTGP),并對已發(fā)表的使用全球人群參考的陣列數據(簡稱1KGP3)的歸因準確性進行了評估。結果發(fā)現,1KTGP估算的基因型頻率與1,001 WGS數據高度一致。
F 用1KGP3歸因時的相關圖。
1KGP3計算的基因型頻率有許多SNVs與1001 WGS數據有嚴重偏差,例如位于EPAS1基因區(qū)域的SNVs。
重新定義藏族人的正向選擇的基因組特征


圖3:西藏人達爾文陽性選擇的全基因組信號。
A藏族全基因組SNVs的CMS評分分布。192個前導基因區(qū)域(lead gene regions)用紅色(新發(fā)現的基因)和藍點(已報道的基因)分別標記。排名前10位的TSNGs以基因名稱標示(4個新發(fā)現,6個已報道)。維恩圖顯示了本研究中報告的基因集和鑒定的基因集之間的重疊。
科研人員通過多種信號復合(Composite of Multiple Signals ,CMS)的方法來識別正選擇下的變異體。首先生成了具有最高1‰CMS得分(>7.66)的變異集,然后對該變異集進行過濾,只保留顯示西藏特有富集的變異,即與全球四個主要人群(漢族、日本人、歐洲人和非洲人)相比,西藏人的富集等位基因頻率更高。最終的數據集包含了4320個被認為是西藏選擇主導的SNVs(Tibetan selection-nominated SNVs,TSNSs)變異。它們位于236個獨立的基因組區(qū)域,由192個主導基因代表,被稱為西藏選擇指定基因(TSNGs)。在這192個TSNGs中,34個是以前報道過的,其他158個是新發(fā)現的基因。
B 4320個TSNGs的功能注釋。“調控區(qū)”是指帶有調控注釋的非編碼區(qū)。
通過對4320個TSNSs進行功能注釋發(fā)現,大部分(75.4%)位于非編碼區(qū),632個(14.6%)位于被注釋的調節(jié)區(qū)。編碼區(qū)有90個TSNSs,包括22 missenses(錯義突變), 20 synonymous(同義突變), 2 stop-gained(外顯子提前終止翻譯), 2 splice acceptor(剪接受體), 10 deleterious(有害突變), and 34 likely_benig/benign(可能是良性突變)。
C不同方法下TSNGs的功能富集模式。在氣泡圖中,有意義的項用紅色表示。
使用7種方法進行功能富集分析發(fā)現:在細胞類型和組織方面,這些TSNGs在人臍靜脈內皮細胞(HUVECs)、胎盤和睪丸中顯著富集,反映了藏族人在氧感(內皮細胞)、發(fā)育(胎盤)和生殖能力(睪丸)方面的適應性變化,與小鼠敲除表型(出生后生長異常和體型減小)以及疾病期(青少年特發(fā)性脊柱側凸)一致。新發(fā)現的322 bp內含子缺失PKHD1L1 (PKHD1 ciliary IPT domain containing fibrocystin/polyductin like 1;含 PKHD1 纖毛 IPT 結構域纖維囊蛋白/多管蛋白)在藏族人群中富集(49.5%),但在非藏族人群中相對較少(<23%)嗜睡癥通路富集結果相呼應。

粗體顯示的錯義TSNGs是本研究中新發(fā)現的
在22個錯義TSNS中,有13個在藏族中高度富集,與全球其他人群相比,在藏族中的頻率>20%,其中4個是以前報道過的,包括EGLN1(rs186996510)、TMEM247(rs116983452和rs12612916)、ADH1B(rs1229984)和OCA2(rs1800414),而其他10個是本研究中新發(fā)現的。例如,rs79703522是RP11-766F14.2(編碼一種在肌肉、心臟和腎臟中表達的功能未知的蛋白)的錯義突變,在藏族人中占優(yōu)勢(87%),平均比全球其他人群高59%。值得注意的是,在之前的研究中,有54個頻率豐富的錯義和功能缺失突變被報道,這其中只有5個可以在本次的大規(guī)模WGS數據中成功驗證(FST(Tibetan-Han)>0.1),這表明大樣本量對于準確估計等位基因頻率至關重要。
新發(fā)現的頂級TSNSs解釋了西藏人心肺功能的適應


圖4:前10個信號中有4個新發(fā)現的TSNGs。
A-D CMS評分和重組率的區(qū)域圖,其中的峰表示選擇信號。峰值SNVs用顏色標記。并給出了四種基因的滑動窗Fay和Wu’s H檢驗結果。計算的重組率(r2)表示峰值SNV與其他SNVs之間估計的連鎖不平衡(linkage disequilibrium,LD)程度,并以顏色編碼。CMS=7.66(前1‰)的顯著性閾值用紅色虛線表示。H值為給定區(qū)域(紅色標記)的最大得分,覆蓋了4個基因SNVs峰值的上、下游500 kb區(qū)域
表2西藏基因組中的十大選擇信號

粗體顯示的TSNGs是本研究中新發(fā)現的4個
在前10個TSNGs中,除了先前報道的6個基因(EPAS1、EGLN1、HLA_DQB1、L3MBTL2、SLC52A3和BICDL1)外,我們還發(fā)現了4個具有強選擇性的新基因,包括TMEM132C、ATP13A3、SANBR和KHDRBS2。
A TMEM132C基因區(qū)
TMEM132C(跨膜蛋白132C)是TMEM132家族的成員,其分子功能尚不清楚。峰SNV rs7486929 (CMS=12.71) 位于TMEM132C的內含子區(qū),具有藏族特異性富集(ΔDAF>29%)。Fay和Wu的H檢驗進一步證實了TMEM132C的選擇信號(H= - 55.87, p<0.001)。之前基于家族的研究中報道了該基因的突變與肺和肺功能(1 s用力呼氣量(forced expiratory volume in 1 s ,FEV1))有關。
B ATP13A3基因區(qū)
ATP13A3 (ATPase 13A3)是P型ATP酶家族的一員,可跨細胞膜運輸多種陽離子,是哺乳動物多胺運輸系統的主要組成部分。藏族人與其他人群相比,排在最高的SNV rs11714317表現出強烈的選擇特征和獨特的LD衰減模式(CMS=11.7, XPEHH=5.7)。Fay和Wu的H檢驗進一步驗證了ATP13A3的選擇(H= - 71.34, p<0.001)。ATP13A3在肺血管重構和肺動脈高壓(pulmonary arterial hypertension ,PAH)中發(fā)揮重要作用。西藏富集的ATP13A3突變可能能保護西藏人免于肺動脈高壓(PAH)。
C SANBR基因區(qū)
SANBR (CSR的SANT和BTB結構域調節(jié)因子,也稱為KIAA1841)因其與過氧化物酶體生物發(fā)生障礙有關而聞名。SANBR的選擇性信號在各種統計數據中是一致的,包括Fay和Wu’H檢驗(H= - 72.19, p<0.001)。排名最前的SNV rs1627608在藏族和漢族之間存在高度分化(FST(Tibetan-Han)=0.25),根據GTEx數據庫,它是睪丸、肺、動脈-主動脈、肌肉-骨骼和心-房附件的表達數量性狀位點(expression quantitative trait locus,eQTL)。
D KHDRBS2基因區(qū)
KHDRBS2 (KHRNA-binding domain containing, signal transduction associated 2)是一種參與選擇性剪接調控的RNA結合蛋白,在肺和腦中大量表達。排名最前的SNV rs12208789位于KHDRBS2的內含子區(qū),在藏族人中表現出強烈的正選擇,在藏族人中的頻率比全球其他人群高32%。大規(guī)模人口GWAS研究顯示,KHDRBS2與肺功能(FEV/FEC比值)和房間隔缺損相關。
西藏人遺傳適應的多基因和多效性效應

圖5:192個TSNGs的多基因和多效性效應
通過GeneORGANizer,將基因在現有功能數據庫的基礎上分配到不同的器官或生理系統。前10個TSNGs以紅色(新發(fā)現)和藍色(已報道)的粗體突出顯示。
通過GeneORGANizer分析來確定192個在本研究中已鑒定的TSNGs如何促進西藏人各種生理系統的適應。結果表明,這些TSNGs在多個器官/系統中起作用,包括藏族人已知具有適應性特征的器官/系統,如血液(45個基因)、肺(35個基因)、心臟(36個基因)和生殖(26個基因),以及那些與適應沒有已知聯系的器官/系統,如大腦(65個基因)、面部(36個基因)、肌肉(37個基因)、腎臟(25個基因)、消化(37個基因)、皮膚(36個基因)和骨骼(30個基因)。值得注意的是,許多TSNGs似乎在多個器官/系統中起作用,例如,HLA-DQB1是排名前十的TSNGs之一,由于其在免疫系統中的作用,它幾乎在所有列出的器官/系統中都起作用。同樣,SLC52A3出現在7個不同的器官/系統中,這意味著SLC52A3除了在大腦中已知的作用外,它還可能有助于其他器官的適應。
通過這個研究,科研人員利用Illumina NovaSeq™生成了大規(guī)模的藏族WGS數據,并為藏族人群提供了特定人群的參考。在這份大規(guī)模的藏族WGS數據中,鑒定出了一組具有正選擇信號的高置信度基因(192個TSNGs)。這些基因可能在人體的多個器官/系統中發(fā)揮多基因和多效性作用,它們可能共同作用形成西藏人的適應性狀。這些發(fā)現證明了大規(guī)模WGS數據在群體研究中的巨大價值和潛力。
|