7月31日,中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院合成生物學(xué)研究所胡政課題組與廈門大學(xué)數(shù)學(xué)科學(xué)學(xué)院周達(dá)課題組合作,在國(guó)際學(xué)術(shù)期刊Nature Biotechnology(自然生物技術(shù))發(fā)表了題為PhyloVelo enhances transcriptomic velocity field mapping using monotonically expressed genes的研究論文,提出一項(xiàng)新穎的單細(xì)胞分化軌跡推斷的算法框架,命名為PhyloVelo。該方法通過(guò)聯(lián)合單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)和譜系示蹤數(shù)據(jù),鑒定隨細(xì)胞分裂而表達(dá)量呈單調(diào)遞增或遞減的基因,即單調(diào)表達(dá)基因,并利用演化方法估計(jì)單調(diào)基因的RNA轉(zhuǎn)錄變化速度,以構(gòu)建單細(xì)胞轉(zhuǎn)錄組速度場(chǎng)(RNA velocity fields),實(shí)現(xiàn)對(duì)細(xì)胞分化軌跡的高精準(zhǔn)推斷。
細(xì)胞分化和命運(yùn)決定是生命的奧秘之一,也是生命科學(xué)領(lǐng)域的核心問(wèn)題,揭示其規(guī)律和機(jī)制對(duì)于理解生命現(xiàn)象和促進(jìn)醫(yī)學(xué)發(fā)展具有重要意義。然而,準(zhǔn)確地追蹤細(xì)胞的動(dòng)態(tài)分化軌跡并非易事,尤其是在疾病等干擾情況下的細(xì)胞命運(yùn)轉(zhuǎn)換過(guò)程,存在較大的隨機(jī)性和難以預(yù)測(cè)性。當(dāng)前,單細(xì)胞轉(zhuǎn)錄組測(cè)序(scRNA-seq)是研究細(xì)胞分化的一種強(qiáng)有力的技術(shù),可以通過(guò)分析單個(gè)細(xì)胞的轉(zhuǎn)錄組狀態(tài)來(lái)推斷細(xì)胞分化的動(dòng)態(tài)過(guò)程。尤其是基于信使RNA(mRNA)的剪切動(dòng)力學(xué)而發(fā)展起來(lái)的RNA速度模型(RNA velocity),可預(yù)測(cè)單細(xì)胞轉(zhuǎn)錄組在“過(guò)去”或“未來(lái)”時(shí)間的狀態(tài),是單細(xì)胞軌跡推斷的經(jīng)典算法。然而由于單細(xì)胞測(cè)序技術(shù)與mRNA轉(zhuǎn)錄/剪切動(dòng)力學(xué)的高度復(fù)雜性,RNA速度模型在實(shí)際應(yīng)用中常常出現(xiàn)錯(cuò)誤推斷或不穩(wěn)健的問(wèn)題。
在本文中,作者提出利用單細(xì)胞系統(tǒng)發(fā)育樹(shù)的枝長(zhǎng)信息代替物理時(shí)間,聯(lián)合單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù),可以研究基因表達(dá)隨著枝長(zhǎng)(即時(shí)間)的變化規(guī)律,特別是鑒定隨細(xì)胞分裂而表達(dá)量呈單調(diào)遞增或遞減的基因(即單調(diào)表達(dá)基因),其RNA變化速度可以利用分子演化模型進(jìn)行定量估計(jì),從而構(gòu)建單細(xì)胞轉(zhuǎn)錄組速度場(chǎng),實(shí)現(xiàn)對(duì)細(xì)胞分化軌跡的高精準(zhǔn)推斷(圖1)。
PhyloVelo算法主要分為兩個(gè)部分。第一步是單調(diào)表達(dá)基因(monotonically expressed gene, MEGs)的識(shí)別。利用了單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)和細(xì)胞系統(tǒng)發(fā)育樹(shù)(cell phylogeny)信息,通過(guò)帶漂移的擴(kuò)散過(guò)程模型(diffusion process)和零膨脹的負(fù)二項(xiàng)分布(ZINB)來(lái)估計(jì)每個(gè)基因在系統(tǒng)發(fā)育樹(shù)上各個(gè)時(shí)間點(diǎn)的表達(dá)水平。然后,利用表達(dá)水平估計(jì)值和對(duì)應(yīng)系統(tǒng)發(fā)育樹(shù)時(shí)間的相關(guān)性,篩選出那些隨著譜系時(shí)間線性單調(diào)增加或減少的基因,即單調(diào)表達(dá)基因MEGs(圖1)。第二步是基因表達(dá)變化速度的估計(jì)。本算法假設(shè)每個(gè)MEG的表達(dá)水平隨著時(shí)間的變化速率是恒定的,即擴(kuò)散方程中的漂移系數(shù)是常數(shù)。通過(guò)最大似然估計(jì),可以得到每個(gè)MEG的漂移系數(shù),從而得到每個(gè)細(xì)胞的單調(diào)基因表達(dá)變化速度的向量。將這個(gè)向量映射到降維空間(tSNE, UMAP等)重建RNA速度場(chǎng),可推斷每個(gè)細(xì)胞在過(guò)去一個(gè)單位時(shí)間(例如一個(gè)細(xì)胞分裂或突變)的轉(zhuǎn)錄組狀態(tài),即逆時(shí)間重建細(xì)胞分化軌跡(圖1)。
作者在多種仿真數(shù)據(jù)和真實(shí)數(shù)據(jù)上對(duì)PhyloVelo算法的準(zhǔn)確性和魯棒性進(jìn)行了驗(yàn)證,PhyloVelo都能夠高準(zhǔn)確地推斷仿真數(shù)據(jù)中的線性、分叉和趨同等復(fù)雜分化結(jié)構(gòu),與真實(shí)分化軌跡高度一致(圖2)。此外,PhyloVelo還在小鼠早期胚胎發(fā)育中表現(xiàn)出優(yōu)于RNA velocity的性能,能夠準(zhǔn)確地識(shí)別出紅細(xì)胞系列中血液/內(nèi)皮祖細(xì)胞作為最早期的細(xì)胞類型,并且與細(xì)胞增殖能力呈強(qiáng)相關(guān)(圖3)。
除了小鼠胚胎發(fā)育外,PhyloVelo還準(zhǔn)確解析了小鼠和人類的腫瘤演化、免疫細(xì)胞動(dòng)態(tài)發(fā)育等其他生物過(guò)程中的復(fù)雜分化軌跡,并量化了細(xì)胞類型之間的狀態(tài)轉(zhuǎn)換概率。例如,在肺癌模型中,PhyloVelo揭示了癌細(xì)胞的逆向分化軌跡。在抗PD-1治療后的CD8+ T細(xì)胞中,PhyloVelo發(fā)現(xiàn)活化CD8+ T細(xì)胞的來(lái)源在免疫治療前后有明顯的變化,表明T細(xì)胞高度的命運(yùn)可塑性。
總之,PhyloVelo是一種利用單細(xì)胞譜系和轉(zhuǎn)錄組數(shù)據(jù)重建細(xì)胞命運(yùn)轉(zhuǎn)變的新方法,具有高度的準(zhǔn)確性和魯棒性。PhyloVelo不僅可以克服傳統(tǒng)RNA velocity方法的局限性,還可以發(fā)現(xiàn)隱藏在轉(zhuǎn)錄組數(shù)據(jù)中的“時(shí)鐘基因”,為揭示細(xì)胞分化的分子機(jī)制提供線索。PhyloVelo為研究生物發(fā)育和疾病進(jìn)展提供了一個(gè)有力的工具,也為未來(lái)的單細(xì)胞譜系和轉(zhuǎn)錄組數(shù)據(jù)分析提供了一個(gè)新的視角。為了方便讀者使用PhyloVelo方法,研究團(tuán)隊(duì)還在線發(fā)布了使用手冊(cè)和具體應(yīng)用案例,詳見(jiàn)網(wǎng)站: https://phylovelo.readthedocs.io/en/latest/ 。
中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院合成生物學(xué)研究所胡政研究員與廈門大學(xué)數(shù)學(xué)科學(xué)學(xué)院周達(dá)副教授是該論文的共同通訊作者,中國(guó)科學(xué)院深圳先進(jìn)院和廈門大學(xué)聯(lián)培博士生王琨是論文的第一作者。中山大學(xué)賀雄雷教授、中國(guó)科學(xué)院動(dòng)物研究所翟巍巍研究員、美國(guó)斯坦福大學(xué)Christina Curtis教授、以及深圳先進(jìn)院合成生物學(xué)研究所資治科研究員對(duì)本研究提供了寶貴的指導(dǎo)和意見(jiàn)。本項(xiàng)研究獲得科技部國(guó)家重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金、廣東省杰出青年基金、中央高?;究蒲袑m?xiàng)資金、中國(guó)博士后基金及深圳合成生物學(xué)創(chuàng)新研究院等項(xiàng)目的支持。
圖1 | PhyloVelo算法框架示意圖
圖2 | PhyloVelo準(zhǔn)確推斷仿真數(shù)據(jù)中的細(xì)胞分化軌跡
圖3 | PhyloVelo重構(gòu)小鼠血液系統(tǒng)發(fā)育的細(xì)胞分化軌跡
圖4 | PhyloVelo使用手冊(cè)網(wǎng)站截圖
附件下載: