Zi 字媒體

單細胞測序掃盲：是什麼？為什麼？怎麼做？

2021/12/25

yidianzixun

一、什麼是單細胞測序？

如果簡單地說，單細胞測序就是獲取單個細胞遺傳信息的測序技術，似乎沒有多大的幫助。為了理解這個問題，咱們不妨先來了解一下測序技術到底可以做些什麼。

目前，測序可以回答以下6類問題：

1. DNA的序列：ATCG怎麼排列；

2. DNA的表觀遺傳修飾：比如甲基化、羥甲基化，以及組蛋白的各種修飾；

3. RNA的序列：AUCG怎麼排列；

4. RNA的表觀遺傳修飾：比如近年很火的m6A修飾；

5. 染色質的結構：3C、4C、5C等各種C；

6. 其他魔性應用：比如DNA損傷位置、蛋白-蛋白相互作用等。

單細胞測序，就是想辦法在單細胞層面去回答以上6類問題。

二、為什麼要使用單細胞測序？

如果把這個問題換個姿勢來問，那就變成，為什麼非用單細胞測序不可？

世界上沒有兩片相同的葉子。對於多細胞生物來說，細胞與細胞之間是有差異的。當然了，這個差異可大可小。

比如說，受精卵從一個細胞開始分裂，並逐漸形成囊胚，最終發育成個體的時候，細胞與細胞之間的差異會越來越大：有的分化成神經元，有的分化成骨骼肌，各自表達著不同的遺傳信息，承擔著不同的生理功能。

又比如在腫瘤組織中，腫塊中心的細胞，腫塊周圍的細胞，淋巴轉移灶的細胞，以及遠端轉移的細胞，其基因組和轉錄組等遺傳信息，是存在差異的。而這種差異，在臨床上，可以決定該腫瘤對某種療法是否有效。

這就是所謂的遺傳信息的異質性。

傳統的研究方法，是在多細胞水平進行的。因此，最終得到的信號值，其實是多個細胞的平均，丟失了異質性的信息。為了讓大家能夠更加直觀地理解這個問題，我們不妨來看下面這張圖：

為了檢測某個蛋白質的表達量，我們可以用Western blot和流式細胞術來實現。但是，用Western blot的話，我們並沒有辦法區分上述的情況：目的蛋白只在10%的細胞中強表達，還是在50%的細胞里中等表達，還是在所有細胞中弱表達呢？因為最終電泳跑出來，就是一條差不多強度的帶。但如果用流式細胞術這種在單細胞水平對熒光強度加以測定的技術，就能區分上述的情況了。

同樣道理，單細胞測序能夠檢出混雜樣品測序所無法得到的異質性信息。而這將帶領整個遺傳學領域進入新的次元。

三、如何實現單細胞測序？

目前主要有兩種策略來實現單細胞測序。

第一種，也就是目前大多數人所想象的那樣，將單個細胞分離出來，並獨立構建測序文庫，最終進行測序的路線。我們可以通過流式細胞術（含微流體晶元），或者激光捕獲顯微切割（LCM）來實現。流式細胞術估計大家比較熟悉，就不多講了，它主要運用於細胞樣品。對於組織切片樣品來說，主要是通過LCM來獲取單細胞，原理可以見下面的示意圖。

不過，將單細胞挨個分離出來再分別建庫測序，通量非常低，這主要受成本的限制。隨著待測單細胞的個數的增長，測序的成本也會幾乎呈線性提升。通常做十幾二十來個細胞，就要燒掉很多錢了。然而，這數十個細胞，就足夠說明問題了嗎？

為了克服這個困難，近年來多採取第二種策略：基於標籤（barcode）的單細胞識別。它的主要思想是，給每個細胞加上獨一無二的DNA序列，這樣在測序的時候，就把攜帶相同barcode的序列視為來自同一個細胞了。這種策略，可以通過一次建庫，測得數百上千個單細胞的信息。

不過，針對具體的測序類型，給細胞加barcode的方案是有不小的區別的。對於RNA（轉錄組mRNA）來說，會比較容易理解一些。由於mRNA測序前需要做逆轉錄，那麼我們只需要在poly T引物的5』端加入barcode即可。具體可見下面的示意圖（來自文獻doi:10.1038/nprot.2016.154）：

首先將單細胞懸液樣品和帶有barcode的水凝膠珠子，通過微流體晶元，包裹在一個油滴之中。在油滴中進行逆轉錄之後，每一個單細胞的cDNA文庫，就帶上了獨一無二的barcode了（藍色部分）。最後，我們再將所有的單細胞cDNA文庫混在一起測序，再通過程序識別barcode，區分單細胞。

如果測序對象是DNA，比如全基因組，就需要用別的方式來加barcode。目前主要是通過一種經過改造的高效轉座酶（transposase）Tn5來實現。

基因轉座是指轉座子DNA從一個染色體座位「跳躍」到另外一個座位的過程。在這個過程中，有轉座酶的參與。單細胞的DNA測序就利用了這個特性，將barcode DNA預先和轉座酶Tn5組裝好，再通過上述的微流體技術，將細胞和轉座複合物包裹在一個油滴之中。隨後，轉座酶會把barcode插入到基因組DNA之中。這個過程在文獻中也被成為tagmentation。

不過，基於Tn5的barcode複雜度（即能有多少獨一無二的barcode）還是比較有限的。為了保證tagmentation的效率，上圖中紅色的barcode區域不可以過長。同時，為了避免測序錯誤帶來的誤識別（如偶爾測錯了一個鹼基，但卻被當成另外一個barcode），barcode的複雜度也不是4的n次方那麼高，需要引入校正機制。具體就不展開講了。總地來說，僅靠Tn5來做單細胞，一次往往僅能識別數十到數百個單細胞。

為了提高複雜度，即一次能夠捕獲的單細胞數目，目前的解決方案是走組合索引（combinatorial indexing）路線。（見下圖，來自文獻doi:10.1038/nmeth.4154）

它的主要思路是，通過兩步反應，加兩次標籤。首先，將單細胞懸液放在多孔板中，並用轉座酶Tn5給細胞加第一個barcode，這裡每個孔中的barcode是不同的。然後，再將樣品混合起來，通過流式細胞術，將少量的細胞分選到含有建庫PCR引物的多孔板中。而這些引物是帶有第二輪barcode的。因此，經過Tn5的轉座，和PCR加標籤，絕大部分的細胞就能帶上獨一無二的barcode了。

讀到這裡，肯定有人發現這個方案存在的問題。舉個例子，萬一在流式分選時，在第一個孔里分了兩個或以上橙色細胞，然後又通過PCR被加上了紅色的標籤，那這兩個單細胞就無法被區分開來了。

確實如此，combinatorial indexing大概會有10%的撞車率（collision rate），即約有10%的機會把兩個單細胞被誤認為是同一個。這個數值的高低，取決於第一步tagmentation的複雜度（複雜度越高，撞車率越低），以及在分選時，分到每一個孔里的細胞數量（數量越低，撞車率越低）。但是，combinatorial indexing卻能一次識別數千個單細胞，將通量提升數十至上百倍。魚與熊掌，就看實驗者的取捨了。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點