Zi 字媒體

什麼是基因大數據？為什麼需要基因大數據？

2021/12/25

文丨陳衛華

基因大數據，簡單來說，就是大量的基因數據和相關的分析方法。基因大數據的「大」可以理解為「寬度」和「深度」，即「橫」和「縱」。

所謂的「橫」，是指個體數量的多少。就如我們平時所提到的，在解析疾病相關的基因、揭示基因突變之間以及和環境變數相互作用關係的時候，需要許多個體的基因組數據、表型數據（健康狀態和疾病進展程度）以及描述其生活狀態的「元」數據（meta-data）。這些數據和分析它們的方法，就是基因大數據。而所謂「縱」，則是指單個個體的多種數據類型的組合。比如一個人的基因組、蛋白質組、基因表達組、甲基化組等等。這些數據的整合分析，也是基因大數據。

當然，更複雜一些，也可以把「縱」和「橫」結合起來，把個人多種數據與多人單種數據的整合分析相結合，從而挖掘出更多更有意義的內容。

為什麼需要基因大數據呢？這是因為，橫向的比對可以幫助我們解析出關於疾病的許多奧秘，不僅僅是哪些基因突變會造成什麼疾病這麼簡單。以因安吉麗娜朱莉而在媒體上有很多曝光的乳腺癌來說，研究人員發現，基因突變一致的情況下，發病的年齡也很關鍵，對後來病情的走勢有很大的影響。那些40歲前發病的患者一般病情較重，容易進展為晚期癌症，導致治療效果較差，存活率也較低。研究人員認為，這可能與更年期有關，即：可以根據乳腺癌的發病年齡不同劃分為兩大類，然後對這兩類患者區別對待，分別採用不同的治療方案。

而分析單個患者的數據，則可以在分子水平上了解發生了什麼。比如有什麼基因突變，這個突變是影響基因的功能和基因的表達丰度，是影響一個基因還是多個基因，是調控水平的影響還是表觀遺傳學的影響等等。

將上面的縱橫數據結合起來，就可以根據年齡把患者的表達數據等分為若干組，以分析各組間基因的表達差異，鑒定出可能用於診斷或治療的目標基因，以便對症下藥。

除了上述原因，癌症的複雜性也需要基因大數據。對於癌症，科學家們達成的一個共識就是：沒有兩個人的癌症是一樣的。因此，（在條件允許的情況下）儘可能獲得並分析個人詳細的、各個組學水平上的基因數據，才能對症下藥。最理想的情況，當然是所謂的「個性化醫療」了，即根據每人的情況定製一套治療方案；甚至隨著治療的進展和患者的反應對治療方案隨時調整。而現有情況下，我們能大規模實踐的只能是「有限度的定製」，即所謂的「精準醫療」：首先根據患者的分子數據將其分為亞型，然後根據制定好的、針對這種亞型的治療方案展開治療。

癌症複雜性的表現之一，就是所謂的「長尾現象」。我們知道，在一些研究比較透徹的癌症當中，科學家們已經發現一些稱之為「驅動基因」（ driver gene）或者「驅動突變」（ drivermutation）的東西，也就是說，有相當一部分的癌症患者帶有此突變，相應的，帶有此突變的人也有很大部分是癌症患者。這些基因或突變被認為是導致癌症的原因，因此被稱為「驅動突變」。比如，安吉麗娜朱莉攜帶有基因BRCA1的突變，其患病的概率就高達87%。但是，幾乎每一個癌症，都會有一些患者並不攜帶所謂的「驅動突變」或者「驅動基因」，但其表型和其它患者是一樣的，這就是癌症的「長尾現象」。長尾現象意味著，這些患者並不能按照典型的病人進行治療，而必須根據其具體的突變情況採取靈活多變的措施。

因此，基因大數據是解析人類疾病的重要手段，也是實現「精準醫療」和「個性化醫療」不可或缺的重要手段。

（本文節選自《互聯網+基因空間》，有興趣的同學可點擊閱讀原文詳細了解）

更多行業資訊及頭腦風暴，請在公眾號內回復「1」獲取基因空間交流群入群方式（添加後台奇奇助手，審核成功後會第一時間拉您入群）。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點