search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

繪製基因組導航圖 新工具幫助科學家繪製染色體複雜構象

圖片來源:Illustration by the Project Twins

染色體的功能遠不止保持 DNA 整齊有序。這種基因組 DNA 和蛋白質組成的複合物有許多不同的結構和構象。這些結構和構象可能會影響周圍基因的表達。在某些構象中,線性 DNA 中相距較遠的兩個序列可能實際上非常靠近,並影響彼此的活性;而在其他形式中,這兩個序列又可能相距甚遠。

美國麻省理工學院研究所 Erez Aiden 與同事共同開發了一種能在基因組水平上揭示染色體摺疊方式的新工具。這種名為 Hi- C 的技術不僅能詳細描述影響基因表達的 DNA 環和結構域,甚至還能將複雜的基因組拼接在一起。

靈感激發

雖然,它只是以 2D 矩陣呈現的數據記錄了染色質的交互信息,但在 2009 年,Aiden 還沒能找到一種簡單方法探索這些空間構象。所以,他自己開發了一種技術。

Aiden 回憶道:「當時我只能列印出多個解析度的 Hi- C 矩陣,而且需要用上百張紙。我還要找來最大的會議桌,把列印的所有矩陣都擺放上去,以查看大規模的空間構象。」

即便如此,Aiden 也認為 Hi- C 是一個很好的界面。不過,他也承認需要一種更環保、可持續和共享的方法觀察染色體構象。

最後,Aiden 開發了 Juicebox—— 一個基於 Java 的桌面應用程序。它可以提供 Google Maps 樣式的染色質交互數據集,允許研究人員從基因組水平放大或縮小觀察其結構特徵。

2014 年發布的 Juicebox 大約被下載了 1.4 萬次,今年研究人員又推出了一個基於瀏覽器的版本。Juicebox 只是一系列探索 2D 基因組交互數據的免費程序中的一個:一些程序專註於相對狹窄的染色體位點,而另一些則可以探索基因組。但這些程序的出現反映了染色質相互作用數據集的日益增長。事實上,4D 核組項目等大項目更是大規模地促進了染色體交互數據集的爆炸式增長。

馬薩諸塞州波士頓哈佛醫學院生物信息學家 Peter Park 指出,「因為數據變得如此複雜,所以可視化尤為重要。」

目前,加州大學聖克魯茲分校開發的 Genome Browsers 是最受歡迎的探索基因組數據的門戶之一。像大多數基因組瀏覽器一樣,它將序列數據呈現為一維「軌跡」,顯示為表觀遺傳特徵(如組蛋白修飾和甲基化位點)的線性字元陣列。

Aiden 等人,都從 Google 地圖中獲得了靈感。加州大學聖迭戈分校的 James Robinso 表示,有了 Google 地圖,用戶就可以從全球視圖無縫切換到街道級視圖。這樣一來,整個數據集非常巨大,但 Google 並沒有一次性提供所有數據。相反,軟體「將世界劃分成不同解析度的瓦片」。在任何時間內,用戶只能查看少量的瓦片。而這些瓦片被組織起來,使相鄰的瓦片更易被獲取。

類似地,Juicebox 的 hic 文件能以多種解析度存儲每個可能的染色體對的圖塊集。軟體的查詢表可以直接檢索數據,從而加快訪問速度。因此,Juicebox 用戶可以無縫探索整個基因組的交互作用,然後放大以查看精細的功能。

基因組同步

今年 3 月,哈佛醫學院生物醫學信息學家 Nils Gehlenborg 開發了基於網路的 2D 基因組交互可視化工具——HiGlass,它也提供了類似 Google 地圖的體驗。

與 Juicebox 一樣,在 HiGlass 中,研究人員可以導入基因組軌跡以便了解所看到的內容。此外,HiGlass 還允許用戶在一個瀏覽器窗口中打開多個 HiGlass 視圖,並將它們同步起來,使其始終顯示相同的區域。

Gehlenborg 表示,這樣研究人員就可以比較不同條件或實驗中的染色體構象了。「我們在為研究者和分析師提供新猜想的靈感。」他說。

該團隊已經建立了一個 HiGlass 伺服器,以挖掘公開的數據。由於需要分析自定義數據集的研究人員必須在本地安裝該軟體,Gehlenborg 團隊為此提供了一個 Docker 容器。

實際上,Juicebox 的 Web 版本和 HiGlass 都允許用戶創建可分享的 URL——指向數據的特定視圖。Aiden 把這個功能稱為軟體的「殺手級應用」。他認為,如果用戶注意到基因組結構與特定的 1D 軌道完全重疊,「那麼點擊那個 URL,複製它,就可以推送它了,而所有接收到該分享的人都可以點擊它,隨後便會得到相同的參數設置」。

另外兩個可視化軟體——3D 基因組瀏覽器和 WashU EpiGenome 瀏覽器均能提供更多的本地化視圖。用戶可以選擇感興趣的區域,瀏覽器會顯示該區域的基因組交互信息。

此外,Juicebox 和 HiGlass 將熱圖映射成矩形的鏡像,而這些瀏覽器則將熱圖顯示為三角形。加州大學聖迭戈分校基因組生物學家 Bing Ren 說:「我們去掉了一半的冗餘信息。」

也許,這種變化可能聽起來不大,但賓夕法尼亞州立大學的 Feng Yue 的研究,這種變化能讓研究人員更容易識別功能區域。例如,3D 基因組瀏覽器允許用戶將來自兩個物種的熱圖相疊,以評估摺疊體系結構的進化保守。 「虛擬 4C」模式允許用戶查詢與特定基因組位點相互作用的序列的 Hi- C 數據集,從而方便研究者觀察基因調控區域之間的相互作用。

另一個流行的基因組交互可視化軟體是由加州大學聖迭戈分校的 Sheng Zhong 等人開發的 GIVE。GIVE 允許研究人員使用幾行 HTML 代碼,將完整功能的基因組瀏覽器(包括 2D 交互數據查看器)納入其個人或實驗室網頁。Zhong 指出,研究人員可以與同事分享數據,發表文章時也可以附上鏈接,整個操作時間大約為 20 分鐘。

義大利米蘭 FIRC 分子腫瘤學研究所計算生物學家 Francesco Ferrari 則使用 R 編程語言和 Bioconductor 軟體庫顯示其 Hi- C 數據。雖然這難與缺乏其他軟體交互,但是由於該團隊一直使用 R 和 Bioconductor 進行數據分析,「所以這樣更方便」。

實現 3D

最終,2D 互動矩陣可以提示 3D 結構。畢竟,如果兩個區域相互作用,它們可能距離非常接近。越來越多的研究人員正在使用他們的 2D 數據直接計算和可視化 3D 結構。

英國劍橋巴布拉漢研究所博士后 Csilla Várnai,參與了今年早些時候單細胞 Hi- C 研究的 3D 模型構建工作。她使用一個名為 Gromacs 的通用分子建模包來將染色體模擬成一條串珠——每個珠代表約 10 萬個鹼基——然後將串珠進行摺疊,而 Hi- C 的交互數據則是摺疊時的「約束條件」。

某些軟體則專門被設計用於染色體結構的建模。挪威奧斯陸大學生物信息學家 Jonas Paulsen 開發的 Chrom3D 軟體將 Hi- C 數據與核包膜距離的信息相結合,以模擬染色體在細胞核中的位置。Paulsen 提到,「這對基因調控非常重要」。核外圍附近的基因傾向於被抑制,而位於中心的基因通常是有活性的。

西班牙巴塞羅那基因組調控中心基因組分析中心的 MarcMartí-Renom 和 Mike Goodstadt 開發了另一個 3D 工具——TADkit。TADkit 允許用戶在相應的 2D 熱圖和 1D 軌跡旁邊查看 3D 染色體模型。只要選中一個視圖中的一個特徵,那麼軟體就會自動高亮其他試圖中的同一特徵。

不過,由於大多數 Hi- C 數據集包含數百萬個細胞,到底 3D 視圖比 2D 視圖能多提供哪些信息還有待觀察。

對此,麻省理工學院生物信息學家 Leonid Mirny 打了個比方,你拍了一堆人的照片,然後將它們平均化,最後得到的照片會跟誰都不像。3D 視圖可能也會存在這種問題。Zhong 指出,目前還不清楚哪個工具(如果有的話)將成為基因組可視化的黃金標準,現在這方面的爭論已經很激烈了。

Ren 則表示,對於基因組生物學而言,可視化是關鍵因素。他解釋稱,分析工具是在統計數據的基礎上設計而成的。有時候它們會錯過一些東西,有時它們會推斷出一些壓根不存在的功能。「因此,科學家還是要謹慎,自己檢查分析數據非常重要。」

),定時推送,福利互動精彩多


熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦