Zi 字媒體

人工智慧如何改變科研？

2021/12/25

人工智慧工具正在幫助揭示可能影響自閉症的上千個基因。

尋找新粒子

上世紀 80 年代末，正當「神經網路」這一術語捕獲了公眾的想象力時，粒子物理學家開始「玩弄」起人工智慧。他們的領域很適合應用人工智慧和機器學習演算法，因為幾乎每項試驗均聚焦從複雜粒子探測器獲取的不計其數的類似數據中尋找微小的空間模式，而這正是人工智慧擅長的事情。「我們花了好幾年時間才說服人們，人工智慧並不是一種神秘的把戲。」最早擁抱此項技術的首批物理學家之一、美國費米國家加速器實驗室研究人員 Boaz Klima 表示。

粒子物理學家力圖使帶有巨大能量的亞原子粒子相撞以迸發出獨特的新物質微粒，從而理解宇宙的內部運作。例如，2012 年，利用全球最大質子對撞機——位於瑞士的大型強子對撞機（LHC）開展研究的團隊發現了預期已久的希格斯玻色子。這是一種轉瞬即逝的粒子，對於物理學家解釋所有其他基本粒子如何獲得質量至關重要。

不過，此類奇特粒子並非自帶標籤。在 LHC，幾乎約 10 億次對撞才出現 1 個希格斯玻色子。與此同時，它會在十億分之一皮秒內衰變成諸如光子對等其他粒子。為「重現」希格斯玻色子，物理學家必須認出所有那些更加常見的粒子。然而，典型碰撞中產生的成群的不相關粒子使此項工作變得更加艱難。

費米實驗室物理學家 Pushpalatha Bhat 介紹說，諸如神經網路等演算法擅長從背景中篩選信號。在粒子探測器（一般是由各種感測器構成的巨型筒狀集合體）中，光子通常在被稱為電磁量能器的子系統中創建粒子束。電子和強子也是這樣產生的，但它們的束流和光子稍微有些不同。機器學習演算法通過發現描述束流的多個變數之間的相關性，將它們區別開來。此類演算法還能幫助區分希格斯玻色子衰退產生的光子對。「這是一個公認的大海撈針式的問題。」Bhat 表示，「這也是為何我們要從數據中提取儘可能多的信息。」

然而，機器學習並未完全佔領這個領域。物理學家仍然主要依靠對基礎物理的理解來斷定如何搜索數據，以尋找新粒子和現象存在的跡象。不過，勞倫斯伯克利國家實驗室計算機專家 Paolo Calafiura 表示，人工智慧可能正變得愈發重要。到 2024 年，研究人員計劃升級 LHC，從而使其碰撞率提高 10 倍。Calafiura 介紹說，到那時，機器學習將在應對數據洪流時發揮至關重要的作用。

分析公眾情緒

伴隨著每年幾十億用戶以及數千億條推特和帖子的產生，社交媒體已將大數據帶入社會科學。同時，心理學家 Martin Seligman 表示，它還為利用人工智慧收集人類傳播產生的意義創造了史無前例的機遇。在賓夕法尼亞大學正向心理學中心，Seligman 同來自「全球福祉項目」的 20 多名心理學家、內科醫生和計算機專家，利用機器學習和自然語言處理篩選大量數據，以估量公眾的情感和身體健康。

傳統上，這是通過調查實現的。不過，Seligman 表示，社交媒體數據「比較低調」、花費較少，而且獲得的數據要高出好幾個數量級。雖然此類數據也很散亂，但人工智慧提供了一種獲取模式的強有力方式。

在一項最新研究中，Seligman 和同事分析了 2.9 萬名自我評估患有抑鬱症的臉書用戶更新的內容。利用來自其中 2.8 萬名用戶的數據，機器學習演算法發現了更新內容中的詞語和抑鬱症水平之間的關聯。隨後，它能僅基於更新的內容，成功估量出其他用戶的抑鬱症水平。

在另一項研究中，該團隊通過分析 1.48 億條推特，預測了縣級心臟病死亡率。事實證明，同憤怒和負面情緒相關的詞語是危險因素。和基於諸如吸煙、糖尿病等 10 項主要危險因素的預測相比，這項來自社交媒體的預測同實際死亡率匹配得更加緊密。與此同時，研究人員利用社交媒體預測了個性、收入和政治意識形態，並且研究了住院治療、神秘體驗和刻板印象。該團隊甚至利用從推特上推斷出的福利、抑鬱症、信任和五大人格特徵，創建了一幅為美國每個縣作出標識的地圖。

「在分析語言及其同心理學的聯繫方面，一場革命正在上演。」德克薩斯大學社會心理學家 James Pennebaker 表示。Pennebaker 關注的並非內容，而是風格。他發現，在申請大學入學短文中虛詞的使用能預測成績。冠詞和介詞象徵著分析性思維並且預示了更好的成績，代詞和副詞象徵著敘事性思維並且預示了較差的成績。Pennebaker 還發現了證據，表明 1728 年的劇本《雙重背叛》的大部分內容可能由莎士比亞撰寫。機器學習演算法基於諸如認知複雜性和罕見詞等因素，將該劇本同莎士比亞的其他作品進行了匹配。「現在，我們可以分析你貼出甚至撰寫的任何內容。」Pennebaker 表示，結果是「獲得了關於人們是什麼樣子的愈發豐富的畫面」。

探尋自閉症根源

對於遺傳學家來說，自閉症是一項棘手的挑戰。遺傳定律表明，它擁有強大的遺傳因素。然而，已知在自閉症中起到一定作用的許多基因的變體只能解釋約 20% 的病例。尋找可能影響自閉症的其他變體，需要從關於 2.5 萬個其他人類基因及其周圍 DNA 的數據中搜尋線索。對於人類研究者來說，這是一項艱巨的任務。為此，普林斯頓大學計算生物學家 Olga Troyanskaya 和紐約西蒙斯基金會謀取了人工智慧工具的支持。

Troyanskaya 將關於哪些基因在特定人類細胞中活躍、蛋白如何相互作用以及轉錄因子結合位點和其他關鍵基因組特徵位於哪裡的上百個數據集結合在一起。隨後，她的團隊利用機器學習構建了基因相互作用的地圖，並且將已得到確認的較少的自閉症危險基因同上百個涉及自閉症的其他未知基因進行了比對，以尋找它們的相似性。此項研究標記了另外 2500 個可能同自閉症相關的基因。相關成果在去年發表於《自然—神經科學》雜誌。

不過，正如遺傳學家最近所意識到的，基因並不是孤立地發揮作用。它們的行為受到上百萬個附近非編碼鹼基的影響。這些非編碼鹼基同 DNA 結合蛋白以及其他因素相互作用。確認哪些非編碼變體可能影響附近的自閉症基因是一個更加棘手的問題。Troyanskaya 的研究所 Jian Zhou 正在利用人工智能解決這一難題。

為訓練程序（一個深度學習系統），Zhou 將其暴露在「DNA 元件百科全書」和「表觀基因組學路線圖」收集的數據中。這兩個項目對上萬個非編碼 DNA 位點如何影響附近基因進行了梳理。Zhou 利用的系統學習了在評估未知非編碼 DNA 的潛在活性時該尋找哪些特徵。

當 Zhou 和 Troyanskaya 於 2015 年 10 月在《自然 - 方法學》雜誌上描述了這個名為 DeepSEA ()的項目時，加州大學爾灣分校計算機專家 Xiaohui Xie 將其稱為「將深度學習應用於基因組學的里程碑」。目前，該研究團隊正通過 DeepSEA 研究自閉症患者父母的基因組，以期對非編碼鹼基的影響進行排序。

原文檢索：

Genome-wide prediction and functional characterization of the genetic basis of autism spectrum disorder

Predicting effects of noncoding variants with deep learning–based sequence model

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點