Zi 字媒體

《科學》重磅：人工智慧再次戰勝人類！這次是在心臟病預測上 | 奇點猛科技

2021/12/25

上周五，《科學》雜誌報道了英國諾丁漢大學流行病學家Stephen Weng博士團隊發表在《PLOS ONE》上的重要研究成果，Weng博士團隊將機器學習演算法應用於電子病歷的常規數據分析，發現與當前的心臟病預測方法相比，深度學習演算法不僅可以更準確地預測心臟病發病風險，還可以降低假陽性患者數量(1)。人工智慧再一次戰勝人類。

Stephen Weng博士

「這項研究的重要性再怎麼強調都不過分」，沒有參與這項研究的斯坦福大學血管外科醫生Elsie Ross博士在接受《科學》雜誌採訪時表示，「我真的希望醫生敞開胸懷擁抱人工智慧，利用這個工具更好地幫助患者。」

我相信大部分心血管醫生對人工智慧的期待與Ross博士一樣。因為據世界衛生組織統計，在2012年，全球非傳染病導致的死亡人數為3800萬，其中心血管疾病（心臟病和中風等）為1750萬人，占所有非傳染疾病導致死亡病例的46.2%；而讓人感到畏懼的癌症導致的死亡為820萬，占所有非傳染疾病導致死亡病例的21.7%(2)。心血管疾病的預防與治療確實刻不容緩。

實際上科學家也一直在努力尋找與心腦血管疾病相關的風險因子，以達到預防疾病的目的。例如美國心臟病學院與美國心臟病協會（American College of Cardiology/American Heart Association；ACC/AHA）等機構通過多年的研究，將高血壓、膽固醇、年齡、吸煙和糖尿病等一系列因素列為與心血管疾病風險高相關的因素，並推出了ACC/AHA預測模型(3)。除此之外，還有其他組織機構推出的QRISK2、Framingham和Reynolds等預測模型。

然而，在Weng博士看來，這些方法都不給力。因為所有標準的心血管病風險評估模型都有一個隱含的假設，即每個風險因子與心血管疾病之間的關係都是線性的(4)，這些模型可能過度簡化了它們之間的關係。

相對於複雜的生命活動，這顯然太簡單了，無法揭示患者服用的藥物，或其他疾病和生活方式因素對疾病的影響。甚至還有一些因素是反直覺的，很多人認為脂肪對身體有害，會增加健康人患心血管疾病的風險。但在一些情況下，它實際上是保護心臟的。「這些例外在人體內實實在在地發生，」Weng博士說。「計算科學給了我們探索那些複雜關係的機會。」

為了探索利用機器學習預測心血管病發病風險的方法，Weng博士團隊從Clinical Practice Research Datalink （CPRD）資料庫篩選了378256名符合標準居民的10年（2005年1月1日起）電子病歷，這些居民在2005年都是各方面指標正常的健康人。

然後隨機將這個龐大的資料庫分成兩份，其中295267（78%）個居民的電子病歷，用來訓練機器學習演算法，剩下的82989個居民的10年電子病歷用來驗證演算法的準確性。據Weng博士了解，這是全世界範圍內，首次在如此大規模的群體中，使用機器學習預測人類患心血管疾病的風險。

為了找到更合適的機器學習演算法，Weng博士和其同事採用了4種機器學習演算法，它們分別是：隨機森林（random forest）、邏輯回歸（logistic regression）、梯度提升（gradient boosting）和神經網路（neural networks）。將ACC/AHA模型作為對照。

第一步工作是讓4種機器學習演算法在沒有人類指示的情況下，通過分析295267的電子病曆數據，各自「創造」一個預測模型。當研究人員將標準化的數據「喂」給這四種演算法之後，它們很快找到了各自認為的與心血管病發生相關性較高的風險因子。

在這一步，機器學習演算法就顯現出了它的優勢。與ACC/AHA指南相比，年齡、性別和吸煙三項風險因素，也被四種機器學習演算法列為首要風險因素。然而，現行的許多心血管疾病演算法認為糖尿病是風險因子之一，四種機器學習模型要麼不考慮這項因素，要麼只認為糖化血紅蛋白是風險因素。

四種深度學習演算法自己「摸索」出來的重要風險因子【1】

更有意思的是，這四種機器學習模型認為房顫、種族差異、慢性腎病、慢性阻塞性肺疾病和嚴重精神病等疾病，以及是否服用皮質類固醇，以及甘油三酯水平等生物標誌物等是重要風險因素。但是這些在現存的模型里都是不存在的。

這再一次表明，機器學習可以幫助研究人員發現一些潛在的風險因子，這些變數憑人力是很難發現的，但是機器學習可以從其他變數中推斷出來(5)。那機器學習的這幾套模型到底靠譜嗎？

第二步，Weng博士將四種機器學習演算法自主建立的模型與ACC/AHA模型進行比較，讓它們分別預測剩下的82989個居民哪些10年後會患心血管疾病（實際總發病人數為7404人，當然研究人員沒有把這個信息告訴深度學習模型），哪些不會發病。它們的預測結果如下。

四種深度學習「摸索」出的模型預測能力與ACC/AHA模型的比較【1】

不難看出，四種機器演算法自主創建的模型要優於ACC/AHA模型。隨機森林模型的敏感性比ACC/AHA高出2.6%，邏輯回歸模型的敏感性比ACC/AHA高出4.4%，梯度提升機和神經網路模型的敏感性比ACC/AHA高出4.8%。從本研究的結果看來，最好的神經網路演算法比傳統模型多正確預測了355個居民的發病風險。這意味著，在更大的人群里，將有數以萬計的人會因此而得救。

然而，我們也不難發現，即使引入深度學習演算法之後，還有30%以上的高風險居民沒有被提前預測出來。這意味著深度學習演算法還需要大幅改進。Weng希望在將來能將更多的生活因素和遺傳因素納入分析範圍，進而提升其精確度。

這件事情卻未必那麼容易。因為機器學習演算法就像「黑箱」，你輸入數據，它反饋結果，然而在這個黑箱之中到底發生了什麼，目前研究人員是很難知道的，這使得科學家難以在演算法上做調整。不過，科學家正在努力改進這一現狀，爭取實現數據處理過程的可視化(6)。

實現數據處理過程可視化的方法【1】

相較於人工智慧在常規電子病歷上的應用而言，人工智慧在影像學領域的科研和應用正可謂如日中天。尤其是2015年底，Google和Facebook先後公開自家的深度學習演算法TensorFlow和Big Sur，帶動了基於圖像識別的深度學習演算法在醫療領域的爆髮式發展。

基於圖片識別的人工智慧目前在皮膚癌、糖尿病視網膜病變和先天性白內障等疾病的輔助診斷上已經達到或超過專業醫生的水準。今年年初FDA批准了全球首個深度學習影像臨床應用平台Arterys Cardio DL，意味著深度學習技術正逐漸獲得認可。

目前國內同行也在積極布局人工智慧在醫療領域的應用，例如致力於醫療影像的智能診斷和大數據分析的慧影醫療，在今年3月底聯合七喜醫療發布了全球首款智能DR。

而致力於在眼底、X-Ray和頭頸癌MRI等各個科室影像的診斷與科研的肽積木，首創將深度網路應用於病灶識別標記及病程判斷，可在13~15秒內完成一張病灶標記，遠快於3~5分鐘的行業標準，實際場景已超過醫生準確率，在特定數據集準確度超過97%。從眼底照片的閱讀與識別入手，肽積木在糖尿病視網膜病的等級識別方面已持平國際頂級醫生。

儘管國內處於輔助診斷階段的人工智慧平台，在準確度上也已經達到或超過醫生的水平，但是在政策、技術、倫理，以及教育方面仍有不少問題需要突破。不過，2017年3月，人工智慧首次被列入政府工作報告中。國家將加大在人工智慧領域的投入，在未來的5-10年，這個產業或許會發生很大的變化。

參考資料：

【1】Weng SF， Reps J， Kai J， Garibaldi JM， Qureshi N. 2017. Can machine-learning improve cardiovascular risk prediction using routine clinical data？ PLOS ONE 12：e0174944

【2】Organization WH. 2014. Global status report on noncommunicable diseases 2014. World Health Organization

【3】Goff DC， Lloyd-Jones DM， Bennett G， Coady S， D』Agostino RB， et al. 2013. 2013 ACC/AHA Guideline on the Assessment of Cardiovascular Risk. A Report of the American College of Cardiology/American Heart Association Task Force on Practice Guidelines

【4】Obermeyer Z， Emanuel EJ. 2016. Predicting the Future — Big Data， Machine Learning， and Clinical Medicine. New England Journal of Medicine 375：1216-9

【5】Berglund E， Lytsy P， Westerling R. 2012. Adherence to and beliefs in lipid-lowering medical treatments： A structural equation modeling approach including the necessity-concern framework. Patient Education and Counseling 91：105-12

【6】Olden JD， Jackson DA. 2002. Illuminating the 「black box」： a randomization approach for understanding variable contributions in artificial neural networks. Ecological Modelling 154：135-50

【7】http：//www.sciencemag.org/news/2017/04/self-taught-artificial-intelligence-beats-doctors-predicting-heart-attacks

2017未來醫療科技大會暨人工智慧前沿高峰論壇

會議時間：2017.6.15--6.16 會議地點：上海

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點