Zi 字媒體

康奈爾大學王飛博士：AI處理醫療數據面臨的8大挑戰

2021/12/25

雷鋒網按：本文轉自HC3i數字醫療網，作者王飛博士，他是康奈爾大學威爾醫學院助理教授，IBM沃森研究中心顧問，法國液空集團研究顧問。曾任職於康涅狄格大學以及IBM沃森研究中心。主要研究方向包括數據挖掘，機器學習技術在醫療信息學中的應用。王飛博士已經在相關方向的頂級國際會議和雜誌上發表了近190篇學術論文，引用超過5000次，H指數38。

隨著國務院發布新一代人工智慧發展規劃，「人工智慧」這個已經在最近家喻戶曉的名詞再一步被推向了風口浪尖。對於醫療健康這一與人類息息相關的行業來講，一個自然而然的話題便是如何讓人工智慧來幫助其發展。

人工智慧的一個核心問題是讓計算機演算法從數據中發現有價值的東西。這裡的「價值」依具體問題而定。例如對IBM的沃森，價值便是從無數文獻當中總結出來的知識；而對於AlphaGo，價值便是從無數棋譜中總結出來的可以致勝的規則。近些年來也不斷有一些將人工智慧技術應用於醫療的嘗試，例如斯坦福的研究員利用神經網路來分析圖像中的皮膚病變是否有可能是癌症，Google利用深度學習來通過眼底圖像分析識別病人是否患有糖尿病。

隨著各種各樣與人工智慧相關的技術，例如計算機硬體和軟體的快速發展，我們能夠接觸到合理用的數據越來越多。然而，要將AI應用到醫療數據當中，並從醫療數據中發現真正的價值，我們還需要考慮如下一些問題。

第一，數據質量

與很多其他應用領域（例如圖像，語音）的數據不同，醫療數據種類繁雜，標準不統一，並且質量參差不齊。例如電子病歷數據，只有當病人去過醫院或是診所的時候才會有記錄，並且病人通常只有在感覺不適的時候才會去醫院，這就導致了電子病歷天然的不完整性。並且病人並不一定會嚴格尊重遺囑進行檢查或是吃藥，這就造成了電子病歷的不規律性。還有電子病歷在錄入的時候經常會發生錯誤，並且在很多檢查中由於儀器的差別記錄的精度和數值也都不同。在這種情況下，有效的評估數據質量就成為了在挖掘數據價值之前必須要解決的問題，因為在低質量的數據上不大可能挖到有價值的信息。

第二，數據標準

不同的國家有不同的語言以及不同的衛生體系，這也就導致了他們醫療數據的標準不同。甚至對於同一個國家，例如美國，也存在著如Epic，Cerner，NextGen等幾套不同的電子病歷系統。通常要從數據中挖掘有效信息的一個前提條件是要有足夠大量的數據。將醫療數據標準化，便是統一不同電子病歷系統，獲得更多病人數據的首要任務。在這方面，OHDSI (ObservationalHealth Data Sciences and Informatics)是一個面向健康數據標準化的國際組織，而我們也已經成立了OHDSI工作組，致力於推動電子病歷標準化，構建國內的大型觀察性健康醫療數據網路。

第三，數據量

當前的健康醫療數據分析，尤其是在精準醫療的大環境下，大都是基於病人的分析。而全世界也只有七十億人，再細化到每一個國家，每一個地區，甚至每一個醫院，我們能夠利用的數據的樣本量實際非常的少。從這個角度講，與其說健康醫療數據分析是一個大數據問題，倒不如說是個小數據問題。除去電子病歷，有很多其他類型的健康數據，例如通過可穿戴設備或是感測器採集的數據，就更是小樣本。隨之也出現了一些新的概念，例如N-of-1 Trial研究的就是基於單個患者的多重交叉設計的臨床實驗。如何讓數據分析方法在小樣本下發揮作用，是一個非常重要的問題。

第四，數據維度和異質性

由於疾病的機理異常複雜，我們可以用海量的特徵和指標刻畫每一個病人的體征，從臨床數據到基因數據，從電子病歷數據到調查問卷數據，從病人本身的數據到環境數據，從結構數據到非結構數據，從文本到圖像等等。在這樣的情況下數據的維度可以成千上萬甚至百萬，並且數據的性質，包括類型，值，特點均不盡相同。而本條也與剛剛提到的第三條緊密相關：因為我們沒有辦法得到足夠多的病人，那我們就需要採集儘可能全面的信息來刻畫描述每一個病人。如何集成這些各種各樣的病人數據來挖掘有效的信息，是對數據分析方法的另一個挑戰。

第五，數據偏倚以及模型的推廣性

由於前面所說的種種挑戰，我們通常進行的分析是基於某一特定的病人人群，例如一個醫院或是一個地區。在這些病人的數據上訓練出來的模型只能保證在這些病人，或是與這些病人類似的病人上是有效的。如何增強模型的推廣性與互操作性，使其能夠在不同的人群上面有效，是一個很重要的問題。舉個例子，生成對抗模型(GAN)是最近深度學習領域一個非常流行的樣本生成模型，其主要目的就是通過對抗來生成儘可能「真」的樣本，使得人無法區分哪些樣本是真實的，那些是由GAN生成的。由於病人樣本有限，一個自然的想法便是用GAN來生成虛擬病人。但是由於GAN是根據訓練樣本來生成新的樣本的，其真偽也只能根據訓練樣本來判斷。這樣的話，如果我們用GAN來生成虛擬病人，就會更加增加數據偏倚，而在這些病人上面訓練的模型推廣性就會變的更差。

第六，模型的可解釋性

在醫療健康領域，只有模型的準確性是不夠的，模型的可解釋性同樣重要。這是因為醫療健康與每個人的生活息息相關，我們不僅需要知道結論，更需要知道為什麼會有這個結論。這樣就使得白盒演算法，例如決策樹，再醫療數據分析中的應用就遠多於黑盒演算法。而這也對黑盒演算法，例如大多數的神經網路或是深度學習演算法提出了挑戰。而可以幫助解釋模型的技術例如可視化，人機交互乃至統計就顯得異常重要。

第七，模型的適用性

這也是最容易被大多數計算機行業的從業者，特別是演算法設計和開發人員忽視的一點。由於人工智慧技術的流行，大家容易追逐技術熱點而忘記了醫學問題本身。例如由於AlphaGo的成功，強化學習變得家喻戶曉。而很多從事醫療健康數據分析的研究人員也都在試圖將強化學習應用於醫學問題當中。然而強化學習的一個必備環節是要與環境進行交互，從而判斷每一步的策略是否能夠對最終的目標產生最大的效果。而這一環節在醫學問題當中是否存在？如何能夠窮盡所有可能的選擇並且判斷一個臨床路徑當中每一步的選擇對最終結果的影響？這些都是需要仔細考慮的問題。

第八，數據和模型的隱私性

隱私性是醫療健康數據有別於其他數據的一個重要特點。各個國家都有不同的法案在保護病人數據的隱私，例如美國的HIPAA法案，而衛計委也一再強調在發展健康醫療大數據的同時一定要警惕數據安全，保護患者隱私。因此我們在研究醫療健康數據挖掘演算法的同時一定要注意隱私保護。此外，除了保護數據隱私，保護模型的隱私也同樣重要。舉個例子，2014年維斯康辛大學與Marshfield Clinic在計算機安全頂級會議USENIX Security Symposium上發表了一篇文論，討論在精準醫療大環境下藥物基因組學的隱私性研究。該文論指出了通過華法林的計量可以通過逆向工程推斷患者的基因信息。而通過數據擾動等方式保護患者隱私通常會產生嚴重的後果，甚至患者致死。該文章指出，在精準醫療的大環境下這類隱私問題會越來越多。這樣一來，我們不僅要保護數據，同樣要保護數據上建立的模型。而該論文也獲得了當年會議的最佳論文。

總之，人工智慧的時代已經到來，為了擁抱人工智慧數據分析一定會帶來一場醫療健康的技術革命。如何正確的挖掘醫療健康數據，從數據中得到有價值的信息，是一個值得每一個從業者仔細考慮的問題。我們相信，人工智慧一定會把醫療變得更美好，把每個人變的更健康。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點