search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

【e醫療原創】衡反修:大數據是從無到有的探索之旅

導讀

北京大學腫瘤醫院信息部主任衡反修認為,大數據在醫院的應用和發展是個循序漸進的過程,醫院要根據自身實際情況,自主規劃發展之路,找准發力點,並以此設計出符合自身需要的業務流程,而不能人趨亦趨,盲從人後。

北京大學腫瘤醫院信息部/衡反修

著名未來學家阿爾文•托夫勒在《第三次浪潮》中,將大數據讚頌為「第三次浪潮的華彩樂章」。

大數據(Big Data)不僅是單純的新技術,而是繼移動互聯網、雲計算之後IT產業的又一次顛覆性的技術革新。大數據最重要的是思維上的更新。

數據上講,隨著信息技術的發展,數據的規模和種類急劇增長,數據呈指數級增長態勢,據麥肯錫預測,2020年產生的數據量將是2009年的44倍,接近35ZB。

思維上講,對整體的近似把握往往比對少量個體的精確把握更加有價值,不以隨機樣本代替整體,不追求少量個體的精確度。

技術上講,大數據是一次技術革新,對大數據的整合、存儲、挖掘、檢索、決策生成都是傳統的數據處理技術無法順利完成的。

醫院大數據的挖掘現狀

大數據是一步一步實踐出來的,有量大、多樣、快速、高值四大特點。HIT人一直在想辦法用大數據的思維和方法研究醫療數據。

上看,大型醫院每年新增醫療數據約50~100T;一張CT圖像約150M,一個病理高清圖接近5G,長年累月,一個醫院累積的數據量就可達數TB甚至PB之多,但和大數據發源地互聯網和電信數據相比,其數據量並不算很大。

樣式上看,醫院大數據有異構和多樣性——圖像、視頻、機器數據等文本多樣;無模式或者模式不明顯;不連貫的語法或句義居多。

速度上看,需要實時分析而非批量式分析,立竿見影而非事後見效。

價值上看,儘管醫療數據很重要,但也存在大量的不相關低價值信息;對於未來趨勢與模式的可預測分析性;機器學習、人工智慧分析的複雜性而言,也客觀存在。

所以,從大數據的特點看,醫院當前有沒有完全意義上的大數據,從複雜性和多維度角度看,大數據特徵也可見倪端,但仁者見仁智者見智。

目前,醫院數據主要產生方式有兩種:一是醫務人員在醫療過程中書寫;二是從檢查儀器與設備中採集。而醫院數據主要還是來自醫療過程的記錄,比如,患者建檔基本信息、住出院登記記錄、醫生看診醫囑與病歷、手術與麻醉記錄、檢查報告圖像、檢驗結果、用藥記錄、護士執行記錄、病案分類編目、醫療費用記錄等。同時,醫療信息化也從門急診/住院系統、醫技業務系統、醫政業務系統、藥品庫房系統等各方面帶來數據。

北京大學腫瘤醫院的臨床數據特點有二:一是患者複診率高,治療周期記錄完整;二是隨訪數據完善。要將醫療大數據利用好,可以從以下幾點入手:

(1)整合醫療數據,推動業務協同;

(2)智能一體科研,加速醫學研究;

(3)臨床輔助決策,提升質量安全;

(4)智能腫瘤篩查和患者管理,探索分級醫療。

醫院用好大數據將帶來三大優勢:

(1)速度提升。在檢索速度上,Hadoop與傳統的關係型資料庫相比,速度至少有百倍以上的提高,達到毫秒級;

(2)從量變到質變。基於機器學習的自然語言處理技術,可實現對自由文本分詞,從而可實現對數據結構化利用。

(3)多維度分析。對多種類型的醫療數據進行分析,包括結構化、半結構化、非結構化的數據。

2

大數據的科研應用

用大數據的思維和方法研究醫療數據,能產出過去傳統思維、方法、技術無法完成的任務,解決過去無法解決的問題。以科研為切入點的大數據應用,就是在用大家忽略的數據解決問題。

科研應用是醫院當前的一大痛點(臨床醫生忙於門診、手術、患者管理、病曆書寫、教學、文獻檢索,還要不得不分身科研數據整理)。對於臨床數據而言,雖然經過醫院信息化30餘年的發展,臨床所需的單一患者數據基本能滿足,但其應用由於數據質量、數據標準、數據挖掘等問題,科研數據自動獲取還處於試驗階段,無法規模化應用於臨床。

近年來隨著醫院科研任務及需求的迅猛增加,對科研數據獲取的準確性及效率要求越來越高,傳統的手工或半手工獲取科研數據的方式已不能滿足要求,在醫院業務系統逐步互聯互通的發展趨勢下,通過大數據技術實現科研數據的歸集和應用,解決醫院科研數據問題,成為醫院IT人員的重要任務。

科研應用對數據的要求較高,一方面,科研數據質量是嚴謹的,數據可溯源,這是科研數據的基準和基石;另一方面,科研需要結構化數據,表格化數據,否則無法分析。

當前,科研應用在臨床研究和藥物臨床試驗上有很大需求,也存在著巨大的問題:

(1)二次錄入數據效率低,容易造成錯誤;

(2)通過結構化病歷收集數據,易增加臨床醫生負擔,書寫效率低導致使用率低;

(3)臨床醫學科研各項目數據分散採集,每個課題獨立建立CRF(CaseReportForm),分散收集CRF中的數據,課題結束后數據不再延續。

3

臨床科研的探索路徑

經過多年的實踐,北京大學腫瘤醫院臨床科研的探索路徑有六。

1

篩選入組患者後進行二次錄入的手工模式

這種模式在大多數醫院一直存在,客觀上講是主要模式。它存在著的問題是收集效率低下、數據準確性差,這種情形下,臨床醫生希望是否想通過結構化病歷搜集數據來解決上述問題呢?

2

結構化電子病歷模式

病歷模板結構化採集數據是業內共識,然而易增加臨床醫生負擔,且後期利用仍需要臨床醫生進行二次整理,書寫效率低導致使用率低,無法滿足臨床科研採集的需要,這條路徑走著有些艱難。記得2012年進行結構化病歷階段遇阻時,曾經找電子病歷廠商老總討論,你能否將醫生自然語言書寫的病歷進行后結構化(當時提出的名詞)處理,自動抽取出醫生需要的結構化數據呢?那位老總無奈地說,我做不到,真的做不到呀!2012年是大數據才初有概念,更無自然語言、分詞技術等概念。無奈,在臨床少有科室適用和使用結構化病歷的情況下,大家不得不又回到了第一種路徑。那麼是不是還沒有其他路徑呢?

3

臨床科研一體化病曆書寫與採集模式

堅持結構化數據採集,同時以醫師為視角,提升臨床書寫效率,以電子病歷為平台,建立臨床科研一體化病曆書寫與採集體系,實現科研數據收集的同時,不增加日常工作量。上述文字的目的很簡單,但是實現起來的確要下一番功夫。這還需要臨床主任參與,對自身業務系統進行專科化改造,建立和醫務病歷平行的診療概覽——自動提取和醫生手工編輯和確認相結合,記錄患者結構化診療信息。分離醫政病歷時效管理的束縛,讓醫生能從容記錄科研結構化信息。這個路徑確實在我們醫院得到了很好的落實,但是在推廣過程中,由於病種差異,各臨床科室主任的管理力度不一,真正能落實的科室也是有局限性的。不過該模式很好地實現了基於前瞻性研究的科研數據搜集,但還有一個問題:回顧性研究數據如何解決?

4

基於CDR的科研數據採集模式

CDR(臨床數據中心)集合臨床各種數據,CRF表單對應模式,填報人(醫生或科研護士)進行確認填寫表單(機器對應自動填寫),同時基於傳統SQL的人工分析思路,做后結構化病理報告等關鍵數據,極大提高了數據採集質量和效率。但是類似病史、手術記錄、出院小節等大片段的非結構化文本無法進行結構化,而這些數據在臨床是很重要的組成部分。顯然這種方式儘管提高了效率,也存在傳統技術無法解決的瓶頸,那麼是否有更好的方式呢?

5

基於大數據技術的后結構化數據採集模式

通過利用大數據技術方式(NLP自然語言學習、分詞技術、HADOOP技術)對歷史數據進行后結構化,保持醫生書寫習慣和思考邏輯的基礎上,實現對既往病歷(包括上述病史、手術記錄等)的結構化處理,使大量沉睡的歷史數據得以激活並呈現出來,滿足科研數據採集和快速檢索需求,特別是速度方面,數千萬份的病曆數據可以毫秒級檢索出結果,而且同時有分類和統計。這是過去傳統資料庫SQL檢索方式無法或者難以實現。但是這個方式可能更多的是解決臨床回顧性研究,在數據源頭如果缺少數據,僅僅根據歷史病歷的數據挖掘是不夠的,數據質量的提高也是存在瓶頸。而且機器僅僅學習歷史數據病歷,缺乏醫師校準,其學習效果和智能水平也是難以大幅度提高。那麼如何在做回顧性研究的同時兼顧前瞻性呢?如何提高計算機自我學習的能力,提高數據採集、分詞、標準化的質量呢?

6

大數據技術轉化臨床應用的臨床科研一體化模式

在上述第五條路徑中,自然語言學習能否及早讓病曆書寫醫師參與呢?我們設想這樣一個場景,讓醫生按照各自的習慣書寫病歷(無論是結構化還是半結構化,還是複製粘貼),在他提交病歷的時候,數據在後台根據NLP演算法自動解析和分解,同時呈現給醫師電子病歷分頁,該醫師第一時間對解析的數據進行審核和校對和提交。那麼對於NLP來說,它不再是跟病曆數據學習,而是跟臨床醫生面對面地學習,其數據演算法能及時得到校正和提升。也就是這是一種科研臨床一體化的大數據應用模式,我認為無論對軟體提供商還是數據管理者和使用者都是有益的,有著值得期待和落地的前景。

我想舉一個實際案例:我和醫院某科室主任合作了一個課題(某癌症的前期篩查),就是說用利用當前信息系統存在的簡單數據,結合數學計算和大數據的方法,對比健康人群和疾患者群隊列,找出特異性指標,尋求一個簡單可行的腫瘤篩查模型。這個項目正在進行中,而且已經找到了從自然人群發病率十萬分之二十五,可以用大數據模型提高數十倍的篩查準確性。

所以,我相信使用新的技術在傳統的醫學領域是能有建樹的,而且是有價值的,網傳的「一滴血驗癌」其實並不遙遠了。

大數據在醫院的應用和發展是個循序漸進的過程,不同醫院有著不同的實踐方法和路徑,基於大數據技術的數據挖掘數據價值,不僅限於解析清洗出臨床數據,而且是數據價值臨床、科研、產業的轉化,所以很有必要自己來開拓,而不是找人代工。未來,醫療大數據不僅在臨床數據分析上應用,還可在臨床決策支持、醫學影像智能識別輔助診斷、基因組學分析上發力。

在這一系列專題中

您還可讀到以下精彩觀點

【e醫療原創】大數據:醫療面貌的重塑者?

【e醫療原創】互聯網端醫療大數據使用手冊

下一篇

薛萬國:大數據背後的服務理念

-end-

近期會議攻略

1

每年春季CMEF上,這場盛會總能吸引最多的目光

2017年5月16日

©以上文章來源

e醫療原創文章,轉載請註明來源。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦