Zi 字媒體

CCAI2017專訪 | 病人是否有生命危險？機器學習來告訴你——專訪南加州大學終身教授劉燕

2021/12/25

【編者按】由人工智慧學會、阿里巴巴以及螞蟻金服聯合主辦，CSDN、科學院自動化研究所承辦的第三屆人工智慧大會（CCAI 2017）將於7月22-23日正式召開。大會第二天下午，劉燕女士將參與【人工智慧科學與藝術論壇】，分享她在人工智慧與藝術結合方面的一些看法。

從早前的語音識別到後來圍棋中的人機大戰，人工智慧技術早已不是「天邊的雲彩」，遙不可及，而是更多的落地於生活，解決很多具體的問題。機器學習作為實現人工智慧的方法，使用機器學習訓練的模型廣泛應用於複雜系統的預測問題，股市的漲跌，是否會發生自然災害等這些通常憑藉「經驗」判斷的問題統統可以使用機器學習來達到更加準確的預測。而這一切，都繞不開對於數據的分析研究。

CCAI大會前夕，CSDN專訪了南加州大學計算機系終身教授、機器學習中心主任劉燕，她的主要研究項目是時間序列和時空序列數據的分析與學習，我們就機器學習在醫療中的應用以及一些機器學習中的分析方法進行了請教。

劉燕，南加州大學計算機系終身教授、機器學習中心主任。她在卡內基梅隆大學獲得計算機碩士及博士學位。2006年-2010年在IBM研究院擔任研究員。她的主要研究項目是時間序列和時空序列數據的分析與學習，曾經多次組織該課題的研討會和邀請講座。研究成果被廣泛應用到交通預測、醫療、環境、智能生產和其他領域中。她曾經獲得美國國家科學基金會獎、大川基礎研究獎、ACM論文獎榮譽獎（全球計算機博士論文最高獎項）、暹羅數據挖掘國際會議最佳論文獎，以及雅虎、IBM、Facebook學院獎。

以下為採訪實錄：

CSDN：首先請與我們的讀者分享一下您所關注的技術領域以及目前正在研究的方向。

劉燕：我現在主要研究兩個方面，一是有關人工智慧的基礎研究，它包括兩個方向：可解釋性的機器學習以及遷移學習。機器學習大部分的方法都把演算法看成是黑匣子，非技術人員不能了解機器學習的演算法是如何產生這樣的結果的，我們希望提供一個可解釋性的同時準確率高的機器學習辦法。遷移學習在基礎的人工智慧研究里是個很大的領域，我們平時在封閉的環境里做演算法研究，然後把這些演算法放到實際的應用中，會發現應用中數據的統計分佈和用來給機器學習的數據不太一樣，這其中就涉及遷移學習的問題。

二是有關人工智慧應用的研究，我們主要是應用在醫療方面，醫療上目前有很多尚未解決的問題，我們希望通過分析醫療大數據，得到一個機器學習模型，幫助醫生解決實際問題。另一方面是智能交通和數字城市，通過大數據有效地預測交通，做環境、電力網路等調度，將城市變成一個數字城市，讓城市更加聰明。

機器學習在醫療領域的應用

CSDN：您在時間、時空序列的分析與學習課題上的研究成果已經被應用到交通預測、醫療、環境等領域，那麼就醫療領域來講，時間序列和時空序列的研究解決了哪些具體的問題，實際應用中，預測的準確率為多少？

劉燕：有關時間序列或是時空序列在醫療方面的研究，我們做了四個方面：

急診室病人病情的預測。收集到病人有關時間序列的一些基礎數據，如病人的體溫、心率、血氧量等之後，我們用深度學習的方法預測這些患者在急診室里的病情，比如病人是否還需要呼吸機，病人在24小時內是否有生命危險等。我們主要是做這些在急診室里的數據分析，看病人的健康狀況，幫助醫生做診斷以及治療。對於病人未來24小時之內是否有生命危險的判斷，我們的研究已經能夠達到80%-90%的準確率，相比現在最先進的技術，準確率有20%-30%的提高。
癌症患者生存時間的預測。我們通過機器學習的辦法，主要是利用深度網路學習，分析以前病人的數據，判斷該病人的生存時間是多少。
糖尿病患者行為的預測。像糖尿病這種長期的病，我們通過測血糖的儀器或者可穿戴設備獲取病人日常行為的時間序列數據，通過分析去控制患者病人的飲食情況和運動情況。
止痛藥的劑量判斷。常用的止痛藥如果給病人用的劑量太小，病人會感覺疼痛，劑量太大病人可能會上癮，我們需要預測基於這個病人最合適的止痛藥劑量，並根據每個人的情況提供一個個性化的止痛藥劑量的研究。

CSDN：您曾在一次深度學習於醫療領域中的應用分享中提到DNN（Deep Neural Networks 深度神經網路）+GRU（Gated Cycle Unit 門控循環單元）深度學習模型，這兩種模型的組合式如何提出的？

劉燕：這主要是一系列有關用深度學習方法去處理醫療數據的研究。醫療數據里有不同的數據類型，比如急診室里收集的時間序列數據，病人的年齡、體重、病史等健康數據，還有醫療影像等數據。如果你想用到病人的病史信息，又想用到病人在急診室里的時間序列信息，我們需要把這兩種類型的數據放在一起研究，這樣能夠給我們提供更全面的有關病人健康的研究。

在這個模型里，我們用DNN去處理病人過去的病史以及一些實驗數據，通過GRU處理時間序列，把這兩种放在一起，相當於我們把不同類型的數據放在這個機器學習的模型里去考慮，這樣就能夠得到很好的效果。

機器學習方法論

CSDN：時間序列分析是定量預測的方法之一，那麼多少數量級數據的分析結果值得參考？在有大量數據的情況下，又該如何選擇合適的模型？在此過程中通常有哪些難點？

劉燕：根據不同的情況，可能有非常不同的答案。因為在時間序列裡面，很重要的問題是數據會變化，數據的統計分佈也會隨著時間而變化。如果它的變化比較小，或者說基本不變，大概需要上萬個數據點就能讓機器學習模型學習的很好。如果數據的統計概率是隨著時間而變化的，如金融方面股票的預測，它的概率分佈變化非常快，這是非常難的一個預測，很難講需要多少數據。

在有大量數據的情況下，以前的統計方法主要是ARIMA（Autoregressive Integrated Moving Average Model 自回歸積分滑動平均模型），ARIMA是統計里應用最多的有關時間序列預測的模型。現在隨著大家對深度學習的研究了解，比較統一的認為，深度學習辦法是現在能夠得到的最好的機器學慣用於時間序列的辦法。

在時間序列的收集和分析中，可能會遇到一些較難攻堅的難題：

數據收集不完全。例如在急診室中，如果有些機械報警，護士會將感測器從病人身上拿下來，這樣就無法收集到病人在這個時間的數據。又比如在交通方面，某一段路程行駛過程中，駕駛員的手機信號不好，那麼在此過程中，就收集不到駕駛員走的哪條路徑的信息，這樣我們收集到的數據，就不是一個完整的順序。這時我們需要一些比較好的演算法，去彌補這些看不到的數據，這樣才能做更好的預測；
時間數據的收集頻次不同。例如在城市中，通過不同的感測器去收集一些數據，溫度數據可能每一分鐘就會收集一次，但電網的使用情況可能只能每十分鐘收集一次，這種多頻率的時間序列的分析，現有的方法還不能很好解決，這也是現有最大的難題；
數據遷移。在時間數據的分析里，數據遷移是非常普遍的，但現有的模型還不能夠做的很好。

CSDN：Granger因果關係檢測是研究兩個變數是否存在因果關係的常用方法，我注意到您其中一個研究領域就是時間因果模型，那麼您基於Granger因果關係模型有哪些創新？

劉燕： Granger因果關係模型是我們過去五年主要研究的一個課題，我們提出了Granger圖模型，它主要做了兩方面創新。

速度上，降低演算法複雜度。此前Granger因果關係需要檢測的時候，它的演算法複雜度是N²（N代表時間序列的數量），經過我們的創新之後能夠線性降低時間複雜度。
統計上，降低數據複雜度。此前有N個時間序列時，需要很多數據才能檢測到Granger因果關係，我們做的一項理論證明，我們的方法能夠把數據複雜度降低，使得只需要極少部分的數據就能解決很大的時間序列。

以上的這些創新，主要應用到了全球變暖的原因分析，基因調控網路（regulatory network）以及社交網路上。

CSDN：在機器學習中，通常有很多模型可以選擇，當構建了模型，需要使用一些歷史數據來幫助機器學習演算法學習一組數特徵與預測輸出之間的關係。但即使這個模型能夠準確的預測歷史數據，該如何知道該模型對新的數據有效呢？

劉燕：現有數據情況下，我們可以使用檢測的辦法，使用現有的數據去預測將來發生的情況，會有一個估值，往往比較樂觀。

實際應用中，會遇到數據遷移的問題，如何判斷模型是不是對新的數據有效，大概分為以下兩點：

預測之後，跟實際觀測的結果比較，看它們是不是不一樣；
看是否有一個統計概率的遷移，如果能夠看到一個遷移的改變點，就可以發現數據統計概率的改變。

但總體來說沒有一個特別好的解決方案，因為可能會存在不規則點。可能數據概率並沒有變化，但觀測的點和之前就是不太一樣，這些情況下很難預測，也很難判斷它是一個不規則點還是概率發生了遷移。

目前這個問題沒有特別好的解決方案，但是有些比較初級的解決辦法，被廣泛應用到現在的很多應用中，這也是未來的研究課題。

CSDN：時間序列和時空序列的分析方法在本質上有何不同？

劉燕：時間序列，相對來講是一個一維的數據，只考慮一個方面，就是時間方向。而空間序列，它相對來講是考慮到多維方向的有序數字。時間是一維的序列，空間相當於兩個序列，這三個之間建立了一個三維的序列。從一維到三維，複雜度是隨著指數級增長的，因此從時間序列到時空序列，其演算法複雜度和運行複雜度是成指數增長的一個難題。

CSDN：對於想進入機器學習領域的開發者而言，他們必須具備哪些技能？

劉燕：在深度學習領域，從開發者角度有幾個方面。對於想要對深度學習演算法本身改進的開發者，要有統計以及強大的數學知識支持，包括離散數學、數學理論等，同時我覺得也需要對於編程方面的需求，因為從演算法，到真正的開發，有很多的考量，如統計、數學背景、編程等。

如果開發者想要將深度學習模型應用於解決實際問題，現在有非常多的開源軟體，已經構成了很好的平台，通過現有的開源軟體，在上面進行一些改建，得到很好的效果。很多時候可能對於統計或者數學方面的研究不需要特別多。

總體上講還是要看開發者從哪些方面著手，想從深度學習，基礎研究角度來切入，還是想從應用方面來切入，需要的技能也是不一樣的。

關於CCAI 2017

CSDN：在本次大會中，您將於其他6位女性專家共同參與【人工智慧科學與藝術】論壇的討論，您對於人工智慧與藝術的結合有哪些獨到的觀點？

劉燕：我可以分享一下我要跟大家共享的一些觀點。目前大家在人工智慧方面已經取得了比較振奮人心的成果，但我覺得也有很多方面還沒有完善，在下一步，有很多難題需要去研究。一方面是可解釋性的人工智慧模型，例如人腦是沒辦法解釋我們怎樣創作藝術的，或者說是一個靈感，靈感到底是什麼呢？機器現在也沒有一個很好的解釋。如果通過人工智慧的辦法，通過可解釋的人工智慧學習，我們有可能可以幫助人類解釋靈感是什麼，這樣可以更好地幫助人類開發靈感，去創造更好的藝術。

另一方面，我覺得是人工智慧的泛化性。現在人工智慧在藝術方面的應用，主要是模仿人類，比如機器可以創作和莫扎特曲目很像的一段音樂，但並沒有達到一個上升成果，創造一些和以前不一樣的創新性的藝術。因為機器學習還是通過大規模的數據學習，去模仿現有的藝術。如果這個泛化性能夠做的很好，就能讓機器創造一些沒有創造過的東西，這可能會激發人類創作的思維。從這些角度來講，這也是一個比較難的研究問題，但是我想也是人工智慧與藝術方面將來發展的道路上必須解決的一個問題。

CSDN：在本次CCAI大會上，您對哪些內容比較感興趣？

劉燕：在這次大會上，我看到會有很多不同方面的探究和探討。有一些和我們的研究方向可能比較一致：一方面是人工智慧基礎性的研究，比如遷移學習，可擴展性基礎研究等。另一方面是人工智慧的應用，像醫療、智慧交通，以及人工智慧用於金融方面的研究，都是我比較感興趣的。

CCAI大會簡介

人工智慧大會（CCAI），由人工智慧學會發起，目前已成功舉辦兩屆，是國內級別最高、規模最大的人工智慧大會。秉承前兩屆大會宗旨，由人工智慧學會、阿里巴巴集團 & 螞蟻金服主辦，CSDN、科學院自動化研究所承辦的第三屆人工智慧大會（CCAI 2017）將於 7 月 22-23 日在杭州召開。

作為國內高規格、規模空前的人工智慧大會，本次大會由科學院院士、人工智慧學會副理事長譚鐵牛，阿里巴巴技術委員會主席王堅，香港科技大學計算機系主任、AAAI Fellow 楊強，螞蟻金服副總裁、首席數據科學家漆遠，南京大學教授、AAAI Fellow 周志華共同甄選出在人工智慧領域本年度海內外最值得關注的學術與研發進展，匯聚了超過 40 位頂級人工智慧專家，帶來 9 場權威主題報告，以及「語言智能與應用論壇」、「智能金融論壇」、「人工智慧科學與藝術論壇」、「人工智慧青年論壇」4 大專題論壇，屆時將有超過 2000 位人工智慧專業人士參與。

明天大會即將開幕，掃描下方圖片中的二維碼或直接點擊鏈接火速搶票。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點