Zi 字媒體

業內認可！肺結節檢測技術進入人工智慧時代

2021/12/25

無論男性還是女性，肺癌的致死數都是所有癌症中最高的。據統計2016年美國因肺癌去世的病人佔總癌症致死病例的27%。早期篩查是降低死亡率的重要手段。然而由於早期肺癌病人一般缺乏明顯臨床癥狀，也無特異的生物標記物，因此目前篩查的主要方法是通過放射影像檢查肺部是否存在可疑病灶。

胸部放射影像技術中最常用的包括x射線胸透或者CT胸腔檢查。相對於x射線胸透的扁平二維圖片，CT可以提供胸腔的三維信息，因此其篩查的準確率遠高於x射線。

低劑量CT掃描法因為其掃描速度快（平均操作時間每位被檢測人員不超過1分鐘）、費用低、放射劑量小，非常適合年度體檢。美國一項持續多年的全國肺部篩查研究（National Lung Screening Trial）顯示，每年使用低劑量CT對高危人群（年紀較大、有吸煙史或者家族病史的人群）進行胸部體檢，7年內肺癌死亡率比用普通胸透檢查的人群低20%。

因為低劑量CT掃描的優秀篩查效果，這一篩查在美國已逐漸成為常規體檢項目，相信其他的國家也會逐漸推廣應用這一方法。

推廣這種篩查工作的一個主要障礙是CT影像診斷的巨大工作量。早期肺癌的多表現為肺部結節，它們尺寸小、對比度低、形狀異質化高，因此篩查工作是由影像科專家人工讀片完成。但是每位被檢者的胸腔CT圖像至少有100多張，精細級的掃描甚至多達600張，所以隨著體檢人數的快速增長，人工處理的方法越來越難以勝任此項任務。

方法：三個步驟

在過去的十多年裡，多種針對肺部結節CT篩查的計算機輔助診斷（CAD）系統被開發出來，其中公開的有代表性的系統有：ISICAD，SubsolidCAD，LargeCAD，ETROCAD等。這些CAD系統通常包含三個步驟：1、數據影像預處理；2、建立疑似結節集；3、降低疑似集的誤報。

步驟1的任務是將輸入影像標準化，固定圖像解析度和層間距；劃分其中肺部組織，裁除其它組織區域；降低數據噪音。步驟2的任務是使用各種演算法，儘可能多的挑出影像里所有結節區域。這個步驟為了增強演算法對結節的敏感性，一般對誤報率不做嚴格要求。步驟3的目標是在上步生成的疑似集中儘可能剔除非結節情況，降低系統的假陽性誤報率。各步驟的主要方法介紹如下：

影像預處理

此步驟各CAD系統採用的預處理步驟基本一致，它包括這幾項任務：

a. 將符合要求的CT數據文件(一般為DICOM文件)導入系統，拒絕格式不對或者掃描層出現斷檔的數據；

b. 將數據轉為CT信號的標準亨氏單位；

c. 調節層間距，保證各像素的真實物理間隔（毫米單位）一致；

d. 劃分肺部區域、將非肺部區域數值剔除在外，防止這些區域產生噪音信號。

經過這些處理，系統將會獲得一套乾淨的輸入數據。

建立疑似結節集

各CAD系統對疑似結節的判斷方法各不相同。常用的方法有以下幾種：

1. ISICAD：此系統用到的識別方法由Murphy K.等人設計的（doi:10.1016/j.media.2009.07.001）。他們定義了兩個結節相關指標，形狀指標（Shape Index, SI）和曲度指標（Curvedness, CI）。

通過計算每層CT影像的SI和CI，並設立閾值篩選之，系統可以獲得「種子」疑似區域。再合併距離接近的「種子」區域，系統建立了完整的疑似結節集。

2. SubSolidCAD：此系統主要針對半固態的肺結節。半固態結節出現機會較少，但是它們更有可能是惡性病變，所以此類結節不能漏報。Jacobs C.等人（doi:10.1016/j.media.2013.12.001）設計了雙層閾值篩選-750到-300亨氏單位之間的密度塊。為了避免邊界效應的影像，系統使用視覺演算法將這些效應消除。最後系統剔除總體積小於33mm3的疑似區域，因為這些小結節危險性很小，一般無需患者回訪。

3. LargeCAD：此系統主要針對較大的結節，直徑大於10毫米的結節無法通過上面兩種方法發現。針對這種結節，Setio A.等人（doi:10.1118/1.4929562）設置-300亨氏單位的閾值，並使用多種機器視覺演算法處理圖像，將相連的疑似區域合併，最後輸出所有直徑在8-40間的待選區域為疑似區域。

4. ETROCAD：此系統對連接血管壁或者胸腔壁的結節組織識別效果明顯，由Tan M.等人設計（doi:10.1118/1.3633941）。不同於獨立的結節，血管壁或者胸腔壁旁的結節組織形狀多樣，上述幾種方法識別率不高。此系統設計了兩套濾鏡演算法，可以增強結節組織和血管壁（胸腔壁），同計算增強后的影像與原影像的差度，並採用適當的閾值，可以定位結節組織的中心位置。最後將中心位置就近融合，得到所有疑似區域。

上述幾個檢測系統都是基於傳統的機器視覺演算法，隨著人工智慧的廣泛應用，以深度卷積網路為代表的人工智慧演算法也陸續出現，代表有ReCTnet和ZNET。檢測方法如下：

5. ReCTnet：由Ypsilantis P.等人設計的一種融合深度學習領域裡的兩種最重要的網路結構——卷積網路和循環網路的方法（arXiv:1609.09143v2），這樣既可以學習每張影像圖的內部特徵，也可以學習各層圖像間的順序特徵。作者先用卷積神經網路訓練可以區分一層影像的子區域，是否包含結節的分類器，再結合CT影像的上下鄰接層，用循環網路優化此分類器。

診斷時，整套CT影像送入系統，訓練好的分類器遍歷每層影像的每塊子區域，計算區域含有結節的概率，得到三維概率地圖。最終設置合適的閾值，將三維地圖中的高危區域輸出。即使不經過後續削減陽性誤報的操作，此系統已經達到90%的敏感度和每套CT有4.5次誤報率的水平。

6. ZNET：此系統基於Ronneberger O.等人設計U-Net（doi:10.1007/978-3-319-24574-4_28）。U-Net是一種像素級圖像分割的深度卷積網路，比較適用於生物、醫學影像方面。此ZNET系統採用U-Net輸出的各像素是否屬於結節的概率，構建每層CT影像的像素概率地圖，並選取合適的閾值，將其中的高危區域劃分出來。再通過機器視覺演算法，將各區域合併，輸出最終的疑似區域集。

降低疑似集的誤報

如果說在肺結節的發現領域，人工智慧與傳統的機器視覺演算法的敏感度不相高下的話，在結節假陽性的剔除領域，現在已經完全是人工智慧的天下了。傳統的模式識別方法對形狀多變、類似體多的中小結節的選擇性能力十分有限。代表性的人工智慧演算法如下一些：

1. CUMedVis：由香港中文大學的Dou Q.等人設計的3維深度卷積神經網路（doi:10.1109/TBME.2016.2613502)。對比相應的2維CNN，3維CNN可以整合更豐富的空間信息，通過其自身的分級結構提煉出更有代表性的隱含特徵。作者採用三種不同的3維CNN結構框架，它們的輸入大小和內部結構各自不同，處理立體CT影像數據。使用這三種網路處理CT影像中的同一空間區域，計算得出此區域包含肺結節的概率結果P1、P2、P3，並用簡單的線性組合P=30%*P1+40*P2+30%*P3計算此區域是否包含肺結節的最終概率P。設置閾值，當概率p小於閾值時，判斷為假陽性。作者的方法解決了影像中肺結節自身差異大、類似體多帶來的挑戰。

2. DIAG CONVNET：由Setio A.等人設計（doi:10.1109/TMI.2016.2536809）的多角度二維深度卷積網路。對於疑似區域集里的每一個待篩區域，從長寬高三個方向獲取其50x50mm的子圖像，以及它們各自前後相鄰的各兩片大小相等的子圖像，共9張圖。對應每張圖，應用二維深度卷積網路進行特徵提取，再全連接降維至16個特徵，最後模型基於張子圖的共144個特徵進行分類，得出區域包含結節的概率。設置閾值，當概率p小於閾值時，判斷為假陽性。

3. CADIMI：由Bel T.等人設計（暫無論文發表）。對於每一個疑似區域的中心，從每個維度方向上各取前中后三張子圖，作為一張影像圖片的三個通道輸入並訓練深度神經網路。在評測時，取測試層及臨近四層共5層（並少量位移，以對其中心）同時計算其包含結節的概率，計算5次平均值為最終概率。同樣設置閾值，當概率p小於閾值時，判斷為假陽性。

除了上述3種，前一步驟介紹過的ReCTnet和ZNET也是假陽性檢測方法。因為人工智慧自身特性，發現結節的方法就是計算此區域為結節的概率，所以發現與篩選的結果是同步生成的。

展望：向多模型整合方向發展，人工智慧大幅提高準確度

為提升系統的檢測能力，肺結節輔助診斷系統將會向著多模型整合的方向發展，例如在建立疑似集的步驟，簡單的合併幾種演算法結果的操作就可以增加系統對各類型結節的敏感度。因為每一種模型都有自己的適用範圍，合併在一起可以增加綜合適用範圍。

但是對於假陽性篩選步驟來說，多模型結果的簡單合併或者平均操作不一定能增加模型的選擇性，需要通過一套方法評判各模型在各種條件下的選擇能力，確立其各自的適用條件，才能更好的降低假陽性率。

此外，隨著人工智慧演算法的飛速發展，越來越多的優秀演算法正在被開發出來，可以提高已有方法的準確度。例如前文提及的CUMedVis方法，其作者在兩個月後報道將模型中的神經網路改進為殘差神經網路，將最後的假陽性檢測成功率又提高了2個百分點。

最後，人工智慧模型的訓練將會逐漸實現從需要標註病灶區域的強監督學習，到僅基於標註診斷結果的弱監督學習。Kaggle網站正在舉辦的相關競賽，競賽訓練數據集的標註已經不再給出病變區域，而只是簡單的標註每張CT對應的檢測人員是否真的患有肺癌。

人工智慧模型從CT影像數據中自行學習影像與臨床肺癌診斷的關聯。這樣的弱標註數據人力消耗很少，非常適合大數據訓練集的製作。與圍棋中的AlphaGo類似，只有經過大量數據訓練過的人工智慧模型才具有出類拔萃的檢測能力，真正在臨床診斷中發揮作用，造福人類健康事業。

作者簡介：陶進，浙江大學藥學院信息所的特聘研究員，也是杭州大唯信息科技有限公司的創始人。大唯公司成立於2016年，專業從事將人工智慧應用到醫學影像分析方向。目前公司主要的開發項目是胸部體檢影像（包括x射線胸透和CT影像）的計算機輔助診斷系統，目標是盡量將體檢案例分類，將明顯正常或者病變的案例篩選出來，這樣影像科專業人員可以集中精力負責剩下的複雜案例。隨著演算法的不斷提高，人工智慧系統可以輔助決策的案例種類不斷增加，需要專業人士解讀的影像逐漸減少，整個影像診斷工作的速度可以得到極大的提高。

盯！最熱的醫藥資訊請保持關注「桃花島科技」

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點