機器學習的能與不能

2021/12/25

技術產業一直以來都有炒作問題，永遠關注「下一個神器」，永遠吵嚷喧囂著世界將會產生怎樣的天翻地覆。追逐熱點是廠商的天性，當他們在自己認為的成長市場上搶佔地盤的時候，一個又一個海口被不斷誇下。

2016新興技術成熟度曲線上，Gartner將機器學習放在了「期望膨脹期」頂峰位置。該曲線的下一個部分，通常來講，就是「幻想破滅期」了。期望到底能幻滅到何種程度，還有待觀察。

很容易看出機器學習在安全領域被過度炒作的原因。隨著攻擊者複雜性穩步上升，隨著越來越多的高端技術被引入攻擊方法，召喚異常快速而有力的機器智能來查找並阻擋威脅，似乎是個絕頂美妙的主意。

但是，誇大安全技術的能力和有效性是十分危險的。聽信不實宣傳的公司，有可能產生一種虛假的安全自信，反而淪為攻擊受害者。而且這種案例還會對安全業其他同行的信譽也添上污名。

炒作問題的根源，在於安全廠商運作的方式。

為了擴大市場份額，很多廠商都會什麼好賣賣什麼，產品有沒有用倒未必會在考慮之列，而且，誤導性的市場營銷還真不少見。他們的激情更多地放在了賺錢上，至於在攻擊性和防禦性安全中間平衡的問題，需要考慮嗎？

另一個所有技術領域裡都很常見的長期性問題，就是廠商可以利用其對解決方案的複雜性更為熟悉和專業這一優勢。

極少有高管對機器學習操作原理有深入認知，即便IT主管裡面也沒幾個清楚的，但他們肯定都知道這個術語——這得感謝不停洗腦的各路媒體。再加上機器學習的複雜性，炒作起來就更容易把機器學習當成治癒所有威脅的神奇萬靈丹了。

機器學習的優勢與劣勢

炒作問題暫且不談，機器學習確實在安全方面起著重要的作用——只要能將它應用在最適宜的問題上，且其短板能被補足。

機器學習是個很多元的學科，但基本上歸結於程序從數據中學習，最終做出預測或者發現信息——在沒有被明確的預設規則的情況下。

這一能力在安全上有多種可能性，但最受關注的兩大領域，就是反病毒和用戶及實體行為分析(UEBA)。

在反病毒軟體領域，相比傳統解決方案只靠病毒特徵碼查殺，機器學習的惡意軟體發現方式與之大為不同。而UEBA尋求建立用戶和機器的正常行為基準線，偏離該基線的異常活動即可能是惡意行為。

我們還可以期待機器學習大放異彩的一個領域，就是惡意軟體新變體的檢測，比如Andromeda系列惡意軟體。

只要機器學習模型經由大量Andromeda家族惡意軟體樣例訓練，便能精於發現新版本中一脈相承的特徵。惡意軟體作者必須投入大量精力才能繞過該模式。

當然，機器學習模型訓練不是那麼容易的事，但面對層出不窮的新變體，機器學習還是能比傳統特徵碼方式提供更好的檢測。

相較之下，機器學習可能無法滿足人們預期的一個方面，在於對合法軟體惡意使用的檢測，比如SSH客戶端或埠掃描器的惡意使用。

因為不是什麼特別的惡意軟體，而且是系統管理員的常用工具，這些軟體通常會被歸類為良性的。讓機器學習模型來判斷操作者行為背後的意圖是善是惡，明顯有點超出所能了。

針對性攻擊中所用的定製軟體也是個大問題。如果該惡意軟體是前所未見的全新款，必然就沒有什麼代表性樣本供機器學習演算法訓練。作為未知軟體，相對預期模型，仍有可能被標記為異常。

然而，現實世界中的很多合法軟體也往往是全新的。於是，讓解決方案一看到異常就阻止，必然會引發大混亂。另外，高級攻擊者會採用各種特殊方法來確保自己的惡意軟體被歸類成良性，就像他們繞過傳統反病毒軟體採用的病毒特徵碼一樣。

對於UEBA方法，我們通常期望，隨著時間的推移，能對來自網路和日誌源的各類數據流建模，然後標識出偏離正常值的指標，揪出內部偵察行為、橫向移動或數據滲漏活動。

一般不連接互聯網的資料庫伺服器突然傳輸了500GB信息，就是高度異常的行為。類似的，管理服務賬戶從不常操作的主機登錄大量系統，也是被盜憑證用於橫向移動的明顯標誌。

但是，也有其他相對複雜的情況。比如擊鍵記錄和特定用戶終端上的敏感文檔盜竊。這些行為都令人擔憂，但又可能涉及處於正常範圍內的數據量。

惡意軟體在同一個子網裡各工作站之間的橫向移動也是個問題。但有可能因為網路感測器覆蓋沒有那麼深入，日誌源只從關鍵伺服器而不是全體終端資產上收集，而導致此類行為不可見。

C2通道也可能利用非常常見且合法的服務，比如雲即時消息服務。而且，用戶並非完全可預測的，很可能以之前沒用過的方式訪問系統或服務，而這些都是完全良性的。

這些案例充分標識出了機器學習的三大盲點：

克服短板——人類干預

最重要的一課在於，企業網路通常都是極不規則的環境——異常太多，以致誤報成常態，而真正的惡意行為卻能偽裝潛伏在看起來正常的行為中。

為克服該短板，機器學習需要結合人類的專業技能。技術高超訓練精良的團隊，可以恰當地解讀和調查機器學習的發現。多年的攻擊檢測與阻止經驗，意味著高級安全團隊能夠識別更細微的惡意入侵跡象，不放任入侵行為混在正常行為里瞞天過海。

另外，必須認識到，機器學習方法也僅僅是分析技術中的一種，也有自己的優勢和弱點，而一個有效的攻擊檢測系統，需要多種不同技術相輔相成。

機器學習炒作尚需一定時間才能平息，公司企業必須警惕任何將機器學習產品當做萬靈丹兜售的廠商。機器學習演算法能提供強勁的分析速度和廣度，但僅能保證在特定場景中的安全，限制頗多。

但，只要應用在正確的問題上，再結合足夠的人類經驗和其他分析方法，機器學習就是直面網路攻擊威脅的強力工具。