search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

如何識別陌生來電是不是電信詐騙,國務院反詐平台這樣說

你滴鵝幾在我手上,嫖娼被抓的,你看要不要打點關係疏通一下?

好的,請你轉告他,本爸爸不要他了。

這個不好玩?再來一個:

【圖片來源:山東商報】

雖然,面臨騙子的簡訊和詐騙電話,搞一出「反調戲」看上去大快人心,但是像雷鋒網宅客頻道編輯這種被人懟了,十分鐘之後才能想出懟回去的話的人,要想出如此機智回復,實在有心無力。還有那些可能連騙局都無法識破的人,他們如何面對套路深的世界?

還好,想必你以前體驗過,手機可能會自帶一款軟體或者你安裝了一些軟體,可以自動識別一些電信詐騙電話。

為什麼一個陌生來電能被這些軟體識破?雷鋒網特地請教了國務院聯席辦錢盾反詐平台的專家——阿里巴巴集團安全部的兩位安全工程師:李裕宏和侯冬梅。

[李裕宏和侯冬梅]

李裕宏擅長進行時間序列的數據挖掘,比如股票、心電圖以及走路的軌跡等,當年,他曾開創一個演算法模式比國外的大拿教授的模式提速了10-1000倍。在微軟研究院實習時,又進行過位置和軌跡的相關研究。

侯冬梅則對數據應用、大數據及機器學習感興趣,目前負責欺詐電話的相關數據及演算法研究。

他們對三個月內的 10 億通電話進行了研究,共同產出的惡意電話識別論文「DeMalC: A Feature-rich Machine Learning Framework for Malicious Call Detection」 被機器學習的頂級會議CIKM 2017收錄,2017年工業界能被這個會議收錄的論文在全球範圍內僅有 24 篇。

雷鋒網編輯在 8 月底提前閱讀了這篇本該在11月發布的論文,發現兩人提出了 11 個能夠辨別一個陌生來電是否為惡意電話的維度。出於保密及降低對抗幾率的緣故,李裕宏和侯冬梅在此只介紹了 7個維度。

發現「騙子」的 7 個指標

為了防止惡意號碼的侵擾,一般有兩類方案:基於用戶打標的黑名單;利用機器學習演算法對號碼進行風險打分。

第一種方案需要全民安裝反欺詐軟體,且及時、準確地彙報惡意號碼的標籤;第二種方案則需要系統能夠抽取一堆具有區分度的特徵用於模型的訓練。

李裕宏和侯冬梅認為,因為數據缺失且不均衡、有限且懶散的用戶,以及不可信任的用戶標籤、無時不在的對抗,惡意號碼的檢測依然具有非常大的挑戰性。

因此,他們在該論文中提出了一個 DeMalC 系統,對惡意號碼進行檢測。DeMalC系統主要包含兩步:第一,利用特徵工程對號碼進行多維度、全方位的畫像;第二,基於號碼畫像,利用機器學習的演算法計算每個號碼的風險分,最終給出號碼的標籤建議。

用通俗的話來說,就是先找出一個嫌疑人,然後再與一些證據進行比對,判斷嫌疑人是否為真的「罪犯」。

機器學習演算法取得成功的一個重要因素就是挑選出來的特徵在正負樣本中具有足夠的區分度,因此, 在 DeMalC 系統中,李裕宏和侯冬梅提取了號碼的 7 大維度的特徵,包括弧碼屬性、通話頻次、通話時長、號碼活躍度、空間分佈、設備分佈以及歷史通話號碼間的社交關係。

1.號碼屬性有三部分:類型、運營商、歸屬地,屬性本身不會隨著號碼發生變化。但是,屬性可以把號碼切成很多空間,比如,北京的固話,是哪個運營商的(運營商不止是三大運營商)。電話號碼可以分成一小塊一小塊的,每一小塊的欺詐的方式可能都不大一樣。

2.一個號碼在過去三個月呼入呼出的頻次,還有呼入呼出的比例。

李裕宏說:「呼入或呼出的單一比例佔比特別大,可能是個問題。第一,可能這個電話號碼是放在惡意網頁上,誘騙人們撥打,這樣呼入比例特別高;第二,主動實施電信詐騙的呼出率比較高。」

3.一個電話打進來,你有沒有接通代表了你的態度,通話時長更代表你對這個電話的態度。

按照雷鋒網編輯的個人經歷,陌生電話打進來,如果是推銷,或者一聽就是匪夷所思的電話,一般會立馬掛掉。

據李裕宏介紹,一個讓人哭笑不得的案例是,據說,電信詐騙人員手中也有一份名錄,如果一個詐騙電話打進來,你接了很久還捨不得放下,那麼接下來你收到詐騙電話的幾率更高——騙子覺得,接到電信詐騙電話后,通話時間更長的用戶更是潛在受害者。

叫你喜歡嘮嗑。

4.號碼活躍度。一個正常號碼每天撥打頻率不會太高,如果一些號碼利用率很高,看上去又是正常號碼,就需要根據其它維度區分。比如,外賣、推銷小哥打電話的頻率很高,還有膩歪的異地戀小情侶。

5. 一個號碼撥打過多少城市也是特徵之一。撥打到這些城市后,在這些城市的分佈是怎樣的?比如,一個號碼撥打了全國 33 個城市,但在這些城市的撥打次數平均分佈,與撥打了 33 個城市,但是集中在北京,這兩種情況是不一樣的。

6. 呼叫了 100 通電話,撥打給一個設備和撥打給一百個設備是不一樣的,記錄設備的 ID,研究到底一個號碼給多少不同設備撥打了電話。

7. 一個號碼撥打給幾個人,但是,這幾個人之間沒有任何關係,這不是很奇怪嗎?所以,需要指標計算這個號碼撥打出去的設備之間聯繫強不強。

侯冬梅稱,在此基礎上,一些用戶通過軟體反饋,給陌生來電貼上標籤,以及收集合作方提供的數據和標籤,建立一個分類器,對尚未打標籤的號碼進行標記,然後就可以對一些陌生來電進行在線甄別,推送提醒。

以錢盾的內部系統為例,此前舉報三次后,才能認定這個號碼是一個欺詐號碼,現在只要到接入到這個模型,可能用戶舉報一次,這個模型又判斷它是高風險號碼,就可以給用戶推送提醒,不需要再等用戶打足夠多與精準的標籤。

這樣解釋看上去很簡單,但還是有一股腦的問題需要回答。

怎樣不會誤判

雷鋒網():有人給長相打分,而你們根據七個維度給這個號碼打分?

李裕宏:會的,我們根據這七個緯度的特徵對用戶的風險程度打分,打了分以後,我們會再結合用戶的舉報次數。因為我們的用戶是不能覆蓋全,而且用戶有一定惰性,你接到欺詐號碼,不一定願意幫我們舉報。

實際上,我們正在做這方面的激勵機制,讓用戶更好地參與到這個過程來,幫我們做惡意號碼的舉報,但是這塊還是有一定局限性,用戶本身有一定延遲,甚至有一些人不願意舉報。比如,這個號碼現在只收集到一個用戶的打標,用戶只舉報了一次,我們不是很確定地說他舉報的是不是真的電話詐騙號碼。因為又一些意外的情況:今天有個朋友打電話給你,你對他有點不爽(雷鋒網編輯註:尤其是正在生氣的女朋友,可能一言不合就舉報拉黑),或者運營商打電話給你,干擾了你,你可能會用工具打標成欺詐號碼。

我們結合號碼行為的打分情況,做一個綜合模型,這樣,可以讓標註情況提早生效。

雷鋒網:你們會不會誤傷外賣小哥這類人群,人家每天都要給很多人打電話,他們共同的聯繫可能只有「懶」吧?

李裕宏:外賣小哥在中午、傍晚、深夜等時段打電話的頻率較高,這是他「固定」打電話的一個方法,我們會根據這個特別的曲線來刻畫和區分。

雷鋒網:你們還有什麼輔助措施可以防止誤判嗎?

侯冬梅:欺詐方面的數據和我們的電商數據重合度確實不是特別高,但是信用好的用戶是重合度蠻高的,這樣我們就不會攔截。

李裕宏:電商行業的數據某種程度上能幫我們更好地提供服務,因為我們有很大的用戶量,他們在電商上的行為我們都知道,某種程度上我們可以刻畫哪些人是好人,但是壞人有很多種,這個比較難區分。

雷鋒網:錢盾對於用戶只是提醒嗎?能滅了這個電話嗎?

侯冬梅:確定在詐騙的黑名單上,我們是直接攔截的,沒有犯過案、沒有給用戶造成過傷害的一些騷擾電話,我們則是提醒。如果用戶設置了攔截騷擾,我們也是直接攔截的。

雷鋒網:道高一尺,魔高一丈,你們這麼攔截,電詐就沒什麼對抗措施嗎?

侯冬梅:對抗的方式有很多,比如說現在的改號軟體,現在我們這個模型沒有辦法去對抗,但是我們也有一些專門的安全團隊進行對抗,包括 IP 或者是修改設備號,或者是試圖修改設備號,我們有專門的方法。

一個有趣的拉黑故事

雷鋒網:你自己有接到過電信詐騙電話嗎?

李裕宏:有的,有次我和同事買了同一批打折的東西,結果接到了同一個詐騙電話。

雷鋒網:那你是怎麼處理的?

李裕宏:我很興奮地跟他聊了好久,因為我就是做這個事的,我很想知道他欺詐的手段,也想看看我們錢盾在未來有沒有可能把它檢測出來。

雷鋒網:當時還沒有檢測到?

李裕宏:這個號碼是剛用來做的,所以我們把這個模型結合上用戶的打標,我們想更快的讓這個號碼生效,如果我們一直在等著用戶打標的話,可能得過三四個禮拜。如果結合他的行為、用戶的舉報可能就能生效了,所以我當時一直在看欺詐的模式,我們系統內部可以追蹤到這個號碼,也可以進一步確認。

記者:這個號碼最後怎麼樣?

李裕宏:我舉報他了。

雷鋒網:但你只是一個人。

李裕宏:我只是一個人舉報他,之前不是說我們內部也有一個同事收到同一個電話了嘛,他也舉報了。

雷鋒網:你們只有兩個人,按道理要打標三次才符合模型嘛……

李裕宏:那我直接把它拖到資料庫吧哈哈哈哈。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦