Zi 字媒體

阿里億級別黑科技升級：徹底摧毀假貨

2021/12/25

yidianzixun

雷鋒網AI科技評論按：阿里知識圖譜每天都在保持著千萬級別的攔截量，億級別的全量智能審核次數，在濫發、侵權、合規、假貨、經營範圍等多個場景全面與問題賣家正面交鋒，實時對弈，最大限度地保護知識產權，保護消費者權益。

什麼是知識圖譜？

在互聯網時代，搜索引擎是人們在線獲取信息和知識的重要工具。當用戶輸入一個查詢詞，搜索引擎會反饋它認為與這個關鍵詞最相關的網頁。

直到2012年5月，搜索引擎巨頭谷歌在它的搜索頁面中首次引入「知識圖譜」：用戶除了得到搜索網頁鏈接外，還將看到與查詢詞有關的更加智能化的答案。

從雜亂的網頁到結構化的實體知識，搜索引擎利用知識圖譜能夠為用戶提供更具條理的信息，甚至順著知識圖譜可以探索更深入、廣泛和完整的知識體系，讓用戶發現他們意想不到的知識。谷歌高級副總裁艾米特·辛格博士一語道破知識圖譜的重要意義所在：「構成這個世界的是實體（things），而非字元串（not strings）」。

阿里知識圖譜

阿里的主要業務是電商。它的知識圖譜以商品、標準產品、標準品牌、標準條碼、標準分類為核心，利用實體識別、實體鏈指和語義分析技術，整合關聯了例如輿情、百科、國家行業標準等9大類一級本體，包含了百億級別的三元組，形成了巨大的知識網。

這些海量的數據來源於淘寶、天貓、1688、AliExpress等多個市場，同時品牌商、行業運營、治理運營、消費者、國家機構、物流商等多種角色參與其中，貢獻著、校正著這樣一個龐大的商品庫。

這個知識圖譜對無論是知識產權保護，還是提升消費者購物體驗，實現商品數據的標準化（商品規範的統一和商品信息的確定性）, 以及與內外部數據之間的深度互聯，意義都非常重大。

比如商品標準化可以讓我們知道哪些商品是同樣一件產品，我們才能確切地知道一個品牌是否被授權，品牌下的產品賣到了哪些市場。

阿里知識圖譜運用

阿里的商品知識圖譜廣泛地應用於搜索、前端導購、平台治理、智能問答、品牌商運營等核心、創新業務。其中最明顯的應用之一體現在阿里電商平台的管控上。

過去只能通過人工「巡檢」來對商品發布進行審核，而現在面對海量的商品發布量，「巡檢」模式顯然已不太現實。阿里知識圖譜就像一張過濾網，最大可能地藉助大數據、人工智慧阻止不良商家、問題商品進入阿里生態。

面臨問題商家實時的對弈、變異和惡意攻擊等諸多挑戰，阿里知識圖譜可以保持每天千萬級別的攔截量，億級別的全量智能審核次數，在濫發、侵權、合規、假貨、經營範圍等多個場景全面與問題賣家正面交鋒，實時對弈。

以下內容來自阿里技術

為了最大限度地保護知識產權，保護消費者權益，阿里知識圖譜團隊對知識圖譜推理引擎技術提出了智能化、自學習、毫秒級響應、可解釋等更高地技術要求。

張偉（花名：覽圖）博士, 阿里巴巴知識圖譜團隊負責人

引入機器學習演算法搭建推理引擎

阿里知識圖譜研究團隊設計了一套框架來實現知識表示和推理。此外：知識圖譜實體、關係、詞林（同義詞、上下位詞）、垂直知識圖譜(例如地理位置圖譜、材質圖譜)、機器學習演算法模型等都納入進來做統一的描述。

按照不同場景把推理分為：上下位和等價推理；不一致性推理；知識發現推理；本體概念推理等。例如

1、上下位和等價推理。

檢索父類時，通過上下位推理把子類的對象召回，同時利用等價推理（實體的同義詞、變異詞、同款模型等），擴大召回。

例如，為保護消費者我們需要攔截「產地為某核污染區域的食品」，推理引擎翻譯為「找到產地為該區域，且屬性項與「產地」同義，屬性值是該區域下位實體的食品，以及與命中的食品是同款的食品」。

2、不一致推理。

在與問題賣家對弈過程中，我們需要對商品標題、屬性、圖片、商品資質、賣家資質中的品牌、材質、成分等基礎信息，做一致性校驗。

比如說標題中的品牌是Nike而屬性或者吊牌中品牌是Nake，如下圖所示，左邊描述了商品標題、屬性、吊牌上的品牌信息是一致的，推理為一致。右邊為吊牌和商品品牌不一致的商品，被推理引擎判斷為有問題的商品。

3、知識發現推理。

一致性推理的目的是確保信息的確定性，例如通過一致性推理我們能確保數據覆蓋到的食品配料表正確。

但消費者購物時很少看配料表那些繁雜的數字。消費者真正關心的是無糖、無鹽等強感知的知識點。為了提高消費者購物體驗，知識發現推理通過底層配料表數據和國家行業標準例如：

無糖：碳水化合物≤ 0.5 g /100 g（固體）或100 mL（液體）

無鹽：鈉≤5mg /100 g 或100 mL

可以把配料表數據轉化為「無糖」「無鹽」等知識點。從而真正地把數據變成了知識。通過AB test驗證，類似知識點在前端導購中極大地改善了消費者購物體驗。

推理引擎背後技術框架

首先，推理引擎把自然語言通過語義解析(semantic parsing)轉換為邏輯表達式(logical form)。

語義解析採用了結合神經網路和符號邏輯執行的方式：自然語言經過句法、語法分析、 NER、 Entity Linking，被編碼為分散式表示(distributed representation)，句子的分散式表示被進一步轉義為邏輯表達式。

在分散式表示轉換為邏輯表達式的過程中，首先面臨表示和謂詞邏輯(predicate)操作之間映射的問題。我們把謂詞當做動作，通過訓練執行symbolicoperation，類似neural programmer中利用attention機制選擇合適的操作，即選擇最有可能的謂詞操作，最後根據分析的句法等把謂詞操作拼接為可能的邏輯表達式，再把邏輯表達式轉換為查詢等。過程示意如下圖所示。

其次，邏輯表達式會觸發後續的邏輯推理和圖推理。邏輯表達式在設計過程中遵循以下幾個原則：邏輯表達式接近人的自然語言，同時便於機器和人的理解。表達能力滿足知識圖譜數據、知識表示的要求。

應該易於擴展，能夠非常方便的增加新的類、實體和關係，能夠支持多種邏輯語言和體系，如Datalog、OWL等，即這些語言及其背後的演算法模塊是可插拔的，通過可插拔的功能，推理引擎有能力描述不同的邏輯體系。

以上下位和等價推理為例：「產地為的食品」，」

此外，推理引擎還用於知識庫自動補全。是基於embedding做知識庫補全。主要思路是把知識庫中的結構信息等加入embedding，考慮了Trans系列的特徵，還包括邊、相鄰點、路徑、實體的文本描述 (如詳情)、圖片等特徵，用於新關係的預測和補全。

雷鋒網小結：以上就是關於阿里知識圖譜團隊以及業務介紹。這個團隊已成立三年，目前已經形成了巨大的知識圖譜和海量的標準數據，同時與浙江大學陳華鈞教授團隊成立聯合項目組，引入了前沿的自然語言處理、知識表示和邏輯推理技術。相信以後人們通過電商買到假貨的概率會越來越低。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點