Zi 字媒體

京東618：如何運用深度學習從多個維度優化數億級別商品數據

2021/12/25

策劃｜木環編輯｜陳思近年來人工智慧成為了科技的熱潮，AlphaGo 的卓越戰績、各大科技公司蜂擁進入自動駕駛領域等消息吸引著民眾的目光。但其實嚴格意義上這些工作歸屬於同一個學科——機器學習。

人工智慧的目的是教會計算機完成現在人類做得更好的事，而機器學習可以說就是其中最重要的事情，因為它是實現人工智慧的一種方法。沒有學習，計算機就永遠無法跟上人類的步伐；有了學習，一切都與時俱進。目前機器學習成為了一個巨大的中心，通過這個中心，多個領域裡積累的經驗被建模，從而獲得更為快捷廣泛的應用。

深度學習則是一種實現機器學習的技術。其基礎人工神經網路是早期機器學習中一個重要的演算法，最初受到人類大腦生理結構中互相交叉的神經元啟發。隨著無數科研工作者的投入，目前人工神經網路已經可以達到一個極高的層數和億萬計數的神經元，在某些領域做得比人類更好，例如圍棋領域。

作為國內最大的自營電商，京東也積極應用深度學習技術在各個業務線，優化用戶體驗。本文將著重介紹京東如何運用深度學習技術去優化商品數據，構建智能的商品生態來提升多業務用戶體驗。

京東商品基礎數據主要由自營品牌錄入，第三方商家錄入，用戶反饋組成。這些數據直接被多個核心業務所使用。因此如何利用機器學習技術去保障這龐大的涉及數億商品的海量數據質量尤為關鍵。

同時商品工業屬性的主要組成部分：標題、圖片、銷售屬性、擴展屬性、類目。但是由於各種各樣的因素，例如：搶佔搜索命中的幾率，商品上架的隨意性等。商品數據存在商品類目錯誤綁定、圖片與文本屬性不一致、商品標題短語堆砌等各類問題。

為了實現對於商品數據的理解和修正，京東機器學習團隊做了很多工作。下面將從信息合規、商品圖文不一致校驗、商品類目自動識別、電商標題理解、評論知識抽取來描述這一過程。

信息合規

目前京東每天圖片增量約為 5000w 張，而文本信息增量也以 PB 計算。海量的數據難免有一些違規信息，技術專家利用機器學習演算法，訓練了色情圖片檢測模型，價格 OCR 識別模型，違禁詞語義理解模型，自適應二維碼檢測模型等實現實時的信息合規。

之前，詐騙分子利用京東圖片系統上傳圖片的功能，上傳含有非法鏈接的二維碼圖片，誘導用戶轉賬及騙取用戶賬號及密碼信息，給用戶帶來財產上的損失。利用自適應的二維碼識別技術在用戶上傳圖片的時候進行檢測，不僅能識別圖片中是否包含二維碼、條形碼，還對二維碼指向的鏈接進行分析，篩選出高危圖片，屏蔽上傳。識別準確率達到 99.9%，即使如圖所示的二維碼只佔圖片很小的比例也能精確識別。

在電商，商品促銷具備高時效性，如何保證促銷信息與商品實時價格真實匹配，提升用戶體驗是一個難題。實際過程中，許多商家經常只修改了單品頁價格，而忘記對店鋪頁上海報的商品價格進行修改，這就造成了店鋪頁價格和單品頁價格不一致的情況，直接影響到了用戶體驗。

京東基於深度學習的價格合規檢測，在商品價格變更的時候，自動對店鋪頁宣傳圖片進行理解，檢測其中是否包含活動價格，並對價格進行識別，並與單品頁價格對比，如果不一致，實時自動下架該店鋪活動頁的促銷活動，整個過程在秒級完成。在演算法上，通過不斷的迭代優化，實現了端到端的價格數字串識別系統，能夠避免傳統方法單獨字元分割過程中引入的錯誤，即使在壓縮失真、複雜背景干擾等情形下，也能夠達到很高的檢測精度。

圖文不一致校驗

圖文不一致性是由於商品圖片與商品文字描述的不一致導致的，這可能是由於圖片和某一個或者多個文本屬性衝突導致。這表明商品的基礎數據存在錯誤，通常情況下會導致搜索的錯誤，影響用戶的體驗。

舉一個簡單的例子，當我們在京東購物，搜索「男士 polo 衫純色」時，由於一些商品錯誤的文本信息導致該商品錯誤的被搜索命中，呈現給消費者。

上圖中最右下角的格紋襯衫的擴展屬性為純色。該屬性明顯與商品圖片不一致，錯誤的數據降低了搜索的準確率，但是增加了商品的曝光率。為此，我們通過自然語言理解和圖片識別技術來檢測圖文不一致現象，對錯誤數據進行修正和通知商家修改。

高精度的圖像識別技術，從商品圖片中識別商品主體並抽取商品的特徵，為文本屬性修正提供高置信度的參照。以衣服的顏色為例，描述衣服顏色的名詞數不勝數，以紅色為例，就有緋紅、桃紅、品紅、鮮紅等等。利用分詞抽取，我們獲取了近萬個顏色欄位。

很多顏色的區分度極小，即便肉眼也很難區分，對訓練數據的收集帶來了很大的困擾。同時由於光照拍攝的問題，如此細分的分類對訓練的結果也不一定有益。為此，我們首先對於顏色屬性進行歸一化，劃分出不到 20 個色系，其餘的屬性也按照類似方法進行歸一化。在準備好訓練數據后，我們採用了 52 層 resnet 殘差網路的 finetuning 實現了多種圖片特徵 95%+ 的準備率模型。後續，我們會加入我們自己的卷積網路特徵去提供準確率。

電商短文本理解 - 商品標題理解

商品的標題由采銷人員和第三方商家命名，其中自營商品的命名較為規範。商家命名時，有些標題除了有文本描述矛盾外，還出現了大量辭彙堆砌的情況。

從圖上可以看到，一個跑步鞋商品的標題上「鞋」出現了 6 次。商家如此命名是為了增加搜索、推薦等系統命中率。然而實際情況上，搜索會對於此類辭彙堆砌嚴重的標題進行降權，使得出現在搜索結果的末端。

為了解決此類問題，提升用戶對於標題的信息獲取的有效性，我們利用機器學習技術對商品標題進行一系列的處理：分詞、實體識別、屬性打標、熱度計算、中心判定，將商品標題結構化。日後商家錄入標題我們會利用模型結構化標題進行打分，對於此類辭彙堆砌嚴重的標題進行結構優化，從源頭上優化商品標題質量。

商品類目自動識別

每個電商網站都自己的商品類目定義，同時部分類目在發展過程中的拆分合併使得商品存在類目錯綁問題。目前京東有眾多的商品三級工業分類，對於商家上架商品選擇類目也是一個難題。

由於搜索、推薦、列表頁等核心業務線都調用了商品的類目屬性數據，為了降低類目錯綁對核心業務的影響，優化商家上架商品的體驗，我們對 word2vec 的 CBOW 模型進行了創新型改造，構建了 BTC 模型，並加入了 Dropout 層，改造后的模型有效避免了訓練過程中的過擬合問題，訓練精確度明顯提升。模型可根據商家錄入的標題，自動推薦所屬分類，達到了簡化商家上傳商品目的同時減輕類目監管的壓力，使得運營越來越智能化。模型架構如下圖：

返回「13818 被套」。

整個類目預測流程如下：

評論信息抽取

商城與用戶的交互對於商品的反饋是商品數據的一個重要補充。用戶的反饋主要包含商品評論，問答，退換貨等信息。京東的理念是客戶為先，因此我們對於用戶的反饋極為重視。這些信息可以直觀的展現用戶對於商品的感受和質量的反饋。我們為此構建了多類語義理解模型，利用用戶反饋，實現選品、商品質控等。下面我們選擇評論的信息抽取著重介紹。

用戶在購買商品時，之前用戶的評論對用戶的購買意願有極強的影響力。但是在用戶海量的評論中存在大量的無意義評論，這就影響到用戶獲取有效的信息。為此我們通過語言模型，對評論語句打分，將沒有實質意義的評論摺疊在評論最後。

此外我們會從評論中抽取關鍵詞短語，通過對於短語與短語之間相似度的計算，聚合出出現頻次最高的短語及相應的評論內容，展現給用戶。此外我們還會分析用戶評論的情感，真實展現負向情感關鍵詞，給用戶獲得一個直觀的產品描述，誠信對待消費者。

我們採用了無監督與有監督結合的方式構建關鍵詞抽取模型，在模型設計中，首先考慮到單獨的辭彙表達能力有限，不能滿足業務需求，比如「聲音」、「顏色」、「外觀設計」等，而我們更需要的是，「聲音大」，「顏色艷麗」，「外觀設計時尚大方」等，所以採用了短語向量訓練。然後根據業務其他需求加入了語言模型，情感模型，功能詞模型等，最終取得不錯的成果。我們的模型實現了定期自動更新。

模型會自動把你提交的評論做以上相關分析與處理，返回對應 top 關鍵詞。結果示例：

結語：構建高可用商品知識圖譜，營造智慧商家生態

在對商品數據各個維度（標題、銷售屬性、擴展屬性、評論、問答等）完成數據校驗和知識抽取的工作，我們利用這些豐富的商品信息構建了一個商品的知識庫供核心業務去調用，解除了原有業務系統上的數據枷鎖。同時自然語言理解演算法模型被封裝成一個一個服務去規範商品錄入的過程，引導商家健康運營，共同打造良好的商家生態。

作者介紹

劉海鋒，京東商城總架構師，基礎平台負責人。歷任京東第一屆架構委員會主任、2016 年京東 6.18 和 11.11 大促技術執行總指揮之一。在京東，劉海鋒領導團隊持續建設容器集群、中間件、資料庫、圖片系統、分散式存儲、機器學習、應用架構與運維等技術方向。在其帶領下，京東商城研發體系基礎平台部專註於技術服務建設，自主研發了一系列核心繫統並大規模應用至生產環境，有力驅動了京東業務發展。劉海鋒於科技大學計算機系獲得學士與碩士學位，曾經就職於百度等公司。

今日薦號

AI 前線

報道最前沿客觀的 AI 資訊，分享最高效實用的 AI 技術，有態度，有內容，歡迎關注 AI 前線！

微信ID:ai-front

如果你想知道未來的架構如何發展，推薦一場匯聚國內外頂尖架構師的線下會議：ArchSummit 全球架構師峰會，從大數據框架到移動輕應用，從低延遲架構設計到人工智慧落地，這裡只談最優秀的架構實踐。大會將於 7 月 7 日深圳開幕，目前 9 折最後一周，點擊「閱讀原文」，看看對你有何啟發？

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點