Zi 字媒體

企業大數據挖掘：為員工構建職場知識圖譜

2021/12/25

微軟亞洲研究院有一位大名鼎鼎的個人助理，昵稱EDI （音同Eddie），從幫助員工預訂會議室到更新梳理公司內部「八卦」信息，隨叫隨到全年無休；不僅如此，EDI對員工們的喜好也堪稱了如指掌，知道你最喜歡什麼時候、最常在哪裡開會，也知道你最關心哪些新聞。這份體貼贏得了越來越多員工的信任和喜愛，目前在研究院中已經有超過一半的會議是由EDI來安排——是的，你沒猜錯，EDI是人工智慧。

職場知識圖譜

「EDI為何如此聰明？」

一方面，EDI擁有精準的自然語言理解和對話能力；另一方面，利用深度學習和社交網路融合等前沿技術，EDI為每個用戶構建了一張關於他們的職場知識圖譜。本文首先介紹如何構建用戶的職場信息圖譜，這是EDI個人助理的「大腦」，後續文章將介紹如何賦予EDI自然語言理解和對話能力，讓它能為主人愉快地工作，歡迎有興趣的讀者繼續關注。

「The more it has, the more it』s him.」在英劇《黑鏡》第二季第一集當中，女主人公通過和機器人對話的方式懷念自己逝去的男友。藉助大數據的力量，這個機器人能夠從主人公男友的社交網路甚至私人郵件中抽取和整合他的個人信息、關係網路和語言習慣，構建屬於這位男生的個性化知識圖譜，從而實現對他惟妙惟肖的模仿——如上圖台詞所說，系統抓取到的信息越多，機器人模仿的語言行為就越和他本人相似。

若說《黑鏡》里的機器人是基於關於用戶的全方位知識圖譜，那麼，本文要介紹的EDI 則專註於用戶的一個側面，即用戶的職場知識圖譜。

在一個機構里，我們把員工的職場知識圖譜叫做EDI Graph（ Enterprise Deep Intelligence Graph ），圖譜內的信息包括員工的部門、技能、項目、文檔、時間、會議室和辦公室等，其中每條信息又有各自豐富的屬性，信息與信息之間也存在豐富的關聯；這些信息的來源主要分為企業內部數據和互聯網數據兩部分，其中，企業內部數據主要包括內部網頁、文檔、會議記錄、員工基本資料等數據，互聯網數據則主要包括維基百科、學術論文、LinkedIn等公開數據。

如何將來自公司內部、社交網路、Web等不同來源的異構數據進行梳理和融合、構成一張完整的職場知識圖譜，這是構建EDI Graph的關鍵技術。只要有了圖譜，就能構建EDI Bot，讓這個昵稱為EDI的機器人擁有「大腦」，能進行理解和分析，了解每個員工的專長以及從事的工作內容，成為員工貼心的個人助理。

與《黑鏡》里的機器人相似，EDI也是知道信息越多就越能了解人以及人與人之間的關係，越接近員工的工作知己。

信息融合

「EDI, where is BJW1?」

對於同一件事，人們往往會有不同的表達，這是人與機器的一大不同。舉例：「BJW1」是英文「北京微軟西1號樓「的簡稱，但人們在不同情境下可能還有其他表達方式，比如「BJW-1」、「Beijing West 1」、「Microsoft Tower 1，Beijing，China」以及「微軟1號樓」等，這些表達上的差異無法用簡單的字元串匹配或縮寫匹配的方式來完成相似度的計算。那麼，EDI該如何知曉它們所指的其實是同一個地點呢？

我們的做法是將這些千變萬化的表達看作不同的語言，通過機器翻譯技術，找到詞與詞之間具有的某種翻譯關係，從而實現相似詞語的融合。

首先，利用種子規則，找到信息中高準確度的種子節點對，利用種子節點對中屬性的不同表達，構建平行語料庫。之後，使用深度學習技術構建翻譯模型，完成不同信息源之間的屬性「翻譯」。通過機器翻譯，不僅能計算簡單字元串匹配無法計算的相似表達，甚至還能計算不同語言中同一表達的相似度，讓EDI 能夠吸收消化更多更廣泛的信息來源，對用戶的表達做出更準確的判斷。

「Hi EDI, schedule a meeting with David now.」

得到不同表達的相似度之後，如何精準對應也是一門學問。例如，只要給個人助理EDI發送一條非常簡潔的信息「幫我和David訂個會議室」，EDI就能幫助員工準確預訂好會議室。然而只要打開微軟員工目錄，就會發現名為David的員工大約有兩千名，EDI如何分辨他們並從中確定要和用戶開會那個David究竟是哪一個呢？要知道，這兩千位名為David的員工，有些位於同一部門，甚至職務也都相同，這時，單單通過機器翻譯得到的屬性相似度，可能無法做出正確的對應。

精確匹配的突破口在於不同David的職場知識圖譜，其網路結構也是不同的，我們使用協同訓練（Co-Training）的方法，迭代地進行圖結構信息的匹配。在每一輪迭代中，首先利用當前已匹配的實體對，更新神經網路翻譯模型，並利用更新后的模型完成屬性間的相似度計算；同時，根據當前已匹配節點計算待匹配節點的公共相鄰節點對，通過結合屬性匹配和圖結構，可以得到新的匹配集合，如此迭代直到收斂。

簡單說，EDI能將職場知識圖譜中同一個David的信息融合到一起，把不同的David放在各自節點上，然後通過參會歷史、項目合作、內部的彙報關係等等，了解公司同事之間的遠近，從而鎖定用戶真正想找的David，完成用戶交給的安排會議並預訂會議室的任務。

信息分析與理解

《黑鏡》中的機器人系統對主人公男友在社交網路上的電郵、照片、視頻甚至聊天記錄進行了深入的分析和學習，從而實現對其惟妙惟肖的模仿。同樣，EDI在掌握豐富的信息之後，也需要進一步分析和理解這些數據，才能深入了解企業中的每一個員工。

在一個企業中為員工構建職場知識圖譜，最為基本也最為重要的一點，就是構建出每位員工的工作內容時間線，通過時間線我們就可以了解到「who，when，what」，即：誰，在何時，做過什麼事情。

有了這些結構化的知識，如果想知道誰在做Cortana相關的項目，只需要問「Who is working on Cortana?」，EDI就能給出你想要的答案。這對構建企業智能應用具有極為重要的意義。

順帶指出，項目名稱的抽取也不簡單。我們無法通過簡單地標註數據、訓練模型或是基於規則的方法來進行抽取，因為不同行業、不同領域對於項目的表述可能千變萬化，那麼EDI是如何抽取出工作內容以及相關項目的名稱呢？

我們認為，項目的名稱都是語義完整的短語——例如，在「微軟亞洲研究院在丹棱街5號」這句話里，「微軟亞洲研究院」就是一個語意完整的短語——於是，我們先從企業內部的數據抽取出語意完整的短語，再從這些短語中劃分出項目的名稱。在微軟內部，各種文檔、網頁等總量在千萬這個數量級，而統計規則例如互信息、熵等，在數據量較大的時候可以有效地完成對短語的切分。因此，我們在遞歸神經網路（Recursive Neural Network）模型中通過後驗正則化（Posterior Regularization）引入互信息、熵等統計量定義的偏序切分規則，在完成短語劃分的同時，得到其對應的語意向量表示，最後通過度量語意信息來判斷其是否是一個項目的名稱。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點