人工智慧技術不成熟，如何規避人工「智障」？

本文約7636字，閱讀大約需要8分鐘

*本文源於 S 先生創始人 Mingke老師，在職人社 × 愛因互動聯合主辦的「 AI 時代的產品經理」活動現場分享，由職人社整理並首發。

人工智障：混亂的行業現狀

《人工智障》一文本身是我們內部做 C 端的虛擬助理產品的復盤總結。沒想到文章一發出去就火了起來，前後有好多人來找我聊這件事。我跟我的合伙人很納悶，這個行業怎麼了，為什麼我們這種在「完全被主流 AI 圈忽略的團隊」也能受到那麼多關注？

於是我選擇一家家去聊，前前後後約了 50 多位行業內的朋友，去聊大家都是怎麼看待現在的發展和限制的。他們主要來自早期投資機構、AI 創業公司、互聯網巨頭的 AI 產品 Lead、傳統行業 500 強。當時主要想了解行業在這幾個方面的看法：

為什麼現在能打仗的產品一個都沒有？

To B or not to B?

垂直該不該堆全棧？路徑如何設計？

對對話式人工智慧和CUI的理解，目前行業的水平是怎樣的？

怎麼看科學、技術、產品和商業之間的關係？

這幾個月聊完的整體感受可以總結為兩個比較宏觀的判斷：

當前人工智慧的行業一片混亂；
因為混亂，所以機會的空間也很大。

在移動互聯網時代後期，行業中各個環節的細分已經成熟。不同的服務都有專門的服務提供商，比如做 in-APP IM（ Instant Messaging，實時傳訊）的、分發的、積分牆的、移動端各類庫也都成熟。當你要做一個新的產品 MVP （Minimum Viable Product，最小可實現模型）來驗證 PMF（Product-Market Fit，產品市場驗證），你可以很快的把很多功能拼裝在一起試一下。當然，業界成熟到這種程度，宏觀上留給創新企業的價值高的機會也更少了。

反觀當前國內的人工智慧產業，大家對「什麼事情該誰做」這件事的理解一片混亂。因為基礎設施的塵埃還沒有落定，很多創業公司提前要在應用層做產品的時候，就只能「全棧」：研發上需要從底層演算法、技術、工程各個方面開始積累；產品上因為分不清哪些工作該客戶做，哪些該自己來，很多時候還需要積累很多行業專業知識。

目前這個行業里對 AI 的定義也是混亂，它可以被當做是一個方法、一個路徑，或者是一個目標。AI 創業團隊不知道哪些要做那些不做，投資的擔心被忽悠，甲方企業不知道哪家 AI 公司能做出什麼，而大公司在暗中觀察。

很多人都跑出來寫文章、做演講，試圖定義這個行業。但是跟上一個時代不一樣的是：過去移動時代定義行業，你可以拿著手中的優秀產品說話，用數據佐證產品方法論的價值。而 AI 時代的公司，說了很多識別率、各種演算法，但能拿的出手的產品一個都沒有。怎麼以此來定義行業呢？

大概一年前，很多投資人和業界的觀點裡都把「下定義」的期望承載在科學家們身上。期望這波 AI 能有黑科技，「造出可以自動解決問題的系統」。所以科學家們不得不去說、去做一些很宏大的事情，希望能從根本上解決問題。

曾經有家外企公司有 AI 產品項目需求，找了很多公司來做每家公司都回復能做，只要提供滿足某某要求的數據就行。該外企的 CTO 吐槽說，Andrew Ng （吳恩達*）在 Stanford講的那些誰都看過，要是這種數據我已經有了，那我不是自己成立個部門就解決了？解決數據和訓練的相關問題本來就該是AI 產品設計中的一環，缺少的不是「愛乾淨的科學家」，而是能設計和實施完善的解決系統的團隊。不能遇到真實場景的項目就要數據，沒有數據就妥協產品效果。

*編者註：吳恩達是人工智慧和機器學習領域國際上最權威的學者之一，曾加入百度，擔任百度公司首席科學家，負責百度研究院的領導工作。

而現在的觀察看來，隨著大家對於機器學習、演算法等方面的能力的了解更加深入，業內對 AI 技術上期待也變得更加理性，對當前的基於統計的 ML （Machine Learning，機器學習）的能力邊界更清楚了，發現其實商業應用上還是有很多產品經理的發揮空間。AI 時代產品經理的發揮空間，完全不亞於移動互聯網產品經理的發揮空間。

那麼這些混亂也就意味著機會。當行業里沒人能夠下定義時，這個領域中沒有絕對的權威和絕對成功的產品就意味著，每個從業者都有了定義這個行業的機會。

AI 產品的設計思想

設計思想是產品設計的第一步。無論設計思想是什麼樣的，先樹立一個設計思想。設計思想的核心價值體現在做具體工程的設計決策的時，可以提供指導產品方向。講人話就是，當你的產品做到不知道該怎麼辦了，就去問設計思想。人工智慧產品設計的思想是應該站在對業界、底層演算法、技術工程、消費者意識、甚至競爭環境等等方面的理解上，根據整體環境去制定的。

▌指導思路：先定義再實現

當前業界有兩種指導思路：

第一種，已經有了引擎，我拿引擎來造什麼？（「拿著鎚子找釘子」）；

第二種，我要造一輛車，需要買什麼零件，要造怎樣的引擎。

做底層演算法業務的公司會傾向於第一種，已經有幾個比較好的組件，然後去找合適的場景，或者弄個平台開放給其他開發者去尋找場景。做應用的團隊應該考慮第二種：首先關注場景，明確「造車」的目標，然後去找或者自己造合適的工具。

如果做應用的，按照做底層演算法公司的指導思路做產品，基本屬於送死。很多我聊過的做 Chatbot 的團隊都屬於我要先做個對話系統，然後看看這個系統能跑成什麼水平，再看看這個系統可以用在哪些企業的什麼方面。這樣的問題是， Chatbot 本身就已經是個應用型的產品了，根據企業的共性需求設計出來的系統必定是平庸的，結果是導致目前市面上都是效果都差不多的智能客服產品。

做商業應用的團隊，一定要創造真實的價值、有差異性的價值。用第一種指導思路去做產品，基本是沒戲的。

▌ 用戶體驗：存在即為被感知

「To be is to be perceived （存在即為被感知）」這句話是 George Berkeley* 的核心主張，哲學上的意思是：一個東西的存在是因其被人感知而決定的。

*編者註： George Berkeley 喬治·貝克萊，1685年3月12日在愛爾蘭基爾肯尼的一個鄉村紳士家庭出生，他是近代經驗主義的重要代表之一，開創了主觀唯心主義。

我借這個觀點來解釋產品設計上的兩個方面：

1、用戶與產品的關係

用戶和產品的關係比較好理解，用戶是否選擇你的產品、對產品的態度是由用戶體驗的效果決定的，不是開發團隊自上而下的設計效果決定的。

受技術的限制，CUI 產品使用場景是有限的，不可能全域的跑。即使如此，設計指導思想也不能是「因為我們系統處理不了一些需求，所以我們要規避用戶說出某些話」這種設計思路。產品永遠無法試圖阻止用戶觸發某些說法，只能默認這些 Input 一定會出現，然後你的系統怎麼處理。不然，用戶使用時會遇到大量「對不起，我不知道你在說什麼」。

這意味著 CUI 的設計里，用戶來決定說什麼；產品經理決定的只是用戶這麼說了之後，我的系統該怎麼辦。如果產品經理無法對用戶會在什麼場景會說什麼做很好的預判，就只能寄期望於團隊的科學家可以用黑科技做出萬能的處理系統，要麼就準備迎接一個智障的產品吧。

2、開發者與產品的關係

用機器來做模式識別就一定比用人（編程）來做好么？

技術和效果的關係類似路徑和目標的關係。當直線走不通的時候，考慮曲線救國。而不是，我家研發的核心技術是幾張網，我一定要把它體現在產品上。

把問題進一步延伸，當做一個以任務為導向的 CUI 產品設計時，如果要處理一個任務，用戶可能會提到與這個任務相關的各種細節。那麼這些細節之間的關係該如何表達？是否應該使用 Ontology* 的思路來對這個場景進行全面的建模？如果要，那麼顆粒度要多細？如果沒有設計的指導思路，這些問題很難回答。

*編者註：Ontology，在計算機科學與信息科學領域，理論上，本體是指一種「形式化的，對於共享概念體系的明確而又詳細的說明」。本體提供的是一種共享詞表，也就是特定領域之中那些存在著的對象類型或概念及其屬性和相互關係；或者說，本體就是一種特殊類型的術語集，具有結構化的特點，且更加適合於在計算機系統之中使用；或者說，本體實際上就是對特定領域之中某套概念及其相互之間關係的形式化表達（formal representation）。本體是人們以自己興趣領域的知識為素材，運用信息科學的本體論原理而編寫出來的作品。

電影 The Prestige 致命魔術講了一個非常有意思的故事，很好地闡述了「目標」與「路徑」的關係。兩位魔術師伯登和安吉爾互相競爭，要做「傳送門」這個魔術：人從舞台上的一扇門進去，馬上從舞台上另外一個門出來。

伯登先完成了，安吉爾看到伯登居然實現了這麼 Magical 的效果——這感覺就像我們做 CUI 產品的，突然發現一款產品的上下文邏輯竟然這麼好，這個對話系統居然能實現各種邏輯處理，講什麼都能正確的回復。因為產品是一個對話式的界面，我們無法看到它是怎麼實現的，於是會更加緊張和焦慮，給我們的感受是 NLP* 竟然被奇迹般地實現了。

* 編者註：NLP，自然語言處理。目前業界公認，自然語言處理是人工智慧中最為困難的問題之一。

安吉爾立刻就想逆向工程這個產品，看伯登究竟是怎麼實現的。後來安吉爾找到一個科學家（特斯拉），正好科學家研發了一個黑科技是複製人。於是安吉爾根據這個複製技術，做了一個產品：讓自己進門之後，馬上複製一個自己從舞台上的第二扇門走出來。然後在第一扇門下面放一個水缸，讓這個自己掉下去淹死，滅掉複製的痕迹。

他也達到了「傳送」的目的，他所使用的路徑是「複製、刪除一個人」——非常高成本的路徑。但是伯登的實現路徑其實很簡單：伯登是雙胞胎。哥哥走進去，弟弟從另外一個門走出來，整個過程沒有任何的黑科技。

存在即為被感知，對於用戶（觀眾）而言，兩個路徑的效果是一樣的，都是「傳送」。

很多人覺得魔術師伯登的做法一點難度都沒有，任何一對雙胞胎都能做，繼而這個產品沒有核心競爭力。實際上，並不是這樣。

▌5000 個細節打造一個產品

在沒有黑科技的情況下，產品是不是就沒有核心競爭力？雙胞胎的核心競爭力在哪裡？

實際上，雙胞胎付出了巨大的代價——常人就算是知道了，也很難下決心付出的代價——為了隱藏雙胞胎的身份，伯登和雙胞胎兄弟必須在生活中完全偽裝成一個人，解決日常生活中身份衝突的諸多大小問題，比如共享老婆等等。他們在生活中的精心設計有非常多非常多的考慮，正因為如此周密的設計，沒有人會想到他們會是雙胞胎，而這正是 5000 個細節打造出來的一個產品。

在產品設計上，這是喬布斯在一個早期採訪（《被遺忘的採訪》）中提到的概念：做設計的時候是把 5000 個方面同時考慮的過程。這就是此類產品的核心競爭力之一，也是產品經理的重大價值之一。

當我們說 AI 的產品設計的時候，究竟是在設計什麼？我認為在當前的技術限制下，產品設計是一個 AI 產品黑盒子裡面的 5000 個細節。團隊 CTO 告訴你，不用管過程，直接上 N 張網然後用成噸的數據來跑就能解決。當技術發展到了這種程度，那產品經理確實就沒有太大作用了。這就好比傳送門直接被技術上解決掉了。

目前用戶對於 CUI 類產品的期待是，希望用黑科技直接「端對端」的解決用戶需求，希望用戶 Input 一個需求，就完美自動 Output 出一個結果。這是當前實現不了。因此中間過程就涉及到很多環節交給人為處理，幫助機器判斷和設計目前無法被自動處理的環節，這是目前讓系統最終體現出好的效果的唯一路徑。

我用 CUI 設計里最常見的「意圖識別」為例，來說明上面三個思想。

做產品設計時，一個場景里的用戶意圖該怎麼拆？一個場景里需求可能會被拆成 80 個用戶意圖來處理，也有可能會拆成 18 個。目前有的團隊處理方式是一個場景一個意圖，還有的團隊甚至不拆，直接交給「端對端」的黑盒讓數據來跑，這種粗暴做法的效果就不評價了。

假設這個判斷交給人來做，這裡的決策影響因素會包含訓練數據素材是否足夠、訓練量、自家演算法的能力、最終需求的程度等等方面的考慮。這些因素都考慮之後，該由誰來判斷呢？因為所有後面的對話識別、任務處理都是由意圖引導的，這個識別一錯，後面的工作做得再對，最後的效果也是智障的體驗。我認為這是產品經理的工作，但是過去的產品經理根本沒有做過類似的工作。

如果拆成 80 個意圖，可以讓後續對話的設計更平滑，但對應這麼多意圖，公司沒有足夠的訓練素材該怎麼辦呢？因為素材不夠，那意圖可能會被拆解成 18 個或更少，更少的意圖是否可以精準地識別到用戶正確的需求呢？還有意圖與意圖之間的關係，是否應該通過建立 Ontology 來表達？

由於這個設計的判斷不是所見即所得的，並且成本非常高，導致產品經理很難用做 A/B test 的方式從結果來選擇設計。所以產品經理得假定預判某種體驗為目標，然後結合其他因素來看如何實現。而預判的體驗好或不好的標準，是否符合真實用戶的行為，則非常考驗對場景下用戶心理的拿捏。

也就是說，用最終效果來指導所有的設計，然後再由設計指導研發。產品的目的只有一個，就是最終效果，無論是自上而下還是自下而上的設計，都不是目的，只是方法。但產品「效果」也需要有自己的定義，但是業界都沒有這個定義。而且沒有成熟產品可以解答能用這個問題。

不同於 GUI （圖形式交互）界面即產品的產品特性，一旦有清晰的可視化界面產品經理從界面就能琢磨出產品的功能、邏輯是怎樣的；CUI（對話式交互）是一款黑盒子產品，對話式交互的界面是不可視。就算市場上出現了一款效果比較好的產品，也不大能去逆向工程來看出它的產品邏輯。

就像跟人打交道，當你遇到一個很蠢的人，溝通起來你很容易就摸到他的套路（產品邏輯），但是如果你遇到一個很有意思的人，往往很難摸到他的套路。

回想一下，你有沒有遇到過這樣一個人，你們交流的時候，無論你講出來了的，還是心理在想的意圖，好像都被這個人精準拿捏到，然後每個你關注點（Entity）都被這個人悄悄仔細的揣摩然後處理掉，最後以滿足你自己都沒有意識到的自我偏好的說法，反饋給你——你只能感知到如沐春風般的交流，他中間如何做各種處理的，你根本看不到，只能看到對方眼睛在發光。

這就是一個好的 CUI 設計的一個特性，體驗越好，就越難找到背後的設計邏輯——一個產品如果能輕易給你摸到其黑盒裡的 Pattern（模型），那麼這必定不是一個值得研究的產品。

「Fake it, until make it.」我覺得很適合當前用來做 CUI的產品。因為你是對話式的交互系統，是別人看不到，產品團隊和工程師團隊之間可以相互幫助，這是當前產品經理可以放大的價值的，直到強人工智慧出現。

CUI 產品的「聖杯屬性」

對 CUI 的理解將影響產品設計路徑。目前行業對 CUI 的理解都很早期，並且，這些理解在隨著行業和產品的發展不斷演化的。可能過去一段時間很多想法就會被驗證證明是錯的。大家都在摸著石頭過河，錯誤的想法也是石頭，需要有人去踩。

S 先生在研發的過程不斷嘗試尋找 CUI 的「聖杯屬性」，這裡聖杯屬性指的是一些非常重要的、對終端產品體驗有決策性影響的因素和屬性。往往這些屬性是隱形的，不容易發現，但是一旦發掘到，才能真正發揮 CUI 的價值。

在移動互聯網的時代中，「觸摸」屬性就是一個明顯的普通屬性，但不是聖杯屬性。因為足夠明顯，當用戶從上一代鍵鼠操作，轉成觸摸操作的時候，會發現早期的很多應用就圍繞這個屬性做文章。典型的案例就是「水果忍者」一類的最大程度利用了觸摸作為交互的產品。它發生在交互範式剛剛發生變化的時候，用戶會覺得這是一個前所未有的突破。

但是到現在，觀察目前真正強大的 app，則是那些掌握「碎片時間」、「基於地理位置」、「個人身份和社交關係綁定」等等特徵的，其實根本上也是智能手機作為跟人的（區別於跟場景的）、私人計算設備的延展屬性。而這些屬性，在移動互聯發展過程中，是慢慢被開發者一步步挖掘出來的，而不是像觸摸那麼直觀明顯。

CUI 產品的聖杯屬性不是 NLP（Natural Language Processing，自然語言處理）——雖然目前 NLP 的發展還很初級。這不是說 NLP 不重要，而是 NLP 對於 CUI 是基礎的屬性，類似「觸摸」這個屬性之於移動設備。好的 CUI 產品一定會有一套好的自然語言處理系統，但假設如果有一個完美的對話系統——它是可以完美理解對話所有的內容的，並具備完美的自然語言生成——卻並不表示這一定就是一個可以完美完成任務的系統。

假設你剛剛招了一位真人助理，他自帶完美的 NLP，能聽懂你所有的話，也能正常和你對話。然後你跟助理說，「去給 Samantha 買花」，講出來的字就那麼幾個，他都聽懂了，但是他會怎麼去分解這個問題、完成這個任務呢？買什麼花？預算是多少？什麼時候買？哪家花店好？什麼時候送到？Smantha是誰？地址是哪裡？等等。這些問題都需要決策。這個時候如果是一個很蠢的助理，他就會一個一個問題來問你——而更蠢的助理則根本沒有考慮到這些方面。

在做對話系統服務時，會遇到同樣的問題。機器是需要理解到 Context 才能正確地執行命令，也就是需要很多的場景相關的信息去幫助理解，而不只是對話上的上下文。最優秀的助理應該是聽到「給 Samantha 買花」這個命令就可以完成任務了，當然新來的助理一定搞不定，哪怕他很聰明，但他缺少對用戶的了解。這裡就涉及到大量的場景相關的數據和知識表達的問題。

所以一個簡單「給 Samantha 買花」這個問題里，對話系統的核心並不是對話。如果有一個產品做到了並且做出了更好的效果，產品的過人之處一定不僅僅是在命令語句的理解上。

要讓 AI 用對話完成任務，理論上，我比較認同 Hofstadter* 的一些觀點。人講語言總是在嘗試去最精妙的方式用最小成本的表達自己所處環境的本質。而本質來自於對環境的感知后的處理，前提是對環境的全面感知，而不只 NLP 來處理「說出來的話」（而目前 NLP 離完美處理還差得很遠）。

* 編者註：Hofstadter 對人工智慧，Cognitive Science（認知科學）,Computer Science （電腦技術）都有著獨樹一幟的研究。他的著作有 GEB （一條永恆的金帶）、Fluid Concepts and Creative Analogies、Metamagical Themas（他在 Scientific American 上發表的文章的總集）Hofstadter 對一些項目的緣起、設計，所研究的課題的本質，都有清晰的描述和給人以啟發的討論。

拿餐廳推薦來舉例，用戶的命令「幫我給 Samantha 定一個吃完飯的地方」，給到的對話信息只有上面幾個字，但實際上用戶的潛意識裡面認為他要，或者已經傳達的信息遠不止這些。如果機器沒辦法識別出哪些是用戶認為自己已經傳達了的信息，那在完成任務的時候就不會去處理相關信息。因為機器一旦漏掉了這些信息，那機器反饋出來的東西就是低於用戶的期望的，繼而用戶就會繼續發問。於是機器又重複一次剛才的失敗。幾次之後，用戶就會覺得你是智障，繼而就不會使用。

以上這些問題是很難用基於統計的機器學習、或者用過去GUI產品所積累的結構化的大數據來跑模型來解決的。因為過去產品里被交換的數據（對話內容）遠沒有覆蓋整個任務處理的考慮因素。

舉個例子，有人認為很多系統已經積累了大量的數據，比如說「餓了嗎」 app。假設它積累了一個大學生四年來點餐「魚香肉絲」的數據。當這個用戶今年畢業后找到了很好的工作，決定請女友好好慶祝一下，這個時候餓了么應該根據這個用戶的歷史數據推薦什麼餐廳呢？

而且這些還都是數據的問題，跟 NLP 沒有半點關係。

聖杯屬性是 CUI 交互過程中很重要的特點。那麼好的 CUI 產品會有什麼樣特點？

第一，抽象的概念。好的 CUI 系統應該是盡量直接解決用戶的問題而讓用戶忽略過程。因此用對話能跑幾輪來判斷任務系統的好壞是毫無意義的。終極效果是「我不用說，你就明白」。

第二，Context 的概念。通常在 NLP 里被理解成語義上的「上下文」，而我這裡指的是場景。一個對話發生之前 Context 就已經產生了。當你跟一個人見面的時候，一句話還沒講，但是很多信息就已經出來了。這些信息與文字無關，而且是隱蔽的看不到的，但是它是存在的。好的 CUI 系統需要判斷對話會包含哪些元素，怎麼去找出這些元素，然後把悄無聲息的把他們解決掉。

第三，個性化的概念。因為沒有可視化界面的，所以用戶對 CUI 產品提的需求都是高度個性化的。並且這個「個性化」有別於過去 GUI 產品常見的基於用戶畫像的個性化。它是動態的，很多個方面隨著時間和空間是在不斷發展並不停與外部條件妥協的綜合結果。

AI 時代的產品經理是一個新物種，市面上沒有現成的。

AI 時代是人文和科技的 2.0 時代，對產品經理的要求更高。需要比過去做GUI時更加理解人性，另一方面對技術的理解的要求也會更高。

*本文由職人社整理原創發布，授權B座12樓轉載。內容僅代表作者獨立觀點，不代表B12立場。如需轉載，請聯繫原作者。

- 20170609 No.1569 -

| 回復"目錄"查看B12往期 |

猛戳「閱讀原文」，報名參加B12小聚人工智慧專場