search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

語音智能 OS:國內 40 多家語音開發平台,做中國版 Alexa 的滋味是怎樣的? | 語音智能特稿

近年來,智能語音市場變得異常火熱,不管是主打人工智慧概念的語音技術創業公司(如 Nuance、思必馳雲知聲出門問問 等),還是科技巨頭(亞馬遜 Alexa微軟 CortanaGoogle Assistant蘋果 Siri三星 Bixby、國內 BAT 等)都無不在進行橫向和縱向的布局。

其中,憑藉其強大的硬體鋪貨渠道,亞馬遜讓攜帶 Alexa 智能語音助手的 Echo 系列智能音箱進入了千家萬戶。

產品受歡迎程度通過實踐驗證后,Alexa 本身的技術也被開放出來,逐漸接入到智能家居、車載、手機等更多的硬體設備中。內容應用方面,基於 Alexa 語音技能開放平台 Alexa Skills Kit,開發者為 Alexa 開發的技能數已經超過 1.5 萬個(截至今年 6 月份)(點擊鏈接查看關於語音技能開放平台的深圳灣特稿)。

▲截至今年 6 月份,開發者為 Alexa 開發的技能數已經超過 1.5 萬個

另外,在亞馬遜 AWS 雲服務、電商、線下商店等優勢的加持下,Alexa 系目前歐美智能語音界的佼佼者已經成為一件毋庸置疑的事實。

鑒於 Alexa 的成功示範,Google、微軟等科技巨頭也緊隨亞馬遜的步伐並還處在一路小趕的狀態。

國內方面,雖然國外語音技術能給國內產品進入海外市場助一臂之力,但由於雲服務、語言「不支持中文」等因素,這些國外技術方案在本土市場就顯得「水土不服」了。因此,BAT、科大訊飛、各個初創公司也察覺到了其中發展機遇,紛紛搶佔布局。

據不完全統計,目前國內有近 40 個「語音開發平台」,其中有不少打著「做版的 Alexa」的旗幟。而在這場語音市場爭奪戰的背後,是一場語音操作系統(簡稱語音 OS)的戰爭,一如當年 PC、手機等的操作系統之爭。

概念界定:

百度對操作系統(Operating System,簡稱 OS)的界定是:

操作系統(OS)是管理和控制計算機硬體與軟體資源的計算機程序,是直接運行在「裸機」上的最基本的系統軟體,如 Android, iOS, Linux, Windows 等常見的操作系統。操作系統是用戶和計算機的介面,同時也是計算機硬體和其他軟體的介面,其組成部分包括內核、驅動程序、介面庫、外圍。

將這個概念類比到語音操作系統(語音 OS)中,則是:

語音操作系統(語音 OS)是運行語音助手、應用服務(語音技能)等軟體的基本技術框架,所有應用將在此基礎上衍生並在之中運行,這些應用及其操作結果最終得以在人機語音交互的過程中呈現出來。

其中,語音助手作為語音操作系統中一個重要工具,承擔信息輸入、輸出的重要任務,有它特定的名稱,如亞馬遜的 Alexa、微軟的 Cortana、百度的 Duer(度秘)等,其中,喚醒詞多由此衍生而來。

本文中,深圳灣(公眾號 ID:shenzhenware)主要分析國內部分正在布局語音開放平台、構建語音操作系統(語音 OS)的企業及其情況,來看看它們與 Alexa 有著哪些相仿或者不同的地方。

01/

百度 DuerOS

在 2015 年的百度世界大會上,百度研發的語音助手度秘(Duer)正式亮相。隨後,Duer 在 KFC 機器人員工、聯考服務等商業應用得到展示和實踐。

2017 年 1 月國際消費類電子展(CES)期間,百度公布其具有劃時代意義的對話式人工智慧系統「DuerOS」,該系統可廣泛應用於手機、電視、音箱、汽車、機器人等硬體設備。與此同時,DuerOS 首次被搭載在小魚在家家庭機器人的第二代產品中。

DuerOS 的真正開放,是在剛過去不久的「百度 AI 開發者大會」。在這次被外界普遍稱為「百度試圖讓自己的形象從一家互聯網公司向一家人工智慧公司轉變」的大會上,百度度秘事業部總經理景鯤鄭重推出小度(DuerOS)開放平台,並表示「DuerOS 是人工智慧時代的 Android,是開放賦能的生態系統。」

▲ 百度 AI 開發者大會上,百度度秘事業部總經理景鯤鄭重推出小度(DuerOS)開放平台

同時景鯤還表示,區別於安卓、Linux、Windows 這些底層的操作系統,DuerOS 是一種對話式的人工智慧操作環境。

小度(DuerOS)開放平台包括小度智能設備開放平台、小度技能開放平台,以及支撐這兩個平台的小度對話核心繫統。

其中,小度智能設備開放平台為智能硬體廠商和開發者提供了個人版、輕量版、標準版、參考設計等多樣化的方案,不僅滿足各類廠商和開發者不同層次的需求,還具備低成本、方便靈活的特點。就拿一個最簡單的例子來講,通過接入一個 SDK,即可使電視等硬體具備 DuerOS 語音對話能力。

小度對話核心繫統相當於 DuerOS 的「技術大腦」,基於百度在數據、技術(麥克風陣列、回聲消除、語音喚醒、人像識別等)、內容方面的積累,DuerOS 能夠通過雲端大腦進行自學習,讓智能設備具備人類語言能力。

▲ 百度度秘事業部總經理 景鯤。7 月 15 日,景鯤將出席深圳灣舉辦的 WARE 2017 語音智能平台與應用峰會第 II 季,分享 DuerOS 開放平台如何幫助硬體開發者在多個行業的多種場景實現全面賦能。

自 1 月份發布 DuerOS 起,DuerOS 就已擁有 10 大類別(影音娛樂、信息查詢、生活服務等)的 100 多項原生技能。發布開放平台後,DuerOS 將支持第三方資源和內容接入,這些技能也將上線到「小度之家 APP」當中。

百度的 DuerOS 開放平台提供了整套軟/硬體的開發服務和技術支持,除此之外,該開放平台還可以接入 Alexa 等其他語音服務平台。

為證實小度(DuerOS)開放平台的實力,在這場開發者大會中,景鯤不遺餘力的向各位開發者和廠商展示百度的優勢以及這幾年來的技術積累:

數據層面,百度擁有億級用戶請求、十億級的知識圖譜實體、語音調用和音頻數據、千億的圖片和網頁等數據;

技術層面,百度在深度學習、自然語言處理技術、多輪對話技術、搜索技術等方面具有深厚的實踐經驗積累,其中,由百度矽谷人工智慧實驗室研發的深度語音識別系統 Deep Speech 2 被『MIT 科技評論』評為 2016 十大突破技術之一,另外,百度還全資收購有助於語音喚醒和自然語言理解的矽谷初創企業 KITT.AI。

毋庸置疑,強大的數據、搜索能力使得百度能屹立在所有國內企業之間,而語音語料、知識問答等研究材料、應用也很大程度上需要依靠這方面能力的積累。

從 DuerOS 以及自動駕駛平台「Apollo 計劃」的發布這件事看來,百度這次將砝碼基本都放在了人工智慧上,並押寶自動駕駛和語音這兩個領域的操作系統,目標分別是成為「汽車界的安卓」和「版的 Alexa」。

02/

阿里 AliGenie 系統

在「百度 AI 開發者大會」舉行的當天,阿里也在另一頭宣布了他們在智能語音入口上的布局。與亞馬遜類似,稱霸國內電商界的 阿里也將其研發的語音助手首先賦能在智能音箱這個硬體品類上,發布國內首款購物音箱——天貓精靈 X1,並以 499 的價格碾壓國內外動輒千元的智能音箱設備。

▲ 天貓精靈 X1

與亞馬遜 Echo 相仿,天貓精靈 X1 成為了為天貓購物平台導流的重要利器,另外,在智能音箱這樣的風口下,阿里也順勢步上亞馬遜的後塵,讓用戶從網路消費開始用上該音箱背後的中文人機交流系統 AliGenie。AliGenie 由阿里巴巴人工智慧實驗室(A.I.Labs)研發,集聲紋識別、聲紋購、NLP 中文對話引擎等重要技術於一體。

在發布天貓精靈 X1 購物音箱的同時,阿里透露了即將把 AliGenie 開發者平台開放給開發者、智能家居廠商、硬體生產商等的部分信息:

AliGenie 開發者平台將主要面向內容開發者、應用開發者、智能家居開發商和硬體生產商這四種類型的開發者。開發者既可以創建技能,為更多的語音用戶提供服務,也可以將自己的設備接入雲端服務,獲取語音交互能力。

▲ AliGenie 合作夥伴

AliGenie 目前涵蓋音樂音頻、家居控制、購物充值、兒童教育、技能市場等功能,隨著更多功能的開發和第三方開發者的加入,功能將不斷擴展。

AliGenie 開發者平台將開放深度學習、自然語言處理、搜索/推薦演算法、知識表示及推理問答系統等重要核心能力。

通過 AliGenie 開發者平台,開發者可以鏈接到阿里生態體系中的數億消費者和海量的生活和商業場景。

目前,AliGenie 的開放平台僅開放給內部及其合作廠商,關於平台進一步開放給個人開發者等詳細信息,阿里將會在今年 10 月份的阿里論壇中公開。

以此看來,AliGenie 語音系統主要發力語音交互的終端和應用。從阿里身上,也有著能與亞馬遜匹敵的電商能力。另外在相應的技術打磨上,AliGenie 的搜索/推薦演算法、聲紋識別、聲紋購也得到了體現。

03/

騰訊雲小微

騰訊雲的語音智能平台「小微」於今年 5 月 22 日上線內測,在 6 月份的騰訊「雲+未來」峰會上,騰訊雲小微正式發布

騰訊雲小微包括硬體開放平台、Skill 開放平台和服務機器人平台三大框架。

▲ 騰訊雲小微介紹

硬體開放平台部分,小微提供了包括麥克風陣列演算法、喚醒系統、聲紋分析、圖像識別等能力在內的完整框架,讓語音硬體廠商能夠在不需要額外技術投入的情況下賦予硬體產品語音交互和智能能力。

Skill 部分,平台已內置 QQ 音樂、企鵝 FM、騰訊視頻等騰訊的原生應用,以及天氣、新聞、笑話等服務內容,第三方開發者也能在平台的基礎上創建自己內容。

▲騰訊雲小微三大框架分別接入的應用、設備、服務

此外,通過 QQ 物聯,小微可用於控制連接該平台的家電設備,同時,與艾拉物聯、機智雲等物聯網平台合作,小微也能實現對這些平台連接的設備進行控制。

相比百度、阿里,騰訊在內容、社交方面有著突出優勢,包括騰訊新聞、動漫、音樂、有聲讀物等。據了解,騰訊雲小微的技術研發涉及騰訊內部的 QQ 物聯團隊、微信人工智慧團隊、騰訊 AI Lab 團隊、社平團隊、優圖團隊、騰訊音樂、騰訊視頻團隊部門。

這麼看來,打造這麼一個語音操作系統,騰訊已幾乎動用了所有內部的內容生產團隊。騰訊雖在技術上沒有特別突出的表現,但在連接萬物、內容生態建設上有良好先天基礎。

縱觀 BAT 這幾家公司,基本上是依託原有業務將語音技術及操作系統發展起來,語音生態建設也一定程度上有助於各自的優勢資源的轉化。而能否做成「版的 Alexa」,各家有各家的優勢,但好在國內目前還沒有真正稱霸語音界的老大。

這幾家公司均可利用其在調動資源、人才等方面的能力。在專註於深度的技術研發方面,有足夠的研發能力且能承擔較長周期所帶來的成本,又或者直接收購某個垂直技術領域的初創公司。

在語音平檯布局這件事上,國內以語音助手、語音識別等起家的科技公司也有相應動作,包括科大訊飛、思必馳、雲知聲、出門問問、Rokid 等。

04/

科大訊飛 AIUI

作為國內最早一批從事語音技術研發的企業,自 1999 年成立以來,科大訊飛已在語音領域深耕了近 18 年的時間,並在語音轉文字、實時翻譯、方言識別等技術有重大突破,還佔據了中文市場 70% 的份額。

2010 年,科大訊飛推出訊飛開放平台,主要提供包括語音合成、識別、語義分析等一系列基礎技術在內的 AI 能力。

一直以來,科大訊飛專註於服務 B 端市場,因此積累了不少客戶及合作夥伴。截至今年五月底,訊飛開放平台已跟 35 萬開發者達成合作,開發出了將近 30 萬個應用項目,覆蓋了 10 億多個終端上。

今年 6 月份,科大訊飛現正式推出 AIUI 開放平台,與相對綜合的訊飛開放平台不同的是,AIUI 開放平台基於原先訊飛開放平台生態圈,著重將人機交互的能力向合作夥伴開放,面向垂直領域提供場景交互解決方案。

AIUI 開放平台融合麥克風陣列、語音喚醒、語音識別、語音理解等單點能力,結合信源和第三方服務的接入,形成了一站式的人機交互解決方案。同時,AIUI 開放平台提供音樂等深度定製的通用技能,開發者可根據不同應用場景自定義問答庫,打造個性定製化的服務和功能。

除了多年在不同類型硬體接入上的豐富經驗和技術實力,科大訊飛的方言識別能力算得上是業內最權威且最全面的(預計覆蓋到的方言將達到 20 多種),這使得 AIUI 也具備這樣能力,讓開發者可實現方言引擎的自由切換。

另外,作為國內聯考、語言水平測試等教育領域的重要技術支持方,科大訊飛在教育內容方面也擁有相當的優勢。

05/

思必馳 DUI

2014 年,思必馳率先在推出國內第一個口語對話系統平台「思必馳對話工場],該平台也成為思必馳將於今年 8 月底上線的「DUI 開放平台」的雛形

目前 DUI 開發平台已成為思必馳重要戰略之一,據了解,其內部光是專註該項目的員工就已經超過 100 人。

思必馳 DUI 開放平台主要著眼於任務型對話,「以對話為核心、高可定製、一站式開發」是其主要關鍵點。

▲ 思必馳「DUI 開放平台」內測版本頁面

可視化的編輯界面使得非專業人士也能快速上手,全流程的定製化(包括喚醒詞、語音模型、合成音的定製)滿足了不同開發者的需求。

憑藉多年來在硬體接入、物聯網領域內的耕耘,思必馳也積累了大批用戶群體。推出 DUI 開發平台,思必馳的意圖在於實現客戶由需求方向開發方的轉變,另外也著重鼓勵個人開發者豐富平台的語音技能等內容。

要說 DUI 開放平台的主要優勢,那就是其推出的基於語音、文本對話交互的可視化大數據平台。

▲DUI 基於語音、文本對話交互的可視化大數據平台

利用該平台,開發者可自定義周期、維度、範圍查看平台的實時數據,包括用戶、地區、流量情況、活躍數等。而這樣的實時數據展現能力是目前業內所沒有的。

06/

雲知聲

雲知聲是一家專註於智能語音識別及語言處理技術的移動互聯網公司,主要提供智能家居、智能車載、智慧醫療、智能教育等語音技術解決方案。另外要提的是,雲知聲還是國內第一家深度學習引入到智能交互領域、發布永久免費的語音雲平台的公司。

雲知聲開放平台融合語音識別、語音理解、語音合成、音頻拼寫等服務。針對垂直特定場景,雲知聲打造了智能電視、智能車載、音樂搜索、視頻搜索、購物搜索、語音搜索、音頻轉寫等語音交互應用方案。

▲雲知聲開放平台的各類解決方案

雲知聲藉助雲計算平台和移動互聯網技術,廣泛在移動互聯網、智能家電、可穿戴設備、車載導航、醫療、教育、呼叫中心等領域,能夠實現用戶與設備及設備與設備之間的互聯互通,更大範圍的幫助傳統行業實現互聯網化。

07/ 出門問問

在可穿戴領域內,在國內最早涉足語音交互的則是出門問問這家公司(國外的則是 Google)。

從發布具備語音交互能力的智能手錶后,出門問問陸續推出問問魔鏡 Ticmirror(智能後視鏡)、問問魔眼 Ticeye(ADAS)車載產品,將語音技術打入智能車載領域。

在今年 4 月份的發布會上,出門問問推出首個多場景全覆蓋虛擬個人助理「問問」,並同時推出針對 B 端客戶的、基於「問問」虛擬個人助理的免費 AI 開放平台(ai.chumenwenwen.com),旨在定義下一代人機交互方式。此外,該發布會公布的「問問」智能音響 Tichome 是出門問問邁進智能家居領域的重要標誌。

目前,出門問問的 AI 開放平台通用版已向開發者和硬體廠商全面開放,開發者只需登陸平台網站註冊就可立即下載集成 SDK,讓產品獲得 AI 技術賦能。

與其他主要提供語音技術解決方案的廠家相比較,出門問問的優勢在於,不僅擁有長期積累的 AI 核心技術,在軟硬體消費級產品方面還具備豐富經驗。

08/

Rokid

與出門問問相類似,Rokid 從一開始就選擇一款硬體作為智能語音的入口。在亞馬遜 Echo 大熱的背景下,Rokid 當機立斷的從家庭機器人著手,於 2015 年下半年推出旗下第一款桌面機器人產品——Rokid.Alien(外星人)

接著,在時隔 Rokid.Alien 發布后一年半后,Rokid 發布了 Rokid 第二代產品 Rokid.Pebble(月石)

與 Rokid.Alien 不同的是,Rokid.Pebble 在硬體設計方面採取了更輕量的方案,使得對應的成本、銷售價格得到大幅度降低,旨在進一步開拓消費者範圍。

與亞馬遜 Alexa 等從一開始賣硬體再到開放語音技術、軟硬體接入平台的廠商相仿,Rokid 也在發布 Rokid.Pebble 後計劃開放 Rokid 智能語音,將 Rokid 的技能和語音服務智能集成到開發者和硬體廠商的產品中,為應用程序和設備添加創新獨特的自然語言交互體驗。

因 Rokid 智能家庭機器人產品的屬性,Rokid 在語音交互、機器人情感方面等進行了持續的研究並有相應的獨特優勢。

值得一提的是,Rokid 的第一代產品 Rokid·Allien 雖然吸引了一批天使用戶,但這批用戶的範圍相對狹小,在數量上也不佔優勢。Rokid.Pebble 今年 5 月登陸天貓后,宣傳攻勢就開始從小眾的極客產品發燒用戶,試圖轉向大眾用戶。創始人本人,也親自帶著研發團隊的博士們,蹲點線下店。Rokid·Pebble 能否可以利用親民的價格(雖然已經比一代親民很多,但也是一個四位數的高價)拓寬用戶量,以進一步拓寬平台的知名度,還是個有待考驗的問題。

09/

圖靈 Turing OS

致力於「讓機器人理解世界」的圖靈機器人(以下簡稱圖靈)是一家以語義技術為核心驅動力的人工智慧公司,主要對外提供機器人開放平台、機器人 OS 和場景方案。

2012 年,圖靈發布全球第一款中文語音助手應用——蟲洞語音助手。接著在 2014 年,圖靈發布人工智慧機器人平台。

2015 年,依據以往數據積累以及人工智慧技術成果,圖靈針對服務機器人市場推出了首個人工智慧操作系統——Turing OS,該系統的引擎融合了圖靈智能語音技術。

2016 年 7 月,時隔 Turing OS 發布 8 個月,也就是在首屆圖靈機器人創新大會上,圖靈機器人發布了升級版的 Turing OS 1.5,該系統在原有版本的基礎上強化了運動控制功能,並增加人臉識別、物體識別等視覺能力。在語音方面,Turing OS 1.5 則能更好地支持原廠的語音識別、喚醒、語音消噪等。

在今年最近的一場發布會中,在智能玩具領域有豐富經驗積累的圖靈發布了 Turing OS 專為兒童領域提供的 Turing OS Kids 版本,主打兒童語音對話應用。此外,圖靈還專為智能硬體提供 Turing OS Lite 版本,意在將智能語音植入到各個垂直領域的硬體產品中。

據悉,圖靈是國內最早發布機器人操作系統的公司,截至目前,圖靈機器人的註冊開發者數量已經超過 60 萬。

▲國內語音 OS 一覽表(由於國內做語音 OS 的企業數量較多,本表格僅節選部分具有代表性企業)

小結

以上主要羅列了國內部分做語音開放平台、布局語音 OS 的企業。從企業的類型來看,主要是互聯網科技巨頭,以語音、語義技術起家的公司,或者是語音智能硬體廠商。

以智能家居為代表的物聯網應用正走進千家萬戶,語音技術的成熟為物聯網的智能化連接提供了重要支持,通過語音指令這樣的操控方式,能提升用戶在物聯網時代的智能生活體驗。

在互聯網、移動互聯網時代,鍵盤、滑鼠、多點觸控等人機交互方式佔據了主導地位,因此,以 PC(Windows、MacOS)、手機(iOS、Android)端等相關的操作系統及應用成為開發者的主要任務。

如今,智能語音已成為智能音箱、空調、冰箱、汽車、機器人等智能設備的其中一個信息入口。同樣的道理,圍繞語音這個新型交互方式的系統及應用的開發任務也就被提上了日程。不管是 BAT、語音相關的初創企業都不想錯過這個風口,並紛紛著手布局。

與以往 PC、手機等主要依靠屏幕這單一的信息呈現方式不同,語音能在軟體應用、硬體等不同載體中呈現,因此擁有更廣闊的拓展空間。

而從以上企業的平檯布局情況上看,各家的語音平台路數均有章可循,其中大多與自身所發展的業務息息相關,並主要發揮自身在行業上積累的經驗和資源優勢。同時,各家的語音平台也都涵蓋了許多有共同性質的內容。

「目前,在國內智能語音行業內,並沒有絕對的領先者,每個技術商均在某個領域有自己擅長的地方,AI 行業的機會還很大,BAT 從大著手,我們垂直技術廠商會從技術出發,去逐步解決問題。」曾接受深圳灣採訪的思必馳市場總監龍夢竹曾這麼說道。

不管是在國外領先的 Alexa 以及 Google、Cortana,還是國內 BAT、科大訊飛、思必馳、雲知聲等企業之間,都瀰漫著一股由語音操作系統之爭帶來的硝煙味,而各家的開放平台及相應的開發者、內容就相當於它們的士兵和武器,在目前還未分勝負的狀況下,它們各自都在儲備自己的戰略物資。

深圳灣(微信公眾號 ID:shenzhenware)長期挖掘物聯網、人工智慧、機器人、無人機、智能駕駛、智能家居等領域的新銳產品和初創團隊,歡迎聯繫我們。微信私人客服:小炫(ID:warexx)。


熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦