search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

獨家 | 我們扒出了這家中國創業公司,竟比蘋果iPhone

於是,沒有iPhone X,我也可以在我僅2000元的安卓機上玩轉黑科技了。

記者:鴿子

在我威威天朝,表情包早已泛濫在各類社交應用程序中,如今,咱可以玩點新的包了。


就這個啦!在蘋果iPhoneX的帶領下,一種新的娛樂方式來了...



它生動而霸道地詮釋了什麼才是真正的表!情!包!

我的表情我做主,吼吼...


這就是iPhone X在基於Face ID的新功能下,推出的Animoji。

當你對著攝像頭抬眉頭、皺眉毛、動下巴、睜眼睛、閉眼睛、張嘴唇、咧嘴笑時,手機就會捕捉你的表情,並將其賦予可愛的卡通形象,實時生成一個屬於自己的表情包。


如果說今天我們的重點是聊蘋果,那也太low了,發布會過去了這麼久,太對不起媒體的實效性。


今天,我們想說的是,有一家神秘的公司,早在2年前,就在手機上推出了同樣的功能,並且越做越深。而更為神奇的是,在完全沒有深度攝像頭,甚至沒有雙目攝像頭的情況下,它做到了同樣的效果。這引起了AI科技大本營的注意。


這家低調的公司名叫appMagics——邁吉客科技。


早在2016年,該公司就完成了千萬級人民幣的A輪融資,投資方為極客幫及紫輝創投。在2016年9月獲得藍港互動戰略投資后,它又在2017年6月完成了由華蓋資本領投,博將紫輝跟投的數千萬人民幣A+輪融資。


在看過蘋果發布會關於表情包的展示后,AI科技大本營記者也第一時間聯繫並試用了appMagics的產品。


總體的感覺是:體驗很流暢,表情的貼合度較高,模擬很真實也很細膩。不過,當人突然將距離拉遠,且快速劇烈搖擺時,表情識別偶爾會出現捕捉掉線的情況。


這之後,AI科技大本營記者對appMagicsCTO金宇林進行了獨家專訪,問題略微犀利,回復拒絕套路。希望搞清楚,創業兩年多的appMagics,與蘋果最新的黑科技,到底有何可圈可點之處。採訪內容在不披露被采公司核心技術機密的情況下,盡量保持原樣,部分言辭稍作不改變原意的修改。



AI科技大本營:簡單了解一下您的技術背景。


金宇林:最早我是在北京航空航天大學讀計算機圖形學碩士,之後去了斯坦福繼續讀計算幾何學,這算是計算機圖形學的一個分支。畢業了一直留在美國微軟總部,算是微軟研究院3D列印項目的創始人之一,也申請過挺多專利。算起來,我做計算機圖形學,已經15年了。


AI科技大本營:我們直擊重點,表情識別這個玩法,背後的技術原理是什麼?


金宇林:我盡量說得通俗一點。


原理大致分為三個步驟,第一步是人臉關鍵點識別與跟蹤,第二步是表情分析和映射,第三步是三維模型的控制。


具體來講,人臉關鍵點識別和實時跟蹤,就是根據臉部標註的關鍵點,比如,哪裡是眉毛、哪裡是眼睛、哪裡是嘴等,讓攝像頭清楚看懂人的面部。


表情分析則是說,根據識別和跟蹤到的面部關鍵信息比如眉毛、眼睛、嘴等進行的運動,預測用戶是閉眼還是說話,開心還是悲傷。


而三維模型的控制則是用面部關鍵信息,來驅動構建好的虛擬形象,去學習和模擬用戶的表情。


總的來說,前兩部分屬於計算機視覺的研究範圍,第三部分屬於計算機圖形學的研究領域。


AI科技大本營:到底appMagics所做的表情識別與蘋果剛發布的iPhoneX,差別在哪?


金宇林:剛剛我提到了表情動畫的原理分為三個步驟,我們跟蘋果的差別主要是在前兩步上,也就是第一步人臉關鍵點識別與跟蹤,和第二步表情分析和映射。


簡單來說,蘋果是在3D系統(RGBD攝像頭)的基礎上做,而我們是在2D系統(RGB攝像頭)上,所依賴的軟硬體系統不同。(小編註:為了便於理解,以下RGB攝像頭統稱2D系統,RGBD攝像頭統稱3D系統)


那2D與3D系統在效果上有什麼差別呢?


對於眼睛、眉毛、鼻子、嘴巴這些人臉中分界比較明顯,特徵比較明顯的地方來說,只要訓練的面部數據足夠多,2D跟3D系統在捕捉上幾乎沒有差別。


但對於面部特徵不太明顯的額頭、臉頰等,2D系統的捕捉就不如3D系統精準了。2D不太容易識別出這些部位的點,但3D由於多了一個縱深信息(z軸),它是可以識別到額頭、臉頰這些點的。


拿蘋果所採用的深度攝像系統來說,這是一個3D結構光感測系統。也就是說,這個系統除了有日常2D系統(普通前置RGB攝像頭)捕捉的平面視覺信息外,還有縱深的視覺信息,也就是Z軸。


這個Z軸縱深的數據信息主要來自Dot Projector(點陣投影儀),通過它將結構紅外光投射到人臉上,再用紅外攝像頭接收這些投射在人臉上的形變,計算面部每個點的深度數據。


這樣,每個點不僅有了平面的坐標,而且有了Z軸深度坐標,對每個圖像信息點的定位更為精準。


至於第三步,我們跟蘋果沒有差別。在三維模型控制和最終呈現效果上,我們從一開始的定位就是三維混合現實。


AI科技大本營:那我是不是可以說,蘋果iPhoneX無論在精準度上,還是性能上,都更佔優勢?


金宇林:就客觀條件來說,由於iPhoneX在RGBD攝像頭的硬體基礎下,識別的關鍵點更多,所以確實能精準捕捉到更多細節。


另外,由於蘋果可以完全支配自己的軟硬體系統,因此iPhoneX在性能上,一定更穩定。別說是表情,在很多方面,蘋果手機由於軟硬體一體化,性能也是大大優於其他手機的。這是客觀硬體配置所決定的,沒辦法。


不過要說到蘋果的優勢,其實並不完全是這樣。這裡有兩點需要說明一下。


第一,對於表情的捕捉,並非越精準就一定越好。因為人的感官並非完全是寫實的。


怎麼理解?我舉個例子。當你閉上雙眼的時候,其實並不是同時閉上的,可你自己以為是同時閉的,所以,當你看到表情捕捉到一隻眼總是閉得慢一些時,會產生不適感。


再比如,當你閉一隻眼時,另一隻眼其實會眯上一點,但人並不自知。所以,當你看到表情捕捉呈現出最真實的效果時,反而不舒服,因為這跟你的潛意識不符。


所以,當我們把表情捕捉用於泛娛樂場景時,它更重要的目標是讓虛擬形象能夠傳達人類的情感。所以,我們會用演算法做一些處理,讓你在真實和虛擬中達到一種視覺平衡。這種情況,確實並非越寫實越好。


做VR和AR的人,可能對這一點的理解更深。


第二,在某些必須達到的真實度上,即使硬體並不具備,我們用演算法也是能彌補的,而且效果絕不差。


我們兩年來,一直埋頭所做的一件事情就是,通過不斷優化的演算法,讓表情模擬在普通手機上也能玩起來,而且傳達人類的情感。


啥意思?


簡單來說就是,原本普通RGB攝像頭不容易捕捉的部分,我們靠演算法來彌補。


比如,當我咧嘴的時候,我們會通過演算法,來預測和模擬臉部肌肉的隆起;在皺眉的時候,也通過演算法,來模仿額頭的變化。我們在2D攝像頭系統之上模擬了三維數據,在客觀硬體基礎不具備的情況下,也能將表情動畫玩起來,而且看不出來太大的差別。


也就是說,通過演算法,盡量降低玩表情動畫的硬體要求和硬體成本。目前我們在iphone6上就能玩起來,安卓機也能玩。


AI科技大本營:這算技術上的核心競爭力嗎?


金宇林:可以這麼說。


其實,要說表情識別,好萊塢很多年前就在電影特效中用上了。


比如阿凡達和魔獸世界裡面的表情就是用三維重構來實現的。具體的原理是,通過在演員的臉上貼圖,形成一定的點陣(與蘋果點陣投影儀的原理一致),臉部的特徵就出來了。這樣,當你的面部表情變化時,臉上的點隨之而動,攝像頭將其精準捕捉,就可以放在三維模型上用了。


但好萊塢的硬體多貴啊,普通人想玩這個怎麼辦呢?所以我們就基於普通手機的RGB攝像頭,重新設計演算法,在沒有深度信息的情況下用演算法來彌補,把這些功能實現了。


把影視CG技術消費化,把影視動漫玩的東西搬到每個人的口袋裡,iPhonen能用,安卓手機能用,普通PC能用,Mac也能用,跨平台,這算是核心競爭力。


說白了,是把工業級能力和技術轉化為民用級,讓人想玩就玩,不用考慮太多硬體的配置。


AI科技大本營:如果說多年積累的核心競爭力在於,在2D系統(RGB攝像頭)用演算法來做3D系統(RGBD攝像頭)才能做的事。那當3D攝像頭普及,還有優勢嗎?


金宇林:就像我剛剛提到的,在表情識別上, 我們的核心演算法分為三部分,獲取現實中的關鍵信息確實基於普適的2D攝像頭系統,不過我們從一開始就採用的3D數據模擬和控制,如果有一天所有手機都能直接獲取三維數據,那麼這一步我們的演算法是不用做任何更換的,直接復用,所以這部分積累的優勢仍然在。


但正如你所說,如果3D攝像頭普及,整個行業的軟體演算法門檻將被大大拉低,我們基於2D系統所做的演算法積累和優化確實就沒有特別多的優勢了。


不過你要知道,RGBD攝像頭的普及並非易事,蘋果不也是在iphone X上才採用,iphone8上都沒有,因為目前RGBD無論在硬體微型化的成本和耗電方面壁壘都太高了。


這樣說吧,從現在到未來很長一段時間,市場上絕大多數手機仍是2D攝像頭的蘋果和安卓機,那麼我們基於2D系統所積累的三維演算法壁壘,仍長期存在。


AI科技大本營:所以,基於目前的優勢,主要拼搶的是中低端2D攝像頭市場?


金宇林:從技術上來說,兩個方向吧。


一個方向主打深度和精細度,高端手機市場,基於現有技術積累不斷開發新演算法的能力,包括直接可兼容用在3D系統中的演算法;


一個方向主打廣度,繼續針對2D系統,擴大該技術在中低端手機上的適用性。目前我們演算法的定位可以適用iphone5以上的蘋果機型,以及主流安卓機型。這塊會一點點往下做,匹配更多中低端安卓機型,覆蓋更多用戶。


這兩方面都很重要。


拋開技術,從整個公司的戰略來說吧,創始人Leody(小編註:appMagics 創始人CEO 伏英娜)一直強調,我們自身定位是跨界跨界跨界,不是天天埋頭就搞計算機視覺、圖形學、人工智慧這些技術,技術的背後要有感覺,有感情,有感性的元素才行啊。


appMagics所設計的卡通表情形象

AI科技大本營:既然這樣,為何非要自己開發背後整套技術,為何不直接調用第三方人臉識別科技公司的技術,專註於打造娛樂產品就好,豈不更省事?


金宇林:其實一開始,是考慮採用第三方技術的,不過試過所有的第三方技術,發現沒有辦法直接用。


為什麼呢?


你看,目前CV(計算機視覺)領域,最大的市場是安防和金融。


對於安防和金融來說,計算機視覺主要的作用是,在很短的時間內判斷是不是本人。而我們的要求是,計算機所識別到的表情是否精細,虛擬表情所模擬的效果是否準確。


這是兩個完全不同的目標。那麼其訓練的出來的數據和演算法,只能服務於一個目標,沒有辦法兼容。


再一個,目前的人臉識別大多是二維演算法,但二維演算法沒有深度信息,用在表情模擬和控制上是遠遠不夠的,因為很多特徵不明顯的關鍵點捕捉不到。這塊就必須用三維演算法來補齊。


所以,我們只能自己來做,從頭到尾設計演算法,做數據訓練。


AI科技大本營:隨著想要實現的不同目標越來越多,未來CV領域貌似越來越細化了。


金宇林:必須細化。


AI科技大本營:估算一下,表情動畫這塊有多大的市場規模?


金宇林:不說別的,就單說手機。如果現在所有的手機用戶,管他是蘋果還是安卓,管他高中低端,都想玩這種表情包,而現有手機的硬體條件也都帶得起來,你覺得這是一個多大的市場。這塊你可以具體跟Leody聊聊。


AI科技大本營:蘋果這次iPhone X發布會,對公司倒是個很不錯的PR機會。就最近而言,有什麼特別大的直觀的影響嗎?


金宇林:特別大!這幾天,因為蘋果iPhone X推表情動畫這個事,突然多了一堆找上來的合作夥伴和投資人,什麼安卓廠商,APP,做輸入法的公司,全擠過來了。


Leody還沒回北京已經約不過來了。


一個行業最好的狀態是什麼呢,就是你做一個東西,一開始只有你在做,慢慢的,很多人發現,「咦,這個東西很有用啊」,於是都來學你做,因為表情動畫很可能在未來兩年成為App和手機標配,這就證明,你之前預測對了,你押對寶了。(笑)



附:

appMagics創始人兼CEO

伏英娜Leody Fu是位女極客+連續創業者。2004年離開索尼愛立信創辦MoGenisis,並於2007年成功被Symbian(諾基亞)併購。2010年加盟微軟,先後擔任大中華區及美國總部高管,帶領團隊進行微軟新技術的傳播和推廣。2014年創辦appMagics,專註於計算機視覺混合現實相關技術與文娛領域的跨界創新。



更多資訊請關注微信公眾號:AI科技大本營(rgznai100)



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦