Zi 字媒體

獨家 | 我們扒出了這家中國創業公司，竟比蘋果iPhone

2021/12/25

yidianzixun

於是，沒有iPhone X，我也可以在我僅2000元的安卓機上玩轉黑科技了。

記者：鴿子

在我威威天朝，表情包早已泛濫在各類社交應用程序中，如今，咱可以玩點新的包了。

就這個啦！在蘋果iPhoneX的帶領下，一種新的娛樂方式來了...

它生動而霸道地詮釋了什麼才是真正的表！情！包！

我的表情我做主，吼吼...

這就是iPhone X在基於Face ID的新功能下，推出的Animoji。

當你對著攝像頭抬眉頭、皺眉毛、動下巴、睜眼睛、閉眼睛、張嘴唇、咧嘴笑時，手機就會捕捉你的表情，並將其賦予可愛的卡通形象，實時生成一個屬於自己的表情包。

如果說今天我們的重點是聊蘋果，那也太low了，發布會過去了這麼久，太對不起媒體的實效性。

今天，我們想說的是，有一家神秘的公司，早在2年前，就在手機上推出了同樣的功能，並且越做越深。而更為神奇的是，在完全沒有深度攝像頭，甚至沒有雙目攝像頭的情況下，它做到了同樣的效果。這引起了AI科技大本營的注意。

這家低調的公司名叫appMagics——邁吉客科技。

早在2016年，該公司就完成了千萬級人民幣的A輪融資，投資方為極客幫及紫輝創投。在2016年9月獲得藍港互動戰略投資后，它又在2017年6月完成了由華蓋資本領投，博將紫輝跟投的數千萬人民幣A+輪融資。

在看過蘋果發布會關於表情包的展示后，AI科技大本營記者也第一時間聯繫並試用了appMagics的產品。

總體的感覺是：體驗很流暢，表情的貼合度較高，模擬很真實也很細膩。不過，當人突然將距離拉遠，且快速劇烈搖擺時，表情識別偶爾會出現捕捉掉線的情況。

這之後，AI科技大本營記者對appMagicsCTO金宇林進行了獨家專訪，問題略微犀利，回復拒絕套路。希望搞清楚，創業兩年多的appMagics，與蘋果最新的黑科技，到底有何可圈可點之處。採訪內容在不披露被采公司核心技術機密的情況下，盡量保持原樣，部分言辭稍作不改變原意的修改。

AI科技大本營：簡單了解一下您的技術背景。

金宇林：最早我是在北京航空航天大學讀計算機圖形學碩士，之後去了斯坦福繼續讀計算幾何學，這算是計算機圖形學的一個分支。畢業了一直留在美國微軟總部，算是微軟研究院3D列印項目的創始人之一，也申請過挺多專利。算起來，我做計算機圖形學，已經15年了。

AI科技大本營：我們直擊重點，表情識別這個玩法，背後的技術原理是什麼？

金宇林：我盡量說得通俗一點。

原理大致分為三個步驟，第一步是人臉關鍵點識別與跟蹤，第二步是表情分析和映射，第三步是三維模型的控制。

具體來講，人臉關鍵點識別和實時跟蹤，就是根據臉部標註的關鍵點，比如，哪裡是眉毛、哪裡是眼睛、哪裡是嘴等，讓攝像頭清楚看懂人的面部。

表情分析則是說，根據識別和跟蹤到的面部關鍵信息比如眉毛、眼睛、嘴等進行的運動，預測用戶是閉眼還是說話，開心還是悲傷。

而三維模型的控制則是用面部關鍵信息，來驅動構建好的虛擬形象，去學習和模擬用戶的表情。

總的來說，前兩部分屬於計算機視覺的研究範圍，第三部分屬於計算機圖形學的研究領域。

AI科技大本營：到底appMagics所做的表情識別與蘋果剛發布的iPhoneX，差別在哪？

金宇林：剛剛我提到了表情動畫的原理分為三個步驟，我們跟蘋果的差別主要是在前兩步上，也就是第一步人臉關鍵點識別與跟蹤，和第二步表情分析和映射。

簡單來說，蘋果是在3D系統（RGBD攝像頭）的基礎上做，而我們是在2D系統（RGB攝像頭）上，所依賴的軟硬體系統不同。（小編註：為了便於理解，以下RGB攝像頭統稱2D系統，RGBD攝像頭統稱3D系統）

那2D與3D系統在效果上有什麼差別呢？

對於眼睛、眉毛、鼻子、嘴巴這些人臉中分界比較明顯，特徵比較明顯的地方來說，只要訓練的面部數據足夠多，2D跟3D系統在捕捉上幾乎沒有差別。

但對於面部特徵不太明顯的額頭、臉頰等，2D系統的捕捉就不如3D系統精準了。2D不太容易識別出這些部位的點，但3D由於多了一個縱深信息（z軸），它是可以識別到額頭、臉頰這些點的。

拿蘋果所採用的深度攝像系統來說，這是一個3D結構光感測系統。也就是說，這個系統除了有日常2D系統（普通前置RGB攝像頭）捕捉的平面視覺信息外，還有縱深的視覺信息，也就是Z軸。

這個Z軸縱深的數據信息主要來自Dot Projector（點陣投影儀），通過它將結構紅外光投射到人臉上，再用紅外攝像頭接收這些投射在人臉上的形變，計算面部每個點的深度數據。

這樣，每個點不僅有了平面的坐標，而且有了Z軸深度坐標，對每個圖像信息點的定位更為精準。

至於第三步，我們跟蘋果沒有差別。在三維模型控制和最終呈現效果上，我們從一開始的定位就是三維混合現實。

AI科技大本營：那我是不是可以說，蘋果iPhoneX無論在精準度上，還是性能上，都更佔優勢？

金宇林：就客觀條件來說，由於iPhoneX在RGBD攝像頭的硬體基礎下，識別的關鍵點更多，所以確實能精準捕捉到更多細節。

另外，由於蘋果可以完全支配自己的軟硬體系統，因此iPhoneX在性能上，一定更穩定。別說是表情，在很多方面，蘋果手機由於軟硬體一體化，性能也是大大優於其他手機的。這是客觀硬體配置所決定的，沒辦法。

不過要說到蘋果的優勢，其實並不完全是這樣。這裡有兩點需要說明一下。

第一，對於表情的捕捉，並非越精準就一定越好。因為人的感官並非完全是寫實的。

怎麼理解？我舉個例子。當你閉上雙眼的時候，其實並不是同時閉上的，可你自己以為是同時閉的，所以，當你看到表情捕捉到一隻眼總是閉得慢一些時，會產生不適感。

再比如，當你閉一隻眼時，另一隻眼其實會眯上一點，但人並不自知。所以，當你看到表情捕捉呈現出最真實的效果時，反而不舒服，因為這跟你的潛意識不符。

所以，當我們把表情捕捉用於泛娛樂場景時，它更重要的目標是讓虛擬形象能夠傳達人類的情感。所以，我們會用演算法做一些處理，讓你在真實和虛擬中達到一種視覺平衡。這種情況，確實並非越寫實越好。

做VR和AR的人，可能對這一點的理解更深。

第二，在某些必須達到的真實度上，即使硬體並不具備，我們用演算法也是能彌補的，而且效果絕不差。

我們兩年來，一直埋頭所做的一件事情就是，通過不斷優化的演算法，讓表情模擬在普通手機上也能玩起來，而且傳達人類的情感。

啥意思？

簡單來說就是，原本普通RGB攝像頭不容易捕捉的部分，我們靠演算法來彌補。

比如，當我咧嘴的時候，我們會通過演算法，來預測和模擬臉部肌肉的隆起；在皺眉的時候，也通過演算法，來模仿額頭的變化。我們在2D攝像頭系統之上模擬了三維數據，在客觀硬體基礎不具備的情況下，也能將表情動畫玩起來，而且看不出來太大的差別。

也就是說，通過演算法，盡量降低玩表情動畫的硬體要求和硬體成本。目前我們在iphone6上就能玩起來，安卓機也能玩。

AI科技大本營：這算技術上的核心競爭力嗎？

金宇林：可以這麼說。

其實，要說表情識別，好萊塢很多年前就在電影特效中用上了。

比如阿凡達和魔獸世界裡面的表情就是用三維重構來實現的。具體的原理是，通過在演員的臉上貼圖，形成一定的點陣（與蘋果點陣投影儀的原理一致），臉部的特徵就出來了。這樣，當你的面部表情變化時，臉上的點隨之而動，攝像頭將其精準捕捉，就可以放在三維模型上用了。

但好萊塢的硬體多貴啊，普通人想玩這個怎麼辦呢？所以我們就基於普通手機的RGB攝像頭，重新設計演算法，在沒有深度信息的情況下用演算法來彌補，把這些功能實現了。

把影視CG技術消費化，把影視動漫玩的東西搬到每個人的口袋裡，iPhonen能用，安卓手機能用，普通PC能用，Mac也能用，跨平台，這算是核心競爭力。

說白了，是把工業級能力和技術轉化為民用級，讓人想玩就玩，不用考慮太多硬體的配置。

AI科技大本營：如果說多年積累的核心競爭力在於，在2D系統（RGB攝像頭）用演算法來做3D系統（RGBD攝像頭）才能做的事。那當3D攝像頭普及，還有優勢嗎？

金宇林：就像我剛剛提到的，在表情識別上，我們的核心演算法分為三部分，獲取現實中的關鍵信息確實基於普適的2D攝像頭系統，不過我們從一開始就採用的3D數據模擬和控制，如果有一天所有手機都能直接獲取三維數據，那麼這一步我們的演算法是不用做任何更換的，直接復用，所以這部分積累的優勢仍然在。

但正如你所說，如果3D攝像頭普及，整個行業的軟體演算法門檻將被大大拉低，我們基於2D系統所做的演算法積累和優化確實就沒有特別多的優勢了。

不過你要知道，RGBD攝像頭的普及並非易事，蘋果不也是在iphone X上才採用，iphone8上都沒有，因為目前RGBD無論在硬體微型化的成本和耗電方面壁壘都太高了。

這樣說吧，從現在到未來很長一段時間，市場上絕大多數手機仍是2D攝像頭的蘋果和安卓機，那麼我們基於2D系統所積累的三維演算法壁壘，仍長期存在。

AI科技大本營：所以，基於目前的優勢，主要拼搶的是中低端2D攝像頭市場？

金宇林：從技術上來說，兩個方向吧。

一個方向主打深度和精細度，高端手機市場，基於現有技術積累不斷開發新演算法的能力，包括直接可兼容用在3D系統中的演算法；

一個方向主打廣度，繼續針對2D系統，擴大該技術在中低端手機上的適用性。目前我們演算法的定位可以適用iphone5以上的蘋果機型，以及主流安卓機型。這塊會一點點往下做，匹配更多中低端安卓機型，覆蓋更多用戶。

這兩方面都很重要。

拋開技術，從整個公司的戰略來說吧，創始人Leody（小編註：appMagics 創始人CEO 伏英娜）一直強調，我們自身定位是跨界跨界跨界，不是天天埋頭就搞計算機視覺、圖形學、人工智慧這些技術，技術的背後要有感覺，有感情，有感性的元素才行啊。

appMagics所設計的卡通表情形象

AI科技大本營：既然這樣，為何非要自己開發背後整套技術，為何不直接調用第三方人臉識別科技公司的技術，專註於打造娛樂產品就好，豈不更省事？

金宇林：其實一開始，是考慮採用第三方技術的，不過試過所有的第三方技術，發現沒有辦法直接用。

為什麼呢？

你看，目前CV（計算機視覺）領域，最大的市場是安防和金融。

對於安防和金融來說，計算機視覺主要的作用是，在很短的時間內判斷是不是本人。而我們的要求是，計算機所識別到的表情是否精細，虛擬表情所模擬的效果是否準確。

這是兩個完全不同的目標。那麼其訓練的出來的數據和演算法，只能服務於一個目標，沒有辦法兼容。

再一個，目前的人臉識別大多是二維演算法，但二維演算法沒有深度信息，用在表情模擬和控制上是遠遠不夠的，因為很多特徵不明顯的關鍵點捕捉不到。這塊就必須用三維演算法來補齊。

所以，我們只能自己來做，從頭到尾設計演算法，做數據訓練。

AI科技大本營：隨著想要實現的不同目標越來越多，未來CV領域貌似越來越細化了。

金宇林：必須細化。

AI科技大本營：估算一下，表情動畫這塊有多大的市場規模？

金宇林：不說別的，就單說手機。如果現在所有的手機用戶，管他是蘋果還是安卓，管他高中低端，都想玩這種表情包，而現有手機的硬體條件也都帶得起來，你覺得這是一個多大的市場。這塊你可以具體跟Leody聊聊。

AI科技大本營：蘋果這次iPhone X發布會，對公司倒是個很不錯的PR機會。就最近而言，有什麼特別大的直觀的影響嗎？

金宇林：特別大！這幾天，因為蘋果iPhone X推表情動畫這個事，突然多了一堆找上來的合作夥伴和投資人，什麼安卓廠商，APP，做輸入法的公司，全擠過來了。

Leody還沒回北京已經約不過來了。

一個行業最好的狀態是什麼呢，就是你做一個東西，一開始只有你在做，慢慢的，很多人發現，「咦，這個東西很有用啊」，於是都來學你做，因為表情動畫很可能在未來兩年成為App和手機標配，這就證明，你之前預測對了，你押對寶了。（笑）

附：

appMagics創始人兼CEO

伏英娜Leody Fu是位女極客+連續創業者。2004年離開索尼愛立信創辦MoGenisis，並於2007年成功被Symbian（諾基亞）併購。2010年加盟微軟，先後擔任大中華區及美國總部高管，帶領團隊進行微軟新技術的傳播和推廣。2014年創辦appMagics，專註於計算機視覺混合現實相關技術與文娛領域的跨界創新。

更多資訊請關注微信公眾號：AI科技大本營（rgznai100）

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點