search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

人工智慧創造了很多「人工」的就業崗位

【編者按】人工智慧正在變革各個行業,也有不少人擔心人工智慧帶來對人類的威脅,以及就業崗位受到威脅,但是被譽為「高智商」的人工智慧看似代替了很多就業崗位,其實也創造了另一批「人工」崗位。

本文轉載自機器之心,作者虞喵喵;由億歐編輯,供行業內人士參考。

在大部分人看來,人工智慧是個有些「科幻」的辭彙,代表小說電影中和人類長相相似、或溫柔或冷酷的機器人。

稍微熟悉一點,這份印象又變成冷冰冰的GPU陣列、複雜多層的神經網路和一大串佶屈聱牙的專有名詞。能接觸它們的除了工程師,就是科學家。

也許這份印象需要再度刷新一次——人工智慧,真的需要不少「人工」。

標註這件「小事」,還需要人幫忙

秦嬌今年剛滿 30 歲,幾個月前剛剛從呼叫中心跳槽到一家「數據加工」公司。雖然跨了行業,她並不覺得兩份工作有什麼不同,都是按照甲方的要求和己方的工作節奏,把人手安排到一個又一個項目中去。

公司剛成立不到一年,眼下業務大多是標註數據,即根據項目方要求,人工為圖片、視頻和語音內容打標籤、做標記。標註好的數據會被人工智慧公司用來訓練演算法模型,然後應用到圖像識別、語音識別等不同領域。

通常來說,數據標註得越準確、數量越多,模型的效果就越好。自然,產品的效果就會更好。

一旦要求質量,每個人的產出量就不會太多。熟練者平均一天可以標註 40 張圖片,前提是只需要為圖片中的物體打框、標註類別和前後關係。如果涉及到刻畫建築物邊緣等複雜細節,一天標註10張已是極限。

圖片為簡單標註方式的一種

但需要處理的數據訂單往往以「萬」為單位。最新的需求是6萬張圖片,7天內完成。理論上這個訂單需要214個人共同工作7天,秦嬌手頭只有不到100個人,其中一部分還要完成其它項目。幾次秦嬌都對著電話那頭擺出不耐煩的神情,「你跟他說,要我去死好不好」。

與擁有 1,500 萬張標註圖片的數據集Image Net相比,只有6萬張圖片的項目顯得十分渺小。不過大部分人可能很難想象,是來自167個國家的48,940名工作者,花費了2年時間,清理、分類、標記了近十億張通過互聯網搜集到的圖片,才得到這個有1,500萬張圖片的數據集。其所耗費的時間與人力,遠非一般項目可比。

數據龐大又開源,ImageNet很快成為研究圖像識別的首選。不論Andrew Ng(吳恩達)還是Jeff Dean,涉足這一領域研究者都使用過ImageNet。但ImageNet有自己的弱點,標註框太大、標註方式少和不時出現的錯誤,使它難以被用來訓練實際應用的演算法模型。

人工智慧公司們必須想盡辦法,積累符合自身應用方向,標註得更細緻、更準確的數據。在初創公司招聘工程師的需求中,「有收集標註數據的能力」有時也會被寫進其中。某種程度上,高質量的標註數據決定了一家人工智慧公司競爭力。

儘管互聯網的確催生了浩如煙海的內容,但標註這件需要耐心和專註的「小事」,暫且還要靠人的幫忙。

大數據就是呼叫中心

在專業的數據標註公司出現前,眾包平台往往是大部分公司的選擇。

人們認為靈活性更高的眾包方式能適應不穩定的數據需求,價格成本也更低。某知名數據眾包平台據稱擁有超過5,000名數據標註專員,單日可處理超過200萬條數據,能「穩定提供數據標註服務」。

數據標註是所有數據眾包平台的核心業務,除此之外還有數據清洗、數據採集等等

不過從單日單人數據比(400 條數據/人)可以推測出,其標註質量也許並非所說的那麼可靠。由於參與眾包標註的工作者數量很多,專業背景和工作能力參差不齊,「收集到的標註內容中存在雜訊甚至錯誤,不能直接作為正確的標註使用」早已是不爭的事實。如何解決眾包平台的質量缺陷,已經成為近年來博碩士論文的議題之一。

通過數據交易平台購買已標註好的數據包也是一種選擇。但問題似乎又繞回為什麼人工智慧公司要自己標註數據:不同的應用方向需要的數據內容不同,甚至標註方式也不同。

秦嬌目前所在的這家公司,瞄準的就是這片市場——人工智慧公司需要的數據既要根據需求定製,又要保證標註質量,同時數量還十分龐大。大部分人工智慧公司自身和眾包平台都無法同時滿足這三種要求,因而誕生了專業的數據標註公司。

這家「數據加工」公司的一二層,全部是負責標註數據的員工。為滿足不同訂單需求,員工們被劃分成不同小組:

有的小組負責勾畫圖片中人體的關節點,將複雜的瑜伽姿勢抽象成點和線,可以用來訓練識別人體體態的模型;

有的小組要為路況圖片中的車輛、機車、腳踏車和行人打上邊框,並標註行進方向和是否有遮擋,這類圖片多用來訓練智能安防攝像頭的識別能力;

有的小組需要分毫不差地描繪建築物的邊緣,將靜止畫面中鱗次櫛比的大樓一一分割,標註成不同的色塊,這類數據多用在自動駕駛中車輛對環境的認知;

有的正將雷達掃描出的障礙物3D線條一一還原成實物,長方體是建築、綠色的是樹木,這些內容會被用來訓練雷達數據和真實世界的關聯性。

標註作業有時並不簡單,比如這種關聯性標註

除圖片外,這裡還有負責視頻標註的員工。她們需要從每段視頻中抽出10幀,標註相近兩幀中物體的方向和坐標的變化。這些數據也許會被用來訓練機器對物體連貫性的感知,也許用來訓練機器預判物體的位置變化。

與大部分製造業類似,這裡的各個小組都有自己的管理者。管理者之上是項目經理,然後才是秦嬌這樣為數不多的高層管理者。員工「生產」的內容會經過質檢人員的核驗,全部合格后才會最終交付項目方。嚴格的流程和管理制度,保證了穩定的標註效率和質量。

「很多人認為大數據就是呼叫中心,我們發展的大數據和其他人不一樣,整個貴州只有我們做數據精加工。」對於公司目前在做的業務,秦嬌顯得非常驕傲。

的確,這些結構化后數據,將成為這場人工智慧大潮中的公司們的立足之本。不僅幫助它們提升模型的準確度、提升產品的可靠性,甚至影響它們的發展軌跡和融資進程。

找到更深入行業的業務模式

「數據加工」公司所在地距「大數據之城」貴陽五十多公里,是一座只接受科技公司入駐的「數字小鎮」。剛剛落成入駐率不高,加上位置偏遠、人跡罕至,園區顯得十分安靜。

有趣的是儘管位處山林之中,小鎮的隔壁有一間規模不小的高職學校,學校的學生構成了這家公司目前主要的員工來源。除上課外,學生們每天有大約 6 個小時可以工作,「易於管理、盡職盡責」是秦嬌給這些學生的評價。

高職學校初建的目的是教育扶貧,因此學生們大多來自貧困山區,學校會提供不少補助和獎學金。在數據加工公司兼職賺來的錢不僅足夠生活,有些學生還會拿出一部分補貼家用。偶爾這份工作還能成為職業跳板,「我們的學生踏實又努力,有的去北京實習,因為熟悉標註工作、又認真,反饋回來說比同樣實習的北京大學生強得多」。

學校走廊的牆上也貼著不少相似的學生案例。在描述學生們入學前情況的文字中,不可避免地包含著「貧窮」、「雙亡」、「殘疾」等辭彙。其中一張照片中父親、母親和學生坐在寨樓的木板地上,身後昏暗的空間里沒有任何擺設;另一張照片中的學生摟著患病的哥哥;還有一張照片,面無表情的學生正坐在床一樣的地方,背景是用黑白報紙糊著的牆。後來,她們都憑努力改變了自己和家庭的命運。

對這份工作能帶給學生的機會與回報,「數據加工」公司的COO李政同樣十分篤定。但比起秦嬌對於數據標註行業的信心滿滿,他則顯得有些憂心忡忡。畢業於北京航空航天大學的他清晰地意識到,現階段的數據標註還是勞動密集型產業,和南方工廠沒什麼不同。學生們都只是流水線上來料加工的一環,處在價值鏈的底端。只有向前一步,找到更深入行業的業務模式,才能從已經開始熱絡的數據加工行業中脫穎而出。

摸索了近一年,李政拓展了包括採集數據在內的不少業務。所謂採集數據,是指自主拍攝符合項目方要求的人像圖片,如一個人正面、45 度、60 度以及佩戴各類裝飾物的照片。這些圖片可以用來訓練計算機對於同一張人臉在不同狀態下識別的準確性和關聯性,是目前大部分專註人臉的計算機視覺公司都有的需求。

有時,表情也在規定在數據採集的要求中

在自己搭建的攝影棚中,「數據加工」公司已經完成了好幾份訂單。主角當然還是學生們,她們排隊依次進入影棚,按照要求擺好姿勢拍下幾張照片后,再分別戴上口罩、墨鏡、帽子繼續拍攝。一套照片往往包含 10 幾張,一天能拍攝 100 多套。比起安防公司自己搜集或拍攝照片,這套標準流程和足夠的樣本數(學校至少有上千個學生)的確有不小競爭力。

除此之外,她們還可以承接小語種的語料收集工作。地處西南、臨近東南亞,當地的人際關係鏈和頻繁的商務交往能提供不少便利。

「只做來料加工肯定不行,」李政非常堅定,「我們最近正在培訓一些技術人員,懂技術才能和項目方更好地溝通需求,把需求更好地描述出來,我們才能更好地滿足。」

精細化標註不是什麼容易事

「標註真的是個辛苦活。」提起「數據標註」四個字,華院數據的首席科學家尹相志不禁咧了咧嘴。

幾個月前,華院數據剛剛舉辦過一次大數據應用比賽,包含識別複雜圖像中的動物、通過行車記錄儀的圖像還原駕車操作場景等多個環節。在「通過賣場貨架圖片自動計算產品的貨架佔有率」這項測試中,她們拍攝了1600多張真實的貨架圖片作為原始數據。

比賽的目的,是通過不到兩千張的「小數據樣本」,實現往往需要大量樣本才能實現的圖像識別。為了讓比賽的難度不那麼「變態」,她們還為選手們提供了「精細化標註」后的貨架圖片——所謂精細化標註,就是貨架上每一包緊挨著的零食、泡麵,都要沿邊緣仔細劃分。

圖中左側為從真實貨架照片中挖取出的同類商品碎片;右側為對貨架上不同商品的標註,每種灰度對應一種商品

「深度學習最大的問題還是樣本數,這裡考的其實是怎樣通過小樣本進行學習。」通過這項挑戰的訣竅之一,是將原本 1000 多張圖片根據提供的邊緣裁切保留純粹的產品圖像,透過數據增強技術放大到數十萬張,再根據這些增強后的圖片建模就可以減少誤差。精細化標註不僅能幫助解決樣本稀少的問題,對於過往需要幾十萬圖片才能訓練模型的模式也帶來了啟發。

不過精細化標註並不是什麼容易事,這一千多張圖片的標註耗費了 12 個人大半個月時間,負責標註工作的組員「幾近崩潰」。如果有人能承擔複雜標註這項令人「崩潰」的工作,並善於滿足複雜的標註要求,人工數據標註能成為一項長遠發展的產業嗎?

「近期需求還是很大,」尹相志想了想,「但這個行業可能只有 5 年時間,大家都在想各種辦法,比如開源,比如小樣本學習本身。」

除了小樣本學習,人們也在思考是否能合成數據。圖像識別領域的研究者們正在嘗試通過圖形學方法,製造出逼真的、和真正訓練圖像非常相似的圖片。理論上這種方法能夠產生大量直接帶有標註的數據,但能不能「真實」,還需要圖形學上的進步。

ImageNet的締造者李飛飛同樣意識到精細化標註的力量,正在進行一份名為「Visual Genome」的工作。Visual Genome有更多、更窄的框,更詳細的名詞標註,以及位置關係和動作關係。目前Visual Genome中有10.8萬張圖片。

對於數據標註這件不大不小的麻煩事,每個從業者都有自己的看法。有人諱莫如深,將話題轉換成互聯網是最龐大的數據集;但事實上所有人都知道採集到的數據無法直接使用。有人坦誠不少數據需要學生兼職或靠自己的員工標註,對質量的不滿促使有些公司乾脆成立了數據標註部門;還有人透露,如果用對了關鍵詞,在淘寶也能找到不少外包商。

不過每個人或多或少都樂觀相信,5年後就不再需要這麼多人力,無監督學習、小樣本或者自動生成數據會發揮更大作用。

可那些傾注人們心血標記而成、精巧如藝術品的標註圖片,5 年後的計算機,真的不再需要它們了嗎?

數據標註是一門不錯的好生意

在知乎「大公司裡面有人專門負責標註數據嗎?」問題下,共有 21 個回答。來自大公司的回答者們表示曾「發動全部門人對幾萬張圖進行人肉打標」,或是將工作「安排在人力成本比較低的分公司」。小公司們則將數據「交給隔壁全是女性的部門標」,或是「省錢就自己人標了」。除此之外,交給外包公司是頻率最高的選項。

從招聘網站發布的職位需求也可略窺一二。在智聯招聘中鍵入「數據標註」,可以找到60個直接相關職位。在拉勾網則能找到近400個——管理外包團隊等相關職位也被算入其中。以兼職為主題的豆瓣小組和百度貼吧,也從滿屏的寫軟文、寫小說、寫評論,開始夾雜數據標註的兼職招募。

看起來,在人工智慧行業火熱、大量創業公司湧現的當下,數據標註是一門不錯的好生意

2009年,張彤禾曾在《打工女孩》中描述過一群背井離鄉,來到東莞獨自打拚的女孩。她們剛剛十八九歲,甚至尚未成年,便離開學校在工廠里不分晝夜地工作。流水線上的女工,既不了解自己正在生產什麼,也不知道自己的工作「秋西」(QC)就是「質量檢測」。不論工作還是生存環境都相當惡劣,晚上去小吃街就算改善生活,往往也缺乏精神娛樂。

但與印象中打工者的刻板形象不同,她們既不短視,也不壓抑。她們不在乎15個人共用一個房間,50個人共用一個洗手間。佔據她們頭腦的是,多久才能存夠買房子的錢?該如何晉陞或者乾脆跳到更有前景的崗位?所剩無幾的周末,是該學習計算機、英語還是別的什麼?

與馬克思那份工人與生產物分離后,失去了滿足和快樂的「資本主義的悲哀」不同,「分離」改變的不一定是她們的社會地位,而是她們的思想。花費時間製造的東西並不能代表製造者本身,賺來的錢花在了哪兒、讓她們學會了什麼技能、如何改變了她們,才更加重要。

「我們手上的 iPod、腳上的 Nike、肩上的 Coach,無形中改變了數百萬人的工作、婚姻、生活和思想。」

也許數據標註同樣如此。在探討這個行業存在的合理性與是否能長久發展之前,能帶給從業者的改變就已足夠振奮人心。

但我們仍不能忘記這些人的付出。儘管她們面目不清,從未被人提起。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦