search
沙漠探險命懸一線卻獲風投 他憑1000業務員手持老鍵盤人工清洗標註數據

沙漠探險命懸一線卻獲風投 他憑1000業務員手持老鍵盤人工清洗標註數據

杜霖喜歡冒險,曾孤身一人駕駛一輛二手柴油版寶馬320D橫穿了整個南非。

| 鉛筆道記者羅正臣

導語

杜霖猛灌了幾口紅牛,瞪著泛著血絲的雙眼,透過玻璃窗看了一眼數據工廠(以人力完成數據整理錄入的工廠)的業務員們。凌晨兩點,工廠內業務員的手指仍在鍵盤上翻飛,他撓了撓頭,重新坐回桌子前敲起了代碼。

那是201512月,杜霖的BasicFinder接了一個有關數據採集任務的大單。他們作為數據工廠上游,正在著手優化工廠工作流程管理系統。

BasicFinder是一家專註於大數據採集、清洗加標註的服務商,其主營產品是一套幫助連接客戶與下游數據工廠的SaaS管理系統。在這套系統上,客戶可以根據自身需求在沙盒(一種受限的安全環境系統)中提出任務定義需求,併發送給BasicFinder,公司匹配數據工廠后,工廠會將客戶提供或自身採集的數據處理后,返還給客戶以完成後續人工智慧研發工作。

現階段,公司已於20159月及今年3月分別完成天使輪及Pre-A輪融資,目前客戶包括科學院、搜狗、雲知聲等B端企業。

: 杜霖承諾文中數據無誤,為其真實性負責,鉛筆道已備份錄音速記,為內容客觀性背書。

死裡逃生獲風投

201410月的某日下午,新疆庫木塔格沙漠,太陽是那麼毒,以狂沙為伴,地表溫度讓僅有的水汽都化作了虛影。

杜霖和朋友,一輛路虎衛士,一輛陸地巡洋艦,靜靜地停在垂直深度200米的好漢鍋(該巨坑因形似一口鐵鍋且探險中難從中脫險故得名好漢鍋)內,在他們旁邊就是數年前環塔拉力賽中一輛價值上百萬的賽車殘骸。

因為賽車無法從深坑開出,嘗試幾次后,老闆曾一氣之下用一桶汽油將那輛極盡奢華的改裝車付之一炬。

好漢鍋逃出生天只有一條路,車輛缺一點速度都會以失敗告終。

BasicFinder合作的一家數據工廠內部

杜霖他們也遇到了同樣的窘境,車開不出去了,接連幾次嘗試都以失敗告終,而他們攜帶的水馬上要沒了。下午4點的太陽照射著沙粒,杜霖和朋友的嘴唇都已乾裂,他們想到了用衛星電話呼救。

兩人不服命,決定拚死一試,遂將陸地巡洋艦的空氣濾芯摘除以加大引擎進氣量。接著兩人扔掉了大量繁重裝備,冒著爆缸的危險,終於從那一條生命之路將車開了上去。躍出巨坑的一瞬間,兩人不禁歡呼擊掌,也許是這次共同死裡逃生的經歷,朋友決定為杜霖投資一筆數百萬元的創業風投金。

彼時杜霖剛剛從南非歸來不久,前兩次工作經歷雖已讓他衣食無憂,卻總想繼續挑戰生活。獲得朋友給予的風投金后,他瞄準了大數據領域,決心再次創業。大學上是上海交大ACM尖子班學院,學的是計算機,後來又從事了TMT領域風投工作,覺得創業還是靠近本專業一些好。

但決心創業的他並沒有從一開始就想好方向,只知道人工智慧和機器學習領域會爆發出一波機會,所以他盯上了大數據領域將來人工智慧的發展離不開大數據作為燃料,所以大數據一定在將來可以打出一片天。

2015年杜霖註冊了北京深度搜索科技有限公司,直到之後的一場飯局,他才摸索出了公司前進的方向。

人力標記數據及清洗

杜霖早早來到朋友家等著這場陌生的飯局。朋友向杜介紹,飯局上另一人從事的是敲鍵盤生意。我當時想,現在公司是缺程序員,但也不缺敲鍵盤的啊,他們做的事情又和我們無關,便沒太在意。

酒過三巡,菜過五味,那位陌生朋友邀請杜霖第二天去拜訪敲字工廠,借著酒勁杜應了下來。第二天,兩人驅車來到了位於上地的車間,打開廠房門一瞬間,杜霖愣了。

近千平米廠房內,有300余名身著白色大褂的員工在噼里啪啦敲打著手中的鍵盤。清一色老式的機械鍵盤,讓啪啪的打字聲組成了一首協奏曲,讓杜霖聽著入了迷。朋友告訴他,這個工廠是在以人力的方式,完成著文字數據整理和錄入工作,訂單來自世界各地,甚至有人在將400年前的古德國族譜敲入文檔中。

大數據是人工智慧這枚冉冉升起的火箭中的燃料,它為後續包括深度學習、機器視覺等多領域提供可供分析的素材。數據量越大,人工智慧模型則會被訓練得越加聰明。大數據作業可簡單分為數據採集、清洗、標註、建模等幾環流程,其中清洗、標註尤為困難。清洗與標註的質量,直接決定交付數據的質量和最後人工智慧訓練模型的結果,所以杜霖決定以此兩環節切入市場。

就在一瞬間,杜霖猛地意識到,這家工廠可以轉型成為大數據發動機如果他們能夠人工標記、清洗數據,則會提高數據質量,從而提高數據使用者工作效率。

杜霖隨後想到了可以依託該數據加工體系,創建一套服務平台,將客戶、數據加工廠撮合成一條鏈條,並完成標準化管理現階段AI數據需求方無法在系統中準確定義數據處理任務,即使定義好了也沒有一套高效的標記清洗工具,以至於數據無法通過最終的評鑒環節。

數據工廠的存在則可以有效以人力去標記和清洗數據,保證最終評檢環節過關率。而國外Amazon mTurk雖已有類似服務,卻因為雇傭低質量兼職外包工作人員(1美分/Task),使數據無法完成最後評檢環節。

想到此,杜霖決定研發一整套名為BasicFinder的大數據任務管理監控平台,並與朋友的數據工廠結成戰略合作關係我們會將大數據從任務接收到交付的全流程劃分成模塊,讓專職員工負責標記、清洗等工作。在數據作業的過程中,BasicFinder平台將會分級賦權給員工及管理者,方便他們對數據進行糾錯和檢驗。

其系統工作流程如下:

20159月,杜霖正式帶領團隊研發BasicFinder系統,沒想到這一套系統研發竟用了2年時間。

全國12家工廠

這套系統難在應對各B端用戶時,要耗費長時間溝通準確需求。而提高與各客戶之間的溝通效率的方法,在於梳理出針對各行業的模板。

以公司為從視頻標記人體骨骼點的項目為例,數據工廠會將客戶提供的影像數據打散成幀,清洗掉沒有人或不滿足標記要求的人體圖像,並將符合要求的人體圖像完成Bounding Box標記。在完成Bounding Box標記后,數據工作人員會對篩選清洗后的數據實現14位標點處理,生成客戶所需的最終數據。

在這個過程中我們需要反覆確認客戶的需求,而製作出的通用模板可以滿足同類型的標記任務。當客戶發布任務的時候,他們可以通過系統沙盒選擇標記工具,根據需求可選擇Bounding Box或輪廓等標記模式。

一套模板的建立時間從數日至數月不等,目前共15人的BasicFinder團隊已梳理出100余套可用模板,幫助客戶選擇適合的作業模式及工具。

為高質量完成B端客戶的任務,BasicFinder增加了業務員培訓服務和提高了評檢力度。公司會為數據工廠招收有一定電腦操作基礎的大中專畢業生,並施行1個月的培訓,最終以70%淘汰率為項目匹配工作業務員。因為人口紅利,以標記12萬圖像的Bounding Box任務為例,我們的價格比亞馬遜便宜20%,比國外專業數據標記公司便宜50%以上。

數據業務員在用20年前的機械鍵盤操作數據標記。

在任務最重的評檢環節,BasicFinder則加入了抽檢和客戶檢驗等不同檢驗模式得益於產品的分級賦權功能,抽檢員則可以設置不同抽檢比例,將錯誤標記后反饋給管理員再由管理員反饋各業務員完成修改。

據悉,現階段BasicFinder在國內共擁有12家合作式數據工廠,共1000余位標記員。產品將於今年9月正式上線,公司已與搜狗、雲知聲、創新工場達成合作,並為喬治亞理工、加州大學伯克利分校、普林斯頓等美國大型實驗室提供數據清洗標註服務。

杜霖表示,現階段推廣仍然靠口碑傳播。公司旨在今年下半年產品發布后,以參加展會及地推的方式完成推廣業務。

BasicFinder已於今年3月完成Pre-A輪融資,現階段正進行A輪融資,計劃融資2000~3000萬元。

編輯 校對吳曉宇

如需轉載文章請聯繫鉛筆道微信客服號鉛筆道大芯芯(微信id:qianbidao2017)獲取授權資質,否則我們將依法追究相關責任。

閱讀完莫急走

我是本文作者羅正臣,一隻關注人工智慧、大數據領域的北京土著,相關行業創業者或對口投資人,可加微信聊聊:497248875(加好友請註明公司、職位、事由哦)

長按識別圖中二維碼,或點擊「閱讀原文」,即可報名金芯計劃。

熱門推薦

本文由 一點資訊 提供 原文連結

一點資訊
寫了5860317篇文章,獲得23246次喜歡
留言回覆
回覆
精彩推薦