鄧思邈 發(fā)自 副駕寺
都2023年,還有人創(chuàng)業(yè)做數(shù)據(jù)標注,而且迅速獲得了一眾客戶和投資???
選的還是自動駕駛賽道。
數(shù)據(jù)標注,AI被深度學習復興以來新增的產(chǎn)業(yè)之一,一度“有多少人工就有多少智能”的調(diào)侃,指的就是數(shù)據(jù)標注在行業(yè)中的重要性。
但這都2023年,數(shù)據(jù)標注還能玩出什么新花樣嗎?
這家叫愷望的新創(chuàng)業(yè)公司,帶來了規(guī)?;斯?自動化產(chǎn)線的方法,并表示可以提供穩(wěn)定又低價的服務(wù)。
穩(wěn)定又低價,怎么實現(xiàn)的?
數(shù)據(jù)標注,本質(zhì)就是給訓練數(shù)據(jù)集打標簽。標簽可以添加到任何類型的數(shù)據(jù)中,包括文本、圖像、視頻、音頻和3D點云。
有了標簽后,可以幫助機器學習模型未來遇到從未見過的數(shù)據(jù)時,也能準確識別數(shù)據(jù)中的內(nèi)容。
但并非所有標注過后的數(shù)據(jù),都能真正起作用。
其中涉及到不同客戶對數(shù)據(jù)標注顆粒度、維度的要求,于是通常的痛點,會伴隨著數(shù)據(jù)質(zhì)量不佳、數(shù)量規(guī)模不足、標注成本高、數(shù)據(jù)生產(chǎn)流程不規(guī)范、甲乙方磨合周期長……
而為了解決上述問題,愷望提供的新思路是:規(guī)?;肆?自動化產(chǎn)線——可以實現(xiàn)成本降低超過20%。
一方面,“規(guī)模化人力”,主要是找“專業(yè)的人做專業(yè)的事”,用專門的在校學生,替換之前臨時或簡單培訓就上崗的社會人士。
具體方面,愷望通過與高職院校合作,搭建數(shù)據(jù)學院,以此培養(yǎng)數(shù)據(jù)產(chǎn)線上需要的人。
據(jù)說可以迅速上崗——前期對學生進行70%的通用培訓,然后再培訓操作和運營的流程。
目前愷望第一批300名學生,已在山東等地高職院校完成培訓,他們希望今年能夠培訓超過1000位學生。
另一邊,“自動化產(chǎn)線”,是指通過工具提效和管理優(yōu)化,提升整體運作效率。
愷望將整個數(shù)據(jù)處理流程拆成了4個環(huán)節(jié):需求、生產(chǎn)、管理、生態(tài)。
簡單解釋就是,當汽車傳感器采集到了數(shù)據(jù)后,就輸入到“工廠”里,后續(xù)他們的工作首先是解讀客戶需求規(guī)則、拆分數(shù)據(jù)任務(wù)。
然后將這些任務(wù)匹配給不同的人去做,例如有人專門負責標紅綠燈、車道線,有人則負責標道路交通牌。
在生產(chǎn)管理過程中,可以借助飛書把握不同學生的工作進度;還能利用亞馬遜AWS云服務(wù)完成數(shù)據(jù)傳輸,好處是原來要花上2天才能完成,現(xiàn)在則縮短為1.5小時。
所以愷望的不同之處,就在于把自己與不規(guī)范的手工作坊區(qū)分開來,構(gòu)建一套現(xiàn)代化工廠的運營模式。
工作人員不能是臨時拼湊的,需要提前熟悉規(guī)則。工作流程必須是清晰有條理的,盡可能減少不必要的浪費,無論是時間還是成本。
有點像是數(shù)據(jù)標注行業(yè)里的富士康。
愷望是誰?
目前行業(yè)內(nèi)的技術(shù)方案,大多關(guān)注的是“預標注”這個環(huán)節(jié)的效率。
即數(shù)據(jù)標注的自動化程度。
△來自浙商證券研報
但愷望認為目前人工智能還不能完全替代人力,自動化數(shù)據(jù)標注會有一個發(fā)展過程,愷望CEO于旭就舉例說:
就像是自動駕駛最終會走向L4、L5,但中間會經(jīng)歷L2、L3,但L2、L3的經(jīng)驗,可以使最終形態(tài)的自動駕駛更準確更科學的實現(xiàn),人工智能一定是需要一個基于數(shù)據(jù)進行積累和建模、最終全面自動化和智能化的過程。這個不會是一蹴而就,而是需要逐步實現(xiàn)。
而且愷望產(chǎn)品項目副總裁張鵬也表示,“目前,數(shù)據(jù)標注以人工標注為主,機器標注為輔。而從整個自動駕駛行業(yè)的普遍水平來看,可以說95%的數(shù)據(jù)標注還是以人工為主”。
不過他們也給自己定下了目標,希望用3年時間,實現(xiàn)通用項目90%的自動化(即預標注占的百分比)。
愷望于2022年成立,創(chuàng)辦1年就獲得了不少知名客戶,包括長安汽車、字節(jié)跳動、元戎啟行、輝羲智能、地平線、寒武紀、易控智駕、中科創(chuàng)達、中交興路、曠視、商湯等等。
創(chuàng)始團隊由4人構(gòu)成,其中創(chuàng)始人兼CEO于旭,碩士畢業(yè)于法國昂熱大學,畢業(yè)后成了Uber中國的第4號員工,從0到1搭建起平臺運營體系。其后就職于Momenta,參與構(gòu)建了自動駕駛?cè)溌窋?shù)據(jù)的運營體系。此外于旭曾在字節(jié)跳動負責管理多個大型標注基地、千人規(guī)模大型數(shù)據(jù)外包渠道以及數(shù)萬人的眾包平臺。
愷望合伙人團隊,還包括奔馳金融運營流程管理專家、Monenta前數(shù)據(jù)平臺技術(shù)負責人;同時還擁有覆蓋自動駕駛商業(yè)、AI產(chǎn)品策略及算法領(lǐng)域的顧問團隊。
融資方面,2022年9月,愷望完成了千萬級天使輪融資,投資方包括辰韜資本、三一集團和溪山天使匯。目前,愷望已與三一集團在自動駕駛領(lǐng)域開展數(shù)據(jù)合作。
之所以在這個時間點,瞄準自動駕駛賽道成立數(shù)據(jù)公司,愷望稱,主要是因為看到了龐大的市場需求。
擺在眼前的事實是——2022年12月,我國新能源汽車零售滲透率達到29.5%,較2021年12月22.6%的滲透率提升7個百分點。
而且在大多數(shù)情況下,談電動必談智能,兩個屬性往往如影隨形、相伴而生。
目前乘用車落地的自動駕駛大部分處于L2級水平,隨著激光雷達成本的降低、逐漸量產(chǎn)上車,將會加速L3+的落地。
而L3級別以上的自動駕駛系統(tǒng),對于計算機視覺技術(shù)的需求依賴度較高,系統(tǒng)需要對傳感器采集的點云圖像數(shù)據(jù)進行實時處理,構(gòu)建車輛行駛環(huán)境,為預測和決策做依據(jù)。
愷望認為,在完全自動駕駛真正實現(xiàn)之前,仍需要大規(guī)模數(shù)據(jù)作為支撐,而這至少還需要10-15年以上時間。
而現(xiàn)在,“規(guī)模化人力+自動化產(chǎn)線”,是必經(jīng)路線。