AI時代,什么樣的數據才是MLOPS需要的數據?用什么方法來標注數據?智能駕駛數據解決方案如何研發(fā)迭代?
時下,道路上搭載L2級以上智能駕駛系統(tǒng)的車輛逐漸增多,安全問題備受關注。為了在競爭中脫穎而出,加速智能駕駛應用安全落地,智能駕駛企業(yè)必須依靠海量的高質量標注數據來訓練優(yōu)化算法模型。
伴隨人工智能(AI)大模型應用的快速進展,作為AI技術底層基礎的數據,既需要高質量、大規(guī)模,也需要多樣性。特別是相比其他應用場景,智能駕駛的落地場景更加復雜,需要有大量場景化的高質量數據做支撐。
從感知到數據標注
智能駕駛車輛通過雷達、激光雷達、攝像頭、超聲波等各種傳感器收集數據,實時感知周圍環(huán)境,為實現行車安全提供最基礎的數據。隨著環(huán)境感知、智能決策、控制與執(zhí)行系統(tǒng)等核心技術的快速發(fā)展與日漸成熟,智能駕駛汽車已經開始從實驗室走向道路實地測試及商業(yè)化落地應用。
6月,梅賽德斯-奔馳擊敗特斯拉,L3級有條件智能駕駛技術獲得美國加州機動車輛管理局(DMV)認證,成為首個被授權在美國人口最多的州銷售搭載上述系統(tǒng)量產車的車企;接著又宣布將在年內培訓超過600名全球數據和AI專家。8月,美國加州公用事業(yè)委員會(CPUC)批準Cruise和Waymo在舊金山提供7×24小時、區(qū)域不限、全無人、可收費服務。一夜之間,對Robotaxi的所有限制全面解禁。
作為智能駕駛領頭羊,Waymo L4級實際路測里程已超過2000萬英里(3218.6萬公里)。國內智能駕駛同步企業(yè)百度實際路測里程也已超過1000萬公里。由此可見,智能駕駛技術不斷突破的一個關鍵支撐是背后龐大的數據量,更少不了數據標注的“用心陪伴”。
數據標注既要質量、效率又要顧及成本
基于深度學習算法的智能駕駛技術離不開數據標注和訓練。數據標注的精度決定算法的準確率,訓練的廣度決定算法的適應性和魯棒性。路測數據均為非結構化數據集,未經驗證的原始數據中存在數據重復、矛盾、錯誤、缺乏分類等問題,都可能影響算法的訓練與調優(yōu)。
特別是開放道路智能駕駛對感知系統(tǒng)的實時性和安全性要求極高,相關算法的準確度與場景適配度需要達到很高的水準,這對數據標注的規(guī)模與數據產出質量提出了更高的要求。
現在,用數據閉環(huán)來提升智能駕駛能力已成為大多數智能駕駛公司的共識。不過,現實中駕駛場景難以窮盡、極其復雜且不可預測,這就需要AI模型的快速迭代升級。
事實上,智能駕駛的成熟不僅是數量和效率的問題,質量和成本也不容忽視。特別是標注成本將決定智能駕駛能否早日走進人們日常生活。
有人調侃說:“人工智能有多少智能,就有多少人工”,數據標注也差不多。只有用“智能”替代“人工”,讓標注自動化,才能提高數據標注效率,并降低成本。
顯而易見,要想提高數據標注效率,就要有高效的數據標注工具和平臺,通過高效的預標注、輔助標注等相關算法,打通數據閉環(huán),真正滿足算法側的需求。
AI大模型無疑是提升標注質量和效率、降低成本的一把“金鑰匙”,替代人工標注并大幅提升效率,縮減標注時間和成本。
從AI工程化解決方案到大模型
2015年,云測數據總經理賈宇航還在美國舊金山,彼時街道上已有不少Robotaxi在試驗路測,無人化趨勢就此展開。2017年前后,AI及數據行業(yè)機遇顯現,云測數據正式對外商業(yè)化,希望通過提供高質量數據為AI應用場景提供支撐,成為場景化數據服務專家,發(fā)力智能駕駛、智慧家居、智慧金融和智慧城市四大領域。
面向智能駕駛,云測數據率先推出了激光雷達點云標注工具,實現了多模態(tài)3D融合標注。一路走來,云測數據一直將場景化、高質量數據概念貫徹始終。
在AI商業(yè)化落地過程中,云測數據從研發(fā)、預研到持續(xù)在線優(yōu)化,推出了智能駕駛數據服務解決方案,利用行業(yè)基礎數據集覆蓋預研階段數據需求,以場景化數據服務覆蓋各種傳感器,通過定點開發(fā)和使用閉環(huán)數據滿足客戶實際標注需求。在持續(xù)優(yōu)化迭代中,云測數據以數據閉環(huán)工具鏈集成為抓手,用數據服務幫助客戶持續(xù)優(yōu)化迭代算法,有效獲取智能駕駛需要的數據。
2021年,云測數據推出智能駕駛AI數據解決方案1.0,進一步彰顯了數據閉環(huán)系統(tǒng)集成的重要性。今年,AI高速發(fā)展,BEV Transformer等大模型浮出水面,引入了激光雷達,攝像頭數量也在增加,需要處理的數據維度更多,數據量和文件尺寸更大,復雜性非常高。
此時,云測數據的數據閉環(huán)能力、自動標注能力、數據管理工具鏈、人工效能評估等方面能力也羽翼漸豐。圍繞更擅長的場景,云測數據對1.0進行了全面升級,通過系統(tǒng)集成將大模型預標注能力與人工標注完美結合,提升了數據集和場景化數據服務能力,尤其是全面提升了數據標注、流轉效率。
事實上,目前國內有100多家公司推出了大模型,呈現一種“亂戰(zhàn)”局面。一些入局大模型的公司也在加快布局數據標注團隊,打造全鏈條AI服務商。作為第三方數據服務公司的云測數據又有何優(yōu)勢可言呢?
賈宇航自信地表示:“獨立的第三方數據標注服務公司態(tài)度中立,以領域劃分推動行業(yè)發(fā)展,而不是基于某個企業(yè)的某種應用;憑借對前沿趨勢的研判,數據標注布局方面投入也更大。”
AI領域研發(fā)包括很多內容,從算法、框架、算力或傳感器到數據標注。這么多排列組合帶來了一個痛點,因為標準不同,每個to B或研發(fā)企業(yè)都會遇到大量遷移的問題。只有硬件標準、算法框架和數據標注規(guī)則統(tǒng)一,才有助于企業(yè)充分積累經驗?,F在,大家對數據標注標準中的標注流程、方法和正確率很少提及。為此,云測數據正在與行業(yè)協(xié)會和許多車企推進行業(yè)標準的制定。
他說:“AI技術正處于規(guī)?;逃秒A段,標準不統(tǒng)一會影響行業(yè)發(fā)展。只有標準化的東西越來越多,定制化的內容才能越來越少;才能挖掘一個企業(yè)真正的實力,讓時間產生‘復利’?!?/strong>
數據服務直面挑戰(zhàn)和機遇
在智能駕駛快速發(fā)展和應用落地進程中,AI數據服務面臨著怎樣的挑戰(zhàn)?在賈宇航看來,隨著技術的不斷發(fā)展,AI數據的高要求既是挑戰(zhàn)更是機遇。如:自動駕駛中所面臨場景是開放道路,需要的數據是海量的;針對不同場景的Corner case如何識別和判斷,從而保障覆蓋更多場景下的數據質量;以及通過數據閉環(huán)體系,提升數據處理、流轉效率,加速推動算法研發(fā)發(fā)展等等。
回顧過去,在數據標注質量方面,現階段數據標注處理難度與幾年前比有本質的區(qū)別,需要結合3D點云加圖像及時序在3D空間進行3D框標注可行駛區(qū)域。有鑒于此,如何確保數據標注的質量和準確性,考驗的是數據公司的服務經驗、標注員的能力及工具鏈的支撐。
時效性要求也是車企的剛性需求,數據服務公司需要通過工具鏈、服務解決方案的持續(xù)迭代和人員培養(yǎng)來適應新的需求。
從車企角度看,產品研發(fā)要經歷預研、研發(fā)和持續(xù)迭代期。預研階段主要是利用行業(yè)基礎數據集,如特定目標檢測或可行駛區(qū)域、智能駕艙的人臉、姿態(tài)等;研發(fā)階段是將證明可行的方案放在特定車型上完成傳感器定點和算法驗證。之后,需要用專門的傳感器完成數據采集、清洗和標注。在這個過程中,云測數據主要承擔訓練數據全生命周期的AI數據處理工作。
進入持續(xù)迭代階段,車企要在灰度發(fā)布和實際投產中搭建自己的數據閉環(huán),將不同的bad case持續(xù)回流到系統(tǒng)中,然后進行數據清洗和人工標注。在這個階段,云測數據可以提供系統(tǒng)集成、數據處理平臺工具能力,以持續(xù)優(yōu)化并迭代算法。
升級賦能 彰顯效率、質量和成本優(yōu)勢
2021年云測數據發(fā)布的智能駕駛數據解決方案1.0基于產品、服務、工具三駕馬車,以時間延續(xù)為主線一站式滿足了智能駕駛研發(fā)初期到落地的數據訓練需求。在智能駕駛規(guī)?;慨a階段,其中很多技術已經商用,數據閉環(huán)系統(tǒng)已在搭建和完善中。
云測數據智能駕駛數據解決方案2.0以系統(tǒng)集成能力為核心,創(chuàng)建了新一代AI工程化數據處理工作臺,在質量、效率和成本等方面具有明顯的優(yōu)勢。
2.0集成了不同模型的預標注能力,包括圖像整幀、自選物體、區(qū)域、點云批次識別和文本識別等,重新定義了基于預標注的人工標注效能,如能效看板、綜合看版等。
針對特定算法類型的數據持續(xù)優(yōu)化迭代,涵蓋點云4D疊幀、語義分割聯(lián)合標注和智能ID軌跡預測。數據集也更加豐富,納入了更多場景數據,標注方法也從原來以點線面體為主進化到融合4D標注規(guī)則和標注工藝。在服務方面,數據標注精度、反饋給企業(yè)的時效性有了大幅提升。
在數據標注效率方面,與人工標注相比,BEV空間標注效率約提升1.5倍以上。例如,人工標注3D點云拉框需要先選擇屬性,再選擇車頭朝向。現在,人工只需大致框選一個區(qū)域,就完成了自動貼合,基于一些特定標簽類別就能實現自動選擇。其效率比人工拉框至少快了1.5倍到兩倍。又如4D標注地面箭頭,原來需要每幀標注,現在基于4D標注加空間坐標,只要標注對應一幀,通過映射即可將30幀結果疊在一起,完成多傳感器融合4D標注,效率更高。
至于2.0為什么要支持人工和自動標注交互,賈宇航解釋說,現在算法還不很完善,還需要人工標注。區(qū)域內算法識別相對精準,而區(qū)域框線邊界還需要人工微調個幾像素。現在,人工標注的應用主要是算法完全沒見過的一些場景,或更換傳感器時算法不能很好識別的情況。而當算法逐漸具備了更強能力,就可以實現自動標注,但這個自動標注結果還不足以用于算法訓練,還需要人工進行一些校驗,以確保識別結果的準確性。
從趨勢看,伴隨自動標注能力提升,標注將逐步從手工衍化為算法自動標注、人工校驗和人工標注。隨著算法的實際量產,數據閉環(huán)能力增強,整體標注數據量和手工數據標注量依然在逐年上升。以往是百分之百人工標注,現在是人工標注、自動標注、人工校驗各有一定占比。未來可能自動標注占比會越來越大。不過,雖然人工標注的占比在減小,但伴隨人工智能行業(yè)的逐步發(fā)展數據量日漸增加,人工標注的量仍會持續(xù)增加。
賈宇航說:“2.0和1.0相比,在保證數據標注質量的前提下,最重要的是在效率提升的同時依然保持了高質量的輸出,AI數據訓練過程綜合效率提升200%?!?/strong>之前3D點云標注對工具鏈的性能要求就很高,持續(xù)優(yōu)化和提升的4D標注性能可確保BEV標注有足夠的性能和效率提升。效率的提升主要體現在改變了原來的異步操作,如數據傳到工具,標注后導出結果,再遷移到企業(yè)服務器上進行訓練?,F在,完全通過API流程接口實時流轉,效率更高。
2.0在支持了更多智能駕駛標注類型,如現在諸多企業(yè)基于BEV+Transformer算法研發(fā),對BEV視角環(huán)視拼接加點云融標注成為了主流。支持特定類型也使云測數據能更快速響應客戶數據標注需求。
技術迭代將使智能駕駛數據數據應用呈現多元化。在成本方面,通過對線上回流數據進行標注,不斷迭代模型,數據將越用越智能;將標注數據流轉至仿真平臺用于評測,往復使用可高效利用數據價值;人工檢查糾正算法結果,輸出業(yè)務信息閉環(huán),可以通過人機交互實現降本增效。
利用數據服務 推進智能駕駛商用落地
綜上所述,針對當下智能駕駛應用場景更加豐富、數據閉環(huán)已成為智能駕駛量產落地核心飛輪的發(fā)展趨勢,云測數據以集成數據底座為核心,全面升級了數據標注及數據管理工具鏈;還結合數據應用開發(fā)基于數據流轉的數據應用接口,從數據維度支持客當前主流模型開發(fā)所需任務類型;人工標注與自動標注算法的交互能力升級,全面提升了數據標注效率。
與此同時,云測數據還在參編行業(yè)標準,與國內外主流車企、Tier1、頭部激光雷達和算力芯片公司以及一些Robotaxi公司精誠合作,利用數據服務幫助客戶提效提質。
數據標注恰似沙里淘金,難度之大可想而知,既要堅持,又要有獨門絕技。賈宇航表示,云測數據將圍繞智能駕駛領域,結合企業(yè)算法研發(fā)優(yōu)勢持續(xù)迭代產品,同時不斷提升人員標注能力,從數據維度支持客戶大模型應用;在人工智能數據服務方面,將推出面向垂直行業(yè)大模型產業(yè)化部署數據解決方案。未來,云測數據將立足企業(yè)的長久發(fā)展,釋放企業(yè)創(chuàng)新力量,全方位推進智能駕駛的商用落地進程。