“新基建”的哨聲吹響,想必大家已經從各個渠道感受到了產業(yè)智能化的火熱。
這一次,AI 不再停留于“人工智能又碾壓人類了”的科幻劇情,而是化身為社會通用型技術,各種家居、汽車、商超、3C 產品等領域,都開始高頻出現(xiàn)帶有 AI 身影的宣傳。
其中,人工智能三要素——數據、算法、算力中,最基礎、最核心的部分——數據,自然也就成為烹飪產業(yè)智能化這道美味所必不可少的原材料,也愈加受到更多矚目。
如果我們將產業(yè)智能化的紅利,看做是等待切分的蛋糕。那么坐在電腦前對圖片或文字一點點打上標簽的數據標注師,可能就是在智能沃土上種植小麥的人。
這些處理好的食物,被算法工程師拿到后投喂給機器,教會它們認識什么是貓,什么是狗,行人和紅綠燈的區(qū)別,“這幾天天天天氣不好”表達了什么意思……
聽起來,AI 數據的“種植”是不是挺簡單的。確實,在人工智能前期發(fā)展階段,AI 數據采集和標注,也常常被看做一個“沒有壁壘”的事情,甚至稱之為新時代的血汗工廠。
但就如粗谷吃多了總會開始追逐健康、有機、精加工,AI 數據行業(yè)也早已在我們目之所及的地方,開啟了一次“制造升級”。
產業(yè)智能化的滋味,你和數據都想了解
雖然 AI 數據不是算法訓練的唯一要素,但絕對是不可或缺的一部分。
一方面,AI 數據更豐富且廉價的領域,更容易誕生出 AI 的火苗。比如機器翻譯發(fā)展了數十年,積累了非常多的雙語對照語料,因此一遇機器學習便化龍,深度神經網絡的引入很快讓翻譯系統(tǒng)的效果全面超越了以統(tǒng)計模型為基礎的 SMT(統(tǒng)計機器翻譯)。如今,NWT 神經機器翻譯早已是智能語音產品的標配了。
另外,AI 數據的質量也決定了 AI 產品是否貼合使用場景,影響著用戶體驗乃至產品生命周期。在挖掘人工智能產業(yè)化富礦的時候,對 AI 數據的重視,再怎么強調都不為過。
由此,也誕生出了專業(yè)的第三方 AI 數據產業(yè)鏈,來滿足高質量、大規(guī)模的數據需求。
不過,當人工智能高歌猛進的時候,AI 數據產業(yè)的掣肘也接踵而至。
首先,傳統(tǒng)的爬蟲或眾包模式,數據采集的多而淺,難以滿足高性能、高精準算法對數據的需求。舉個例子,在金融等場景中,銀行對人臉識別算法的精準度要求可能是 99.99%,才能達到保護客戶財產安全、防范安全風險的級別,傳統(tǒng)的平面臉部數據顯然是不夠的,需要維度更加豐富、角度更加多樣的 3D 臉部圖像才能訓練出所需的算法。
此外,機器學習的數據依賴,也增加了 AI 訓練的直接成本。無論是采集或購買數據本身的支出,還是調用數據增強等技術來增加數據樣本,背后都是不小的成本。
至于 AI 學術界剛剛興起的膠囊網絡、少樣本甚至零樣本學習等,雖然能不必再為數據規(guī)模而掣肘,但目前都還在實驗室階段,在產業(yè)落地上的成熟和穩(wěn)定性都不可預知,距離實用還有很遠的距離。所以在當下,以深度神經網絡為核心的機器學習,依然是人工智能走向產業(yè)化的技術托舉。這也決定了對 AI 數據的饑渴,將在一段時間內始終伴隨 AI 行業(yè)的發(fā)展。
從產業(yè)化與工程化的邏輯視角來看,今天企業(yè)想要打造出效果與口碑受到肯定的 AI 產品,可能購買的通用型“面粉”已經不能滿足挑剔的用戶了,還得學會自己耕種數據的沃土。
夜來南風起,小麥覆隴黃:AI 數據場景化的成熟時
?
新基建的風潮一來,AI 數據產業(yè)也以超乎預期的速度在飛馳生長。
原因無他,數字技術與千行萬業(yè)的融合,是今天中國普遍展開的主基調,而數據更是遍灑在大地上的種子,等待完成一場智能的豐收。
那么,到底需要怎樣的種植邏輯,才能讓它們茁壯生長,有資格進入生產車間,最后變成滋養(yǎng)社會智能的高營養(yǎng)食品呢?答案或許也隱藏在中國人的“耕種天賦”里:
第一,尊重規(guī)律的專業(yè)化。
我們知道,一些有實力的科技大廠如 BAT,往往都自建數據中心,來完成算法的精進。而對于更廣大的企業(yè)來說,面對的是一片數據的洪潮,爆炸式創(chuàng)新也必然帶來爆發(fā)式增長的數據規(guī)模,有預測顯示,到 2025 年有 80%的計算來自于 AI 計算,涉及的數據也有 180ZB 之多,比現(xiàn)在增長了 4 倍。要在如此龐大且復雜的數據群落里,找出最適宜自家土壤的“種子”,顯然不是一件容易的事。
此前就有谷歌工程師在被問到眾包平臺 M-Turk(在公開平臺發(fā)布任務,參與者自由申領)的效果時,聲稱“回收的數據良莠不齊”。
用一句 AI 界的話來說,“garbage in,garbage out”,如果喂給算法垃圾食材,在無監(jiān)督學習的情況下,就很有可能發(fā)展出讓產品口碑崩盤的病灶。
比如此前市面上就出現(xiàn)過一款針對青少年的智能音箱,在對話時突然冒出了臟話。原來是訓練時沒有對數據集做好清洗,導致不良數據混了進去,讓 AI 化身“祖安人”,廠商不得不臨時全面停止調用,重新進行大規(guī)模的內部審查。
要是再一不小心用到了被限制的數據,比如歐盟 GDPR 通用數據保護條例的紅線,那不僅失去了當年的收成不說,很可能還要搭上一大筆賠款。真是谷歌聽了沉默,F(xiàn)acebook 聽了流淚。
難以把控的數據質量,很可能讓企業(yè)的心血直接變成秋風中的寂寞。所以,更為專業(yè)的數據采集與標注平臺,也就成為珍惜天時地利的 AI 企業(yè)者們所需要的伙伴。
第二,因地制宜的場景化。
在商業(yè) AI 數據平臺中,“基于 AI 落地場景”是一個相對較新的模式。
是開源數據集不香,還是通用數據不便宜呢?場景化數據開始流行,或許與 AI 計算產業(yè)接下來發(fā)展可能觸碰到的一個矛盾點有關,那就是競爭。
我們知道,目前 AI 已經成為一種通用目的技術 GPT,這也代表著它會以更廣泛地姿勢融入人類社會,在此基礎上生發(fā)出新產品新技術,甚至更新生產和組織方式。
既然是 GPT,就意味著泛 AI 算法不再稀缺,而是遍布在日常生活中的水和空氣。如何在 AI 產品上與同業(yè)者拉開競爭身位,從 AI 數據上重新奠定自己的核心優(yōu)勢,就成為科技企業(yè)們的必然選擇。
舉個例子,以前的商超門店大家都沒有智能化,如今則幾乎每家店都在嘗試引入零售智慧解決方案。這種情況下,一個零售商超的企業(yè)主,掌握了自己的獨家的場景化數據,也就能夠更精準地認識自己的經營狀況。比如在此基礎上了解顧客面對貨架、在場內走動的表情,能夠輔助判斷陳列方案以及個性化的營銷推送,進一步提高轉化和復購。
這種更高級別的場景化數據,想要獲取并交付給算法端去使用,并不是一件簡單的事。
云測數據總經理賈宇航舉了一個例子,比如在線上訂票這樣的對話場景中,會有許多種表達方式,“有去 XX 的航班嗎”“幫我查一下機票”……如何讓 AI 助理在不同的表達中都能明白對方的意圖,就需要 AI 數據服務企業(yè)與訂票平臺仔細地對接需求,并在標注時往適當的方向去拆解和作業(yè),這樣才能因地制宜,讓大量高質量的數據轉化為垂直行業(yè)的智能養(yǎng)料。
一個有意思的數據是,盡管今天我們已經聽到了太多 AI 的新聞,但 AI 與行業(yè)結合的整體滲透率只有 4%。在未來很長的一段時間內,對于數據場景化的押注,值得重點關注。
第三,提升能效的工程化。
當然,伴隨著數字經濟進入成熟期,二話不說就對 AI 一擲千金的情況已經不存在了。企業(yè)在選擇數據模式時,勢必會考慮投入產出比。
那么場景化數據的重工重時,是否能夠讓產業(yè)智能化達到最大化回報呢?
答案是,不一定。場景化數據的成本并不低,“有多少人工,就有多少智能”在這里體現(xiàn)得淋漓盡致。曾經有某 AI 算法平臺的工作人員告訴我,為了訓練出一個精準識別人體動作的模型,他們合作的 3D 建模數據方會聘請人員,在姿勢采集中心拍攝好 CV 數據,因為數據量太大,只能放在硬盤里,靠工作人員不斷往返兩地,將數據送到實驗室。
聽起來是不是一點也不“高科技”?
所以,工欲善其事必先利其器,隨著場景化 AI 數據產業(yè)的發(fā)展,工程化能力的提升、效率工具的引入,才會讓場景數據的整體成本接近商業(yè)平衡點,降低 AI 企業(yè)的成本風險。
顯然,對于 AI 數據的場景化,既是產業(yè) AI 的必由之路,也密布著大量的冰層等待鑿穿。
穿透數據冰層:云測數據在產業(yè)端如何種植 AI
當社會經濟體與智能技術開始耦合,場景化數據的產業(yè)服務者也開始展露頭角。
目前來看,成立于 2011 年的 Testin 云測,旗下 AI 數據采集標注品牌——云測數據已經成為了中國市場 AI 數據場景化的首選。
在 AI 數據的土壤上遍布的冰層,是如何被云測數據一一鏟除的?
1. 手把鋤犁的硬件。
場景化數據的采集與標注,有不少硬骨頭。比如 NLP、CV(計算機視覺)等,既需要標注者精準理解相關語義,又要結合具體的產業(yè)需求進行標注。
為了保證 AI 數據的高質量交付,云測數據在華東、華北、華南設有數據標注基地和數據采集場景實驗室,用來保障 AI 數據的專業(yè)化、場景化與精細化。
賈宇航(云測數據總經理)給我們舉了一個例子,為了幫助疲勞檢測系統(tǒng)精準判斷駕駛員的狀態(tài),疲勞狀態(tài)的數據是必不可少的。因此,云測數據會還原駕駛場景中的疲勞駕駛狀態(tài),來幫助采集到貼合真實場景的疲勞數據。讓訓練算法模型能夠精準識別并及時預警,來保護人員的行車安全。
除此之外,為了提升 AI 數據的標注能效,云測數據還開發(fā)了不少工程化工具,不斷提升數據標注工具的技術含量。
比如云測數據自研的數據標注平臺上,就對 3D 點云的標注系統(tǒng)優(yōu)化了渲染引擎,可以融合多幀點云數據和異維數據,讓數據視圖一目了然,保證整個過程的流暢和快捷,從而減輕標注員的重復勞動壓力。
2. 潤物無聲的軟件。
在 AI 的世界里,我們總是在強調硬件——更大的算力,更好的數據,更優(yōu)的算法。是不是擁有這些就意味一切呢?事實顯然并非如此,否則 Deepmind 早就是商業(yè)化最成功的 AI 公司。
從技術概念到產業(yè)落地之間的管理邏輯,就如同產業(yè)之上的春雨,“隨風潛入夜,?潤物細無聲”。
我們都知道“好雨知時節(jié)”,“好”在哪里?
好在適時而下。比如 Testin 云測在企業(yè)服務領域積累了近 9 年的經驗,其管理模式也讓數據采集與標注不再是枯燥的流水線作業(yè),十分注重對標注人員的培養(yǎng),以應對越來越高標準的數據要求。
例如,云測數據會專門招聘一些法律、金融等垂直領域的相關人員,對標注人員進行專業(yè)知識的培訓,使其能夠從產業(yè)端的視角去揣測語料中的具體意圖,進而對數據進行更加細致的標注,以滿足客戶的精度訴求。
此外,在管理流程上,云測數據也做到了任務的合理派發(fā),不同類型數據的人員不混用、多層交叉質檢等等。
正是這樣的“軟實力”,不僅鑄造了云測數據的能力優(yōu)勢,也拉高了整個行業(yè)的人員素質和業(yè)務標準,轉化為滋養(yǎng)整個 AI 產業(yè)的雨水。
3. 捍衛(wèi)底線的信念。
如果你聽說過三聚氰胺、地溝油之類的食品安全事件,那么 AI 領域一旦出現(xiàn)數據安全問題,損害的可能就是數萬人的財產和人身安全。
舉個例子,不少數據都是企業(yè)的最高級機密,如果不慎從第三方平臺手中流出,不僅可能讓企業(yè)聲譽掃地,還可能成為競爭對手的利劍,造成搬起石頭砸自己腳的局面。
目前來看,AI 數據行業(yè)還沒有形成統(tǒng)一的安全保障規(guī)范和標準,所以,企業(yè)的自我意識、技術措施就顯得尤為重要。
就云測數據而言,就設置了一系列安全保障機制,比如對于客戶的定制數據在交付后絕不留底、絕不復用,徹底清刪杜絕了泄露隱患;
另外,在數據采集時也會與被采集方簽訂數據授權協(xié)議,讓 AI 企業(yè)拿到的數據都合規(guī)合法,沒有侵犯隱私風險的后顧之憂。
防火墻設置、內部信息系統(tǒng)、終端不聯(lián)網、USB 接口封死等機制,也從源頭保護了客戶的數據安全。
賈宇航(云測數據總經理)也曾多次公開表示,無論是 AI 公司還是數據服務公司,眼光都要長遠一些,采用未經授權的數據當然可以控制成本,野蠻發(fā)展終究會造成不良后果。
云測數據的業(yè)務場景覆蓋了智能駕駛、智慧城市、智能家居、智慧金融、新零售等多個領域,無不是對數據安全要求奇高的領域。作為 AI 數據服務的頭部企業(yè),云測數據的安全探索,可以看做是在安全合規(guī)層面對整個行業(yè)交上的參考答案。
對于數據安全底線的捍衛(wèi),也是這個新興產業(yè)的生命線。
?
從云測數據的耕耘之中,不難發(fā)現(xiàn),解鎖 AI 數據的每一步縱然充滿難題,但也是形成產業(yè)壁壘的關鍵過程。
像云測數據這樣持續(xù)為 AI 訓練注入安全高質的數據“養(yǎng)料”,這些都將轉化為產業(yè)的優(yōu)勢積累,并撬動智能時代的無限可能。
對數據沃土的耕種,才能讓我們在 AI 風起時,得見一片片豐收的麥浪。