• 正文
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

自動(dòng)駕駛中視覺感知ISP調(diào)參綜述及實(shí)證分析

01/06 10:11
2168
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

本文作者為Valeo Vision Systems相關(guān)研發(fā)團(tuán)隊(duì)?Lucie Yahiaoui?Jonathan Horgan?Brian Deegan?Senthil Yogamani?Ciarán Hughes 和Patrick Denny,小明師兄翻譯

摘要

圖像質(zhì)量在供人類觀看的應(yīng)用中是一個(gè)廣為人知的概念,尤其在多媒體領(lǐng)域,而且在汽車領(lǐng)域其重要性也日益凸顯。自動(dòng)駕駛計(jì)算機(jī)視覺的興起,使得圖像質(zhì)量對(duì)攝像頭感知中諸如識(shí)別、定位及重建等任務(wù)的影響方面的研究備受關(guān)注。盡管計(jì)算機(jī)視覺中 “圖像質(zhì)量” 的定義可能并不明確,但明確的是圖像信號(hào)處理流水線的配置是控制計(jì)算機(jī)視覺圖像質(zhì)量的關(guān)鍵因素。

本文兼具綜述和觀點(diǎn)闡述性質(zhì),并展示了一些有望助力未來研究的初步成果。因此,我們概述了圖像信號(hào)處理器ISP)流水線是什么,描述了一些典型的汽車計(jì)算機(jī)視覺問題,并通過一些實(shí)驗(yàn)結(jié)果簡要介紹了圖像信號(hào)處理參數(shù)對(duì)計(jì)算機(jī)視覺性能的影響。

本文探討了利用計(jì)算機(jī)視覺性能指標(biāo)作為成本度量來自動(dòng)調(diào)整 ISP 參數(shù)的優(yōu)點(diǎn),從而避開了明確界定計(jì)算機(jī)視覺中 “圖像質(zhì)量” 含義的必要。由于缺乏用于開展 ISP 調(diào)優(yōu)實(shí)驗(yàn)的數(shù)據(jù)集,我們?cè)谝曈X算法處理前應(yīng)用了諸如銳化之類的代理算法。

我們使用經(jīng)典算法(AKAZE 算法)以及一種用于行人檢測(cè)的機(jī)器學(xué)習(xí)算法進(jìn)行了這些實(shí)驗(yàn)。我們獲得了令人鼓舞的結(jié)果,例如通過調(diào)整銳化技術(shù)參數(shù),行人檢測(cè)準(zhǔn)確率提高了 14%。我們希望這能鼓勵(lì)創(chuàng)建此類數(shù)據(jù)集,以便對(duì)這些主題進(jìn)行更系統(tǒng)的評(píng)估。

引言

圖像和視頻質(zhì)量的基本概念在消費(fèi)電子產(chǎn)品中已被充分理解,尤其在多媒體領(lǐng)域 [1],并且是標(biāo)準(zhǔn)化的主題 [2,3]。傳統(tǒng)上,圖像質(zhì)量等同于 “感知質(zhì)量” 和 “自然度”,或者說現(xiàn)實(shí)世界的再現(xiàn)忠實(shí)程度如何滿足觀看者的期望。多媒體內(nèi)容壓縮算法的發(fā)展推動(dòng)了定義和測(cè)量感知圖像及視頻質(zhì)量方面的諸多進(jìn)展。在汽車領(lǐng)域,“高質(zhì)量” 的含義并非那么簡單明了,目前尚無單一明確的定義 [4,5]。而且視頻對(duì)于兩種截然不同的應(yīng)用是必需的:向駕駛員展示(例如,后視和多攝像頭環(huán)視監(jiān)控)以及用于高級(jí)駕駛輔助系統(tǒng)的計(jì)算機(jī)視覺。在邁向自動(dòng)駕駛平臺(tái)的過程中,這一點(diǎn)尤為重要,因?yàn)閿z像頭系統(tǒng)是一種多樣且關(guān)鍵的感知傳感器,能夠提供車輛周圍環(huán)境的結(jié)構(gòu)、語義和導(dǎo)航信息。因此,包括深度學(xué)習(xí)在內(nèi)的計(jì)算機(jī)視覺算法性能有望較以往系統(tǒng)有顯著提升。

最初,汽車環(huán)視魚眼攝像頭是輔助駕駛員的視覺系統(tǒng)的一部分。在自動(dòng)駕駛應(yīng)用中,此類攝像頭對(duì)于近場(chǎng)監(jiān)控正變得非常重要 [6]。這些不同的應(yīng)用需要不同的場(chǎng)景特征以實(shí)現(xiàn)最佳性能。對(duì)一種應(yīng)用而言構(gòu)成 “高質(zhì)量” 的概念不一定等同于對(duì)另一種應(yīng)用的 “高質(zhì)量” 概念。因此,盡管針對(duì)單色系統(tǒng)基于檢測(cè) / 定向 / 識(shí)別 / 辨認(rèn)的約翰遜準(zhǔn)則已有一些基礎(chǔ)工作被提出 [7],并由 [8] 進(jìn)一步闡述,但專門針對(duì)計(jì)算機(jī)視覺的圖像質(zhì)量方面的現(xiàn)有文獻(xiàn)相較于針對(duì)人類視覺圖像質(zhì)量的文獻(xiàn)較為稀少,這一點(diǎn)已被例如 [9,10] 所強(qiáng)調(diào)。這促使人們?nèi)ヌ綄z像頭及處理系統(tǒng)中提升計(jì)算機(jī)視覺效率和性能的機(jī)會(huì)。

將來自圖像傳感器的原始信號(hào)轉(zhuǎn)換為可觀看的格式涉及多個(gè)步驟,如去馬賽克、去噪和伽馬控制等,這些統(tǒng)稱為圖像信號(hào)處理(ISP)。ISP 通常由硬件引擎完成,這些硬件引擎要么位于傳感器內(nèi)部,要么作為獨(dú)立芯片,要么集成在主片上系統(tǒng)(SoC)內(nèi)。由于圖像分辨率、位深、幀率、曝光次數(shù)(高動(dòng)態(tài)范圍,HDR)以及處理步驟數(shù)量等因素驅(qū)動(dòng)的處理任務(wù)量巨大,專用硬件是必需的。例如,大多數(shù)彩色圖像傳感器采用拜耳彩色濾光片,為了獲得可用 / 可觀看的圖像(例如全 RGB 或 YUV 圖像),在去馬賽克這一過程中進(jìn)行去拜耳處理是必要的。然而,ISP 的若干步驟旨在為觀看應(yīng)用的終端用戶提供高度靜態(tài)的視覺性能,例如在傳統(tǒng)的環(huán)視應(yīng)用中。對(duì)于基于計(jì)算機(jī)視覺的應(yīng)用而言,這可能是不必要的,甚至?xí)m得其反。

計(jì)算機(jī)視覺研究人員,尤其是學(xué)術(shù)界的人員,通常使用公開可用的數(shù)據(jù)進(jìn)行開發(fā)、訓(xùn)練和驗(yàn)證,因?yàn)槎ㄖ茢?shù)據(jù)獲取難度大且成本高。硬件設(shè)置通常由現(xiàn)成的成像系統(tǒng)構(gòu)成,其板載 ISP 可重新配置性很低甚至沒有,并且通過 USB 或以太網(wǎng)接口來捕獲 YUV 或 RGB 圖像。因此,并不總是能夠捕獲到原始的 ISP 處理前的圖像數(shù)據(jù)。這通常使得計(jì)算機(jī)視覺研究人員無奈地忽略了 ISP 的影響。然而,ISP 很可能對(duì)計(jì)算機(jī)視覺算法性能有著非常重大的影響。這對(duì)于自動(dòng)駕駛應(yīng)用尤為關(guān)鍵,因?yàn)樵谶@類應(yīng)用中必須使傳感器和算法的性能最大化。

在本文中,通過對(duì) ISP 領(lǐng)域、汽車計(jì)算機(jī)視覺以及自動(dòng)調(diào)優(yōu)方面進(jìn)行綜述,我們旨在探討使用計(jì)算機(jī)視覺性能成本度量來自動(dòng)調(diào)整 ISP 參數(shù)的優(yōu)點(diǎn)。通過在視覺算法處理前使用諸如銳化之類的 ISP 代理算法,我們提供了一些證據(jù)來支持這是一個(gè)重要主題的觀點(diǎn)。除了解釋該主題的重要性之外,另一個(gè)目標(biāo)是鼓勵(lì)研究界創(chuàng)建數(shù)據(jù)集,以便對(duì)這些主題進(jìn)行更系統(tǒng)的評(píng)估,這樣就能徹底研究 ISP 鏈條中每個(gè)組件對(duì)計(jì)算機(jī)視覺的影響的所有細(xì)節(jié)。本文其余部分結(jié)構(gòu)如下:第 2 節(jié)簡要概述 ISP 處理模塊、ISP 調(diào)優(yōu)以及計(jì)算機(jī)視覺算法。由于它們屬于跨學(xué)科主題,這將為這些領(lǐng)域之一的專業(yè)人員提供必要的背景知識(shí)。第 3 節(jié)展示初步結(jié)果并進(jìn)行分析,同時(shí)使用了經(jīng)典計(jì)算機(jī)視覺算法(AKAZE 算法)以及一種用于行人檢測(cè)的機(jī)器學(xué)習(xí)算法。第 4 節(jié)討論調(diào)優(yōu)算法和雙 ISP 流水線,這是一種硬件選項(xiàng),能夠在不沖突的情況下針對(duì)計(jì)算機(jī)視覺和人類觀看應(yīng)用對(duì) ISP 進(jìn)行特定的調(diào)優(yōu)。最后,第 5 節(jié)對(duì)本文進(jìn)行總結(jié)并得出結(jié)論。本文在作者之前的會(huì)議論文 基礎(chǔ)上進(jìn)行了大幅擴(kuò)展。

背景

在此我們提供一些關(guān)于 ISP 架構(gòu)和計(jì)算機(jī)視覺的背景知識(shí),目的是讓讀者具備足夠的背景知識(shí)來理解本文的其余部分。

2.1. ISP 影響及調(diào)優(yōu)的相關(guān)工作

現(xiàn)代汽車機(jī)器視覺系統(tǒng)的發(fā)展并非一帆風(fēng)順。從本質(zhì)上講,汽車攝像頭走了兩條截然不同的路線,一條是向用戶提供圖像,另一條是為諸如高級(jí)駕駛輔助系統(tǒng)(ADAS)之類的應(yīng)用提供機(jī)器視覺輸入。原始設(shè)備制造商(OEM)的需求導(dǎo)致這兩條路徑融合,因?yàn)樗麄兤谕粩z像頭系統(tǒng)能夠兼顧這兩方面。這意味著不同系統(tǒng)的關(guān)鍵性能指標(biāo)(KPI)匯聚到了一個(gè)通用平臺(tái)上。這帶來了諸多挑戰(zhàn),因?yàn)檫@將屬于心理物理學(xué)領(lǐng)域的視覺圖像質(zhì)量性能指標(biāo)與傳統(tǒng)的計(jì)算機(jī)視覺關(guān)鍵性能指標(biāo)結(jié)合在了一起。

汽車領(lǐng)域視覺關(guān)鍵性能指標(biāo)的作用及發(fā)展在其他文獻(xiàn)中已有闡述,但視覺感知的語義并不容易簡單闡釋,于是就有了 “圖像質(zhì)量應(yīng)該是 FUN” 這一準(zhǔn)則,其中 FUN 是保真度(Fidelity)、實(shí)用性(Utility)和自然度(Naturalness)的首字母縮寫,因?yàn)樵谂c人類用戶打交道時(shí),這三類是最常被提及的。保真度通常通過測(cè)量成像系統(tǒng)的調(diào)制傳遞函數(shù)(MTF)來體現(xiàn),實(shí)用性通過分辨與觀看者相關(guān)物體的能力來體現(xiàn),自然度則通過向觀看者提供直觀的世界視覺呈現(xiàn)的能力來體現(xiàn)。

視覺關(guān)鍵性能指標(biāo)經(jīng)歷了三個(gè)不同步驟的循環(huán)發(fā)展。首先,傳統(tǒng)的組件級(jí)指標(biāo)被應(yīng)用于相應(yīng)組件的信號(hào);本質(zhì)上是借鑒了傳統(tǒng)光學(xué)和電子學(xué)中的測(cè)量方法。這些指標(biāo)包括鏡頭系統(tǒng)的調(diào)制傳遞函數(shù)(MTF)以及傳感器信號(hào)的信噪比。然而,這些指標(biāo)僅能針對(duì)極端值提供關(guān)于圖像質(zhì)量的直觀判斷(例如,高 MTF50 意味著圖像很清晰,低 MTF50 意味著圖像模糊);它們?cè)诮M件選擇方面表現(xiàn)良好,但在中期視覺評(píng)估中作用不佳(例如)。第二種方法是創(chuàng)建復(fù)合關(guān)鍵性能指標(biāo),它們是輸入圖像中簡單特征的多元函數(shù)。這些指標(biāo)借鑒了傳統(tǒng)特征檢測(cè)或圖像壓縮指標(biāo)方面的研究成果 。它們包括通用質(zhì)量指數(shù) 、結(jié)構(gòu)相似性(SSIM)、多尺度結(jié)構(gòu)相似性(MS-SSIM)、信息保真度準(zhǔn)則(IFC)、視覺信息保真度(VIF)、視覺信噪比(VSNR)、特征相似性(FSIM以及顯著加權(quán)質(zhì)量指標(biāo)?!盁o參考” 技術(shù)在評(píng)估圖像時(shí)無需無畸變的參考圖像,在實(shí)時(shí)系統(tǒng)中更受青睞,但也面臨著許多與參考技術(shù)相同的問題,這些問題阻礙了對(duì)指標(biāo)測(cè)量結(jié)果的通用解釋。

第三種方法是以科學(xué)實(shí)施的評(píng)審團(tuán)測(cè)試形式進(jìn)行視覺心理物理學(xué)測(cè)試 。出現(xiàn)這種情況有諸多原因。傳統(tǒng)的組件關(guān)鍵性能指標(biāo)和多元函數(shù)未能充分解決場(chǎng)景的多樣性問題,也未能妥善處理平衡 ISP 各效應(yīng)時(shí)固有的權(quán)衡問題,所以再次有必要讓人類來查看圖像并做出判斷。為了減少或消除潛在干擾變量的影響,傳統(tǒng)的視覺心理物理學(xué)測(cè)試特意設(shè)置了嚴(yán)格受限的測(cè)試環(huán)境,而更通用的自動(dòng)化視覺心理物理學(xué)測(cè)量嘗試同樣受到高度人為限制,即便如此,相關(guān)性也很差 。然而,這與汽車成像系統(tǒng)的普遍期望恰恰相反,汽車成像系統(tǒng)所經(jīng)歷的場(chǎng)景內(nèi)容多樣性在所有成像應(yīng)用中是最高的,因此必須考慮利用汽車場(chǎng)景中物體對(duì)觀察者預(yù)期顯著性的自動(dòng)化方法 。

計(jì)算機(jī)視覺算法對(duì)圖像質(zhì)量關(guān)鍵性能指標(biāo)的敏感性最近得到了凸顯,在汽車場(chǎng)景中 “性能會(huì)因幾乎難以察覺的變化而急劇下降”,而且即使故意改變單個(gè)像素也可能引發(fā)分類問題 。

與我們打算開展的工作最接近的論文是。該論文的目的是研究 ISP 流水線在計(jì)算機(jī)視覺(傳統(tǒng)計(jì)算機(jī)視覺和卷積神經(jīng)網(wǎng)絡(luò))中的作用,以尋找減少計(jì)算量和節(jié)能的機(jī)會(huì)(創(chuàng)建計(jì)算機(jī)視覺 ISP 模式)。然而,他們的調(diào)優(yōu)方法是通過禁用流水線的某些階段,而非調(diào)整參數(shù)。他們提出了一些相當(dāng)重要的觀點(diǎn):(1)對(duì)于他們所選用的算法,在針對(duì)計(jì)算機(jī)視覺時(shí),大多數(shù)傳統(tǒng) ISP 階段是不必要的。

在他們測(cè)試的所有應(yīng)用中,除了一個(gè)應(yīng)用外,只有兩個(gè)階段對(duì)視覺精度有顯著影響,即去馬賽克和伽馬壓縮。(2)他們的圖像傳感器可以通過用對(duì)數(shù)量化取代線性模數(shù)轉(zhuǎn)換(ADC)量化,將位寬從 12 位降低到 5 位,同時(shí)保持相同的任務(wù)性能水平。然而,這項(xiàng)工作存在一些局限性。他們對(duì)為經(jīng)過 ISP 處理的圖像而設(shè)計(jì)的計(jì)算機(jī)視覺算法進(jìn)行黑箱比較。如果圖像未經(jīng) ISP 處理,算法就必須進(jìn)行適當(dāng)調(diào)整。例如,對(duì)于像尺度不變特征變換(SIFT)[34] 這樣的拓?fù)渌阕?,在有無去馬賽克處理的情況下運(yùn)行是并非最優(yōu)選擇。標(biāo)準(zhǔn)算子并不適用于拜耳模式圖像。同樣,在沒有伽馬壓縮的情況下,算子也可以進(jìn)行調(diào)整以應(yīng)對(duì)這種情況。

最近,論文 ?展示了如何利用模擬來理解不同攝像頭架構(gòu)的影響。他們分析了攝像頭 ISP 對(duì)神經(jīng)網(wǎng)絡(luò)性能及其對(duì)曝光變化的適應(yīng)能力的影響。他們比較了兩種卷積神經(jīng)網(wǎng)絡(luò)(SSD 和 RFCN)在檢測(cè)方面的性能。每種網(wǎng)絡(luò)都使用以下類型的數(shù)據(jù)之一進(jìn)行訓(xùn)練和測(cè)試:原始數(shù)據(jù)、線性數(shù)據(jù)或 sRGB 數(shù)據(jù)。他們的結(jié)果表明,使用一種類型圖像對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在其他攝像頭設(shè)置下不會(huì)產(chǎn)生相同的結(jié)果。他們得出的結(jié)論是,最佳方法是共同設(shè)計(jì)攝像頭和網(wǎng)絡(luò)。

2.2. ISP 架構(gòu)概述

ISP 是一個(gè)處理模塊,它將原始數(shù)字圖像轉(zhuǎn)換為適用于給定應(yīng)用的可用圖像(通常是用于觀看的彩色圖像)。這種轉(zhuǎn)換相當(dāng)復(fù)雜,包含多個(gè)離散的處理模塊,這些模塊根據(jù) ISP 的不同可以按不同順序排列。圖 1 展示了一個(gè)示例圖像處理模塊。每個(gè) ISP 都有其自身獨(dú)特的特點(diǎn),但幾乎所有的 ISP 都具備相同的基本模塊和處理流水線。以下是從對(duì)計(jì)算機(jī)視覺算法影響的角度對(duì)圖 1 中所標(biāo)識(shí)的每個(gè)功能模塊的簡要描述。

圖 1. 典型的圖像信號(hào)處理器(ISP)流水線

鏡頭陰影校正 —— 校正圖像邊緣處亮度和色彩的不均勻性。對(duì)于魚眼鏡頭而言,這一點(diǎn)尤為關(guān)鍵,因?yàn)殓R頭透光率的特性會(huì)使光線強(qiáng)度在圖像邊緣處出現(xiàn)明顯衰減。鏡頭陰影校正還用于校正色彩陰影效應(yīng)。當(dāng)白光穿過鏡頭時(shí),折射程度會(huì)因光的波長不同而變化。其結(jié)果是,如果不進(jìn)行校正,魚眼圖像的中心通常會(huì)呈現(xiàn)偏紅的色調(diào),而圖像邊緣則會(huì)呈現(xiàn)青色調(diào)。若不加以校正,整個(gè)圖像就會(huì)出現(xiàn)不同程度的色調(diào)變化。這也會(huì)影響自動(dòng)白平衡(AWB)算法的性能。任何以色彩作為輸入的檢測(cè)算法都會(huì)受到更嚴(yán)重的負(fù)面影響。鏡頭陰影校正通過對(duì)鏡頭光學(xué)特性進(jìn)行表征,并應(yīng)用空間變化的數(shù)字校正來實(shí)現(xiàn)。但這可能會(huì)產(chǎn)生增加圖像邊緣噪聲的副作用,進(jìn)而影響機(jī)器視覺性能。

自動(dòng)白平衡 —— 校正環(huán)境光照條件下的色溫,以保持色彩恒常性(即無論照亮場(chǎng)景的光的光譜如何,灰色物體都呈現(xiàn)灰色。自動(dòng)白平衡統(tǒng)計(jì)數(shù)據(jù)根據(jù)輸入圖像進(jìn)行計(jì)算,然后對(duì)紅、綠、藍(lán)色彩通道應(yīng)用數(shù)字增益,以校正因環(huán)境光照導(dǎo)致的偏色。對(duì)于任何以色彩作為輸入的機(jī)器視覺算法來說,準(zhǔn)確的自動(dòng)白平衡都至關(guān)重要。車道標(biāo)線檢測(cè)尤其容易受到自動(dòng)白平衡不準(zhǔn)確的影響。例如,在鈉蒸汽路燈照明下區(qū)分黃色和白色車道標(biāo)線就是一個(gè)極具挑戰(zhàn)性的應(yīng)用場(chǎng)景。其他算法,包括交通標(biāo)志和交通信號(hào)燈識(shí)別,也會(huì)受到自動(dòng)白平衡性能的影響。自動(dòng)白平衡就是圖像自然度和實(shí)用性之間可能需要權(quán)衡的一個(gè)例子。

以鈉蒸汽燈照明的夜景為例,鈉蒸汽燈有多種類型,但其色溫都相當(dāng)?shù)?,在人類觀察者看來呈現(xiàn)橙色或紅色。通常,對(duì)于供人類觀看的應(yīng)用而言,理想的做法是調(diào)整相機(jī)的自動(dòng)白平衡響應(yīng),使其盡可能符合人類觀察者的期望。然而,對(duì)于機(jī)器視覺來說,這可能并非必要,甚至可能對(duì)機(jī)器視覺性能產(chǎn)生負(fù)面影響。針對(duì)機(jī)器視覺的白平衡的另一種方法可能是針對(duì)鈉蒸汽燈照明進(jìn)行校正,使圖像 “呈現(xiàn)中性”,就好像是由 D65(標(biāo)準(zhǔn)光源)或類似光源照亮的一樣。在這種情況下,圖像可能看起來不自然,但顯著物體,包括黃色道路標(biāo)線,可能會(huì)更加突出。這甚至可能減少訓(xùn)練集的要求,即可能不再需要訓(xùn)練算法去檢測(cè)車燈光下場(chǎng)景中的道路標(biāo)線。據(jù)作者所知,目前還沒有詳細(xì)研究過這個(gè)問題的相關(guān)文獻(xiàn)。

自動(dòng)曝光控制 / 自動(dòng)增益控制(AEC/AGC)—— 自動(dòng)曝光控制 、自動(dòng)增益控制 。自動(dòng)曝光控制 / 自動(dòng)增益控制模塊控制圖像傳感器的曝光量和增益。下一幀圖像的曝光量和增益是根據(jù)當(dāng)前曝光量的加權(quán)平均值來計(jì)算的。這是 ISP 內(nèi)唯一真正的反饋回路。準(zhǔn)確的自動(dòng)曝光控制 / 自動(dòng)增益控制性能對(duì)機(jī)器視覺性能至關(guān)重要。曝光不足的圖像會(huì)有較差的信噪比和對(duì)比度區(qū)分度,而曝光過度的圖像則會(huì)在場(chǎng)景高光部分丟失信息。此外,根據(jù)應(yīng)用的不同,可能需要考慮不同的曝光加權(quán)方案。例如,對(duì)于前照燈檢測(cè)算法來說,讓圖像曝光不足以確保前照燈不會(huì)出現(xiàn)光暈可能是可以接受的。相反,如果主要關(guān)注陰影中物體的檢測(cè),那么讓圖像的大部分區(qū)域曝光過度以確保捕捉到陰影中的細(xì)節(jié)可能是可以接受的。高動(dòng)態(tài)范圍(HDR)成像的目標(biāo)是確保同時(shí)捕捉到高光和陰影部分。鑒于汽車應(yīng)用場(chǎng)景,運(yùn)動(dòng)模糊也是需要考慮的一個(gè)因素。根據(jù)感知任務(wù)的不同,讓圖像曝光不足并通過數(shù)字方式提升亮度水平以避免運(yùn)動(dòng)模糊偽影可能是可以接受的。

壞點(diǎn)校正 —— 校正圖像傳感器上的壞點(diǎn)。圖像傳感器中的壞點(diǎn)數(shù)量會(huì)隨著傳感器的使用時(shí)長增加而增多。正是因?yàn)橛袎狞c(diǎn)校正算法,所以這些壞點(diǎn)通常在數(shù)字圖像中是看不到的。壞點(diǎn)有可能影響機(jī)器視覺算法的性能。蘇等人的研究表明,僅通過對(duì)單個(gè)像素進(jìn)行對(duì)抗性擾動(dòng),平均有 97.47% 的置信度能將所測(cè)試的 70.97% 的自然場(chǎng)景擾動(dòng)到至少一個(gè)目標(biāo)類別。誠然,這個(gè)極端的例子展示了壞點(diǎn)影響機(jī)器視覺性能的可能性,類似的脆弱性在其他文獻(xiàn)中也有闡述。

降噪 —— 降低圖像中的噪聲表現(xiàn)。這通常是通過使用二維噪聲濾波來實(shí)現(xiàn)的。在大多數(shù) ISP 中,在去除噪聲和保留紋理之間存在權(quán)衡。過度降噪可能會(huì)顯著提高信噪比,但會(huì)犧牲高頻信息。二維低通濾波是許多計(jì)算機(jī)視覺算法流水線中的預(yù)處理步驟,但過度降噪導(dǎo)致有效高頻數(shù)據(jù)被去除,會(huì)影響圖像梯度的檢測(cè)。圖像梯度是特征檢測(cè)器、線條檢測(cè)以及光流等操作的關(guān)鍵要求,是大多數(shù)計(jì)算機(jī)視覺算法流水線的重要組成部分。

色彩插值 —— 將傳感器通常使用拜耳彩色濾光片陣列(CFA)采集到的原始色彩數(shù)據(jù)轉(zhuǎn)換為彩色 RGB 圖像。這個(gè)過程也被稱為去馬賽克 。去馬賽克是任何 ISP 中最關(guān)鍵的操作之一。調(diào)制傳遞函數(shù)(MTF)和圖像噪聲都會(huì)直接受到去馬賽克操作的影響。去馬賽克還可能引入許多圖像偽影。例如,邊緣處的拉鏈 / 階梯狀偽影以及高頻圖案中的混疊 / 假色現(xiàn)象。通過使用更復(fù)雜的去馬賽克濾波器,許多這類影響可以得到緩解。通常在計(jì)算負(fù)荷和圖像質(zhì)量之間存在權(quán)衡。噪聲的引入,特別是水平和垂直邊緣噪聲,可能導(dǎo)致基于強(qiáng)垂直和水平圖像梯度的特征提取出現(xiàn)錯(cuò)誤。重復(fù)的邊緣效應(yīng),如階梯狀偽影,可能導(dǎo)致錯(cuò)誤的特征提取和匹配,以及沿邊緣而不是沿運(yùn)動(dòng)方向產(chǎn)生錯(cuò)誤的光流。

邊緣增強(qiáng) —— 這一處理模塊用于增強(qiáng)邊緣,通常是為了讓圖像在人類觀察者看來更加清晰。然而,過度的邊緣增強(qiáng)可能會(huì)引入諸如高對(duì)比度邊緣周圍出現(xiàn)光暈之類的偽影,還會(huì)加重噪聲。過度的邊緣增強(qiáng)會(huì)通過增強(qiáng)噪聲以及在銳化邊緣的過沖和下沖處人為制造重復(fù)邊緣,對(duì)基于梯度的算法產(chǎn)生負(fù)面影響。

色彩校正矩陣 —— 校正相鄰傳感器像素之間的串?dāng)_。串?dāng)_是一種像素級(jí)現(xiàn)象,即一個(gè)像素的色彩信息會(huì)污染相鄰像素。它本質(zhì)上可以是光學(xué)或電學(xué)方面的問題。需要進(jìn)行色彩校正來修正與串?dāng)_相關(guān)的色彩不準(zhǔn)確問題。在某些情況下,色彩校正也可能引入或加劇色彩噪聲。當(dāng)色調(diào)之間存在明顯不匹配,需要進(jìn)行高強(qiáng)度數(shù)字校正時(shí),就會(huì)出現(xiàn)這種情況。噪聲增加以及色彩不準(zhǔn)確都有可能對(duì)機(jī)器視覺性能產(chǎn)生負(fù)面影響。

亮度 / 對(duì)比度調(diào)整 —— 該模塊的具體實(shí)現(xiàn)細(xì)節(jié)差異很大,但關(guān)鍵目標(biāo)是增強(qiáng)圖像對(duì)比度并對(duì)圖像亮度進(jìn)行數(shù)字調(diào)整。典型的對(duì)比度增強(qiáng)算法包括直方圖拉伸、直方圖均衡化、局部和全局對(duì)比度調(diào)整算法(例如,對(duì)比度受限的自適應(yīng)直方圖均衡化,CLAHE)等。對(duì)比度增強(qiáng)可以改善不同灰度級(jí)之間的對(duì)比度區(qū)分度。這對(duì)機(jī)器視覺性能可能是有利的。然而,過度的對(duì)比度增強(qiáng)會(huì)加重噪聲并降低信噪比,從而對(duì)計(jì)算機(jī)視覺性能產(chǎn)生負(fù)面影響。針對(duì)人類視覺和機(jī)器視覺目的的亮度和對(duì)比度調(diào)節(jié)可能是相互對(duì)立的。

伽馬校正?—— 伽馬校正模塊對(duì)不同光照水平下的對(duì)比度進(jìn)行不同的調(diào)整,以增強(qiáng)特征的顯著性。伽馬校正對(duì)于觀看應(yīng)用至關(guān)重要。如果沒有伽馬校正,就需要更高的圖像位深度來避免可見的色調(diào)分離現(xiàn)象。對(duì)于機(jī)器視覺應(yīng)用而言,其影響不太明確。陰影細(xì)節(jié)的對(duì)比度會(huì)被增強(qiáng),但高光部分的對(duì)比度會(huì)被壓縮。例如,這可能會(huì)對(duì)交通標(biāo)志識(shí)別或前照燈檢測(cè)算法產(chǎn)生潛在的不利影響。

2.3. 用于汽車應(yīng)用的計(jì)算機(jī)視覺算法

2.3.1. 經(jīng)典計(jì)算機(jī)視覺

當(dāng)我們提及經(jīng)典計(jì)算機(jī)視覺(CV)時(shí),指的是在不使用深度學(xué)習(xí)方法的情況下,實(shí)現(xiàn)人類視覺系統(tǒng)通常能夠執(zhí)行的任務(wù)自動(dòng)化的過程。深度學(xué)習(xí)(將在下一節(jié)介紹)可被視為現(xiàn)代計(jì)算機(jī)視覺中的一個(gè)子領(lǐng)域,因?yàn)樗杆俪蔀閹缀跛杏?jì)算機(jī)視覺任務(wù)的前沿技術(shù)。

在自動(dòng)駕駛的情況下,計(jì)算機(jī)視覺的多個(gè)子領(lǐng)域被用于提取車輛周圍環(huán)境的信息,包括重建、物體識(shí)別、三維姿態(tài)估計(jì)、機(jī)器學(xué)習(xí)以及運(yùn)動(dòng)估計(jì)。以下部分簡要介紹兩種常用于自動(dòng)駕駛功能的傳統(tǒng)計(jì)算機(jī)視覺技術(shù),即三維重建和道路標(biāo)線檢測(cè),這些是計(jì)算機(jī)視覺用于自動(dòng)駕駛功能的示例,旨在說明可靠且準(zhǔn)確的計(jì)算機(jī)視覺輸出的重要性,進(jìn)而體現(xiàn)所處理圖像的重要性。關(guān)于用于汽車應(yīng)用的計(jì)算機(jī)視覺算法的更詳細(xì)綜述見文獻(xiàn) 。

三維重建 —— 三維重建是指旨在獲取傳感器視場(chǎng)內(nèi)環(huán)境空間結(jié)構(gòu)表示的一組算法。在自動(dòng)駕駛背景下,它是計(jì)算機(jī)視覺用于創(chuàng)建車輛周圍環(huán)境度量地圖的主要機(jī)制。相機(jī)的深度感知技術(shù)主要有兩種類型:即立體視覺和單目視覺 ,立體相機(jī)相對(duì)于單目系統(tǒng)的主要優(yōu)勢(shì)在于即使相機(jī)不移動(dòng)也能感知深度,而單目視覺因成本較低而頗具吸引力。立體視覺通過解決每個(gè)像素的對(duì)應(yīng)問題來工作,從而實(shí)現(xiàn)從左相機(jī)圖像到右相機(jī)圖像的像素位置視差映射。距離與對(duì)應(yīng)世界點(diǎn)距相機(jī)的實(shí)際距離成正比。利用已知的相機(jī)校準(zhǔn)參數(shù)和基線,可以確定每個(gè)像素在現(xiàn)實(shí)世界中的三維位置。圖 2 展示了一個(gè)稀疏三維重建的示例。

單目系統(tǒng)也具備感知深度的能力,不過,需要相機(jī)運(yùn)動(dòng)來為場(chǎng)景重建創(chuàng)建基線。這種場(chǎng)景重建方法被稱為運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(SFM)。圖像中的像素通過稀疏或密集光流或者特征提取與匹配技術(shù),從一幀追蹤或匹配到下一幀。這是發(fā)生在圖像域的主要步驟,通常由諸如尺度不變特征變換(SIFT)、加速魯棒特征(AKAZE)等特征匹配算法來完成 ,而這些算法將是我們?cè)u(píng)估其對(duì)圖像信號(hào)處理器(ISP)影響的主要算法之一。經(jīng)過處理的幀之間相機(jī)的計(jì)算運(yùn)動(dòng)以及相機(jī)校準(zhǔn),被用于對(duì)對(duì)應(yīng)點(diǎn)的世界位置進(jìn)行投影和三角測(cè)量。光束法平差是一種常用的方法,它根據(jù)一個(gè)最優(yōu)性準(zhǔn)則,同時(shí)對(duì)場(chǎng)景中估計(jì)出的三維位置以及相機(jī)的相對(duì)運(yùn)動(dòng)進(jìn)行優(yōu)化,該準(zhǔn)則涉及所有點(diǎn)的相應(yīng)圖像投影。單目深度問題已經(jīng)在教科書里被討論很長時(shí)間了 。

道路標(biāo)線檢測(cè) —— 在自動(dòng)駕駛中,道路標(biāo)線檢測(cè)自然是任何傳感系統(tǒng)的一個(gè)關(guān)鍵組成部分。車道邊界檢測(cè)(示例見圖 3)在汽車計(jì)算機(jī)視覺行業(yè)已被充分理解,它屬于最早出現(xiàn)的汽車計(jì)算機(jī)視覺產(chǎn)品之一,不過,鑒于近期自動(dòng)駕駛的發(fā)展背景,它仍是活躍的研究課題 。或許不那么明顯但同樣重要的是自動(dòng)泊車系統(tǒng)中停車標(biāo)線的檢測(cè)。在視覺方面,車道標(biāo)線檢測(cè)可以通過圖像俯視圖校正、邊緣提取以及霍夫空間分析來檢測(cè)標(biāo)線及標(biāo)線對(duì)。圖 4 給出了采用類似方法得出的結(jié)果示例,該示例是使用水平視場(chǎng)角為 190° 的停車攝像頭采集的數(shù)據(jù)。同一批作者還提出了一種不同的方法,該方法基于手動(dòng)確定的種子點(diǎn)輸入,隨后應(yīng)用結(jié)構(gòu)分析技術(shù)來提取停車位?;蛘?,文獻(xiàn)中提出了一種基于預(yù)訓(xùn)練模型的方法,該方法基于方向梯度直方圖(HOG)和局部二值模式(LBP)特征,并應(yīng)用線性支持向量機(jī)(SVM)來構(gòu)建分類模型。無論采用何種具體方法,很明確的一點(diǎn)是,從高速公路駕駛到泊車,道路標(biāo)線檢測(cè)對(duì)于一個(gè)完整的自動(dòng)駕駛系統(tǒng)來說都是必不可少的。

2.3.2.深度學(xué)習(xí)

在過去的5年里,計(jì)算機(jī)視覺技術(shù)迅速發(fā)展,以深度學(xué)習(xí),特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN)是其核心。cnn已經(jīng)大幅提高了目標(biāo)檢測(cè)的準(zhǔn)確性,從而提高了對(duì)自動(dòng)駕駛的感知能力。它還通過語義分割實(shí)現(xiàn)了密集的像素分類,這在之前是不可行的。此外,cnn在幾何視覺算法如光流、移動(dòng)目標(biāo)檢測(cè)、運(yùn)動(dòng)結(jié)構(gòu)、重新定位、污染檢測(cè)[61]和聯(lián)合多任務(wù)模型等方面取得了最先進(jìn)的結(jié)果。CNN的快速進(jìn)展使得硬件制造商包括了一個(gè)定制的硬件,以提供超過每秒10個(gè)Tera操作的高吞吐量(TOPS)。此外,下一代硬件將有密集的光流和立體聲硬件加速器,以實(shí)現(xiàn)對(duì)移動(dòng)和靜態(tài)物體的通用檢測(cè)。

語義圖像分割在深度學(xué)習(xí)方面取得了巨大的進(jìn)展。語義分割的目標(biāo)是將圖像分割成有意義的部分。它已被用于機(jī)器人技術(shù)、醫(yī)療應(yīng)用、增強(qiáng)現(xiàn)實(shí)和最顯著的自動(dòng)駕駛。圖5展示了在自動(dòng)駕駛設(shè)置中的語義分割輸出的一個(gè)示例。所開發(fā)的工作主要有三個(gè)子類別。第一個(gè)使用補(bǔ)丁式訓(xùn)練來產(chǎn)生最終的分類。第二個(gè)子類主要關(guān)注像素級(jí)分類的端到端學(xué)習(xí)。它始于在中開發(fā)完全卷積網(wǎng)絡(luò)的工作。最后,在中的工作主要集中在多尺度語義分割上。

如前文所述,幾何計(jì)算機(jī)視覺任務(wù)是自動(dòng)駕駛(AD)系統(tǒng)的重要組成部分。具體而言,我們指的是多視圖幾何算法,它能從多幅圖像中估算相對(duì)運(yùn)動(dòng)和深度。自動(dòng)駕駛的視覺感知深受這些幾何應(yīng)用(如光流 ]、運(yùn)動(dòng)恢復(fù)結(jié)構(gòu) 、視覺里程計(jì)、同時(shí)定位與地圖構(gòu)建(SLAM))精度的影響。幾十年來,計(jì)算機(jī)視覺領(lǐng)域一直在深入研究使用經(jīng)典方法來實(shí)現(xiàn)這些算法。然而,基于深度學(xué)習(xí)的方法在這些算法中開始嶄露頭角。深度學(xué)習(xí)在目標(biāo)檢測(cè)和分割方面發(fā)揮了重要作用,并且已成為自動(dòng)駕駛的一種成熟解決方案。近來,僅通過使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型而不結(jié)合幾何結(jié)構(gòu),深度學(xué)習(xí)就已成為諸如光流和深度估算等特定任務(wù)的前沿方法。也有人嘗試將 CNN 用于視覺 SLAM、視覺里程計(jì)和校準(zhǔn)。運(yùn)動(dòng)估計(jì)涵蓋了密集光流估計(jì)和運(yùn)動(dòng)物體分割。圖 6 展示了一種用于計(jì)算密集光流的幾何深度學(xué)習(xí)算法。深度估計(jì)是自動(dòng)駕駛中的一項(xiàng)關(guān)鍵算法,用于相對(duì)于車輛對(duì)汽車周圍識(shí)別出的物體進(jìn)行定位,我們會(huì)研究有監(jiān)督、無監(jiān)督或半監(jiān)督的方法。原則上,CNN 學(xué)習(xí)算法應(yīng)該能夠?qū)W習(xí)對(duì)算法關(guān)鍵性能指標(biāo)(KPI)而言最優(yōu)的必要變換。然而在實(shí)踐中,有大量的經(jīng)驗(yàn)證據(jù)表明,納入已知的變換作為歸納偏置能提升性能。

2.4. 討論

計(jì)算機(jī)視覺在車輛自動(dòng)化中起著非常重要的作用,它為車輛提供大量環(huán)境信息,以便車輛做出至關(guān)重要的輔助決策,更重要的是做出關(guān)乎安全的關(guān)鍵決策。顯然,對(duì)于基于傳統(tǒng)方法和基于深度學(xué)習(xí)的功能而言,圖像本身作為這些功能唯一的原始傳感器輸入,對(duì)于達(dá)到更高自動(dòng)化水平所要求的魯棒性、可用性和準(zhǔn)確性至關(guān)重要。邁向更高車輛自動(dòng)化水平的趨勢(shì)正推動(dòng)著所有計(jì)算機(jī)視覺功能的性能要求提升。無論是基于傳統(tǒng)方法還是基于深度學(xué)習(xí)的計(jì)算機(jī)視覺功能,其像素級(jí)處理階段都依賴于圖像輸入的保真度。無論采用何種方法從圖像中提取特征級(jí)數(shù)據(jù),無論是傳統(tǒng)的特征提取還是編解碼器神經(jīng)網(wǎng)絡(luò)中的編碼器,只有當(dāng)所提供的圖像能準(zhǔn)確呈現(xiàn)所拍攝的場(chǎng)景時(shí),提取出的諸如點(diǎn)、邊緣、角點(diǎn)、斑點(diǎn)或紋理等特征才是可靠的。如前文所述,圖像生成的這種準(zhǔn)確性可能與人類觀察者所感知的視覺質(zhì)量不一致。計(jì)算機(jī)視覺理想的圖像表示形式是,能為所有場(chǎng)景結(jié)構(gòu)(幾何結(jié)構(gòu)、紋理、顏色、反射率等)提供充足、一致且可重復(fù)的對(duì)比度,且不受光照、溫度、環(huán)境條件以及場(chǎng)景結(jié)構(gòu)的影響,然而,由于存在大量無法測(cè)量、難以建?;蛟诋?dāng)今成像硬件上無法準(zhǔn)確重現(xiàn)的系統(tǒng)及場(chǎng)景變量,這一目標(biāo)無法實(shí)現(xiàn)。一些在像素層面影響特征提取的重要圖像特性包括圖像壓縮、模糊 / 銳化、對(duì)比度、噪聲、色彩壓縮,本研究對(duì)其中部分特性進(jìn)行了探究。雖然這些圖像特性并非完全由圖像信號(hào)處理器(ISP)控制,但它卻對(duì)這些特性在生成圖像中的存在情況、權(quán)重以及影響有著重大影響。盡管近期有研究探討了其中部分圖像特性對(duì)計(jì)算機(jī)視覺性能的影響 ,也有其他研究提出了針對(duì)移動(dòng)應(yīng)用進(jìn)行圖像信號(hào)處理器調(diào)優(yōu)或適配的可能性 ,但針對(duì)汽車應(yīng)用的影響及相關(guān)問題的研究卻寥寥無幾(如果有的話)。

圖像處理參數(shù)對(duì)計(jì)算機(jī)視覺算法影響的實(shí)證分析

在典型的高級(jí)駕駛輔助系統(tǒng)(ADAS)或使用環(huán)視高視場(chǎng)角攝像頭的自動(dòng)駕駛應(yīng)用中,單個(gè)圖像信號(hào)處理器(ISP)會(huì)同時(shí)用于人類視覺(HV)和計(jì)算機(jī)視覺(CV)功能。所生成原始圖像的信號(hào)處理主要是由環(huán)視系統(tǒng)的人類視覺質(zhì)量驅(qū)動(dòng)的。在計(jì)算機(jī)視覺或深度學(xué)習(xí)應(yīng)用開發(fā)完成后對(duì)圖像信號(hào)處理器(ISP)流水線進(jìn)行調(diào)優(yōu),很可能會(huì)對(duì)算法性能產(chǎn)生不利影響,因?yàn)樗惴ㄐ阅懿⒎莾?yōu)化循環(huán)的一部分。例如,所有算法都可能會(huì)受到因調(diào)整而導(dǎo)致的信噪比下降的影響。幾何視覺算法本身對(duì)圖像信號(hào)處理器(ISP)的預(yù)處理變化較為敏感,因?yàn)橄裉卣魈崛∵@類像素級(jí)操作通常依賴于固定的、靜態(tài)調(diào)優(yōu)的核尺寸和參數(shù)以及固定的顯著度閾值。對(duì)于深度學(xué)習(xí)算法而言,只要其模型是通過大量不同的訓(xùn)練樣本進(jìn)行訓(xùn)練的,它們就會(huì)更具魯棒性。例如,在文獻(xiàn) [84] 中,作者觀察到不同深度神經(jīng)網(wǎng)絡(luò)架構(gòu)在模糊和噪聲條件下性能會(huì)下降,而對(duì)對(duì)比度和 JPEG 壓縮則具有一定的抗性。隨著為輔助自動(dòng)駕駛而推動(dòng)視覺感知改進(jìn)以及集成圖像信號(hào)處理器(ISP)的片上系統(tǒng)(SoC)的推出,現(xiàn)在已經(jīng)可以實(shí)現(xiàn)用于人類視覺和計(jì)算機(jī)視覺的雙圖像信號(hào)處理器(ISP)流水線了。如前文所述,原始圖像由圖像傳感器生成。為了能被設(shè)備查看,原始數(shù)據(jù)必須經(jīng)過圖像信號(hào)處理器(ISP)處理(見圖 7)。

圖 7. 流水線概述。影響計(jì)算機(jī)視覺(CV)性能的關(guān)鍵圖像信號(hào)處理器(ISP)模塊已用粗體標(biāo)記。

3.1. 總體方法與測(cè)試設(shè)置

3.1.1. 測(cè)試設(shè)置

本文收集并拓展了作者先前在出版物 [11,86] 中呈現(xiàn)的研究結(jié)果。它主要聚焦于從像素級(jí)處理角度獲得的有關(guān)銳化和對(duì)比度方面的結(jié)果,并展示了對(duì)一個(gè)行人檢測(cè)(PD)算法流水線關(guān)鍵性能指標(biāo)(KPI)影響的初步結(jié)果,該流水線先通過 AdaBoost 算法生成候選對(duì)象,隨后利用一個(gè)小型的基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法對(duì)候選對(duì)象進(jìn)行驗(yàn)證。

銳化和對(duì)比度是典型的圖像信號(hào)處理器(ISP)處理模塊,相較于其他參數(shù),它們更多地受主觀經(jīng)驗(yàn)驅(qū)動(dòng),而非基于應(yīng)用的客觀適配性。由于目前針對(duì)計(jì)算機(jī)視覺的圖像信號(hào)處理器(ISP)調(diào)優(yōu)是一個(gè)被忽視的主題,所以沒有附帶視覺關(guān)鍵性能指標(biāo)(KPI)的原始圖像數(shù)據(jù)集可用。本研究中使用的數(shù)據(jù)是通過安裝在汽車上的魚眼攝像頭在內(nèi)部進(jìn)行記錄的。視頻 / 圖像是在街道上的駕駛場(chǎng)景或停車狀況下錄制的,其中包含行人、汽車、交通及道路標(biāo)志、標(biāo)線等物體。需要注意的是,這些魚眼圖像并非原始圖像,因此在測(cè)試前已經(jīng)應(yīng)用了基本的圖像信號(hào)處理器(ISP)處理。由于缺乏圖像信號(hào)處理器(ISP)處理前的圖像,我們只能進(jìn)行最基本的代理測(cè)試來 “模擬” 圖像信號(hào)處理器(ISP)的某些模塊(銳化和對(duì)比度)。

未來,我們將通過對(duì)圖像信號(hào)處理器(ISP)進(jìn)行調(diào)優(yōu),使用原始圖像重新運(yùn)行這些測(cè)試。像素級(jí)研究針對(duì)以下方面對(duì)原始圖像和處理后的圖像進(jìn)行了比較:邊緣檢測(cè)(使用索貝爾濾波器)[87]、二值化及閉運(yùn)算(形態(tài)學(xué)操作)[88]。通過查找 100 個(gè)最顯著匹配點(diǎn)(依據(jù)其距離)上的內(nèi)點(diǎn),對(duì)特征提取的影響進(jìn)行了研究。利用隨機(jī)抽樣一致性算法(RANSAC)計(jì)算兩幅圖像之間的單應(yīng)性矩陣。該研究分別考察了圖像信號(hào)處理器(ISP)對(duì)每個(gè)特征提取器的影響。這項(xiàng)像素級(jí)研究是在 100 多幅圖像上進(jìn)行的。在計(jì)算機(jī)視覺中,特征是圖像中顯著的部分(點(diǎn)、斑點(diǎn)、邊緣等),它能減少待處理的數(shù)據(jù)量,聚焦于圖像的相關(guān)部分,可能在時(shí)間維度上具有魯棒性,并會(huì)由計(jì)算機(jī)視覺算法流水線的下一階段做進(jìn)一步處理。本研究中使用的特征描述符 / 檢測(cè)器對(duì)均勻縮放、方向及光照具有不變性 [47]:尺度不變特征變換(SIFT)[34]、加速穩(wěn)健特征(SURF)[89]、定向 FAST 和旋轉(zhuǎn) BRIEF(ORB)[90] 以及加速魯棒特征(AKAZE)[91,92]。總共在 6 幀圖像(第 n 幀…… 第 n + 5 幀)中提取特征,并在第 n 幀與序列中后續(xù)各幀(第 n + 1 幀到第 n + 5 幀)之間進(jìn)行特征匹配(見圖 8)。之所以選擇前面提到的這些算法(邊緣檢測(cè)、二值化、閉運(yùn)算以及特征描述符 / 檢測(cè)器),是因?yàn)樗鼈冊(cè)谟?jì)算機(jī)視覺和深度學(xué)習(xí)算法中被廣泛使用。

對(duì)于關(guān)鍵性能指標(biāo)(KPI)影響的分析,我們使用了一個(gè)包含 20 個(gè)視頻的樣本集進(jìn)行測(cè)試。在所有視頻上都運(yùn)行了一個(gè)典型的行人檢測(cè)(PD)算法。該算法依據(jù)光照水平、姿態(tài)、對(duì)比度等因素,可檢測(cè)出 8 米范圍內(nèi)的行人,并在檢測(cè)到的行人周圍繪制邊界框。用于量化影響的指標(biāo)是行業(yè)內(nèi)常用的一個(gè)關(guān)鍵性能指標(biāo)(KPI)。我們的關(guān)鍵性能指標(biāo)(KPI)度量標(biāo)準(zhǔn)是標(biāo)注的邊界框與檢測(cè)到的邊界框之間的交并比(IOU)。交并比(IOU)越大,表明準(zhǔn)確率越高,當(dāng)交并比(IOU)高于針對(duì)特定物體實(shí)例設(shè)定的閾值時(shí),則判定為真陽性。

圖 8. 基于定向 FAST 和旋轉(zhuǎn) BRIEF(ORB)的特征匹配示意圖

3.1.2. 銳化

為什么在觀看應(yīng)用中要使用銳化呢?人類視覺系統(tǒng)對(duì)圖像中的邊緣和精細(xì)細(xì)節(jié)高度敏感,并且善于通過調(diào)整來區(qū)分對(duì)比度不同的線條。邊緣和細(xì)節(jié)主要存在于高頻部分。然而,相機(jī)是由有限數(shù)量的像素構(gòu)成的,這意味著在一幅圖像中,只有有限頻率的數(shù)據(jù)能夠被充分捕獲并呈現(xiàn)出來。在圖像中,物體之間的邊界之所以能被察覺,是因?yàn)榇嬖趶?qiáng)度變化(強(qiáng)度變化越劇烈,圖像就越清晰)。相鄰像素之間的強(qiáng)度變化與圖像的導(dǎo)數(shù)(空間微分)有關(guān)。銳化被廣泛用于對(duì)模糊圖像進(jìn)行后處理,通過增強(qiáng)強(qiáng)度變化的幅度來實(shí)現(xiàn)。增大暗區(qū)和亮區(qū)之間的差異能夠突出邊緣。在廣角視場(chǎng)(FOV)鏡頭圖像中,銳化可能是有益的,因?yàn)樗梢詫?duì)光學(xué)傳遞函數(shù)(OTF)起到補(bǔ)償作用。在這種情況下,圖像邊緣部分分辨率會(huì)降低,而銳化可以改善這一情況。

所采用的技術(shù):使用了兩種技術(shù)來銳化圖像。這兩種技術(shù)都應(yīng)用了不同的參數(shù)。第一種技術(shù)是使用拉普拉斯濾波器來增強(qiáng)高頻區(qū)域中包含的精細(xì)細(xì)節(jié)。這些濾波器核的設(shè)計(jì)目的是相對(duì)于原始像素提高中心像素的亮度。拉普拉斯算子(L4 和 L8)是對(duì)圖像二階空間導(dǎo)數(shù)的二維等距度量:

使用的第二種技術(shù)是透明掩蔽(USM)。它使用原始圖像的一個(gè)未銳化(模糊的)負(fù)圖像掩模,通過每像素加權(quán)和與正原始圖像相結(jié)合,以創(chuàng)建一個(gè)銳化版本。在這里,我們使用一組不同大小的高斯核(3×3,9×9和19×19)來創(chuàng)建模糊圖像,并對(duì)模糊圖像使用0.5的權(quán)重。圖9(左圖:拉普拉斯式,右圖USM)顯示了過濾器的應(yīng)用。

圖9.銳化方法|左:使用拉普拉斯濾波器/右:使用USM

視覺分析:這兩種技術(shù)已經(jīng)應(yīng)用于圖像。所有輸出更清晰,真空度增強(qiáng),因?yàn)樵寄:坪醣粍h除。從視覺的角度來看,可以觀察到用拉普拉斯濾波器銳化的圖像比用USM銳化的圖像噪聲更大。每次處理后出現(xiàn),但在拉普拉斯圖像中更明顯。在邊緣檢測(cè)方面,用拉普拉斯算子銳化的圖像中的噪聲在某些情況下被檢測(cè)為邊緣,這與USM產(chǎn)生的“暈”偽影相反,因?yàn)樗鼈儾粔驈?qiáng),不能被檢測(cè)為邊緣。通過二值化得到的結(jié)果與之前的觀察結(jié)果相似,因?yàn)樵嫉亩祷瘓D像與超二值化圖像的銳化圖像之間沒有很大的差異。用拉普拉斯濾波器銳化的圖像的噪聲是明顯的。由于對(duì)二值化圖像進(jìn)行形態(tài)學(xué)閉合操作,也得出了類似的結(jié)論。(視覺差異:圖10)。

圖 10. 采用不同參數(shù)設(shè)置銳化后的圖像示例

通過觀察特征檢測(cè)器給出的結(jié)果可以發(fā)現(xiàn),銳化對(duì)特征檢測(cè)有影響。將原始圖像與經(jīng)拉普拉斯濾波生成的圖像進(jìn)行匹配,內(nèi)點(diǎn)的占比總是更低。我們的測(cè)試結(jié)果表明,高反差保留(USM)方法對(duì)性能可能會(huì)產(chǎn)生正向或負(fù)向的影響(見圖 11)。

定量分析:如前文所述,已針對(duì) 20 個(gè)視頻樣本集計(jì)算了關(guān)鍵性能指標(biāo)(KPI)值。表 1 以及圖 12 中的受試者工作特征(ROC)曲線展示了兩種銳化技術(shù)所獲得的結(jié)果。通過對(duì)比未處理視頻和經(jīng)過銳化處理的視頻之間的關(guān)鍵性能指標(biāo)(KPI)值,可以觀察到拉普拉斯濾波器提升了關(guān)鍵性能指標(biāo)(KPI)值:在每幀誤報(bào)數(shù)(FP)與原始測(cè)試值大致相同的情況下,拉普拉斯 8(Lap8)提升了 14.43%,拉普拉斯 4(Lap4)提升了 7.35%。用于高反差保留的三種配置則得出了相反的結(jié)果(真陽性百分比更低)。從視覺上看,與會(huì)出現(xiàn)大量噪聲和光暈偽影的拉普拉斯濾波相比,高反差保留技術(shù)生成的圖像效果更好。這凸顯了在視覺上對(duì)人類視覺有吸引力的東西,對(duì)計(jì)算機(jī)視覺算法而言未必是好的(見圖 13)。

圖11.根據(jù)SIFT、SURF、ORB和AKAZE的幀和銳化技術(shù)的傾斜百分比

表1。在使用拉普拉斯濾波器或非銳化掩蔽(USM)或無濾波器(原始)進(jìn)行銳化后,由PD算法給出的KPI(%)。TP =真陽性,F(xiàn)P =假陽性

圖 12. 受試者工作特征(ROC)曲線,展示了所測(cè)試的 5 種配置以及對(duì)原始圖像進(jìn)行測(cè)試時(shí)每幀的真陽性率(TP 率)與誤報(bào)數(shù)(FP)情況

圖 13. 銳化后的圖像:(左:拉普拉斯 8(Lap8);右:高反差保留 9(USM9))。當(dāng)行人檢測(cè)(PD)算法檢測(cè)到行人時(shí),會(huì)繪制一個(gè)綠色的邊界框(其他所有線條均用于調(diào)試)

3.1.3. 對(duì)比度

為什么在觀看應(yīng)用中要使用對(duì)比度呢?在對(duì)現(xiàn)實(shí)世界的視覺感知中,對(duì)比度是由同一視野內(nèi)物體的亮度和顏色差異所決定的。人類視覺系統(tǒng)能夠在光照變化的情況下以相似的方式感知世界,因?yàn)樗鼘?duì)對(duì)比度變化比對(duì)絕對(duì)亮度更為敏感。對(duì)比度增強(qiáng)在攝影中是一個(gè)重要工具,因?yàn)樗捎糜趧?chuàng)建引人注目的圖像,并將觀看者的注意力引導(dǎo)到某個(gè)物體上。

所采用的技術(shù):使用了兩種技術(shù)來調(diào)整圖像對(duì)比度,即直方圖均衡化(HE)和對(duì)比度受限的自適應(yīng)直方圖均衡化(CLAHE)。直方圖均衡化技術(shù)會(huì)影響圖像的全局對(duì)比度,并使強(qiáng)度均勻分布,對(duì)于背景和前景中都有明暗區(qū)域的圖像很有用。對(duì)比度受限的自適應(yīng)直方圖均衡化(CLAHE)技術(shù)是對(duì)自適應(yīng)直方圖均衡化(AHE)技術(shù)的一種改進(jìn),用于提高圖像對(duì)比度。會(huì)針對(duì)圖像的各個(gè)部分計(jì)算若干個(gè)直方圖,然后對(duì)強(qiáng)度值進(jìn)行重新分配。

結(jié)果:

視覺分析:可以觀察到,所測(cè)試的這兩種技術(shù)產(chǎn)生了不同的輸出結(jié)果。直方圖均衡化會(huì)使圖像的強(qiáng)度發(fā)生變化。其結(jié)果是,一些高強(qiáng)度的細(xì)節(jié)(如云彩、某些邊界等)會(huì)從圖像中消失,而其他強(qiáng)度較低的區(qū)域則變得更易于分辨。

由于對(duì)比度受限的自適應(yīng)直方圖均衡化(CLAHE)是一種自適應(yīng)方法,生成的圖像顯示原始圖像中的暗區(qū)變得更暗,亮區(qū)變得更亮。圖像似乎包含了更多細(xì)節(jié)。在邊緣處會(huì)產(chǎn)生光暈偽影,并且噪聲會(huì)隨著分塊大小以及所應(yīng)用的裁剪限制值的增大而增加??雌饋碓肼暸c裁剪限制值大小成正比(裁剪限制值越大,圖像中的噪聲就越多)。通過觀察邊緣檢測(cè)后的圖像,可以發(fā)現(xiàn)直方圖均衡化圖像的索貝爾圖像與原始圖像非常相似,而在對(duì)比度受限的自適應(yīng)直方圖均衡化(CLAHE)圖像中,噪聲會(huì)被檢測(cè)為邊緣。原始圖像和處理后圖像之間的差異在二值化后會(huì)更加明顯。直方圖均衡化后的圖像丟失了大量信息。然而,由于圖像變亮了,現(xiàn)在有可能分辨并識(shí)別出源圖像上不可見的特征。對(duì)比度受限的自適應(yīng)直方圖均衡化(CLAHE)方法產(chǎn)生的光暈偽影在二值化圖像上清晰可見。閉運(yùn)算圖像會(huì)因所使用的對(duì)比度技術(shù)不同而受到不同影響。直方圖均衡化圖像在所有區(qū)域都變亮的情況下,信息丟失嚴(yán)重。當(dāng)裁剪限制值和分塊大小更大時(shí),對(duì)比度受限的自適應(yīng)直方圖均衡化(CLAHE)圖像會(huì)呈現(xiàn)出更多細(xì)節(jié)(見圖 14)。

圖14特征匹配測(cè)試得出了與銳化類似的結(jié)果

圖 15 表明,對(duì)比度在大多數(shù)情況下對(duì)不同的特征檢測(cè)器都有負(fù)面影響。只有使用尺度不變特征變換(SIFT)時(shí)的第 10 幀圖像在調(diào)整對(duì)比度后內(nèi)點(diǎn)占比更高。我們從該圖中能得出的另一個(gè)結(jié)論是,在對(duì)比度調(diào)整后,加速魯棒特征(AKAZE)測(cè)試中的部分內(nèi)點(diǎn)占比與原始內(nèi)點(diǎn)占比相等(取決于對(duì)比度算法的參數(shù),其影響可能是負(fù)面的,也可能沒有影響)。這些針對(duì)少量幀的初步結(jié)果表明,對(duì)比度增強(qiáng)對(duì)計(jì)算機(jī)視覺的影響并不像對(duì)人類視覺那樣是積極的。必須在擁有目前尚不可得的原始標(biāo)注數(shù)據(jù)的更大數(shù)據(jù)集上重復(fù)進(jìn)行實(shí)驗(yàn)。在測(cè)試未處理的原始圖像和處理后圖像之間的特征匹配時(shí),大多數(shù)情況下內(nèi)點(diǎn)占比都會(huì)下降。圖 15 展示了所獲得的結(jié)果。

定量分析:表 2 以及圖 16 中的受試者工作特征(ROC)曲線表明,對(duì)比度調(diào)整確實(shí)會(huì)對(duì)關(guān)鍵性能指標(biāo)(KPI)值產(chǎn)生實(shí)際影響。這種影響對(duì)計(jì)算機(jī)視覺(CV)性能而言可能是正向的,也可能是負(fù)向的。使用 3 組參數(shù)進(jìn)行的對(duì)比度受限的自適應(yīng)直方圖均衡化(CLAHE)測(cè)試得出了更高的真陽性百分比:對(duì)比度受限的自適應(yīng)直方圖均衡化(CLAHE)2_8 的為 +6.63%,對(duì)比度受限的自適應(yīng)直方圖均衡化(CLAHE)2_16 的為 +10.01%,對(duì)比度受限的自適應(yīng)直方圖均衡化(CLAHE)10_16 的為 +1.8%。關(guān)于每幀誤報(bào)數(shù)(FP),可以觀察到對(duì)比度受限的自適應(yīng)直方圖均衡化(CLAHE)2_8 和對(duì)比度受限的自適應(yīng)直方圖均衡化(CLAHE)2_16 與原始測(cè)試非常相似,而對(duì)比度受限的自適應(yīng)直方圖均衡化(CLAHE)10_16 的情況要好得多(每幀誤報(bào)數(shù)越低越好)。

圖 15. 取決于幀數(shù)以及所使用的對(duì)比度方法(使用尺度不變特征變換(SIFT)、加速穩(wěn)健特征(SURF)、定向 FAST 和旋轉(zhuǎn) BRIEF(ORB)以及加速魯棒特征(AKAZE))的內(nèi)點(diǎn)百分比

表 2. 使用對(duì)比度受限的自適應(yīng)直方圖均衡化(CLAHE)濾波器進(jìn)行對(duì)比度增強(qiáng)后行人檢測(cè)(PD)算法給出的關(guān)鍵性能指標(biāo)(KPI)百分比(CLAHE 2_8:裁剪限制值 = 2 且分塊大小 = 8×8 的對(duì)比度受限的自適應(yīng)直方圖均衡化(CLAHE))。TP = 真陽性,F(xiàn)P = 誤報(bào)數(shù)。

圖16. ROC曲線顯示TP率與。每幀的6個(gè)配置測(cè)試和測(cè)試原始圖像

3.2. 銳光和對(duì)比度的過濾器調(diào)整

本節(jié)將介紹在[11]電子成像會(huì)議上展示的結(jié)果。在本實(shí)驗(yàn)中,我們使用了93個(gè)視頻的目錄進(jìn)行測(cè)試,并在行人檢測(cè)(PD)算法之前應(yīng)用了銳化和對(duì)比度。為了得到地面真實(shí)結(jié)果,對(duì)整個(gè)目錄運(yùn)行了行人檢測(cè)算法。為了限制配置空間,已經(jīng)測(cè)試了每種技術(shù)的一個(gè)濾波器:拉普拉斯濾波器,它有一個(gè)參數(shù),有兩種可能性,CLAHE技術(shù),有兩個(gè)參數(shù):剪輯限制:[1,15]和時(shí)間大?。?×8或16×16。這里的目標(biāo)是優(yōu)化PDkpi:最大化TP率,同時(shí)保持盡可能低的FP率。為了實(shí)現(xiàn)這一目標(biāo),我們建議計(jì)算一個(gè)折衷值(G),以聯(lián)合優(yōu)化TP率(rTP)和FP率(rFP)值:

G = rFP (1 - rFP)

圖17的圖表顯示了每個(gè)配置的三個(gè)度量值(TPrate、每幀的FP和折衷值)??梢杂^察到,TP速率值從0.68到0.83不等。每幀的FP變化也很大,從0.039到0.101。

圖17:TP率(%)與。每幀的FP作為對(duì)比度

在表3中,我們根據(jù)TP率和折衷值建立了最佳配置。

表3:原始目錄的TP率、FP率和折衷值,TP率的最佳配置和折衷值的最佳配置

在配置中發(fā)現(xiàn)的最佳TP為0.83,比原來的增加了約0.045。通過觀察每幀的FP值,可以看到它幾乎是原始值的兩倍(0.095)。然而,折衷值考慮了TP速率和每幀的FP,這可能是一個(gè)更好的度量方法。最后一列顯示了kpi值,如果按折衷值排序,最佳TP率為0.81,它大于0.025。在這種情況下,每一幀的FP仍然很低(0.069)。

表4顯示了在按TP率或每個(gè)折衷值進(jìn)行排序時(shí)找到的最佳配置的參數(shù)值。圖18顯示了由配置按折扣值排序時(shí)找到的最佳配置給出的參數(shù)值處理的圖像。如果我們考慮人類視覺應(yīng)用,這幅圖像的“圖像質(zhì)量”將遠(yuǎn)遠(yuǎn)被認(rèn)為是一個(gè)“好看”的圖像。

表4.最佳配置的參數(shù)

圖 18. 使用按折衷值排序時(shí)找到的最佳配置(拉普拉斯 8(Lap8),裁剪限制值 = 2 且分塊大小 = 8×8)所給定的參數(shù)進(jìn)行銳化和對(duì)比度調(diào)整后的圖像

3.3. 討論

本次像素級(jí)研究獲得的結(jié)果表明,對(duì)圖像信號(hào)處理器(ISP)流水線的兩個(gè)模塊進(jìn)行調(diào)整會(huì)對(duì)計(jì)算機(jī)視覺算法性能產(chǎn)生直觀可見且可量化的影響。首先,在應(yīng)用索貝爾算子(邊緣檢測(cè))、二值化以及形態(tài)學(xué)操作之后,可以觀察到視覺上的差異。通過計(jì)算每種方法的內(nèi)點(diǎn)百分比,凸顯了對(duì)特征提?。ㄈ绯叨炔蛔兲卣髯儞Q(SIFT)、加速穩(wěn)健特征(SURF)、定向 FAST 和旋轉(zhuǎn) BRIEF(ORB)以及加速魯棒特征(AKAZE))性能的影響。

對(duì)行人檢測(cè)算法關(guān)鍵性能指標(biāo)(KPI)的測(cè)試表明,僅通過使用后處理濾波器,算法性能就會(huì)出現(xiàn)顯著的提升或下降。在逐個(gè)應(yīng)用濾波器的實(shí)驗(yàn)中,可以觀察到原始圖像和處理后圖像之間的真陽性(TP)百分比在銳化操作時(shí)從 +14.43% 到 -3.2% 不等,在對(duì)比度調(diào)整時(shí)從 +10% 到 -10% 不等。

在針對(duì)更大視頻樣本集所做的最后一項(xiàng)實(shí)驗(yàn)中,結(jié)果證實(shí)了之前得出的結(jié)論:“圖像質(zhì)量” 對(duì)計(jì)算機(jī)視覺有著可量化且顯著的影響。通過調(diào)整這兩個(gè)濾波器,我們能夠在將誤報(bào)率(FP)維持在較低水平的同時(shí)提高真陽性率。這有力地表明,為使計(jì)算機(jī)視覺算法(包括傳統(tǒng)特征提取算法和機(jī)器學(xué)習(xí)算法)獲得最佳性能,針對(duì)計(jì)算機(jī)視覺進(jìn)行圖像信號(hào)處理器(ISP)調(diào)優(yōu)是一個(gè)極具潛力的重要研究領(lǐng)域。

4. 未來工作:面向計(jì)算機(jī)視覺的專用圖像信號(hào)處理器(ISP)

4.1. 調(diào)優(yōu)算法

調(diào)優(yōu)算法通常需要一個(gè)可優(yōu)化的標(biāo)量度量指標(biāo)。度量指標(biāo)既可以在圖像層面定義,也可以在計(jì)算機(jī)視覺算法層面定義。針對(duì)人類觀看需求進(jìn)行的圖像信號(hào)處理器(ISP)調(diào)優(yōu)傳統(tǒng)上是基于各測(cè)試對(duì)象偏好分?jǐn)?shù)的匯總,以主觀方式完成的。也存在客觀的圖像質(zhì)量度量指標(biāo),如均方誤差(MSE)、結(jié)構(gòu)相似性(SSIM)等,但它們通常與感知相似性并不對(duì)應(yīng)。對(duì)于計(jì)算機(jī)視覺算法的調(diào)優(yōu)而言,直接對(duì)算法的關(guān)鍵性能指標(biāo)(KPI)進(jìn)行調(diào)優(yōu)效果更好。通常會(huì)有多個(gè)應(yīng)用,如深度學(xué)習(xí)、運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)、視覺同時(shí)定位與地圖構(gòu)建(SLAM)等,各個(gè)算法的不同精度需要通過加權(quán)求和來進(jìn)行衡量。在對(duì)多個(gè)算法關(guān)鍵性能指標(biāo)(KPI)進(jìn)行調(diào)優(yōu)時(shí),主要挑戰(zhàn)在于每次迭代的時(shí)間復(fù)雜度,對(duì)于參數(shù)搜索空間較大的情況,這可能變得不切實(shí)際。因此,必須采用一些高效的策略。可以先對(duì)圖像質(zhì)量度量指標(biāo)進(jìn)行調(diào)優(yōu),以便為計(jì)算機(jī)視覺算法調(diào)優(yōu)方法提供良好的初始值。值得注意的是,就深度學(xué)習(xí)算法而言,可能根本不需要圖像信號(hào)處理器(ISP)組件,因?yàn)樯疃葘W(xué)習(xí)網(wǎng)絡(luò)能夠隱式地學(xué)習(xí)必要的變換。不過,在深度學(xué)習(xí)網(wǎng)絡(luò)中顯式地對(duì)其進(jìn)行建模以利用成像方面的先驗(yàn)知識(shí),或許效果會(huì)更好。戴蒙德等人 利用這一思路對(duì)一個(gè)可微的圖像信號(hào)處理器(ISP)模塊進(jìn)行建模,該模塊可與識(shí)別網(wǎng)絡(luò)一起進(jìn)行端到端的訓(xùn)練。

一旦確定了調(diào)優(yōu)度量指標(biāo)和策略,優(yōu)化算法就會(huì)找出最佳參數(shù)集。最簡單的方法是手動(dòng)試錯(cuò),即由開發(fā)算法的專家根據(jù)經(jīng)驗(yàn)對(duì)參數(shù)集進(jìn)行調(diào)整。通常,會(huì)將計(jì)算機(jī)視覺領(lǐng)域常用的標(biāo)準(zhǔn)參數(shù)集作為起點(diǎn),再進(jìn)一步細(xì)化。一般來說,這是一個(gè)繁瑣的手動(dòng)過程,無法系統(tǒng)地得出最優(yōu)參數(shù)集。對(duì)于具有數(shù)百個(gè)參數(shù)的圖像信號(hào)處理器(ISP)的大型搜索空間而言,手動(dòng)調(diào)優(yōu)尤其困難。最簡單的優(yōu)化算法是網(wǎng)格搜索和隨機(jī)搜索。在網(wǎng)格搜索中,會(huì)基于所有可能的組合在網(wǎng)格上定義參數(shù)范圍,然后使用暴力搜索的方式對(duì)其進(jìn)行評(píng)估。對(duì)于參數(shù)組合較多的情況,這種方法并不實(shí)用。一種改進(jìn)的方法是隨機(jī)搜索,即采用一種巧妙的采樣策略隨機(jī)選擇參數(shù)。在 [95] 中,針對(duì)大型搜索空間已成功展示了這種方法。然而,它并不能保證收斂到最優(yōu)參數(shù)集。

近來,出現(xiàn)了許多更智能的、適用于大型搜索空間問題的優(yōu)化方法。貝葉斯優(yōu)化 [96] 是一種常用于優(yōu)化大規(guī)模問題(特別是評(píng)估函數(shù)計(jì)算成本較高的情況)的形式化方法。原則上,它有可能將其他搜索啟發(fā)式方法(如遺傳算法或群優(yōu)化技術(shù))融入先驗(yàn)?zāi)P椭?。因此,它是一種更通用且更強(qiáng)大的方法。從形式上講,問題可定義如下:一個(gè)算法有一個(gè)參數(shù)空間 P = {p1, p2, …, pn },它是由所有可能的參數(shù)配置組成的集合。參數(shù)通常是數(shù)值型的,也可以是類別型的,如啟用 / 禁用某個(gè)模塊。每個(gè)參數(shù)的分辨率和范圍將是關(guān)鍵的設(shè)計(jì)選擇。對(duì)于具有數(shù)百個(gè)參數(shù)的圖像信號(hào)處理器(ISP)配置,集合 P 的基數(shù)可能會(huì)超過 102?,暴力搜索是不可行的。

算法調(diào)優(yōu)問題可定義如下:popt = argmax (pi∈P)(Faccuracy (p)),其中 popt 是使精度成本函數(shù) Faccuracy (p) 最大化的最優(yōu)參數(shù)配置。通常,會(huì)有多個(gè)算法,其精度需要聯(lián)合優(yōu)化。標(biāo)準(zhǔn)方法是通過加權(quán)求和將不同的精度標(biāo)量化。也有多目標(biāo)優(yōu)化方法,其目的是在多維空間中同時(shí)優(yōu)化關(guān)鍵性能指標(biāo)(KPI)。通常,這種方法相對(duì)復(fù)雜,也需要大量的人工干預(yù)?;谛蛄心P偷乃惴ㄅ渲茫⊿MAC3)(是一款用于優(yōu)化配置的熱門工具,它結(jié)合了貝葉斯優(yōu)化、梯度下降以及其他啟發(fā)式方法。

單圖像信號(hào)處理器(ISP)與雙圖像信號(hào)處理器(ISP)

人類視覺(HV)和計(jì)算機(jī)視覺(CV)的需求可能不同。傳統(tǒng)上,出于成本考慮,在處理片上系統(tǒng)(SOC)板載或配套芯片上只有一個(gè)圖像信號(hào)處理器(ISP),而且通常是針對(duì)人類視覺進(jìn)行調(diào)優(yōu)的。來自同一流水線的圖像被用于機(jī)器視覺應(yīng)用。已有研究表明,針對(duì)人類視覺(HV)和計(jì)算機(jī)視覺(CV)優(yōu)化的圖像信號(hào)處理器(ISP)是不同的 [94,97]。我們也將在下一節(jié)展示更多這方面的實(shí)證證據(jù)。將圖像信號(hào)處理器(ISP)拆分為分別用于人類視覺(HV)和計(jì)算機(jī)視覺(CV)的獨(dú)立流水線,能夠?qū)Χ叻謩e進(jìn)行獨(dú)立調(diào)優(yōu),以便各自實(shí)現(xiàn)性能最大化。這對(duì)于機(jī)器學(xué)習(xí)算法尤其重要,因?yàn)闄C(jī)器學(xué)習(xí)算法理想情況下是基于特定的圖像信號(hào)處理器(ISP)設(shè)置進(jìn)行訓(xùn)練的。雙圖像信號(hào)處理器(ISP)流水線如圖 19 所示。人們對(duì)獨(dú)立圖像信號(hào)處理器(ISP)的重要性有了更深入的理解,而且現(xiàn)在大多數(shù)汽車片上系統(tǒng)(SOC)都具備了支持雙圖像信號(hào)處理器(ISP)流水線的計(jì)算能力和內(nèi)存帶寬。盡管采用了多個(gè)圖像信號(hào)處理器(ISP)的實(shí)現(xiàn)方式,但存在一個(gè)關(guān)鍵限制,即動(dòng)態(tài)反饋回路算法必須由一個(gè)主控制器來控制。相應(yīng)圖像傳感器的底層行為,例如特定曝光下某個(gè)像素的曝光時(shí)間,必須進(jìn)行唯一控制。

圖 19. 雙圖像信號(hào)處理器(ISP)示意圖

結(jié)論

汽車系統(tǒng)的一個(gè)關(guān)鍵趨勢(shì)是朝著全自動(dòng)駕駛車輛發(fā)展,計(jì)算機(jī)視覺也不例外。所有主要的汽車制造商都在研究并推廣某種形式的車輛自動(dòng)駕駛,而且都在計(jì)算機(jī)視覺領(lǐng)域進(jìn)行投資,近期尤其側(cè)重于神經(jīng)網(wǎng)絡(luò)方面。這一趨勢(shì)始于市場(chǎng)上已有的較低自動(dòng)化水平的應(yīng)用,并且在未來幾十年隨著全自動(dòng)駕駛車輛的出現(xiàn)必然會(huì)全面開花結(jié)果。因此,攝像頭過去是、將來也仍會(huì)是此類系統(tǒng)中的關(guān)鍵要素。

圖像信號(hào)處理器(ISP)在計(jì)算機(jī)視覺中起著至關(guān)重要的作用,因?yàn)樗鼜母旧峡刂浦鴤鬟f給計(jì)算機(jī)視覺算法的信號(hào)質(zhì)量。然而,正如我們所討論的那樣,計(jì)算機(jī)視覺中的 “質(zhì)量” 未必是一個(gè)定義明確的概念,特別是考慮到計(jì)算機(jī)視覺中能夠設(shè)計(jì)出各種各樣的算法和應(yīng)用。正如我們所闡述的,很明確的一點(diǎn)是,在自動(dòng)駕駛車輛的背景下,使計(jì)算機(jī)視覺性能最大化至關(guān)重要,而且對(duì)圖像信號(hào)處理器(ISP)進(jìn)行調(diào)整會(huì)對(duì)計(jì)算機(jī)視覺算法的性能產(chǎn)生重大影響。鑒于該主題的重要性和復(fù)雜性,我們圍繞以計(jì)算機(jī)視覺性能作為成本度量來自動(dòng)調(diào)整圖像信號(hào)處理器(ISP)流水線參數(shù)的幾種可能性進(jìn)行了討論,例如貝葉斯超參數(shù)搜索,從而避開了為傳遞給算法的圖像數(shù)據(jù)定義計(jì)算機(jī)視覺質(zhì)量度量的必要。

在本文中,我們主要闡述了對(duì)圖像信號(hào)處理進(jìn)行自動(dòng)調(diào)優(yōu)以最大化計(jì)算機(jī)視覺算法性能的重要性這一論點(diǎn),展示了一些結(jié)果來強(qiáng)化我們的論點(diǎn),但并未呈現(xiàn)自動(dòng)調(diào)優(yōu)本身的相關(guān)結(jié)果。這顯然是朝著這個(gè)方向開展工作的下一步內(nèi)容。與本研究中呈現(xiàn)的結(jié)果相關(guān),后續(xù)研究將會(huì)拓展至其他圖像信號(hào)處理器(ISP)處理過程,如高動(dòng)態(tài)范圍(HDR)、色調(diào)映射、低光敏感度、調(diào)制傳遞函數(shù)(MTF)以及位深等方面,并研究對(duì)其他計(jì)算機(jī)視覺(更具體地說是深度學(xué)習(xí),DL)算法關(guān)鍵性能指標(biāo)(KPI)的影響,以便按照所述方式通過自動(dòng)化對(duì)圖像信號(hào)處理器(ISP)進(jìn)行最優(yōu)調(diào)優(yōu)。

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄