Abstract
在現實世界中,立體視覺系統面臨的兩大挑戰是:在各種輻射變化下的穩健系統和實時過程。為了從立體圖像中提取深度資訊,本文提出了一種基于patch的快速立體比對算法。為此,我們設計了一個成本函數,并将其最小化以獲得一個精确的視差圖。具體地說,我們使用先驗機率來最小化遮擋區域,使用考慮物體凹凸性的平滑項來提取精細的視差圖。為了評估提出的方案的性能,我們使用了具有輻射變化的米德爾伯裡立體聲資料集。實驗結果表明,該方法在像素誤差和處理時間方面分别比現有方法提高3.35%和4.71 - 27.24倍。是以,我們相信所提出的方案可以成為一個有用的工具,以計算機視覺為基礎的應用。
1.Introduction
從圖像中提取三維資訊是計算機視覺中一個長期的研究領域。立體比對僅利用一對錄影機擷取三維資訊,已成為多視點三維計算機視覺的基本方法。此外,立體比對不僅為三維視覺系統,而且為其他計算機視覺算法,包括分割、檢測、識别及其應用提供了有用的資訊。然而,要在現實世界中應用立體比對,必須考慮在各種輻射條件下的立體圖像。特别是參考圖像和目标圖像之間的輻射變化;是以,擷取一個清晰的視差圖是很困難的,因為我們無法确定在輻射變化下,點與點之間的顔色一緻性。為了解決這一問題,幾十年來已經研究了幾種算法。Hirschmuller和Scharstein[20]提出非參數方法包括census變換(CT)[9],分層互資訊(HMI)[19],和背景減法的雙邊濾波[26]Birchfield和預[18]下強勁輻射變化比較差異等基本方法和(SAD)和歸一化互相關(NCC)的計劃。自适應正态化互相關(ANCC)[1]使用對數色度歸一化來産生顔色一緻的立體圖像,并使用NCC來獲得視內插補點。然而,使用成本聚集後的圖切割的優化在減少遮擋區域方面顯示出有限的性能,即使多次疊代。聯合深度圖和顔色一緻性(JDMCC)[2]通過使用疊代立體顔色直方圖均衡化(SCHE)方案擴充了ANCC的對數色度歸一化。此外,它使用尺度不變特征變換和互資訊來計算比對代價。然而,如果顔色不比對,SCHE處理不正确的立體圖像,并産生一個錯誤的視差圖。梯度累積密度函數(CDFofGrad)[3]利用RGB通道的累積梯度資訊。在不發生輻射變化的情況下,CDFofGrad在立體圖像的邊緣或梯度上顯示出良好的性能。然而,該梯度隻包含高頻資訊,在立體圖像的寬平面區域産生噪聲。基于自适應描述符(AdapDesc)的算法[4]提出了一種利用低頻和高頻資訊的17維局部描述符。然後,根據參考熵和目标塊的大小,将自适應權重方法應用于描述符。然而,計算自适應權重非常複雜。此外,熵不能考慮塊結構和物體形狀的變形,這會導緻不正确的自适應權重。Kemeny和snell的基于距離和分段的平面拟合(KSP)方法[21]采用畸變度量來計算輻射一緻性,并在Rhemann等人[17]中将平面拟合作為濾波權值應用于代價體積空間,對邊緣胖化問題是有效的,但是,平面拟合前的均值漂移分割對參考圖像的情況敏感,導緻過分割或欠分割,産生噪聲或塊狀結果。改進的人口普查變換[22]将中心像素和平均值與相鄰像素進行比較,并使用稀疏的漢明距離[27]來降低計算成本。然而,在輻射變化下的比對代價可能是不穩定的,進而導緻視差失真。
特别是,這些算法在輻射變化的情況下以較高的計算代價獲得清晰的視差圖。為了快速擷取視差圖,近年來研究了基于Patchmatch(PM)的[6]立體算法。PM提出了一種随機初始化和傳播方案來快速确定相應的點。PM stereore[7]使用過參數化視差來計算傾斜平面上的精細視內插補點。PM信度傳播(PMBP)[8]用最大積粒子信度傳播(MP-PBP)擴充了PM立體。PMBP報告了有效的局部能量最小化方案,結果明确。然而,在大的遮擋區域附近,特别是在輻射變化下,很難區分誤差和校正差異。這将導緻傳播錯誤。此外,視差的不穩定平面f具有很高的機率。PMBP存在能量最小化的不穩定f。此外,Nair等人提出了一種用于反射表面的魯棒立體比對方法,這是現實世界中另一個具有挑戰性的問題,該方法基于PM立體視覺,在高維成本空間中進行了有效的優化。
為此,本文提出了一種立體比對算法,以克服在輻射變化條件下計算量大、視差估計不穩定的問題。基于PM立體架構,我們使用CT來提取立體圖像的模式和減少輻射變化的影響,而不需要額外的計算色彩張力或描述符的建立。為了反映上述情況,設計了成本函數,并進行了有效的微型化。為此,我們引入了先驗機率項,該項通過對視內插補點使用局部先驗機率和全局先驗機率來發現和修正遮擋區域。此外,平滑項考慮了物體的凹凸性,以獲得良好的視差圖。
本文組織如下。第2節用CT和先驗項描述了該方法的詳細方案。第3節給出實驗結果及其分析,第4節給出結論并進行讨論。
2 PROPOSED METHOD
該方法将視內插補點表示為立體圖像的z坐标。PM立體[7]定義了過參數化的差異的屬性,參考圖像上像素 p = [ p x , p y ] p=[p_x,p_y] p=[px,py]處的平面fp為 f p = [ a p ; b p ; c p ] f_p=[a_p;b_p;c_p] fp=[ap;bp;cp]和差異值 d p = p T f p ′ d_p=p^Tf_{p'} dp=pTfp′,其中二維坐标向量p=[px;py;1]T。所提出的方法将能量最小化問題定義為
其中 E d a t a ( p ; f p ) E_{data} (p; f_p) Edata(p;fp)是一種資料項成本函數的基礎上點音響和應用于CT [9], E s m o o t h ( d p ; d q ) E_{smooth}(d _p; d_q) Esmooth(dp;dq)平滑項估算局部表面的凸性由p和它的鄰居,和 E p r i o r ( d p ) E_{prior} (d_p) Eprior(dp)是前一項通過先驗機率的差異值。此外, β s 和 β p \beta_s和\beta_p βs和βp是歸一化和控制每一項相關性的參數。
圖1給出了該方法的總體方案。首先,與其他基于PM的方法類似,通過随機初始化得到初始的視差映射,經過幾次疊代後得到最終的不均勻度映射。對于靜态立體圖像,PM立體聲提出了兩個傳播步驟:空間傳播和視圖傳播。在空間傳播中,像素p從其鄰域接收新的平面f’p,如果 E ( p ; f p ) E(p;f_p) E(p;fp)大于 E ( p ; f p ′ ) E(p;f'_p) E(p;fp′),則f p更新為f’p。由于平滑項 E s m o o t h ( d q ; f p ) E_{smooth}(d_ q;fp) Esmooth(dq;fp)和先驗項 E p r i o r ( d p ) E_{prior}(d_p) Eprior(dp)可以減小誤差區域,使得像素能夠從鄰域接收到足夠好的屬性,是以該方法不采用PM立體圖的視點傳播步長,進而降低了計算量。在傳播之後,我們估計了先驗項的局部和全局先驗機率。初始視差圖不能估計先驗項的機率分布函數(PDF),是以在第一次傳播發生之前,該方法用 E p r i o r ( d p ) = 1 E_{prior}(d_p)=1 Eprior(dp)=1固定先驗項。平面細化也基于PM立體聲,但它采用了來自上一項的局部和全局分布的統計資訊。在每個疊代中,傳播、估計PDF和平面細化步驟按順序重複。最後,對最終的視差圖進行再處理。
2.1 Data Term Using CT( census transform)
一個像素點p處的CT值,根據其與相鄰8個像素點的強度內插補點,有8個二進制位,如圖2所示。二進制位與強度差的數量無關。CT可以在立體圖像的輻射變化下發現相同的強度模式。此外,立體像的CT在強度改變時是一緻的,但其強度模式不受輻射變化的影響。是以,CT可以在不使用其他方法的情況下,在輻射變化下找到相應的像素點。該方法基于PM立體聲的成本函數,在像素p處定義Edata為
其中N §是一種nxn塊集中在p, q 0是相同的目标圖像的像素空間位置q, w (p, q)是自适應支援體重(ASW) [10], H ( ⋅ ) H(\cdot) H(⋅)是二進制位的漢明距離函數和T是漢明距離的截斷值。ASW定義為
其中, Δ C p q 和 Δ g p q \Delta_{C_{pq}}和\Delta_{g_{pq}} ΔCpq和Δgpq分别代表CIE lab顔色空間的光度差和p、q點空間坐标的幾何差。 γ c 和 γ p \gamma_c和\gamma_p γc和γp是控制 Δ C p q 和 Δ g p q \Delta_{C_{pq}}和\Delta_{g_{pq}} ΔCpq和Δgpq相關性的參數。ASW用于檢測N§的支撐區域,防止邊部肥厚引起的變形。
2.2 Smoothness Term for a Convex Plane
在PM[6]的能量最小化問題中,傳播步驟的工作原理類似于平滑項。通常,傳播隻能在最近的兩個像素之間進行,而且它可能不考慮本地屬性并導緻錯誤。為了解決這一問題,在PM中使用平滑項是增強傳播的有效方法。PMBP[8]使用MP-PBP作為平滑項。特别地,它使用了一個像素平面而不是視差本身來最小化像素p與其鄰居之間的代價,因為當物體表面傾斜時,即使正确地獲得視內插補點,視差的推導也會産生誤差。然而,與典型的能量最小化方法相比,MP-PBP需要更高的計算成本。是以,我們使用一個考慮傾斜平面的廉價平滑術語。此外,我們估計了凸表面條件,使凸物體上的能量最小化。
為了估計以p為中心的局部區域的凸性,我們使用像素的兩個相幹和機關法向量 n = [ n x , n y , n z ] n=[n_x, n_y, n_z] n=[nx,ny,nz]。相幹性一般是指圖像及其屬性的變化是平滑的、連續的;是以,n變化平穩且連續。
另外,以p為中心的局部區域可以估計為各個球體的一部分,如圖3所示。參數np是機關法向量,它與平面fp和視差dp之間存在關系
然而,在局部區域内精确地估計一個球面是很困難的。為了解決這一問題,我們首先利用平面f p計算局部斜面,然後利用機關法向量n p和n q簡單地建立凸曲面,如圖4所示。凸平面的光滑項定義為
其中w(p,q)是ASW,與式(2)相同。 E s m o o t h ( d q ; f p ) E_{smooth}(d_q;f_p) Esmooth(dq;fp)中的ASW可以防止在局部區域遇到極端變化(如邊緣與鄰居缺乏一緻性)時出現臨界誤差。
2.3 Prior for Disparity
立體圖像中的遮擋是由于前景物體由于視點的不同而具有不同的背景,進而導緻視差圖的值不正确造成的。通常,一個代價函數不能确定一個遮擋區域中的對應點。是以,估計的視差圖在遮擋區域包含一個不正确的值。為了解決這個問題,PM立體聲在後處理步驟中應用了左/右張力檢查和閉塞填充,Rhemann等人使用了[17]。一緻性檢查和遮擋填充政策是減少遮擋區域的一種簡單而有效的方法,但由于左右視差圖是必需的,是以需要雙倍的計算代價。Lim等人[16]提出了一種不需要左右一緻性檢查的快速有效的遮擋填充方法,該方法簡化了相幹敏感哈希(CSH)[12],将參考圖像分類為1024個屬性,并用每個屬性的中值代替遮擋像素。然而,CSH中的索引步驟不考慮像素的位置,将參考圖像分類到散清單中,這會導緻如圖5所示的僞影,因為它不能反映差異的一緻性。為了使其更适合實時處理,該方法擴充了Lim等人的方法,并使用局部和全局屬性對像素進行分類。此外,通過在反映分類分布先驗資訊的成本函數中加入一個先驗項來估計準确的視內插補點。
首先,為了将參考圖像分類為局部屬性,該方法采用了一種最先進的分割算法——簡單線性疊代聚類超像素(SLIC)[11]。SLIC使用CIE lab顔色空間和空間坐标的距離将參考圖像分割為非重疊的K-super像素。超像素中的像素在局部區域具有相似的屬性。超像素中的視差也趨向于分布在一個特定的不均等值附近。通過使用這個屬性,我們估計了差異的PDF,這有助于評估差異的可靠性。前一項考察了将遮擋區域重構到合适視差的可靠性。為了更容易地估計PDF,該方法将超像素設定為包含足夠的像素,并以正态分布的形式估計PDF。是以,該方法利用第k個超像素Sk中的視差先驗機率 P S k ( d p ) P_{S_k}(d_p) PSk(dp)來定義視差的可靠性
其中 p k 、 f p k 和 d p k p^k、f ^k _p和d ^k _p pk、fpk和dpk分别表示在 S k S _k Sk中的像素位置、平面和方差。盡管如此,可以觀察到超級像素包含在非常大的遮擋區域中的像素,并且像素的數量不足以産生适當的正态分布。此外,如果一個超像素具有混合的視差分布,則估計出一個錯誤的正态分布。在這種情況下,利用式(6)計算出正确的先驗機率是困難的。為了補充局部先驗機率,先驗項使用CSH利用全局屬性對參考圖像進行分類。值得注意的是,該方法不使用灰階編碼核[13]對像素進行分類,而是使用整幅圖像,因為灰階編碼核的塊大小限制為2的幂。特别地,我們隻使用了三個核心将參考圖像分類為極度碎片化的圖像,如圖6所示。然後從實驗通道中提取5張濾波後的圖像,如圖7所示,根據圖像的分布将每個濾波後的圖像量化為2比特。然後,我們将5個2位值連接配接到一個10位代碼,該代碼将給定的像素分類到第i個散清單。
全局視差先驗機率 P C i ( d p ) P_{C_i}(d_p) PCi(dp)在第i個哈希表中, C i C_ i Ci由
2.4 Plane Refinement
3 EXPERIMENTAL RESULT
3.1 Experimental Environment
為了評價該方法的性能,我們從米德爾伯裡立體聲基準[15]中選擇了六組三分之一大小的不同ratio-metric條件的立體聲資料集。我們固定了參考圖像1的曝光和照度等級,如圖8所示。目标圖像在三種曝光水準下,即0-2和兩種照度水準,即1和2,有六種無線電測量變化組合,如圖9所示。我們分别用 i l l ( ⋅ ) 和 e x p ( ⋅ ) ill(\cdot)和 exp(\cdot) ill(⋅)和exp(⋅)表示目标圖像的照度和曝光水準。該方法使用MATLAB 2016b在Intel® corei7CPU(4.20GHz)和32GBRAM上實作。表1列出了實作參數。其中maxdisp是視內插補點允許的最大值。和PM立體聲[7]一樣,我們進行了三次疊代來獲得視差圖。
為了定性地評價實驗結果,我們使用了由
3.2 Self Analysis on Cost Terms
在将所提出的方法與最新方法進行比較之前,我們分析了成本函數中的主要項對所提出方法的影響程度。作為基線算法,我們通過用公式(2)中類似的公式CT[9]替換強度相似性度量來選擇PM立體。但是,由于基線系統也不包括一緻性檢查,是以該方法在後進行中不采用一緻性檢查。
3.2.1 Analysis on Support Weights
首先,我們比較了兩個支援權重因子:ASW[10]和PM立體聲的RGB權重。如表2所示,ASW在大多數情況下性能更好。更詳細地說,從圖10可以看出,應用Eq. (5), ASW可以有效地工作在複雜的物體上(具體觀察情況見實心的紅色圓圈)。ASW和RGB的基線結果分别如圖10b和10c所示,沒有産生明顯的差異,但是在stick附近會産生較大的噪聲誤差。如圖10所示,使用RGB權重的建議架構比基線方法提供了更平滑的結果,盡管有很多模糊。相比之下,圖10f中提出的方案對棒的變形更小,效果最好。此外,在沒有先驗項(bp =0)的情況下,該方案的結果看起來很相似,但在複雜物體周圍的噪聲更大。
3.2.2 Analysis on a Smoothness Term
分析了平滑項的作用。為了簡單比較,我們将式(5)中的平滑項替換為PMBP[8]中的平滑項,稱這種情況為BP。将參數bp分别指派為0和2.5,用于評價有或沒有前一項時的效果。表3和表4總結了分析結果。表3顯示了所有情況下的平均壞像元誤差,如圖8和圖9所示。在沒有先驗項的情況下,所提出的方法和BP算法都能較好地執行基線算法,所提出的方案的結果優于BP算法。以類似的方式,結合前一項,兩者也能顯著改善結果。此外,圖11圖解地說明了在各種條件下的結果。
3.2.3 Analysis on a Prior Term
但局部先驗作用有限,特别是在圖13b中實心綠色橢圓标記的大遮擋區域,局部先驗丢失了部分目标,如圖13b中實心藍色圓圈所示,這是由于超像素中的不完全聚類造成的。當用綠色橢圓觀察全局先驗時,全局先驗比局部先驗表現得更好。然而,人工制品仍然留在花盆和葉子的表面(參見圖13c中的實心紅圈)。如圖13d所示,結合局部先驗和全局先驗可以改善綠色橢圓的視覺品質,但藍色圓圈内的葉子是分離的。最後,利用平滑項對圖13d的結果進行了細化處理,減少了僞影。表5定量總結了分析結果。全局先驗在非遮擋區域(NOCC)上提供了更好的輸出。這意味着全局先驗比局部先驗更能抵抗遮擋,但它會随機産生僞影,使算法穩定。是以,我們可以利用本地和全球的優勢來克服個體的弱點,并帶來協同效應,進而形成一個不同的區域地圖。
3.3 Comparison Result
為了評估該方案的性能,我們選擇了五種最新的方法:JDMCC[2]、CDFofGrad[3]、AdapDesc[4]、KSP[21]和MS[22]。如作者所述,JDMCC在c++中進行了測試,其他的在MATLAB中實作。圖14圖形化地說明了在輻射測量變化情況下,差像素誤差方面的比較結果。特别地,表7列出了所有情況下的平均壞像素錯誤,如圖8和圖9所示。為了進行公平的比較,由于AdapDesc、CDFof-Grad和KSP沒有使用一緻性檢查和遮擋填充步驟作為後處理,是以隻考慮視差圖中沒有遮擋區域。然而,表7報告了綜合比較的ALL和NOCC結果。很容易觀察到,在圖14所示的大多數情況下,所提出的方法優于其他方法,即使JDMCC在某些情況下給出了最好的結果。但是,在特定的情況下,AdapDesc、CDFofGrad和JDMCC會造成較高的壞像素誤差,如圖14c、14d和14e所示,而本文提出的方法具有穩定一緻的性能。特别是,所提出的方法在計算時間方面提供了最好的性能,如表6所示。
我們的系統處理時間的範圍是最小的4.71倍(CDFofGrad)和最大的27.24倍(AdapDesc)比那些比較的方法。在計算代價的平均統計量上,該算法包括随機初始化步長(含代價計算)占11%,傳播步長占58.1%,平面精化占27.4%,順序步長占剩餘計算代價。相比之下,JDMCC包含了高達61.9%的視差資訊步長,高達10.3%的彩色一緻性步長,高達26.25%的平面拟合步長,以及剩餘計算成本的順序步長。KSP包括成本計算占86.7%,平面拟合占13%。其他算法在所有像素的所有搜尋範圍内計算成本函數幾乎要消耗計算時間(超過97%)。
為了更好的觀察,圖15、16和17分别顯示了Books、Cloth4和Moebius的三維法線貼圖。在圖15中,我們所提出的算法對紅色實心圓内的物體産生的失真最小,但對藍色圓内的傾斜物體表面産生的形狀最連續。在圖16a和圖16b中,根據場景深度的等高線很容易被發現,而我們的方法是對傾斜的和反方向的物體保持平滑和連續的形狀。此外,所提出的方案可以獲得如圖17所示的實心紅、綠、藍三色圓圈所示的各種物體形狀的最佳三維重建結果。更準确地說,圖17a顯示了物體邊界周圍的形狀失真(參見紅色和綠色圓圈)。在圖17b的紅、綠、藍三色圓圈内可以觀察到許多物體上的裂縫,但是,從視覺品質上看,由該算法生成的物體在形狀上更接近地面真實物體。可複制圖像的源代碼可在http://mmc.cau.ac.kr/publications-2/上找到。xxxxxxx
4 CONCLUSION
提出了一種基于輻射變化的立體比對算法。具體來說,基于PM的[6]幀工作被用來克服計算成本高的常見挑戰。為了獲得良好的視差圖,我們設計了一個包含平滑和先驗項的成本函數。利用一種簡單有效的方法對光滑項進行改進,使其考慮曲面的凹凸性,進而使該方法表達出更多的細節。此外,基于局部先驗機率和全局先驗機率,提出了一種新的先驗條件來确定和修正不正确的視差,該先驗條件有效地減少了誤差區域。實驗結果表明,該方法在平均壞像元誤差和計算代價方面均優于現有方法。是以,我們相信所提出的演算法可以成為開發以計算機視覺為基礎的應用程式的有用工具。
我們的研究重點是改進卷積神經網絡算法,使其在[23]、[24]、[25]等實時應用中更具有實用性和擴充性。