Robust Face Image Super-Resolution via Joint Learning of Subdivided Contextual Model
基于細分上下文模型聯合學習的魯棒人臉圖像超分辨率
1 摘要 Abstract
主要研究:在噪聲低分辨率場景下恢複高分辨率人臉圖像(原因是捕捉到的面部圖像中最重要的結構和細節丢失了)
解決:
①通過聯合學習上下文模型,提出了一種新穎的基于局部更新檔的面部超分辨率(FSR)方法。上下文模型是基于上下的子斑塊組成的拓撲結構,由于斑塊尺寸更細,它比常用的局部情景結構提供了更有用的結構資訊---->【上下文模型就能夠恢複目标斑塊中缺失的局部結構】
②引入了識别特征作為額外的規則性---->【加強上下文拓撲結構的補償功能】
基于上下文模型,我們将超分辨率程式表述為通過目标斑塊和其相鄰斑塊的上下文聯合來實作。高分辨率圖像是通過對上下文估計的權重得到的。
2 介紹 Introduction
2.1 背景介紹
VLQ FSR(Very Low Quality )問題:這是一張監控人臉圖像,由于目标和錄影機之間的距離過長、視訊壓縮程式等原因造成的嚴重退化(嚴重的噪音、模糊),其品質非常低。最先進的算法無法生成清晰的人臉圖像。
解決方法:提出了一種新穎的FSR方法,通過應用其上下文中心的斑塊提供的結構指導來恢複嚴重退化的面部圖像
與目前單純利用上下文區域整體的方法不同:
①作者利用細粒度的上下文資訊 the fine-grained level ,根據周圍區域的進一步劃分的子斑塊形成上下文拓撲結構。
②基于上下文子斑塊形成的拓撲結構,作者應用識别特征來進一步加強上下文模型的顯著性
此外,作者還分析和讨論了基于引導和内在面部結構的FSR中上下文區域的有效性邊界,主要的結論如下:
- 提出應用上下文資訊作為低品質面部圖像恢複的限制條件。較大區域的工作能力彌補了目标斑塊的結構和特征的不足,進而使我們能夠處理包括噪聲在内的嚴重退化
- 通過将上下文區域細分為拓撲結構來形成一個上下文模型。情境資訊的利用模型越細化,這些情境子斑塊之間的差異性就越大,通過這種方式可以進一步優化情境資訊的先驗知識
- 我們使用識别特征(即定向梯度直方圖,HOG)來描述上下文子斑塊的拓撲結構。識别特征進一步最大化了斑塊之間的差異,進而增強了斑塊表現的獨特性和修複後人臉圖像的合理性
2.2 創新動機
作者的FSR算法是以人臉結構的特殊性為動機的,從人類認知的角度來看,我們可以得到兩個關于人臉特征的觀察:
(1) 當我們把注意力從整個面部圖像範圍定位到小的局部區域時,很容易造成錯誤的相似性現象,也就是說,兩個LR圖像可能具有相似的外觀,即使它們在HR空間是完全不同的圖像(圖2)
如果我們把我們的焦點範圍從本地範圍擴大到更大的範圍,那麼這個錯誤的相似性就會被削弱,如下圖:
Validation of contextual information
藍框内的斑塊是目标斑塊,黑框内的斑塊是背景斑塊。在第二列中,我們可以得到兩個由于高頻細節損失而産生的觀察結果(又稱錯誤的相似性現象):兩個完全不同的人可能有相似的LR外觀,同一個人的HR/LR圖像對可能有低的相似性。在引入周圍資訊後,錯誤的相似性現象被有效地抑制了。
(2)并非所有上下文更新檔都能有效識别。
當一張臉被遮擋并且隻有一個可見的局部塊(例如,一隻眼睛)時,很難通過一個眼罩識别他(她)。如果我們減少遮擋并給另一隻可見的局部補片(例如,另一隻眼睛),那麼這兩隻眼睛就更有可能認出這個人。但是,如果我們提供與眼睛不相關的上下文斑塊,例如,一塊皮膚區域,它可能對識别這個人毫無用處。畢竟,在提供識别指導方面,上下的皮膚更新檔沒有另外一隻眼提供的指導重要。
【作者在邊緣引入更大範圍的結構去補償缺失的資訊,同時也可以拓展局部的結構,以此提高了局部區域的拓撲結構的完整性。】
2.3 基于細分上下文模型聯合學習的FSR
(1)上下文拓撲結構 the contextual topological structure
LR patch space and HR patch space 之間的映射關系:
- 傳統方法中,映射關系是基于LR橙色區域和HR橙色區域的更新檔對建立的
- 本文提出方法,基于LR空間中的上下文區域(白色和橙色)和HR空間中橙色區域建立映射關系
① 對上下文資訊的利用就是在上下文區域的幫助下建立映射關系
具體來說,就是映射關系從本地LR更新檔(左框中的橙色區域)與LR上下文區域(左框的白色區域提供結構補償)組合到本地HR更新檔(右框中的黃色區域)。
② 本文将上下文區域按位置均勻劃分為上下文子塊後,将其組織為拓撲形式
經過細分,得到拓撲結構:拓撲的所有節點都由中心目标塊的上下文子塊組成,而拓撲的邊緣是這些節點在表示中心目标塊時的潛在貢獻
③本文在分離限制中,隐秘的發揮了以中心更新檔聯合學習過程中的每個節點的潛在作用
基于觀察到這些上下文子更新檔在表示目标更新檔方面存在潛在貢獻差異,即不同子更新檔在代表目标更新檔方面的貢獻比例不同,進行了更新檔細分和拓撲形成
實驗驗證:
位置p1與中心位置的紋理相關性最高,因為隻有使用p1位置,才能更好地了解目标面片是一個半眼。是以,具有強紋理相關性的上下文面片可以更好地模組化面部元件。
紋理最相似的上下文更新檔具有最相似的流形結構,例如,位置p1與中心位置的流形構造最相似,這驗證了圖5中的直覺
拓撲由節點和邊組成,其中節點是目标patch 的上下文 patch ,邊是這些節點在表示中心目标patch 時的潛在貢獻
(2)識别特征限制 the recognition feature constraint.
應用識别特征的原因:
① 識别特征可以提供更多的差異來指導圖像恢複,這是由于識别特征是被設計被來區分一張圖像中的所有目标,是以,它使得在不同的目标之間的差異最大化,以此來促進識别。當應用在一張人臉圖像時,識别特征可以最大化兩個patch(如皮膚區域和器官區域)之間的紋理差異。是以,即使在LR成像場景下,識别特征也能提供更多的差異性。
② HOG固有的圖像塊分割操作不僅滿足并加強了我們的細分政策,而且在小patch紋理描述方面也取得了先進的性能。
3 網絡架構
- 擴充表示範圍
- 應用合理的識别特征
- 并基于細分政策在此位置表示目标輸入圖像
3.1 算法公式
the first constraint:
the second constraint:
the third constraint:
coefficients :
JI + JH OG + Jin:
the last constraint:
原文論文:【Noise Robust Face Hallucination via Locality-Constrained Representation】
- 兩部分組成:第一項計算重建誤差,第二項保留局部性, 代表正則化參數,用于平衡 重建誤差 和 局部性解 的貢獻。
- 位置性限制 the locality constraint 的作用有兩個方面。一方面,它使解決方案固定下來;另一方面,它為每個更新檔引入了一個區域性限制的稀疏表示,然而這種 “sparsity”要比 意義上的稀疏性弱得多。
d(i,j):是一個M維向量,用于懲罰在X(i,j)和每個相同位置的訓練塊之間的距離。
原文論文:【Noise Robust Face Hallucination via Locality-Constrained Representation】
原文論文:【Noise Robust Face Hallucination via Locality-Constrained Representation】
coefficients:
D:是一個對角矩陣,用于通過強制輸入和訓練候選者之間的特征距離來限制系數。
D*wi --> 【n,n】*【n,1】=【n,1】
= 原文論文:【Noise Robust Face Hallucination via Locality-Constrained Representation】
徑向基函數,元素d j計算如下:
相似性度量的各種距離(Distance):(助于了解)
(60條消息) 相似性度量的各種距離(Distance)計算歸類詳解及應用(強烈建議收藏!!!備用)_府學路18号車神的部落格-CSDN部落格_distance方法
https://blog.csdn.net/weixin_44333889/article/details/119296283
ω i 封閉形式的解:
the final HR image patch y/i/out:
HOG(histogram of oriented gradients),即梯度方向直方圖。 HOG的優點:HOG的缺陷:
- 核心思想是所檢測的局部物體外形能夠被梯度或邊緣方向的分布所描述,HOG能較好地捕捉局部形狀資訊,對幾何和光學變化都有很好的不變性;
- HOG是在密集采樣的圖像塊中求取的,在計算得到的HOG特征向量中隐含了該塊與檢測視窗之間的空間位置關系。
- 矩形HOG和SIFT有些相似的地方,關于SIFT具體看這篇博文SIFT特征提取分析
- 很難處理遮擋問題,人體姿勢動作幅度過大或物體方向改變也不易檢測(這個問題後來在DPM中采用可變形部件模型的方法得到了改善);
- 跟SIFT相比,HOG沒有選取主方向,也沒有旋轉梯度方向直方圖,因而本身不具有旋轉不變性(較大的方向變化),其旋轉不變性是通過采用不同旋轉方向的訓練樣本來實作的;
- 跟SIFT相比,HOG本身不具有尺度不變性,其尺度不變性是通過縮放檢測視窗圖像的大小來實作的;
- 此外,由于梯度的性質,HOG對噪點相當敏感,在實際應用中,在Block和Cell劃分之後,對于得到各個像區域中,有時候還會做一次高斯平滑去除噪點
原文連結:https://blog.csdn.net/pressuress/article/details/106455181
(60條消息) HOG(histogram of oriented gradients)特征個人總結_柳絮的獨白的部落格-CSDN部落格_hog模型
https://blog.csdn.net/pressuress/article/details/106455181
本文思想與此論文類似:
【Noise Robust Face Hallucination via Locality-Constrained Representation】
在開始時,我們使用與[27]相同的劃分方案将訓練臉部圖像和LR輸入臉部圖像劃分為更新檔。對于每個LR輸入圖像斑塊,用LcR對同一位置的LR斑塊進行線性組合,我們得到LR訓練圖像斑塊上的一組權重。由于LR斑塊圖像流形和HR斑塊具有相同的拓撲結構[4],通過保留權重,用相應的HR斑塊替換LR訓練圖像斑塊,可以合成相同位置的新HR斑塊。
通過将所有的HR斑塊連接配接到其相應的位置,并對重疊區域的像素值進行平均,我們可以得到HR目标臉的估計值。
【Super-resolution through neighbor embedding 】
closed-form solution [4] can be solved by computing a Gram matrix.
閉式解決方案[4]可以通過計算格拉姆矩陣來解決
1. VGG16網絡結構
3.note和edge分别是什麼 不清晰
4. 論文中的紋理是如何實作的,這麼來的
5. 不了解
The latent edges of topology are the q different errors of the q positions.?
什麼是the ill-condition problem of formula (8)
D is a diagonal matrix 對角矩陣 used to constrain the coefficients
by forcing the feature distance between input and the training candidates
用于通過強制輸入和訓練候選對象之間的特征距離來限制系數
dj 用來幹什麼的,為什麼要介紹 徑向基函數
6. 神經網絡深度學習疑惑:
(42條消息) 【王木頭學科學|深度學習】4. 損失函數是如何設計出來的?直覺了解“最小二乘法”和“極大似然估計法”_maixj_的部落格-CSDN部落格_王木頭學科學
https://blog.csdn.net/mxj1428295019/article/details/119208397