天天看點

無需人工标注,清華、快手基于參考圖像單張生成圖像品質評價方法

機器之心專欄

清華大學黃高團隊、快手Y-tech團隊

這是一篇來自清華大學黃高團隊和快手 Y-tech 團隊合作的論文,該工作探究了如何在基于參考圖像的生成任務中實作對于單張生成圖像品質的評價。文中設計的 RISA 模型無需人工标注的訓練資料,其評價結果能夠與人的主觀感受具有高度一緻性。本工作已入選 AAAI 2022 Oral。

引言

現有的生成圖像評價工作主要基于生成圖像的分布對模型「整體」的生成效果進行評價。然而,一個性能優異的生成模型并不代表其合成的「任何一張」圖像都具有高品質的效果。在基于參考圖像(reference image)的生成任務中,譬如将使用者上傳的風景照渲染成某種指定的風格的業務場景中,能夠對于「單張」生成圖像的品質進行評價,對于提高使用者的使用體驗是至關重要的。

該研究提出了基于參考圖像的單張生成圖像品質評價方法 Reference-guided Image Synthesis Assessment(RISA)。

RISA 的貢獻和創新點可以總結為以下幾個方面:

  • RISA 的訓練圖像來自于 GAN 訓練過程的中間模型生成的圖像,圖像的品質标簽來自于模型的疊代輪數,無需人工标注,理論上可用于訓練的資料無上限。
  • 由于以模型的疊代輪數作為标注不夠精細,采用了 pixel-wise interpolation 和 mutiple binary classifiers 的方法來增強訓練的穩定性。
  • 引入了無監督的對比學習損失,學習參考圖像和生成圖像之間的風格相似度。
無需人工标注,清華、快手基于參考圖像單張生成圖像品質評價方法

論文連結:https://arxiv.org/pdf/2112.04163.pdf

實作政策

RISA 的整體架構十分簡潔,參考圖像和生成圖像經過參數共享的風格提取器得到相應的特征向量,接着計算兩特征向量的 L1 距離并輸入到 mutiple binary classifiers 中得到預測向量,最後預測向量元素取平均得到最終的品質分數。

無需人工标注,清華、快手基于參考圖像單張生成圖像品質評價方法

RISA 的訓練資料來自一系列 GAN 訓練過程中的中間模型的生成圖像,以下圖中給出的一性别轉換任務為例,可以看到,在 GAN 的訓練早期,模型随着訓練疊代輪數的增加,生成圖像的品質會有顯著的提升;而在訓練後期,模型的生成圖像的品質會趨于穩定。

無需人工标注,清華、快手基于參考圖像單張生成圖像品質評價方法

本文采用一系列中間模型的生成圖像作為 RISA 的訓練資料,這些圖像的樣本标簽由其對應模型的訓練疊代輪數得到。但顯然這樣的标注形式不太适合訓練後期的模型,因為訓練後期生成圖像品質不會有顯著的變化。為了使訓練資料更适合 RISA 的訓練,文中采用了 pixel-wise interpolation 的技巧,即圖像空間的線性插值,用于估計訓練後期圖像品質變化。

如下圖所示,理想情況下,生成圖像随着 GAN 的訓練輪數的增加單調變好,但實際上對于簡單的任務,訓練後期生成圖像的品質幾乎沒有變化;對于困難的任務,訓練後期生成圖像的品質随着訓練輪數的增加呈現震蕩變好的趨勢。是以文中選取了 FID 曲線變化的肘點作為 GAN 的訓練前期和後期的分界,對于訓練前期直接采樣中間模型生成圖像,并用疊代輪數作為圖像品質标簽;對于訓練後期,選取開始和最終的兩個模型生成具有明顯品質差異的圖像,再對圖像進行線性插值得到一系列中間品質的圖像。

無需人工标注,清華、快手基于參考圖像單張生成圖像品質評價方法

插值圖像的一些 demo 如下動圖所示,圖中所示 epsilon 表示兩幅圖融合時的權重。

無需人工标注,清華、快手基于參考圖像單張生成圖像品質評價方法

除圖像空間的插值外,為了保證 RISA 的訓練穩定,RISA 的預測使用的是個二值分類器(multiple binary classifers)輸出取平均的形式,而沒有采用簡單的回歸器輸出拟合值。其中第個二值分類器用于預測目前生成圖像品質大于一個特定門檻值的機率。實驗表明,将品質評估從回歸問題轉化為分類問題,能夠顯著地提升 RISA 的性能。

損失函數的設計上考慮了三個方面:1)弱監督損失,用于拟合輸入參考圖像 & 生成圖像對及其對應的品質标簽;2)無監督對比學習損失,用于捕捉參考圖像和生成圖像風格相似度;3)上界損失,用于學到來自真實圖像的兩個增強圖像的風格一緻性。

上界損失表達的是和風格資訊完全一緻,将其輸入 RISA 預測結果應當對應于最高的品質分數 1。

在對比學習損失中,文中首先考慮對于參考圖像做兩次不同的且不破壞圖像風格資訊的資料增強圖像和,即僅包括圖像的放縮,裁剪以及翻轉。生成圖像與構成正樣本對,對比學習損失拉近它們的預測輸出;同一批輸入樣本中,與其對應的參考圖像,與其不對應的參考圖像構成負樣本對,對比學習損失拉大它們的預測輸出。

無需人工标注,清華、快手基于參考圖像單張生成圖像品質評價方法

實驗結果

文中基于四種生成模型,五個資料集上的生成圖像分别訓練多個 RISA 模型。首先從可視化的角度,下圖說明 RISA 能夠按照品質從低到高給出對應的品質評價分數。

無需人工标注,清華、快手基于參考圖像單張生成圖像品質評價方法

接着從量化名額的角度,文中進行了廣泛的人工評價測試,以說明 RISA 評價結果和人的主觀感受具有較高的一緻性。具體來說,對于每個任務都選取了上千個三元組樣本,包含一張參考圖像和兩張生成圖像。兩張生成圖像可能來自于同一架構模型的兩個不同訓練階段的中間模型,也可能來自于兩個充分收斂的不同架構的模型。測試者被要求從二者中選出品質更好的一張。最終對于每個任務,保證了每組樣本都有至少三個測試者參與評價,而所有評價均一緻的樣本被保留,用于評估 RISA 的評價與人的主觀感受的一緻性。

下表對應于 RISA 的訓練資料和測試資料均由相同架構的模型生成的情況。可以看到 RISA 的評價結構能夠與人的主觀感受具有更高的一緻性,且優于現有的主流的有參考和無參考單張圖像品質評價方法。

無需人工标注,清華、快手基于參考圖像單張生成圖像品質評價方法

下表對應于 RISA 的訓練資料和測試資料均由不同架構的模型生成的情況。表中結果進一步說明 RISA 具有較好的在不同模型之間遷移的能力。

無需人工标注,清華、快手基于參考圖像單張生成圖像品質評價方法

相應地,研究者提供了三元組上的 RISA 和每個資料集下最優的基線方法的可視化對比。可以看到 RISA 能夠在考慮生成圖像的真實程度的同時,兼具評價生成圖像和參考圖像的風格相似度水準的能力。

無需人工标注,清華、快手基于參考圖像單張生成圖像品質評價方法

最後研究者進行了兩組消融實驗,說明了 RISA 引入 multiple binary classifers,pixel-wise interpolation 和其每個損失項的意義。

無需人工标注,清華、快手基于參考圖像單張生成圖像品質評價方法

繼續閱讀