天天看點

pb base 64編碼_圖像ps檢測,時間序列與編碼解碼結構

論文題目:Hybrid LSTM and Encoder-Decoder Architecture for Detection of Image Forgeries

論文位址: https:// ieeexplore.ieee.org/abs tract/document/8626149

(ppt已制作完成,聊天框輸入“混合LSTM”)

解讀

LSTMEnDec:cnn網絡與長短時記憶網絡相結合,

雙流結構

(與雙流faster類似),網絡結構如下。

pb base 64編碼_圖像ps檢測,時間序列與編碼解碼結構

輸入圖像一流送到cnn網絡進行訓練(encoder),結構是

卷積、殘差連接配接、最大池化

提取空間特征圖。另外一流把輸入圖像切分成64塊,對塊進行重采樣,提取重采樣特征送到LSTM網絡得到8*8*Nf的特征(通道Nf=64)。之後兩流特征

融合再上采樣

(decoder),softmax輸出預測結果。

創新點

1.将圖像作為輸入,利用圖像的

全局上下文

再來進行

切片

操作。

2.

雙流分支結構

,一流進行patch采樣得到頻域特征,另一流使用卷積進行編碼得到空間特征,然後融合再解碼(上采樣)輸出。

3.提出新的篡改資料集用于訓練DRESDEN(40k)、NIST'16(25k)資料集未公布。

LSTM流
pb base 64編碼_圖像ps檢測,時間序列與編碼解碼結構

切片的64塊(32*32*3)小圖像先進入resampling feature進行

重采樣

,目的是找到可能的篡改區域。這裡就使用到了

Radon

變換,首先用laplacian(拉普拉斯)濾波器得到patch的線性預測誤差幅值,然後Radon用不同的投影角度把誤差累加起來,這樣就得到可能篡改區域的資訊,最後輸出是8*8*Nh(Nh=128)。

下圖解釋為什麼使用Radon變換

pb base 64編碼_圖像ps檢測,時間序列與編碼解碼結構

a、原圖 b、綠框為真實位置,紅框篡改位置 c、patch提取的框位置 d、Radon色譜圖 e、Radon列求和

主要看e圖,1、3為非篡改區域,2、4篡改區域,可以看到曲線

峰值右側2、4(篡改)曲線更平緩

。這點可以作為可能的有效資訊來找到篡改區域。

接下來特征将進入LSTM網絡,但是在這之前作者又引入了

hilbert curve

,因為LSTM性能很大程度取決于

patch排序

。重采樣得到的特征是多元的,空間資訊多而備援,使用希爾伯特曲線可以把多元空間轉為一維并且能關聯相鄰塊。

pb base 64編碼_圖像ps檢測,時間序列與編碼解碼結構

hilbert curve 64

先分成四個大正方形,在每個大正方形裡分4個小正方形,小正方形裡再分4個機關正方形。線段通過調節曲線函數的參數能在小正方形裡走到4個機關正方形其他地方,虛線代表與其他小正方形(塊)的聯系。

現在将正式把重采樣特征喂到LSTM中,這裡使用兩個

stacked layers

,64個時間步長,在每個時間步長的最後一層獲得64尺寸特征向量,最後輸出8*8*Nf特征(網上有原理講解)。

Encoder流
pb base 64編碼_圖像ps檢測,時間序列與編碼解碼結構

圖像(256*256*3)喂到cnn中,依次卷積(卷積核3*3**d,d=32,64,128,256遞增)、最大池化(步長為2,特征圖縮小2倍)、殘差連接配接,進行4次提取得空間特征圖(此部分網絡結構不難)。

兩流融合上采樣
pb base 64編碼_圖像ps檢測,時間序列與編碼解碼結構

特征融合這裡論文并沒有怎麼提(猜想應該是兩個8*8的拼接)。Decoder部分也比較簡單,上采樣、卷積、标準化做了兩次,最後接

softmax

(本質還是二分類,是或不是篡改)預測結果。

網絡的訓練實驗部分,細節處論文說的很少,作者把重點放在介紹他們自己創造的資料集(然而提出的篡改資料集并未公布DRESDEN(40k)、NIST'16(25k),制作資料集參考論文)。

實驗結果對比

評價名額使用

像素級準确率(篡改語義)和AUC

pb base 64編碼_圖像ps檢測,時間序列與編碼解碼結構

table2是篡改分類精确度,LSTM-EnDec是最終使用的網絡,在LSTM-EnDec-Base基礎上微調得到。資料集為nist16,ieee,coverage,論文提出的網絡模型與其他比較效果最好。

table3是AUC在三個資料集上的得分,與其他8個模型比較結果均最佳。

模型局限
pb base 64編碼_圖像ps檢測,時間序列與編碼解碼結構

1.當patch較小時(原圖框較小),精度下降,篡改預測不準确(如圖e、f中間列) 。

2.網絡

有時會判斷錯誤

,e圖最後一列是非篡改區域,預測結果卻是篡改區域。

文章同步公衆号『深度學習架構點滴』 碼字不易,給贊鼓勵,我是休柏,向陽花開。