pb base 64編碼_圖像ps檢測，時間序列與編碼解碼結構

論文題目：Hybrid LSTM and Encoder-Decoder Architecture for Detection of Image Forgeries

論文位址： https:// ieeexplore.ieee.org/abs tract/document/8626149

(ppt已制作完成，聊天框輸入“混合LSTM”)

解讀

LSTMEnDec：cnn網絡與長短時記憶網絡相結合，

雙流結構

(與雙流faster類似)，網絡結構如下。

pb base 64編碼_圖像ps檢測，時間序列與編碼解碼結構

輸入圖像一流送到cnn網絡進行訓練(encoder)，結構是

卷積、殘差連接配接、最大池化

提取空間特征圖。另外一流把輸入圖像切分成64塊，對塊進行重采樣，提取重采樣特征送到LSTM網絡得到8*8*Nf的特征(通道Nf=64)。之後兩流特征

融合再上采樣

(decoder)，softmax輸出預測結果。

創新點

1.将圖像作為輸入，利用圖像的

全局上下文

再來進行

切片

操作。

雙流分支結構

，一流進行patch采樣得到頻域特征，另一流使用卷積進行編碼得到空間特征，然後融合再解碼（上采樣）輸出。

3.提出新的篡改資料集用于訓練DRESDEN（40k）、NIST'16（25k）資料集未公布。

LSTM流

pb base 64編碼_圖像ps檢測，時間序列與編碼解碼結構

切片的64塊(32*32*3)小圖像先進入resampling feature進行

重采樣

，目的是找到可能的篡改區域。這裡就使用到了

Radon

變換，首先用laplacian(拉普拉斯)濾波器得到patch的線性預測誤差幅值，然後Radon用不同的投影角度把誤差累加起來，這樣就得到可能篡改區域的資訊，最後輸出是8*8*Nh(Nh=128)。

下圖解釋為什麼使用Radon變換

pb base 64編碼_圖像ps檢測，時間序列與編碼解碼結構

a、原圖 b、綠框為真實位置，紅框篡改位置 c、patch提取的框位置 d、Radon色譜圖 e、Radon列求和

主要看e圖，1、3為非篡改區域，2、4篡改區域，可以看到曲線

峰值右側2、4（篡改）曲線更平緩

。這點可以作為可能的有效資訊來找到篡改區域。

接下來特征将進入LSTM網絡，但是在這之前作者又引入了

hilbert curve

,因為LSTM性能很大程度取決于

patch排序

。重采樣得到的特征是多元的，空間資訊多而備援，使用希爾伯特曲線可以把多元空間轉為一維并且能關聯相鄰塊。

pb base 64編碼_圖像ps檢測，時間序列與編碼解碼結構

hilbert curve 64

先分成四個大正方形，在每個大正方形裡分4個小正方形，小正方形裡再分4個機關正方形。線段通過調節曲線函數的參數能在小正方形裡走到4個機關正方形其他地方，虛線代表與其他小正方形(塊)的聯系。

現在将正式把重采樣特征喂到LSTM中，這裡使用兩個

stacked layers

，64個時間步長，在每個時間步長的最後一層獲得64尺寸特征向量，最後輸出8*8*Nf特征(網上有原理講解)。

Encoder流

pb base 64編碼_圖像ps檢測，時間序列與編碼解碼結構

圖像(256*256*3)喂到cnn中，依次卷積(卷積核3*3**d,d=32,64,128,256遞增)、最大池化(步長為2，特征圖縮小2倍)、殘差連接配接，進行4次提取得空間特征圖(此部分網絡結構不難)。

兩流融合上采樣

pb base 64編碼_圖像ps檢測，時間序列與編碼解碼結構

特征融合這裡論文并沒有怎麼提(猜想應該是兩個8*8的拼接)。Decoder部分也比較簡單，上采樣、卷積、标準化做了兩次，最後接

softmax

(本質還是二分類，是或不是篡改)預測結果。

網絡的訓練實驗部分，細節處論文說的很少，作者把重點放在介紹他們自己創造的資料集(然而提出的篡改資料集并未公布DRESDEN（40k)、NIST'16（25k），制作資料集參考論文)。

實驗結果對比

評價名額使用

像素級準确率(篡改語義)和AUC

。

pb base 64編碼_圖像ps檢測，時間序列與編碼解碼結構

table2是篡改分類精确度，LSTM-EnDec是最終使用的網絡，在LSTM-EnDec-Base基礎上微調得到。資料集為nist16,ieee,coverage，論文提出的網絡模型與其他比較效果最好。

table3是AUC在三個資料集上的得分，與其他8個模型比較結果均最佳。

模型局限

pb base 64編碼_圖像ps檢測，時間序列與編碼解碼結構

1.當patch較小時（原圖框較小），精度下降，篡改預測不準确（如圖e、f中間列）。

2.網絡

有時會判斷錯誤

，e圖最後一列是非篡改區域，預測結果卻是篡改區域。

文章同步公衆号『深度學習架構點滴』 碼字不易，給贊鼓勵，我是休柏，向陽花開。