pb base 64编码_图像ps检测，时间序列与编码解码结构

论文题目：Hybrid LSTM and Encoder-Decoder Architecture for Detection of Image Forgeries

论文地址： https:// ieeexplore.ieee.org/abs tract/document/8626149

(ppt已制作完成，聊天框输入“混合LSTM”)

解读

LSTMEnDec：cnn网络与长短时记忆网络相结合，

双流结构

(与双流faster类似)，网络结构如下。

pb base 64编码_图像ps检测，时间序列与编码解码结构

输入图像一流送到cnn网络进行训练(encoder)，结构是

卷积、残差连接、最大池化

提取空间特征图。另外一流把输入图像切分成64块，对块进行重采样，提取重采样特征送到LSTM网络得到8*8*Nf的特征(通道Nf=64)。之后两流特征

融合再上采样

(decoder)，softmax输出预测结果。

创新点

1.将图像作为输入，利用图像的

全局上下文

再来进行

切片

操作。

双流分支结构

，一流进行patch采样得到频域特征，另一流使用卷积进行编码得到空间特征，然后融合再解码（上采样）输出。

3.提出新的篡改数据集用于训练DRESDEN（40k）、NIST'16（25k）数据集未公布。

LSTM流

pb base 64编码_图像ps检测，时间序列与编码解码结构

切片的64块(32*32*3)小图像先进入resampling feature进行

重采样

，目的是找到可能的篡改区域。这里就使用到了

Radon

变换，首先用laplacian(拉普拉斯)滤波器得到patch的线性预测误差幅值，然后Radon用不同的投影角度把误差累加起来，这样就得到可能篡改区域的信息，最后输出是8*8*Nh(Nh=128)。

下图解释为什么使用Radon变换

pb base 64编码_图像ps检测，时间序列与编码解码结构

a、原图 b、绿框为真实位置，红框篡改位置 c、patch提取的框位置 d、Radon色谱图 e、Radon列求和

主要看e图，1、3为非篡改区域，2、4篡改区域，可以看到曲线

峰值右侧2、4（篡改）曲线更平缓

。这点可以作为可能的有效信息来找到篡改区域。

接下来特征将进入LSTM网络，但是在这之前作者又引入了

hilbert curve

,因为LSTM性能很大程度取决于

patch排序

。重采样得到的特征是多维的，空间信息多而冗余，使用希尔伯特曲线可以把多维空间转为一维并且能关联相邻块。

pb base 64编码_图像ps检测，时间序列与编码解码结构

hilbert curve 64

先分成四个大正方形，在每个大正方形里分4个小正方形，小正方形里再分4个单位正方形。线段通过调节曲线函数的参数能在小正方形里走到4个单位正方形其他地方，虚线代表与其他小正方形(块)的联系。

现在将正式把重采样特征喂到LSTM中，这里使用两个

stacked layers

，64个时间步长，在每个时间步长的最后一层获得64尺寸特征向量，最后输出8*8*Nf特征(网上有原理讲解)。

Encoder流

pb base 64编码_图像ps检测，时间序列与编码解码结构

图像(256*256*3)喂到cnn中，依次卷积(卷积核3*3**d,d=32,64,128,256递增)、最大池化(步长为2，特征图缩小2倍)、残差连接，进行4次提取得空间特征图(此部分网络结构不难)。

两流融合上采样

pb base 64编码_图像ps检测，时间序列与编码解码结构

特征融合这里论文并没有怎么提(猜想应该是两个8*8的拼接)。Decoder部分也比较简单，上采样、卷积、标准化做了两次，最后接

softmax

(本质还是二分类，是或不是篡改)预测结果。

网络的训练实验部分，细节处论文说的很少，作者把重点放在介绍他们自己创造的数据集(然而提出的篡改数据集并未公布DRESDEN（40k)、NIST'16（25k），制作数据集参考论文)。

实验结果对比

评价指标使用

像素级准确率(篡改语义)和AUC

。

pb base 64编码_图像ps检测，时间序列与编码解码结构

table2是篡改分类精确度，LSTM-EnDec是最终使用的网络，在LSTM-EnDec-Base基础上微调得到。数据集为nist16,ieee,coverage，论文提出的网络模型与其他比较效果最好。

table3是AUC在三个数据集上的得分，与其他8个模型比较结果均最佳。

模型局限

pb base 64编码_图像ps检测，时间序列与编码解码结构

1.当patch较小时（原图框较小），精度下降，篡改预测不准确（如图e、f中间列）。

2.网络

有时会判断错误

，e图最后一列是非篡改区域，预测结果却是篡改区域。

文章同步公众号『深度学习框架点滴』 码字不易，给赞鼓励，我是休柏，向阳花开。