2019-12-18

论文阅读：SPMC for VSR

Detail-revealing Deep Video Super-resolution. ICCV 2017

1 研究的问题

基于深度学习的视频超分辨率重建，有效处理运动补偿和灵活缩放的同时充分有效融合多帧关联信息。

实现以下目标：

任意大小输入，任意放缩系数。
更好地利用亚像素信息。
生成更真实的细节。

2 研究动机

视频超分主要关注的两个问题：

如何充分利用多帧关联信息
如何有效融合图像细节到高分辨率图像中

大多深度学习方法使用backward warping到参考帧的方法实现运动补偿，该方法并非最优。

大多CNN方法在多帧融合时可以产生丰富的细节，但不能确定图像细节来源于内部帧还是外部数据。

3 先进性与贡献

SPMC可以同时完成超分辨和运动补偿，本文提出的SPMC可在运动补偿的同时实现任意缩放因子的超分。

SPMC是无参数的，因此结合到视频超分辨网络中，使得该网络可用于任意尺寸的输入，而无需重新训练。

作者基于现状提出一个sub-pixel motion compensation（SPMC）层，用来有效处理动作补偿和特征图缩放。

对于多帧输入，作者用一个LSTM来处理多帧输入。

4 模型结构

这个网络主要分成三个部分：motion estimation，motion compensation和detail fusion。

4.1 Motion Estimation

motion estimation已经相对比较成熟了，方法有Flownet-S和VESPCN中的motion compensation transformer（MCT）。最后作者计划使用MCT。

4.2 Motion Compensation

motion compensation用的就是SPMC层。

作者在运动补偿（为像素点增加坐标增量）的同时加入了放缩系数 α，使得运动补偿和超分辨同时完成。

4.3 SPMC

作第0帧到第i帧的变形（ warp ），要比反向变形更合理。

之前的深度学习工作，几乎都是后者：从第i帧变形到第0帧，再用于补偿。这样做是直观上合理的。
但是，作者接下来指出：前者更有其合理性，是从理论上推导可得的。
降采样的转置是补零升采样，形变的转置操作结果看图，会产生一些新的元素。
转置操作虽然不是逆操作，但操作方向是相反的。如果我们定义正向为第0帧到第i帧，那么转置操作就是从第i帧到第0帧。

为什么从第0帧到第i帧的 warp 更合理呢？

假设我们现在有一个 LR 视频序列，每一帧都是 LR 的。借助降质模型，我们可以从 HR 的第0帧开始，变形到附近的多个i帧，然后降采样。最后，和 LR 视频中原有的第i帧作差，关于i求和。如果能使得该误差最小，那么 HR 的第0帧就最有可能是我们想要的。

4.4 Detail Fusion Net

作者把detail fusion net设计成编码-解码风格。前面的卷积层降低了分辨率，也使得特征图不那么稀疏，多帧图片也分别进入了LSTM模块，处理帧内关联信息，之后再通过deconvolution。

Detail Fusion Net面临以下几点问题：

由于输入是 HR 图像，因此通道尺寸会比较大，计算成本高。
由于正向变形和补0升采样，4xHR 图像中大约 15/16 的格点都会是0。
我们既要重视参考帧（因为 LR 和 HR 的图像结构是大致相同的），又不能过于依赖参考帧（否则和图片 SR 效果类似了）。

因此，最终网络设计考虑了以下几点：

先降维，而且是长宽各减半，减小计算成本；
在中央使用 Conv-LSTM ，既利用了帧间信息，又利用了帧内信息；
多处使用 Skip connection ，加快训练。

5 训练细节

一口气进行端到端训练会在动作估计部分出现zero flow的问题，导致最后结果和单图像SR差不多，所以做了一个三步训练：

只训练motion estimation的参数。鉴于没有label，所以用无监督的warping loss。
固定ME的参数，训练后面的网络。
联合训练。

6 优缺点与思考

SPMC可以同时完成超分辨和运动补偿，这点的思路跟Meta-SR的有相似之处，SPMC是无参模块，Meta-SR是共享参数模块（不同缩放因子的情况下参数一样）。Meta-SR的放大模块巧妙地完成了放大，但因为是单图超分，不存在利用多帧信息的问题，所以是否可以借鉴SPMC做运动补偿的方式，进一步优化Meta-SR模型以实现优质的视频超分。例如：参考帧依旧使用Meta-SR的方式，相邻帧在Meta-SR的基础上增加坐标增量以实现运动补偿。

本文提出的模型依旧存在计算开销大的问题，因为SPMC在模型较靠前的位置做了放大，导致后面模块都是对大尺寸的特征图做计算，这会带来较大的时空开销。

本文所采用的分步骤的训练模式值得借鉴和参考，一般可避免模块间联合训练带来的内耗。

对于正向变形和反向变形的问题，值得进一步思考，即在做运动补偿之前，应该以何种模式构造参考帧与相邻帧的位移向量。

参考：
Paper | Detail-revealing Deep Video Super-resolution
Paper | Detail-revealing Deep Video Super-resolution