Detail-revealing Deep Video Super-resolution. ICCV 2017
1 研究的问题
基于深度学习的视频超分辨率重建,有效处理运动补偿和灵活缩放的同时充分有效融合多帧关联信息。
实现以下目标:
- 任意大小输入,任意放缩系数。
- 更好地利用亚像素信息。
- 生成更真实的细节。
2 研究动机
视频超分主要关注的两个问题:
- 如何充分利用多帧关联信息
- 如何有效融合图像细节到高分辨率图像中
大多深度学习方法使用backward warping到参考帧的方法实现运动补偿,该方法并非最优。
大多CNN方法在多帧融合时可以产生丰富的细节,但不能确定图像细节来源于内部帧还是外部数据。
3 先进性与贡献
SPMC可以同时完成超分辨和运动补偿,本文提出的SPMC可在运动补偿的同时实现任意缩放因子的超分。
SPMC是无参数的,因此结合到视频超分辨网络中,使得该网络可用于任意尺寸的输入,而无需重新训练。
作者基于现状提出一个sub-pixel motion compensation(SPMC)层,用来有效处理动作补偿和特征图缩放。
对于多帧输入,作者用一个LSTM来处理多帧输入。
4 模型结构
这个网络主要分成三个部分:motion estimation,motion compensation和detail fusion。
4.1 Motion Estimation
motion estimation已经相对比较成熟了,方法有Flownet-S和VESPCN中的motion compensation transformer(MCT)。最后作者计划使用MCT。
4.2 Motion Compensation
motion compensation用的就是SPMC层。
作者在运动补偿(为像素点增加坐标增量)的同时加入了放缩系数 α,使得运动补偿和超分辨同时完成。
4.3 SPMC
作第0帧到第i帧的变形( warp ),要比反向变形更合理。
- 之前的深度学习工作,几乎都是后者:从第i帧变形到第0帧,再用于补偿。这样做是直观上合理的。
但是,作者接下来指出:前者更有其合理性,是从理论上推导可得的。 - 降采样的转置是补零升采样,形变的转置操作结果看图,会产生一些新的元素。
- 转置操作虽然不是逆操作,但操作方向是相反的。如果我们定义正向为第0帧到第i帧,那么转置操作就是从第i帧到第0帧。
为什么从第0帧到第i帧的 warp 更合理呢?
- 假设我们现在有一个 LR 视频序列,每一帧都是 LR 的。借助降质模型,我们可以从 HR 的第0帧开始,变形到附近的多个i帧,然后降采样。最后,和 LR 视频中原有的第i帧作差,关于i求和。如果能使得该误差最小,那么 HR 的第0帧就最有可能是我们想要的。
4.4 Detail Fusion Net
作者把detail fusion net设计成编码-解码风格。前面的卷积层降低了分辨率,也使得特征图不那么稀疏,多帧图片也分别进入了LSTM模块,处理帧内关联信息,之后再通过deconvolution。
Detail Fusion Net面临以下几点问题:
- 由于输入是 HR 图像,因此通道尺寸会比较大,计算成本高。
- 由于正向变形和补0升采样,4xHR 图像中大约 15/16 的格点都会是0。
- 我们既要重视参考帧(因为 LR 和 HR 的图像结构是大致相同的),又不能过于依赖参考帧(否则和图片 SR 效果类似了)。
因此,最终网络设计考虑了以下几点:
- 先降维,而且是长宽各减半,减小计算成本;
- 在中央使用 Conv-LSTM ,既利用了帧间信息,又利用了帧内信息;
- 多处使用 Skip connection ,加快训练。
5 训练细节
一口气进行端到端训练会在动作估计部分出现zero flow的问题,导致最后结果和单图像SR差不多,所以做了一个三步训练:
- 只训练motion estimation的参数。鉴于没有label,所以用无监督的warping loss。
- 固定ME的参数,训练后面的网络。
- 联合训练。
6 优缺点与思考
SPMC可以同时完成超分辨和运动补偿,这点的思路跟Meta-SR的有相似之处,SPMC是无参模块,Meta-SR是共享参数模块(不同缩放因子的情况下参数一样)。Meta-SR的放大模块巧妙地完成了放大,但因为是单图超分,不存在利用多帧信息的问题,所以是否可以借鉴SPMC做运动补偿的方式,进一步优化Meta-SR模型以实现优质的视频超分。例如:参考帧依旧使用Meta-SR的方式,相邻帧在Meta-SR的基础上增加坐标增量以实现运动补偿。
本文提出的模型依旧存在计算开销大的问题,因为SPMC在模型较靠前的位置做了放大,导致后面模块都是对大尺寸的特征图做计算,这会带来较大的时空开销。
本文所采用的分步骤的训练模式值得借鉴和参考,一般可避免模块间联合训练带来的内耗。
对于正向变形和反向变形的问题,值得进一步思考,即在做运动补偿之前,应该以何种模式构造参考帧与相邻帧的位移向量。
参考:
Paper | Detail-revealing Deep Video Super-resolution
Paper | Detail-revealing Deep Video Super-resolution