Fast Spatio-Temporal Residual Network for Video Super-Resolution. CVPR 2019
1 问题背景
⽬前很多基于深度学习的超分辨率⽅法,忽略了视频的时间相关性,使得超分后的视频画⾯闪烁。
普遍的VSR⽅法采⽤⼀帧⼀帧逐步SISR的⽅法,这忽略了视频的帧间信息,使得SR后的视频缺少连续性。
为提取帧间信息,现有的很多⽅法直接采⽤3D卷积来同步提取时空信息,这将会引⼊⼤量参数,造成了过⼤的计算量,限制了模型深度,进⽽影响了模型的SR性能。
此外现有的⽅法采⽤时域融合技术来提取时间信息,⽐如运动补偿,这也造成巨⼤的计算量。
现有的很多⽅法在SR过程中,⼤量使⽤残差连接,却没有起到很好的效果。
2 文章摘要
本⽂针对视频超分辨率⽅法,提出了⼀种⾼效的基于3D卷积的时空学习模型FSTRN。
FSTRN⽅法基于矩阵分解的思想,通过使⽤时空分步卷积的⽅法降低计算消耗。
FSTRN⽅法结合多层次的残差学习构建了深度残差⽹络,实现了更优的视频超分辨率效果。
同时,⽂章在理论上证明了⽅法的泛化边界,为准确复原图像提供了理论⽀撑。
3 网络结构
FSTRN由四部分组成:
- LFENet:低分辨率图像的特征提取⽹络(LR video shallow feature extraction net)
- FRBs:快速时空残差模块(fast spatio-temporal residual blocks)
- LSRNet:低分辨率特征融合和上采样超分辨率⽹络(LR feature fusion and up-sampling SR net)
- GRL:全局残差学习模块(global residual learning part),包含:
- LRL:低分辨率空间残差学习模块(LR space residual learning)
- CRL:交叉空间残差学习模块(cross-space residual learning)
4 总结思考
本⽂提出的快速时空残差⽹络FSTRN在解决VSR时,利⽤新设计的快速时空残差块FRBs,在保证较⾼计算效率的同时,能够同时提取时空特征,取得了不错的SR效果。
除了利⽤LR空间上的残差来提⾼特征提取性能外,本⽂还进⼀步提出了⼀种跨空间残差学习⽅法来利⽤低分辨率LR输⼊和⾼分辨率HR输出之间的相似性。
本⽂着⼿于SR后视频闪烁的不连续性问题、C3D卷积参数过多造成的计算量过⼤问题、残差学习的效率低下问题,提出新的改进⽅法和⽹络模型,这是本⽂的最⼤创新点。