论文阅读：FSTRN for VSR

Fast Spatio-Temporal Residual Network for Video Super-Resolution. CVPR 2019

1 问题背景

⽬前很多基于深度学习的超分辨率⽅法，忽略了视频的时间相关性，使得超分后的视频画⾯闪烁。

普遍的VSR⽅法采⽤⼀帧⼀帧逐步SISR的⽅法，这忽略了视频的帧间信息，使得SR后的视频缺少连续性。

为提取帧间信息，现有的很多⽅法直接采⽤3D卷积来同步提取时空信息，这将会引⼊⼤量参数，造成了过⼤的计算量，限制了模型深度，进⽽影响了模型的SR性能。

此外现有的⽅法采⽤时域融合技术来提取时间信息，⽐如运动补偿，这也造成巨⼤的计算量。

现有的很多⽅法在SR过程中，⼤量使⽤残差连接，却没有起到很好的效果。

本⽂针对视频超分辨率⽅法，提出了⼀种⾼效的基于3D卷积的时空学习模型FSTRN。

FSTRN⽅法基于矩阵分解的思想，通过使⽤时空分步卷积的⽅法降低计算消耗。

FSTRN⽅法结合多层次的残差学习构建了深度残差⽹络，实现了更优的视频超分辨率效果。

同时，⽂章在理论上证明了⽅法的泛化边界，为准确复原图像提供了理论⽀撑。

FSTRN由四部分组成：

LFENet：低分辨率图像的特征提取⽹络（LR video shallow feature extraction net）
FRBs：快速时空残差模块（fast spatio-temporal residual blocks）
LSRNet：低分辨率特征融合和上采样超分辨率⽹络（LR feature fusion and up-sampling SR net）
GRL：全局残差学习模块（global residual learning part），包含：
- LRL：低分辨率空间残差学习模块（LR space residual learning）
- CRL：交叉空间残差学习模块（cross-space residual learning）

本⽂提出的快速时空残差⽹络FSTRN在解决VSR时，利⽤新设计的快速时空残差块FRBs，在保证较⾼计算效率的同时，能够同时提取时空特征，取得了不错的SR效果。

除了利⽤LR空间上的残差来提⾼特征提取性能外，本⽂还进⼀步提出了⼀种跨空间残差学习⽅法来利⽤低分辨率LR输⼊和⾼分辨率HR输出之间的相似性。

本⽂着⼿于SR后视频闪烁的不连续性问题、C3D卷积参数过多造成的计算量过⼤问题、残差学习的效率低下问题，提出新的改进⽅法和⽹络模型，这是本⽂的最⼤创新点。