论文阅读：3DSRnet for VSR

3DSRnet: Video Super-resolution using 3D Convolutional Neural Networks. CVPR 2019

1 文章摘要

本⽂提出了⼀种有效的3D-CNN视频超分辨率⽹络，称为3DSRnet，它不需要运动对⻬作为预处理。

3DSRnet保持了时空特征映射的时间深度，最⼤限度地捕捉低分辨率和⾼分辨率帧之间的时间⾮线性特征，并结合亚像素输出采⽤残差学习获得最好的SR性能。

3DSRnet会⾸先处理由于场景切换带来的性能退化问题，这在实际应⽤中具有重要意义。

3DSRnet通过残差学习得到⼀个端到端的⾮线性时空映射，并采⽤多通道输出结构降低了计算上的复杂性。

3DSRnet是第⼀种能够有效处理输⼊帧中场景变化的VSR⽅法。

本⽂提出了⼀种有效的3D-CNN视频超分辨率⽹络，称为3DSRnet，它不需要运动对⻬作为预处理。

3DSRnet会⾸先处理由于场景切换带来的性能退化问题，这在实际应⽤中具有重要意义。

3DSRnet通过残差学习得到⼀个端到端的⾮线性时空映射，并采⽤多通道输出结构降低了计算上的复杂性

3DSRnet是第⼀种能够有效处理输⼊帧中场景变化的VSR⽅法。

3DSRnet由以下两个⼦⽹组成：

Video SR subnet
视频超分⼦⽹SR在⼀个滑动时间窗⼝中获取⼀系列连续的LR输⼊帧，并⽣成⼀个对应于滑动时间窗⼝中间帧的HR输出帧。
Scene change detection and frame replacement (SF) subnet
场景切换检测与帧替换⼦⽹SF负责检测滑动时间窗⼝中的场景变化，并⽤与中间帧属于同⼀场景的时间最近帧替换不同场景的帧。

3DSRnet能有效地捕获LR输⼊帧的时空信息，在整个深三维卷积层中重建HR帧。

由于采⽤了外推/填充策略，时间深度始终保持不变，且⽆需预先的运动对⻬。

该⽹络采⽤亚像素输出结构的残差学习，采⽤简单的分类⽹络，避免了由于多个输⼊帧的场景变化⽽导致的性能下降。

外推/填充策略在3D-CNN上的应⽤、多通道输出结果、场景切换的检测与帧替换机制是本⽂提出的3DSRnet的最⼤创新点。

可改进之处：借鉴FSTRN的分步3D卷积策略，在空间上和时间上分步做3D卷积运算，或许可以取得更好的时间性能。