论文阅读:3DSRnet for VSR

3DSRnet: Video Super-resolution using 3D Convolutional Neural Networks. CVPR 2019

1 文章摘要

本⽂提出了⼀种有效的3D-CNN视频超分辨率⽹络,称为3DSRnet,它不需要运动对⻬作为预处理。

3DSRnet保持了时空特征映射的时间深度,最⼤限度地捕捉低分辨率和⾼分辨率帧之间的时间⾮线性特征,并结合亚像素输出采⽤残差学习获得最好的SR性能。

3DSRnet会⾸先处理由于场景切换带来的性能退化问题,这在实际应⽤中具有重要意义。

3DSRnet通过残差学习得到⼀个端到端的⾮线性时空映射,并采⽤多通道输出结构降低了计算上的复杂性。

3DSRnet是第⼀种能够有效处理输⼊帧中场景变化的VSR⽅法。

2 问题背景

本⽂提出了⼀种有效的3D-CNN视频超分辨率⽹络,称为3DSRnet,它不需要运动对⻬作为预处理。

3DSRnet保持了时空特征映射的时间深度,最⼤限度地捕捉低分辨率和⾼分辨率帧之间的时间⾮线性特征,并结合亚像素输出采⽤残差学习获得最好的SR性能。

3DSRnet会⾸先处理由于场景切换带来的性能退化问题,这在实际应⽤中具有重要意义。

3DSRnet通过残差学习得到⼀个端到端的⾮线性时空映射,并采⽤多通道输出结构降低了计算上的复杂性

3DSRnet是第⼀种能够有效处理输⼊帧中场景变化的VSR⽅法。

3 网络结构

3DSRnet由以下两个⼦⽹组成:

  • Video SR subnet
    视频超分⼦⽹SR在⼀个滑动时间窗⼝中获取⼀系列连续的LR输⼊帧,并⽣成⼀个对应于滑动时间窗⼝中间帧的HR输出帧。
  • Scene change detection and frame replacement (SF) subnet
    场景切换检测与帧替换⼦⽹SF负责检测滑动时间窗⼝中的场景变化,并⽤与中间帧属于同⼀场景的时间最近帧替换不同场景的帧。

4 总结思考

3DSRnet能有效地捕获LR输⼊帧的时空信息,在整个深三维卷积层中重建HR帧。

由于采⽤了外推/填充策略,时间深度始终保持不变,且⽆需预先的运动对⻬。

该⽹络采⽤亚像素输出结构的残差学习,采⽤简单的分类⽹络,避免了由于多个输⼊帧的场景变化⽽导致的性能下降。

外推/填充策略在3D-CNN上的应⽤、多通道输出结果、场景切换的检测与帧替换机制是本⽂提出的3DSRnet的最⼤创新点。

可改进之处:借鉴FSTRN的分步3D卷积策略,在空间上和时间上分步做3D卷积运算,或许可以取得更好的时间性能。