论文阅读：RBPN for VSR

Recurrent Back-Projection Network for Video Super-Resolution. CVPR 2019

1 背景问题

超分辨率（SR）的⽬标是通过在低分辨率（LR）图像中填充丢失的细节，将低分辨率（LR）图像增强到⾼分辨率（HR）。超分辨率分为单图像SR（SISR）、多图像SR（MISR）和视频SR（VSR），本⽂关注重点即为视频SR。

流⾏的MISR或VSR⽅法⼀般基于准确的运动估计和运动补偿（alignment），这个模式受到运动估计准确度的约束。

在⼤多数基于CNN的⽅法中（包括DBPN），实际上都对图像做了concat以及1*1卷积的操作，或者直接把图⽚输⼊到RNN中。concat的⽅法导致多张图⽚被同步地处理，增加了训练⽹络的难度。RNN中同时处理细微和明显的变化（⽐如同⼀图⽚中运动剧烈和缓慢的物体）是⽐较困难的。

循环编码器/解码器模块整合来⾃连续视频帧的空间和时间上下⽂，该模块将多帧信息与⽬标帧的单帧超分辨率路径融合在⼀起。

RBPN将每个上下⽂帧视为单独的信息源，这些源组合在⼀个迭代细化框架中，该框架受多图像超分辨率中的反投影概念的启发。通过显式表示相对于⽬标的估计帧间运动，⽽不是显式对⻬帧，将有助于此操作。

RBPN是根据当前帧以及多个邻居帧⽣成当前帧的SR图像（multi frame->single frame），并不是multi frame -> multi frame。

RBPN与DBPN思想⽐较相似，核⼼都是残差学习。DBPN是根据浅层的特征来学习残差，RBPN是根据邻居帧以及两者的optical flow来学习残差。

将SISR和MISR集成到⼀个统⼀的VSR框架中：SISR和MISR从不同的源中提取缺失的细节。这些不同的源通过RNN对VSR按时间顺序进⾏迭代更新。

RBPN的反投影模块：我们开发了⼀种通过反投影将SISR和MISR路径中提取的解合并在⼀起的循环编码器/解码器机制。

扩展评价协议：除了以前缺少运动信息的标准数据集Vid4和SPMCS，⼀个包含各种运动类型的数据集Vimeo-90k被⽤在实验评估中，这允许根据输⼊视频的类型对VSR⽅法的⻓处和弱点进⾏更详细的评估。

先前MISR和VSR⽅法⼀般基于准确的运动估计和运动补偿，这个模式受到运动估计准确度的约束，RBPN改进了这⼀模式。

没有直接concat多张图⽚同步处理，这减缓了训练⽹络的难度。

避免了RNN中同时处理细微和明显的变化（如同⼀图⽚中运动剧烈和缓慢的物体）的困难。

DBPN中不停向后传递的residual，能较好地应对RNN中对subtle和significant changes乏⼒的问题。

应⽤循环Encoder-Decoder机制，通过反投影合并在SISR和MISR路径中提取的细节，扩⼤了RNN中的时间，使时间跨度更⼤的帧也能被很好地利⽤。

RBPN的核⼼是残差学习，根据邻居帧以及两者的optical flow来学习残差，这避免了由⽹络过深所引起的消失梯度问题和退化问题，使优化也更容易。