Recurrent Back-Projection Network for Video Super-Resolution. CVPR 2019
1 背景问题
超分辨率(SR)的⽬标是通过在低分辨率(LR)图像中填充丢失的细节,将低分辨率(LR)图像增强到⾼分辨率(HR)。超分辨率分为单图像SR(SISR)、多图像SR(MISR)和视频SR(VSR),本⽂关注重点即为视频SR。
流⾏的MISR或VSR⽅法⼀般基于准确的运动估计和运动补偿(alignment),这个模式受到运动估计准确度的约束。
在⼤多数基于CNN的⽅法中(包括DBPN),实际上都对图像做了concat以及1*1卷积的操作,或者直接把图⽚输⼊到RNN中。concat的⽅法导致多张图⽚被同步地处理,增加了训练⽹络的难度。RNN中同时处理细微和明显的变化(⽐如同⼀图⽚中运动剧烈和缓慢的物体)是⽐较困难的。
2 方案概述
循环编码器/解码器模块整合来⾃连续视频帧的空间和时间上下⽂,该模块将多帧信息与⽬标帧的单帧超分辨率路径融合在⼀起。
RBPN将每个上下⽂帧视为单独的信息源,这些源组合在⼀个迭代细化框架中,该框架受多图像超分辨率中的反投影概念的启发。通过显式表示相对于⽬标的估计帧间运动,⽽不是显式对⻬帧,将有助于此操作。
RBPN是根据当前帧以及多个邻居帧⽣成当前帧的SR图像(multi frame->single frame),并不是multi frame -> multi frame。
RBPN与DBPN思想⽐较相似,核⼼都是残差学习。DBPN是根据浅层的特征来学习残差,RBPN是根据邻居帧以及两者的optical flow来学习残差。
3 关键创新
将SISR和MISR集成到⼀个统⼀的VSR框架中:SISR和MISR从不同的源中提取缺失的细节。这些不同的源通过RNN对VSR按时间顺序进⾏迭代更新。
RBPN的反投影模块:我们开发了⼀种通过反投影将SISR和MISR路径中提取的解合并在⼀起的循环编码器/解码器机制。
扩展评价协议:除了以前缺少运动信息的标准数据集Vid4和SPMCS,⼀个包含各种运动类型的数据集Vimeo-90k被⽤在实验评估中,这允许根据输⼊视频的类型对VSR⽅法的⻓处和弱点进⾏更详细的评估。
4 总结思考
先前MISR和VSR⽅法⼀般基于准确的运动估计和运动补偿,这个模式受到运动估计准确度的约束,RBPN改进了这⼀模式。
没有直接concat多张图⽚同步处理,这减缓了训练⽹络的难度。
避免了RNN中同时处理细微和明显的变化(如同⼀图⽚中运动剧烈和缓慢的物体)的困难。
DBPN中不停向后传递的residual,能较好地应对RNN中对subtle和significant changes乏⼒的问题。
应⽤循环Encoder-Decoder机制,通过反投影合并在SISR和MISR路径中提取的细节,扩⼤了RNN中的时间,使时间跨度更⼤的帧也能被很好地利⽤。
RBPN的核⼼是残差学习,根据邻居帧以及两者的optical flow来学习残差,这避免了由⽹络过深所引起的消失梯度问题和退化问题,使优化也更容易。