EDVR: Video Restoration with Enhanced Deformable Convolutional Networks. CVPR 2019
1 问题背景
NTIRE19挑战赛中发布了⼀个具有挑战性的基准:REDS(REalistic and Diverse Scenes dataset),包含更⼤更复杂的运动,使其更加逼真和具有挑战性。
REDS从两⽅⾯对现有的⽅法提出了挑战:
- 如何在有⼤幅度运动的情况下对⻬多个帧。
- 如何有效的融合带有不同动作和模糊的不同帧。
2 文章摘要
为应对REDS带来的两个挑战,本⽂提出了⼀个新的视频恢复框架EDVR。EDVR框架是适⽤于多种视频重建任务(如超分、去模糊)的统⼀框架。
作者创新性的提出了PCD对⻬模块和TSA融合模块,使得视频重建的效果⼤⼤提⾼。
⾸先,EDVR设计了⼀个⾦字塔、级联和可变形的对⻬模块PCD处理⼤运动,其中,帧对⻬是在特征层以粗到细的⽅式使⽤可变形卷积来完成的。
其次,EDVR提出了⼀个时空注意融合模块,在该模块中,注意在时间和空间上都被应⽤,以强调后续恢复的重要特征。
EDVR可以扩展到各种视频恢复任务,包括超分辨率和去模糊。其核⼼是
- 称为⾦字塔、级联和可变形卷积(PCD)的对准模块
- 称为时间和空间注意(TSA)的融合模块。
3 现有方法
早期研究将视频重建看做是图像重建的简单拓展,相邻帧之间的时间冗余信息未被充分利⽤。最近的研究通过更精细的管道流程解决了上述问题:特征提取,对准,融合和重建。
当视频包含遮挡,⼤运动和严重模糊时,该任务的挑战在于对⻬和融合模块的设计。为了获得⾼质量的输出,必须在多个帧之间对⻬并建⽴准确的对应关系,以及有效地融合对准的特征以进⾏重建。
现有的⽅法多数采⽤在参考帧和相邻帧间的光流场来对⻬;另⼀个研究分⽀是采⽤动态滤波和形变卷积。⽽REDS在时间消耗和精准性上对基于光流的⽅法提出了挑战。
⼤多数现存的⽅法使⽤卷积在处理的早期进⾏融合或者采⽤RNN逐渐融合多个帧,这些都没有考虑每个帧的潜在视觉信息。不同的帧和位置对重建的信息和增益不是相同的,因为⼀些帧或区域受到不完美对⻬和模糊的影响。
4 网络结构
EDVR框架通过⾦字塔级联变形对⻬模块PCD处理⼤的运动,其中使⽤形变卷积以由粗到细的⽅式在特征级别进⾏帧对⻬。
EDVR框架通过时空注意⼒融合模块TSA,使得时间和空间的注意⼒都被应⽤,以强调后续重建的重要特征。
5 形变卷积DCN
Deformable convolutional networks:其中学习额外的偏移以允许⽹络从其常规局部邻域获得信息,从⽽提⾼常规卷积的能⼒。
可变形卷积⼴泛⽤于各种任务,如视频⽬标检测(Object detection in video with spatiotemporal sampling networks.),动作识别(Trajectory convolution for action recognition),语义分割[Deformable convolutional networks]和视频超分辨率。
特别地,TDAN使⽤可变形卷积来在特征级别对⻬输⼊帧⽽⽆需显式运动估计或图像变形。受TDAN的启发,PCD模块采⽤可变形卷积作为对⻬的基本操作。
6 Attention机制
在论⽂ Robust video super-resolution with learned temporal dynamics 中,学习了⼀系列权重图为不同时间分⽀的特征赋权。
⾮局部运算(Non-local neural networks)计算位置处的响应,以获取远程范围依赖的所有位置处的特征的加权和。
由这些成功的⼯作启发,作者将时空注意⼒机制引⼊到TSA融合模块。
7 总结思考
本⽂提出了⼀个新的视频恢复框架EDVR,是⼀个适⽤于多种视频重建任务(如超分、去模糊)的统⼀框架。
在解决两⼤问题:图像对⻬(Alignment)和时空信息融合(Fusion)上,分别提出PCD对⻬模块和TSA融合模块。
PCD对⻬模块的巨⼤创新点是将可变形卷积以⾦字塔、级联的结构运⽤,TSA融合模块的巨⼤创新点是在融合过程中使⽤了时间和空间的注意⼒机制。
其中时间注意考虑参考帧与相邻帧间相关性,空间注意考虑单帧内部每个位置的特征。根据加权,通过相关系数卷积来进⾏融合。