Temporally Coherent GANs for Video Super-Resolution (TecoGAN). CVPR 2019
1 文章摘要
本⽂提出了⼀种针对VSR的对抗性训练,可以在不牺牲空间细节的情况下,获得节奏连贯的解决⽅案。
本⽂的⼯作集中在新的损失公式的视频超分辨率,并证明了其⼒量的基础上建⽴的⽣成器框架。
即时对抗性学习是获得照⽚真实感和时间连贯性细节的关键。
本⽂还提出了⼀种新的损耗,可以有效去除递归⽹络中的时间伪影⽽不降低感知质量。
本⽂提出了第⼀组度量来评估时间进化的准确性和感知质量。
2 问题背景
对抗性训练在SISR⽅⾯⾮常成功,因为它能产⽣逼真和⾮常详细的结果。尽管如此,⽬前最先进的VSR⽅法仍然倾向于更简单的规范,如,⽽不是对抗性损失函数。
直接向量范数作为损失函数的平均性质容易导致在⽣成的图像中由于缺乏空间细节⽽导致的时间平滑性和⼀致性。
对于SISR,基于深度学习的⽅法实现了最先进的峰值信噪⽐(PSNR),⽽基于⽣成性对抗⽹络(GANs)的体系结构在感知质量⽅⾯实现了重⼤改进。
与SISR相⽐,VSR的主要挑战是获得⽆闪烁伪影形式的⾮⾃然变化的清晰结果。
3 网络结构
本⽂提出的VSR⽹络结构TecoGAN由三个部分组成:循环⽣成器、流估计⽹络和时空鉴别器。
⽣成器⽤于从LR输⼊重复⽣成HR视频帧。流估计⽹络学习帧间的运动补偿以帮助⽣成器和时空鉴别器。
在训练期间, 和⼀起训练以愚弄时空鉴别器。这个鉴别器是TecoGAN⽅法的核⼼,因为它可以考虑到空间和时间⽅⾯,并且在不过度平滑图像内容的情况下惩罚结果中的时间不连续性。如此⼀来, 需要⽣成与先前帧⼀致的⾼频细节。
训练结束后, 的附加复杂性将不再起作⽤,因为只有训练的和模型才需要推断出新的超分辨率视频输出。
4 总结思考
本⽂提出了⼀种新的对抗性的VSR⽅法TecoGAN,允许在时间⼀致性⽅⾯进⾏⾃我监控,由于TecoGAN的鉴别器结构和PP损失,本⽂的⽅法能够产⽣具有鲜明特征和精细细节的真实结果。
虽然本⽂的⽅法可以为⼤量的⾃然图像⽣成⾮常逼真的结果,但是在某些情况下会⽣成时间⼀致但次优的细节,例如⽋分辨的⾯和⽂本。这是GANs的⼀个典型问题,通常通过引⼊视频内容的先验信息来解决。