DataCastle：AI in RTC 超分辨率图像质量比较挑战赛

2019-11-08

1. 赛题分析

1.1 赛题任务

对于自然影像，构建一个四倍超分辨率模型，给定低分辨率图像，重建相应的四倍高分辨率图像。

1.2 数据介绍

训练数据为公开数据集DIV2K、Flickr2K 总共3550张高清图像，如图1所示：

图１高清训练数据示例图

验证数据由100张高清图及相应的降采样2倍、4倍图像组成，如图2所示：

图2 验证数据示例图

测试数据为100张降采样四倍图像。

1.3 挑战及难点

如何利用少量的验证数据，对训练数据上的超分模型进行有效的特化学习
如何保证模型在场景多变的测试数据中表现稳定

2. 解决方案

2.1 方案创新点

生成器网络多尺度输出
添加附加损失函数的改进loss
多场景模型微调训练与预测

2.2 整体框架（基于多尺度优化的ESRGAN网络）

生成器与判别器交替训练，架构图如图3所示：

图3 整体架构图

2.2.1 数据预处理

构建训练数据集：训练数据由2650DIV2K张高清图和900张Flickr2K高清图组成，总共3550张高清图
在线随机裁剪：对训练集中的高清图进行在线固定大小(384x384)的随机裁剪
在线低分图生成：对训练集中的高清图进行在线四倍下采样，获得相应的模型输入的低分图
在线数据增强：对训练集中的图像进行在线随机翻转、旋转、镜像等操作

2.2.2 生成器网络

生成器网络基于ESRGAN，添加附加尺度输出，具体结构如图4所示：

图4 生成网络结构图

2.2.3 判别器网络

判别器网络采用VGG结构，具体结构如图5所示：

图5 判别网络结构图

2.3 模型训练

2.3.1 训练集上的初始化训练

使用RMSProp优化器，初始学习率为1e-4,在训练集上进行200轮训练，损失函数如下所示：

2.3.2 微调训练

数据增强操作：对于模型输入图像进行随机裁剪、旋转、翻转数据增强，缓解验证集数据不足的问题
验证集拆分微调训练：将验证集中100张图像按照场景类型，大致分为5个场景。分别在5个划分的数据集上进行微调，获得5个微调模型，增强模型表现的稳定性。
5个场景如图6所示：

图6 五类场景示例图

2.4 多模型预测及基于压缩比的重建图像择优

多模型预测：分别用5个微调模型预测测试集中100张图像，获得5组100张4倍超分辨率重建图像
基于压缩比的重建图像择优：存储格式相同的情况下，对于5组中同一个图像，挑选压缩比最小的作为最终提交的超分辨率重建图像

2.5 结果示例

2.6 总结

利用多尺度输出生成器网络，加强对于浅层网络的监督，可以在一定程度上防止或缓解梯度消失
利用验证集数据进行微调训练，降低模型在目标数据集上的学习偏差，可显著提升模型在测试集上的表现
利用数据增强，间接增加数据量，缓解验证集数据量不足的问题
利用验证集拆分微调学习，降低模型学习难度，保证模型在多场景预测的中表现的稳定性

张力飞