张力飞

  • 主页
  • 教育背景
  • 研究经历
  • 实践经历
  • 社会活动
友链 关于我

张力飞

  • 主页
  • 教育背景
  • 研究经历
  • 实践经历
  • 社会活动

DataCastle:AI in RTC 超分辨率图像质量比较挑战赛

2019-11-08

1. 赛题分析

1.1 赛题任务

对于自然影像,构建一个四倍超分辨率模型,给定低分辨率图像,重建相应的四倍高分辨率图像。

1.2 数据介绍

训练数据为公开数据集DIV2K、Flickr2K 总共3550张高清图像,如图1所示:

图1 高清训练数据示例图

验证数据由100张高清图及相应的降采样2倍、4倍图像组成,如图2所示:

图2 验证数据示例图

测试数据为100张降采样四倍图像。

1.3 挑战及难点

  • 如何利用少量的验证数据,对训练数据上的超分模型进行有效的特化学习
  • 如何保证模型在场景多变的测试数据中表现稳定

2. 解决方案

2.1 方案创新点

  • 生成器网络多尺度输出
  • 添加附加损失函数的改进loss
  • 多场景模型微调训练与预测

2.2 整体框架(基于多尺度优化的ESRGAN网络)

生成器与判别器交替训练,架构图如图3所示:

图3 整体架构图

2.2.1 数据预处理

  • 构建训练数据集:训练数据由2650DIV2K张高清图和900张Flickr2K高清图组成,总共3550张高清图
  • 在线随机裁剪:对训练集中的高清图进行在线固定大小(384x384)的随机裁剪
  • 在线低分图生成:对训练集中的高清图进行在线四倍下采样,获得相应的模型输入的低分图
  • 在线数据增强:对训练集中的图像进行在线随机翻转、旋转、镜像等操作

2.2.2 生成器网络

生成器网络基于ESRGAN,添加附加尺度输出,具体结构如图4所示:

图4 生成网络结构图

2.2.3 判别器网络

判别器网络采用VGG结构,具体结构如图5所示:

图5 判别网络结构图

2.3 模型训练

2.3.1 训练集上的初始化训练

使用RMSProp优化器,初始学习率为1e-4,在训练集上进行200轮训练,损失函数如下所示:

2.3.2 微调训练

  • 数据增强操作:对于模型输入图像进行随机裁剪、旋转、翻转数据增强,缓解验证集数据不足的问题
  • 验证集拆分微调训练:将验证集中100张图像按照场景类型,大致分为5个场景。分别在5个划分的数据集上进行微调,获得5个微调模型,增强模型表现的稳定性。
    5个场景如图6所示:
图6 五类场景示例图

2.4 多模型预测及基于压缩比的重建图像择优

  • 多模型预测:分别用5个微调模型预测测试集中100张图像,获得5组100张4倍超分辨率重建图像
  • 基于压缩比的重建图像择优:存储格式相同的情况下,对于5组中同一个图像,挑选压缩比最小的作为最终提交的超分辨率重建图像

2.5 结果示例

2.6 总结

  • 利用多尺度输出生成器网络,加强对于浅层网络的监督,可以在一定程度上防止或缓解梯度消失
  • 利用验证集数据进行微调训练,降低模型在目标数据集上的学习偏差,可显著提升模型在测试集上的表现
  • 利用数据增强,间接增加数据量,缓解验证集数据量不足的问题
  • 利用验证集拆分微调学习,降低模型学习难度,保证模型在多场景预测的中表现的稳定性

2.7 决赛回放

扫一扫,分享到微信

微信分享二维码
© 2020 张力飞
Hexo Theme Yilia by Litten
  • 友链
  • 关于我
  • 武汉大学
  • 武汉大学测绘遥感信息工程国家重点实验室
  • 武汉大学CVEO小组
革命还未成功<br><br>同志仍需努力啊!<br>