张力飞

  • 主页
  • 教育背景
  • 研究经历
  • 实践经历
  • 社会活动
友链 关于我

张力飞

  • 主页
  • 教育背景
  • 研究经历
  • 实践经历
  • 社会活动

百度点石:首届“一带一路”国际大数据竞赛

2019-10-17

1. 赛题分析

1.1 赛题任务

遥感影像结合半年用户访问记录,实现区域功能分类任务(居民区、学校、商业区等9 个功能区域)。

1.2 数据介绍

数据包含两个部分,一部分为功能区域100x100像素低分辨率遥感影像数据,另一部分为相应的用户访问数据,包含用户ID和到访时间的TXT文档。训练数据示例如图1所示:

图1 训练数据示例图
初赛训练数据4万,测试数据1万;决赛训练数据40万,测试数据10万。

1.3 挑战及难点

  • 如何确定规则,从用户到访数据中制作模型输入特征
  • 如何设计模型,使之能够同时有效地利用图像信息和文本到访信息
  • 如何进行强特征挖掘

2. 解决方案

2.1 方案创新点

  • 提出基于不同时间分辨率的到访信息特征制作
  • 提出双输入多层特征融合分类神经网络
  • 挖掘ID信息,对ID进行9个类别区域到访频率统计
  • 多模型加权预测

2.2 方案介绍

2.2.1 基于不同时间分辨率的人均用户到访频率特征构造

1)统计整个TXT数据中用户到访时间的起始时间点
2)将起始时间之间的时间段按一定时间分辨率进行区间离散化处理
3)对每个TXT中的用户到访时间在离散化时间段上进行分桶频次统计
4)分桶频次除以用户数,最终获得人均用户到访频率特征

2.2.2 双输入多层特征融合分类网络

为适应两种不同形式的特征,采用双输入神经网络。为加强不同特征的融合,在多个层次上进行特征的拼接融合。网络结构如图2所示:

图2 双输入多层特征融合分类网络结构图

2.2.3 9类区域ID到访频率统计

对每个ID,在整个训练数据集上进行9个类别区域到访频率统计。因此对于一个ID可以获得如下到访频率分布统计:

2.2.4 多模型加权预测

主要包含三个模型和一个基于统计信息的规则预测。其中三个模型分别为:
1)融合图像特征和人均用户到访频率特征的双输入多层特征融合分类神经网络模型
2)仅利用人均用户到访频率特征的单输入分类神经网络模型
3)仅利用人均用户到访频率特征的LightGBM模型

基于统计信息的规则预测具体计算如下所示:

将三个模型预测的类别概率分布与基于统计信息规则预测的类别概率分布进行加权求和,获得多模型类别概率分布,取类别概率最大的类别为最终的分类结果,如下所示:

3. 方案结果

此方案最终取得初赛4/2312,决赛19/100,最终取得此次比赛优秀奖成绩。

获奖证书

扫一扫,分享到微信

微信分享二维码
© 2020 张力飞
Hexo Theme Yilia by Litten
  • 友链
  • 关于我
  • 武汉大学
  • 武汉大学测绘遥感信息工程国家重点实验室
  • 武汉大学CVEO小组
革命还未成功<br><br>同志仍需努力啊!<br>