百度点石：首届“一带一路”国际大数据竞赛

2019-10-17

1. 赛题分析

遥感影像结合半年用户访问记录，实现区域功能分类任务（居民区、学校、商业区等9 个功能区域）。

数据包含两个部分，一部分为功能区域100x100像素低分辨率遥感影像数据，另一部分为相应的用户访问数据，包含用户ID和到访时间的TXT文档。训练数据示例如图1所示：

图１训练数据示例图初赛训练数据4万，测试数据1万；决赛训练数据40万，测试数据10万。

1）统计整个TXT数据中用户到访时间的起始时间点
2）将起始时间之间的时间段按一定时间分辨率进行区间离散化处理
3）对每个TXT中的用户到访时间在离散化时间段上进行分桶频次统计
4）分桶频次除以用户数，最终获得人均用户到访频率特征

为适应两种不同形式的特征，采用双输入神经网络。为加强不同特征的融合，在多个层次上进行特征的拼接融合。网络结构如图2所示：

图2 双输入多层特征融合分类网络结构图

对每个ID，在整个训练数据集上进行9个类别区域到访频率统计。因此对于一个ID可以获得如下到访频率分布统计：

主要包含三个模型和一个基于统计信息的规则预测。其中三个模型分别为：
1）融合图像特征和人均用户到访频率特征的双输入多层特征融合分类神经网络模型
2）仅利用人均用户到访频率特征的单输入分类神经网络模型
3）仅利用人均用户到访频率特征的LightGBM模型

基于统计信息的规则预测具体计算如下所示：

将三个模型预测的类别概率分布与基于统计信息规则预测的类别概率分布进行加权求和，获得多模型类别概率分布，取类别概率最大的类别为最终的分类结果，如下所示：

此方案最终取得初赛4/2312，决赛19/100，最终取得此次比赛优秀奖成绩。

获奖证书