(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111434958.8
(22)申请日 2021.11.29
(71)申请人 重庆邮电大 学
地址 400065 重庆市南岸区南 山街道崇文
路2号
(72)发明人 孙开伟 邓名新
(74)专利代理 机构 重庆市恒信知识产权代理有
限公司 5 0102
代理人 刘小红
(51)Int.Cl.
G06Q 10/04(2012.01)
G06N 20/00(2019.01)
G06T 9/00(2006.01)
G06Q 50/26(2012.01)
(54)发明名称
一种基于大数据的人群密度预测方法及系
统
(57)摘要
本发明请求保护一种基于大数据的人群密
度预测方法及系统, 包括: 101对数据进行预处理
操作; 102根据时间对数据进行划分操作; 103根
据一定规则构建区域关联图; 104对区域关联图
数据进行编码处理; 105对数据进行特征工程构
建操作; 106建立多个机器学习模型, 并进行模型
融合操作; 107通过已建立的模型, 根据区域的经
纬度、 所在网格面积等数据预测该区域人群密
度。 本发明主要是通过对地区的经纬度、 网格面
积等数据进行预处理和分析提取特征并且构建
区域关联图, 使用图编码建立多个机器学习模
型, 从而预测当地区域的人群密度, 使得在疫情
期间, 国家、 政府能够对该区域人群密度有所了
解, 提前分配抗疫资源, 部署医护人员等。
权利要求书3页 说明书8页 附图2页
CN 114358375 A
2022.04.15
CN 114358375 A
1.一种基于大 数据的人群密度预测方法, 其特 征在于, 包括以下步骤:
101.对区域的历史人流 量指数数据进行异常值清洗、 中位数填充等预处 理操作;
102.根据时间把预处 理后的数据划分为训练集和 测试集;
103.根据区域间的人流 量流动指数构建区域关联图;
104.对区域关联图数据进行编码处 理;
105.对训练集和 测试集进行 特征工程构建操作;
106.对经过特征工程构建的数据建立多个机器学习模型, 并进行模型融合操作;
107.通过已建立的模型, 根据 区域的经纬度、 所在网格面积在内的数据预测区域人群
密度, 提前分配部署人员。
2.根据权利要求1所述的一种基于大数据的人群密度 预测方法, 其特征在于, 所述步骤
101对数据进 行预处理操作, 具体包括: 数据预 处理包括区域的历史人流量数据和网格历史
人流量指数数据的处 理, 根据数据表的描述以及物理 理解进行如下处 理:
①对异常值进行清洗;
删除原始数据集中疫情爆发之前的样本, 删除疫情期间区域人流 量缺少的样本;
②区域网格数据的经纬度以本区域在周边区域的所有经纬度的中位数代替。
3.根据权利要求2所述的一种基于大数据的人群密度 预测方法, 其特征在于, 所述步骤
102根据时间把预处 理后的数据划分为训练集和 测试集, 具体包括:
根据记录时间对数据进行划分操作: 根据区域人流量指数数据的分析以及预测时间
段, 以7天和10天为单位划分区间, 采用2种时间窗划分方法把区域人流量指数数据划分为
训练集和 测试集;
①训练集的历史区间为Day1~Day7, 标签区间为Day8~Day14, 测试集的历史区间为
Day8~Day14, 标签区间为Day15~Day21;
②训练集的历史区间为Day1~Day11, 标签区间为Day4~Day14, 测 试集的历史区间为
Day8~Day18, 标签区间为Day15~Day21;
其中第二种时间划窗中, 测试集的历史数据Day15~Day18的数据来源于嫁接学习, 就
是由模型 预测。
4.根据权利要求3所述的一种基于大数据的人群密度 预测方法, 其特征在于, 所述步骤
103根据区域间的人流 量流动指数构建区域关联图, 具体包括;
根据网格构建区域之间的关联图, 区域中心所在的网格代表来这个区域最核心的人群
密度信息, 所以直接按照数据给定的区域中心所在 网格这一关系来构建区域关联图, 有些
区域所在的中心网格并没有在 网格联系强度数据中出现, 等价于网格缺失, 所以对这些区
域需要重新寻找距离区域中心最近的网格来代表这个区域; 最终构建24个加权有向图, 分
别对应24个小时下区域之间的关系网络, 边上 的权重表示区域间的联系强度, 即区域间的
人流量流动指数。
5.根据权利要求4所述的一种基于大数据的人群密度 预测方法, 其特征在于, 所述步骤
104对区域关联图数据进 行编码处理, 具体包括: 构建区域关联图之后对区域的特征 空间进
行提取, 时刻t的有向图中存在区域A指向区域B的连边表示t时刻A到B有一定的人群流动
性, 所以选择基于随机游走的图嵌入算法来学习24个小时对应的空间特征, 选择node2vec
算法。权 利 要 求 书 1/3 页
2
CN 114358375 A
26.根据权利要求5所述的一种基于大数据的人群密度 预测方法, 其特征在于, 所述选择
基于随机游走的图嵌入算法来学习24个小时对应的空间特 征, 具体包括;
node2vec对网格区域之间 的关联图的一个随机游走, 如果已经采样了节点(t,v),也就
是说现在停留在节点v上, 那么下一个要采样的节点根据下一个节点与节点t的关系来决
定; 如果t与x相等, 那么采样x的概率为
如果t与x相连, 那么采样x的概率1; 如果t与x不相
连, 那么采样x概 率为
p、 q为参数。
7.根据权利要求5或6所述的一种基于大数据的人群密度预测方法, 其特征在于, 所述
步骤105对 数据进行特征工程构建操作, 具体包括: 根据区域人流量指数数据和区域网格数
据的分析, 对训练集和 测试集进行 特征工程构建;
所述对特征工程进行构建是指对区域历史人流量指数数据构建基础特征、 区域关联图
特征空间特 征及交叉 特征。
8.根据权利要求7所述的一种基于大数据的人群密度 预测方法, 其特征在于, 所述基础
特征是指: 当前区域人流量的每天统计、 周末节假日的统计, 区域、 人、 区域 ‑网格人流量的
数的差分、 环比、 同比、 总和及其均值、 方差; 区域覆盖 半径, 区域覆盖面积, 区域单位面积人
流量, 区域面积人流 量, 以及天气相关特 征;
所述区域关联图特征空间特征是指: 基于网格构建区域之间的关联图, 按照数据给定
的区域中心所在网格这一关系来构建区域关联图, 有 些区域所在的中心网格并没有在网格
联系强度数据中出现, 等价于网格缺失, 对这些区域需要重新寻找距离区域中心最近的网
格来代表 这个区域, 构建2 4个加权有向图, 分别对应2 4个小时下区域之间的关系网络, 边上
的权重表示区域间的联系强度;
所述交叉特征是指: 挖掘基础特征之间的关系, 区域某一天24h的人流量与网格面积的
占比。
9.根据权利要求8所述的一种基于大数据的人群密度 预测方法, 其特征在于, 所述步骤
106建立多个梯度上升树模型, 并进行模型融合操作: 用构建完特征的训练集去训练7个
Catboost模型;
Catboost模型分别 对基础特征、 区域关联图特征空间特征、 交叉特征进行特征选择, 按
照特征重要性排序, 在基础特征中选取特征重要性大于方差的特征, 在区域关联图特征空
间特征中选取特征重要性大于13的特征, 在交叉特征中选取特征重要性大于67的特征;
Catboost模型参数在默认参数乘以随机系数, 系数范围为0.5~1.3, 从而生成7个不同的
Catboost模型。 这些Catboost模型以stacking进行模型融合, 用线性回归以五折交叉拟合
每一折得到5个系数, 以这5个系数的均值作为该Catboost的融合系数作为stacking的第一
层, 再以这多个Catb oost模型进行训练, 得到7个Catb oost的预测结果, 将预测结果乘上各
自的融合系数, 求和得到最终预测。
10.一种基于 权利要求1 ‑9任一项所述方法的人群密度预测系统, 其特 征在于, 包括:
预处理模块: 用于对区域的历史人流量指数数据进行进行异常值清洗、 中位数填充等
预处理操作; 并根据时间把预处 理后的数据划分为训练集和 测试集;
区域关联图构建模块: 用于根据区域间的人流 量流动指数构建区域关联图;权 利 要 求 书 2/3 页
3
CN 114358375 A
3
专利 一种基于大数据的人群密度预测方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:03:58上传分享