公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 20221048349 2.9 (22)申请日 2022.05.06 (65)同一申请的已公布的文献号 申请公布号 CN 114579584 A (43)申请公布日 2022.06.03 (73)专利权人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 钟子宏 (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 李文渊 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/2455(2019.01)审查员 贾瑞双 (54)发明名称 数据表处理方法、 装置、 计算机设备和存储 介质 (57)摘要 本申请涉及一种数据表处理方法、 装置、 计 算机设备、 存储介质和计算机程序产品, 可应用 于云技术、 人工智能、 智慧交通、 辅助驾驶等各种 场景。 所述方法包括: 获取多个数据源表各自的 字段名以及与每个所述字段名对应的字段内容, 所述多个数据源表中至少两个数据源表的数据 结构不同; 根据所述多个数据源表各自的字段名 和对应的字段内容, 构建每个所述数据源表分别 对应的中间表; 每个所述中间表具有相同数据结 构; 将各所述数据源表的字段名组织成数据宽表 中的宽表字段名; 基于所述宽表字段名, 对每个 所述中间表中的字段内容进行数据聚合处理, 得 到所述数据宽表中与所述宽表字段名对应的宽 表字段内容。 采用本方法能够更灵活地生成数据 宽表。 权利要求书4页 说明书25页 附图7页 CN 114579584 B 2022.08.09 CN 114579584 B 1.一种数据表处 理方法, 其特 征在于, 所述方法包括: 获取多个数据源表各自的字段名以及与每个所述字段名对应的字段内容, 所述多个数 据源表中至少两个数据源表的数据结构不同; 所述数据源表的字段名包括第一标识字段名 和特征字段名, 所述字段内容包括所述第一标识字段名对应的第一对象标识和所述特征字 段名对应的特 征内容; 将每个所述数据源表中各所述第 一对象标识, 作为相应竖表的第 二标识字段名所对应 的第二对象标识; 每个所述竖表具有相同数据结构, 所述数据结构为对象标识 ‑键‑值结构; 同一竖表中所述第二标识字段名下的各第二对象标识相同; 将每个所述数据源表的各所述特征字段名, 作为相应竖表的键字段名所对应的键内 容; 同一竖表中所述键 字段名下的各个键内容 不同; 将每个所述特征字段名在所属数据源表中对应的特征内容, 作为相应竖表的值字段名 下与相应键内容所对应的值内容; 每 个所述竖表中的键内容和对应的值内容形成键值对; 根据每个所述竖表中的所述第二标识字段名、 所述键字段名和所述值字段名, 将每个 所述竖表中包括第二对 象标识、 键内容和值内容的数据行进行递归聚合处理, 得到全量竖 表; 所述全量竖表与所述竖表的数据结构相同; 将各所述数据源表的字段名组织成数据宽表中的宽表字段名; 基于所述宽表字段名, 对所述全量竖表中的字段内容进行数据聚合处理, 得到所述数 据宽表中与所述宽表字段名对应的宽表字段内容。 2.根据权利要求1所述的方法, 其特征在于, 所述获取多个数据源表各自的字段名以及 与每个所述字段名对应的字段内容, 包括: 获取多个数据源表各自的源地址, 并将各所述源地址分发至分布式集群的多个服务 器; 通过多个所述服务器并行从各自接收的源地址所对应的数据源表中提取字段名以及 与每个所述字段名对应的字段内容。 3.根据权利要求1所述的方法, 其特征在于, 所述根据每个所述竖表中的所述第 二标识 字段名、 所述键字段名和所述值字段名, 将 每个所述竖表中包括第二对象标识、 键内容和值 内容的数据行进行递归聚合处 理, 得到全量竖表, 包括: 根据至少两个竖表中的所述第二标识字段名、 所述键字段名和所述值字段名, 将所述 至少两个竖表中包括第二对 象标识、 键内容和 值内容的数据行进行拼接处理, 并将拼接处 理所生成的临时表和下一竖表继续按照所述第二标识字段名、 所述键字段名和所述值字段 名进行拼接处 理, 直至得到与最后一竖表拼接所生成的全量竖表。 4.根据权利要求1所述的方法, 其特征在于, 所述根据每个所述竖表中的所述第 二标识 字段名、 所述键字段名和所述值字段名, 将 每个所述竖表中包括第二对象标识、 键内容和值 内容的数据行进行递归聚合处 理, 得到全量竖表, 包括: 根据每个所述竖表中的所述第二标识字段名、 所述键字段名和所述值字段名, 将每个 所述竖表中包括第二对 象标识、 键内容和值内容的数据行进行递归聚合处理, 并对递归聚 合处理所得到的竖表中具有相同数据的数据行进行去重处 理, 得到全量竖表。 5.根据权利要求1所述的方法, 其特征在于, 所述获取多个数据源表各自的字段名, 包 括:权 利 要 求 书 1/4 页 2 CN 114579584 B 2获取多个数据源表各自的源地址, 并将各所述源地址分发至分布式集群的多个服务 器; 通过多个所述 服务器并行从各自接收的源地址所对应的数据源表中提取字段名; 所述将各 所述数据源表的字段名组织成数据宽表中的宽表字段名, 包括: 通过多个所述服务器并行将各自接收的源地址所对应的数据源表中提取的字段名, 组 织成相应数据源表对应的字段名序列; 将每个所述数据源表对应的字段名序列组织成全量字段名序列, 并将所述全量字段名 序列组织成数据宽表中的宽表字段名。 6.根据权利要求1所述的方法, 其特征在于, 所述基于所述宽表字段名, 对所述全量竖 表中的字段内容进行数据聚合处理, 得到所述数据宽表中与所述宽表字段名对应的宽表字 段内容, 包括: 将所述全量竖表中的字段内容, 写入所述数据宽表中与相应宽表字段名对应的内容位 置, 得到所述数据宽表中与所述宽表字段名对应的宽表字段内容。 7.根据权利要求1所述的方法, 其特征在于, 所述数据源表基于目标应用的日志数据生 成, 所述方法还 包括: 当所述目标应用的日志数据存在更新时, 确定更新的增量数据; 将所述增量数据构建为增量表, 所述增量表与所述竖表具有相同数据结构, 所述增量 表包括增量字段名和对应的增量字段内容; 将所述增量字段名增加为所述数据宽表的宽表字段名, 并将所述增量字段内容增加为 相应宽表字段名所对应的宽表字段内容。 8.根据权利要求1至7任意 一项所述的方法, 其特 征在于, 所述方法还 包括: 获取与待处 理业务对应的数据宽表; 根据所述待处理业务对应的数据宽表中的宽表字段名和对应的宽表字段内容, 构建与 所述待处 理业务相匹配的训练样本; 基于所述训练样本对业务处理模型进行训练, 得到训练完成的业务处理模型, 所述训 练完成的业 务处理模型用于对所述待处 理业务进行处 理。 9.根据权利要求8所述的方法, 其特征在于, 所述待处理业务为对象画像构建; 所述宽 表字段名至少包括对象字段名、 属 性字段名、 资源字段名、 操作字段名, 所述宽表字段内容 至少包括候选对象标识、 候选对象 的属性内容、 所述候选对象所关注的资源内容、 所述候选 对象对资源内容的操作内容; 所述训练样本基于所述候选对象标识、 所述属性内容、 所述资 源内容和所述操作内容构建; 所述业务处理模型为画像生成模型, 训练完成的画像生成模 型用于为目标对象构建对应的对象画像。 10.一种数据表处 理装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取多个数据源表各自的字段名以及与每个所述字段名对应的字段内 容, 所述多个数据源表中至少 两个数据源表的数据结构不同; 所述数据源表的字段名包括 第一标识字段名和特征字段名, 所述字段内容包括所述第一标识字段名对应的第一对象标 识和所述特 征字段名对应的特 征内容; 构建模块, 用于将每个所述数据源表中各所述第一对象标识, 作为相应竖表的第二标 识字段名所对应的第二对 象标识; 每个所述竖表具有相同数据结构, 所述数据结构为对 象权 利 要 求 书 2/4 页 3 CN 114579584 B 3
专利 数据表处理方法、装置、计算机设备和存储介质
文档预览
中文文档
37 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共37页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 00:15:27
上传分享
举报
下载
原文档
(975.7 KB)
分享
友情链接
NY-T 536-2017 鸡伤寒和鸡白痢诊断技术.pdf
GB-T 33453-2016 基础地理信息数据库建设规范.pdf
GB-T 38146.2-2019 中国汽车行驶工况 第2部分:重型商用车辆.pdf
DB52-T 1636.2-2021 机关事务云 第2部分:公务用车监督管理数据 贵州省.pdf
GB-Z 18727-2002 企业应用产品数据管理(PDM)实施规范.pdf
SN-T 4579-2016 进口汽车部件检验规程 铝合金车轮.pdf
GB-T 32747-2016 岩土工程仪器安全要求.pdf
GB-T 30503-2014 船用制氮装置通用技术条件.pdf
GB-T 37971-2019 信息安全技术 智慧城市安全体系框架.pdf
民航 MH-T 2014-2023 民用无人驾驶航空器系统物流运行通用要求 第1部分:海岛场景.pdf
GB-T 2680-2021 建筑玻璃 可见光透射比、太阳光直接透射比、太阳能总透射比、紫外线透射比及有关窗玻璃参数的测定.pdf
YD-T 3763.1-2021 研发运营一体化(DevOps)能力成熟度模型 第1部分:总体架构.pdf
GB-T 29246-2023 信息安全技术 信息安全管理体系 概述和词汇 ISO 27000-2018.pdf
GB-T 19670-2023 机械安全 防止意外启动.pdf
GB-T 34352-2017 有机热载体锅炉及系统清洗导则.pdf
T-ZZB 1671—2020 竹木纤维装饰板.pdf
GB-T 40724-2021 碳纤维及其复合材料术语.pdf
GB-T 34290-2017 公共体育设施 室外健身设施的配置与管理.pdf
GB-T 28420-2012 电子收费 OBE-SAM数据格式和技术要求.pdf
HJ 1049-2019 水质 4种硝基酚类化合物的测定 液相色谱-三重四极杆质谱法.pdf
交流群
-->
1
/
3
37
评价文档
赞助2元 点击下载(975.7 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。