专利 数据表处理方法、装置、计算机设备和存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 20221048349 2.9 (22)申请日 2022.05.06 (65)同一申请的已公布的文献号申请公布号 CN 114579584 A (43)申请公布日 2022.06.03 (73)专利权人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人钟子宏　 (74)专利代理机构华进联合专利商标代理有限公司 44224 专利代理师李文渊 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/2455(2019.01)审查员贾瑞双 (54)发明名称数据表处理方法、装置、计算机设备和存储介质 (57)摘要本申请涉及一种数据表处理方法、装置、计算机设备、存储介质和计算机程序产品，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。所述方法包括：获取多个数据源表各自的字段名以及与每个所述字段名对应的字段内容，所述多个数据源表中至少两个数据源表的数据结构不同；根据所述多个数据源表各自的字段名和对应的字段内容，构建每个所述数据源表分别对应的中间表；每个所述中间表具有相同数据结构；将各所述数据源表的字段名组织成数据宽表中的宽表字段名；基于所述宽表字段名，对每个所述中间表中的字段内容进行数据聚合处理，得到所述数据宽表中与所述宽表字段名对应的宽表字段内容。采用本方法能够更灵活地生成数据宽表。权利要求书4页说明书25页附图7页 CN 114579584 B 2022.08.09 CN 114579584 B 1.一种数据表处理方法，其特征在于，所述方法包括：获取多个数据源表各自的字段名以及与每个所述字段名对应的字段内容，所述多个数据源表中至少两个数据源表的数据结构不同；所述数据源表的字段名包括第一标识字段名和特征字段名，所述字段内容包括所述第一标识字段名对应的第一对象标识和所述特征字段名对应的特征内容；将每个所述数据源表中各所述第一对象标识，作为相应竖表的第二标识字段名所对应的第二对象标识；每个所述竖表具有相同数据结构，所述数据结构为对象标识 ‑键‑值结构；同一竖表中所述第二标识字段名下的各第二对象标识相同；将每个所述数据源表的各所述特征字段名，作为相应竖表的键字段名所对应的键内容；同一竖表中所述键字段名下的各个键内容不同；将每个所述特征字段名在所属数据源表中对应的特征内容，作为相应竖表的值字段名下与相应键内容所对应的值内容；每个所述竖表中的键内容和对应的值内容形成键值对；根据每个所述竖表中的所述第二标识字段名、所述键字段名和所述值字段名，将每个所述竖表中包括第二对象标识、键内容和值内容的数据行进行递归聚合处理，得到全量竖表；所述全量竖表与所述竖表的数据结构相同；将各所述数据源表的字段名组织成数据宽表中的宽表字段名；基于所述宽表字段名，对所述全量竖表中的字段内容进行数据聚合处理，得到所述数据宽表中与所述宽表字段名对应的宽表字段内容。 2.根据权利要求1所述的方法，其特征在于，所述获取多个数据源表各自的字段名以及与每个所述字段名对应的字段内容，包括：获取多个数据源表各自的源地址，并将各所述源地址分发至分布式集群的多个服务器；通过多个所述服务器并行从各自接收的源地址所对应的数据源表中提取字段名以及与每个所述字段名对应的字段内容。 3.根据权利要求1所述的方法，其特征在于，所述根据每个所述竖表中的所述第二标识字段名、所述键字段名和所述值字段名，将每个所述竖表中包括第二对象标识、键内容和值内容的数据行进行递归聚合处理，得到全量竖表，包括：根据至少两个竖表中的所述第二标识字段名、所述键字段名和所述值字段名，将所述至少两个竖表中包括第二对象标识、键内容和值内容的数据行进行拼接处理，并将拼接处理所生成的临时表和下一竖表继续按照所述第二标识字段名、所述键字段名和所述值字段名进行拼接处理，直至得到与最后一竖表拼接所生成的全量竖表。 4.根据权利要求1所述的方法，其特征在于，所述根据每个所述竖表中的所述第二标识字段名、所述键字段名和所述值字段名，将每个所述竖表中包括第二对象标识、键内容和值内容的数据行进行递归聚合处理，得到全量竖表，包括：根据每个所述竖表中的所述第二标识字段名、所述键字段名和所述值字段名，将每个所述竖表中包括第二对象标识、键内容和值内容的数据行进行递归聚合处理，并对递归聚合处理所得到的竖表中具有相同数据的数据行进行去重处理，得到全量竖表。 5.根据权利要求1所述的方法，其特征在于，所述获取多个数据源表各自的字段名，包括：权　利　要　求　书 1/4 页 2 CN 114579584 B 2获取多个数据源表各自的源地址，并将各所述源地址分发至分布式集群的多个服务器；通过多个所述服务器并行从各自接收的源地址所对应的数据源表中提取字段名；所述将各所述数据源表的字段名组织成数据宽表中的宽表字段名，包括：通过多个所述服务器并行将各自接收的源地址所对应的数据源表中提取的字段名，组织成相应数据源表对应的字段名序列；将每个所述数据源表对应的字段名序列组织成全量字段名序列，并将所述全量字段名序列组织成数据宽表中的宽表字段名。 6.根据权利要求1所述的方法，其特征在于，所述基于所述宽表字段名，对所述全量竖表中的字段内容进行数据聚合处理，得到所述数据宽表中与所述宽表字段名对应的宽表字段内容，包括：将所述全量竖表中的字段内容，写入所述数据宽表中与相应宽表字段名对应的内容位置，得到所述数据宽表中与所述宽表字段名对应的宽表字段内容。 7.根据权利要求1所述的方法，其特征在于，所述数据源表基于目标应用的日志数据生成，所述方法还包括：当所述目标应用的日志数据存在更新时，确定更新的增量数据；将所述增量数据构建为增量表，所述增量表与所述竖表具有相同数据结构，所述增量表包括增量字段名和对应的增量字段内容；将所述增量字段名增加为所述数据宽表的宽表字段名，并将所述增量字段内容增加为相应宽表字段名所对应的宽表字段内容。 8.根据权利要求1至7任意一项所述的方法，其特征在于，所述方法还包括：获取与待处理业务对应的数据宽表；根据所述待处理业务对应的数据宽表中的宽表字段名和对应的宽表字段内容，构建与所述待处理业务相匹配的训练样本；基于所述训练样本对业务处理模型进行训练，得到训练完成的业务处理模型，所述训练完成的业务处理模型用于对所述待处理业务进行处理。 9.根据权利要求8所述的方法，其特征在于，所述待处理业务为对象画像构建；所述宽表字段名至少包括对象字段名、属性字段名、资源字段名、操作字段名，所述宽表字段内容至少包括候选对象标识、候选对象的属性内容、所述候选对象所关注的资源内容、所述候选对象对资源内容的操作内容；所述训练样本基于所述候选对象标识、所述属性内容、所述资源内容和所述操作内容构建；所述业务处理模型为画像生成模型，训练完成的画像生成模型用于为目标对象构建对应的对象画像。 10.一种数据表处理装置，其特征在于，所述装置包括：获取模块，用于获取多个数据源表各自的字段名以及与每个所述字段名对应的字段内容，所述多个数据源表中至少两个数据源表的数据结构不同；所述数据源表的字段名包括第一标识字段名和特征字段名，所述字段内容包括所述第一标识字段名对应的第一对象标识和所述特征字段名对应的特征内容；构建模块，用于将每个所述数据源表中各所述第一对象标识，作为相应竖表的第二标识字段名所对应的第二对象标识；每个所述竖表具有相同数据结构，所述数据结构为对象权　利　要　求　书 2/4 页 3 CN 114579584 B 3

专利 数据表处理方法、装置、计算机设备和存储介质

专利数据表处理方法、装置、计算机设备和存储介质