公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211533043.7 (22)申请日 2022.12.02 (71)申请人 广州数说故事信息科技有限公司 地址 510620 广东省广州市天河区黄埔大 道西120号15 01室 (72)发明人 牟昊 周俊贤 何宇轩 徐亚波  李旭日  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 江嘉玲 (51)Int.Cl. G06Q 30/02(2012.01) G06N 3/04(2006.01) G06F 16/332(2019.01) G06F 16/33(2019.01)G06F 40/279(2020.01) G06Q 30/06(2012.01) G06V 30/19(2022.01) G06V 30/262(2022.01) (54)发明名称 电商商品的数据对齐方法、 装置和设备 (57)摘要 本发明公开了一种电商商品的数据对齐方 法、 装置和设备, 从商品详情页中获取待对齐商 品的商品图片、 商品标题和商品参数, 因获取的 商品信息 数据全面, 可以准确反映这一商品的信 息。 在进行数据对齐操作时, 首先对商品信息进 行数据预处理得到第一标准向量, 并根据第一标 准向量与向量库中每一标准商品的第二标准向 量进行第一匹配操作, 得到候选商品; 然后将第 一拼接向量与每一候选商品的第二拼接向量进 行第二匹配操作, 以获取到目标商品, 并根据目 标商品对齐所述待对齐商品的数据。 采用本发明 实施例, 在与向量库进行匹配时利用到的商品信 息比较全面, 且经过两次匹配操作, 能有效提高 电商商品在数据对齐时的准确率。 权利要求书2页 说明书11页 附图3页 CN 115545808 A 2022.12.30 CN 115545808 A 1.一种电商 商品的数据对齐方法, 其特 征在于, 包括: 从电商平台的商品详情页中获取待对齐商品的商品信息; 其中, 所述商品信息包括商 品图片、 商品标题和商品参数; 对所述商品信息进行 数据预处 理, 以得到若干个第一标准向量; 将若干个第一标准向量分别与预先构建的向量库中每一标准商品的第二标准向量进 行第一匹配操作, 以从所述向量库中获取到若干个候选商品; 拼接属于同一个待对齐商品的第一标准向量, 得到第一 拼接向量; 将所述第一拼接向量与每一候选商品的第 二拼接向量进行第 二匹配操作, 以从所述候 选商品中获取到目标商品; 根据所述目标商品对齐所述待对齐商品的数据。 2.如权利要求1所述的电商商品的数据对齐方法, 其特征在于, 所述对所述商品信 息进 行数据预处 理, 包括: 利用预设的数据转换模型将所述商品信息转换为对应的第一初始向量; 将所述第一初始向量与自身的模长相除, 得到所述第一标准向量。 3.如权利要求2所述的电商商品的数据对齐方法, 其特征在于, 所述利用预设的数据转 换模型将所述商品信息转换为对应的第一初始向量, 包括: 利用ResNets模型将所述商品图片转换为对应的第一初始图片向量; 利用OCR模型提取所述商品图片中的文字信息, 并利用bert模型将所述文字信息转换 为对应的第一初始文字向量; 利用bert模型将所述商品标题转换为对应的第一初始标题向量; 将所述商品参数中的数据进行拼接, 并利用bert模型将拼接后的商品参数转换为对应 的第一初始参数向量。 4.如权利要求1所述的电商商品的数据对齐方法, 其特征在于, 所述将若干个第 一标准 向量分别与预 先构建的向量库中每一标准商品的第二标准向量进行第一匹配操作, 包括: 将若干个第一标准向量分别与预先构建的向量库中每一标准商品的第二标准向量进 行点积计算, 得到若干个点积值; 获取与所述若干个第一标准向量对应的权 重值; 根据所述权重值通过加权所述点积值得到所述待对齐商品与所述标准商品的相似度 值; 当计算完所述待对齐商 品与所有所述标准商 品的相似度值 时, 根据所述相似度值按照 预设的候选规则从所有所述标准商品中获取候选商品。 5.如权利要求 4所述的电商 商品的数据对齐方法, 其特 征在于, 所述 候选规则包括: 按照从大到小的数值 顺序对所有相似度值进行排序; 获取前K个相似度值, 并将前K个相似度值对应的所述标准商品作为所述候选商品; 其 中, K为整数, 且K≥2。 6.如权利要求1所述的电商商品的数据对齐方法, 其特征在于, 所述将所述第 一拼接向 量与每一 候选商品的第二 拼接向量进行第二匹配操作, 包括: 将所述第一 拼接向量和每一所述第二 拼接向量 拼接, 得到若干个高维向量; 将所述若干个 高维向量输入到预设的相似度计算模型中, 以使所述相似度计算模型输权 利 要 求 书 1/2 页 2 CN 115545808 A 2出对应的相似度得分; 获取所述相似度得分中的最大值; 在所述最大值大于预设的相似度阈值 时, 将所述最大值对应的所述候选商 品作为所述 目标商品。 7.如权利要求1所述的电商商品的数据对齐方法, 其特征在于, 所述向量库的构建方法 包括: 从官方平台的商品详情页中获取待处 理商品的商品信息; 对所述待处 理商品的商品信息进行 数据预处 理, 以得到若干个第二标准向量; 根据所述第二标准向量和所述商品信息构建所述向量库。 8.如权利要求1所述的电商 商品的数据对齐方法, 其特 征在于, 所述方法还 包括: 当所述商 品详情页中的所述待对齐商 品包括至少两张图片时, 获取显示的第 一张图片 作为所述商品图片。 9.一种电商 商品的数据对齐装置, 其特 征在于, 包括: 商品信息获取模块, 用于从电商平台的商品详情页中获取待对齐商品的商品信息; 其 中, 所述商品信息包括商品图片、 商品标题和商品参数; 数据预处 理模块, 用于对所述商品信息进行 数据预处 理, 以得到若干个第一标准向量; 第一匹配模块, 用于将若干个第 一标准向量分别与预先构建的向量库中每一标准商品 的第二标准向量进行第一匹配操作, 以从所述向量库中获取到若干个候选商品; 向量拼接模块, 用于拼接属于同一个待对齐商品的第一标准向量, 得到第一 拼接向量; 第二匹配模块, 用于将所述第 一拼接向量与每一候选商品的第 二拼接向量进行第 二匹 配操作, 以从所述 候选商品中获取到目标商品; 对齐模块, 用于根据所述目标商品对齐所述待对齐商品的数据。 10.一种电商商品的数据对齐设备, 其特征在于, 包括处理器、 存储器以及存储在所述 存储器中且被配置为由所述处理器执行的计算机程序, 所述处理器执行所述计算机程序时 实现如权利要求1至8中任意 一项所述的电商 商品的数据对齐方法。权 利 要 求 书 2/2 页 3 CN 115545808 A 3

PDF文档 专利 电商商品的数据对齐方法、装置和设备

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 电商商品的数据对齐方法、装置和设备 第 1 页 专利 电商商品的数据对齐方法、装置和设备 第 2 页 专利 电商商品的数据对齐方法、装置和设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:39:59上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。