公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211034458.X (22)申请日 2022.08.26 (71)申请人 中国银联股份有限公司 地址 201203 上海市浦东 新区含笑路36号 (72)发明人 王欣晟 刘维博 杨燚 李洁  (74)专利代理 机构 北京市中伦律师事务所 11410 专利代理师 操寒 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称 一种商户名称匹配方法、 装置及计算机可读 存储介质 (57)摘要 本发明提供了一种商户名称匹配方法、 装置 及计算机可读存储介质, 该方法包括: 根据企业 商户名称并利用近似文本算法从外部数据库提 取一个或多个候选商户名称; 提取 企业商户名称 和每个候选商户名 称之间的最长公共子序列和 次长公共子序列; 根据最长公共子序列和次长公 共子序列, 并利用语义规则判断每个候选商户名 称的匹配度, 以精确匹配出目标企业商户名称。 利用上述方法, 能够更精准实现多数据源的商户 匹配。 权利要求书2页 说明书10页 附图4页 CN 115422355 A 2022.12.02 CN 115422355 A 1.一种商户名称匹配方法, 其特 征在于, 包括: 根据企业商户名称并利用近似文本算法从外 部数据库提取一个或多个候选商户名称; 提取所述企业商户名称和每个所述候选商户名称之间的最长公共子序列和次长公共 子序列; 根据所述最长公共子序列和所述 次长公共子序列, 并利用语义规则判断每个所述候选 商户名称的匹配度, 以精确匹配出目标企业商户名称。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法 之前, 还包括: 获取商户名称, 利用商户分类模型确定所述商户名称的类型, 所述类型包括: 所述企业 商户名称和个人商户名称。 3.根据权利要求2所述的方法, 其特 征在于, 针对所述个人商户名称, 所述方法还 包括: 从所述个人商户名称中提取 人名关键词; 根据所述人名关键词并利用所述近似文本算法从外部数据库提取一个或多个候选商 户名称; 根据所述人名关键词从所述 一个或多个候选商户中精准匹配出目标个人商户名称。 4.根据权利要求1所述的方法, 其特征在于, 根据 所述企业商户名称并利用近似文本算 法从外部数据库提取一个或多个候选商户名称, 还 包括: 利用elasticsearch数据库对所述企业商户名称进行模糊 查询, 拉取相似度排序最高 前N个商户名称作为所述 候选商户名称。 5.根据权利要求1所述的方法, 其特征在于, 根据 所述最长公共子序列和所述 次长公共 子序列, 并利用语义 规则判断每 个所述候选商户名称的匹配度, 还 包括: 判断所述 最长公共子序列长度是否超过 所述企业商户名称长度的一半; 若未超过 所述企业商户名称长度的一半, 则所述 候选商户名称不匹配。 6.根据权利要求5所述的方法, 其特 征在于, 还 包括: 若所述最长公共子序列的长度超过所述企业商户名称长度的一半, 判断所述候选商户 是否符合以下第一语义 规则: 所述第一语义 规则包括: 所述最长公共子序列与所述企业商户名称的长度相同, 或者所述最长公共子序列与 所 述次长公共子序列的长度之和与所述 企业商户名称的长度相同; 所述企业商户名称包含地 址词; 所述候选商户名称去除所述最长公共子序列和所述次长公共子序列之后, 长度小于 预设值和/或包 含设定关键词; 其中, 所述目标企业商户名称为所述多个候选商户名称中唯一符合所述第 一语义规则 的候选商户名称。 7.根据权利要求5所述的方法, 其特 征在于, 还 包括: 若所述最长公共子序列的长度超过所述企业商户名称长度的一半, 则判断所述候选商 户是否符合以下第二语义 规则: 所述第二语义规则包括: 所述最长公共子序列与所述企业商户名称的长度相同, 或者 所述最长公共子序列与所述次长公共子序列的长度之和与所述企业商户名称的长度相同; 所述候选商户名称包含括号并且括号位于所述企业商户名称之后; 所述候选商户名称中右 括号为最后一个字符;权 利 要 求 书 1/2 页 2 CN 115422355 A 2其中, 所述目标企业商户名称为所述多个候选商户名称中唯一符合所述第 二语义规则 的候选商户名称。 8.根据权利要求2所述的方法, 其特征在于, 还包括, 训练所述商户分类模型的步骤, 包 括: 获取大量商户名称 样本, 使用jieba分词算法对所述商户名称 样本进行分词; 利用词频 ‑逆向文件频率 算法对分词后的所述商户名称 样本进行文本向量 化 将文本向量 化后的所述商户名称 样本按比例划分生成训练集及测试集; 利用所述训练集和所述测试集, 训练xgbo ost分类模型, 得到所述商户分类模型。 9.根据权利要求3所述的方法, 其特征在于, 从所述个人商户名称中提取人名关键词, 还包括: 对所述个人商户名称进行分词; 利用预先训练的词性标注模型对分词后的各个词汇进行词性标注, 所述词性标注至少 包括人名; 提取词性标注为人名的词语作为所述人名关键词。 10.根据权利要求9所述的方法, 其特 征在于, 还 包括: 判断所述词性标注为人名的词语的长度是否小于预设值, 若不是, 则不继续匹配。 11.根据权利要求3所述的方法, 其特征在于, 根据所述人名关键词并利用近似文本算 法从外部数据库提取一个或多个候选商户名称, 还 包括: 利用elasticsearch数据库对所述人名关键词进行模糊查询, 拉取相似度 排序最高前N 个商户名称作为所述 候选商户名称。 12.根据权利要求1所述的方法, 其特征在于, 其中, 所述目标个人商户名称为所述多个 候选商户名称中唯一与所述人名关键词完全匹配的候选商户名称。 13.一种商户名称匹配装置, 其特征在于, 被配置为用于执行如权利要求1 ‑12中任一项 所述的方法, 包括: 候选模块, 根据企业商户名称并利用近似文本算法从外部数据库提取一个或多个候选 商户名称; 提取模块, 用于提取所述企业商户名称和每个所述候选商户名称之间的最长公共子序 列和次长公共子序列; 匹配模块, 用于根据所述最长公共子序列和所述次长公共子序列, 并利用语义规则判 断每个所述候选商户名称的匹配度, 以精确匹配出目标企业商户名称。 14.一种商户名称匹配装置, 其特 征在于, 包括: 至少一个处理器; 以及, 与至少一个处理器通信连接的存储器; 其中, 存储器存储有可 被至少一个处理器执行 的指令, 指令被至少一个处理器执行, 以使至少一个处理器能够执 行: 如权利要求1 ‑12中任一项所述的方法。 15.一种计算机可读存储介质, 所述计算机可读存储介质存储有程序, 当所述程序被多 核处理器执行时, 使得 所述多核处理器执行如权利要求1 ‑12中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115422355 A 3

PDF文档 专利 一种商户名称匹配方法、装置及计算机可读存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种商户名称匹配方法、装置及计算机可读存储介质 第 1 页 专利 一种商户名称匹配方法、装置及计算机可读存储介质 第 2 页 专利 一种商户名称匹配方法、装置及计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:03上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。