公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211034458.X (22)申请日 2022.08.26 (71)申请人 中国银联股份有限公司 地址 201203 上海市浦东 新区含笑路36号 (72)发明人 王欣晟 刘维博 杨燚 李洁 (74)专利代理 机构 北京市中伦律师事务所 11410 专利代理师 操寒 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称 一种商户名称匹配方法、 装置及计算机可读 存储介质 (57)摘要 本发明提供了一种商户名称匹配方法、 装置 及计算机可读存储介质, 该方法包括: 根据企业 商户名称并利用近似文本算法从外部数据库提 取一个或多个候选商户名称; 提取 企业商户名称 和每个候选商户名 称之间的最长公共子序列和 次长公共子序列; 根据最长公共子序列和次长公 共子序列, 并利用语义规则判断每个候选商户名 称的匹配度, 以精确匹配出目标企业商户名称。 利用上述方法, 能够更精准实现多数据源的商户 匹配。 权利要求书2页 说明书10页 附图4页 CN 115422355 A 2022.12.02 CN 115422355 A 1.一种商户名称匹配方法, 其特 征在于, 包括: 根据企业商户名称并利用近似文本算法从外 部数据库提取一个或多个候选商户名称; 提取所述企业商户名称和每个所述候选商户名称之间的最长公共子序列和次长公共 子序列; 根据所述最长公共子序列和所述 次长公共子序列, 并利用语义规则判断每个所述候选 商户名称的匹配度, 以精确匹配出目标企业商户名称。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法 之前, 还包括: 获取商户名称, 利用商户分类模型确定所述商户名称的类型, 所述类型包括: 所述企业 商户名称和个人商户名称。 3.根据权利要求2所述的方法, 其特 征在于, 针对所述个人商户名称, 所述方法还 包括: 从所述个人商户名称中提取 人名关键词; 根据所述人名关键词并利用所述近似文本算法从外部数据库提取一个或多个候选商 户名称; 根据所述人名关键词从所述 一个或多个候选商户中精准匹配出目标个人商户名称。 4.根据权利要求1所述的方法, 其特征在于, 根据 所述企业商户名称并利用近似文本算 法从外部数据库提取一个或多个候选商户名称, 还 包括: 利用elasticsearch数据库对所述企业商户名称进行模糊 查询, 拉取相似度排序最高 前N个商户名称作为所述 候选商户名称。 5.根据权利要求1所述的方法, 其特征在于, 根据 所述最长公共子序列和所述 次长公共 子序列, 并利用语义 规则判断每 个所述候选商户名称的匹配度, 还 包括: 判断所述 最长公共子序列长度是否超过 所述企业商户名称长度的一半; 若未超过 所述企业商户名称长度的一半, 则所述 候选商户名称不匹配。 6.根据权利要求5所述的方法, 其特 征在于, 还 包括: 若所述最长公共子序列的长度超过所述企业商户名称长度的一半, 判断所述候选商户 是否符合以下第一语义 规则: 所述第一语义 规则包括: 所述最长公共子序列与所述企业商户名称的长度相同, 或者所述最长公共子序列与 所 述次长公共子序列的长度之和与所述 企业商户名称的长度相同; 所述企业商户名称包含地 址词; 所述候选商户名称去除所述最长公共子序列和所述次长公共子序列之后, 长度小于 预设值和/或包 含设定关键词; 其中, 所述目标企业商户名称为所述多个候选商户名称中唯一符合所述第 一语义规则 的候选商户名称。 7.根据权利要求5所述的方法, 其特 征在于, 还 包括: 若所述最长公共子序列的长度超过所述企业商户名称长度的一半, 则判断所述候选商 户是否符合以下第二语义 规则: 所述第二语义规则包括: 所述最长公共子序列与所述企业商户名称的长度相同, 或者 所述最长公共子序列与所述次长公共子序列的长度之和与所述企业商户名称的长度相同; 所述候选商户名称包含括号并且括号位于所述企业商户名称之后; 所述候选商户名称中右 括号为最后一个字符;权 利 要 求 书 1/2 页 2 CN 115422355 A 2其中, 所述目标企业商户名称为所述多个候选商户名称中唯一符合所述第 二语义规则 的候选商户名称。 8.根据权利要求2所述的方法, 其特征在于, 还包括, 训练所述商户分类模型的步骤, 包 括: 获取大量商户名称 样本, 使用jieba分词算法对所述商户名称 样本进行分词; 利用词频 ‑逆向文件频率 算法对分词后的所述商户名称 样本进行文本向量 化 将文本向量 化后的所述商户名称 样本按比例划分生成训练集及测试集; 利用所述训练集和所述测试集, 训练xgbo ost分类模型, 得到所述商户分类模型。 9.根据权利要求3所述的方法, 其特征在于, 从所述个人商户名称中提取人名关键词, 还包括: 对所述个人商户名称进行分词; 利用预先训练的词性标注模型对分词后的各个词汇进行词性标注, 所述词性标注至少 包括人名; 提取词性标注为人名的词语作为所述人名关键词。 10.根据权利要求9所述的方法, 其特 征在于, 还 包括: 判断所述词性标注为人名的词语的长度是否小于预设值, 若不是, 则不继续匹配。 11.根据权利要求3所述的方法, 其特征在于, 根据所述人名关键词并利用近似文本算 法从外部数据库提取一个或多个候选商户名称, 还 包括: 利用elasticsearch数据库对所述人名关键词进行模糊查询, 拉取相似度 排序最高前N 个商户名称作为所述 候选商户名称。 12.根据权利要求1所述的方法, 其特征在于, 其中, 所述目标个人商户名称为所述多个 候选商户名称中唯一与所述人名关键词完全匹配的候选商户名称。 13.一种商户名称匹配装置, 其特征在于, 被配置为用于执行如权利要求1 ‑12中任一项 所述的方法, 包括: 候选模块, 根据企业商户名称并利用近似文本算法从外部数据库提取一个或多个候选 商户名称; 提取模块, 用于提取所述企业商户名称和每个所述候选商户名称之间的最长公共子序 列和次长公共子序列; 匹配模块, 用于根据所述最长公共子序列和所述次长公共子序列, 并利用语义规则判 断每个所述候选商户名称的匹配度, 以精确匹配出目标企业商户名称。 14.一种商户名称匹配装置, 其特 征在于, 包括: 至少一个处理器; 以及, 与至少一个处理器通信连接的存储器; 其中, 存储器存储有可 被至少一个处理器执行 的指令, 指令被至少一个处理器执行, 以使至少一个处理器能够执 行: 如权利要求1 ‑12中任一项所述的方法。 15.一种计算机可读存储介质, 所述计算机可读存储介质存储有程序, 当所述程序被多 核处理器执行时, 使得 所述多核处理器执行如权利要求1 ‑12中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115422355 A 3
专利 一种商户名称匹配方法、装置及计算机可读存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:03
上传分享
举报
下载
原文档
(768.9 KB)
分享
友情链接
DB51-T 2247-2016 重点用能单位节能管理规范 四川省.pdf
BB-T 0083-2021 食品包装容器用聚乙烯发泡垫片.pdf
GB-T 4356-2016 不锈钢盘条.pdf
GB-T 9813.3-2017 计算机通用规范 第3部分:服务器.pdf
LY-T 3196-2020 竹林碳计量规程.pdf
GB-T 567.4-2012 爆破片安全装置 第4部分:型式试验.pdf
DB34-T 3906-2021 基层防汛监测预警系统集成规范 安徽省.pdf
GB-T 3190-2020 变形铝及铝合金化学成分.pdf
T-CESA 1040—2019 信息技术 人工智能 面向机器学习的数据标注规程.pdf
NB-T 11240-2023 空气源热泵干燥系统节能量和减排量计算方法.pdf
GB-T 35799-2018 化妆品中吡咯烷酮羧酸钠的测定 高效液相色谱法.pdf
DB51-T 2829-2021 暴雨洪涝灾害风险评估技术规范 四川省.pdf
GB-T 38530-2020 城镇液化天然气 LNG 气化供气装置.pdf
SL-T 813-2021 规划水资源论证技术导则.pdf
亿格云 陈吴栋 零信任SASE 助力数字化企业建立多云安全访问体系.pdf
GB-T 15920-2010 海洋学术语 物理海洋学.pdf
GB/T 40581-2021 电力系统安全稳定计算规范.pdf
GB 29436.4-2015 甲醇单位产品能源消耗限额 第4部分:焦炉煤气制甲醇.pdf
GB-T 37580-2019 聚乙烯 PE 埋地燃气管道腐蚀控制工程全生命周期要求.pdf
GB-T 40813-2021 信息安全技术 工业控制系统安全防护技术要求和测试评价方法.pdf
交流群
-->
1
/
17
评价文档
赞助2元 点击下载(768.9 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。