(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210515057.X
(22)申请日 2022.05.12
(71)申请人 中国平安财产保险股份有限公司
地址 518000 广东省深圳市福田区益田路
5033号平安金融中心12、 13、 38、 39、 40
层
(72)发明人 涂开欣
(74)专利代理 机构 深圳国新 南方知识产权代理
有限公司 4 4374
专利代理师 周雷
(51)Int.Cl.
G06F 16/2455(2019.01)
G06F 16/215(2019.01)
G06F 16/29(2019.01)
G06F 16/31(2019.01)G06F 16/335(2019.01)
G06F 16/903(2019.01)
G06F 16/909(2019.01)
G06F 40/126(2020.01)
G06F 40/289(2020.01)
(54)发明名称
省市区地址信息匹配方法、 装置、 计算机设
备及存储介质
(57)摘要
本申请涉及地址匹配技术领域, 提供了一种
省市区地址信息匹配方法、 装置、 计算机设备及
存储介质, 其中方法包括: 对地址数据进行标准
化处理, 得到标准化行政区划级别匹配表; 将标
准化行政区划级别匹配表与预先设定的标准化
行政区划级别匹配正则表达式进行匹配, 得到标
准化行政区划级别信息字 符串, 将标准化行政区
划级别信息字符串与待匹配的地址字段进行正
则匹配, 截 取得到待匹配的地址字段的标准化的
省级和/或市级和/或区级信息; 解析出区级信息
的名称并与标准化行政区划级别匹配表进行逐
级向上匹配, 得到补全后地址匹配结果。 本发明
通过正则匹配的方式能够减少待匹配的地址字
段关联次数, 提高大数据的运行效率以及提高数
据饱和率。
权利要求书3页 说明书13页 附图5页
CN 115185986 A
2022.10.14
CN 115185986 A
1.一种省市区地址信息匹配方法, 其特 征在于, 包括:
对地址数据进行 标准化处理, 得到标准 化行政区划级别匹配表;
将所述标准化行政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达
式进行匹配, 得到标准 化行政区划级别 信息字符串;
将所述标准化行政区划级别信 息字符串与待 匹配的地址字段进行正则匹配, 截取得到
所述待匹配的地址 字段的标准 化的省级和/或市级和/或区级信息;
截取所述标准化的省级和/或市级信 息为空而区级信 息匹配成功的标准化行政区划地
址, 解析出所述区级信息的名称, 将所述解析出 的区级信息名称与所述标准化行政区划级
别匹配表进行逐级向上匹配, 得到补全后地址匹配结果, 该匹配结果是与该区级信息名称
关联的省级和市级行政区名称的标准 化行政区划地址 。
2.根据权利要求1所述的省市区地址信 息匹配方法, 其特征在于, 所述对地址数据进行
标准化处理, 得到标准 化行政区划级别匹配表具体包括:
将至少一个地址数据组中的所述 地址数据转 化为数组形式;
对每个数据组中转 化后的数据进行拼接;
将拼接后的数据确定为所述标准 化行政区划级别匹配表。
3.根据权利要求1所述的省市区地址信 息匹配方法, 其特征在于, 所述预先设定的标准
化行政区划级别匹配正则表达式训练过程具体包括:
获取第一训练样本集合和第一测试样本集合, 其中, 第一训练样本和第一测试样本均
包括历史行政区划级别文本和相应的标注行政区划级别 信息序列;
用所述第一训练样本集合中标注行政区划级别信息序列不为空的各第一训练样本生
成第一正样本集 合;
在所述第一 正样本集 合中选取第一 正样本组成第一目标 数目个第一 正样本子集合;
对于所述第 一目标数目个第 一正样本子集合中的每个第 一正样本子集合, 基于该第 一
正样本子集合中各第一 正样本, 生成与该第一 正样本子集合对应的候选正则表达式;
基于所述第一测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个
所生成的候选正则表达式对应的准确率;
将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为所述标准化行
政区划级别匹配正则表达式。
4.根据权利要求1所述的省市区地址信 息匹配方法, 其特征在于, 所述将所述标准化行
政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达式进 行匹配, 得到标准
化行政区划级别 信息字符串之前还 包括:
将数据源中公开的多源地址数据的清洗和去重;
依据地址结构特点构建带有地理属性的地址分级数据库并生成索引文件, 创建地址匹
配索引库;
对地址分级数据库中的地址元素进行编码, 构建基于三叉拼音搜索树的中文地址分词
器, 增加匹配集的二次比对计算, 形成一种基于分词器的匹配引擎;
在地址匹配引擎的基础上 执行正向或逆向的地址匹配。
5.根据权利要求4所述的省市区地址信 息匹配方法, 其特征在于, 所述对地址分级数据
库中的地址元素进行编码, 构建基于三叉拼音搜索树的中文地址分词器, 增加匹配集的二权 利 要 求 书 1/3 页
2
CN 115185986 A
2次比对计算, 形成一种基于分词器的匹配引擎包括:
获取地址数据表, 将所述地址数据表中所包括的地址元素采用词典标签进行标识, 得
到标签地址元 素词典;
获取包括至少一个字的待分词地址, 所述待分词地址中的每个字为待匹配字符, 将所
述标签地址元素词典中与一个或连续多个待匹配字符相同的地址元素作为与待匹配字符
对应的待匹配地址元 素;
执行预设的规则将待 匹配字符采用地址分词标签分别进行标识, 地址分词标签包括待
匹配字符对应的待匹配地址元 素中包括的地址 字符的词典标签;
对待分词地址 中的待匹配字符, 执行预设的规则根据所标识的所述地址分词标签所包
括的所述词典标签进行分词。
6.根据权利要求1所述的省市区地址信 息匹配方法, 其特征在于, 所述截取所述标准化
的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划 地址, 解析出区级信息
的名称, 将所述解析出的区级信息名称与所述标准化行政区划级别匹配表进 行逐级向上匹
配, 得到补全后地址匹配结果, 该匹配结果是与该区级信息名称关联 的省级和市级行政区
名称的标准 化行政区划地址包括:
获取用户输入的地址信息, 得到标准化的省级和/或市级信息为空而区级信息匹配成
功的标准 化行政区划地址;
根据所述区级信息匹配成功的标准 化行政区划地址解析 出所述区级信息的名称;
用获取的所述标准化行政区划匹配表与 所述解析出的区级信 息名称逐级向上匹配, 补
齐所述用户输入的地址信息, 得到补全后地址匹配结果。
7.根据权利要求1所述的省市区地址信 息匹配方法, 其特征在于, 所述截取所述标准化
的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划 地址, 解析出区级信息
的名称, 将所述解析出的区级信息名称与所述标准化行政区划级别匹配表进 行逐级向上匹
配, 得到补全后地址匹配结果, 该匹配结果是与该区级信息名称关联 的省级和市级行政区
名称的标准 化行政区划地址之后还 包括:
用补齐后的地址信息与所述标准 化行政区划匹配表进行匹配;
判断所述补齐后的地址信 息与所述标准化行政区划匹配表是否匹配成功, 匹配成功则
进行高可信度标注, 匹配不成功则进行低可信度标注。
8.一种省市区地址信息匹配装置, 其特 征在于, 其包括:
获取模块, 对地址数据进行 标准化处理, 得到标准 化行政区划级别匹配表;
匹配模块, 将所述标准化行政区划级别匹配表与 预先设定的标准化行政区划级别匹配
正则表达式进行匹配, 得到标准 化行政区划级别 信息字符串;
截取模块, 将所述标准化行政区划级别信息字符串与待匹配的地址字段进行正则匹
配, 截取得到所述待匹配的地址 字段的标准 化的省级和/或市级和/或区级信息;
补全模块, 截取所述标准化的省级和/或市级信息为空而区级信息匹配成功 的标准化
行政区划 地址, 解析出所述区级信息的名称, 将所述解析出 的区级信息名称与所述标准化
行政区划级别匹配表进行逐级向上匹配, 得到补全后地址匹配结果, 该匹配结果是与该区
级信息名称关联的省级和市级行政区名称的标准 化行政区划地址 。
9.一种计算机设备, 其特征在于, 所述计算机设备包括处理器、 与所述处理器耦接的存权 利 要 求 书 2/3 页
3
CN 115185986 A
3
专利 省市区地址信息匹配方法、装置、计算机设备及存储介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 00:16:17上传分享