专利 省市区地址信息匹配方法、装置、计算机设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210515057.X (22)申请日 2022.05.12 (71)申请人中国平安财产保险股份有限公司地址 518000 广东省深圳市福田区益田路 5033号平安金融中心12、 13、 38、 39、 40 层 (72)发明人涂开欣　 (74)专利代理机构深圳国新南方知识产权代理有限公司 4 4374 专利代理师周雷 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/215(2019.01) G06F 16/29(2019.01) G06F 16/31(2019.01)G06F 16/335(2019.01) G06F 16/903(2019.01) G06F 16/909(2019.01) G06F 40/126(2020.01) G06F 40/289(2020.01) (54)发明名称省市区地址信息匹配方法、装置、计算机设备及存储介质 (57)摘要本申请涉及地址匹配技术领域，提供了一种省市区地址信息匹配方法、装置、计算机设备及存储介质，其中方法包括：对地址数据进行标准化处理，得到标准化行政区划级别匹配表；将标准化行政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串，将标准化行政区划级别信息字符串与待匹配的地址字段进行正则匹配，截取得到待匹配的地址字段的标准化的省级和/或市级和/或区级信息；解析出区级信息的名称并与标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果。本发明通过正则匹配的方式能够减少待匹配的地址字段关联次数，提高大数据的运行效率以及提高数据饱和率。权利要求书3页说明书13页附图5页 CN 115185986 A 2022.10.14 CN 115185986 A 1.一种省市区地址信息匹配方法，其特征在于，包括：对地址数据进行标准化处理，得到标准化行政区划级别匹配表；将所述标准化行政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串；将所述标准化行政区划级别信息字符串与待匹配的地址字段进行正则匹配，截取得到所述待匹配的地址字段的标准化的省级和/或市级和/或区级信息；截取所述标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址，解析出所述区级信息的名称，将所述解析出的区级信息名称与所述标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址。 2.根据权利要求1所述的省市区地址信息匹配方法，其特征在于，所述对地址数据进行标准化处理，得到标准化行政区划级别匹配表具体包括：将至少一个地址数据组中的所述地址数据转化为数组形式；对每个数据组中转化后的数据进行拼接；将拼接后的数据确定为所述标准化行政区划级别匹配表。 3.根据权利要求1所述的省市区地址信息匹配方法，其特征在于，所述预先设定的标准化行政区划级别匹配正则表达式训练过程具体包括：获取第一训练样本集合和第一测试样本集合，其中，第一训练样本和第一测试样本均包括历史行政区划级别文本和相应的标注行政区划级别信息序列；用所述第一训练样本集合中标注行政区划级别信息序列不为空的各第一训练样本生成第一正样本集合；在所述第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合；对于所述第一目标数目个第一正样本子集合中的每个第一正样本子集合，基于该第一正样本子集合中各第一正样本，生成与该第一正样本子集合对应的候选正则表达式；基于所述第一测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率；将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为所述标准化行政区划级别匹配正则表达式。 4.根据权利要求1所述的省市区地址信息匹配方法，其特征在于，所述将所述标准化行政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串之前还包括：将数据源中公开的多源地址数据的清洗和去重；依据地址结构特点构建带有地理属性的地址分级数据库并生成索引文件，创建地址匹配索引库；对地址分级数据库中的地址元素进行编码，构建基于三叉拼音搜索树的中文地址分词器，增加匹配集的二次比对计算，形成一种基于分词器的匹配引擎；在地址匹配引擎的基础上执行正向或逆向的地址匹配。 5.根据权利要求4所述的省市区地址信息匹配方法，其特征在于，所述对地址分级数据库中的地址元素进行编码，构建基于三叉拼音搜索树的中文地址分词器，增加匹配集的二权　利　要　求　书 1/3 页 2 CN 115185986 A 2次比对计算，形成一种基于分词器的匹配引擎包括：获取地址数据表，将所述地址数据表中所包括的地址元素采用词典标签进行标识，得到标签地址元素词典；获取包括至少一个字的待分词地址，所述待分词地址中的每个字为待匹配字符，将所述标签地址元素词典中与一个或连续多个待匹配字符相同的地址元素作为与待匹配字符对应的待匹配地址元素；执行预设的规则将待匹配字符采用地址分词标签分别进行标识，地址分词标签包括待匹配字符对应的待匹配地址元素中包括的地址字符的词典标签；对待分词地址中的待匹配字符，执行预设的规则根据所标识的所述地址分词标签所包括的所述词典标签进行分词。 6.根据权利要求1所述的省市区地址信息匹配方法，其特征在于，所述截取所述标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址，解析出区级信息的名称，将所述解析出的区级信息名称与所述标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址包括：获取用户输入的地址信息，得到标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址；根据所述区级信息匹配成功的标准化行政区划地址解析出所述区级信息的名称；用获取的所述标准化行政区划匹配表与所述解析出的区级信息名称逐级向上匹配，补齐所述用户输入的地址信息，得到补全后地址匹配结果。 7.根据权利要求1所述的省市区地址信息匹配方法，其特征在于，所述截取所述标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址，解析出区级信息的名称，将所述解析出的区级信息名称与所述标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址之后还包括：用补齐后的地址信息与所述标准化行政区划匹配表进行匹配；判断所述补齐后的地址信息与所述标准化行政区划匹配表是否匹配成功，匹配成功则进行高可信度标注，匹配不成功则进行低可信度标注。 8.一种省市区地址信息匹配装置，其特征在于，其包括：获取模块，对地址数据进行标准化处理，得到标准化行政区划级别匹配表；匹配模块，将所述标准化行政区划级别匹配表与预先设定的标准化行政区划级别匹配正则表达式进行匹配，得到标准化行政区划级别信息字符串；截取模块，将所述标准化行政区划级别信息字符串与待匹配的地址字段进行正则匹配，截取得到所述待匹配的地址字段的标准化的省级和/或市级和/或区级信息；补全模块，截取所述标准化的省级和/或市级信息为空而区级信息匹配成功的标准化行政区划地址，解析出所述区级信息的名称，将所述解析出的区级信息名称与所述标准化行政区划级别匹配表进行逐级向上匹配，得到补全后地址匹配结果，该匹配结果是与该区级信息名称关联的省级和市级行政区名称的标准化行政区划地址。 9.一种计算机设备，其特征在于，所述计算机设备包括处理器、与所述处理器耦接的存权　利　要　求　书 2/3 页 3 CN 115185986 A 3

专利 省市区地址信息匹配方法、装置、计算机设备及存储介质

专利省市区地址信息匹配方法、装置、计算机设备及存储介质