专利 基于混合MASK的POI地址纠错方法、装置、存储介质和设备

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210929735.7 (22)申请日 2022.08.04 (65)同一申请的已公布的文献号申请公布号 CN 114997147 A (43)申请公布日 2022.09.02 (73)专利权人深圳依时货拉拉科技有限公司地址 518000 广东省深圳市福田区梅林街道梅丰社区梅华路105号多丽工业区科技楼3层3 07 (72)发明人孙迎雪　赵骥　 (74)专利代理机构深圳瑞天谨诚知识产权代理有限公司 4 4340 专利代理师温青玲 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06F 16/9532(2019.01) G06F 16/9537(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 114169331 A,202 2.03.11 CN 113705203 A,2021.1 1.26 CN 114116692 A,2022.03.01 CN 112784582 A,2021.0 5.11 WO 2022134356 A1,202 2.06.30 US 2021326 525 A1,2021.10.21 US 20213743 34 A1,2021.12.02 US 2021141798 A1,2021.0 5.13 US 2019228763 A1,2019.07.25 CN 110196894 A,2019.09.0 3 陈智鹏等.基于N-gram统计模型的搜索引擎中文纠错. 《中国电子科学研究院学报》 .20 09, (第03期), 审查员邹盼盼 (54)发明名称基于混合MASK的POI地址纠错方法、装置、存储介质和设备 (57)摘要本发明提供一种基于混合MASK的POI地址纠错方法，包括：获取用户输入的POI地址信息；将 POI地址信息通过映射转换为ID序列；判断是否对ID序列进行掩码；若是，以p1概率将ID序列中的一个字符替换为MASK，或以1 ‑p1概率将ID序列中的至少两个字符替换为MASK，其中至少两个字符为一个实体词语的概率为p2；若否，保持ID序列不变；根据保持不变的ID序列或掩码后的ID序列，并基于预先训练生成的纠错模型，得到纠错后的POI地址信息。该方法通过对POI地址信息进行预处理、序列化、基于混合MASK机制掩码，并通过纠错模型完成纠错，混合MASK机制掩码方式扩大了纠错面，提升容错率，有效保证纠错准确率，进而可以提升货运应用场景相关的POI地址信息召回能力，满足用户检索需求。权利要求书2页说明书10页附图3页 CN 114997147 B 2022.11.04 CN 114997147 B 1.一种基于混合MASK的POI 地址纠错方法，其特征在于，包括：获取用户输入的POI 地址信息；将所述POI 地址信息通过映射转换为ID序列；根据基于rand()函数生成的第一随机数和对所述ID序列进行掩码的概率，其中，所述对所述ID序列进行掩码的概率指的是统计分析有需要纠错的检索查询内容占比，该占比即为对检索查询内容进行掩码的概率；判断是否对所述ID序列进行掩码；若生成的第一随机数小于该对所述ID序列进行掩码的概率，则需要对所述ID序列进行掩码，以p1概率将所述 ID序列中的一个字符替换为MASK，或以1 ‑p1概率将所述ID序列中的至少两个字符替换为 MASK，其中，统计分析有单字错误、二字错误和多字错误的占比，基于上述占比设定对不同数量字符进行掩码的概率，将所述ID序列中的一个字符替换为MASK的概率为p1，将所述ID 序列中的至少两个字符替换为MASK的概率为 1‑p1，所述至少两个字符为一个实体词语的概率为p2；若生成的第一随机数不小于该对所述ID序列进行掩码的概率，则不需要对所述ID 序列进行掩码，保持所述 ID序列不变；根据保持不变的ID序列或掩码后的ID序列，并基于预先训练生成的纠错模型，得到纠错后的POI 地址信息；其中，所述以1 ‑p1概率将所述ID序列中的至少两个字符替换为MASK，其中所述至少两个字符为实体词语的概率为p2，包括：对于要将至少两个字符替换为MASK的ID序列，以1 ‑p2 概率将其中的任意两个字符替换为MASK，或以p2概率将其中的一个实体词语替换为MASK。 2.根据权利要求1所述的POI地址纠错方法，其特征在于，所述以p2概率将其中的一个实体词语替换为MASK，包括：对于要将其中的一个实体词语替换为MASK的ID序列，先确认该ID序列中要被替换为 MASK的一个字符，判断该字符与其前后两位字符中是否存在与预设POI地址词表匹配的实体词语，若是，将包括该字符的实体词语替换为MASK，若否，将该字符与其前一位字符或该字符与其后一位字符所构成的词语作为实体词语替换为MASK。 3.根据权利要求2所述的P OI地址纠错方法，其特征在于，所述预设POI地址词表通过以下步骤预先生成：获取历史用户检索POI 地址信息时的历史使用数据；从所述历史使用数据中提取POI 拼接字段；对所述POI 拼接字段进行分词和词频统计，得到多个实体词语及对应的词频；根据所述词频大小排在前预设占比的实体词语，生成预设POI 地址词表。 4.根据权利要求1所述的POI地址纠错方法，其特征在于，所述根据保持不变的ID序列或掩码后的ID序列，并基于预先训练生成的纠错模型，得到纠错后的POI 地址信息，包括：获取城市信息编码；将所述城市信息编码与保持不变的ID序列或掩码后的ID序列进行拼接，得到拼接后的序列；根据拼接后的序列，并基于预先训练生成的纠错模型，得到纠错后的POI 地址信息。 5.根据权利要求4所述的POI地址纠错方法，其特征在于，所述根据拼接后的序列，并基于预先训练生成的纠错模型，得到纠错后的POI 地址信息，包括：在拼接后的序列中，将掩码后的ID序列中被替换为MASK的字符替换为对应的预设字权　利　要　求　书 1/2 页 2 CN 114997147 B 2集，通过映射转换得到最终拼接序列；将所述最终拼接序列输入预先训练生成的纠错模型，得到纠错后的POI 地址信息。 6.根据权利要求1至5任一项所述的POI地址纠错方法，其特征在于，所述纠错模型为基于多头注意力机制的BP神经网络模型。 7.一种基于混合MASK的POI 地址纠错装置，其特征在于，包括：地址信息获取模块，用于获取用户输入的POI 地址信息；序列化模块，用于将所述POI 地址信息通过映射转换为ID序列；混合MASK模块，用于根据基于rand()函数生成的第一随机数和对所述ID序列进行掩码的概率，其中，所述对所述ID序列进行掩码的概率指的是统计分析有需要纠错的检索查询内容占比，该占比即为对检索查询内容进行掩码的概率；判断是否对所述ID序列进行掩码；若生成的第一随机数小于该对所述ID序列进行掩码的概率，则需要对所述ID序列进行掩码，以p1概率将所述ID序列中的一个字符替换为MASK，或以1 ‑p1概率将所述ID序列中的至少两个字符替换为MASK，其中，统计分析有单字错误、二字错误和多字错误的占比，基于上述占比设定对不同数量字符进行掩码的概率，将所述ID序列中的一个字符替换为MASK的概率为p1，将所述ID序列中的至少两个字符替换为MASK的概率为1 ‑p1，所述至少两个字符为一个实体词语的概率为p2；若生成的第一随机数不小于该对所述ID序列进行掩码的概率，则不需要对所述ID序列进行掩码，保持所述ID序列不变；其中，所述以1 ‑p1概率将所述ID序列中的至少两个字符替换为MASK，所述至少两个字符为一个实体词语的概率为p2，包括：对于要将至少两个字符替换为MASK的ID序列，以1 ‑p2概率将其中的任意两个字符替换为 MASK，或以p2概率将其中的一个实体词语替换为MASK；模型纠错模块，用于根据保持不变的ID序列或掩码后的ID序列，并基于预先训练生成的纠错模型，得到纠错后的POI 地址信息。 8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的基于混合MASK的 POI地址纠错方法。 9.一种计算机设备，其特征在于，其包括：一个或多个处理器；存储器；一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于：执行根据权利要求1至 6任一项所述的基于混合MASK的POI 地址纠错方法。权　利　要　求　书 2/2 页 3 CN 114997147 B 3

专利 基于混合MASK的POI地址纠错方法、装置、存储介质和设备

专利基于混合MASK的POI地址纠错方法、装置、存储介质和设备