(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210929735.7
(22)申请日 2022.08.04
(65)同一申请的已公布的文献号
申请公布号 CN 114997147 A
(43)申请公布日 2022.09.02
(73)专利权人 深圳依时货拉 拉科技有限公司
地址 518000 广东省深圳市福田区梅林街
道梅丰社区梅华路105号多丽工业区
科技楼3层3 07
(72)发明人 孙迎雪 赵骥
(74)专利代理 机构 深圳瑞天谨诚知识产权代理
有限公司 4 4340
专利代理师 温青玲
(51)Int.Cl.
G06F 40/232(2020.01)
G06F 40/216(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)G06F 16/9532(2019.01)
G06F 16/9537(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 114169331 A,202 2.03.11
CN 113705203 A,2021.1 1.26
CN 114116692 A,2022.03.01
CN 112784582 A,2021.0 5.11
WO 2022134356 A1,202 2.06.30
US 2021326 525 A1,2021.10.21
US 20213743 34 A1,2021.12.02
US 2021141798 A1,2021.0 5.13
US 2019228763 A1,2019.07.25
CN 110196894 A,2019.09.0 3
陈智鹏等.基 于N-gram统计模型的搜索引擎
中文纠错. 《中国电子科 学研究院学报》 .20 09,
(第03期),
审查员 邹盼盼
(54)发明名称
基于混合MASK的POI地址纠错方法、 装置、 存
储介质和设备
(57)摘要
本发明提供一种基于混合MASK的POI地址纠
错方法, 包括: 获取用户输入的POI地址信息; 将
POI地址信息通过映射转换为ID序列; 判断是否
对ID序列进行掩码; 若是, 以p1概率将ID序列中
的一个字符替换为MASK, 或以1 ‑p1概率将ID序列
中的至少两个字符替换为MASK, 其中至少两个字
符为一个实体词语的概率为p2; 若否, 保持ID序
列不变; 根据保持不变的ID序列或掩码后的ID序
列, 并基于预先训练生成的纠错模型, 得到纠错
后的POI地址信息。 该方法通过对POI地址信息进
行预处理、 序列化、 基于混合MASK机制掩码, 并通
过纠错模型完成纠错, 混合MASK机制掩码方式扩
大了纠错面, 提升容错率, 有效保证纠错准确率,进而可以提升货运应用场景相关的POI地址信息
召回能力, 满足用户检索需求。
权利要求书2页 说明书10页 附图3页
CN 114997147 B
2022.11.04
CN 114997147 B
1.一种基于混合MASK的POI 地址纠错方法, 其特 征在于, 包括:
获取用户输入的POI 地址信息;
将所述POI 地址信息通过映射 转换为ID序列;
根据基于rand()函数生成的第一随机数和对所述ID序列进行掩码的概率, 其中, 所述
对所述ID序列进 行掩码的概率指的是 统计分析有需要纠错的检索查询内容占比, 该占比即
为对检索查询内容进行掩码的概率; 判断是否对所述ID序列进行掩码; 若生成的第一随机
数小于该对所述ID序列进行掩码的概率, 则需要对所述ID序列进行掩码, 以p1概率将所述
ID序列中的一个字符替换为MASK, 或以1 ‑p1概率将所述ID序列中的至少两个字符替换为
MASK, 其中, 统计分析有单字错误、 二字错误和多字错误的占比, 基于上述占比设定对不同
数量字符进行掩码的概率, 将所述ID序列中的一个字符替换为MASK的概率为p1, 将所述ID
序列中的至少两个字 符替换为MASK的概率为 1‑p1, 所述至少两个字 符为一个实体词语的概
率为p2; 若生成的第一随机数不小于该对所述ID序列进行掩码的概率, 则不需要对所述ID
序列进行掩码, 保持所述 ID序列不变;
根据保持不变的ID序列或掩码后的ID序列, 并基于预先训练生成的纠错模型, 得到纠
错后的POI 地址信息;
其中, 所述以1 ‑p1概率将所述ID序列中的至少两个字符替换为MASK, 其中所述至少两
个字符为实体词语的概率为p2, 包括: 对于要将 至少两个字 符替换为MASK的ID序列, 以1 ‑p2
概率将其中的任意两个字符替换为MASK, 或以p2概 率将其中的一个实体词语替换为MASK。
2.根据权利要求1所述的POI地址纠错方法, 其特征在于, 所述以p2概率将其中的一个
实体词语替换为MASK, 包括:
对于要将其中的一个实体词语替换为MASK的ID序列, 先确认该ID序列中要被替换为
MASK的一个字符, 判断该字符与其前后两位字符中是否存在与预设POI地址词表匹配的实
体词语, 若是, 将包括该字符 的实体词语替换为MASK, 若否, 将该字符与其前一位字符或该
字符与其后一 位字符所构成的词语作为实体词语替换为MASK。
3.根据权利 要求2所述的P OI地址纠错方法, 其特征在于, 所述预设POI地址词 表通过以
下步骤预 先生成:
获取历史用户检索POI 地址信息时的历史使用数据;
从所述历史使用数据中提取POI 拼接字段;
对所述POI 拼接字段进行分词和词频统计, 得到多个实体词语及对应的词频;
根据所述词频 大小排在前 预设占比的实体词语, 生成预设POI 地址词表。
4.根据权利要求1所述的POI地址纠错方法, 其特征在于, 所述根据保持不变的ID序列
或掩码后的ID序列, 并基于预 先训练生成的纠错模型, 得到纠错后的POI 地址信息, 包括:
获取城市信息编码;
将所述城市信 息编码与保持不变的ID序列或掩码后的ID序列进行拼接, 得到拼接后的
序列;
根据拼接后的序列, 并基于预 先训练生成的纠错模型, 得到纠错后的POI 地址信息 。
5.根据权利要求4所述的POI地址纠错方法, 其特征在于, 所述根据拼接后的序列, 并基
于预先训练生成的纠错模型, 得到纠错后的POI 地址信息, 包括:
在拼接后的序列中, 将掩码后的ID序列中被替换为MASK的字符替换为对应的预设字权 利 要 求 书 1/2 页
2
CN 114997147 B
2集, 通过映射 转换得到最终拼接序列;
将所述最终拼接序列输入预 先训练生成的纠错模型, 得到纠错后的POI 地址信息 。
6.根据权利要求1至5任一项所述的POI地址纠错方法, 其特征在于, 所述纠错模型为基
于多头注意力机制的BP神经网络模型。
7.一种基于混合MASK的POI 地址纠错装置, 其特 征在于, 包括:
地址信息获取模块, 用于获取用户输入的POI 地址信息;
序列化模块, 用于将所述POI 地址信息通过映射 转换为ID序列;
混合MASK模块, 用于根据基于rand()函数生 成的第一随机数和对 所述ID序列进行掩码
的概率, 其中, 所述对所述ID序列进行掩码的概率指的是统计分析有需要纠错的检索查询
内容占比, 该占比即为对检索查询内容进 行掩码的概率; 判断是否对所述ID序列进 行掩码;
若生成的第一随机数小于该对所述ID序列进行掩码的概率, 则需要对所述ID序列进行掩
码, 以p1概率将所述ID序列中的一个字符替换为MASK, 或以1 ‑p1概率将所述ID序列中的至
少两个字符替换为MASK, 其中, 统计分析有单字错误、 二字错误和多字错误的占比, 基于上
述占比设定对不同数量字 符进行掩码的概率, 将所述ID序列中的一个字 符替换为MASK的概
率为p1, 将所述ID序列中的至少两个字符替换为MASK的概率为1 ‑p1, 所述至少两个字符为
一个实体词语的概率为p2; 若生成的第一随机数不小于该对所述ID序列进行掩码的概率,
则不需要对 所述ID序列进行掩码, 保持所述ID序列不变; 其中, 所述以1 ‑p1概率将所述ID序
列中的至少两个字 符替换为MASK, 所述至少两个字符为一个实体词语的概率为p2, 包括: 对
于要将至少两个字符替换为MASK的ID序列, 以1 ‑p2概率将其中的任意两个字符替换为
MASK, 或以p2概 率将其中的一个实体词语替换为MASK;
模型纠错模块, 用于根据保持不变的ID序列或掩码后的ID序列, 并基于预先训练生成
的纠错模型, 得到纠错后的POI 地址信息 。
8.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机
程序, 所述计算机程序被处理器执行时实现权利要求1至6任一项所述的基于混合MASK的
POI地址纠错方法。
9.一种计算机设备, 其特 征在于, 其包括:
一个或多个处 理器;
存储器;
一个或多个计算机程序, 其中所述一个或多个计算机程序被存储在所述存储器中并被
配置为由所述一个或多个处理器执行, 所述一个或多个计算机程序配置用于: 执行根据权
利要求1至 6任一项所述的基于混合MASK的POI 地址纠错方法。权 利 要 求 书 2/2 页
3
CN 114997147 B
3
专利 基于混合MASK的POI地址纠错方法、装置、存储介质和设备
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:18上传分享