公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210926115.8 (22)申请日 2022.08.03 (71)申请人 杭州摸象大 数据科技有限公司 地址 311121 浙江省杭州市余杭区仓前街 道海智中心6号楼1单 元201-1 (72)发明人 高鹏 康维鹏 袁兰 吴飞  周伟华 高峰 潘晶  (74)专利代理 机构 杭州知学知识产权代理事务 所(普通合伙) 33356 专利代理师 张雯 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/30(2020.01) G06F 40/253(2020.01) G06F 16/33(2019.01) (54)发明名称 语音拼写纠错方法、 装置、 计算机设备及存 储介质 (57)摘要 本发明实施例公开了语音拼写纠错方法、 装 置、 计算机设备及存储介质。 所述方法包括: 获取 输入的文本内容, 以得到待纠错文本; 对所述待 纠错文本进行错误位置的探测, 以得到探测结 果; 对所述探测结果根据音形态确定纠错候选 词; 根据所述纠错候选词以及 待纠错文本确定拼 写纠错序列结果; 输出所述拼写纠错序列结果。 通过实施本发明实施例的方法可实现能将所有 的拼写错 误内容完全识别并指出, 纠错能力佳。 权利要求书2页 说明书12页 附图10页 CN 115481620 A 2022.12.16 CN 115481620 A 1.语音拼写纠错方法, 其特 征在于, 包括: 获取输入的文本内容, 以得到待纠错文本; 对所述待纠错文本进行错 误位置的探测, 以得到 探测结果; 对所述探测结果 根据音形态确定纠错 候选词; 根据所述纠错 候选词以及待纠错文本确定拼写纠错序列结果; 输出所述拼写纠错序列结果。 2.根据权利要求1所述的语音拼写纠错方法, 其特征在于, 所述对所述待纠错文本进行 错误位置的探测, 以得到 探测结果, 包括: 对所述待纠错文本进行分词处 理, 以得到分词结果; 将所述分词结果输入语言模型内进行语义信息编码处 理, 以得到编码结果; 对所述编码结果进行 上下文结构分析, 以得到位置序列化语义结果; 对所述位置序列化语义结果进行拼写错 误探测分类识别, 以得到 探测结果。 3.根据权利要求1所述的语音拼写纠错方法, 其特征在于, 所述对所述位置序列化语义 结果进行拼写错 误探测分类识别, 以得到 探测结果, 包括: 将所述位置序列化语义结果的前后若干个词语作为上下文语境进行分类识别, 所述位 置序列化语义结果的前后若干个词语的数量不足设定数, 则利用零补齐, 形成位置序列化 语义结果; 将所述位置序列 化语义结果输入层感知机 网络, 并套用Sigmoid进行分类, 以确定所述 位置序列化语义结果对应的词语是否有误, 以得到 探测结果。 4.根据权利要求3所述的语音拼写纠错方法, 其特征在于, 所述对所述探测结果根据音 形态确定纠错 候选词, 包括: 将所述探测结果对应的词语转 化为拼音; 根据所述 拼音确定拼音纠错词汇候选集; 根据所述探测结果对应的词语按照字形态确定形近 字候选集; 整合所述 拼音纠错词汇候选集以及所述形近 字候选集, 以得到纠错 候选词。 5.根据权利要求4所述的语音拼写纠错方法, 其特征在于, 所述根据所述探测结果对应 的词语按照字形态确定形近 字候选集, 包括: 对所述探测结果对应的词语采用OCR识别技 术确定汉字形近 字, 以得到形近 字候选集。 6.根据权利要求1所述的语音拼写纠错方法, 其特征在于, 所述根据所述纠错候选词以 及待纠错文本确定拼写纠错序列结果, 包括: 对所述待纠错文本中所述探测结果对应位置的原始错误词语确定符合要求的纠错候 选词, 并进行向量 化表示, 以得到量 化结果; 对所述待纠错文本进行语义编码, 且将所述待纠错文本中所述探测结果对应位置的前 后若干个位置的词语拼接成矩阵, 以得到上 下文向量; 对所述上下文向量采用双仿射网络Biaffine计算当前位置上每个纠错候选词与下文 向量计算搭配对齐分值, 以得到局部最佳纠错词语; 判断所述局部最佳纠错词语与待纠 错文本中所述探测结果对应位置的词语的局部纠 错分值的差值是否小于阈值; 若所述局部最佳纠错词语与待纠错文本中所述探测结果对应位置的词语的局部纠错权 利 要 求 书 1/2 页 2 CN 115481620 A 2分值的差值小于阈值, 则对于局部最佳纠错词语到待纠错文本中所述探测结果对应位置的 词语之间的所有词语, 将每个位置上的局部最佳纠错词语进行向量叠加, 采用Bert计算新 的上下文矩阵向量, 并进一步采用双仿射网络Biaffine计算每个细分候选词语的语义对齐 搭配分值, 并选择最高分值对应的纠错 候选词, 以得到拼写纠错序列结果。 7.根据权利要求6所述的语音拼写纠错方法, 其特征在于, 所述判断所述局部最佳纠错 词语与待纠错文本中所述探测结果对应位置的词语的局部纠错分值的差值是否小于阈值 之后, 包括: 若所述局部最佳纠错词语与待纠错文本中所述探测结果对应位置的词语的局部纠错 分值的差值不小于阈值, 则当局部最佳纠错词语是待纠错文本中所述探测结果对应位置的 词语, 则确定所述探测结果对应位置的词语为原 始词语。 8.语音拼写纠错装置, 其特 征在于, 包括: 文本获取 单元, 用于获取输入的文本内容, 以得到待纠错文本; 错误探测单 元, 用于对所述待纠错文本进行错 误位置的探测, 以得到 探测结果; 候选词确定单 元, 用于对所述探测结果 根据音形态确定纠错 候选词; 结果确定单 元, 用于根据所述纠错 候选词以及待纠错文本确定拼写纠错序列结果; 输出单元, 用于输出所述拼写纠错序列结果。 9.一种计算机设备, 其特征在于, 所述计算机设备包括存储器及处理器, 所述存储器上 存储有计算机程序, 所述处理器执行所述计算机程序时实现如权利要求 1至7中任一项所述 的方法。 10.一种存储介质, 其特征在于, 所述存储介质存储有计算机程序, 所述计算机程序被 处理器执行时实现如权利要求1至7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115481620 A 3

PDF文档 专利 语音拼写纠错方法、装置、计算机设备及存储介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语音拼写纠错方法、装置、计算机设备及存储介质 第 1 页 专利 语音拼写纠错方法、装置、计算机设备及存储介质 第 2 页 专利 语音拼写纠错方法、装置、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:20上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。