公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210936837.1 (22)申请日 2022.08.05 (71)申请人 东北大学 地址 110819 辽宁省沈阳市和平区文化路3 号巷11号 (72)发明人 张琳 韩春燕 任涛  (74)专利代理 机构 沈阳东大知识产权代理有限 公司 21109 专利代理师 李珉 (51)Int.Cl. G06F 40/253(2020.01) G06F 40/232(2020.01) G06F 40/247(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种针对中文 文本校对的数据增强方法 (57)摘要 本发明提供一种针对中文文本校对的数据 增强方法, 涉及人工智 能技术领域。 该方法通过 序列标注模型判断正确的源语句中易发生错误 的位置与类型, 弥补当前方法随机选择错误位置 与错误类型的缺陷, 使数据更加贴近现有的训练 数据; 在生成多字错误中添加了使用模型BERT 生 成的语法错误数据, 使生 成的错误句语义相关性 更强; 在生成拼写错误的过程中添加了用模型 BERT生成的语 法错误数据, 模拟写作中词汇选 择 错误的情形; 同时, 考虑了现实录入过程中, 使用 键盘录入文字时按错键产生的拼写错误; 生成的 伪数据包含常见的语法错误类型, 可在一定程度 上提升语 法纠错模型和拼写纠错模 型的健壮性, 使模型学习到更加多样且与真实数据相近的错 误语句特 征。 权利要求书2页 说明书7页 附图2页 CN 115310433 A 2022.11.08 CN 115310433 A 1.一种针对中文 文本校对的数据增强方法, 其特 征在于: 根据语句中标点符号, 对输入序列标注模型和BERT模型的语句进行分句; 将分句后的语句作为源语句输入序列标注模型; 获取序列标注模型对 源语句的标识结果; 根据序列标注模型 标识的不同错 误类型, 对 源语句进行相应错 误类型的处 理; 在所有标记字符皆被处理后, 对处理结果进行合并, 得到最后生成的带有语法错误的 错误语句; 过滤掉不符合要求的错 误语句。 2.根据权利要求1所述的一种针对中文文本校对的数据增强方法, 其特征在于: 所述序 列标注模型根据已训练好的模型参数完成前向传播过程, 并根据模型得出 的置信度, 输出 源语句中易产生 错误的位置与其对应的错 误类型。 3.根据权利要求2所述的一种针对中文文本校对的数据增强方法, 其特征在于: 所述根 据序列标注模型 标识的不同错 误类型, 对 源语句进行相应错 误类型的处 理的具体方法为: 一、 对于源语句中被标记为B ‑M的字符, 将该标记结果作为少字错误, 并删除标记为B ‑M 的字符; 二、 对于源语句中被标记为B ‑R与I‑R多字语法错误的连续两个字符, 在两个字符的中 间位置进行 添加字符操作; 三、 对于被标记为B ‑W和I‑W乱序错误的字符, 根据分词结果模拟语法错误中的乱序情 况或放弃在该 标记处生成乱序错 误; 四、 对于被标记为B ‑S和I‑S拼写错误的字符, 对标记字符进行替换。 4.根据权利要求3所述的一种针对中文文本校对的数据增强方法, 其特征在于: 所述对 于源语句中被标记为B ‑R与I‑R多字语法错误的连续两个字符, 在两个字 符的中间位置进 行 添加字符操作的具体方法为: 随机生成1到100间的整数, 根据生成整数的大小, 通过以下两种方式在两个字符的中 间位置进行 添加字符操作: (a)当生成的整数小于等于80时, 使用预训练语言模型BERT完成加字操作; 首先在连续两个被标记字符的中间位置填充[MASK]字符, 对源语句进行修改; 再将修 改的源语句输入至BERT模型中得到多字候选集输出向量, 结合Softmax函数得到最后生成 的多字语法错 误伪数据; 对源语句进行修改过程中, 遵循以下修改规则: 当生成的整数小于等于20时, 在连续两个被标记字符的中间位置添加两个[MASK]字符 来模拟多词语法错 误, 其余情况下只添加一个[MASK]字符; 在对源语句进行修改过程中, 将从BERT模型生成的已通过Softmax函数排序的多字符 候选集中服从均匀分布随机 选取排在前五位的候选 字符作为多字语法错 误伪数据; (b)当生成的整数在81到10 0之间时, 在汉字词表中随机 选择单字符进行 添加。 5.根据权利要求4所述的一种针对中文文本校对的数据增强方法, 其特征在于: 所述对 于被标记 为B‑W和I‑W乱序错误的字符, 根据分词结果模拟 语法错误中的乱序情况或放弃在 该标记处生成乱序错 误的具体方法为: 首先对源语句进行分词操作, 提取与B ‑W和I‑W乱序错误字符相关的分词结果;权 利 要 求 书 1/2 页 2 CN 115310433 A 2如果提取的与B ‑W和I‑W乱序错误字符相关的分词结果不少于两个, 则随机选择两个分 词结果按照概 率对分词结果的排列位置随机进行位置交换, 模拟语法错 误中的乱序情况; 如果提取的与B ‑W和I‑W乱序错误字符相关的分词结果少于两个, 则放弃在该标记处生 成乱序错 误。 6.根据权利要求5所述的一种针对中文文本校对的数据增强方法, 其特征在于: 所述对 于被标记为B ‑S和I‑S拼写错误的字符, 对标记字符进行替换的具体方法为: 随机生成1到100间的整数, 根据生成整数的大小通过以下三种方式对标记字符进行替 换: (1)当生成的整数在1到10之间时, 对被标记字符使用[MASK]字符进行替换, 再输入至 BERT模型 得到输出向量, 并利用Softmax函数获取最后生成的拼写错 误伪数据; (2)当生成的整数在11到15之间时, 通过被标记为B ‑S和I‑S拼写错误的词语的近义词 替换被标记字符; 若syn onyms库未生成与被标记字符相关近义词, 则放弃在该处生成错 误; (3)当生成的整数在16 到65之间时, 采取字音混淆模式进行字符替换; (4)当生成整数在66到100之间时, 采用字形混淆模式进行字符替换; 当生成整数在67 到78之间时, 利用形近字混淆表替换标记的字符; 当生成整数在79到100之间时, 通过 随机 遮盖字符内容, 并将遮盖 字符传入OCR接口获得混淆字符来 替换标记的字符。 7.根据权利要求6所述的一种针对中文文本校对的数据增强方法, 其特征在于: 所述当 生成的整数在16 到65之间时, 采取字音混淆模式进行字符替换的具体方法为: 使用python 中的pypinyin库将被标记字符转化为拼音形式, 根据 生成整数的大小使用 如下三种方式对标记字符进行替换, 其中: 当生成整数在16到45之间时, 通过拼音字符混淆表中与标记字符同音的字符对标记字 符进行替换; 当生成整数在46到55之间时, 使用Pinyin2Hanzi库对标记字符转化成的拼音转换为 中 文字符, 选择与标记字符不相同的转换字符对标记字符进行替换; 当生成整数在56到65之间时, 模拟人类使用电脑键盘输入时引 入的错误; 按照全拼输 入法和双拼输入法键盘键位随机添加、 遗漏或替换拼音中的声母和韵母, 再使用 Pinyin2Hanzi库对修改后的拼音转换为字符, 并使用转换后的字符对标记字符进行替换。权 利 要 求 书 2/2 页 3 CN 115310433 A 3

PDF文档 专利 一种针对中文文本校对的数据增强方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种针对中文文本校对的数据增强方法 第 1 页 专利 一种针对中文文本校对的数据增强方法 第 2 页 专利 一种针对中文文本校对的数据增强方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:18上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。