公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211026223.6 (22)申请日 2022.08.25 (71)申请人 北京字跳网络技 术有限公司 地址 100190 北京市海淀区紫金 数码园4号 楼2层0207 (72)发明人 罗玉杰  (74)专利代理 机构 北京亿腾知识产权代理事务 所(普通合伙) 11309 专利代理师 陈霁 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/242(2020.01) G06N 3/08(2006.01) (54)发明名称 一种识别文 件中的命名实体的方法和装置 (57)摘要 本公开实施例提供了一种识别文件中的命 名实体的方法和装置。 该方法的一具体实施方式 包括: 获取第一文件; 基于预先构建的命名实体 词典,获取对于第一文件中的命名实体的第一预 测结果; 基于预先训练的第一预测模型,获取对 于第一文件中的命名实体的第二预测结果; 所述 命名实体词典, 通过结合多个预训练模型对于包 括实体词的样本语句进行命名实体识别的识别 结果生成; 结合第一和第二预测结果,确定对于 第一文件中的命名实体的第三预测结果。 利用该 方法, 可以提高对于文件中的命名实体进行识别 的准确率。 权利要求书2页 说明书9页 附图5页 CN 115470790 A 2022.12.13 CN 115470790 A 1.一种识别文件中的命名实体的方法, 包括: 获取第一文件; 基于预先构建的命名实体词典,获取对于第一文件中的命名实体的第 一预测结果; 所述命名实体词典, 通过结合多个预训练模型对于包括实体词的样本语句进 行命名实体识别的识别结果 生成。 2.根据权利要求1所述的方法, 还 包括: 基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第二预测结果; 结合第一和第二预测结果,确定对于第一文件中的命名实体的第三预测结果。 3.根据权利要求2所述的方法, 还 包括: 根据预先制定的正则表达式, 确定对于第一文件中的命名实体的第四预测结果; 结合第一和第二预测结果,确定对于第一文件中的命名实体的第三预测结果, 包括: 结合第一、 第二和第四预测结果,确定对于第一文件中的命名实体的第三预测结果。 4.根据权利要求3所述的方法, 其中, 所述命名实体包括第一类命名实体和第二类命名实体, 基于预先构建的命名实体词典,获取对于第一文件中的命名实体的第一预测结果, 所 述基于预 先训练的第一预测模型,获取对于第一文件中的命名实体的第二预测结果, 包括: 基于预先构建的命名实体词典,获取对于第一类命名实体的第一预测结果; 基于预先 训练的第一预测模型,获取对于第一类命名实体的第二预测结果; 所述根据预先制定的正则表达式, 确定对于第一文件中的命名实体的第 四预测结果, 包括: 根据预先制定的正则表达式, 确定对于第二类命名实体的第四预测结果。 5.根据权利要求 4所述的方法, 其中, 所述第一类命名实体包括预定种类实体的名称; 所述第二类命名实体包括具有预定文本模式的实体词。 6.根据权利要求2所述的方法, 其中, 所述第一预测模型, 包括BERT子模型和条件随机场子模型; 基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第二预测结果, 包 括: 对所述第一文件进行分词, 获取词序列; 将所述词序列输入BERT子模型, 获取词序列中各个词的语义向量; 将所述语义向量输入条件随机场子模型, 获取第一识别结果, 所述第一识别结果用于 确定所述语义向量对应的词是否用于表示命名实体。 7.根据权利要求1所述的方法, 其中, 所述命名实体词典, 通过结合多个预训练模型对 于包括实体词的样本语句进行命名实体识别的识别结果生成, 包括, 所述命名实体词典通 过如下步骤生成: 获取多种语言的实体词, 构建包 含所述实体词的样本语句; 将所述样本语句输入多个预训练模型中, 获取对于所述样本语句中的命名实体的多个 识别结果; 根据所述多个识别结果, 确定所述样本语句中的命名实体; 将所述命名实体加入所述 命名实体词典。权 利 要 求 书 1/2 页 2 CN 115470790 A 28.根据权利要求7所述的方法, 其中, 所述多个预训练模型包括以下模型中的至少两 个: 基于RoBERTa模型的第一预训练模型, 基于Disti ll BERT模型的第二预训练模型, 基于跨域语言模型的第三预训练模型。 9.根据权利要求6所述的方法, 其中, 根据所述多个识别结果, 确定所述样本语句中的 命名实体, 包括: 在所述多个识别结果中均包括第一待定实体时, 确定第一待定命名实体为命名实体; 或 在所述多个识别结果中超过预定数量的识别结果中包括第 一待定实体时, 确定第 一待 定实体为命名实体。 10.根据权利要求1所述的方法, 其中, 所述第一文件 包括简历文件。 11.一种命名实体词典的构建方法, 包括: 获取多种语言的实体词, 构建包 含所述实体词的样本语句; 将所述样本语句输入多个预训练模型中, 获取对于所述样本语句中的命名实体的多个 识别结果; 根据所述多个识别结果, 确定所述样本语句中的命名实体; 将所述命名实体加入所述 命名实体词典。 12.一种识别文件中的命名实体的装置, 所述装置包括: 文件获取 单元, 配置为, 获取第一文件; 第一预测单元, 配置为, 基于预先训练的第一预测模型,获取对于第 一文件中的命名实 体的第一预测结果; 第二预测单元, 配置为, 基于预先构建的命名实体词典,获取对于第 一文件中的命名实 体的第二预测结果; 所述命名实体词典, 通过结合多个预训练模型对于包括实体词的样本 语句进行命名实体识别的识别结果 生成; 预测结果确定单元, 配置为, 结合第 一和第二预测结果,确定对于第 一文件中的命名实 体的第三预测结果。 13.一种命名实体词典的构建装置, 所述装置包括: 样本构建单 元, 配置为, 获取多种语言的实体词, 构建包 含所述实体词的样本语句; 识别单元, 配置为, 将所述样本语句输入多个预训练模型中, 获取对于所述样本语句中 的命名实体的多个识别结果; 词典添加单元, 配置为, 根据所述多个识别结果, 确定所述样本语句中的命名实体; 将 所述命名实体加入所述命名实体词典。 14.一种计算机程序产品, 包括计算机程序, 所述计算机程序被处理器执行时实现如权 利要求1‑11中任一项所述的方法。 15.一种计算机可读存储介质, 其上存储有计算机程序, 当所述计算机程序在计算机中 执行时, 令所述计算机执 行权利要求1 ‑11中任一项所述的方法。 16.一种电子设备, 包括存储器和 处理器, 所述存储器中存储有可执行代码, 所述处理 器执行所述可执行代码时, 实现权利要求1 ‑11中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115470790 A 3

PDF文档 专利 一种识别文件中的命名实体的方法和装置

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种识别文件中的命名实体的方法和装置 第 1 页 专利 一种识别文件中的命名实体的方法和装置 第 2 页 专利 一种识别文件中的命名实体的方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:04上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。