(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211026223.6
(22)申请日 2022.08.25
(71)申请人 北京字跳网络技 术有限公司
地址 100190 北京市海淀区紫金 数码园4号
楼2层0207
(72)发明人 罗玉杰
(74)专利代理 机构 北京亿腾知识产权代理事务
所(普通合伙) 11309
专利代理师 陈霁
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06F 40/242(2020.01)
G06N 3/08(2006.01)
(54)发明名称
一种识别文 件中的命名实体的方法和装置
(57)摘要
本公开实施例提供了一种识别文件中的命
名实体的方法和装置。 该方法的一具体实施方式
包括: 获取第一文件; 基于预先构建的命名实体
词典,获取对于第一文件中的命名实体的第一预
测结果; 基于预先训练的第一预测模型,获取对
于第一文件中的命名实体的第二预测结果; 所述
命名实体词典, 通过结合多个预训练模型对于包
括实体词的样本语句进行命名实体识别的识别
结果生成; 结合第一和第二预测结果,确定对于
第一文件中的命名实体的第三预测结果。 利用该
方法, 可以提高对于文件中的命名实体进行识别
的准确率。
权利要求书2页 说明书9页 附图5页
CN 115470790 A
2022.12.13
CN 115470790 A
1.一种识别文件中的命名实体的方法, 包括:
获取第一文件; 基于预先构建的命名实体词典,获取对于第一文件中的命名实体的第
一预测结果; 所述命名实体词典, 通过结合多个预训练模型对于包括实体词的样本语句进
行命名实体识别的识别结果 生成。
2.根据权利要求1所述的方法, 还 包括:
基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第二预测结果;
结合第一和第二预测结果,确定对于第一文件中的命名实体的第三预测结果。
3.根据权利要求2所述的方法, 还 包括:
根据预先制定的正则表达式, 确定对于第一文件中的命名实体的第四预测结果;
结合第一和第二预测结果,确定对于第一文件中的命名实体的第三预测结果, 包括:
结合第一、 第二和第四预测结果,确定对于第一文件中的命名实体的第三预测结果。
4.根据权利要求3所述的方法, 其中,
所述命名实体包括第一类命名实体和第二类命名实体,
基于预先构建的命名实体词典,获取对于第一文件中的命名实体的第一预测结果, 所
述基于预 先训练的第一预测模型,获取对于第一文件中的命名实体的第二预测结果, 包括:
基于预先构建的命名实体词典,获取对于第一类命名实体的第一预测结果; 基于预先
训练的第一预测模型,获取对于第一类命名实体的第二预测结果;
所述根据预先制定的正则表达式, 确定对于第一文件中的命名实体的第 四预测结果,
包括:
根据预先制定的正则表达式, 确定对于第二类命名实体的第四预测结果。
5.根据权利要求 4所述的方法, 其中,
所述第一类命名实体包括预定种类实体的名称;
所述第二类命名实体包括具有预定文本模式的实体词。
6.根据权利要求2所述的方法, 其中,
所述第一预测模型, 包括BERT子模型和条件随机场子模型;
基于预先训练的第一预测模型,获取对于第一文件中的命名实体的第二预测结果, 包
括:
对所述第一文件进行分词, 获取词序列;
将所述词序列输入BERT子模型, 获取词序列中各个词的语义向量;
将所述语义向量输入条件随机场子模型, 获取第一识别结果, 所述第一识别结果用于
确定所述语义向量对应的词是否用于表示命名实体。
7.根据权利要求1所述的方法, 其中, 所述命名实体词典, 通过结合多个预训练模型对
于包括实体词的样本语句进行命名实体识别的识别结果生成, 包括, 所述命名实体词典通
过如下步骤生成:
获取多种语言的实体词, 构建包 含所述实体词的样本语句;
将所述样本语句输入多个预训练模型中, 获取对于所述样本语句中的命名实体的多个
识别结果;
根据所述多个识别结果, 确定所述样本语句中的命名实体; 将所述命名实体加入所述
命名实体词典。权 利 要 求 书 1/2 页
2
CN 115470790 A
28.根据权利要求7所述的方法, 其中, 所述多个预训练模型包括以下模型中的至少两
个:
基于RoBERTa模型的第一预训练模型,
基于Disti ll BERT模型的第二预训练模型,
基于跨域语言模型的第三预训练模型。
9.根据权利要求6所述的方法, 其中, 根据所述多个识别结果, 确定所述样本语句中的
命名实体, 包括:
在所述多个识别结果中均包括第一待定实体时, 确定第一待定命名实体为命名实体;
或
在所述多个识别结果中超过预定数量的识别结果中包括第 一待定实体时, 确定第 一待
定实体为命名实体。
10.根据权利要求1所述的方法, 其中, 所述第一文件 包括简历文件。
11.一种命名实体词典的构建方法, 包括:
获取多种语言的实体词, 构建包 含所述实体词的样本语句;
将所述样本语句输入多个预训练模型中, 获取对于所述样本语句中的命名实体的多个
识别结果;
根据所述多个识别结果, 确定所述样本语句中的命名实体; 将所述命名实体加入所述
命名实体词典。
12.一种识别文件中的命名实体的装置, 所述装置包括:
文件获取 单元, 配置为, 获取第一文件;
第一预测单元, 配置为, 基于预先训练的第一预测模型,获取对于第 一文件中的命名实
体的第一预测结果;
第二预测单元, 配置为, 基于预先构建的命名实体词典,获取对于第 一文件中的命名实
体的第二预测结果; 所述命名实体词典, 通过结合多个预训练模型对于包括实体词的样本
语句进行命名实体识别的识别结果 生成;
预测结果确定单元, 配置为, 结合第 一和第二预测结果,确定对于第 一文件中的命名实
体的第三预测结果。
13.一种命名实体词典的构建装置, 所述装置包括:
样本构建单 元, 配置为, 获取多种语言的实体词, 构建包 含所述实体词的样本语句;
识别单元, 配置为, 将所述样本语句输入多个预训练模型中, 获取对于所述样本语句中
的命名实体的多个识别结果;
词典添加单元, 配置为, 根据所述多个识别结果, 确定所述样本语句中的命名实体; 将
所述命名实体加入所述命名实体词典。
14.一种计算机程序产品, 包括计算机程序, 所述计算机程序被处理器执行时实现如权
利要求1‑11中任一项所述的方法。
15.一种计算机可读存储介质, 其上存储有计算机程序, 当所述计算机程序在计算机中
执行时, 令所述计算机执 行权利要求1 ‑11中任一项所述的方法。
16.一种电子设备, 包括存储器和 处理器, 所述存储器中存储有可执行代码, 所述处理
器执行所述可执行代码时, 实现权利要求1 ‑11中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 115470790 A
3
专利 一种识别文件中的命名实体的方法和装置
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:04上传分享