公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210179810.2 (22)申请日 2022.02.25 (71)申请人 安阳师范学院 地址 455000 河南省安阳市开发区弦歌大 道436号 (72)发明人 杜丙新 汪向征 (74)专利代理 机构 深圳青年人专利商标代理有 限公司 4 4350 专利代理师 吴桂华 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/30(2020.01) (54)发明名称 一种文本标注推荐方法、 装置、 设备及存储 介质 (57)摘要 本发明适用计算机技术领域, 提供了一种文 本标注推荐方法、 装置、 设备及存储介质, 所述方 法包括: 获取待标注文本, 对待标注文本进行预 处理, 以得到词语集合, 基于词语集合通过预训 练模型获取表 示待标注文本的词语特征集, 根据 词语特征集, 获取表示待 标注文本每个句子的句 子特征, 利用预设的聚类算法对句子特征进行聚 类, 以生成各个类别对应的伪标签, 对各个类别 进行主题词挖掘, 为每个类别确定实际类别标签 和对应的主题词集合, 根据每个句子的实际类别 标签和对应的主题词集合生成待标注文本的标 注建议, 从而提高文本标注的准确性。 权利要求书2页 说明书7页 附图3页 CN 114661900 A 2022.06.24 CN 114661900 A 1.一种文本标注推荐方法, 其特 征在于, 所述方法包括: 获取待标注文本, 对所述待标注文本进行 预处理, 以得到词语集 合; 基于所述词语集合, 通过预训练模型获取表示所述待标注文本的词语特征集, 根据所 述词语特 征集, 获取表示所述待标注文本每 个句子的句子特 征; 利用预设的聚类算法对所述句子特 征进行聚类, 以生成各个 类别对应的伪标签; 对所述各个类别进行主题词挖掘, 为每个类别确定实际类别标签和对应的主题词集 合; 根据每个句子的实际类别标签和对应的主题词集 合生成所述待标注文本的标注建议。 2.如权利要求1所述的文本标注推荐方法, 其特征在于, 对所述各个类别进行主题词挖 掘, 为每个类别确定实际类别标签和对应的主题词集合的步骤之后, 根据每个句 子的实际 类别标签和对应的主题词集 合生成所述待标注文本的标注建议的步骤之前, 包括: 接收领域专家对所述实际类别标签的修改和/或合并请求, 基于所述修改和/或合并请 求, 对相应类别的实际类别标签进 行修改、 和/或对相应类别的实际类别标签以及 对应的主 题词集合进行合并, 以得到更新的实际类别标签和对应的主题词集 合。 3.如权利要求2所述的文本标注推荐方法, 其特征在于, 对相应类别的实际类别标签进 行修改、 和/或对相应类别的实际类别标签以及对应的主题词集合进 行合并的步骤之后, 还 包括: 将所述更新的实际类别标签和对应的主题词集合输入到所述预训练模型, 以使所述预 训练模型根据所述更新的实际类别标签和对应的主题词集合进行训练, 以更新所述预训练 模型。 4.如权利要求1所述的文本标注推荐方法, 其特征在于, 对所述各个类别进行主题词挖 掘, 为每个类别确定实际类别标签和对应的主题词集合的步骤之后, 根据每个句 子的实际 类别标签和对应的主题词集 合生成所述待标注文本的标注建议的步骤之前, 还 包括: 将为每个类别确定的实际类别标签和对应的主题词集合存储到预先设置的类别 ‑主题 词数据库中。 5.如权利要求4所述的文本标注推荐方法, 其特征在于, 根据每个句子的类别标签和对 应的主题词集 合生成所述待标注文本的标注建议的步骤之后, 包括: 根据标注员输入的标注结果对所述类别 ‑主题词数据库中相应类别标签和主题词集合 进行更新; 将所述类别 ‑主题词数据库中更新的类别标签和主题词集合输入到所述预训练模型, 以使所述预训练模型根据所述更新的类别标签和主题词集合进行训练, 以更新所述预训练 模型。 6.如权利要求1所述的文本标注推荐方法, 其特征在于, 所述预训练模型采取无监督学 习方式训练得到 。 7.一种文本标注推荐装置, 其特 征在于, 所述装置包括: 预处理单元, 用于获取待标注文本, 对所述待标注文本进行 预处理, 以得到词语集 合; 特征转换单元, 用于基于所述词语集合, 通过预训练模型获取表示所述待标注文本的 词语特征集, 根据所述词语特 征集, 获取表示所述待标注文本每 个句子的句子特 征; 聚类单元, 用于利用预设的聚类算法对所述句子特征进行聚类, 以生成各个类别对应权 利 要 求 书 1/2 页 2 CN 114661900 A 2的伪标签; 主题词挖掘单元, 用于对所述各个类别进行主题词挖掘, 为每个类别确定实 际类别标 签和对应的主题词集 合; 以及 标注建议生成单元, 用于根据每个句子的实际类别标签和对应的主题词集合生成所述 待标注文本的标注建议。 8.如权利要求7 所述的文本标注推荐装置, 其特 征在于, 还 包括: 优化单元, 用于接收领域专家对所述实际类别标签的修改和/或合并请求, 基于所述修 改和/或合并请求, 对相应类别的实际类别标签进行修改、 和/或对相应类别的实际类别标 签以及对应的主题词集 合进行合并, 以得到更新的实际类别标签和对应的主题词集 合。 9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器 上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1至 6任一项所述文本标注推荐方法的步骤。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处理器执行时实现如权利要求 1至6任一项 所述文本标注推荐方法的 步骤。权 利 要 求 书 2/2 页 3 CN 114661900 A 3
专利 一种文本标注推荐方法、装置、设备及存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:33:26
上传分享
举报
下载
原文档
(656.5 KB)
分享
友情链接
T-CAEPI 66—2023 水污染源自动监控监测系统 运行维护技术指南.pdf
T-GHDQ 99—2022 智能网联汽车远程通信模块信息安全 测试规范.pdf
GB-T 30142-2013 平面型电磁屏蔽材料屏蔽效能测量方法.pdf
GB-T 31516-2015 邻苯二甲酸酐危险特性分类方法.pdf
T-CIE 116—2021 电子元器件故障树分析方法与程序.pdf
YD-T 3979-2021 数据中心浸没式液冷服务器系统技术要求和测试方法.pdf
供应商安全管理制度.pdf
GB-T 31439.2-2015 波形梁钢护栏 第2部分:三波形梁钢护栏.pdf
DB31-T 1311-2021 上海市 数据去标识化共享指南 .pdf
DB64-T 1961—2023 机关事务信息化系统服务规范 宁夏回族自治区.pdf
6-02-06-03 白酒酿造工.pdf
GM-T 0101-2020 近场通信密码安全协议检测规范.pdf
ISO 31101 2023 Robotics — Application services provided by service robots — Safety man.pdf
GB-T 5048-2017 防潮包装.pdf
GB-T 31288-2014 铁尾矿砂.pdf
DB65-T 4536.1—2022 电子政务外网建设规范第1部分:网络架构 新疆维吾尔自治区.pdf
GB-T 39467-2020 北斗精密服务产品规范.pdf
GB-T 24925-2019 低温阀门 技术条件.pdf
GB-T 25198-2010 压力容器封头.pdf
GB-T 8487-2010 港口装卸术语.pdf
交流群
-->
1
/
13
评价文档
赞助2元 点击下载(656.5 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。