公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210880495.6 (22)申请日 2022.07.25 (71)申请人 网易 (杭州) 网络有限公司 地址 310052 浙江省杭州市滨江区长河街 道网商路59 9号4幢7层 (72)发明人 李首贤 刘洋 张睿 肖科 但红卫 袁立强 刘庆生 (74)专利代理 机构 北京律智知识产权代理有限 公司 11438 专利代理师 王辉 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06N 20/00(2019.01) (54)发明名称 模型训练方法、 文本分类方法、 装置、 介质及 电子设备 (57)摘要 本公开的实施方式提供了一种用 于异常文 本分类的模型训练方法、 文本分类方法、 装置、 介 质及电子设备, 涉及自然语言处理技术领域。 该 方法包括: 获取初始文本训练集; 对初始文本训 练集进行信息增强处理, 得到增强训练文本; 信 息增强处理包括特征增强处理与数据增强处理 中的至少一种; 根据初始文本训练集与增强训练 文本生成增强文本训练集; 增强文本训练集用于 训练异常文本分类模型。 本公开对模 型训练所采 用的训练文本进行特征增强和数据增强等处理, 增大正负样 本之间的距离, 使得训练得到的异常 文本分类模型得到的文本分类结果更加准确。 权利要求书2页 说明书15页 附图10页 CN 115422926 A 2022.12.02 CN 115422926 A 1.一种用于异常文本分类的模型训练方法, 其特 征在于, 包括: 获取初始文本训练集; 对所述初始文本训练集进行信息增强处理, 得到增强训练文本; 所述信息增强处理包 括特征增强处 理与数据增强处 理中的至少一种; 根据所述初始文本训练集与 所述增强训练文本生成增强文本训练集; 所述增强文本训 练集用于训练异常文本分类模型。 2.根据权利要求1所述的方法, 其特征在于, 所述增强训练文本包括特征增强训练文本 与数据增强训练文本; 所述对所述初始文本训练集进 行信息增强处理, 得到增强训练文本, 包括: 基于所述初始文本训练集确定第 一训练文本; 所述第 一训练文本为由异常文本组成的 训练文本; 对所述第一训练文本进行 所述特征增强处 理, 得到所述特 征增强训练文本; 基于所述初始文本训练集确定第 二训练文本; 所述第 二训练文本为与 所述第一训练文 本相反的训练样本; 对所述第二训练文本进行 所述数据增强处 理, 得到所述数据增强训练文本 。 3.根据权利要求2所述的方法, 其特征在于, 所述特征增强训练文本包括拆字增强训练 文本; 所述对所述第一训练文本进行所述特征增强处理, 得到所述特征增强训练文本, 包 括: 获取拆字 字典; 所述拆字 字典包括文本拆字规则; 根据所述文本拆字规则对所述第一训练样本进行拆字处 理, 得到多个 拆字文本; 将得到的所述多个 拆字文本添加至所述拆字增强训练文本 。 4.根据权利要求2所述的方法, 其特征在于, 所述数据增强训练文本包括同音字替换训 练文本; 所述对所述第二训练文本进 行所述数据增强处理, 得到所述数据增强训练文本, 包 括: 确定所述第 二训练文本 中包含的同音待替换字, 获取所述同音待替换字对应的替换同 音字; 采用所述替换同音字对所述同音待替换字进行替换处理, 得到所述同音字替换训练文 本。 5.根据权利要求1所述的方法, 其特征在于, 所述增强文本训练集包括特征增强训练文 本与数据增强训练文本, 所述方法还 包括: 将所述增强文本训练集输入至初始文本分类模型, 以对所述初始文本分类模型进行模 型训练, 得到训练完成的异常文本分类模型; 其中, 所述初始文本分类模型包括特 征增强层、 数据增强层与叠加层; 所述特征增强层用于, 对所述特征增强训练文本进行特征提取, 生成特征增强文本向 量; 所述数据增强层用于, 对所述初始文本训练集与所述数据增强训练文本进行特征提 取, 生成数据增强文本向量; 所述叠加层用于, 基于所述特征增强文本向量与所述数据增强文本向量生成叠加向 量。权 利 要 求 书 1/2 页 2 CN 115422926 A 26.一种文本分类方法, 其特 征在于, 包括: 获取待识别文本; 将所述待识别文本输入至预先训练 的异常文本分类模型, 对所述待识别文本进行文本 分类处理; 所述异常文本分类模型基于权利要求1 ‑5任一项所述的用于异常文本分类的模 型训练方法得到; 根据所述异常文本分类模型的输出 结果确定所述待识别文本的文本分类结果。 7.一种用于异常文本分类的模型训练装置, 其特 征在于, 包括: 初始训练集获取模块, 用于获取初始文本训练集; 信息增强处理模块, 用于对所述初始文本训练集进行信息增强处理, 得到增强训练文 本; 所述信息增强处 理包括特 征增强处 理与数据增强处 理中的至少一种; 增强训练集生成模块, 用于根据所述初始文本训练集与 所述增强训练文本生成增强文 本训练集; 所述增强文本训练集用于训练异常文本分类模型。 8.一种文本分类装置, 其特 征在于, 包括: 待识别文本获取模块, 用于获取待识别文本; 文本分类模块, 用于将所述待识别文本输入至预先训练的异常文本分类模型, 对所述 待识别文本进行文本分类处理; 所述异常文本分类模型基于权利要求1 ‑5任一项所述的用 于异常文本分类的模型训练方法得到; 结果确定模块, 用于根据所述异常文本分类模型的输出结果确定所述待识别文本的文 本分类结果。 9.一种电子设备, 其特 征在于, 包括: 处理器; 以及 存储器, 所述存储器上存储有计算机可读指令, 所述计算机可读指令被所述处理器执 行时实现如权利要求1 ‑5中任意一项所述的用于异常文本分类的模型训练方法; 以及权利 要求6中任意 一项所述的文本分类方法。 10.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处 理器执行时实现1 ‑5中任意一项 所述的用于异常文本 分类的模型训练方法; 以及权利要求6 中任意一项所述的文本分类方法。权 利 要 求 书 2/2 页 3 CN 115422926 A 3
专利 模型训练方法、文本分类方法、装置、介质及电子设备
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:29
上传分享
举报
下载
原文档
(1.3 MB)
分享
友情链接
GM-T 0099-2020 开放式版式文档密码应用技术规范.pdf
德勤 数字化时代下的网络安全战略框架系列之四 .pdf
ISO IEC 20924 2024 Internet of Things (IoT) and digital twin — Vocabulary.pdf
T-SZUAVIA 001—2021 低慢小无人机探测反制系统通用要求.pdf
T-SHXFXH 002—2023 建筑电气防火检测技术规程.pdf
GB-T 13667.1-2015 钢制书架 第1部分:单、复柱书架.pdf
GB-T 39620-2020 沿海船舶自动识别系统 AIS 基站技术要求.pdf
YD-T 1756-2008 电信网和互联网管理安全等级保护要求.pdf
DB5117-T 36-2021 企业节能降耗管理规范 达州市.pdf
T-CIIA 022—2022 科学数据 云存储环境运维流程与服务要求.pdf
GB-T 15852.1-2020 信息技术 安全技术 消息鉴别码 第1部分:采用分组密码的机制.pdf
DB42-T 1951-2023 桥梁结构健康信息化监测技术规范 湖北省.pdf
GB-T 36572-2018电力监控系统网络安全防护导则.pdf
GB-T 33113-2016 水资源管理信息对象代码编制规范.pdf
GB-T 20258.4-2019 基础地理信息要素数据字典 第4部分:1∶250 000 1∶500 000 1∶1 000 000 比例尺.pdf
GM-T 0001.1-2012 祖冲之序列密码算法:第1部分:算法描述.pdf
GB-T 43380-2023 自动化干散货码头综合管控系统技术要求.pdf
GB 19079.11-2005 体育场所开放条件与技术要求 第11部分漂流场所.pdf
GB-T 34057-2017 电子商务信用 网络零售信用基本要求 消费品零售.pdf
GB-T 42339-2023 金融机构风险管理 术语.pdf
交流群
-->
1
/
28
评价文档
赞助2元 点击下载(1.3 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。