公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210914791.3 (22)申请日 2022.08.01 (71)申请人 济南大学 地址 250022 山东省济南市 市中区南 辛庄 西路336号 (72)发明人 马坤 李乐平 纪科 陈贞翔 杨波 (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 李圣梅 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/35(2019.01) G06F 40/126(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多信息过滤编码的多标签文本分 类方法及系统 (57)摘要 本发明公开了一种基于多信息过滤编码的 多标签文本分类方法及系统, 该方法包括: 获取 包含标签的文本训练集; 基于文本训练集, 得到 文本和标签的单词向量; 通过多信息过滤编码进 行文本信息和标签信息的过滤和特征提取, 得到 过滤的文本特征和标签特征; 通过过滤的文本特 征和过滤的标签特征交互, 结合过滤的文本特 征, 得到最终文本向量表示, 以此训练多标签文 本分类模型; 利用训练好的多标签文本分类模型 对待分类文本数据集进行多 标签文本分类。 本发 明通过过滤文本信息和标签信息的噪音及冗余 信息, 分别在文本空间和标签空间提取过滤信息 中的语义特征, 通过过滤的语义特征的交互, 捕 获更多与分类相关的信息, 提高多标签文本分类 的精度。 权利要求书2页 说明书9页 附图2页 CN 115168566 A 2022.10.11 CN 115168566 A 1.一种基于多信息过 滤编码的多标签文本分类方法, 其特 征是, 包括: 获取待分类的文本数据集和包 含多标签的文本训练集; 对文本训练集中的文本和文本训练集所对应标签集合中的标签分别进行向量化, 得到 文本的单词向量和标签的单词向量; 基于文本和标签的向量表示, 通过多信 息过滤编码进行文本信 息和标签信 息的过滤和 特征提取, 得到过 滤的文本特 征和过滤的标签特 征; 通过过滤的文本特征和过滤的标签特征交互, 得到文本特定标签表示, 结合过滤的文 本特征, 得到最终文本向量表示, 基于最终文本向量表示, 训练多标签文本分类模型; 利用训练好的多标签文本分类模型对待分类文本数据集进行多标签文本分类。 2.如权利要求1所述的一种基于多信 息过滤编码的多标签文本分类方法, 其特征是, 还 包括: 对获取 的待分类的文本数据集和包含标签的文本训练集进行数据预处理; 所述预处 理包括清理非文本数据、 去除停用词和词形还原。 3.如权利要求1所述的一种基于多信 息过滤编码的多标签文本分类方法, 其特征是, 基 于文本和标签的向量表示, 通过多信息过滤编 码进行文本信息和标签信息的过滤和特征提 取, 得到过 滤的文本特 征和过滤的标签特 征, 具体为: 基于文本的单词向量, 通过文本信息过滤编码进行文本信息的过滤和特征提取, 得到 过滤的文本特 征; 基于标签的单词向量, 通过标签信息过滤编码进行标签信息的过滤和特征提取, 得到 过滤的标签特 征。 4.如权利要求3所述的一种基于多信 息过滤编码的多标签文本分类方法, 其特征是, 基 于文本的单词向量, 通过文本信息过滤编码进行文本信息的过滤和特征提取, 得到过滤 的 文本特征, 具体步骤为: 基于文本的单词向量, 通过 快速傅里叶转换将单词向量 转换至频域; 在频域内调制频谱, 对文本的单词向量进行 过滤, 得到过 滤后的文本信息; 通过逆向快速傅里叶转换将过 滤后的文本信息转换至时域并更新 其表示; 基于文本的单词向量和过滤并更新的文本信息, 依次进行残差连接、 Dropout和层标准 化操作, 得到过 滤的文本向量; 基于过滤的文本向量, 通过多层感知处 理, 得到初始过 滤的文本特 征; 基于过滤的文本向量和初始过滤的文本特征, 依次进行残差连接、 Dropout和层标准化 操作, 得到过 滤的文本特 征。 5.如权利要求3所述的一种基于多信 息过滤编码的多标签文本分类方法, 其特征是, 基 于标签的单词向量, 通过标签信息过滤编码进行标签信息的过滤和特征提取, 得到过滤 的 标签特征, 具体步骤为: 基于标签的单词向量, 通过 快速傅里叶转换将单词向量 转换至频域; 在频域内调制频谱, 对标签的单词向量进行 过滤, 得到过 滤后的标签信息; 通过逆向快速傅里叶转换将过 滤后的标签信息转换至时域并更新 其表示; 基于标签的单词向量和过滤并更新的标签信息, 依次进行残差连接、 Dropout和层标准 化操作, 得到过 滤的标签向量; 基于过滤的标签向量, 通过多层感知处 理, 得到初始过 滤的标签特 征;权 利 要 求 书 1/2 页 2 CN 115168566 A 2基于过滤的标签向量和初始过滤的标签特征, 依次进行残差连接、 Dropout和层标准化 操作, 得到过 滤的标签特 征。 6.如权利要求1所述的一种基于多信 息过滤编码的多标签文本分类方法, 其特征是, 通 过过滤的文本特 征和过滤的标签特 征交互, 得到文本特定标签表示, 具体步骤为: 基于过滤的文本特征和过滤的标签特征, 通过过滤信 息指导的注意力 机制获取过滤的 文本特征和过滤的标签特 征之间的注意力值; 基于注意力值对过 滤的标签特 征进行加权, 得到文本特定标签表示。 7.如权利要求1所述的一种基于多信 息过滤编码的多标签文本分类方法, 其特征是, 结 合过滤的文本特征, 得到最 终文本向量表示, 基于最 终文本向量表示, 训练多标签文本 分类 模型, 具体步骤为: 将过滤的文本特 征和文本特定标签表示进行拼接, 得到拼接后的特 征; 对拼接后的特征加权得到加权特征, 对加权特征分别进行均值化操作和最大池化操 作, 得到均值 化特征和最大池化特 征; 基于均值 化特征和最大池化特 征, 合并特 征得到最终文本向量表示。 8.一种基于多信息过 滤编码的多标签文本分类系统, 其特 征是, 包括: 数据获取模块, 用于获取待分类的文本数据集和包 含多标签的文本训练集; 向量转化模块, 用于对文本训练集中的文本和文本训练集所对应标签集合中的标签分 别进行向量 化, 得到文本的单词向量和标签的单词向量; 特征获取模块, 用于基于文本和标签的单词向量, 通过多信息过滤编码进行文本信息 和标签信息的过 滤和特征提取, 得到过 滤的文本特 征和过滤的标签特 征; 多标签文本分类模型训练模块, 用于通过过滤的文本特征和过滤的标签特征交互, 得 到文本特定标签表 示, 结合过滤的文本特征, 得到最 终文本向量表 示, 基于最 终文本向量表 示, 训练多标签文本分类模型; 分类模块, 用于利用训练好的多标签文本分类模型对待分类文本数据集进行多标签文 本分类。 9.一种电子设备, 其特征是: 包括存储器和处理器以及存储在存储器上并在处理器上 运行的计算机指 令, 所述计算机指 令被处理器运行时, 完成如权利要求 1‑7中任一项 所述的 一种基于多信息过 滤编码的多标签文本分类方法的步骤。 10.一种计算机可读存储介质, 其特征是: 用于存储计算机指令, 所述计算机指令被处 理器执行时, 完成如权利要求1 ‑7中任一项所述的一种基于多信息过滤编码的多标签文本 分类方法的步骤。权 利 要 求 书 2/2 页 3 CN 115168566 A 3
专利 一种基于多信息过滤编码的多标签文本分类方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:22
上传分享
举报
下载
原文档
(655.4 KB)
分享
友情链接
T-CERS 0002—2022 民用改性甲醇燃料.pdf
GB-T 32789-2016 轮胎噪声测试方法 转鼓法.pdf
GB-T 2007.2-1987 散装矿产品取样、制样通则 手工制样方法.pdf
GB-T 38303-2019 农业社会化服务 农民技能培训规范.pdf
DB13-T 5686-2023 多重耐药菌感染患者手术室管理规范 河北省.pdf
GB-T 28420-2012 电子收费 OBE-SAM数据格式和技术要求.pdf
DB42-T 953-2014 “鄂引3号”狗牙根栽培技术规程 湖北省.pdf
GB-T 23237-2009 腧穴定位人体测量方法.pdf
NY-T 1236-2006 绵、山羊生产性能测定技术规范.pdf
DB43-T 2055-2021 水上交通气象灾害风险预警等级划分预评标准 湖南省.pdf
GB-T 42559-2023 声学 干涉型光纤水听器相移灵敏度测量.pdf
GB-T 36633-2018 信息安全技术 网络用户身份鉴别技术指南.pdf
OWASP API安全-十大关键API安全风险 2019中文版.pdf
GB-T 19715.1-2005 信息技术信息技术安全管理指南第1部分:信息技术安全概念和模型 .pdf
法律法规 陕西省民用建筑节能条例2016-11-24.pdf
GB-T 19670-2023 机械安全 防止意外启动.pdf
T-SLIA 001—2019 食品接触材料及制品、饰品 表面积的测定 三维模型重建法.pdf
GB-T 11017.3-2014 额定电压110kV Um=126kV 交联聚乙烯绝缘电力电缆及其附件 第3部分:电缆附件.pdf
信通院 政务数据共享开放安全研究报告.pdf
变更管理制度.pdf
交流群
-->
1
/
14
评价文档
赞助2元 点击下载(655.4 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。