公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221086939 9.1 (22)申请日 2022.07.22 (71)申请人 哈尔滨工业大 学 (深圳) 地址 518063 广东省深圳市南 山区桃源街 道深圳大 学城哈尔滨工业大 学校区 (72)发明人 徐睿峰 王乾龙 王睿 温志渊 (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 专利代理师 刘芬芬 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06F 16/35(2019.01) G06F 40/253(2020.01) G06F 40/268(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本检测方法、 装置、 电子设备以及计算机 可读存储介质 (57)摘要 本申请公开了文本检测方法、 装置、 电子设 备以及计算机可读存储介质, 文本检测方法, 包 括: 获取到待检测文本; 遮盖待检测文本的每个 正向情感词, 得到第一掩码文本; 以及, 遮盖待检 测文本的每个负向情感词, 得到第二掩码文本; 对第一掩码文本中被掩盖的正向情感词进行预 测, 以生成第一重构文本; 以及, 对第二掩码文本 中被掩盖的负向情感词进行预测, 以生成第二重 构文本; 确定第一重构文本与待检测文本的第一 相似度以及第二重构文本与待检测文本的第二 相似度; 响应于第一相似度和/或第二相似度小 于设定阈值, 确定待检测文本为讽刺文本。 本申 请不仅能够提高对讽刺文本的检测准确率, 还能 够节省大量的数据标注工作, 实现无监督讽刺检 测。 权利要求书3页 说明书13页 附图7页 CN 115204181 A 2022.10.18 CN 115204181 A 1.一种文本检测方法, 其特 征在于, 包括: 获取到待检测文本; 遮盖所述待检测文本的每个正向情 感词, 得到第 一掩码文本; 以及, 遮盖所述待检测文 本的每个负向情感词, 得到第二掩码文本; 对所述第一掩码文本中被掩盖的所述正向情感词进行预测, 以生成第一重构文本; 以 及, 对所述第二掩码文本中被掩盖的所述负向情感词进行 预测, 以生成第二重构文本; 确定所述第一重构文本与所述待检测文本的第一相似度以及所述第二重构文本与所 述待检测文本的第二相似度; 响应于所述第一相似度和/或所述第二相似度小于设定阈值, 确定所述待检测文本为 讽刺文本 。 2.根据权利要求1所述的文本检测方法, 其特 征在于, 所述获取到待检测文本的步骤后, 包括: 对所述待检测文本中的每 个字符进行词性标注; 所述遮盖所述待检测文本的每个正向情 感词, 得到第 一掩码文本; 以及, 遮盖所述待检 测文本的每 个负向情感词, 得到第二掩码文本的步骤, 包括: 从被标注的所述待检测文本中识别出每个情感词, 基于所述情感词的极性将所述情感 词分类为所述 正向情感词或所述负向情感词; 以及 从被标注 的所述待检测文本中识别出非所述情感词的每个动词或/和每个名词, 并将 所述动词或/和名词确定为成分词; 利用掩码字符掩盖所述待检测文本中的所述正向情感词以及至少部分所述成分词, 生 成所述第一掩码文本; 以及 利用所述掩码字符掩盖所述待检测文本 中的所述负向情感词以及相同的所述成分词, 生成所述第二掩码文本 。 3.根据权利要求2所述的文本检测方法, 其特 征在于, 所述从被标注的所述待检测文本 中识别出每个情感词, 基于所述情 感词的极性将所述 情感词分类为所述 正向情感词或所述负向情感词, 包括: 利用外部情感资源词汇库从被标注的所述待检测文本中识别出每个所述情感词为所 述正向情感词或所述负向情感词, 并划分到对应的正向情感词集 合或负向情感词集 合中; 从被标注 的所述待检测文本中识别出非所述情感词的每个动词或/和每个名词, 并将 所述动词或/和名词确定为成分词的步骤, 包括: 利用自然语言处 理工具获取到所述待检测文本的语法信息; 基于所述语法信息从被标注的所述待检测文本中识别出非所述情感词的每个所述动 词或/和每 个所述名词, 并将所述动词或/和名词确定为所述成分词; 将每个所述成分词划分到成分词集 合中, 并将所述成分词集 合划分为至少两个子集; 所述利用掩码字符掩盖所述待检测文本中的所述正向情感词以及至少部分所述成分 词, 生成所述第一掩码文本; 以及 利用所述掩码字符掩盖所述待检测文本 中的所述负向情感词以及相同的所述成分词, 生成所述第二掩码文本的步骤, 包括: 利用所述掩码字符掩盖所述正向情感词集合与其中一个所述子集中包括的全部字符,权 利 要 求 书 1/3 页 2 CN 115204181 A 2以生成所述第一掩码文本; 以及 利用所述掩码字符掩盖所述负向情感词集合与相同子集中包括的全部字符, 以生成所 述第二掩码文本 。 4.根据权利要求2所述的文本检测方法, 其特 征在于, 所述对所述第一掩码文本中被掩盖的所述正向情感词进行预测, 以生成第一重构文 本; 以及, 对所述第二掩码文本中被掩盖的所述负向情感词进 行预测, 以生 成第二重构文本 的步骤, 包括: 分别获取所述第一掩码文本与所述第二掩码文本的词嵌入向量; 其中, 所述词嵌入向 量包括字符向量以及位置向量; 分别对所述第 一掩码文本以及所述第 二掩码文本对应的所述词嵌入向量进行拼接, 以 得到具有上 下文特征的第一隐藏序列以及第二隐藏序列; 分别对所述第一隐藏序列以及所述第二隐藏序列中被掩盖的每个所述情感词以及每 个所述成分词进行 预测, 得到所述第一重构文本以及所述第二重构文本 。 5.根据权利要求 4所述的文本检测方法, 其特 征在于, 所述第一重构文本与 所述第二重构文本通过文本生成模型生成, 所述文本生成模型包 括相互级联的编码器、 注意力网络以及解码器; 所述分别获取 所述第一掩码文本与所述第二掩码文本的词嵌入向量的步骤, 包括: 利用所述文本生成模型的所述编码器分别获取所述第一掩码文本与所述第二掩码文 本的所述词嵌入向量; 所述分别对所述第一掩码文本以及所述第二掩码文本对应的所述词嵌入向量进行拼 接, 以得到具有上 下文特征的第一隐藏序列以及第二隐藏序列的步骤, 包括: 利用所述编码器分别对所述第一掩码文本以及所述第二掩码文本对应的所述词嵌入 向量进行编码, 以得到具有上 下文特征的所述第一隐藏序列以及所述第二隐藏序列; 所述分别对所述第一隐藏序列以及所述第二隐藏序列中被掩盖的每个所述情感词以 及每个所述成分词进行 预测, 得到所述第一重构文本以及所述第二重构文本的步骤, 包括: 利用所述文本生成模型中的所述注意力网络以及所述解码器依次对所述第一 隐藏序 列以及所述第二隐藏序列进行解码, 以对被掩盖的每个所述情感词以及每个所述成分词进 行预测, 并输出 所述第一重构文本以及所述第二重构文本 。 6.根据权利要求5所述的文本检测方法, 其特 征在于, 所述注意力网络包括自注意力机制; 所述利用所述文本生成模型中的所述注意力网络以及所述解码器依次对所述第一隐 藏序列以及所述第二隐藏序列进 行解码, 以对被掩盖的每个所述情感词以及每个所述成分 词进行预测, 并输出 所述第一重构文本以及所述第二重构文本的步骤, 包括: 利用所述自注意力机制以及所述解码器依次对所述第一隐藏序列以及所述第二隐藏 序列进行自回归式解码, 以基于每个时间步对被掩盖的每个所述情感词以及每个所述成分 词进行预测, 并输出 所述第一重构文本以及所述第二重构文本 。 7.根据权利要求1或6所述的文本检测方法, 其特 征在于, 所述确定所述第一重构文本与所述待检测文本的第一相似度以及所述第二重构文本 与所述待检测文本的第二相似度的步骤, 包括:权 利 要 求 书 2/3 页 3 CN 115204181 A 3
专利 文本检测方法、装置、电子设备以及计算机可读存储介质
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:30
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
GB-T 18354-2021 物流术语.pdf
GB-T 30127-2013 纺织品 远红外性能的检测和评价.pdf
GB-T 26333-2010 工业控制网络安全风险评估规范.pdf
GB-T 41837-2022 温泉服务 温泉水质要求.pdf
DB11-T 388.4-2015 城市景观照明技术规范 第4部分:节能要求 北京市.pdf
DB22-T 2335-2015 日本松干蚧综合防治技术规程 吉林省.pdf
T-CADERM 6007—2023 心肺转流系统用空氧混合器.pdf
GB-T 254-2022 半精炼石蜡.pdf
项目跟踪器.xltx
T-GDIIA 005—2021 信息技术应用创新项目运行维护服务标准.pdf
GB-T 13298-2015 金属显微组织检验方法.pdf
T-CNAEC 1304—2022 民用建筑无障碍设施评价标准.pdf
T-SIA 031.3—2021 系统安全工程 网络弹性构建指南 第3部分 网络弹性构建过程.pdf
GB-T 37400.3-2019 重型机械通用技术条件 第3部分:焊接件.pdf
JR-T0120_3-2016 银行卡受理终端安全规范 第3部分:自助终端.pdf
XF 95-2015 灭火器维修.pdf
等保二级-安全技术-数据安全.doc
GB-T 3411.1-2009 大坝监测仪器 孔隙水压力计 第1部分:振弦式孔隙水压力计.pdf
GB-T 18336.2-2015 信息技术 安全技术 信息技术安全评估准则 第2部分:安全功能组件.pdf
LD-T 08-2022 人力资源社会保障灾备中心建设和运维管理规范.pdf
交流群
-->
1
/
24
评价文档
赞助2元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。