公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210061765.0 (22)申请日 2022.01.19 (71)申请人 中国平安人寿保险股份有限公司 地址 518000 广东省深圳市福田街道益田 路5033号平安金融中心14、 15、 16、 37、 41、 44、 45、 46、 54、 58、 59层 (72)发明人 黄海龙 (74)专利代理 机构 深圳市沃德知识产权代理事 务所(普通 合伙) 44347 代理人 高杰 于志光 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 文本增强方法、 装置、 设备及存 储介质 (57)摘要 本发明涉及人工智能技术, 揭露一种文本增 强方法, 包括: 获取标准序列训练数据, 对 标准序 列训练数据进行线性化处理, 得到线性训练数 据; 对线性训练数据进行词嵌入处理, 得到线性 训练向量; 对 预设的文本增强模 型进行去拟合操 作, 得到初始文本增强模型, 基于训练数据集对 初始文本增强模 型进行训练, 得到训练好的文本 增强模型; 将线性训练向量输入至训练好的文本 增强模型中进行增强处理, 得到文本预测结果; 对文本预测结果进行后验证处理, 得到标准文本 增强结果。 此外, 本发明还涉及区块链技术, 线 性 训练数据可存储于区块链的节 点。 本发明还提出 一种文本增强装置、 电子设备以及存储介质。 本 发明可以提高文本增强的有效性。 权利要求书2页 说明书14页 附图2页 CN 114398890 A 2022.04.26 CN 114398890 A 1.一种文本增强方法, 其特 征在于, 所述方法包括: 获取标准序列训练数据, 对所述标准序列训练数据进行线性化处理, 得到线性训练数 据; 利用预设的词嵌入算法对所述线性训练数据进行词嵌入处 理, 得到线性训练向量; 对预设的文本增强模型进行去拟合操作, 得到初始文本增强模型, 基于训练数据集对 所述初始文本增强模型进行训练, 得到训练好的文本增强模型; 将所述线性训练向量输入至所述训练好的文本增强模型中进行增强处理, 得到文本预 测结果; 对所述文本预测结果进行后验证处 理, 得到标准文本增强结果。 2.如权利要求1所述的文本增强方法, 其特征在于, 所述利用预设的词嵌入算法对所述 线性训练数据进行词嵌入处 理, 得到线性训练向量, 包括: 以所述线性训练数据的总数为预设矩阵的列数, 以预设固定参数为所述预设矩阵的行 数, 构建得到初始 矩阵向量; 将所述线性训练数据填入所述初始矩阵向量中的每一列的任意一个位置 中, 并将每一 列中的除去所述线性训练数据以外的位置对应的数据填充为预设的标准数值, 得到线性训 练向量。 3.如权利要求1所述的文本增强方法, 其特征在于, 所述将所述线性训练向量输入至所 述训练好的文本增强模型中进行增强处 理, 得到文本预测结果, 包括: 通过所述训练好的文本增强模型中的输入门计算所述线性训练向量的状态值; 通过所述训练好的文本增强模型中的遗 忘门计算所述线性训练向量的激活值; 根据所述状态值和所述激活值计算所述线性训练向量的状态更新 值; 利用所述训练好的文本增强模型中的输出门计算所述状态更新值对应的初始文本数 据; 将所述初始文本数据输入至预设的全连接层中, 得到预测概率, 根据所述预测概率得 到文本预测结果。 4.如权利要求1所述的文本增强方法, 其特征在于, 所述利用所述训练好的文本增强模 型中的输出门计算所述状态更新 值对应的初始文本数据, 包括: ot=tan h(ct) 其中, ot表示初始文本数据, tan h表示输出门的激活函数, ct表示状态更新 值。 5.如权利要求1所述的文本增强方法, 其特征在于, 所述对预设的文本增强模型进行去 拟合操作, 得到初始文本增强模型, 包括: 获取预设的停止概 率, 并识别所述文本增强模型中的多个神经 元; 统计多个所述神经元的数量, 得到神经元数量值, 将所述神经元数量值与所述停止概 率进行相乘计算, 得到停止数量 值; 随机提取出多个所述神经元中与 所述停止数量值的数值一致的神经元, 令与 所述停止 数量值的数值 一致的神经 元的激活值 为预设数值, 得到初始文本增强模型。 6.如权利要求1所述的文本增强方法, 其特征在于, 所述对所述文本预测结果进行后验 证处理, 得到标准文本增强结果, 包括: 对所述文本预测结果进行标注检测, 将所述标注检测为空白的文本预测结果中的文本权 利 要 求 书 1/2 页 2 CN 114398890 A 2执行删除操作; 判断标注检测后的所述文本预测结果中的文本是否满足预设的标注条件, 对不满足所 述标注条件的文本执 行删除操作, 得到标准文本增强结果。 7.如权利要求1至6中任一项所述的文本增强方法, 其特征在于, 所述对所述标准序列 训练数据进行线性 化处理, 得到线性训练数据, 包括: 提取所述标准序列训练数据中的多个标注词和所述标注词对应的标注标签; 分别将多个所述标注词和所述标注词对应的标注标签进行结合及汇总, 得到线性训练 数据。 8.一种文本增强装置, 其特 征在于, 所述装置包括: 数据线性化模块, 用于获取标准序列训练数据, 对所述标准序列训练数据进行线性化 处理, 得到线性训练数据; 词嵌入模块, 用于利用预设的词嵌入算法对所述线性训练数据进行词嵌入处理, 得到 线性训练向量; 文本预测模块, 用于对预设的文本增强模型进行去拟合操作, 得到初始文本增强模型, 基于训练数据集对所述初始文本增强模型进行训练, 得到训练好的文本增强模型, 将所述 线性训练向量输入至所述训练好的文本增强模型中进行增强处 理, 得到文本预测结果; 结果后验证模块, 用于对所述文本预测结果进行后验证处 理, 得到标准文本增强结果。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及, 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处理器执行, 以使 所述至少一个处理器能够执行如权利要求 1至7中任意一项 所 述的文本增强方法。 10.一种计算机可读存储介质, 存储有计算机程序, 其特征在于, 所述计算机程序被处 理器执行时实现如权利要求1至7中任意 一项所述的文本增强方法。权 利 要 求 书 2/2 页 3 CN 114398890 A 3
专利 文本增强方法、装置、设备及存储介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:33:50
上传分享
举报
下载
原文档
(603.8 KB)
分享
友情链接
GB-T 8054-2008 计量标准型一次抽样检验程序及表.pdf
CISP 注册信息安全专业人员培训教材 2019.pdf
GB-Z 24294.4-2017 信息安全技术 基于互联网电子政务信息安全实施指南 第4部分:终端安全防护.pdf
GB-T 10112-2019 术语工作 原则与方法.pdf
DB51-T 2247-2016 重点用能单位节能管理规范 四川省.pdf
T-ACEF 110—2023 公民绿色低碳行为温室气体减排量化指南 行:机动车停驶.pdf
中安网星 智域安全管家-v3.1.pdf
GB-T 20257.2-2017 国家基本比例尺地图图式 第2部分:15 000 110 000地形图图式.pdf
GB-T 38634.2-2020 系统与软件工程 软件测试 第2部分:测试过程.pdf
DB3305-T 244-2022 数字法院信息系统运维管理规范 湖州市.pdf
GB-T 40224-2021 雨水渗透、调蓄、储存用塑料模块.pdf
GB-T 11446.1-2013 电子级水.pdf
T-CSAE 137—2020 汽车紧固点防水密封性能试验及评价方法.pdf
信息安全能力建设5级矩阵 英文版.pdf
专利 一种新能源汽车用水冷板散热器碰焊定位装置.PDF
DB5226-T 233-2022 大球盖菇冬闲田栽培技术规程 黔东南苗族侗族自治州.pdf
信创云安全建设实践.pdf
GB-T 39772.2-2021 北斗地基增强系统基准站建设和验收技术规范 第2部分:验收规范.pdf
GB 25527-2010 矿用混装炸药车 安全要求.pdf
GA-T 1390.5-2017 信息安全技术 网络安全等级保护基本要求 第5部门 工业控制系统安全扩展要求.pdf
交流群
-->
1
/
19
评价文档
赞助2元 点击下载(603.8 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。