(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211010810.6
(22)申请日 2022.08.23
(66)本国优先权数据
202210943515.X 202 2.08.08 CN
(71)申请人 北京工商大 学
地址 100048 北京市海淀区阜成路3 3号
申请人 中国食品药品检 定研究院
(72)发明人 左敏 葛伟 路勇 张伟清
许鸣镝 孙磊 王海燕
(74)专利代理 机构 北京科迪生专利代理有限责
任公司 1 1251
专利代理师 安丽
(51)Int.Cl.
G06F 40/284(2020.01)
G06F 40/295(2020.01)G06F 40/30(2020.01)
G06F 16/951(2019.01)
G06Q 50/00(2012.01)
(54)发明名称
一种基于深度学习的化妆品舆情文本实体
关系抽取方法
(57)摘要
本发明涉及一种基于深度学习的化妆品舆
情文本实体关系抽取方法, 包括: 对互联网上爬
取到的化妆品风险舆情文本信息进行预处理, 并
构建化妆品领域词库, 通过改进的BERT神经网络
提取字维度文本特征, 并与词嵌入的词维度信息
融合, 经过融合位置感知注意力机制的BLSTM网
络计算出多分类信息, 再整合到改进的BERT神经
网络提取字维度文本向量中再次经过融合位置
感知注意力机制的BLS TM计算, 最终通过CRF计算
最优概率, 完成化妆品风险舆情文本关系抽取。
本发明一定程度上解决了化妆品风险舆情文本
关系抽取准确程度不高, 领域性强的难题, 通过
构建新的模 型, 在融合中文部首信息的字维度的
基础上再加入词维度进行辅助表 示, 提高事件信
息抽取准确性。
权利要求书2页 说明书6页 附图2页
CN 115374778 A
2022.11.22
CN 115374778 A
1.一种基于深度学习的化妆品舆情文本实体关系抽取方法, 其特征在于, 包括以下步
骤:
步骤1、 针对化妆品风险舆情数据的四个发布渠道: 官方发布信息、 社会新闻、 电商平台
评论数据以及社交媒体相关信息, 利用搜索引擎技术和网络信息挖掘技术, 并对爬虫获取
到的原始文本数据进 行去重和筛选预 处理, 形成舆情文本语料, 针对中文文本, 使用改进的
Jieba方法进行分词, 再去除原始文本数据中没有含义的停用词, 然后基于点间互信息
(PMI)计算和人工筛选修正构建化妆品舆情领域词库, 得到提取的化妆品舆情领域的专业
词汇;
步骤2、 针对步骤1提取的化妆品舆情领域的专业词汇, 对公共领域word embedding资
源库进行增量训练, 获得化妆品舆情领域 word embedding资源库;
步骤3、 针对步骤1提取的化妆品风险舆情文本, 进行实体1、 关系和实体2三元组的语义
角色标注, 其中实体1为化妆品舆情事件的主体, 实体2 为化妆品舆情事件的客体, 关系则为
实体1与实体2之间的联系, 实体1包含婴儿霜、 大头娃娃事件、 伪劣化妆品, 实体2包含激素、
防腐剂、 过期 批件, 关系共有6种: 原料 组分、 不良反应、 风险物质、 舆情热度、 功效宣称、 非法
行为, 针对化妆品风险舆情文本, 将句子划分成不同的成分, 在同一句子成分中核心单词对
临近单词的影响程度随距离而变化, 通过累加句中所有核心词对临近单词的影响模拟整个
句子被位置感知影响的状态, 将位置感知的策略与传统的attent ion机制合并, 构建基于位
置感知的语义角色注意力机制;
步骤4、 针对步骤1提取的化妆品风险舆情文本, 采用基于双向深度自注意力变换网络
的编码器BERT构建融合中文部首特征的字向量, 再使用步骤2获得的化妆品舆情领域word
embedding资源库构建词向量, 将字向量与词向量通过基于双向长短期记忆网络BLSTM模 型
结合步骤3构建的基于位置感知的语义角色注意力机制得到 输入文本的多分类关系;
步骤5、 对输入文本提取基于双向深度自注意力变换网络的编码器BERT融合中文部首
特征的字向量, 并将步骤4得到的多分类关系信息添加到Bert预训练模型抽取的文本特征
向量中, 得到融合字词双维度的文本语义向量, 再将文本语义向量再输入到BLSTM模型、 条
件随机场CRF中, 得到最终的化妆品舆情文本实体关系抽取 结果。
2.根据权利要求1所述的一种基于深度学习的化妆品舆情文本实体关系抽取方法, 其
特征在于: 所述步骤1中, 构建的适用于化妆品舆情领域的网络爬虫时, 爬取内容有国内外
权威研究机构发布的对人类和动植物健康造成危害的信息; 国内外研究机构对化妆品不良
反应的监测数据: 国内外新闻媒体的权威报道; 化妆品生产企业在生产、 贮存、 流通及销售
环节出现的问题以及召回的信息; 国内外化妆品行业协会发布的各类信息; 社交网络中的
产品使用分享信息, 电商平台销售评论信息, 形成化妆品舆情文本语料, 并构建化妆品舆情
领域词库。
3.根据权利要求1所述的一种基于深度学习的化妆品舆情文本实体关系抽取方法, 其
特征在于: 所述步骤2中, 在公共 领域word embedding资源库的基础上, 将步骤1中得到的化
妆品领域专业词汇输入到跳跃式模型中, 进行增量训练, 随着步骤1中爬取内容的不断增
多, 每隔一段时间再将其输入到跳跃式模 型中对公共 领域word embedding资源库进行增量
训练, 最终将公共领域word embedding资源库扩展为适用于化妆品舆情领域的word
embedding资源库。权 利 要 求 书 1/2 页
2
CN 115374778 A
24.根据权利要求1所述的一种基于深度学习的化妆品舆情文本实体关系抽取方法, 其
特征在于: 所述 步骤3中, 构建基于位置感知的语义角色注意力机制具体过程如下:
(1)在句子j位置词语的注意力为:
式(1)中, hj是j位置词语的隐层向量, pj是该词语累积的位置 感知影响力向量, len为句
子中词语的个数, hi为句子中某位置词语的隐层向量, pi为该词语累积的位置感知影响力向
量, a(·)为用于测量基于隐层向量和位置感知影响力向量的词的重要性;
(2)a(·)的具体形式为:
式(2)中, WH、 WP为hj、 pj的权重矩阵; b1是属于第一层参数的偏置向量;
为ReLU函数; v为一个全局向量, vT表示它的转置; b2是属于第二层参 数的偏置向量, len为句
子中词语的个数, i是句子中某位置词语。
5.根据权利要求1所述的一种基于深度学习的化妆品舆情文本实体关系抽取方法, 其
特征在于: 所述步骤4中, 将 舆情事件文本语料输入到Bert预训练模型中获取文本的向量化
表示时, 其中具体执行过程为对整段文本输入按句 子进行分割, 然后使用深度自注意力变
换网络对输入进行编码, 编码后对句 子的部分内容进行掩盖, 掩盖后通过句 子剩余内容对
掩盖内容进 行预测, 并将预测掩盖结果与真实掩盖内容进行对比, 得到预测的误差, 根据预
测误差对模型 的参数进行调整, 通过这种 预测将输入文本映射到了 向量空间中, 得到字维
度文本向量化表示, 再根据化妆品舆情领域文本中文部首的相似性, 在768维字向量的基础
上添加了48维的额外的中文部首语义信息; 词维度通过步骤2构建 的化妆品舆情领域word
embedding资源库来得到词维度文本输入向量; 将字向量和词向量分别输入到BLSTM模型,
通过步骤3构建的语义角色注意力机制, 判断输入文本的实体关系, 经过基于位置感知的语
义角色注 意力机制的计算, 将所得到的词语注意力分配系数传播到BLSTM的 隐层向量中, 对
每个词语进行加权计算, 得到在注意力机制的影响下的文本特征, 具体注意力分配系数ra
计算过程 为:
式(3)中, hj是j位置词语的隐层向量, αj是j位置词语的注意力, len为一个句 子中词的
个数;
在得到字词双维度文本特征输出后, 将两路输出进行连接, 再通过全连接层、 sigmoid
层的计算, 最终得到 输入文本的多分类关系。
6.根据权利要求1所述的面向化妆品舆情领域的一种基于深度学习的化妆 品舆情文本
实体关系抽取方法, 其特征在于: 所述步骤5中, 将舆情事件文本语料输入到Bert预训练模
型中获取文本的向量化表 示, 获取含中文部首信息的字向量(768+48维), 并将步骤4的多分
类结果(6维)扩充136倍与字向量长度一致, 并拼接在输入文本字向量矩阵的两端, 得到具
有更加丰富语义特征的文本向量, 然后输入到BLSTM模型计算, 通过步骤3构建的基于位置
感知的语义角色注意力机制, 判断输入文本的实体关系, 经过条件随机场CRF计算最优概率
后得到最终的化妆品舆情文本实体关系抽取 结果。权 利 要 求 书 2/2 页
3
CN 115374778 A
3
专利 一种基于深度学习的化妆品舆情文本实体关系抽取方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:05上传分享