公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210921753.0 (22)申请日 2022.08.02 (71)申请人 福建省科立方科技有限公司 地址 361008 福建省厦门市思明区高雄路 16号1608室 (72)发明人 黄明明 施东晓 廖晓洁 (74)专利代理 机构 泉州田南联创专利代理事务 所(普通合伙) 35258 专利代理师 庄俊佳 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06F 40/295(2020.01) (54)发明名称 一种用于政策解读语义的分析算法 (57)摘要 本发明公开的是一种用于政策解读语义的 分析算法, 包括分析模型, 分析模型包括BERT语 言模型、 TCN时序模型及CRF概率模型, 分析算法 包括: 1、 将需要识别的政策文件输入到分析模型 中; 2、 BERT语言模型将步骤一输入的文件 转化为 包含上下文信息的词向量; 3、 TCN时序模型对步 骤二得到的词向量进行分类; 4、 CRF概率模型对 步骤三中分类好的词向量进行句子顺序的调整; 5、 使用正则匹配来对模 型输出的结果进行清洗; 6、 对识别出实体进行抽取与展 示, 完成政策解读 语义的分析。 本发明能够运用命名实体识别技术 对政策文件进行分析研究, 自动识别并分类政策 中的有价值信息, 解决了识别结果清洗入库工 作, 同时对于识别错误的字段也进行判别并记 录。 权利要求书2页 说明书5页 附图2页 CN 115292490 A 2022.11.04 CN 115292490 A 1.一种用于政策解读语义的分析算法, 其特征在于: 包括分析模型, 所述分析模型包括 BERT语言模型、 TCN时序模型以及CRF概 率模型, 所述分析算法包括以下 具体分析步骤: 步骤一: 将需要识别的政策文件输入到分析模型中; 步骤二: 所述BERT语言模型将步骤一输入的文件转 化为包含上下文信息的词向量; 步骤三: 所述TCN时序模型对步骤二得到的词向量进行分类; 步骤四: 所述CRF概 率模型对步骤三中分类好的词向量进行句子顺序的调整; 步骤五: 使用正则匹配来对 模型输出的结果进行清洗; 步骤六: 对识别出实体进行抽取与展示, 完成政策解读语义的分析。 2.根据权利要求1所述的一种用于政策解读语义的分析算法, 其特征在于: 所述步骤二 中的转化过程包括: (1)利用BIOES标注法对数据进行标注, 其中, B表示一个句子的开头, I表示句子中的实 体, O表示无关紧要的内容, E表示句子的结尾, S表示单个字组成的实体; (2)利用步骤(1)中标注好的数据对BERT语言模型进行训练, 其训练过程为: 先将标注 好的数据经 过BERT网络, 再将输入的数据转换成包 含有上下语义的嵌入词向量。 3.根据权利要求2所述的一种用于政策解读语义的分析算法, 其特征在于: 所述步骤 (2)中BERT网络的整体框架由多层transformer的encoder堆叠而成, 每层的encoder由一层 的muti‑head‑attention和一层feed ‑forword组成, 每个attention通过目标词与句子中的 所有词汇的相关度, 对目标词重新编码, 得到每 个词新的编码。 4.根据权利要求3所述的一种用于政策解读语义的分析算法, 其特征在于: 所述 attention的计算包括以下三个步骤: 步骤一: 计算词之间的相关度, 通过三个权重矩阵对输入的序列向量(512*768)做线性 变换, 分别生 成query、 key和value三个新的序列向量, 用每个词的query向量分别和序列中 的所有词的key向量做 乘积, 得到词与词之间的相关度; 步骤二: 对相关度归一 化, 将步骤一得到的相关度通过softmax进行归一 化; 步骤三: 通过相关度与所有词的编码进行加权求和, 将步骤二得到的归一化的权重与 value加权求和, 得到每 个词新的编码。 5.根据权利要求3所述的一种用于政策解读语义的分析算法, 其特征在于: 所述BERT网 络包括有24层t ransformer, 每层t ransformer具有16个at tention。 6.据权利要求2所述的一种用于政策解读语义的分析算法, 其特征在于: 所述步骤六中 识别出的实体为属于I类的实体。 7.根据权利要求1所述的一种用于政策解读语义的分析算法, 其特征在于: 所述步骤三 中TCN时序模型进行词向量分类的具体过程包括: (1)先将步骤二输入的词向量输入到TCN网络中; (2)利用TCN时序卷积网络对步骤(1)中输入的词向量进行分类。 8.根据权利要求1所述的一种用于政策解读语义的分析算法, 其特征在于: 所述步骤四 中的句子顺序的调整方式为: 将分类完成的词向量输入到CRF条件随机场, 然后调整顺利, 使其符合句子的顺序要求, 完成句子顺序的调整。 9.根据权利要求5所述的一种用于政策解读语义的分析算法, 其特征在于: 所述CRF条 件随机场为判别式概率分布模型, 是给定一组输入随机变量X的条件下另一组输出随机变权 利 要 求 书 1/2 页 2 CN 115292490 A 2量Y的马尔可 夫随机场。权 利 要 求 书 2/2 页 3 CN 115292490 A 3
专利 一种用于政策解读语义的分析算法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:20
上传分享
举报
下载
原文档
(664.8 KB)
分享
友情链接
DB51-T 3121-2023 电子政务外网技术规范 四川省.pdf
burp web cache poisoning web缓存投毒 英文版.pdf
GB-T 43366-2023 宇航用半导体分立器件通用规范.pdf
DB44-T 2368-2022 社会组织能力建设指南 广东省.pdf
绿盟 SecXOps安全智能分析技术白皮书.pdf
GB-T 36630.1-2018 信息安全技术 信息技术产品安全可控评价指标 第1部分:总则.pdf
T-ZJFS 012—2024 科创企业认定与评价指南.pdf
GB-T 5585.1-2018 电工用铜、铝及其合金母线 第1部分:铜和铜合金母线.pdf
GB-T 41958-2022 浸胶帆布 导热性能试验方法.pdf
GB-T 36629.3-2018 信息安全技术 公民网络电子身份标识安全技术要求 第3部分:验证服务消息及其处理规则.pdf
GB-T 35284-2017 信息安全技术 网站身份和系统安全要求与评估方法.pdf
GB-T 41780.1-2022 物联网 边缘计算 第1部分:通用要求.pdf
青藤云安全 威胁狩猎实践指南.pdf
GM T 0131-2023 电子签章应用接口规范.pdf
数据安全事件管理办法.pdf
T-CNFMA B024—2022 园林机械用18V锂离子电池包的通用接口及通信协议.pdf
DB51-T 2799-2021 四川省高速公路景观及绿化设计指南 四川省.pdf
T-GBMA 001—2019 陶瓷大板施工技术规程.pdf
DB15-T 2675—2022 盐碱地改良水盐动态监测与评价导则 内蒙古自治区.pdf
GB-T 24915-2020 合同能源管理技术通则.pdf
交流群
-->
1
/
10
评价文档
赞助2元 点击下载(664.8 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。