公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210971549.X (22)申请日 2022.08.12 (71)申请人 江西理工大 学 地址 341000 江西省赣州市红旗大道86号 (72)发明人 廖列法 杨长沛  (74)专利代理 机构 深圳市励知致远知识产权代 理有限公司 4 4795 专利代理师 贾永华 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 10/06(2012.01) (54)发明名称 识别上市企业风险的方法、 装置、 电子设备 及存储介质 (57)摘要 本申请提供了一种识别上市企业风险的方 法、 装置、 电子设备及存储介质, 该识别上市企业 风险的方法包括: 获取待识别上市企业句子文 本; 将待识别上市企业句子文本输入 预设风险信 息抽取模型中的RoBERTa ‑wwm模块, 得到包含上 下文语义信息的字符级向量; 将 字符级向量输入 预设风险信息抽取模型中的BILS TM模块, 得到双 向语义特征向量; 将字 符级向量和双向语义特征 向量输入预设风险信息抽取模型的Attention模 块中进行特征融合, 得到调整权重后的句子文本 特征向量; 将句子文本 特征向量输入CRF模块, 得 到预测序列结果。 本申请可以提高识别上市企业 风险的方法准确度。 权利要求书2页 说明书16页 附图8页 CN 115329765 A 2022.11.11 CN 115329765 A 1.一种识别上市企业 风险的方法, 其特 征在于, 所述识别上市企业 风险的方法包括: 获取待识别上市企业句子文本; 将待识别上市企业句子文本输入预设风险信息抽 取模型中的RoBERTa ‑wwm模块, 得到 包含上下文语义信息的字符级向量; 将所述字符级向量输入预设风险信息抽取模型中的BILSTM模块, 得到双向语义特征向 量; 将字符级向量和双向语义特征向量输入预设风险信息抽取模型的Attention模块中进 行特征融合, 得到调整权 重后的句子文本特 征向量; 将所述句子文本特 征向量输入CRF模块, 得到预测序列结果。 2.根据权利要求1所述的识别上市企业风险的方法, 其特征在于, 所述获取待识别上市 企业句子文本, 之前, 包括: 获取历史年份的多个第一上市企业 年报数据; 将多个第一上市企业年报数据中名称包含预设标识的第 一上市企业年报数据剔除, 得 到多个第二上市企业 年报数据; 根据多个第二上市企业 年报数据对所述预设风险信息抽取模型进行训练。 3.根据权利要求2所述的识别上市企业风险的方法, 其特征在于, 所述根据多个第 二上 市企业年报数据对所述预设风险信息抽取模型进行训练, 包括: 将多个第二上市企业年报数据中每个第二上市企业年报数据中的第一章节和第四章 节的内容保留, 得到多个第三上市企业 年报数据; 根据多个第三上市企业 年报数据对所述预设风险信息抽取模型进行训练。 4.根据权利要求3所述的识别上市企业风险的方法, 其特征在于, 所述根据多个第 三上 市企业年报数据对所述预设风险信息抽取模型进行训练, 包括: 获取多个第三上市企业 年报数据中各个章节下的标题文本, 得到风险文本数据集; 基于预设的风险短语分类规则和BIO三元标记法使用YEDDA轻量级协作文本跨度注释 工具对风险文本数据集进行风险短语标注, 得到标注文本数据集; 基于所述标注文本数据集对所述预设风险信息抽取模型进行训练。 5.根据权利要求4所述的识别上市企业风险的方法, 其特征在于, 所述基于所述标注文 本数据集对所述预设风险信息抽取模型进行训练, 包括: 按预设比例将标注文本数据集分为训练集、 验证集和 测试集; 根据训练集、 验证集和 测试集对所述预设风险信息抽取模型进行训练; 根据精确率、 召回率、 F1值对预设风险信息抽取模型进行评估。 6.根据权利要求1所述的识别上市企业风险的方法, 其特征在于, 对所述预设风险信 息 抽取模型进行训练的训练参数包括: bateh_size设为16, dropout设为0.5, 学习率设为3e ‑ 5, epochs设为64轮, 采用Adam优化器。 7.根据权利要求1所述的识别上市企业风险的方法, 其特征在于, 所述RoBERTa ‑wwm‑ ext模型一共12层t ransformer, BI LSTM的隐藏层为128维。 8.一种识别上市企业 风险的装置, 其特 征在于, 所述识别上市企业 风险的装置包括: 文本获取 单元, 用于获取待识别上市企业句子文本; 字符级获取单元, 用于将待识别上市企业句子文本输入预设风险信息抽取模型中的权 利 要 求 书 1/2 页 2 CN 115329765 A 2RoBERTa‑wwm模块, 得到包 含上下文语义信息的字符级向量; 双向语义获取单元, 用于将所述字符级向量输入预设风险信息抽取模型中的BILSTM模 块, 得到双向语义特 征向量; 权重调整单元, 用于将字符级向量和双向语义特征向量输入预设风险信 息抽取模型的 Attention模块中进行 特征融合, 得到调整权 重后的句子文本特 征向量; 预测单元, 用于将所述句子文本特 征向量输入CRF模块, 得到预测序列结果。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 一个或多个处 理器; 存储器; 以及 一个或多个应用程序, 其中所述一个或多个应用程序被存储于所述存储器中, 并配置 为由所述处 理器执行以实现权利要求1至7任一项所述的识别上市企业 风险的方法。 10.一种计算机可读存储介质, 其特征在于, 其上存储有计算机程序, 所述计算机程序 被处理器进行加载, 以执行权利要求1至7任一项所述的识别上市企业风险的方法中的步 骤。权 利 要 求 书 2/2 页 3 CN 115329765 A 3

PDF文档 专利 识别上市企业风险的方法、装置、电子设备及存储介质

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 识别上市企业风险的方法、装置、电子设备及存储介质 第 1 页 专利 识别上市企业风险的方法、装置、电子设备及存储介质 第 2 页 专利 识别上市企业风险的方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:12上传分享
交流群
  • //public.wenku.github5.com/wodemyapi/22.png
-->
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。