公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221095123 5.3 (22)申请日 2022.08.09 (71)申请人 四川封面传媒科技有限责任公司 地址 610020 四川省成 都市锦江区红星路 二段70号1幢传媒大厦8楼 (72)发明人 陈涵宇 高登科 徐桢虎 陈功彬 张笑然 (74)专利代理 机构 成都虹桥专利事务所(普通 合伙) 51124 专利代理师 吴中伟 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 16/215(2019.01) G06F 16/951(2019.01)G06F 16/9535(2019.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 基于线索簇的流式新闻线索发现方法 (57)摘要 本发明基于线索簇的流式新闻线索发现方 法, 涉及新闻发现, 通过从UGC平台获取新闻, 并 基于设定的触发词提取每个新闻的事件类别和 论元, 并利用线索簇中的线索将从UGC平台获取 的新闻进行分类 保存, 在利用新闻价值预测模型 对线索簇中的线索进行价值预测, 并与UGC平台 信任度分数进行加权, 得到新闻价值预测分数, 生成实时线索列表, 解决了 现有技术对新闻事件 的数据抓取困难, 时效性低的问题, 本发明适用 于新闻的发现。 权利要求书2页 说明书4页 附图1页 CN 115309900 A 2022.11.08 CN 115309900 A 1.基于线索簇的流式新闻线索发现方法, 其特 征在于, 包括以下步骤: S01、 获取UGC平台的新闻; S02、 基于设定的触发词提取新闻的事 件类别和论元; S03、 如果抽取出事件类别, 则判定抽取出的事件类别和论元与线索簇 中已存在的线索 是否匹配, 所述线索包括事件类别和论元, 如果匹配, 则将所述新闻放入匹配到的线索内, 如果不匹配, 则将抽取 出的事件类别和论元作为 新的线索放入线索簇; S04、 如果没有抽取出事件类别, 则抽取所述新闻的要素, 所述新 闻的要素包括时间、 地 点和人物, 利用多模态的深度匹配技术得到所述新闻和线索簇中已有的新闻的匹配度, 如 果人物要 素和地点要 素相同, 时间要 素差距在预设值之内, 且匹配度大于阈值, 则将所述新 闻放入匹配到的 已有的新闻所在的事件类型内所在的事件内, 否则, 将新闻的要素作为新 的线索放入线索簇, 并将所述 新闻放入所述 新的线索内; S05、 利用新闻价值预测模型对线索簇中的线索进行价值预测, 获得新闻价值分数, 并 和UGC平台信任度分数进行加权, 得到新闻价 值预测分数, 并排序, 生成实时线索列表。 2.根据权利要求1所述的基于线索簇的流式新闻线索发现方法, 其特征在于, 获取UGC 平台的新闻包括以下步骤: S101、 梳理各 大UGC平台, 并对每 个UGC平台进行 可信度打 分; S102、 根据可信度动态分配抓取资源, 构建实时新闻爬取算法, 获得每个UGC平台的新 闻; S103、 构建基于词典、 拼音、 异形字和深度学习的敏感检测算法对新闻进行过滤, 构建 基于规则、 知识图谱以及深度学习方法的虚假信息检测算法对新闻再次过 滤; S104、 对新闻进行字段清洗、 标准 化和去重处 理。 3.根据权利要求2所述的基于线索簇的流式新闻线索发现方法, 其特征在于, 所述敏感 检测算法用于过 滤掉涉黄、 涉爆和广告, 所述虚假信息检测算法用于过 滤掉虚假信息 。 4.根据权利要求1 ‑3任意一项所述的基于线索簇的流式新闻线索发现方法, 其特征在 于, 步骤S02中, 基于设定的触发词抽取 所述新闻的事 件类别和论元包括以下步骤: S201、 根据预 先设定的事 件触发词对新闻 中的句子进行事 件类型分类; S202、 利用联合模型DM CNN进行句子级别的开 放域事件抽取, 获得句子级别事 件论元; S203、 结合句子中论元实体词重要度进行加权得分计算, 选取最高分的句子论元作为 新闻事件论元。 5.根据权利要求1 ‑3任意一项所述的基于线索簇的流式新闻线索发现方法, 其特征在 于, 步骤S03中, 判定抽取出的事件类别和论元与线索簇中已存在的线索是否匹配通过 Single‑Pass实现。 6.根据权利要求1 ‑3任意一项所述的基于线索簇的流式新闻线索发现方法, 其特征在 于, 步骤S04中, 抽取 所述新闻的要素包括以下步骤: S401、 基于bert将新闻标题和正文句子embedding为语义向量, 以标题内容作为中心向 量, 利用TextRan k对正文句子进行建模打 分, 得到每 个句子重要程度分数; S402、 针对每个句子, 采用词典和基于双向LSTM+CRF的深度学习相 结合的方式进行实 体抽取, 获得每 个句子的不同新闻要素的实体得分; S403、 利用标题内容抽取实体的置信度以及句子重要程度, 对每个句子中的同一新闻权 利 要 求 书 1/2 页 2 CN 115309900 A 2要素的实体进行加权得分计算, 选取 得分最高的实体作为所述同一 新闻要素的实体。 7.根据权利要求1 ‑3任意一项所述的基于线索簇的流式新闻线索发现方法, 其特征在 于, 步骤S 04中, 利用多模态的深度匹配技术得到所述新闻和线索簇中已有的新闻的匹配度 包括以下步骤: S4001、 获取新闻的人物实体, 如果所述新闻的人物实体与线索簇中的新闻人物不一 致, 则匹配度为0; S4002、 如果所述新闻的人物实体与线索簇中的新闻人物一致, 则将新 闻的标题、 正文、 摘要、 图片和视频中的多种embedding为语义向量, 构建基于全连接的多模态深度匹配模 型, 得到新闻和线索簇中已有的新闻的匹配度。 8.根据权利要求1 ‑3任意一项所述的基于线索簇的流式新闻线索发现方法, 其特征在 于, 所述新闻价值预测模型通过将标题、 正文、 摘要、 图片、 视频embedding为语义向量, 并结 合新闻要素和转赞评论数量利用深度预测模型进行 预测, 获得新闻价 值分数。权 利 要 求 书 2/2 页 3 CN 115309900 A 3
专利 基于线索簇的流式新闻线索发现方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:15
上传分享
举报
下载
原文档
(520.1 KB)
分享
友情链接
GB-T 32169.3-2015 政务服务中心运行规范 第3部分:窗口服务提供要求.pdf
DB11-T 1484-2017 固定污染源废气挥发性有机物监测技术规范 北京市.pdf
GM-T 0100-2020 人工确权型数字签名密码应用技术要求.pdf
NY-T 3928-2021 农作物品种试验规范 茶树.pdf
CSA 实现安全应用容器架构的最佳实践.pdf
T-GCHA 1.3—2018 定制家居产品 人造板定制衣柜 第3部分:有害物质限量及气味等级.pdf
GB-T 29157-2012 浮法玻璃生产生命周期评价技术规范 产品种类规则.pdf
GB-T 31439.2-2015 波形梁钢护栏 第2部分:三波形梁钢护栏.pdf
DB14-T 2989—2024 山西电子政务外网电子认证数字证书管理规范 山西省.pdf
GB/T 19237-2021 汽车用压缩天然气加气机.pdf
GB-T 36361-2018 LED加速寿命试验方法.pdf
T-CBMF 61—2019 混凝土外加剂行业清洁生产 评价指标体系.pdf
GB-T 42013-2022 信息安全技术 快递物流服务数据安全要求.pdf
GM-T 0059-2018 服务器密码机检测规范.pdf
GB-T 13813-2023 煤矿用金属材料摩擦火花安全性试验方法和判定规则.pdf
5-02-01-02 造林更新工.pdf
DB51-T 2798-2021 公路旅游标志设置规范 四川省.pdf
GD-J 037-2011 广播电视相关信息系统安全等级保护定级指南.pdf
JR-T0156-2017 移动终端支付可信环境技术规范.pdf
德勤中国 数字化时代下的网络安全战略框架 .pdf
交流群
-->
1
/
8
评价文档
赞助2元 点击下载(520.1 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。