(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210965268.3
(22)申请日 2022.08.12
(65)同一申请的已公布的文献号
申请公布号 CN 115033668 A
(43)申请公布日 2022.09.09
(73)专利权人 清华大学
地址 100084 北京市海淀区双清路3 0号清
华大学清华园北京 100084-82信箱
(72)发明人 侯磊 师凯杰 孟斌杰 李涓子
张鹏 唐杰 许斌
(74)专利代理 机构 北京路浩知识产权代理有限
公司 11002
专利代理师 程琛
(51)Int.Cl.
G06F 16/33(2019.01)G06F 16/35(2019.01)
G06F 40/284(2020.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)
审查员 王东
(54)发明名称
故事脉络构建方法、 装置、 电子设备和存储
介质
(57)摘要
本发明涉及自然语 言处理技术领域, 提供一
种故事脉络构建方法、 装置、 电子设备和存储介
质, 包括: 获取待构建脉络的新闻集合; 基于关系
检测模型, 对新闻集合中的每两个新闻进行脉络
关系检测, 得到每两个新闻之间的脉络关系检测
结果; 基于每两个新闻之间的脉络关系检测结
果, 构建新闻集合对应的故事脉络; 关系检测模
型基于正样 本对和负样本对训练得到, 正样本对
基于话题相同、 时间相邻且事件不同的样本新闻
确定, 负样 本对基于话题相同且时间间隔的样本
新闻和/或话题不同的样本新闻确定, 样本新闻
的话题和事件基于聚类得到。 本发 明在无需人工
参与的情况下, 提高了数据集构建的效率和可靠
性, 扩张了数据集规模, 保障了故事脉络构建的
可靠性和准确性。
权利要求书2页 说明书17页 附图3页
CN 115033668 B
2022.11.11
CN 115033668 B
1.一种故事脉络构建方法, 其特 征在于, 包括:
获取待构建脉络的新闻集 合;
基于关系检测模型, 对所述新闻集合中的每两个新闻进行脉络关系检测, 得到所述每
两个新闻之间的脉络关系检测结果;
基于所述每两个新闻之间的脉络关系检测结果, 构建所述 新闻集合对应的故事脉络;
所述关系检测模型是基于正样本对和负样本对训练得到的, 所述正样本对基于话题相
同、 时间相邻且事件不同的样本新闻确定, 所述负样本对基于话题相同且时间间隔的样本
新闻和/或基于话题不同的样本新闻确定, 所述样本新闻的话题和事 件基于聚类得到;
所述正样本对的确定步骤 包括:
基于话题相同、 时间相邻且 事件不同的样本新闻, 构建候选样本对;
基于所述候选样本对中样本新闻之间共现实体的数量、 所述样本新闻之间的语义相似
度、 所述候选样本对的事件相关信息以及所述候选样本对的事件连续信息, 确定所述正样
本对;
所述事件连续信 息包括两个样本新闻的主题是否一致, 发生在后的样本新闻是否为发
生在前的样本新闻的后续事 件, 两个样本新闻的内容是否属于总 ‑分关系或者分 ‑总关系。
2.根据权利要求1所述的故事脉络构建方法, 其特征在于, 所述候选样本对的事件相关
信息的确定步骤 包括:
对所述候选样本对中的两个样本新闻分别进行主要实体提取, 得到所述两个样本新闻
的主要实体, 所述主要实体包括对应样本新闻的事件发起者、 参与者和承担者中的至少一
种;
对所述两个样本新闻分别进行关键词抽取, 得到所述两个样本新闻的关键词;
基于所述两个样本新闻的主要实体的共现数量, 以及所述两个样本新闻的关键词的共
现数量, 确定所述事 件相关信息 。
3.根据权利要求1所述的故事脉络构建方法, 其特征在于, 所述候选样本对的事件连续
信息的确定步骤 包括:
对所述候选样本对中的两个样本新闻分别进行主题抽取, 得到所述两个样本新闻的主
题;
基于事件逻辑检测模型, 对所述两个样本新闻的事件发生逻辑顺序进行检测, 得到所
述两个样本新闻的事 件发生逻辑 顺序;
基于内容包含关系检测模型, 对所述两个样本新闻的内容包含关系进行检测, 得到所
述两个样本新闻的内容包 含关系;
基于所述两个样本新闻的主题、 事件发生逻辑顺序和内容包含关系中的至少一种, 确
定所述事 件连续信息 。
4.根据权利要求1所述的故事脉络构建方法, 其特征在于, 所述基于话题相同、 时间相
邻且事件不同的样本新闻, 构建候选样本对, 之前还 包括:
对样本新闻进行话题聚类, 得到多个话题下的话题新闻集合, 不同话题新闻集合内的
样本新闻的话题不同;
对所述话题新闻集合下的样本新闻进行事件聚类, 得到所述话题新闻集合下多个事件
下的事件新闻集 合, 不同事 件新闻集 合内的样本新闻的事 件不同。权 利 要 求 书 1/2 页
2
CN 115033668 B
25.根据权利要求1至4中任一项所述的故事脉络构建方法, 其特征在于, 所述基于所述
候选样本对中样本新闻之间共现实体的数量、 所述样本新闻之间的语义相似度、 所述候选
样本对的事件相关信息以及所述候选样本对的事件连续信息中的至少一种, 确定所述正样
本对, 包括:
基于所述候选样本对中样本新闻之间共现实体的数量和所述样本新闻之间的语义相
似度, 筛选作为第一样本对的候选样本对;
基于所述作为第 一样本对的候选样本对的事件相关信 息, 筛选作为第 二样本对的候选
样本对;
基于所述作为第二样本对的候选样本对的事 件连续信息, 筛 选所述正样本对。
6.根据权利要求1至4中任一项所述的故事脉络构建方法, 其特征在于, 所述获取待构
建脉络的新闻集 合, 包括:
获取初始新闻集 合;
对所述初始新闻集 合进行话题聚类, 得到 至少一个话题下的初始话题新闻集 合;
对所述初始话题新闻集 合进行事 件聚类, 得到多个事 件下的初始事 件新闻集 合;
从一个话题下的每个初始事件新闻集合中分别选取一个新闻, 构建所述待构建脉络的
新闻集合。
7.一种故事脉络构建装置, 其特 征在于, 包括:
新闻确定单 元, 用于获取待构建脉络的新闻集 合;
关系检测单元, 用于基于关系检测模型, 对所述新闻集合中的每两个新闻进行脉络关
系检测, 得到所述每两个新闻之间的脉络关系检测结果;
脉络构建单元, 用于基于所述每两个新闻之间的脉络关系检测结果, 构建所述新闻集
合对应的故事脉络;
所述关系检测模型是基于正样本对和负样本对训练得到的, 所述正样本对基于话题相
同、 时间相邻且事件不同的样本新闻确定, 所述负样本对基于话题相同且时间间隔的样本
新闻和/或基于话题不同的样本新闻确定, 所述样本新闻的话题和事 件基于聚类得到;
所述正样本对的确定步骤 包括:
基于话题相同、 时间相邻且 事件不同的样本新闻, 构建候选样本对;
基于所述候选样本对中样本新闻之间共现实体的数量、 所述样本新闻之间的语义相似
度、 所述候选样本对的事件相关信息以及所述候选样本对的事件连续信息, 确定所述正样
本对;
所述事件连续信 息包括两个样本新闻的主题是否一致, 发生在后的样本新闻是否为发
生在前的样本新闻的后续事 件, 两个样本新闻的内容是否属于总 ‑分关系或者分 ‑总关系。
8.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运
行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至6任一项所
述故事脉络构建方法。
9.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机
程序被处 理器执行时实现如权利要求1至 6任一项所述故事脉络构建方法。权 利 要 求 书 2/2 页
3
CN 115033668 B
3
专利 故事脉络构建方法、装置、电子设备和存储介质
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:13上传分享