公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211022616.X (22)申请日 2022.08.25 (71)申请人 北京聆心智能科技有限公司 地址 100083 北京市海淀区成府路28号1 1 层4-1106 (72)发明人 彭立彪 郑银河 黄民烈 (74)专利代理 机构 北京墨丘知识产权代理事务 所(普通合伙) 11878 专利代理师 唐忠仙 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种对话数据扩 展方法、 装置及设备 (57)摘要 本申请实施例涉及人工智能领域, 公开了一 种对话数据扩展方法、 装置及设备。 本申请实施 例涉及对话数据扩展方法包括: 获取对话语料 库; 拆分对话语料库, 得到第一角色训练集以及 第二角色训练集; 分别依据第一角色训练集以及 第二角色训练集对第一对话模型以及第二对话 模型进行训练, 得到第一角色以及第二角色对话 模型; 将第一角色对话模型与所述第二角色对话 模型进行对话, 得到目标对话数据集。 可见, 将完 整的对话信息作为训练样本, 得到每个角色可用 于生成目标对话数据集的对话模 型, 并汇总最后 的目标数据集作为训练样本数据, 实现对话数据 的扩展。 这样, 保证了最终得到的训练样本在对 话过程中上 下文逻辑的连贯 性。 权利要求书2页 说明书9页 附图2页 CN 115098665 A 2022.09.23 CN 115098665 A 1.一种对话数据扩展方法, 其特 征在于, 所述方法包括: 获取对话语料库, 所述对话语料库包括: 至少一组第 一角色与第二角色的对话信 息, 所 述第一角色与所述第二角色为非对等型聊天关系; 对所述对话语料库进行拆分, 得到第一角色训练集以及第二角色训练集; 依据所述第一角色训练集对第一对话模型进行训练, 得到第一角色对话模型; 依据所述第二角色训练集对第二对话模型进行训练, 得到第二角色对话模型; 调用所述第 一角色对话模型与所述第 二角色对话模型进行对话场景训练, 得到目标对 话数据集, 以实现数据扩展。 2.如权利要求1所述的方法, 其特征在于, 所述对话语料库由所述第 一角色与 所述第二 角色的历史对话记录得到 。 3.如权利要求1所述的方法, 其特征在于, 所述至少一组第 一角色与第 二角色的对话信 息中的每一个, 包括: 第一角色对应的语境信息、 第二角色对应的语境信息、 第一角色应答 信息以及第二角色应答信息 。 4.如权利要求1所述的方法, 其特征在于, 所述至少一组第 一角色与第 二角色的对话信 息中的每一个, 还包括: 话题类别以及情绪类别, 每个第一角色与第二角色的对话信息对应 一个话题类别以及一个情绪类别。 5.如权利要求1或3所述的方法, 其特征在于, 所述第 一角色训练集包括: 至少一组第一 角色对话训练信息, 第一角色对话训练信息包括: 所述第一角色响应于所述第二角色对应 的语境信息 输出的第一角色应答信息; 所述第二角色训练集包括: 至少一组第二角色对话训练信息, 第二角色对话训练信息 包括: 所述第二角色响应于所述第一角色对应的语境信息 输出的第二角色应答信息 。 6.如权利要求1所述的方法, 其特征在于, 所述目标对话数据集, 包括: 至少一组所述第 一角色对话模型与所述第二角色对话模型的对话信息 。 7.如权利要求1所述的方法, 其特征在于, 所述将所述第 一角色对话模型与 所述第二角 色对话模型进行对话, 包括: 为所述第一角色对话模型或所述第二角色对话模型设定至少 一个话题类别。 8.一种对话数据扩展装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取对话语料库, 所述对话语料库包括: 至少一组第 一角色与第 二角色 的对话信息, 所述第一角色与所述第二角色为非对等型聊天关系; 拆分模块, 用于对所述对话语料库进行拆分, 得到第一角色训练集以及第二角色训练 集; 第一训练模块, 用于依据所述第一角色训练集对第一对话模型进行训练, 得到第一角 色对话模型; 第二训练模块, 用于依据所述第二角色训练集对第二对话模型进行训练, 得到第二角 色对话模型; 执行模块, 用于调用所述第 一角色对话模型与 所述第二角色对话模型进行对话场景训 练, 得到目标对话数据集, 以实现数据扩展。 9.一种电子设备, 其特征在于, 所述电子设备包括: 存储器和 处理器, 所述存储器和所 述处理器之间互相通信连接, 所述存储器中存储有计算机指令, 所述处理器通过执行所述权 利 要 求 书 1/2 页 2 CN 115098665 A 2计算机指令执 行权利要求1 ‑7中任一项所述的方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指 令, 所述计算机指令用于使所述计算机执 行权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115098665 A 3
专利 一种对话数据扩展方法、装置及设备
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:04
上传分享
举报
下载
原文档
(419.5 KB)
分享
友情链接
JR-T 0035—2007 保险行业机构代码编码规范.pdf
GB-T 26262-2010 通信产品节能分级导则.pdf
OWASP AI大模型应用网络安全治理检查清单 LLM_AI_Security_and_Governance_Checklist 2024.pdf
GB-T 13813-2023 煤矿用金属材料摩擦火花安全性试验方法和判定规则.pdf
GB-T 30998-2014信息技术软件安全保障规范.pdf
LY-T 1738-2020 实木复合地板用胶合板.pdf
GB-T 19161-2016 包装容器 复合式中型散装容器.pdf
GB-T 27648-2011 重要湿地监测指标体系.pdf
GB-T 38644-2020 信息安全技术 可信计算 可信连接测试方法.pdf
GB-T 38485-2021 微生物痕量基因残留测定 微滴数字PCR法.pdf
DAMA数据管理知识体系指南(原书第2版).pdf
GB 29741-2013 铝电解安全生产规范.pdf
GB-T 38634.2-2020 系统与软件工程 软件测试 第2部分:测试过程.pdf
T-CASME 668—2023 CD3-CD4-CD8-CD16+CD56-CD19-CD45检测试剂盒 流式细胞仪法-6色.pdf
GB-T 24564-2009 高炉热风炉节能监测.pdf
DB21-T 1342—2021 建筑工程文件编制归档规程 辽宁省.pdf
GM-T 0086-2020 基于SM9标识密码算法的密钥管理系统技术规范.pdf
国家密码局 信息安全等级保护 商用密码技术实施要求 2009.pdf
GB-T 43528-2023 电化学储能电池管理通信技术要求.pdf
T-ZZB 0372—2018 全息防伪产品.pdf
交流群
-->
1
/
14
评价文档
赞助2元 点击下载(419.5 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。