(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210505859.2
(22)申请日 2022.05.10
(71)申请人 苏州科技大 学
地址 215513 江苏省苏州市高新区滨河路
298号
申请人 江苏新希望科技有限公司
(72)发明人 奚雪峰 李智 崔志明 左严
(74)专利代理 机构 江苏圣典律师事务所 32 237
专利代理师 王玉国
(51)Int.Cl.
G06F 16/2452(2019.01)
G06F 16/242(2019.01)
G06F 16/2455(2019.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)G06N 5/02(2006.01)
(54)发明名称
基于表格问答的自然答案生成系统及其方
法
(57)摘要
本发明涉及基于表格问答的自然答案生成
系统及方法, 数据预处理模块, 对用户提出的问
题文本进行中文分词、 正则去模糊处理; 文本编
码模块, 将用户提出的问题文本与知识库实体转
化为计算机形式的数据类型和计算单元; 结构化
查询语句生成模块, 根据文本编码生成问题对应
的结构化查询语句; 自然答案生成模块, 根据生
成的结构化查询语句进行自然答案的生成, 包含
主语生成、 谓语生成和宾语生成。 采用正则化表
达式和中文分词, 对问题文本与知识库实体进行
语义填充完善; 采用预训练模型, 对问题文本与
知识库实体进行语义表示; 利用槽位填充, 将语
义表示转换为完整的结构化查询语句, 基于结构
化查询语句, 生成自然答案 。
权利要求书4页 说明书10页 附图4页
CN 114780582 A
2022.07.22
CN 114780582 A
1.基于表格问答的自然答案生成系统, 其特征在于: 包含数据预处理模块(1)、 文本编
码模块(2)、 结构化查询语句生 成模块(3)以及自然答案生 成模块(4); 所述数据预 处理模块
(1), 对用户提出的问题文本进行中文分词、 正则去模糊处 理;
所述文本编码模块(2), 将用户提出的问题文本与知识库实体转化为计算机形式的数
据类型和计算单 元;
所述结构化查询语句生成模块(3), 根据文本编码生成问题对应的结构化查询语句, 包
含SELECT子句生成和WH ERE子句生成;
所述自然答案生成模块(4), 根据生成的结构化查询语句进行自然答案的生成, 包含主
语生成、 谓语生成和宾语生成。
2.根据权利要求1所述的基于表格问答的自然答案生成系统, 其特征在于: 所述数据 预
处理模块(1)包含正则表达处理模块(101)和中文分词模块(102); 所述正则表达处理模块
(101), 面向问题文本, 采用正则表达式将模糊的数字实体转化为符合知识库存储形式的实
体, 模糊数字实体包含年份模糊实体、 百分比模糊实体和数字模糊实体; 所述中文分词模块
(102), 面向用户提出的中文问题文本, 将文本中的词语进 行切分, 采用分词工具, 得到一串
词汇序列。
3.根据权利要求1所述的基于表格问答的自然答案生成系统, 其特征在于: 所述文本编
码模块(2)包含问题文本编码模块(201)和知识库实体编码模块(202), 问题文本编码模块
(201)用于问题文本的编码向量表 示, 知识库实体编码模块(202)用于知识库实体的编码向
量表示。
4.根据权利要求1或3所述的基于表格问答的自然答案生成系统, 其特征在于: 所述文
本编码模块(2), 将数据预 处理模块(1)处理后的问题文本数据和知识库实体进 行数学化表
示, 并将高位向量映射到欧式空间的高维空间中, 采用独热编 码, 将文本编 码成可理解和处
理的编码序列, 通过 预训练模型进行对应文本语义特 征获取。
5.根据权利要求1所述的基于表格问答的自然答案生成系统, 其特征在于: 所述结构化
查询语句生成模块(3)包含SELECT子句生成模块(301)和WHERE子句生成模块(302); 所述
SELECT子句生 成模块(301), 采用预训练模 型训练生 成问题文本与知识库实体的词向量后,
通过多分类模型Softmax进行SELECT子句生成, SELECT子句包含列名选取以及聚合函数的
选取; 所述WHERE子句生成模块(302), 采用预训练模型训练生成问题文本与知识库实体的
词向量后, 通过多分类模型Softmax进行WHERE子句生成, WHERE子句包含列名选取、 操作 符
号的选取、 数值抽取以及条件关联符号选取。
6.根据权利要求1所述的基于表格问答的自然答案生成系统, 其特征在于: 所述自然答
案生成模块(4), 将经过结构化查询语句生成模块(3)的SELECT子句生成模块(301)和WHERE
子句生成模块(302)后的语句进行拼接形成完整的结构化查询语句, 自然答案采用主 ‑谓‑
宾架构, 包含主语生成模块(401)、 谓语生成模块(402)以及宾语生成模块(403), 主语生成
来自SELECT子句生 成结果, 谓语生 成通过已设置的谓语标签{ “是”、”有”}, 基于问题文本进
行标签判定生成, 谓语部分来完整的结构化 查询语句在数据库中的执 行结果。
7.基于表格问答的自然答案生成方法, 其特 征在于: 包括以下步骤:
首先, 将问答的输入部分, 即 问题文本与知识库中实体进行数据 预处理, 问题文本去模
糊以及问题文本分词;权 利 要 求 书 1/4 页
2
CN 114780582 A
2然后, 将数据 预处理之后的问题文本数据以及知识库实体进行独热编码后进入预训练
模型进行训练, 生成对应相关的词向量;
其次, 将特征向量输入结构化查询语句生成模块, 通过SELECT子句生成与WHERE子句生
成进行拼接, 形成完整的SQL; 结构化查询语句生成包含六个子任务, 每个任务均是多分类
模型; 基于 问题文本和知识库实体的语义表示判定标签类别的概率, 概率最高的类别即是
最终的输出 结果;
最后, 依据自然答案生成要求, 设计主 ‑谓‑宾生成框架, 将完整 的SQL在数据库中执行
获取结果作为宾语生成结果, 通过拼接作为 最终的自然答案 。
8.根据权利要求7所述的基于表格问答的自然答案生成方法, 其特征在于: 由数据 预处
理模块(1), 处理问题文本的模糊实体以及 对问题文本进行中文分词; 由文本编码模块(2),
对问题文本 ‑知识库实体序列进行语义表示; 由结构化查询语句生成模块(3), 将词向量输
入, 通过SELECT子句生 成模块与WHERE子句生 成模块进 行结构化查询语句生成; 由自然答案
生成模块(4), 基于结构化 查询语句生成自然答案, 作为问答的最终结果。
9.根据权利要求7或8所述的基于表格问答的自然答案生成方法, 其特征在于: 由数据
预处理模块(1)的正则表达处理模块(101), 对问题文本进行数据去模糊以及中文分词任
务, 通过正则表达式去除问题文本模糊数字实体; 中文分词模块(102), 将问题文本中的词
语进行切分出, 采用jieba分词工具, 得到一串词汇序列;
由文本编码模块(2), 将问题文本以及 知识库实体编码成可理解和处 理的语义向量;
结构化查询语句生成模块(3)的SELECT子句生成模块(301), 根据输入的语义向量, 生
成SELECT子句中的列名、 聚合函数, 列名从知识库实体的语义表示获取, 聚合函数包含
{AVG、 MIN、 MAX、 COUNT、 S UM}; 结构化查询语句生成模块(3)的WHERE子句生成模块(302)根据
输入的语义向量, 生 成WHERE子句的列名、 操作符号、 数值文本以及条件之间的关联符号, 操
作符号集合为{>、 <、 = =、 ! =}, 关联符号包 含{and、 or};
SELECT子句 生成模块(301)与WHERE子句 生成模块(302)采用槽位填充方法, 通过槽位
的填充实现结构化 查询语句的生成;
根据结构化查询语句特征, 设置六个槽位, 即SEL_COL任务、 SEL_A GG任务、 W_CONN任务、
W_COL任务、 W_OP任务、 W_V AL任务;
针对预训练模型生成语义表示, 文本编码模块采用BERT模型作为预训练模型, 输入向
量包含词嵌入向量、 段落嵌入向量、 位置嵌入向量; 根据预训练模型 的特性, 将自然语言问
题文本与知识库实体输入到预训练模型中;
CLS表示文本分词的开始位置, SEP表示文本分词的分割位置, 即结尾; 模块的输入包含
两个方面, 第一是问题文本分词Q=(C1, C2, ..., Cn); 第二是知识库中的文本分词T={t,
(h1, h2, ..., hn)}, 来自与知识库中的列名; 最后将 输入进行融合, 即问题文本与知识库列名
集合的拼接, 数据预处 理模块的输入公式如下:
Input=co ncation(CLS, Qesti on, SEP, Co lumn1, SEP, . ..) (1)
在输入明确后, 将其送入数据预训练模块进行处理, 获取不同部分获得不同的语义向
量表示{ECLS、 EQ、 (Eh1, ...Ehm)}, 预训练模型输入如下公式:
Pretrrain_Model(i nput)={ECLS, EQ, Eh} (2)
其中, 预训练模型的输入ECLS是整体输入的语义表示, EQ是问题文本的语义表示, Eh是对权 利 要 求 书 2/4 页
3
CN 1147805
专利 基于表格问答的自然答案生成系统及其方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 00:14:10上传分享