(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210890284.0
(22)申请日 2022.07.27
(71)申请人 联想 (北京) 有限公司
地址 100085 北京市海淀区上地西路6号2
幢2层201- H2-6
(72)发明人 赵国光 李飞
(74)专利代理 机构 北京派特恩知识产权代理有
限公司 1 1270
专利代理师 韩园园 张颖玲
(51)Int.Cl.
G06F 40/205(2020.01)
G06F 40/126(2020.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
文本处理方法及装置
(57)摘要
本申请实施例提供一种文本处理方法及装
置, 所述方法包括: 获得待处理文本, 所述待处理
文本包括至少两个语句; 对所述待处理文本中的
每一语句进行语义编码处理, 得到每一所述语句
对应的语句编码向量; 根据每一所述语句在所述
待处理文本中的顺序, 对所述至少两个语句编码
向量进行排序处理, 得到待处理序列; 根据每一
所述语句编码向量在所述待处理序列中的位置
信息, 对所述待处理序列中的语句编码向量进行
语义分析处理, 得到每一所述语句编码向量对应
的语句类型, 以确定每一所述语句编码向量对应
语句的完整性。
权利要求书3页 说明书16页 附图4页
CN 115169323 A
2022.10.11
CN 115169323 A
1.一种文本处 理方法, 所述方法包括:
获得待处 理文本, 所述待处 理文本包括至少两个 语句;
对所述待处理文本 中的每一语句进行语义编码处理, 得到每一所述语句对应的语句编
码向量;
根据每一所述语句在所述待处理文本 中的顺序, 对所述至少两个语句编码向量进行排
序处理, 得到待处 理序列;
根据每一所述语句编码向量在所述待处理序列中的位置信 息, 对所述待处理序列中的
语句编码向量进行语义分析处理, 得到每一所述语句编码向量对应的语句类型, 以确定每
一所述语句编码向量对应 语句的完整性。
2.根据权利要求1所述的方法, 所述方法还 包括:
根据所述语句类型对所述待处理序列进行标注, 得到所述待处理文本对应的语句类型
标注序列。
3.根据权利要求1所述的方法, 所述根据每一所述语句编码向量在所述待处理序列中
的位置信息, 对所述待处理序列中的语句编码向量进行语义分析处理, 得到每一所述语句
编码向量对应的语句类型, 包括:
根据每一所述语句编码向量在所述待处理序列中的位置信 息, 确定每一所述语句编码
向量的相邻语句编码向量;
对每一所述语句编码向量和所述相邻语句编码向量进行特征提取, 得到每一所述语句
编码向量对应的上 下文语境信息;
根据每一所述语句编码向量对应的上下文语境信 息, 对每一所述语句编码向量进行分
类处理, 得到每一所述语句编码向量对应的所述语句类型。
4.根据权利要求1所述的方法, 所述根据每一所述语句编码向量在所述待处理序列中
的位置信息, 对所述待处理序列中的语句编码向量进行语义分析处理, 得到每一所述语句
编码向量对应的语句类型, 包括:
根据每一所述语句编码向量在所述待处理序列中的位置信 息, 对所述待处理序列进行
双向特征提取, 得到正向特 征向量和反向特 征向量;
对所述正向特征向量和所述反向特 征向量进行 特征拼接, 得到序列特 征向量;
对所述序列特 征向量进行分类处 理, 得到分类矩阵;
对所述分类矩阵进行归一 化处理, 得到所述待处 理文本中每一语句对应的语句类型。
5.根据权利要求1所述的方法, 所述方法还 包括:
获得整句集合和断句集合; 所述整句集合中包括至少一个整句, 所述断句集合中包括
至少一个断句;
分别确定出每一所述语句对应的语句编码向量与所述整句集合中的每一整句之间的
第一距离、 和每一所述语句对应的语句编 码向量与所述断句集合中的每一断句之 间的第二
距离;
基于所述第一距离, 确定每一所述语句与所述整句集 合之间的第一相似度;
基于所述第二距离, 确定每一所述语句与所述断句集 合之间的第二相似度;
根据每一所述语句对应的所述第 一相似度和所述第 二相似度, 确定每一所述语句的语
句类型;权 利 要 求 书 1/3 页
2
CN 115169323 A
2根据每一所述语句和每一所述语句对应的语句类型, 创建语句类型 标注样本 。
6.根据权利要求5所述的方法, 所述根据每一所述语句对应的所述第一相似度和所述
第二相似度, 确定每一所述语句的语句类型, 至少包括以下一种:
当语句的所述第 一相似度大于第 一相似度阈值 时, 确定出所述语句的语句类型为整句
类型;
当语句的所述第 二相似度大于第 二相似度阈值 时, 确定出所述语句的语句类型为断句
类型;
当语句的所述第 一相似度大于所述第 二相似度时, 确定出所述语句的语句类型为整句
类型;
当语句的所述第 二相似度大于所述第 一相似度时, 确定出所述语句的语句类型为断句
类型。
7.根据权利要求5所述的方法, 所述方法还 包括:
根据所述待处理文本中的每一语句对应的语句类型, 对所述语句类型标注样本进行更
新, 得到更新后的语句类型 标注样本;
将所述更新后的语句类型 标注样本, 确定为标注模型的样本数据集。
8.根据权利要求5所述的方法, 所述方法还 包括:
获得历史对话;
确定所述历史对话中每一语句对应的目标对象;
当任一语句对应的目标对象为第一类型对象时, 将所述语句确定为整句;
根据所述历史对话中的全部整句, 创建所述整句集 合;
当任一语句对应的目标对象为第二类型对象时, 对所述语句进行句法分析, 得到分析
结果;
当所述分析 结果表明所述语句的语句类型为断句类型时, 将所述语句确定为断句;
根据所述历史对话中的全部断句, 创建所述断句集 合。
9.根据权利要求2所述的方法, 所述方法通过标注模型实现, 所述标注模型至少包括语
义编码模块、 排序模块、 语义分析模块和标注模块; 所述标注模型通过以下步骤训练得到:
将样本数据集输入至所述标注模型中, 所述样本数据集包括至少两个样本语句;
通过所述语义编码模块, 对所述样本数据集中的每一样本语句进行语义编码处理, 得
到每一所述样本语句对应的样本语句编码向量;
通过所述排序模块, 根据每一所述样本语句在所述样本数据集中的顺序, 对所述至少
两个样本语句编码向量进行排序处 理, 得到样本待处 理序列;
通过所述语义分析模块, 根据每一所述样本语句编码向量在所述样本待处理序列中的
位置信息, 对所述样本待处理序列中的样本语句编码向量进行语义分析处理, 得到每一所
述样本语句编码向量对应的样本语句类型;
通过所述标注模块, 根据所述样本语句类型对所述样本待处理序列进行标注, 得到所
述样本待处 理文本对应的样本语句类型 标注序列;
将所述样本语句类型 标注序列输入至预设损失模型中, 得到损失结果;
根据所述损失结果, 对所述语义编码模块、 所述排序模块、 所述语义分析模块和所述标
注模块中的参数进行修 正, 以得到训练后的标注模型。权 利 要 求 书 2/3 页
3
CN 115169323 A
3
专利 文本处理方法及装置
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:27上传分享