公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221098759 9.7 (22)申请日 2022.08.17 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518000 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 曾嘉莉 姜雨帆  (74)专利代理 机构 北京派特恩知识产权代理有 限公司 1 1270 专利代理师 董亚莉 浦彩华 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/247(2020.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本语义识别方法、 装置、 设备、 存储介质及 程序产品 (57)摘要 本申请提供了一种文本语义识别方法、 装 置、 设备、 存储介质及程序产品; 本申请实施例可 以应用于云技术、 智慧交通、 车载等的文本识别 场景, 涉及人工智能技术; 该方法包括: 从待识别 文本中, 提取至少一个文本片段; 其中, 待识别文 本是任意一种语言下的文本; 针对每个文本片 段, 确定多种语言下的同义片段; 同义片段与文 本片段具有相同的语义; 基于每个文本片段, 以 及每个文本片段的同义片段, 确定每个文本片段 的语义特征; 基于每个文本片段的语义特征, 对 待识别文本进行语义识别, 得到识别结果。 通过 本申请, 能够提高语义识别的准确度。 权利要求书3页 说明书19页 附图8页 CN 115238708 A 2022.10.25 CN 115238708 A 1.一种文本语义识别方法, 其特 征在于, 所述方法包括: 从待识别文本 中, 提取至少一个文本片段; 其中, 所述待识别文本是任意一种语言下的 文本; 针对每个所述文本片段, 确定多种语言下的同义片段; 所述同义片段与所述文本片段 具有相同的语义; 基于每个所述文本片段, 以及每个所述文本片段的所述同义片段, 确定每个所述文本 片段的语义特 征; 基于每个所述文本片段的语义特 征, 对所述待识别文本进行语义识别, 得到识别结果。 2.根据权利要求1所述的方法, 其特征在于, 所述基于每个所述文本片段, 以及每个所 述文本片段的所述同义片段, 确定每 个所述文本片段的语义特 征, 包括: 针对每个所述文本片段进行 特征编码, 得到文本特 征; 针对每个所述文本片段的所述同义片段进行编码, 得到同义特 征; 将所述文本特 征和所述同义特 征的融合结果, 确定为每 个所述文本片段的中间特 征; 将从每个所述文本片段的所述中间特征所提取到的特征, 确定为每个所述文本片段的 语义特征。 3.根据权利要求2所述的方法, 其特征在于, 所述将所述文本特征和所述同义特征的融 合结果, 确定为每个所述文本片段的中间特征之前, 所述方法还包括: 执行以下 处理中的任 意一种; 针对所述文本特征和所述同义特征进行加权, 并将加权结果确定为所述文本特征和所 述同义特 征的所述融合结果; 通过神经网络模型, 针对所述文本特征和所述同义特征进行交互融合, 得到所述文本 特征和所述同义特 征的所述融合结果; 通过自编码器对所述文本特征和所述同义特征进行特征编码, 并将编码结果确定为所 述文本特 征和所述同义特 征的所述融合结果。 4.根据权利要求1至3任一项所述的方法, 其特征在于, 至少一个所述文本片段包括: 词 语级别的文本片段和短语级别的文本片段; 所述从待识别文本中, 提取至少一个文本片段, 包括: 针对所述待识别文本进行词语的提取, 得到所述待识别文本中词语级别的文本片段; 针对所述待识别文本进行短语的提取, 得到所述待识别文本中的短语级别的文本片 段。 5.根据权利要求4所述的方法, 其特征在于, 所述针对每个所述文本片段, 确定多种语 言下的同义片段, 包括: 获取多种语言 分别对应的词语信息表和短语信息表; 从与多种语言分别对应的词语信 息表中, 确定所述词语级别的文本片段在多种语言下 的所述同义片段; 从与多种语言分别对应的短语信 息表中, 确定所述短语级别的文本片段在多种语言下 的所述同义片段。 6.根据权利要求1至3任一项所述的方法, 其特征在于, 所述基于每个所述文本片段, 以 及每个所述文本片段 的所述同义片段, 确定每个所述文本片段 的语义特征, 是通过特征提权 利 要 求 书 1/3 页 2 CN 115238708 A 2取模型实现的; 所述从待识别文本中, 提取至少一个文本片段之前, 所述方法还 包括: 获取训练文本数据和初始提取模型; 所述训练文本数据是 未经过标注的文本数据; 针对所述训练文本数据, 构建包 含多种语言的混合文本数据; 利用所述混合文本数据, 对所述初始提取模型进行 预训练, 得到预训练模型; 针对所述预训练模型进行微调, 得到所述特 征提取模型。 7.根据权利要求6所述的方法, 其特征在于, 所述训练文本数据中包括: 单个语言的语 句文本; 所述针对所述训练文本数据, 构建包 含多种语言的混合文本数据, 包括: 依据所述语句文本中的标点信息, 对所述语句文本进行分割, 得到多个训练语句片段; 从多个所述训练语句片段中, 筛 选得到第一语句片段和第二语句片段; 针对所述第 一语句片段, 检索在多种语言下的替换片段, 其中, 所述替换片段与所述第 一语句片段 具有相同的语义; 从所述第二语句 片段中筛选得到待替换词语, 并利用所述待替换词语在多种语言下的 对齐词语, 对所述待替换词语进行替换, 得到所述第二语句片段的更新片段; 将所述替换片段和所述更新片段所构建得到的多语言混合文本, 作为包含多种语言的 所述混合文本数据。 8.根据权利要求6所述的方法, 其特征在于, 所述训练文本数据包括: 多个语言的平行 句对; 所述针对所述训练文本数据, 构建包 含多种语言的混合文本数据, 包括: 针对所述平行句对中的第 一语句和第 二语句, 分别按照标点信 息进行切分, 得到N个第 一分割子句和M个第二分割子句; 利用N个所述第一分割子句中的P个第一分割子句, 生成所述第一语句的第一子块, 其 中, P≤N, N是正整数; 利用M个所述第二分割子句中的Q个第二分割子句, 生成所述第二语句的第二子块, 其 中, Q≤M, M是正整数; 当所述第一子块和所述第 二子块满足对齐条件时, 将所述第 一语句的第 一子块和所述 第二语句的第二子块进行交换, 得到更新第一语句和更新第二语句; 将所述更新第 一语句和所述更新第 二语句所构建得到的多语言更新句对, 作为包含多 种语言的所述混合文本数据。 9.根据权利要求8所述的方法, 其特征在于, 所述对齐条件包括: 所述第一子块存在至 少一个词语与所述第二子块中的词语对齐, 且所述第一子块中的任意一个词语不与所述第 二子块所包 含的词语之外的词语对齐。 10.根据权利要求6所述的方法, 其特征在于, 所述混合文本数据包括: 多语言混合文 本; 所述利用所述混合文本数据, 对所述初始提取模型进行 预训练, 得到预训练模型, 包括: 利用掩码信息, 对所述多语言混合文本中的目标词语进行替换, 得到所述所述初始提 取模型的输入文本, 所述目标词语是 所述多语言 混合文本中的任意 一个词语; 利用所述初始提取模型, 对所述输入文本中被所述掩码信 息所替换的所述目标词语进 行预测, 得到预测结果; 利用所述预测结果和所述目标词语之间的差异, 对所述初始提取模型的参数进行调 整, 直至达到训练结束条件时, 得到所述预训练模型。权 利 要 求 书 2/3 页 3 CN 115238708 A 3

PDF文档 专利 文本语义识别方法、装置、设备、存储介质及程序产品

文档预览
中文文档 31 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本语义识别方法、装置、设备、存储介质及程序产品 第 1 页 专利 文本语义识别方法、装置、设备、存储介质及程序产品 第 2 页 专利 文本语义识别方法、装置、设备、存储介质及程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:09上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。