公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210922481.6 (22)申请日 2022.08.02 (71)申请人 北京明略软件系统有限公司 地址 100084 北京市海淀区中关村东路1号 院1号楼10层A10 02 (72)发明人 姜娜 杨康 孙泽懿  (74)专利代理 机构 北京安信方达知识产权代理 有限公司 1 1262 专利代理师 吴晓霞 李丹 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/211(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种确定中文语义的方法、 装置、 计算机存 储介质及终端 (57)摘要 本申请公开一种确定中文语义的方法、 装 置、 计算机存储介质及终端, 本发明实施例由第 一模型、 第二模型和第三模型, 构建了用于语义 识别的语义识别模型, 基于构建的语义识别模型 实现了对待分析中文语句中的英文缩略词的中 文语义分析, 避免了解读待分析中文语句中的英 文缩略词时, 因为包含多种中文语义而发生解读 混淆的情况。 权利要求书3页 说明书9页 附图2页 CN 115438671 A 2022.12.06 CN 115438671 A 1.一种确定中文语义的方法, 包括: 通过预设的第 一模型对包含英文缩略词的第 一中文语句进行处理, 获得第 一中文语句 的第一词向量表示和 其中英文缩略词的第一位置, 以及, 确定所述英文缩略词的第二词向 量表示; 根据所述第 一位置对第 一中文语句进行掩码, 并根据所述第 一词向量表示确定第 一位 置被掩码后的第一中文语句的第一 位置掩码嵌入表示; 通过预设的第 二模型对所述第 一位置掩码嵌入表示与 所述第二词向量表示进行处理, 获得第一 位置的英文对应的中文语义的第一中文语义嵌入表示; 通过预设的第 三模型对预先获得的中文语义被掩码的第 一中文语句进行处理, 获得中 文语义位置对应的第二中文语义嵌入表示; 根据所述第 一中文语义嵌入表示与第 二中文语义嵌入表示的相似度, 对第 二模型和第 三模型进行优化; 根据第一模型、 优化后的第二模型和第三模型, 构建语义识别模型; 根据构建的语义识别模型对待分析中文语句进行处理, 以确定待分析中文语句中英文 缩略词的中文语义; 其中, 所述第一位置掩码嵌入表示为: 所述第一词向量表示中所述第一位置被掩码后 的嵌入表示。 2.根据权利要求1所述的方法, 其特征在于, 所述第 一模型包括由第 一知识增强语义表 示模型ERNIE组成的第一ERNIE层; 所述第二模型包括由第二ERNIE组成 的第二ERNIE层; 所 述第三模型包括由第三ERN IE组成的第三ERN IE层。 3.根据权利要求2所述的方法, 其特征在于, 所述第一模型包括: 所述第一ERNIE层、 双 向长短时记 忆Bi‑LSTM层、 全连接层以及归一 化层; 其中, 所述第一ERNIE层用于: 对所述第一中文语句进行分词与嵌入编码, 获得所述第一词向 量表示; 所述Bi‑LSTM层用于: 对由所述第一ERNIE层获得的所述第一词向量表示组成的序列进 行特征映射, 获得 特征表示序列; 所述全连接层用于: 将获得的所述特 征表示序列转 化为一维向量; 所述归一化层用于: 根据所述转化获得的一维向量对所述第 一中文语句中的英文缩略 词的位置进行 预测, 获得 所述第一 位置。 4.根据权利要求2所述的方法, 其特 征在于, 所述第二ERN IE层用于: 根据所述第 一位置掩码嵌入表示与 所述第二词向量表示, 对所述第 一位置的中文语义 进行嵌入表示预测, 以获得 所述第一中文语义嵌入表示。 5.根据权利要求2所述的方法, 其特 征在于, 所述第三ERN IE层用于: 对所述中文语义被掩码的第 一中文语句进行嵌入表示预测, 以获得所述第 二中文语义 嵌入表示。 6.根据权利要求1~5任一项所述的方法, 其特征在于, 所述对第二模型和第三模型进 行训练, 包括: 根据所述相似度设置损失函数; 对所述第二模型和所述第三模型进行迭代训练, 以确定最小化的所述损失函数;权 利 要 求 书 1/3 页 2 CN 115438671 A 2将确定最小化损失函数时所述第 二模型和所述第 三模型的参数, 确定为所述第 二模型 和所述第三模型的参数。 7.根据权利要求1~5任一项所述的方法, 其特征在于, 所述根据构建的语义识别模型 对待分析中文语句进行处 理, 包括: 根据第一中文语句中包 含的英文缩略词, 构建语料库; 判断出构建的语料库中包含所述待分析中文语句中的英文缩略词时, 通过所述语义识 别模型中的第一模型对所述待分析中文语句进行 处理, 获得待分析中文语句的第三词向量 表示和待分析中文语句中的英文缩略词的第二 位置; 根据获得的第 二位置对待分析中文语句的英文缩略词 进行掩码处理, 获得第 二位置被 掩码后的第三中文语义嵌入表示; 将得到的所述第三中文语义嵌入表示与第 三词向量表示进行拼接后, 输入至所述语义 识别模型中的第三模型, 以确定待分析中文语句的第二位置的中文语义的第四中文语义嵌 入表示; 对所述待分析中文语句中包含的英文缩略词, 确定预先构建的嵌入表示库中包含的与 该英文缩略词对应的所有第五中文语义嵌入表示; 计算确定的第四中文语义嵌入表示、 与确定的每一个第五中文语义嵌入表示的相似 度, 并将相似度最大的第五中文语义确定为待分析中文语句中的英文缩略词的中文语义; 其中, 所述嵌入表示库包括: 预先确定的一个以上英文缩略词, 及各英文缩略词对应的 第五中文语义嵌入表示。 8.一种计算机存储介质, 所述计算机存储介质中存储有计算机程序, 所述计算机程序 被处理器执行时实现如权利要求1~7中任一项所述的确定中文语义的方法。 9.一种终端, 包括: 存 储器和处 理器, 所述存 储器中保存有计算机程序; 其中, 处理器被配置为执 行存储器中的计算机程序; 所述计算机程序被所述处理器执行时实现如权利要求1~7中任一项所述的确定中文 语义的方法。 10.一种确定中文语义的装置, 包括: 第一模型单元、 掩码处理单元、 第二模型单元、 第 三模型单元、 协同训练单 元、 构建单 元和确定单元; 其中, 第一模型单元设置为: 通过预设的第 一模型对包含英文缩略词的第 一中文语句进行处 理, 获得第一中文语句的第一词向量表示和其中英文缩略词的第一位置, 以及, 确定所述英 文缩略词的第二词向量表示; 掩码处理单元设置为: 根据所述第一位置对第一中文语句进行掩码, 并根据所述第一 词向量表示确定第一 位置被掩码后的第一中文语句的第一 位置掩码嵌入表示; 第二模型单元设置为: 通过预设的第 二模型对所述第 一位置掩码嵌入表示与 所述第二 词向量表示进行处 理, 获得第一 位置的英文对应的中文语义的第一中文语义嵌入表示; 第三模型单元设置为: 通过预设的第 三模型对预先获得的中文语义被掩码的第 一中文 语句进行处 理, 获得中文语义 位置对应的第二中文语义嵌入表示; 协同训练单元设置为: 根据 所述第一中文语义嵌入表示与第 二中文语义嵌入表示的相 似度, 对第二模型和第三模型进行优化; 构建单元设置为: 根据第一模型、 优化后的第二模型和第三模型, 构建语义识别模型;权 利 要 求 书 2/3 页 3 CN 115438671 A 3

PDF文档 专利 一种确定中文语义的方法、装置、计算机存储介质及终端

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种确定中文语义的方法、装置、计算机存储介质及终端 第 1 页 专利 一种确定中文语义的方法、装置、计算机存储介质及终端 第 2 页 专利 一种确定中文语义的方法、装置、计算机存储介质及终端 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:20上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。