专利 一种确定中文语义的方法、装置、计算机存储介质及终端

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210922481.6 (22)申请日 2022.08.02 (71)申请人北京明略软件系统有限公司地址 100084 北京市海淀区中关村东路1号院1号楼10层A10 02 (72)发明人姜娜　杨康　孙泽懿　 (74)专利代理机构北京安信方达知识产权代理有限公司 1 1262 专利代理师吴晓霞　李丹 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/211(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种确定中文语义的方法、装置、计算机存储介质及终端 (57)摘要本申请公开一种确定中文语义的方法、装置、计算机存储介质及终端，本发明实施例由第一模型、第二模型和第三模型，构建了用于语义识别的语义识别模型，基于构建的语义识别模型实现了对待分析中文语句中的英文缩略词的中文语义分析，避免了解读待分析中文语句中的英文缩略词时，因为包含多种中文语义而发生解读混淆的情况。权利要求书3页说明书9页附图2页 CN 115438671 A 2022.12.06 CN 115438671 A 1.一种确定中文语义的方法，包括：通过预设的第一模型对包含英文缩略词的第一中文语句进行处理，获得第一中文语句的第一词向量表示和其中英文缩略词的第一位置，以及，确定所述英文缩略词的第二词向量表示；根据所述第一位置对第一中文语句进行掩码，并根据所述第一词向量表示确定第一位置被掩码后的第一中文语句的第一位置掩码嵌入表示；通过预设的第二模型对所述第一位置掩码嵌入表示与所述第二词向量表示进行处理，获得第一位置的英文对应的中文语义的第一中文语义嵌入表示；通过预设的第三模型对预先获得的中文语义被掩码的第一中文语句进行处理，获得中文语义位置对应的第二中文语义嵌入表示；根据所述第一中文语义嵌入表示与第二中文语义嵌入表示的相似度，对第二模型和第三模型进行优化；根据第一模型、优化后的第二模型和第三模型，构建语义识别模型；根据构建的语义识别模型对待分析中文语句进行处理，以确定待分析中文语句中英文缩略词的中文语义；其中，所述第一位置掩码嵌入表示为：所述第一词向量表示中所述第一位置被掩码后的嵌入表示。 2.根据权利要求1所述的方法，其特征在于，所述第一模型包括由第一知识增强语义表示模型ERNIE组成的第一ERNIE层；所述第二模型包括由第二ERNIE组成的第二ERNIE层；所述第三模型包括由第三ERN IE组成的第三ERN IE层。 3.根据权利要求2所述的方法，其特征在于，所述第一模型包括：所述第一ERNIE层、双向长短时记忆Bi‑LSTM层、全连接层以及归一化层；其中，所述第一ERNIE层用于：对所述第一中文语句进行分词与嵌入编码，获得所述第一词向量表示；所述Bi‑LSTM层用于：对由所述第一ERNIE层获得的所述第一词向量表示组成的序列进行特征映射，获得特征表示序列；所述全连接层用于：将获得的所述特征表示序列转化为一维向量；所述归一化层用于：根据所述转化获得的一维向量对所述第一中文语句中的英文缩略词的位置进行预测，获得所述第一位置。 4.根据权利要求2所述的方法，其特征在于，所述第二ERN IE层用于：根据所述第一位置掩码嵌入表示与所述第二词向量表示，对所述第一位置的中文语义进行嵌入表示预测，以获得所述第一中文语义嵌入表示。 5.根据权利要求2所述的方法，其特征在于，所述第三ERN IE层用于：对所述中文语义被掩码的第一中文语句进行嵌入表示预测，以获得所述第二中文语义嵌入表示。 6.根据权利要求1～5任一项所述的方法，其特征在于，所述对第二模型和第三模型进行训练，包括：根据所述相似度设置损失函数；对所述第二模型和所述第三模型进行迭代训练，以确定最小化的所述损失函数；权　利　要　求　书 1/3 页 2 CN 115438671 A 2将确定最小化损失函数时所述第二模型和所述第三模型的参数，确定为所述第二模型和所述第三模型的参数。 7.根据权利要求1～5任一项所述的方法，其特征在于，所述根据构建的语义识别模型对待分析中文语句进行处理，包括：根据第一中文语句中包含的英文缩略词，构建语料库；判断出构建的语料库中包含所述待分析中文语句中的英文缩略词时，通过所述语义识别模型中的第一模型对所述待分析中文语句进行处理，获得待分析中文语句的第三词向量表示和待分析中文语句中的英文缩略词的第二位置；根据获得的第二位置对待分析中文语句的英文缩略词进行掩码处理，获得第二位置被掩码后的第三中文语义嵌入表示；将得到的所述第三中文语义嵌入表示与第三词向量表示进行拼接后，输入至所述语义识别模型中的第三模型，以确定待分析中文语句的第二位置的中文语义的第四中文语义嵌入表示；对所述待分析中文语句中包含的英文缩略词，确定预先构建的嵌入表示库中包含的与该英文缩略词对应的所有第五中文语义嵌入表示；计算确定的第四中文语义嵌入表示、与确定的每一个第五中文语义嵌入表示的相似度，并将相似度最大的第五中文语义确定为待分析中文语句中的英文缩略词的中文语义；其中，所述嵌入表示库包括：预先确定的一个以上英文缩略词，及各英文缩略词对应的第五中文语义嵌入表示。 8.一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1～7中任一项所述的确定中文语义的方法。 9.一种终端，包括：存储器和处理器，所述存储器中保存有计算机程序；其中，处理器被配置为执行存储器中的计算机程序；所述计算机程序被所述处理器执行时实现如权利要求1～7中任一项所述的确定中文语义的方法。 10.一种确定中文语义的装置，包括：第一模型单元、掩码处理单元、第二模型单元、第三模型单元、协同训练单元、构建单元和确定单元；其中，第一模型单元设置为：通过预设的第一模型对包含英文缩略词的第一中文语句进行处理，获得第一中文语句的第一词向量表示和其中英文缩略词的第一位置，以及，确定所述英文缩略词的第二词向量表示；掩码处理单元设置为：根据所述第一位置对第一中文语句进行掩码，并根据所述第一词向量表示确定第一位置被掩码后的第一中文语句的第一位置掩码嵌入表示；第二模型单元设置为：通过预设的第二模型对所述第一位置掩码嵌入表示与所述第二词向量表示进行处理，获得第一位置的英文对应的中文语义的第一中文语义嵌入表示；第三模型单元设置为：通过预设的第三模型对预先获得的中文语义被掩码的第一中文语句进行处理，获得中文语义位置对应的第二中文语义嵌入表示；协同训练单元设置为：根据所述第一中文语义嵌入表示与第二中文语义嵌入表示的相似度，对第二模型和第三模型进行优化；构建单元设置为：根据第一模型、优化后的第二模型和第三模型，构建语义识别模型；权　利　要　求　书 2/3 页 3 CN 115438671 A 3

专利 一种确定中文语义的方法、装置、计算机存储介质及终端

专利一种确定中文语义的方法、装置、计算机存储介质及终端