专利 基于语义信息增强的汉字语句分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211049581.9 (22)申请日 2022.08.30 (71)申请人重庆理工大学地址 400054 重庆市巴南区李家沱红光大道69号 (72)发明人李波　黄焱鑫　 (74)专利代理机构重庆博凯知识产权代理有限公司 50212 专利代理师张乙山 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/151(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于语义信息增强的汉字语句分类方法 (57)摘要本发明具体涉及基于语义信息增强的汉字语句分类方法，包括：将待分类的汉字语句输入经过训练的分类模型中，输出对应的预测分类标签；训练时：首先基于训练数据集构建与部首关联的区分度字典；其次对训练数据集中的汉字语句进行简繁汉字转换，得到简体和繁体的汉字语句；然后提取汉字语句的分类表示和上下文表示；同时结合区分度字典确定汉字语句中的关键字，并结合注意力机制为各个关键字赋予注意力权重，进而计算简体和繁体的文本最终表示；最后分别基于简体和繁体的文本最终表示生成预测分类标签并融合得到总体预测分类标签，以优化分类模型的模型参数。本发明能够有效考虑汉字简化过程中的汉字语义损失，并消除区分度不高的汉字对语句的干扰。权利要求书3页说明书12页附图2页 CN 115203422 A 2022.10.18 CN 115203422 A 1.基于语义信息增强的汉字语句分类方法，其特征在于，包括： S1：获取待分类的汉字语句； S2：将待分类的汉字语句输入经过训练的分类模型中，输出对应的预测分类标签；训练分类模型时，首先基于训练数据集构建与部首关联的区分度字典；其次对训练数据集中的汉字语句进行简繁汉字转换，得到简体和繁体的汉字语句；然后提取简体和繁体汉字语句的分类表示和上下文表示；同时结合区分度字典确定汉字语句中的关键字，并结合注意力机制为各个关键字赋予注意力权重，进而结合分类表示和上下文表示计算简体和繁体的文本最终表示；最后分别基于简体和繁体的文本最终表示生成预测分类标签，进而融合简体和繁体的预测分类标签得到总体预测分类标签，并基于总体预测分类标签优化分类模型的模型参数； S3：基于分类模型输出的预测分类标签生成待分类汉字语句的分类结果。 2.如权利要求1所述的基于语义信息增强的汉字语句分类方法，其特征在于：步骤S2 中，通过如下步骤构建区分度字典： S201：对于训练数据集中的每个汉字语句：首先获取对应汉字语句中每个部首的出现次数；然后按出现次数从高到低的顺序依次选取部首，并计算各个部首对应的汉字与对应汉字语句的余弦相似度；最后生成各个部首的汉字相似度集； S202：融合各个汉字语句中对应部首的汉字相似度集构成对应部首的相似度矩阵；然后计算对应部首的相似度矩阵中对应汉字所有余弦相似度的方差作为该汉字的区分度； S203：对于每个汉字语句：对各个部首对应的各个汉字的区分度进行降序排列，得到各个部首的区分度降序列表，进而整合各个部首的区分度降序列表得到该汉字语句的区分度降序列表； S204：将各个汉字语句的区分度降序列表进行累加，并对各个部首对应的各个汉字的区分度进行降序排列，得到各个部首的区分度字典。 3.如权利要求2所述的基于语义信息增强的汉字语句分类方法，其特征在于：步骤S201 中，通过如下公式计算相似度矩阵： CRn＝cos_sim(setR(Sn)×set(R))；式中： CRn表示部首R的相似度矩阵； cos_sim表示计算余弦相似度； setR(Sn)表示汉字语句Sn中部首R构成的汉字集合； set(R)表示训练数据集S中部首R构成的汉字集合。 4.如权利要求3所述的基于语义信息增强的汉字语句分类方法，其特征在于：步骤S204 中，通过如下公式表示区分度字典： LRni,1＝CRni,1；式中： LR表示部首R的区分度字典； n表示训练数据集中汉字语句的数量； LRi表示第i个汉字语句中部首R的区分度降序列表，区分度降序列表是一个两列的数组，第一列是汉字，第二列是对应汉字的区分度； LRni,1表示区分度降序列表的第i行第一列， LRni,2表示区分度权　利　要　求　书 1/3 页 2 CN 115203422 A 2降序列表的第i行第二列； CRni表示第n个汉字语句中第i个汉字与该汉字语句的余弦相似度； CRni,j表示第n个汉字语句中第i个汉字与汉字集合set(R)中第j个汉字的余弦相似度； m 表示汉字集合set(R)中的汉字数量。 5.如权利要求4所述的基于语义信息增强的汉字语句分类方法，其特征在于：步骤S2 中，通过如下步骤生成文本最终表示： S211：基于区分度字典确定汉字语句中的关键字，并生成关键字矩阵； S212：将汉字语句输入至预训练BERT模型，输出汉字语句的分类表示和文本表示；然后将文本表示输入至Bi LSTM模型，生成汉字语句的上下文表示； S213：将关键字矩阵作为注意力模块的key和value，然后分别将汉字语句的分类表示和上下文表示作为注意力模块的query； S214：将query中的各个汉字向量与关键字矩阵中的关键字一一对应；然后计算各个关键字的注意力权重，进而结合分类表示和上下文表示分别计算对应的分类注意力表示和上下文注意力表示； S215：将汉字语句的分类注意力表示、上下文注意力表示、分类表示和上下文表示进行拼接，得到汉字语句的文本最终表示。 6.如权利要求5所述的基于语义信息增强的汉字语句分类方法，其特征在于：步骤S211 中，通过如下步骤生成关键字矩阵： S2111：提取汉字语句的部首信息以确定目标部首； S2112：从区分度字典提取目标部首的目标关键字，然后基于目标关键字从汉字语句中选取对应的关键字构成关键字矩阵。 7.如权利要求6所述的基于语义信息增强的汉字语句分类方法，其特征在于：步骤 S2111中，通过如下公式获取汉字语句的部首信息： wri＝Radical_Query(wi)；式中： dict(Sn)表示汉字语句Sn的部首信息； wi表示汉字语句Sn中的汉字； wri表示汉字 wi的部首； Radical_Query表示预先构建的部首字典。 8.如权利要求6所述的基于语义信息增强的汉字语句分类方法，其特征在于：步骤 S2112中，通过如下公式计算关键字矩阵：式中： D表示关键字矩阵； LR表示区分度字典； set(R)表示训练数据集S中部首 R构成的汉字集合。 9.如权利要求5所述的基于语义信息增强的汉字语句分类方法，其特征在于：步骤S212 中，通过如下公式提取分类表示和文本表示： Cs,Es＝BERT(Sentence)；式中： Cs表示分类表示； Es表示文本表示； Sentence表示汉字语句；通过如下公式计算上下文表示： Yi＝{y1,y2,...,ym}；权　利　要　求　书 2/3 页 3 CN 115203422 A 3

专利 基于语义信息增强的汉字语句分类方法

专利基于语义信息增强的汉字语句分类方法