(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211049581.9
(22)申请日 2022.08.30
(71)申请人 重庆理工大 学
地址 400054 重庆市巴南区李 家沱红光大
道69号
(72)发明人 李波 黄焱鑫
(74)专利代理 机构 重庆博凯知识产权代理有限
公司 50212
专利代理师 张乙山
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/151(2020.01)
G06F 40/242(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于语义信息增强的汉字 语句分类方法
(57)摘要
本发明具体涉及基于语义信息增强的汉字
语句分类方法, 包括: 将待分类的汉字语句输入
经过训练的分类模型中, 输出对应的预测分类标
签; 训练时: 首先基于训练数据集构建与部首关
联的区分度字典; 其次对训练数据集中的汉字语
句进行简繁汉字转换, 得到简体和繁体的汉字语
句; 然后提取汉字语句的分类表示和上下文表
示; 同时结合区分度字典确定汉字语句中的关键
字, 并结合注 意力机制为各个关键字赋予注意力
权重, 进而计算简体和繁体的文本最终表示; 最
后分别基于简体和繁体的文本最终表示生成预
测分类标签并融合得到总体预测分类标签, 以优
化分类模型的模 型参数。 本发明能够有效考虑汉
字简化过程中的汉字语义损失, 并消除区分度不
高的汉字对语句的干 扰。
权利要求书3页 说明书12页 附图2页
CN 115203422 A
2022.10.18
CN 115203422 A
1.基于语义信息增强的汉字语句分类方法, 其特 征在于, 包括:
S1: 获取待分类的汉字语句;
S2: 将待分类的汉字语句输入经 过训练的分类模型中, 输出对应的预测分类标签;
训练分类模型时, 首先基于训练数据集构建与部首关联的区分度字典; 其次对训练数
据集中的汉字语句进行简繁汉字转换, 得到简体和繁体的汉字语句; 然后提取简体和繁体
汉字语句的分类表示和上下文表示; 同时结合区分度字典确定汉字语句中的关键字, 并结
合注意力机制为各个关键字赋予注意力权重, 进而结合分类表示和上下文表示计算简 体和
繁体的文本最终表示; 最后分别基于简体和繁体的文本最终表示生成预测分类标签, 进而
融合简体和繁体的预测分类标签得到总体预测分类标签, 并基于总体预测分类标签优化分
类模型的模型参数;
S3: 基于分类模型输出的预测分类标签生成待分类汉字语句的分类结果。
2.如权利要求1所述的基于语义信息增强的汉字语句分类方法, 其特征在于: 步骤S2
中, 通过如下步骤构建区分度字典:
S201: 对于训练数据集中的每个汉字语句: 首先获取对应汉字语句中每个部首的出现
次数; 然后按出现次数从高到低的顺序依 次选取部首, 并计算各个部首对应的汉字与对应
汉字语句的余弦相似度; 最后生成各个部首的汉字相似度集;
S202: 融合各个汉字语句中对应部首的汉字相似度集构成对应部首的相似度矩阵; 然
后计算对应部首的相似度矩阵中对应汉字所有余弦相似度的方差作为该汉字的区分度;
S203: 对于每个汉字语句: 对各个部首对应的各个汉字的区分度进行降序排列, 得到各
个部首的区分度降序列 表, 进而整合各个部首的区分度降序列 表得到该汉字语句的区分度
降序列表;
S204: 将各个汉字语句的区分度降序列表进行累加, 并对各个部首对应的各个汉字的
区分度进行降序排列, 得到各个部首的区分度字典。
3.如权利要求2所述的基于语义信息增强的汉字语句分类方法, 其特征在于: 步骤S201
中, 通过如下公式计算相似度矩阵:
CRn=cos_sim(setR(Sn)×set(R));
式中: CRn表示部首R的相似度矩阵; cos_sim表示计算余弦相似度; setR(Sn)表示汉字语
句Sn中部首R构成的汉字集 合; set(R)表示训练数据集S中部首R构成的汉字集 合。
4.如权利要求3所述的基于语义信息增强的汉字语句分类方法, 其特征在于: 步骤S204
中, 通过如下公式表示区分度字典:
LRni,1=CRni,1;
式中: LR表示部首R的区分度字典; n表示训练数据集中汉字语句的数量; LRi表示第i个
汉字语句中部首R的区分度降序列表, 区分度降序列表是一个两列的数组, 第一列是汉字,
第二列是对应汉字的区分度; LRni,1表示区分度降序列表的第i行第一列, LRni,2表示区分度权 利 要 求 书 1/3 页
2
CN 115203422 A
2降序列表的第i行第二列; CRni表示第n个汉字语句中第i个汉字与该汉字语句的余弦相似
度; CRni,j表示第n个汉字语句中第i个汉字与汉字集合set(R)中第j个汉字的余弦相似度; m
表示汉字集 合set(R)中的汉字数量。
5.如权利要求4所述的基于语义信息增强的汉字语句分类方法, 其特征在于: 步骤S2
中, 通过如下步骤生成文本最终表示:
S211: 基于区分度字典确定汉字语句中的关键 字, 并生成关键 字矩阵;
S212: 将汉字语句输入至预训练BERT模型, 输出汉字语句的分类表示和文本表示; 然后
将文本表示输入至Bi LSTM模型, 生成汉字语句的上 下文表示;
S213: 将关键字矩阵作为注意力模块的key和value, 然后分别将汉字语句的分类表示
和上下文表示作为注意力模块的query;
S214: 将query中的各个汉字向量与关键字矩阵中的关键字一一对应; 然后 计算各个关
键字的注意力权重, 进而 结合分类表示和上下文表示分别计算对应的分类注意力表示和上
下文注意力表示;
S215: 将汉字语句的分类注意力表示、 上下文注意力表示、 分类表示和上下文表示进行
拼接, 得到汉字语句的文本最终表示。
6.如权利要求5所述的基于语义信息增强的汉字语句分类方法, 其特征在于: 步骤S211
中, 通过如下步骤生成关键 字矩阵:
S2111: 提取汉字语句的部首信息以确定目标部首;
S2112: 从区分度字典提取目标部首的目标关键字, 然后 基于目标关键字从汉字语句中
选取对应的关键 字构成关键 字矩阵。
7.如权利要求6所述的基于语义信息增强的汉字语句分类方法, 其特征在于: 步骤
S2111中, 通过如下公式获取汉字语句的部首信息:
wri=Radical_Query(wi);
式中: dict(Sn)表示汉字语句Sn的部首信息; wi表示汉字语句Sn中的汉字; wri表示汉字
wi的部首; Radical_Query表示预 先构建的部首字典。
8.如权利要求6所述的基于语义信息增强的汉字语句分类方法, 其特征在于: 步骤
S2112中, 通过如下公式计算关键 字矩阵:
式中: D表示 关键字矩阵; LR表示区分度字典; set(R)表示训练数据集S中部首 R构成的汉
字集合。
9.如权利要求5所述的基于语义信息增强的汉字语句分类方法, 其特征在于: 步骤S212
中, 通过如下公式提取分类表示和文本表示:
Cs,Es=BERT(Sentence);
式中: Cs表示分类表示; Es表示文本表示; Sentence表示汉字语句;
通过如下公式计算上 下文表示:
Yi={y1,y2,...,ym};权 利 要 求 书 2/3 页
3
CN 115203422 A
3
专利 基于语义信息增强的汉字语句分类方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:58上传分享