专利 文本分类方法、装置、计算机设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211061502.6 (22)申请日 2022.08.31 (71)申请人中国工商银行股份有限公司地址 100140 北京市西城区复兴门内大街 55号 (72)发明人邹瑶　金红琳　张胜斌　邹泳彤　 (74)专利代理机构华进联合专利商标代理有限公司 44224 专利代理师李志健 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称文本分类方法、装置、计算机设备和存储介质 (57)摘要本申请涉及一种文本分类方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：通过多个词向量模型对待分类文本中的词语进行向量化处理，得到待分类文本的多个词向量序列；针对每个词向量序列，分别通过第一特征提取模型和第二特征提取模型，对词向量序列进行特征提取，得到待分类文本的局部特征向量和上下文特征向量；对各个词向量序列的局部特征向量和上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量；对各个词向量序列对应的拼接特征向量进行融合处理，得到融合特征向量；基于融合特征向量，对待分类文本进行分类，得到待分类文本的分类结果。采用本方法能够丰富句子语义的表达，进而提高文本分类的准确性。权利要求书3页说明书16页附图7页 CN 115422357 A 2022.12.02 CN 115422357 A 1.一种文本分类方法，其特征在于，所述方法包括：通过多个词向量模型对待分类文本中的词语进行向量化处理，得到所述待分类文本的多个词向量序列；针对每个词向量序列，通过第一特征提取模型，对所述词向量序列进行特征提取，得到所述待分类文本的局部特征向量；以及，通过第二特征提取模型，对所述词向量序列进行特征提取，得到所述待分类文本的上下文特征向量；分别对各个词向量序列的所述局部特征向量和所述上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量；对各个词向量序列对应的拼接特征向量进行融合处理，得到融合特征向量；基于所述融合特征向量，对所述待分类文本进行分类，得到所述待分类文本的分类结果。 2.根据权利要求1所述的方法，其特征在于，所述第一特征提取模型包括多个第一子模型，所述多个第一子模型之间层级连接；所述通过第一特征提取模型，对所述词向量序列进行特征提取，得到所述待分类文本的局部特征向量，包括：针对所述第一特征提取模型中第一层的第一子模型，将所述词向量序列作为所述第一层的第一子模型的输入变量，得到所述第一层的第一子模型的输出结果；针对所述第一特征提取模型中第二层的第一子模型，将所述词向量序列以及所述第一层的第一子模型的输出结果，确定为所述第二层的第一子模型的输入变量，得到所述第二层的第一子模型的输出结果；针对所述第一特征提取模型中除第一层和第二层之外的任一层的第一子模型，将位于所述任一层的第一子模型之前两层的第一子模型的输出结果，确定为所述任一层的第一子模型的输入变量，得到除第一层和第二层之外的各层第一子模型的输出结果；将所述多个第一子模型中最后一层的第一子模型的输出结果，确定为所述待分类文本的局部特征向量。 3.根据权利要求1所述的方法，其特征在于，所述第二特征提取模型包括多个第二子模型，所述多个第二子模型之间层级连接；所述通过第二特征提取模型，对所述词向量序列进行特征提取，得到所述待分类文本的上下文特征向量，包括：针对所述第二特征提取模型中第一层的第二子模型，将所述词向量序列作为所述第一层的第二子模型的输入变量，得到所述第一层的第二子模型的输出结果；针对所述第二特征提取模型中除第一层之外的任一层的第二子模型，将所述词向量序列以及位于所述任一层的第二子模型之前的每个第二子模型的输出结果，确定为所述任一层的第二子模型的输入变量，得到除第一层之外的各层第二子模型的输出结果；将所述多个第二子模型中最后一层的第二子模型的输出结果，确定为所述待分类文本的上下文特征向量。 4.根据权利要求1所述的方法，其特征在于，在所述分别对各个词向量序列的所述局部特征向量和所述上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量之前，还包括：权　利　要　求　书 1/3 页 2 CN 115422357 A 2针对每个词向量序列，获取所述词向量序列的第一权值向量和第二权值向量；所述第一权值向量包括所述待分类文本的每个词语对应的第一权值，所述每个词语对应的第一权值表示每个词语对应的局部特征对所述待分类文本的分类结果的影响程度；所述第二权值向量包括所述待分类文本的每个词语对应的第二权值，所述每个词语对应的第二权值表示每个词语对应的上下文特征对所述待分类文本的分类结果的影响程度；通过所述第一权值向量对所述局部特征向量进行加权处理，得到加权后的局部特征向量；通过所述第二权值向量对所述上下文特征向量进行加权处理，得到加权后的上下文特征向量；所述分别对各个词向量序列的所述局部特征向量和所述上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量，包括：分别对各个词向量序列的所述加权后的局部特征向量和所述加权后的上下文特征向量进行拼接处理。 5.根据权利要求4所述的方法，其特征在于，所述分别对各个词向量序列的所述加权后的局部特征向量和所述加权后的上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量，包括：针对每个词向量序列，获取所述词向量序列的加权后的局部特征向量的向量维度和所述加权后的上下文特征向量的向量维度；所述加权后的局部特征向量的向量维度和所述加权后的上下文特征向量的向量维度相同；基于所述向量维度，确定对所述加权后的局部特征向量和所述加权后的上下文特征向量进行拼接的拼接模式；按照所述拼接模式，对所述加权后的局部特征向量和所述加权后的上下文特征向量进行拼接，得到各个词向量序列对应的拼接特征向量。 6.根据权利要求1所述的方法，其特征在于，所述基于所述融合特征向量，对所述待分类文本进行分类，得到所述待分类文本的分类结果，包括：通过分类模型对所述融合特征向量进行处理，得到所述待分类文本的分类结果。 7.一种文本分类装置，其特征在于，所述装置包括：词向量模块，用于通过多个词向量模型对待分类文本中的词语进行向量化处理，得到所述待分类文本的多个词向量序列；特征提取模块，用于针对每个词向量序列，通过第一特征提取模型，对所述词向量序列进行特征提取，得到所述待分类文本的局部特征向量；以及，通过第二特征提取模型，对所述词向量序列进行特征提取，得到所述待分类文本的上下文特征向量；特征拼接模块，用于分别对各个词向量序列的所述局部特征向量和所述上下文特征向量进行拼接处理，得到各个词向量序列对应的拼接特征向量；特征融合模块，用于对各个词向量序列对应的拼接特征向量进行融合处理，得到融合特征向量；特征分类模块，用于基于所述融合特征向量，对所述待分类文本进行分类，得到所述待分类文本的分类结果。 8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在权　利　要　求　书 2/3 页 3 CN 115422357 A 3

专利 文本分类方法、装置、计算机设备和存储介质

专利文本分类方法、装置、计算机设备和存储介质