专利 一种面向试题知识点分类的层次化语义匹配方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210063062.1 (22)申请日 2022.01.19 (71)申请人广州启辰电子科技有限公司地址 510700 广东省广州市黄埔区天丰路3 号301-1房申请人华南理工大学 (72)发明人郑彦魁　马震远　马千里　陈海斌　 (74)专利代理机构北京前审知识产权代理有限公司 11760 代理人张静　李亮谊 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/211(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种面向试题知识点分类的层次化语义匹配方法 (57)摘要本发明公开了一种面向试题知识点分类的层次化语义匹配方法。本发明方法首先构建了试题知识点层次化结构，将试题文本语义和知识点层次化语义映射到两者的联合空间中，使用语义匹配方法建模试题文本语义与不同试题知识点层次化结构的匹配关系。该匹配关系由试题知识点层次化结构所决定。具体而言，试题文本语义与试题核心考察的知识点语义是较为匹配的，与无关的知识点语义是不匹配的。在试题知识点分类应用时，本发明方法可以根据试题文本语义与知识点文本语义的匹配距离远近，获得层次化感知的知识点分类结果，该发明方法分类效果较好，具有一定的解释性。权利要求书2页说明书5页附图2页 CN 114429138 A 2022.05.03 CN 114429138 A 1.一种面向试题知识点分类的层次化语义匹配方法，该方法包括以下步骤： S1、根据试题知识点的层次化结构，将知识点标签l＝(l1， l2， ...lK)(K为知识点标签的数量)构建为试题知识点层次化结构。标签与标签间的连边值表示为e＝(el1‑l2， el1‑l3， ...el1‑lK)，若在试题知识点层次化结构中，两个知识点标签存在联系，则连边值为1，不存在联系则连边值为0。 S2、将试题文本切分为句子s＝(s1， s2， ...sT)(T为分句后的句子数量)，每个句子切分为词w＝(w1， w2， ...wS)(S为每个句子的词语数量)。将文本句子输入特征提取器BERT(基于 Transformer的双向编码器表示)m1中，提取试题文本的向量表示为特征向量，上标i为向量维度。 S3、基于S1中的知识点标签l和标签间连边e，我们可以构建描述层次化结构的有向图G ＝(V， E)。其中有向图G的结点为V，由知识点标签l构建。有向图G的结点连边E由标签间连边 e构建。为了提取体现层次化结构的特征向量，我们首先将知识点标签l的文本转换为向量表示，然后将有向图G输入特征提取器GCN(图卷积神经网络)m2 中，提取知识点层次化语义向量表示为特征向量，上标j为向量维度。 S4、基于试题文本的向量表示Ht和知识点层次化语义向量Hl，使用MLP(多层感知机)神经网络将Ht和Hl映射到联合空间中。联合空间中，试题文本的向量表示为知识点层次化语义向量为上标k为联合空间中的向量维度。 S5、基于S4中获得的联合空间向量表示，结合知识点层次化结构特定进行匹配学习。试题文本语义与试题核心考察的知识点语义是较为匹配的，与无关的知识点语义是不匹配的。首先，使用联合空间损失函数对联合空间向量表示进行约束。具体而言，该损失函数拉近了联合空间中试题文本向量表示和该试题最切合的知识点的向量表示。其次，使用边缘损失(Margin Loss)函数建模试题文本向量表示与其他知识点向量表示的关系。具体而言，除了上述与试题最切合的小知识点，试题文本向量应该与知识大领域的标签基本匹配，与无关的知识点完全不匹配。 S6、本发明方法在神经网络训练时，基于所述联合空间损失函数、边缘损失(Margin Loss)函数进行梯度反向传播训练，获得一个有较好性能的知识点分类模型。 S7、基于以上方法训练神经网络模型后，本发明方法在进行试题知识点分类时，在联合空间中搜索与试题文本语义最相近的若干个知识点标签语义，获得试题知识点分类标签。 2.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法，其特征在于所述的步骤S 3中，使用特征提取器 GCN(图卷积神经网络)m2，提取知识点层次化语义向量 φi的过程如下： Hl＝σ(E*V*W1) 其中， σ 为激活函数， W1为可学习的矩阵参数。 3.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法，其特征在于所述的步骤S4中，将试题文本的向量表示Ht和知识点层次化语义向量Hl映射到联合空间的过程如下： φt＝FFN(Ht)权　利　要　求　书 1/2 页 2 CN 114429138 A 2φl＝FFN(Hl) 其中， FFN为两层的感知机神经网络。 4.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法，其特征在于所述的步骤S5中，联合空间损失函数过程如下：损失函数的形式是L2范数的平方差，其中g表示与该试题最切合的知识点。该损失函数拉近了联合空间中试题文本向量表示和该试题最切合的知识点的向量表示。 5.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法，其特征在于所述的步骤S5中，边缘损失(Margi n Loss)函数过程如下：其中， D为语义距离度量函数L2范数， n表示与该试题不完全切合的知识点， γ表示损失函数惩罚的权重。在与该试题不完全切合的知识n中，如果是知识大领域的标签，它是相对匹配该试题的，但不够准确，因此设置小的γ值，进行小的损失函数惩罚，鼓励其保持适当的语义距离。在与该试题不完全切合的知识n中，如果是完全无关的知识点标签，则设置大的γ值，鼓励试题文本向量表示与无关的知识点标签表示远离。通过以上方法，该发明使用层次感知的语义匹配方法，建模试题文本语义与不同试题知识点语义的匹配关系。 6.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法，其特征在于所述的步骤S7 的过程为：本发明方法在进行试题知识点分类时，在联合空间中搜索与试题文本语义最相近的若干个知识点标签语义，获得试题知识点分类标签，具体形式如下：其中， Ylabel为试题知识点分类标签，表示试题文本语义与知识点标签的语义距离， ξ表示分类阈值，若试题文本语义与特定知识点标签的语义距离小于该阈值，则视为可归类为该标签。 7.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法，其特征在于本发明方法可以在联合空间中根据试题文本语义与不同知识点语义的语义距离远近，分析特定试题与不同知识点的匹配程度，具有一定的解释性。 8.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法，其特征在于所述的试题文本数据覆盖包含中文的试题、包含英文的试题、包含公式的理科科目等。权　利　要　求　书 2/2 页 3 CN 114429138 A 3

专利 一种面向试题知识点分类的层次化语义匹配方法

专利一种面向试题知识点分类的层次化语义匹配方法