公共安全标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210063062.1 (22)申请日 2022.01.19 (71)申请人 广州启辰电子科技有限公司 地址 510700 广东省广州市黄埔区天丰路3 号301-1房 申请人 华南理工大 学 (72)发明人 郑彦魁 马震远 马千里 陈海斌  (74)专利代理 机构 北京前审知识产权代理有限 公司 11760 代理人 张静 李亮谊 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/211(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种面向试题知识点分类的层次化语义匹 配方法 (57)摘要 本发明公开了一种面向试题知识点分类的 层次化语义匹配方法。 本发明方法首先构建了试 题知识点层次化结构, 将试题文本语义和知 识点 层次化语义映射到两者的联合空间中, 使用语义 匹配方法建模试题文本语义与不同试题知识点 层次化结构的匹配 关系。 该匹配关系由试题知识 点层次化结构所决定。 具体而言, 试题文本语义 与试题核心考察的知识点语义是较为匹配的, 与 无关的知识点语义是不匹配的。 在试题知识点分 类应用时, 本发 明方法可以根据试题文本语义与 知识点文本语义的匹配距离远近, 获得层次化感 知的知识点分类结果, 该发明方法分类效果较 好, 具有一定的解释性。 权利要求书2页 说明书5页 附图2页 CN 114429138 A 2022.05.03 CN 114429138 A 1.一种面向试题知识点分类的层次化语义匹配方法, 该 方法包括以下步骤: S1、 根据试题知识点的层次化结构, 将知识点标签l=(l1, l2, ...lK)(K为知识点标签的 数量)构建为试题知识点层次化结构。 标签与标签间的连边值表示为e=(el1‑l2, el1‑l3, ...el1‑lK), 若在试题知识点层次化结构中, 两个知识点 标签存在联系, 则连边值为1, 不存在 联系则连边 值为0。 S2、 将试题文本切分为句子s=(s1, s2, ...sT)(T为分句后的句子数量), 每个句子切分 为词w=(w1, w2, ...wS)(S为每个句子的词语数量)。 将文本句子输入特征提取器BERT(基于 Transformer的双向编码器表示)m1中, 提取试题文本的向量表示 为特征向量, 上标i为向量维度。 S3、 基于S1中的知识点标签l和标签间连边e, 我们可以构 建描述层次化结构的有向图G =(V, E)。 其中有向图G的结点为V, 由知识点标签l构建。 有向图G的结点连边E由标签间连边 e构建。 为了提取体现层次化结构的特征向量, 我们 首先将知识点标签l的文本转换为向量 表示, 然后将有向图G输入特征提取器GCN(图卷积神经网络)m2 中, 提取知识点层次化语义 向量表示 为特征向量, 上 标j为向量维度。 S4、 基于试题文本的向量表示Ht和知识点层次化语义向量Hl, 使用MLP(多层感知机)神 经网络将Ht和Hl映射到联合空间中。 联合空间中, 试题文本的向量表示为 知识点 层次化语义向量 为 上标k为联合空间中的向量维度。 S5、 基于S4中获得的联合空间向量表示, 结合知识点层次化结构特定进行匹配学习。 试 题文本语义与试题核心考察的知识点语义是较为匹配的, 与无关的知识点语义是不匹配 的。 首先, 使用联合空间损失函数对联合空间向量表示进行约束。 具体而言, 该损失函数拉 近了联合空间中试题文本 向量表示和该试题最切 合的知识点的向量表示。 其次, 使用边缘 损失(Margin  Loss)函数建模 试题文本向量表 示与其他知识点向量表 示的关系。 具体而言, 除了上述与试题最切 合的小知识点, 试题文本 向量应该与知识大领域的标签基本匹配, 与 无关的知识点完全不匹配。 S6、 本发明方法在神经网络训练时, 基于所述联合空间损失函数、 边缘损失(Margin   Loss)函数进行梯度反向传播训练, 获得一个有较好 性能的知识点分类模型。 S7、 基于以上方法训练神经网络模型后, 本发明方法在进行试题知识点分类时, 在联合 空间中搜索与试题文本语义 最相近的若干个知识点标签 语义, 获得 试题知识点分类标签。 2.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法, 其特征在 于所述的步骤S 3中, 使用特征提取器 GCN(图卷积神经网络)m2, 提取知识点层次化语义向量 φi的过程如下: Hl=σ(E*V*W1) 其中, σ 为激活函数, W1为可学习的矩阵参数。 3.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法, 其特征在 于所述的步骤S4中, 将试题文本的向量表示Ht和知识点层次化语义向量Hl映射到联合空间 的过程如下: φt=FFN(Ht)权 利 要 求 书 1/2 页 2 CN 114429138 A 2φl=FFN(Hl) 其中, FFN为两层的感知机神经网络 。 4.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法, 其特征在 于所述的步骤S5中, 联合空间损失函数 过程如下: 损失函数的形式是L2范数的平方差, 其中g表示与该试题最切合的知识点。 该损失函数 拉近了联合空间中试题文本向量表示和该 试题最切合的知识点的向量表示。 5.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法, 其特征在 于所述的步骤S5中, 边 缘损失(Margi n Loss)函数过程如下: 其中, D为语义距离度量函数L2范数, n表示与该试题不完全切合的知识点, γ表示损失 函数惩罚的权重。 在与该试题不完全切合的知识n中, 如果是知识大领域的标签, 它是相对 匹配该试题的, 但不够准确, 因此设置小的γ值, 进行小的损失函数惩罚, 鼓励其保持适当 的语义距离。 在与该试题不完全切 合的知识n中, 如果是完全无关的知识点标签, 则设置大 的γ值, 鼓励试题文本向量表示与无关的知识 点标签表示远离。 通过以上方法, 该发明使用 层次感知的语义匹配方法, 建模试题文本语义与不同试题知识点语义的匹配关系。 6.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法, 其特征在 于所述的步骤S7 的过程为: 本发明方法在进行试题知识点分类时, 在联合空间中搜索与试 题文本语义 最相近的若干个知识点标签 语义, 获得 试题知识点分类标签, 具体形式如下: 其中, Ylabel为试题知识点分类标签, 表示试题文本语义与知识点标签的 语义距离, ξ表示分类阈值, 若试题文本语义与特定知识点标签的语义距离小于该阈值, 则 视为可归类为该 标签。 7.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法, 其特征在 于本发明方法可以在联合空间中根据试题文本语义与不同知识 点语义的语义距离远近, 分 析特定试题与不同知识点的匹配程度, 具有一定的解释性。 8.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法, 其特征在 于所述的试题文本数据覆盖包 含中文的试题、 包 含英文的试题、 包 含公式的理科 科目等。权 利 要 求 书 2/2 页 3 CN 114429138 A 3

PDF文档 专利 一种面向试题知识点分类的层次化语义匹配方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向试题知识点分类的层次化语义匹配方法 第 1 页 专利 一种面向试题知识点分类的层次化语义匹配方法 第 2 页 专利 一种面向试题知识点分类的层次化语义匹配方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:51上传分享
友情链接
交流群
  • //public.wenku.github5.com/wodemyapi/22.png
-->
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。