公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211039043.1 (22)申请日 2022.08.29 (71)申请人 西安理工大 学 地址 710048 陕西省西安市碑林区金花 南 路5号 (72)发明人 朱磊 文苗青 张彤 张贝贝  孟海宁 王一川 黑新宏  (74)专利代理 机构 西安弘理专利事务所 61214 专利代理师 王奇 (51)Int.Cl. G06F 16/35(2019.01) G06F 17/16(2006.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于奇异值分解和领域预训练的短文本聚 类方法 (57)摘要 本发明公开了一种基于奇异值分解和领域 预训练的短文本聚类方法, 步骤为: 获取短文本 作为数据集, 对数据集进行预处理; 采用CBOW模 型提取词向量特征, 包括频繁词和对应的文档; 将频繁词与文档形成矩阵形式, 使用SVD方法对 矩阵进行分解, 随后构造GCN表示, 形成对应的 图 结构向量, 使用RoBERTa模型对文档进行基础训 练, 再添加新的语义子任务进行训练, 生成NLP语 义向量, 使用两个向量相 结合, 采用D ‑D‑Kmeans 算法进行聚类, 得到聚类结果。 本发明更能提高 聚类收敛速度和准确性, 能够较好抵抗噪声干 扰, 具有较强的鲁棒 性。 权利要求书4页 说明书11页 附图3页 CN 115357715 A 2022.11.18 CN 115357715 A 1.基于奇异值分解和领域预训练的短文本聚类方法, 其特 征在于, 步骤 包括: 步骤1, 获取短文本作为数据集, 对数据集进行 预处理; 步骤2, 对预处理后的数据集, 采用CBOW模型提取词向量特征, 包括频繁词和对应的文 档; 步骤3, 利用词向量特征通过TF ‑IDF算法构建矩阵Q, 对矩阵Q进行奇异值分解后使用 GCN进行卷积, 形成对应的图结构向量; 步骤4, 建立RoBERTa模型, 对步骤2提取出的特征向量, 进行预训练, 抽出Token ‑ Document  Relation  Prediction子任务、 添加IR  Relevance子任务进行再训练后输出NLP 语义向量; 步骤5, 将图结构向量与NLP语义向量相拼接结合, 采用D ‑D‑Kmeans算法进行聚类, 得到 聚类结果。 2.如权利要求1所述的基于奇异值分解和领域预训练 的短文本聚类方法, 其特征在于, 所述步骤1具体为对短文本数据集采用自然语言处理工具包NLT K对数据集依次进 行标记化 分词、 去除停用词、 词性标注及词干提取。 3.如权利要求1所述的基于奇异值分解和领域预训练 的短文本聚类方法, 其特征在于, 所述步骤2具体的为: 步骤2.1, 将预处 理后的数据集映射到二维向量空间; 步骤2.2, 建立CBOW模型, 在CBOW模型中输入一个词表大小为V, 大小为V维的one ‑hot向 量, 该向量中, 仅有所对应的词的下 标处为1, 其 他位置均为0, 我们可以将输入向量记为x; 输入层经过与一个V*N大小的矩阵WV*N相乘后, 得到N维大小的隐藏层的向量h, 相乘后 的结果实际上 是从矩阵WV*N中取出第k行的向量, 也 就是词所对应的词向量, 即 步骤2.3, 隐藏层再经过与 一个N*V大小的矩阵W ′相乘后, 得到V 维大小的输出层的向量 u; 其中输出层向量中的第j个元 素uj就是矩阵W ′中的第j列向量v ′wj与隐藏层向量h的乘积: u=hW′ 步骤2.4, 输出的向量u进行softmax处理, 得到此表中每一个词的预测概率, 而输出概 率最大的词即为本次预测的结果, 即频繁词, 频繁词及其对应的文档构成词向量特 征。 4.如权利要求1所述的基于奇异值分解和领域预训练 的短文本聚类方法, 其特征在于, 所述步骤3具体的为: 步骤3.1, 对于词向量特征中的频繁词按降序排序, 建立FP ‑Tree, 挖掘FP ‑Tree以获得 词频集合; 根据词频建立 IDF模型, 通过IDF模型获取 频繁词的IDF值; 步骤3.2, 获取每个频繁词的词频矩阵, 所述词频矩阵由两列组成, 第一列为标签, 第二 列为该频繁词的IDF值并添加列名; 步骤3.3, 将步骤3.2得到的矩阵集映射到向量空间, 转换为TF ‑IDF词频m ×n的矩阵Q; 步骤3.4, 对矩阵Q的进行奇异值分解得到起奇异值矩阵Σ; 步骤3.5, 建立GCN模型, 将奇异值矩阵输入GCN模型输出图结构向量。 5.如权利要求4所述的基于奇异值分解和领域预训练 的短文本聚类方法, 其特征在于,权 利 要 求 书 1/4 页 2 CN 115357715 A 2所述步骤3.4包括: 步骤3.4.1, 将矩阵Q表示 为: Q=U∑VT 其中, U是一个m ×m的矩阵, Σ是m ×n的奇异值矩阵, 除了主对角线上的元素以外全为 0, 主对角线上的每 个元素都称为奇异值, V是一个n ×n的矩阵; U和V都是酉矩阵, 即满足: UTU=I, VTV=I 步骤3.4.2, 将 Q的转置和Q做矩阵乘法, 那么会得到n ×n的一个方阵QTQ, 对方阵QTQ进行 特征分解, 得到的特 征值和特 征向量满足下式: (QTQ)vi= λivi 得到矩阵QTQ的n个特征值和对应的n个特征向量v,将QTQ的所有特征向量张成一个n ×n 的矩阵V, 我们将V中的每 个特征向量叫做Q的右奇异向量, λ为矩阵的特 征值; 步骤3.4.3, 将 Q和Q的转置做矩阵乘法, 那么会得到m ×m的一个方阵QQT, 对方阵QQT进行 特征分解, 得到的特 征值和特 征向量满足下式: (QQT)ui= λiui 得到矩阵QQT的m个特征值和对应的m个特征向量u,将QQT的所有特征向量张成一个m ×m 的矩阵U, 我们将U中的每 个特征向量叫做Q的左奇异向量; 步骤3.4.4, 由于Σ除了对角线上是奇异值其他位置都是0, 那我们只需要求出每个奇 异值的σ, 由于: 则σi=Avi/ui, 求出每个奇异值σ, 进 而求出奇异值矩阵Σ。 6.如权利要求4所述的基于奇异值分解和领域预训练 的短文本聚类方法, 其特征在于, 所述步骤3.5包括: GCN模型对图数据进行卷积操作, 融合图中节点的属性信息和节点之间的结构信息, 通 过堆叠多层网络抽取节点的多阶邻域中的信息, 构造GCN表示, 形成了对应的图结构向量: 其中 是无向图的邻接矩阵加上相同大小的单位矩阵进行自连接操作, 目的是信息在 图卷积神经网络每一层传播的时候, 图中节点自身的信息也能得以保留; 是 的度矩阵, H (l)是图卷积神经网络中第l层的激活单元矩阵, 网络未训练时的激活单元矩阵为特征矩阵 X, W(l)是图卷积神经网络中第l层的权值 参数。 7.如权利要求1所述的基于奇异值分解和领域预训练 的短文本聚类方法, 其特征在于, 所述步骤4包括: 步骤4.1, 建立RoBERTa模型, 将步骤2输出的词向量特征中的训练集导入RoBERTa模型, 并初始化RoBERTa预训练权 重; 步骤4.2, 设置 输出Embed ding向量维度, 训练数据集迭代次数; 步骤4.3, 模型将实体训练集中每一个字转化为一维向量, 得到一个句子的段向量、 位 置向量, 再将段向量和位置 向量作为深度学习模型 的输入, 最后输出融合全文语义信息的 向量; 步骤4.4, 在RoBERTa模型基础上添加抽取出的Capitalization  Prediction子任务, 将权 利 要 求 书 2/4 页 3 CN 115357715 A 3

PDF文档 专利 基于奇异值分解和领域预训练的短文本聚类方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于奇异值分解和领域预训练的短文本聚类方法 第 1 页 专利 基于奇异值分解和领域预训练的短文本聚类方法 第 2 页 专利 基于奇异值分解和领域预训练的短文本聚类方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。