公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210945562.8 (22)申请日 2022.08.08 (71)申请人 南京邮电大 学 地址 210000 江苏省南京市 鼓楼区新模范 马路66号 (72)发明人 盛雪晨 陈丹伟  (74)专利代理 机构 南京苏科专利代理有限责任 公司 32102 专利代理师 姚姣阳 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于分布式机 器学习的文本分类方法 (57)摘要 本发明公开了一种基于分布式机器学习的 文本分类方法, 包括: S1、 输入数据集并进行预处 理; S2、 将数据集进行分块, 并提出Word2Vec的分 布式文本数据流分类方法; S3、 训练Word2Vec模 型, 将单词表 示为在连续空间上的低维稠 密向量 形式, 生成词向量, 并自定义权重矩阵; S4、 主节 点将分类器权重广播到子节点, 数据流通过分布 式文件管 理系统将数据块分发至子节 点, 主节点 轮询等待子节 点对数据块的处理结果, 以获取权 重梯度之和, 更新后处理下一个数据块; S5、 初始 化CNN参数, 输入至卷积神经网络进行并行化训 练, 在Spark平台下构建基于分布式机器学习的 文本分类模型。 本发明通过Apach e Spark框架的 适应性来探索卷积神经网络, 充分利用Spark框 架的并行优势, 提高了文本分类的精度。 权利要求书3页 说明书8页 附图2页 CN 115329075 A 2022.11.11 CN 115329075 A 1.一种基于分布式机器学习的文本分类方法, 其特 征在于, 包括以下步骤: S1、 输入数据集, 并对数据集进行 预处理; S2、 将数据集进行分块, 并提出一种基于W ord2Vec的分布式文本数据流分类方法; S3、 训练Word2Vec模型, 将单词表示为在连续空间上的低维稠密向量形式, 生成词向 量, 并自定义权 重矩阵; S4、 在一个主节点和三个子节点构成的标准集群中, 主节点将分类器权重广播到所述 子节点, 数据流通过分布式文件管理系统将所述数据块分发至所述子节点, 主节点轮询等 待所述子节点对数据块的处理结果, 随后 获取每个子节点处理的权重梯度之和, 更新主节 点, 随后处 理下一个数据块, 直至数据流结束; S5、 初始化CNN参数, 输入至卷积神经网络进行并行化训练, 在Spark平台下构 建基于分 布式机器学习的文本分类模型, 以对文本进行分类。 2.根据权利要求1所述的基于分布式机器学习的文本分类方法, 其特征在于, S1包括以 下步骤: S11、 使用分词系统对数据集进行分词; 所述分词系统包括结巴(Jieba)分词系统、 Han   LP分词系统、 清华中文词法分析和THULAC分词系统; S12、 使用停用词 表对数据集进行去停用词; 常见的停用词表包括哈工大停用词 表和百 度停用词表。 3.根据权利要求1所述的基于分布式机器学习的文本分类方法, 其特征在于, S2包括以 下步骤: S21、 按定 长的时间窗口机制, 将给定的数据流分为固定大小的数据块; S22、 为了缓解短文本数据流中的稀疏信息和高维特征, 利用外部语料库建立扩展 Word2vec模型, 采用固定大小的N维词向量Vec对短文本进行向量表示; S23、 对t时刻数据流中数据块Dt使用词向量集合完 成向量化, 获得向量化表示Vec(Dt), 然后在Vec(Dt)上进行模型的训练, 并对下一个数据块Dt+1进行预测; S24、 对文本进行 预测。 4.根据权利要求3所述的基于分布式机器学习的文本分类方法, 其特征在于, S24具体 为: 以t时刻的数据块Dt+1中的短文本 为例, 通过以下公式预测向量化的 文 本: 其中, 为预测标签; 为算法集成模型Ft在第t时刻中第r个分类器的特征权 重, σ(·)表示为对应激活函数; 最后使用文本上下文信息更新扩展Word2vec词向量集合 VecE。 5.根据权利要求1所述的基于分布式机器学习的文本分类方法, 其特征在于, S3包括以 下步骤: S31、 Word2vec根据语料中词汇共现信息, 将词汇编码成一个向量, 以计算每个词语在 给定语料库环境下的分布式词向量;权 利 要 求 书 1/3 页 2 CN 115329075 A 2S32、 通过扩展W ord2vec模型对短文本的向量 化。 6.根据权利要求1所述的基于分布式机器学习的文本分类方法, 其特征在于, S4包括以 下步骤: S41、 机器学习算法通常来说通过给定数据和模型, 对目标函数进行迭代直至收敛, 具 体公式为: Mt=F(Mt‑1,ΔL(Mt‑1,D)); 其中, t表示迭代次数, ΔL为目标函数, F做模型 更新; S42、 数据流通过HDFS分布式文件系 统将所有数据块均衡的分发到各子节点进行分布 式参数训练。 7.根据权利要求6所述的基于分布式机器学习的文本分类方法, 其特征在于, S41具体 为: 当数据量较大时, 需要对数据进行切分在多节点上并行, 此时, 每个工作节点利用本地 数据进行训练, 并通过一定的通信算法同步更新, 此时的迭代公式为: 当机器学习模型较大时, 需要对模型进行划分并在工作节点上分别训练时, 此时的迭 代函数可表示为: 其中, 是模型调度函数; 目标函数在各个节点训练的子模型 上, 对参数进行选择。 8.根据权利要求6所述的基于分布式机器学习的文本分类方法, 其特征在于, S42具体 为: 主节点将分类器Ft的各个特征权重广播至所有的子节点, 并等待所有子节点完成对短 文本d(d∈Dt+1)的预测, 同时将 本地短文本中存在的新词文本回传给主节 点, 主节点获取所 有子节点对训练数据块的预测信息与数据块中存在的新词文本集 合信息, 输出 预测结果。 9.根据权利要求1所述的基于分布式机器学习的文本分类方法, 其特征在于, S5包括以 下步骤: S51、 卷积层和池化层是CNN的核心组件, 经过卷积和池化操作, 将原始特征映射到更高 层次维度的语义空间; S52、 池化层负责对卷积层提取到的信息进行采样并对部分信息进行保留, 同时为下一 层的计算减少参数, 加快模型的训练速度; S53、 全连接层将 样本从特 征空间映射到标记空间。 10.根据权利要求9所述的基于分布式机器学习的文本分类方法, 其特征在于, S51具体 为: 假设某文本包 含n个单词, 词向量维数为 k, 则输入可表示 为n×k维的文本矩阵X; X={x1, x2, ..., xn}T,其中, xi为第i个词的词向量; 通过设置不同长度的卷积核, CNN可以进行丰富的局部特征提取, 定义卷积核的尺寸为 h, 权值矩阵和偏置分别为 W∈Rh×k和b∈R; 将输入X分为{x1:h, x2:h+1, ..., xi:i+h‑1, ..., xn‑h+1:n}, 每次卷积操作对第i步时滑动窗口 内的信息xi:i+h‑1∈Rh×k进行特征提取, 得到的属性 值ci∈R, i∈[1, n -h+1], 计算如下:权 利 要 求 书 2/3 页 3 CN 115329075 A 3

PDF文档 专利 基于分布式机器学习的文本分类方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于分布式机器学习的文本分类方法 第 1 页 专利 基于分布式机器学习的文本分类方法 第 2 页 专利 基于分布式机器学习的文本分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:16上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。