(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210945562.8
(22)申请日 2022.08.08
(71)申请人 南京邮电大 学
地址 210000 江苏省南京市 鼓楼区新模范
马路66号
(72)发明人 盛雪晨 陈丹伟
(74)专利代理 机构 南京苏科专利代理有限责任
公司 32102
专利代理师 姚姣阳
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于分布式机 器学习的文本分类方法
(57)摘要
本发明公开了一种基于分布式机器学习的
文本分类方法, 包括: S1、 输入数据集并进行预处
理; S2、 将数据集进行分块, 并提出Word2Vec的分
布式文本数据流分类方法; S3、 训练Word2Vec模
型, 将单词表 示为在连续空间上的低维稠 密向量
形式, 生成词向量, 并自定义权重矩阵; S4、 主节
点将分类器权重广播到子节点, 数据流通过分布
式文件管 理系统将数据块分发至子节 点, 主节点
轮询等待子节 点对数据块的处理结果, 以获取权
重梯度之和, 更新后处理下一个数据块; S5、 初始
化CNN参数, 输入至卷积神经网络进行并行化训
练, 在Spark平台下构建基于分布式机器学习的
文本分类模型。 本发明通过Apach e Spark框架的
适应性来探索卷积神经网络, 充分利用Spark框
架的并行优势, 提高了文本分类的精度。
权利要求书3页 说明书8页 附图2页
CN 115329075 A
2022.11.11
CN 115329075 A
1.一种基于分布式机器学习的文本分类方法, 其特 征在于, 包括以下步骤:
S1、 输入数据集, 并对数据集进行 预处理;
S2、 将数据集进行分块, 并提出一种基于W ord2Vec的分布式文本数据流分类方法;
S3、 训练Word2Vec模型, 将单词表示为在连续空间上的低维稠密向量形式, 生成词向
量, 并自定义权 重矩阵;
S4、 在一个主节点和三个子节点构成的标准集群中, 主节点将分类器权重广播到所述
子节点, 数据流通过分布式文件管理系统将所述数据块分发至所述子节点, 主节点轮询等
待所述子节点对数据块的处理结果, 随后 获取每个子节点处理的权重梯度之和, 更新主节
点, 随后处 理下一个数据块, 直至数据流结束;
S5、 初始化CNN参数, 输入至卷积神经网络进行并行化训练, 在Spark平台下构 建基于分
布式机器学习的文本分类模型, 以对文本进行分类。
2.根据权利要求1所述的基于分布式机器学习的文本分类方法, 其特征在于, S1包括以
下步骤:
S11、 使用分词系统对数据集进行分词; 所述分词系统包括结巴(Jieba)分词系统、 Han
LP分词系统、 清华中文词法分析和THULAC分词系统;
S12、 使用停用词 表对数据集进行去停用词; 常见的停用词表包括哈工大停用词 表和百
度停用词表。
3.根据权利要求1所述的基于分布式机器学习的文本分类方法, 其特征在于, S2包括以
下步骤:
S21、 按定 长的时间窗口机制, 将给定的数据流分为固定大小的数据块;
S22、 为了缓解短文本数据流中的稀疏信息和高维特征, 利用外部语料库建立扩展
Word2vec模型, 采用固定大小的N维词向量Vec对短文本进行向量表示;
S23、 对t时刻数据流中数据块Dt使用词向量集合完 成向量化, 获得向量化表示Vec(Dt),
然后在Vec(Dt)上进行模型的训练, 并对下一个数据块Dt+1进行预测;
S24、 对文本进行 预测。
4.根据权利要求3所述的基于分布式机器学习的文本分类方法, 其特征在于, S24具体
为: 以t时刻的数据块Dt+1中的短文本
为例, 通过以下公式预测向量化的
文
本:
其中,
为预测标签;
为算法集成模型Ft在第t时刻中第r个分类器的特征权
重, σ(·)表示为对应激活函数; 最后使用文本上下文信息更新扩展Word2vec词向量集合
VecE。
5.根据权利要求1所述的基于分布式机器学习的文本分类方法, 其特征在于, S3包括以
下步骤:
S31、 Word2vec根据语料中词汇共现信息, 将词汇编码成一个向量, 以计算每个词语在
给定语料库环境下的分布式词向量;权 利 要 求 书 1/3 页
2
CN 115329075 A
2S32、 通过扩展W ord2vec模型对短文本的向量 化。
6.根据权利要求1所述的基于分布式机器学习的文本分类方法, 其特征在于, S4包括以
下步骤:
S41、 机器学习算法通常来说通过给定数据和模型, 对目标函数进行迭代直至收敛, 具
体公式为:
Mt=F(Mt‑1,ΔL(Mt‑1,D));
其中, t表示迭代次数, ΔL为目标函数, F做模型 更新;
S42、 数据流通过HDFS分布式文件系 统将所有数据块均衡的分发到各子节点进行分布
式参数训练。
7.根据权利要求6所述的基于分布式机器学习的文本分类方法, 其特征在于, S41具体
为: 当数据量较大时, 需要对数据进行切分在多节点上并行, 此时, 每个工作节点利用本地
数据进行训练, 并通过一定的通信算法同步更新, 此时的迭代公式为:
当机器学习模型较大时, 需要对模型进行划分并在工作节点上分别训练时, 此时的迭
代函数可表示为:
其中,
是模型调度函数; 目标函数在各个节点训练的子模型 上, 对参数进行选择。
8.根据权利要求6所述的基于分布式机器学习的文本分类方法, 其特征在于, S42具体
为: 主节点将分类器Ft的各个特征权重广播至所有的子节点, 并等待所有子节点完成对短
文本d(d∈Dt+1)的预测, 同时将 本地短文本中存在的新词文本回传给主节 点, 主节点获取所
有子节点对训练数据块的预测信息与数据块中存在的新词文本集 合信息, 输出 预测结果。
9.根据权利要求1所述的基于分布式机器学习的文本分类方法, 其特征在于, S5包括以
下步骤:
S51、 卷积层和池化层是CNN的核心组件, 经过卷积和池化操作, 将原始特征映射到更高
层次维度的语义空间;
S52、 池化层负责对卷积层提取到的信息进行采样并对部分信息进行保留, 同时为下一
层的计算减少参数, 加快模型的训练速度;
S53、 全连接层将 样本从特 征空间映射到标记空间。
10.根据权利要求9所述的基于分布式机器学习的文本分类方法, 其特征在于, S51具体
为: 假设某文本包 含n个单词, 词向量维数为 k, 则输入可表示 为n×k维的文本矩阵X;
X={x1, x2, ..., xn}T,其中, xi为第i个词的词向量;
通过设置不同长度的卷积核, CNN可以进行丰富的局部特征提取, 定义卷积核的尺寸为
h, 权值矩阵和偏置分别为 W∈Rh×k和b∈R;
将输入X分为{x1:h, x2:h+1, ..., xi:i+h‑1, ..., xn‑h+1:n}, 每次卷积操作对第i步时滑动窗口
内的信息xi:i+h‑1∈Rh×k进行特征提取, 得到的属性 值ci∈R, i∈[1, n -h+1], 计算如下:权 利 要 求 书 2/3 页
3
CN 115329075 A
3
专利 基于分布式机器学习的文本分类方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:14:16上传分享