专利 基于分布式机器学习的文本分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210945562.8 (22)申请日 2022.08.08 (71)申请人南京邮电大学地址 210000 江苏省南京市鼓楼区新模范马路66号 (72)发明人盛雪晨　陈丹伟　 (74)专利代理机构南京苏科专利代理有限责任公司 32102 专利代理师姚姣阳 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于分布式机器学习的文本分类方法 (57)摘要本发明公开了一种基于分布式机器学习的文本分类方法，包括： S1、输入数据集并进行预处理； S2、将数据集进行分块，并提出Word2Vec的分布式文本数据流分类方法； S3、训练Word2Vec模型，将单词表示为在连续空间上的低维稠密向量形式，生成词向量，并自定义权重矩阵； S4、主节点将分类器权重广播到子节点，数据流通过分布式文件管理系统将数据块分发至子节点，主节点轮询等待子节点对数据块的处理结果，以获取权重梯度之和，更新后处理下一个数据块； S5、初始化CNN参数，输入至卷积神经网络进行并行化训练，在Spark平台下构建基于分布式机器学习的文本分类模型。本发明通过Apach e Spark框架的适应性来探索卷积神经网络，充分利用Spark框架的并行优势，提高了文本分类的精度。权利要求书3页说明书8页附图2页 CN 115329075 A 2022.11.11 CN 115329075 A 1.一种基于分布式机器学习的文本分类方法，其特征在于，包括以下步骤： S1、输入数据集，并对数据集进行预处理； S2、将数据集进行分块，并提出一种基于W ord2Vec的分布式文本数据流分类方法； S3、训练Word2Vec模型，将单词表示为在连续空间上的低维稠密向量形式，生成词向量，并自定义权重矩阵； S4、在一个主节点和三个子节点构成的标准集群中，主节点将分类器权重广播到所述子节点，数据流通过分布式文件管理系统将所述数据块分发至所述子节点，主节点轮询等待所述子节点对数据块的处理结果，随后获取每个子节点处理的权重梯度之和，更新主节点，随后处理下一个数据块，直至数据流结束； S5、初始化CNN参数，输入至卷积神经网络进行并行化训练，在Spark平台下构建基于分布式机器学习的文本分类模型，以对文本进行分类。 2.根据权利要求1所述的基于分布式机器学习的文本分类方法，其特征在于， S1包括以下步骤： S11、使用分词系统对数据集进行分词；所述分词系统包括结巴(Jieba)分词系统、 Han LP分词系统、清华中文词法分析和THULAC分词系统； S12、使用停用词表对数据集进行去停用词；常见的停用词表包括哈工大停用词表和百度停用词表。 3.根据权利要求1所述的基于分布式机器学习的文本分类方法，其特征在于， S2包括以下步骤： S21、按定长的时间窗口机制，将给定的数据流分为固定大小的数据块； S22、为了缓解短文本数据流中的稀疏信息和高维特征，利用外部语料库建立扩展 Word2vec模型，采用固定大小的N维词向量Vec对短文本进行向量表示； S23、对t时刻数据流中数据块Dt使用词向量集合完成向量化，获得向量化表示Vec(Dt)，然后在Vec(Dt)上进行模型的训练，并对下一个数据块Dt+1进行预测； S24、对文本进行预测。 4.根据权利要求3所述的基于分布式机器学习的文本分类方法，其特征在于， S24具体为：以t时刻的数据块Dt+1中的短文本为例，通过以下公式预测向量化的文本：其中，为预测标签；为算法集成模型Ft在第t时刻中第r个分类器的特征权重， σ(·)表示为对应激活函数；最后使用文本上下文信息更新扩展Word2vec词向量集合 VecE。 5.根据权利要求1所述的基于分布式机器学习的文本分类方法，其特征在于， S3包括以下步骤： S31、 Word2vec根据语料中词汇共现信息，将词汇编码成一个向量，以计算每个词语在给定语料库环境下的分布式词向量；权　利　要　求　书 1/3 页 2 CN 115329075 A 2S32、通过扩展W ord2vec模型对短文本的向量化。 6.根据权利要求1所述的基于分布式机器学习的文本分类方法，其特征在于， S4包括以下步骤： S41、机器学习算法通常来说通过给定数据和模型，对目标函数进行迭代直至收敛，具体公式为： Mt＝F(Mt‑1,ΔL(Mt‑1,D))；其中， t表示迭代次数， ΔL为目标函数， F做模型更新； S42、数据流通过HDFS分布式文件系统将所有数据块均衡的分发到各子节点进行分布式参数训练。 7.根据权利要求6所述的基于分布式机器学习的文本分类方法，其特征在于， S41具体为：当数据量较大时，需要对数据进行切分在多节点上并行，此时，每个工作节点利用本地数据进行训练，并通过一定的通信算法同步更新，此时的迭代公式为：当机器学习模型较大时，需要对模型进行划分并在工作节点上分别训练时，此时的迭代函数可表示为：其中，是模型调度函数；目标函数在各个节点训练的子模型上，对参数进行选择。 8.根据权利要求6所述的基于分布式机器学习的文本分类方法，其特征在于， S42具体为：主节点将分类器Ft的各个特征权重广播至所有的子节点，并等待所有子节点完成对短文本d(d∈Dt+1)的预测，同时将本地短文本中存在的新词文本回传给主节点，主节点获取所有子节点对训练数据块的预测信息与数据块中存在的新词文本集合信息，输出预测结果。 9.根据权利要求1所述的基于分布式机器学习的文本分类方法，其特征在于， S5包括以下步骤： S51、卷积层和池化层是CNN的核心组件，经过卷积和池化操作，将原始特征映射到更高层次维度的语义空间； S52、池化层负责对卷积层提取到的信息进行采样并对部分信息进行保留，同时为下一层的计算减少参数，加快模型的训练速度； S53、全连接层将样本从特征空间映射到标记空间。 10.根据权利要求9所述的基于分布式机器学习的文本分类方法，其特征在于， S51具体为：假设某文本包含n个单词，词向量维数为 k，则输入可表示为n×k维的文本矩阵X； X＝{x1， x2， ...， xn}T,其中， xi为第i个词的词向量；通过设置不同长度的卷积核， CNN可以进行丰富的局部特征提取，定义卷积核的尺寸为 h，权值矩阵和偏置分别为 W∈Rh×k和b∈R；将输入X分为{x1:h， x2:h+1， ...， xi:i+h‑1， ...， xn‑h+1:n}，每次卷积操作对第i步时滑动窗口内的信息xi:i+h‑1∈Rh×k进行特征提取，得到的属性值ci∈R， i∈[1， n －h+1]，计算如下:权　利　要　求　书 2/3 页 3 CN 115329075 A 3

专利 基于分布式机器学习的文本分类方法

专利基于分布式机器学习的文本分类方法