专利 电力领域模型预训练方法、精调方法、装置及设备

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211060951.9 (22)申请日 2022.09.01 (65)同一申请的已公布的文献号申请公布号 CN 115129826 A (43)申请公布日 2022.09.30 (73)专利权人国网智能电网研究院有限公司地址 102209 北京市昌平区未来科技城滨河大道18号 (72)发明人宋博川　张强　周飞　刘同阳　范晓宣　贾全烨　 (74)专利代理机构北京三聚阳光知识产权代理有限公司 1 1250 专利代理师朱惠琴 (51)Int.Cl. G06F 16/33(2019.01)G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) 审查员张书旋 (54)发明名称电力领域模型预训练方法、精调方法、装置及设备 (57)摘要本发明公开了一种电力领域模型预训练方法、精调方法、装置及设备，其中，所述预训练方法包括：获取原始电力语料数据；对所述原始电力语料数据进行处理，所述处理至少包括分词处理；对处理后得到的电力语料数据，采用全词遮蔽的方法，构建电力领域模型的预训练语料；构建电力领域模型，所述电力领域模型包括注意力矩阵，所述注意力矩阵引入了词与词之间的相对位置编码；利用所述预训练语料，对所述电力领域模型进行预训练。本发明提供的技术方案，能够提升预训练模型的迁移能力。权利要求书3页说明书10页附图4页 CN 115129826 B 2022.11.22 CN 115129826 B 1.一种电力领域模型的精调方法，其特征在于，包括：针对下游任务构建训练用数据集；将电力领域预训练模型中除输出层以外的其他网络结构作为底层编码器，并根据所述下游任务构建输出层网络结构，将所述输出层网络结构连接至所述底层编码器之后，得到针对下游任务的电力领域模型，所述电力领域预训练模型的预训练语料是通过对原始电力语料数据进行分词处理之后采用全词遮蔽得到的，且所述电力领域预训练模型包括注意力矩阵，所述注意力矩阵引入了词与词之间的相对位置编码；利用所述训练用数据集对所述针对下游任务的电力领域模型进行训练；其中，引入了词与词之间的相对位置编码的所述注意力矩阵的算法公式为： Attention_rel(Q，K，V)= Attention (Q，K，V)+rel 其中，Attention (Q，K，V)为未引入所述相对位置编码的注意力矩阵的算法公式， V是输入特征的向量， Q、 K是计算Attent ion权重的特征向量， rel是词与词之间的相对位置有关的参数；所述下游任务为分类任务时，所述输出层网络结构为全连接网络；且所述底层编码器与所述全连接网络之间还包括第一网络结构；所述第一网络结构用于抽取所述底层编码器中的第一层和最后一层的编码向量并求平均，得到第一编码向量，再对各个词的所述第一编码向量取平均得到所述底层编码器的编码向量；所述全连接网络用于基于所述底层编码器的编码向量输出每个类别对应的置信度；所述下游任务为序列标注任务时，所述输出层网络结构为条件随机场，且所述底层编码器与条件随机场层之间还包括Dropout层和映射层；所述底层编码器的输出为batch_size， time_steps， hidden_size形状的张量，其中， batch_size为批大小、 ti me_steps为序列长度、 hidden_size为所述底层编码器的隐层单元大小；所述底层编码器的输出经过所述Dropout层和所述映射层转换为batch_size, time_ steps, num_clas ses形状的张量，其中， num_clas ses为目标类的数量；所述条件随机场层用于基于所述batch_size, time_steps, num_classes形状的张量得到整个序列中每个元素的标签。 2.根据权利要求1所述的方法，其特征在于，所述电力领域预训练模型是通过以下方法得到：获取原始电力语料数据；对所述原始电力语料数据进行处理，所述处理至少包括分词处理；对处理后得到的电力语料数据，采用全词遮蔽的方法，构建电力领域模型的预训练语料；构建电力领域模型；利用所述预训练语料，对所述电力领域模型进行预训练。 3.根据权利要求2所述的方法，其特征在于，所述对所述原始电力语料数据进行处理，包括：采用BERT ‑CRF模型和电力领域词典对所述原始电力语料数据进行分词处理，所述权　利　要　求　书 1/3 页 2 CN 115129826 B 2BERT‑CRF模型是利用电力分词语料进行训练得到。 4.根据权利要求2所述的方法，其特征在于，所述对处理后得到的电力语料数据，采用全词遮蔽的方法，构建电力领域模型的预训练语料，包括：对所述处理后得到的电力语料数据采用预设概率进行随机全词遮蔽，将所有需要遮蔽的词语对应的字符中的一部分替换为随机字符、另一部分替换为遮蔽符号、剩余部分保留原来的字符不变。 5.一种电力领域模型的精调装置，其特征在于，包括：第三构建模块，用于针对下游任务构建训练用数据集；第四构建模块，用于将电力领域预训练模型中除输出层以外的其他网络结构作为底层编码器，并根据所述下游任务构建输出层网络结构，将所述输出层网络结构连接至所述底层编码器之后，得到针对下游任务的电力领域模型，所述电力领域预训练模型的预训练语料是通过对原始电力语料数据进行分词处理之后采用全词遮蔽得到的，且所述电力领域预训练模型包括注意力矩阵，所述注意力矩阵引入了词与词之间的相对位置编码；训练模块，用于利用所述训练用数据集对所述针对下游任务的电力领域模型进行训练；其中，引入了词与词之间的相对位置编码的所述注意力矩阵的算法公式为： Attention_rel(Q，K，V)= Attention (Q，K，V)+rel 其中，Attention (Q，K，V)为未引入所述相对位置编码的注意力矩阵的算法公式， V是输入特征的向量， Q、 K是计算Attent ion权重的特征向量， rel是词与词之间的相对位置有关的参数；所述下游任务为分类任务时，所述输出层网络结构为全连接网络；且所述底层编码器与所述全连接网络之间还包括第一网络结构；所述第一网络结构用于抽取所述底层编码器中的第一层和最后一层的编码向量并求平均，得到第一编码向量，再对各个词的所述第一编码向量取平均得到所述底层编码器的编码向量；所述全连接网络用于基于所述底层编码器的编码向量输出每个类别对应的置信度；所述下游任务为序列标注任务时，所述输出层网络结构为条件随机场，且所述底层编码器与条件随机场层之间还包括Dropout层和映射层；所述底层编码器的输出为（batch_size， time_steps， hidden_size）形状的张量，其中， batch_size为批大小、 ti me_steps为序列长度、 hidden_size为所述底层编码器的隐层单元大小；所述底层编码器的输出经过所述Dropout层和所述映射层转换为（batch_size, time_ steps, num_clas ses）形状的张量，其中， num_clas ses为目标类的数量；所述条件随机场层用于基于所述（batch_size, time_steps, num_classes）形状的张量得到整个序列中每个元素的标签。 6.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1至4中任一项所述的电力领域模型的精调方法。权　利　要　求　书 2/3 页 3 CN 115129826 B 3

专利 电力领域模型预训练方法、精调方法、装置及设备

专利电力领域模型预训练方法、精调方法、装置及设备