(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211060951.9
(22)申请日 2022.09.01
(65)同一申请的已公布的文献号
申请公布号 CN 115129826 A
(43)申请公布日 2022.09.30
(73)专利权人 国网智能电网研究院有限公司
地址 102209 北京市昌平区未来科技城 滨
河大道18号
(72)发明人 宋博川 张强 周飞 刘同阳
范晓宣 贾全烨
(74)专利代理 机构 北京三聚阳光知识产权代理
有限公司 1 1250
专利代理师 朱惠琴
(51)Int.Cl.
G06F 16/33(2019.01)G06F 16/35(2019.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
审查员 张书旋
(54)发明名称
电力领域模型预训练方法、 精调方法、 装置
及设备
(57)摘要
本发明公开了一种电力领域模型预训练方
法、 精调方法、 装置及设备, 其中, 所述预训练方
法包括: 获取原始电力语料数据; 对所述原始电
力语料数据进行处理, 所述处理至少包括分词处
理; 对处理后得到的电力语料数据, 采用全词遮
蔽的方法, 构建电力领域模型的预训练语料; 构
建电力领域模 型, 所述电力领域模 型包括注意力
矩阵, 所述注 意力矩阵引入了词与词之间的相对
位置编码; 利用所述预训练语料, 对所述电力领
域模型进行预训练。 本发明提供的技术方案, 能
够提升预训练模型的迁移能力。
权利要求书3页 说明书10页 附图4页
CN 115129826 B
2022.11.22
CN 115129826 B
1.一种电力领域模型的精调方法, 其特 征在于, 包括:
针对下游任务构建训练用数据集;
将电力领域预训练模型中除输出层以外的其他网络结构作为底层编码器, 并根据 所述
下游任务构建输出层 网络结构, 将所述输出层 网络结构连接至所述底层编码器之后, 得到
针对下游任务的电力领域模型, 所述电力领域预训练模型的预训练语料是通过对原始电力
语料数据进行分词处理之后采用全词遮蔽得到的, 且所述电力领域预训练模型包括注意力
矩阵, 所述注意力矩阵引入了词与词之间的相对位置编码;
利用所述训练用数据集对所述针对下游任务的电力领域模型进行训练;
其中, 引入了词与词之间的相对位置编码的所述注意力矩阵的算法公式为:
Attention_rel(Q,K,V)= Attention (Q,K,V)+rel
其中,Attention (Q,K,V)为未引入所述相对位置编码的注意力矩阵的算法公式, V是
输入特征的向量, Q、 K是计算Attent ion权重的特征向量, rel是词与词之间的相对位置有关
的参数;
所述下游任务为分类任务时, 所述输出层网络结构为全连接网络; 且所述底层编码器
与所述全连接网络之间还 包括第一网络结构;
所述第一网络结构用于抽取所述底层编码器中的第一层和最后一层的编码向量并求
平均, 得到第一编码向量, 再对各个词的所述第一编码向量取平均得到所述底层编码器的
编码向量;
所述全连接网络用于基于所述底层编码器的编码向量输出每 个类别对应的置信度;
所述下游任务为序列标注任务时, 所述输出层网络结构为条件随机场, 且所述底层编
码器与条件随机场层之间还 包括Dropout层和映射层;
所述底层编码器的输出为batch_size, time_steps, hidden_size形状的张量, 其中,
batch_size为批大小、 ti me_steps为序列长度、 hidden_size为所述底层编码器的隐层单元
大小;
所述底层编码器的输出经过所述Dropout层和所述映射层转换为batch_size, time_
steps, num_clas ses形状的张量, 其中, num_clas ses为目标类的数量;
所述条件随机场层用于基于所述batch_size, time_steps, num_classes形状的张量
得到整个序列中每 个元素的标签。
2.根据权利要求1所述的方法, 其特征在于, 所述电力领域预训练模型是通过以下方法
得到:
获取原始电力语料 数据;
对所述原 始电力语料 数据进行处 理, 所述处 理至少包括分词处 理;
对处理后得到的 电力语料数据, 采用全词遮蔽的方法, 构建电力领域模型的预训练语
料;
构建电力领域模型;
利用所述预训练语料, 对所述电力领域模型进行 预训练。
3.根据权利要求2所述的方法, 其特征在于, 所述对所述原始电力语料数据进行处理,
包括:
采用BERT ‑CRF模型和电力领域词典对所述原始电力语料数据进行分词处理, 所述权 利 要 求 书 1/3 页
2
CN 115129826 B
2BERT‑CRF模型是利用电力分词语料进行训练得到 。
4.根据权利要求2所述的方法, 其特征在于, 所述对处理后得到的 电力语料数据, 采用
全词遮蔽的方法, 构建电力领域模型的预训练语料, 包括:
对所述处理后得到的电力 语料数据采用预设概率进行随机全词遮蔽, 将所有需要遮蔽
的词语对应的字符中的一部分替换为 随机字符、 另一部分替换为遮蔽符号、 剩余部分保留
原来的字符不变。
5.一种电力领域模型的精调装置, 其特 征在于, 包括:
第三构建模块, 用于针对下游任务构建训练用数据集;
第四构建模块, 用于将电力领域预训练模型中除输出层以外的其他网络结构作为底层
编码器, 并根据所述下游任务构建输出层 网络结构, 将所述输出层 网络结构连接至所述底
层编码器之后, 得到针对下游任务的电力领域模型, 所述电力领域预训练模型 的预训练语
料是通过对原始电力语料数据进 行分词处理之后采用全词遮蔽得到的, 且 所述电力领域预
训练模型包括注意力矩阵, 所述注意力矩阵引入了词与词之间的相对位置编码;
训练模块, 用于利用所述训练用数据集对所述针对下游任务的电力领域模型进行训
练;
其中, 引入了词与词之间的相对位置编码的所述注意力矩阵的算法公式为:
Attention_rel(Q,K,V)= Attention (Q,K,V)+rel
其中,Attention (Q,K,V)为未引入所述相对位置编码的注意力矩阵的算法公式, V是
输入特征的向量, Q、 K是计算Attent ion权重的特征向量, rel是词与词之间的相对位置有关
的参数;
所述下游任务为分类任务时, 所述输出层网络结构为全连接网络; 且所述底层编码器
与所述全连接网络之间还 包括第一网络结构;
所述第一网络结构用于抽取所述底层编码器中的第一层和最后一层的编码向量并求
平均, 得到第一编码向量, 再对各个词的所述第一编码向量取平均得到所述底层编码器的
编码向量;
所述全连接网络用于基于所述底层编码器的编码向量输出每 个类别对应的置信度;
所述下游任务为序列标注任务时, 所述输出层网络结构为条件随机场, 且所述底层编
码器与条件随机场层之间还 包括Dropout层和映射层;
所述底层编码器的输出为 (batch_size, time_steps, hidden_size) 形状的张量, 其中,
batch_size为批大小、 ti me_steps为序列长度、 hidden_size为所述底层编码器的隐层单元
大小;
所述底层编码器的输出经过所述Dropout层和所述映射层转换为 (batch_size, time_
steps, num_clas ses) 形状的张量, 其中, num_clas ses为目标类的数量;
所述条件随机场层用于基于所述 (batch_size, time_steps, num_classes) 形状的张
量得到整个序列中每 个元素的标签。
6.一种电子设备, 其特 征在于, 包括:
存储器和 处理器, 所述存储器和所述处理器之间互相通信连接, 所述存储器用于存储
计算机程序, 所述计算机程序被所述处理器执行时, 实现权利要求1至4中任一项所述的电
力领域模型的精调方法。权 利 要 求 书 2/3 页
3
CN 115129826 B
3
专利 电力领域模型预训练方法、精调方法、装置及设备
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:13:56上传分享