公共安全标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211059832.1 (22)申请日 2022.08.31 (71)申请人 昆明理工大 学 地址 650500 云南省昆明市呈贡区景明南 路727号 (72)发明人 毛存礼 唐聪 余正涛 高盛祥  黄于欣 张勇丙  (74)专利代理 机构 昆明隆合知识产权代理事务 所(普通合伙) 53220 专利代理师 何娇 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/211(2020.01) G06F 40/258(2020.01) G06F 40/30(2020.01)G06F 16/33(2019.01) G06F 16/951(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于改进多头自注意力机制的越南语实体 识别方法及装置 (57)摘要 本发明涉及基于改进多头自注意力机制的 越南语实体识别方法及装置, 属于自然语言处理 技术领域。 为了解决越南语实体识别未考虑依存 句法知识导致效果不佳的问题, 针对依存知 识对 实体识别任务的影 响, 本发明提出了一种改进多 头自注意力机制的越南语实体识别方法, 包括越 南语实体数据标注和数据预处理、 融入依存句法 知识的越南语文本特征表示、 基于改进多头自注 意力机制的越南语实体识别模型构建以及越南 语文本实体识别四个部分构成。 根据这四个部分 功能模块化制成基于改进多头自注意力机制的 越南语实体识别装置, 对输入的句子进行实体识 别, 本发明有效提升 了越南语实体识别效果。 权利要求书3页 说明书9页 附图2页 CN 115470779 A 2022.12.13 CN 115470779 A 1.基于改进多头自注意力机制的越南语实体识别方法, 其特征在于: 所述基于改进多 头自注意力机制的越南语实体识别方法的具体步骤如下: Step1、 越南语实体数据 标注和数据预处理: 采用爬虫技术和人工结合来对汉越跨语言 实体链接候选实体生成以及汉越跨语言实体消歧任务数据集进行构建, 对现有数据集 VLSP2016使用PhoNLP来对数据进行自动标注, 对网络爬取的数据进行去重、 过滤特殊字符 以及数据清洗处 理构建数据集; Step2、 融入依存句法知识的越南语文本特征表示: 对输入模型的越南语各个词语进行 向量化表征, 其中包括通过越南语预训练语言模型PhoBERT得到的越南语各个词的向量表 征以及通过查表得到的各个词的词性、 组块标签以及依存关系标签的向量表征; Step3、 利用基于改进多头自注意力机制的越南语实体识别 模型进行识别: 通过改进多 头自注意力机制融入依存句法知识使模型效果得到提升, 对编 码并融入依存关系信息得到 的向量通过BiLSTM对嵌入层输出进行特征提取, 再使用词本身、 词的前后相 邻词、 依存词和 被依存词构成邻接矩阵, 通过该邻接矩阵进行掩码自注意力机制后得到的结果与BiLSTM得 到的特征提取结果进行残差链接后送入解码层, 通过解码器CRF对输入的越南语句子中的 实体进行 预测, 得到最后的越南语实体识别结果。 2.根据权利要求1所述的基于改进多头自注意力机制的越南语实体识别方法, 其特征 在于: 所述Step1的具体步骤为: Step1.1、 越南语实体识别数据集VLSP2016以词为粒度进行标注, 包含5列信息, 其 中第 一列为词本身, 第二列为词性标签, 第三列为组块标签, 第四列为实体标签, 第五列为嵌套 实体标签; 标注了Person、 Location、 Organization和Miscellaneous四种实体类别, 采用 “BIO”形式进行标注, 包含的标签有 “B‑PER”、“I‑PER”、“B‑LOC”、“I‑LOC”、“B‑ORG”、“I‑ ORG”、“B‑MISC”、“I‑MISC”以及“O”, 对数据集中的标签信息和句子长度进行统计分析, 并在 此数据集的基础上增 加依存句法标签; Step1.2、 通过维基百科公开镜像数据下载地址得到汉语最新文章页面文件, 并通过 Python语 言解析得到汉语知识库; 最终获取得到的汉语知识库包含汉语实体, 知识库以TXT 文件存储, 每一行包含一个汉语实体以及对应维基百科实体序号, 汉越对齐实体的获取通 过网络爬虫技术实现, 使用Python语言Requests库编写爬虫代码并通过xpath定位维基百 科返回的HTML源码中的越南语标题以此 得到汉越双语对齐实体; Step1.3、 对网络爬取的汉越数据进行去重、 过滤特殊字符处理构 建了汉越跨语言实体 链接数据集, 对汉越跨语言文本进行基于 字符级向量 化表示。 3.根据权利要求2所述的基于改进多头自注意力机制的越南语实体识别方法, 其特征 在于: 所述Step1.3的具体步骤为: Step1.3.1、 通过网络爬虫获取的数据中包含一些非法字符、 乱码以及非汉语语言数 据, 故通过正则匹配技术以及人工的方式对通过爬虫所获取的汉语知识库、 汉 ‑越对齐实体 以及汉语实体别名集 合进行数据清洗; Step1.3.2、 WikiANN是针对维基百科英语知识库的数据集, 其中标注信息只有英语维 基百科标题, 与需要的汉语维基百科标题不符, 故使用爬虫技术利用维基百科 的多语言链 接爬取越南语实体所对应的汉语实体以及汉语实体页面描述该实体的第一句话; 由于 WikiANN数据集中包含大量重复数据、 大量音节数小于4的数据以及大量乱码数据, 这些数权 利 要 求 书 1/3 页 2 CN 115470779 A 2据会对模型产生负面影响, 故需要通过人工的方式对数据集进行数据清洗, 把其中乱码数 据以及重复数据清除。 4.根据权利要求1所述的基于改进多头自注意力机制的越南语实体识别方法, 其特征 在于: 所述Step2的具体步骤为: Step2.1、 词向量表征: 给定由n个单词w1; w2;…; wn组成的句子作为输入, 通过PhoBERT 得到越南语输入中第i个词语wi的嵌入表示 word, 具体公式如下: wordi=PhoBERTbase(w1:n,i) 因为PhoBERT采用BPE对句子进行子词分割, 词嵌入表示实际上是通过一个词语所切分 的多个子词表示加 和得来; Step2.2、 多特征向量表征: 为了嵌入层表示能获得更加丰富的语义信息, 在得到上述 词嵌入后拼接词语的词性标签嵌入pi、 组块标签嵌入ci以及依存关系标签嵌入di, 具体公式 如下: pi=Lookuppos(wordi) di=Lookupdep(wordi) ci=Lookupchunk(wordi) Step2.3、 越南语词向量、 词性标签向量、 组块标签以及依存关系标签向量拼接: 基于 Step2.1以及Step2.2获得了越南语的词语、 词性、 组块以及依存关系向量, 为了进行模 型训 练, 将越南语的词语、 词性、 组块以及依存关系向量进行拼接, 得到最终的嵌入层表示ei, 具 体公式如下 其中 表示矩阵拼接操作, 词性标签嵌入、 组块标签嵌入依存关系标签嵌入 通过随机 初始化生成, 随着模型训练一 起训练优化; Step2.4、 句法图构建: 为了使各词能只关注于所需要关注的词信息, 减少Self ‑ Attention关注全局而带来的噪声信息; 通过各词与依存词以及相邻词语之间的关系构建 出邻接矩阵, 得到最终用于进行Mask  Self‑Attention的mask矩阵Dmask; 具体公式如下: 5.根据权利要求1所述的基于改进多头自注意力机制的越南语实体识别方法, 其特征 在于: 所述Step3的具体步骤为: Step3.1、 通过Step2中得到最终嵌入层表示e1:n后, 把它送入B iLSTM得到提取特征信息 后的特征表示hi, 具体公式如下: Step3.2、 在经过BiLSTM得到特征表示h1:n后使用Mask  Self‑Attention得到隐藏表示 其中mask矩阵为上述构成的Dmask, 具体公式如下: Step3.3、 为了不丢失词语本身的特征信息, 使词语本身的特征信息与经过Mask  Self‑ Attention后得到的隐藏信息能够有效融合, 模型通 过对hi和hl加和后的向量进行归一化后权 利 要 求 书 2/3 页 3 CN 115470779 A 3

PDF文档 专利 基于改进多头自注意力机制的越南语实体识别方法及装置

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于改进多头自注意力机制的越南语实体识别方法及装置 第 1 页 专利 基于改进多头自注意力机制的越南语实体识别方法及装置 第 2 页 专利 基于改进多头自注意力机制的越南语实体识别方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:57上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。