公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211035702.4 (22)申请日 2022.08.26 (71)申请人 中国银联股份有限公司 地址 200135 上海市浦东 新区含笑路36号 (72)发明人 周檬 吴宏杰 檀康 李静 陈汉 (74)专利代理 机构 北京同达信恒知识产权代理 有限公司 1 1291 专利代理师 彭燕 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/38(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称 一种元数据的标签分类方法及装置 (57)摘要 本发明实施例提供一种元数据的标签分类 方法及装置, 应用于大数据技术领域, 用以解决 现有技术中确定元数据的标签分类效率较低的 问题。 包括: 针对任一元数据, 获取元数据的中文 语义信息和元数据的英文语义信息; 根据中文分 词集合, 确定元数据的中文语义信息对应的第一 特征向量; 中文分词集合是通过对 各元数据的中 文语义信息进行分词得到的; 根据英文分词集 合, 确定元数据的英文语义信息对应的第二特征 向量; 英文分词集合是通过对各元数据的英文语 义信息进行分词得到的; 将第一特征向量与第二 特征向量拼接, 得到元数据的特征编码向量; 将 元数据的特征编码向量分别输入各个标签分类 器, 确定元 数据的标签 类别。 权利要求书2页 说明书14页 附图3页 CN 115438181 A 2022.12.06 CN 115438181 A 1.一种元 数据的标签分类方法, 其特 征在于, 包括: 针对任一元数据, 获取 所述元数据的中文语义信息和所述元 数据的英文语义信息; 根据中文分词集合, 确定所述元数据的中文语义信息对应的第一特征向量; 所述中文 分词集合是通过对各 元数据的中文语义信息进行分词得到的; 根据英文分词集合, 确定所述元数据的英文语义信息对应的第二特征向量; 所述英文 分词集合是通过对各 元数据的英文语义信息进行分词得到的; 将所述第一特 征向量与所述第二特 征向量拼接, 得到所述元 数据的特 征编码向量; 将所述元数据的特征编码向量分别输入各个标签分类器, 确定所述元数据的标签类 别。 2.如权利要求1所述的方法, 其特征在于, 所述根据中文分词集合, 确定所述元数据的 中文语义信息对应的第一特 征向量, 包括: 对所述元 数据的中文语义信息进行分词, 得到各第一分词; 针对任一第一分词, 若确定所述第一分词存在于所述中文分词集合中, 则设置所述第 一分词对应的子特征向量为第一值; 若确定所述第一分词不存在于所述中文分词集合中, 则设置所述第一分词对应的子特 征向量为第二值; 按照所述各第 一分词在所述元数据的中文语义信 息中的位置, 将各第 一分词对应的子 特征向量进行拼接, 得到所述元 数据的中文语义信息对应的第一特 征向量。 3.如权利要求1所述的方法, 其特征在于, 所述根据英文分词集合, 确定所述元数据的 英文语义信息对应的第二特 征向量, 包括: 对所述元 数据的英文语义信息进行分词, 得到各第二分词; 针对任一第二分词, 若确定所述第二分词存在于所述英文分词集合中, 则设置所述第 二分词对应的子特征向量为第一值; 若确定所述第二分词不存在于所述英文分词集合中, 则设置所述第二分词对应的子特 征向量为第二值; 按照所述各第 二分词在所述元数据的英文语义信 息中的位置, 将各第 二分词对应的子 特征向量进行拼接, 得到所述元 数据的英文语义信息对应的第二特 征向量。 4.如权利要求1至3任一项所述的方法, 其特征在于, 所述将所述元数据的特征编码向 量分别输入各个标签分类 器, 确定所述元 数据的标签 类别, 包括: 将所述元数据的特征编码向量输入各个标签分类器, 获取所述各个标签分类器中对应 的预测概 率; 根据所述各个标签分类 器对应的预测概 率, 确定所述元 数据的标签 类别。 5.如权利要求4所述的方法, 其特征在于, 所述各个标签分类器是通过训练样本进行训 练得到; 每 个标签分类 器具有通过训练得到的上限阈值和下限阈值; 所述根据所述各个标签分类 器对应的预测概 率, 确定所述元 数据的标签 类别, 包括: 若第一标签分类器对应的第 一预测概率高于所述第 一标签分类器的上限阈值, 且第 二 标签分类器对应的第二预测概率低于所述第二标签分类器的下限阈值, 则确定所述元数据 具有所述第一标签分类器对应的标签类别; 所述第二标签分类器为所述各个标签分类器中 除所述第一标签分类 器之外的各 标签分类 器。 6.如权利要求5所述的方法, 其特征在于, 还包括: 针对任一标签分类器, 若所述标签分 类器的预测概率低于所述标签分类器的下限阈值, 则确定所述元数据不具有 所述标签分类权 利 要 求 书 1/2 页 2 CN 115438181 A 2器对应的标签类别, 并将所述元数据作为用于对所述各个标签分类器进行更新的训练样 本。 7.如权利要求5所述的方法, 其特征在于, 所述确定所述元数据的标签类别之后, 还包 括: 将所述元 数据作为用于对所述各个标签分类 器进行更新的训练样本 。 8.如权利要求5所述的方法, 其特征在于, 还包括: 若不存在任一标签分类器对应的预 测概率高于所述标签分类器的上限阈值, 则在所述各个标签分类器进行更新后, 继续将所 述元数据 的特征编码向量分别输入更新后的各个标签分类器, 确定所述元数据的标签类 别。 9.一种元 数据的标签分类装置, 其特 征在于, 包括: 获取单元, 用于针对任一元数据, 获取所述元数据的中文语义信息和所述元数据的英 文语义信息; 处理单元, 用于根据中文分词集合, 确定所述元数据的中文语义信息对应的第一特征 向量; 所述中文分词集合是通过对各元数据的中文语义信息进行分词 得到的; 根据英文分 词集合, 确定所述元数据的英文语义信息对应的第二特征向量; 所述英文分词集合是通过 对各元数据的英文语义信息进 行分词得到的; 将所述第一特征向量与所述第二特征向量拼 接, 得到所述元数据的特征编码向量; 将所述元数据的特征编码向量分别输入各个标签分 类器, 确定所述元 数据的标签 类别。 10.一种计算设备, 其特征在于, 包括至少一个处理器以及至少一个存储器, 其中, 所述 存储器存储有计算机程序, 当所述程序被所述处理器执行时, 使得所述处理器执行权利要 求1至8任一权利要求所述的方法。 11.一种计算机可读存储介质, 其特征在于, 所述存储介质存储有程序, 当所述程序在 计算机上运行时, 使得计算机实现执 行权利要求1至8中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115438181 A 3
专利 一种元数据的标签分类方法及装置
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:14:02
上传分享
举报
下载
原文档
(562.4 KB)
分享
友情链接
GB-T 26079-2010 梁式吊具.pdf
数据安全事件管理办法.pdf
GB-T 32213-2015 信息安全技术 公钥基础设施 远程口令鉴别与密钥建立规范.pdf
GM-T 0021-2023 动态口令密码应用技术规范.pdf
T-CCPEF 067—2020 矿山生态修复示范工程评定标准.pdf
T-CCPITCSC 119—2023 企业税务风险管理指南.pdf
GB-T 26832-2011 无损检测仪器 钢丝绳电磁检测仪技术条件.pdf
T-ZZB 2358—2021 紫外光 UV 固化漆饰面人造板.pdf
HJ 76—2017 固定污染源烟气(SO2、NOx、颗粒物)排放连续监测系统技术要求及检测方法.pdf
T-GVS 009—2022 注塑模具表面纳米硬质PVD涂层评价规范.pdf
T-ZMDS 70001—2022 数字化生产义齿.pdf
专利 一种黑产识别方法、装置及计算机可读存储介质.PDF
HJ 1238—2021 汽车排放定期检验信息采集传输技术规范.pdf
2021-交通银行-隐私计算金融应用蓝皮书.pdf
GB-T 30279-2013 信息安全技术 安全漏洞等级划分指南.pdf
DB31-T 1309-2021 数据中心节能改造技术规范 上海市.pdf
GB-T 40113.1-2021 生物质热解炭气油多联产工程技术规范 第1部分:工艺设计.pdf
GB-T 36431-2018 消费品分类与代码.pdf
GB-T 37091-2018_信息安全技术 安全办公U盘安全技术要求.pdf
GB-T 18771.2-2015 烟草术语 第2部分:烟草制品与烟草加工.pdf
交流群
-->
1
/
20
评价文档
赞助2元 点击下载(562.4 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。