公共安全标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211066405.6 (22)申请日 2022.08.31 (71)申请人 北京小米移动软件 有限公司 地址 100085 北京市海淀区西二 旗中路33 号院6号楼8层018号 申请人 北京小米松果电子有限公司 (72)发明人 李响 徐哲哲 (74)专利代理 机构 北京英创嘉友知识产权代理 事务所(普通 合伙) 11447 专利代理师 卢夏子 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/211(2020.01) G06F 40/30(2020.01) (54)发明名称 中文分词方法、 装置、 电子设备及可读存储 介质 (57)摘要 本公开涉及一种中文分词方法、 装置、 电子 设备及可读存储介质, 该方法包括: 能够获取中 文句子及中文句子的译文, 将中文句子与中文句 子的译文进行拼接, 得到拼接后的句子, 将拼接 后的句子输入中文分词模型, 利用中文分词模型 识别拼接后的句子, 得到中文句子的中文分词结 果; 能够根据文句子的译文的语义信息对中文分 词模型的识别结果进行筛选, 过滤掉错误的分词 结果, 提升了对中文进行分词的准确度, 尤其是 对歧义词分 隔的准确度, 进而提高了其他基于中 文分词的中文自然语言处 理任务的准确度。 权利要求书2页 说明书9页 附图6页 CN 115409032 A 2022.11.29 CN 115409032 A 1.一种中文分词方法, 其特 征在于, 包括: 获取中文句子及所述中文句子的译 文; 将所述中文句子与所述中文句子的译 文进行拼接, 得到拼接后的句子; 将所述拼接后的句子输入中文分词模型, 利用所述中文分词模型识别所述拼接后的句 子, 得到所述中文句子的中文分词结果。 2.根据权利要求1所述的方法, 其特征在于, 所述利用所述中文分词模型识别所述拼接 后的句子, 得到所述中文句子的中文分词结果的步骤 包括: 获取所述中文句子的译 文的语义信息; 利用所述中文分词模型识别所述中文句子得到候选中文分词结果; 根据所述中文句子的译文的语义信 息, 从所述候选 中文分词结果筛选出目标中文分词 结果, 作为所述中文分词结果。 3.根据权利要求1所述的方法, 其特征在于, 获取中文句子及所述中文句子的译文包 括: 获取所述中文句子后, 将所述中文句子按照字序列进行翻译, 得到所述中文句子的译 文。 4.根据权利要求3所述的方法, 其特征在于, 将所述中文句子与 所述中文句子的译文进 行拼接, 得到拼接后的句子包括: 将按照字序列进行翻译得到的所述中文句子的译文与 所述中文句子进行拼接, 得到所 述拼接后的句子 。 5.根据权利要求1所述的方法, 其特征在于, 所述中文分词模型是通过预定训练集训练 得到的, 其中, 所述预定训练集包括多组训练样本, 每组所述训练样本包括: 多个样 本句子; 所述样本句子是由中文句子样本与所述中文句子样本的译 文进行拼接得到的。 6.一种中文分词的训练方法, 其特 征在于, 包括: 获取中文句子样本及所述中文句子样本的译 文; 将所述中文句子样本与所述中文句子样本的译 文进行拼接, 得到拼接后的样本句子; 根据所述 拼接后的样本句子训练预定模型, 得到所述中文分词模型。 7.根据权利要求6所述的方法, 其特征在于, 所述获取中文句子样本及所述中文句子样 本的译文的步骤 包括: 获取所述中文句子样本后, 将所述中文句子样本按照字序列进行翻译, 得到所述中文 句子样本的译 文。 8.根据权利要求6所述的方法, 其特征在于, 所述获取中文句子样本及所述中文句子样 本的译文的步骤之后包括: 获取所述中文句子样本的候选中文分词标注; 根据所述中文句子样本的译文的语义信息从所述候选中文分词标注中筛选出目标中 文分词标注。 9.根据权利要求8所述的方法, 其特征在于, 所述将所述中文句子样本与所述中文句子 样本的译 文进行拼接, 得到拼接后的样本句子的步骤 包括: 将带有所述目标中文分词标注的中文句子样本与 所述中文句子样本的译文进行拼接, 得到所述 拼接后的样本句子 。权 利 要 求 书 1/2 页 2 CN 115409032 A 210.一种中文分词装置, 其特 征在于, 包括: 第一获取模块, 被 配置为获取中文句子及所述中文句子的译 文; 第一处理模块, 被配置为将所述中文句子与所述中文句子的译文进行拼接, 得到拼接 后的句子; 识别模块, 被配置为将所述拼接后的句子输入中文分词模型, 利用所述中文分词模型 识别所述 拼接后的句子, 得到所述中文句子的中文分词结果。 11.一种中文分词的训练装置, 其特 征在于, 包括: 第二获取模块, 被 配置为获取 所述中文句子的译 文的语义信息; 第二处理模块, 被配置为利用所述中文分词模型识别所述中文句子得到候选中文分词 结果; 第二处理模块, 还被配置为根据所述中文句子的译文的语义信息, 从所述候选中文分 词结果筛 选出目标中文分词结果, 作为所述中文分词结果。 12.一种电子设备, 其特 征在于, 包括: 处理器; 用于存储处理器可执行指令的存 储器; 其中, 所述处理器被配置为执行所述可执行指令实现权利要求1~5中任一项所述方法 的步骤, 或被 配置为执 行所述可执行指令实现权利要求6~ 9中任一项所述方法的步骤。 13.一种计算机可读存储介质, 其上存储有计算机程序指令, 其特征在于, 该程序指令 被处理器执行时实现权利要求 1~5中任一项所述方法的步骤, 或被处理器执行时实现权利 要求6~9中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115409032 A 3
专利 中文分词方法、装置、电子设备及可读存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:13:58
上传分享
举报
下载
原文档
(711.1 KB)
分享
友情链接
GM-T 0092-2020 基于SM2算法的证书申请语法规范.pdf
AQ 1037-2007 煤矿用无极绳绞车安全检验规范.pdf
Gartner 网络安全IT路线图 .pdf
DL-T 2028-2019 发电厂水处理用膜设备化学清洗导则.pdf
ISO 21448 2022 Road vehicles — Safety of the intended functionality.pdf
GB-T 36717-2018 节能评估技术导则 尿素项目.pdf
XF 95-2015 灭火器维修.pdf
GB-T 41867-2022 信息技术 人工智能 术语.pdf
GB-T 32894-2016 抽水蓄能机组工况转换技术导则.pdf
T-CCIASD 10005—2023 集装箱结构有限元分析指南.pdf
GB-T 21054-2023 信息安全技术 公钥基础设施 PKI系统安全测评方法.pdf
GB-T 37759-2019 节水型企业 现代煤化工行业.pdf
T-ACEF 110—2023 公民绿色低碳行为温室气体减排量化指南 行:机动车停驶.pdf
GB-T 3716-2023 托盘术语.pdf
T-ZSA 54—2018 自动驾驶车辆封闭试验场地技术要求.pdf
GB-T 1032-2023 三相异步电动机试验方法.pdf
GB-T 10089-2018 圆柱蜗杆、蜗轮精度.pdf
T-CSRME 005—2020 露天矿山边坡岩体结构面抗剪强度获取技术规程.pdf
GB-T 18771.5-2015 烟草术语 第5部分:烟草机械与烟草专用检测仪器.pdf
GB-T 17394.4-2014 金属材料 里氏硬度试验 第4部分 硬度值换算表.pdf
交流群
-->
1
/
18
评价文档
赞助2元 点击下载(711.1 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。