公共安全标准网
ICS 35.240.99 A 90 GA 中华人民共和国 公共安全 行业标准 GA/T XXXXX—XXXX 警务智能语音服务平台技术 要求 Technical requirements for intelligent voice service platform for the police 点击此处添加与国际标准一致性程度的标识 (报批稿) XXXX - XX - XX发布 XXXX - XX - XX实施 中华人民共和国公安部 发布 GA/T XXXXX —XXXX I 前 言 本标准按照 GB/T 1.1-2009给出的规则起草。 本标准由 安徽省公安厅提出。 本标准由公安部计算机与信息处理标准化技术委员会归口。 本标准起草单位: 智能语音技术公安部重点实验室 、安徽省公安厅、 讯飞智元信息科技有限公司 、 合肥市公安局、公安部第三研究所、公安部第一研究所、 苏州思必驰信息科技有限公司 。 本标准主要起草人: 祝占魁、冯祥、刘琼、胡先锋 、刘磊、查飞 、戎玲、孔耀晖 、周伟达、李伟、 李磊、吴波、王伟、储明丽、吴鹏、程彪、刘韫韬 、余洪祥 、游寒旭。 GA/T XXXXX —XXXX 1 警务智能语音服务平台 技术要求 1 范围 本标准规定了警务智能语音服务平台 功能要求、性能要求 和服务要求 。 本标准适用于 警务智能语音服务平台 设计、建设和 应用。 2 规范性引用文件 下列文件对于本 标准的应用是必不可少的。 凡是注日期的引用文件, 仅注日期的版本适用于本文件。 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T 21023 -2007 中文语音识别系统通用技术规范 GB/T 34083 -2017 中文语音识别互联网服务接口规范 GB/T 34145 -2017 中文语音合成互联网服务接口规范 GA/T XXXXX -XXXX 警务智能语音服务平台接口 规范 3 术语和定义 GB/T 34083-2017、GB/T 34145-2017界定的以及下列术语和定义适用于本 文件。 3.1 语音合成 text to speech 将给定的文本转换成 对应的语音的过程 。 3.2 语音识别 speech recognition 将人类的 语音信号转化为文字或者指令的过程。 3.3 有效语音 useful speech 语音采集过程中所关注、期望的语音信号。 3.4 干扰声 interfering sound 语音采集过程中,采集到的由非目标语音信号源发出的,能干扰、影响对目标语音信号的识别、理 解或处理的声学信号 。 3.5 GA/T XXXXX —XXXX 2 截幅 clipping 音频信号幅度超过采样值所能表示的最大范围。 3.6 端点检测 endpoint detection 对待识别音频进行 检测,分离出有效语音 。 4 平台功能要求 4.1 平台功能构成 平台应包含语音识别、语音合成、 文本处理等服务组件,并具备对平台服务支撑、管理和 运行监控 等功能。 4.2 语音识别 服务 4.2.1 一般要求 语音识别 服务应能实现下列功能 : a) 连续语音识别; b) 命令字识别; c) 录音文件语音识别; d) 多语种语音识别, 一般包括 汉语、英语和维吾尔语 、蒙语、藏语 等多民族语言 ; e) 多方言语音识别, 一般包括 四川话、广东话、东北话、河南话、上海话等; f) 针对特定 语种、方言进行模型定制; g) 对待识别音频的 有效语音进行前后端点检测,从连续音频流中分离出有效语音; h) 对待识别 的音频进行 干扰声抑制,提高 语音识别 准确率; i) 对待识别音频的截幅、背景 干扰声、有效时长进行检测; j) 对识别结果文本 产生时间标签 。 4.2.2 专业要求 除一般要求外, 语音识别 服务还应依据不同地区、不同警种对警务工作的实际需求, 提供 以下功能: a) 用户自定义 警务热词,并在语音识别中生效 ; b) 通用要素 词汇的语音识别优化和 个性化要素词汇的 语音识别扩展; c) 根据上下文语义,针对 当前转写的句子内容进行修正; d) 支持文书、笔录等警务文本资料导入 ,并利用导入的文本资料对模型进行训练 和优化。 4.3 语音合成 服务 语音合成 服务应能实现下列功能 : a) 多语种语音合成, 一般包括 汉语、英语 和维吾尔语 、蒙语、藏语等多民族语言 ; b) 多方言语音合成 ,一般包括 四川话、广东话、东北话、河南话、上海话等; c) 多音色语音合成, 一般包括 青年男声、青年女声 、童声等,支持定制个性化 音色语音合成; d) 多种字符编码格式的文本语音合成,包括但不限于 UTF-8、UTF-16、GBK、Unicode、ASCII等; e) 按照用户指定的文本分词方式 或发音方式 进行语音合成 。 GA/T XXXXX —XXXX 3 4.4 文本处理服务 文本处理服务 应能实现 下列功能 : a) 从文本中 提取警务要素 ,对照相应的标准化要素信息库进行比对修正 ; b) 对符合预设句式 的警务文本语义进行抽取和结构化处理,并解析成计算机指令。 4.5 服务支撑 平台服务支撑 应能实现下列功能: a) 面向Windows、Linux、Android等主流的操作系统 ,提供软件开发工具包 ; b) 支持在个人计算机、智能手机、车载设备、可穿戴设备等多类型终端 上使用; c) 支持用户体验各类服务的应用效果 。 4.6 服务管理 平台服务管理 应能实现下列功能: a) 对用户进行管理,支持用户信息 新增、修改和删除等操作; b) 支持对用户网络地址 进行授权 ,允许限制其访问权限 ; c) 对服务进行分类 授权,支持限制其访问服务类型、访问次数、使用期限 ; d) 支持对警务终端进行授权,并对其访问权限进行管理 ; e) 对服务进行认证鉴权, 符合用户身份认证体系要求 。 4.7 运行监控 平台服务 运行监控 应能实现下列功能: a) 支持对各服务组件全生命周期 的运行状态进行监控 管理; b) 支持对服务访问次数 、终端访问总量、授权终端 数量和用户使用总量等 指标进行统计 。 5 平台性能要求 5.1 概述 语音识别性能主要 通过语音端点检测正确率、 语音识别正确率和 语音识别平均响应时间 等指标进行 评价;语音合成性能主要通过语音合成质量 进行评价。 5.2 性能评价项 5.2.1 语音端点检测正确率 一段音频中 每一帧被标注为语音帧或静音帧的正确率 ,当语音帧或静音帧的标注结果和判断结果相 一致时,则该帧分类正确。 语音端点检测正确率的计算方法见式( 1)。 CRVAD=CVAD/SVAD×100% ............................. (1) 式中: CRVAD——语音端点检测正确率 ; CVAD ——对于该段音频,分类正确 的帧数; SVAD ——音频总帧数。 GA/T XXXXX —XXXX 4 5.2.2 语音识别 准确率 语音识别 准确率采用字准确率进行度量。字准确率的计算应 符合GB/T 21023 -2007中5.2.1的要求。 5.2.3 语音识别平均 响应时间 语音识别平均响应时间 的计算应 符合GB/T 21023 -2007中5.3的要求。 5.2.4 语音合成质量 语音合成质量 通过对合成语音同真人语音在音质 和自然度等方面的差异进行主观评测 ,采用平均意 见得分进行计算。 主观评测标准见表 1。 表1 主观评测标准 评分 测听效果 5 优秀,语音自然, 音色接近真实 4 较好,仅能察觉若干不自然 3 尚可,能察觉到不自然但可以接受,评分分界线 2 较差,明显察觉不自然并不愿意接受 1 极差,无法接受 5.3 性能评价 要求 按照5.2给出的评价项 ,根据各业务警种工作需要, 挑选不低于1000条语料形成测试集,对平台性 能进行评价 。平台性能指标要求 见表2。 表2 平台性能评价 要求 语言类型 评价项 语音端点检测正确率 语音识别准确率 语音识别平均响应时间 语音合成质量 汉 语 普通话 > 90% ≥ 80% < 2s ≥ 4分 四川话、 广东话、 东北话、 河南话、上海话 > 90% ≥ 80% < 2s ≥ 3.5分 维吾尔语 > 90% ≥ 80% < 2s ≥ 3.5分 蒙语 > 90% ≥ 80% < 2s ≥ 3.5分 藏语 > 90% ≥ 80% < 2s ≥ 3.5分 英语 > 90% ≥ 80% < 2s ≥ 4分 6 平台服务要求 6.1 平台服务流程 平台面向警务应用提供基于网络的警务智能语音服务, 各警种依据自身业务 特征按需调用平台服务 接口,实现语音识别、语音合成和文本处理等 功能。 6.2 平台数据输入

.pdf文档 GA-T 1590-2019 警务智能语音服务平台技术要求

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
GA-T 1590-2019 警务智能语音服务平台技术要求 第 1 页 GA-T 1590-2019 警务智能语音服务平台技术要求 第 2 页 GA-T 1590-2019 警务智能语音服务平台技术要求 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-08-02 12:22:27上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。