GA-T 1590-2019 警务智能语音服务平台技术要求

ICS 35.240.99 A 90 GA 中华人民共和国公共安全行业标准 GA/T XXXXX—XXXX 警务智能语音服务平台技术要求 Technical requirements for intelligent voice service platform for the police 点击此处添加与国际标准一致性程度的标识（报批稿） XXXX - XX - XX发布 XXXX - XX - XX实施中华人民共和国公安部发布 GA/T XXXXX —XXXX I 前言本标准按照 GB/T 1.1-2009给出的规则起草。本标准由安徽省公安厅提出。本标准由公安部计算机与信息处理标准化技术委员会归口。本标准起草单位：智能语音技术公安部重点实验室、安徽省公安厅、讯飞智元信息科技有限公司、合肥市公安局、公安部第三研究所、公安部第一研究所、苏州思必驰信息科技有限公司。本标准主要起草人：祝占魁、冯祥、刘琼、胡先锋、刘磊、查飞、戎玲、孔耀晖、周伟达、李伟、李磊、吴波、王伟、储明丽、吴鹏、程彪、刘韫韬、余洪祥、游寒旭。 GA/T XXXXX —XXXX 1 警务智能语音服务平台技术要求 1 范围本标准规定了警务智能语音服务平台功能要求、性能要求和服务要求。本标准适用于警务智能语音服务平台设计、建设和应用。 2 规范性引用文件下列文件对于本标准的应用是必不可少的。凡是注日期的引用文件，仅注日期的版本适用于本文件。凡是不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。 GB/T 21023 -2007 中文语音识别系统通用技术规范 GB/T 34083 -2017 中文语音识别互联网服务接口规范 GB/T 34145 -2017 中文语音合成互联网服务接口规范 GA/T XXXXX -XXXX 警务智能语音服务平台接口规范 3 术语和定义 GB/T 34083-2017、GB/T 34145-2017界定的以及下列术语和定义适用于本文件。 3.1 语音合成 text to speech 将给定的文本转换成对应的语音的过程。 3.2 语音识别 speech recognition 将人类的语音信号转化为文字或者指令的过程。 3.3 有效语音 useful speech 语音采集过程中所关注、期望的语音信号。 3.4 干扰声 interfering sound 语音采集过程中，采集到的由非目标语音信号源发出的，能干扰、影响对目标语音信号的识别、理解或处理的声学信号。 3.5 GA/T XXXXX —XXXX 2 截幅 clipping 音频信号幅度超过采样值所能表示的最大范围。 3.6 端点检测 endpoint detection 对待识别音频进行检测，分离出有效语音。 4 平台功能要求 4.1 平台功能构成平台应包含语音识别、语音合成、文本处理等服务组件，并具备对平台服务支撑、管理和运行监控等功能。 4.2 语音识别服务 4.2.1 一般要求语音识别服务应能实现下列功能： a) 连续语音识别； b) 命令字识别； c) 录音文件语音识别； d) 多语种语音识别，一般包括汉语、英语和维吾尔语、蒙语、藏语等多民族语言； e) 多方言语音识别，一般包括四川话、广东话、东北话、河南话、上海话等； f) 针对特定语种、方言进行模型定制； g) 对待识别音频的有效语音进行前后端点检测，从连续音频流中分离出有效语音； h) 对待识别的音频进行干扰声抑制，提高语音识别准确率； i) 对待识别音频的截幅、背景干扰声、有效时长进行检测； j) 对识别结果文本产生时间标签。 4.2.2 专业要求除一般要求外，语音识别服务还应依据不同地区、不同警种对警务工作的实际需求，提供以下功能： a) 用户自定义警务热词，并在语音识别中生效； b) 通用要素词汇的语音识别优化和个性化要素词汇的语音识别扩展； c) 根据上下文语义，针对当前转写的句子内容进行修正； d) 支持文书、笔录等警务文本资料导入，并利用导入的文本资料对模型进行训练和优化。 4.3 语音合成服务语音合成服务应能实现下列功能： a) 多语种语音合成，一般包括汉语、英语和维吾尔语、蒙语、藏语等多民族语言； b) 多方言语音合成，一般包括四川话、广东话、东北话、河南话、上海话等； c) 多音色语音合成，一般包括青年男声、青年女声、童声等，支持定制个性化音色语音合成； d) 多种字符编码格式的文本语音合成，包括但不限于 UTF-8、UTF-16、GBK、Unicode、ASCII等； e) 按照用户指定的文本分词方式或发音方式进行语音合成。 GA/T XXXXX —XXXX 3 4.4 文本处理服务文本处理服务应能实现下列功能： a) 从文本中提取警务要素，对照相应的标准化要素信息库进行比对修正； b) 对符合预设句式的警务文本语义进行抽取和结构化处理，并解析成计算机指令。 4.5 服务支撑平台服务支撑应能实现下列功能： a) 面向Windows、Linux、Android等主流的操作系统，提供软件开发工具包； b) 支持在个人计算机、智能手机、车载设备、可穿戴设备等多类型终端上使用； c) 支持用户体验各类服务的应用效果。 4.6 服务管理平台服务管理应能实现下列功能： a) 对用户进行管理，支持用户信息新增、修改和删除等操作； b) 支持对用户网络地址进行授权，允许限制其访问权限； c) 对服务进行分类授权，支持限制其访问服务类型、访问次数、使用期限； d) 支持对警务终端进行授权，并对其访问权限进行管理； e) 对服务进行认证鉴权，符合用户身份认证体系要求。 4.7 运行监控平台服务运行监控应能实现下列功能： a) 支持对各服务组件全生命周期的运行状态进行监控管理； b) 支持对服务访问次数、终端访问总量、授权终端数量和用户使用总量等指标进行统计。 5 平台性能要求 5.1 概述语音识别性能主要通过语音端点检测正确率、语音识别正确率和语音识别平均响应时间等指标进行评价；语音合成性能主要通过语音合成质量进行评价。 5.2 性能评价项 5.2.1 语音端点检测正确率一段音频中每一帧被标注为语音帧或静音帧的正确率，当语音帧或静音帧的标注结果和判断结果相一致时，则该帧分类正确。语音端点检测正确率的计算方法见式（ 1）。 CRVAD=CVAD/SVAD×100% ............................. （1）式中： CRVAD——语音端点检测正确率； CVAD ——对于该段音频，分类正确的帧数； SVAD ——音频总帧数。 GA/T XXXXX —XXXX 4 5.2.2 语音识别准确率语音识别准确率采用字准确率进行度量。字准确率的计算应符合GB/T 21023 -2007中5.2.1的要求。 5.2.3 语音识别平均响应时间语音识别平均响应时间的计算应符合GB/T 21023 -2007中5.3的要求。 5.2.4 语音合成质量语音合成质量通过对合成语音同真人语音在音质和自然度等方面的差异进行主观评测，采用平均意见得分进行计算。主观评测标准见表 1。表1 主观评测标准评分测听效果 5 优秀，语音自然，音色接近真实 4 较好，仅能察觉若干不自然 3 尚可，能察觉到不自然但可以接受，评分分界线 2 较差，明显察觉不自然并不愿意接受 1 极差，无法接受 5.3 性能评价要求按照5.2给出的评价项，根据各业务警种工作需要，挑选不低于1000条语料形成测试集，对平台性能进行评价。平台性能指标要求见表2。表2 平台性能评价要求语言类型评价项语音端点检测正确率语音识别准确率语音识别平均响应时间语音合成质量汉语普通话＞ 90% ≥ 80% ＜ 2s ≥ 4分四川话、广东话、东北话、河南话、上海话＞ 90% ≥ 80% ＜ 2s ≥ 3.5分维吾尔语＞ 90% ≥ 80% ＜ 2s ≥ 3.5分蒙语＞ 90% ≥ 80% ＜ 2s ≥ 3.5分藏语＞ 90% ≥ 80% ＜ 2s ≥ 3.5分英语＞ 90% ≥ 80% ＜ 2s ≥ 4分 6 平台服务要求 6.1 平台服务流程平台面向警务应用提供基于网络的警务智能语音服务，各警种依据自身业务特征按需调用平台服务接口，实现语音识别、语音合成和文本处理等功能。 6.2 平台数据输入