GA-T 1587-2019 声纹自动识别系统测试规范

ICS 13.310 A 92 中华人民共和国公共安全行业标准 GA GA/T XXXX—XXXX 声纹自动识别系统测试规范 Test specification s for automatic speaker recognition system ×××× -×× -××发布 ×××× -×× -××实施中华人民共和国公安部发布 GA/T XXXX—XXXX I 前言本标准按照 GB/T 1.1—2009给出的规则起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本标准由全国刑事技术标准化技术委员会（ SAC/TC 179 ）归口。本标准起草单位：公安部物证鉴定中心、公安部第三研究所、安全部专家鉴定委、广东省公安厅、上海市公安局、安徽省公安厅、合肥市公安局、江苏省公安厅、福建省公安厅、深圳市公安局、北京市国家安全局司法鉴定中心、广西壮族自治区国家安全厅司法鉴定中心、北京警察学院、清华大学、科大讯飞股份有限公司。本标准主要起草人：李敬阳、金波、王莉、康锦涛、刘明东、王英利、崔刘虎、王年松、靳业、金恬、陈泉金、刘云、邵健、甘晓春、庄京伟、何亮、吴亚辉。 GA/T XXXX—XXXX 1 声纹自动识别系统测试规范 1 范围本标准规定了声纹自动识别系统的测试要求、指标和报告。本标准适用于公共安全领域的声纹自动识别系统测试，其他领域可参照使用。 2 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件，仅注日期的版本适用于本文件。凡是不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。 GB/T 35048 —2018 法庭科学语音及音频检验术语 3 术语和定义 GB/T 35048 -2018界定的以及下列术语和定义适用于本文件。 3.1 声纹检索 speaker retrieval 将一个说话人的语音放入声纹库中进行检索比对，得出与库内说话人匹配度排序的过程。 3.2 声纹识别 speaker re cognition 将一个说话人的语音放入声纹库中进行检索比对，推断该语音对应说话人身份的过程。 3.3 声纹自动识别系统 automatic speaker recognition system 能自动完成声纹检索比对或声纹识别任务的计算机系统。 3.4 语音有效时长 valid speech duration 符合有关规范要求的语音片段的时长总和，一般按秒计算。 3.5 注册说话人 enrollment speaker 系统中，已知（或假定已知）身份的说话人。 3.6 注册语音 enrollment speech 系统中，用于提取注册说话人声纹信息的语音。 GA/T XXXX—XXXX 2 3.7 测试说话人 test speaker 系统测试过程中，测试语音对应的说话人。 3.8 测试语音 test speech 系统测试过程中，说话人身份未知的语音。 3.9 语种 language 注册或测试语音所对应的语言种类。 3.10 测试任务 trial 判断测试语音中，是否存在目标说话人的任务。 3.11 目标测试任务 target trial 测试语音中，存在目标说话人的测试任务。 3.12 冒充测试任务 imposter trial 测试语音中，不存在目标说话人的测试任务。 3.13 查全率 recall ratio 系统判决的，经验证正确的目标测试任务数，与对应答案文件中目标测试任务数的比例。 3.14 查准率 precision ratio 系统判决的，经验证正确的目标测试任务数，与系统判决的目标测试任务数的比例。 3.15 F1分数 F1 score 统计学中用来衡量二分类模型精确度的一种指标。 F1 = 2×查全率×查准率 /(查全率＋查准率 ) 3.16 虚警率 false alarm probability 系统判决的，经验证错误的冒充测试任务数，与对应答案文件中冒充测试任务数的比例。 3.17 漏警率 missing probability 系统判决的，经验证错误的目标测试任务数，与对应答案文件中目标测试任务数的比例。 GA/T XXXX—XXXX 3 3.18 等错误率 equal error rate 通过调整判决门限，使得虚警率和漏警率相等时的值。 3.19 最小检测代价函数 minimum detection cost function 根据虚警率权重和漏警率权重，通过调整判决门限，计算最小相关检测损失代价。最小检测代价函数 = 虚警率权重×虚警率 + 漏报率权重×漏报率 3.20 注册实时率 real-time factor for enrollment 在测试用机上，系统完成注册任务所需要时间与注册语音的总时长的比例。 3.21 测试实时率 real-time factor for test 在测试用机上，系统完成识别任务所需要时间与测试语音的总时长的比例。 3.22 注册数据库 enrollment database 包含注册说话人及其语音的集合。 3.23 测试数据库 test database 包含测试语音的集合。 4 测试规范 4.1 注册说话人语音 4.1.1 注册说话人语音规模不少于 100 000人。 4.1.2 语音格式： windows pcm wav 格式，单声道，采样率可为8KHz~48KHz，采样位数 16bit。 4.1.3 每个注册语音文件包含 1条注册语音。 4.1.3 每条注册语音仅对应一位说话人。 4.1.4 每位注册说话人的有效语音累计时长不少于 20s。 4.2 测试说话人语音 4.2.1 测试说话人数量不少于 500人。 4.2.2 测试说话人语音的语种、方言与注册说话人语音的语种、方言等属性分为大致相同或不同。 4.2.3 每位测试说话人的语音文件数不超过 5个。 4.2.4 每个测试语音文件包含 1条测试语音。 4.2.5 每条测试语音有效时长不少于 8s。 4.2.6 测试语音与注册语音文件格式相同。 4.2.7 每条测试语音仅对应一位说话人。 4.3 测试要求 GA/T XXXX—XXXX 4 4.3.1 集中测试时，各测试方应采用相同配置的硬件设备。 4.3.2 被测系统每条语音的注册用时不超过1s。 4.3.3 被测系统在 100 000条测试语音库中，每条语音的检索用时不超过1s。 4.3.4 语种、方言等属性大致相同和不同的，作为两个测试任务分别进行测试。 4.3.4 被测方不应对测试语音进行听辨。 4.3.5 每个测试任务被测试方只准许提供一次检索结果。 4.4 测试指标 4.4.1 性能指标可采用查全率、查准率、 F1分数、虚警率、漏警率、等错误率、最小检测代价函数、检测代价曲线等表示。 4.4.2 速度指标应采用注册实时率和测试实时率表示。 4.4.3 其他指标包括系统运行时占用内存大小，声纹模型的大小等。 4.5 测试报告测试方根据结果形成测试报告，报告内容应包含： a) 测试方、被测试方、测试时间、测试内容； b) 4.4规定的测试结果； c) 注册数据库和测试数据库的基本情况，注册人个数、注册语音文件大小、测试语音条数、测试语音文件大小、数据格式、信道、语种、方言、时长等信息； d) 硬件系统配置。 _________________________________