数据、模型、测试和终结点等内容组织到自定义语音门户中的项目中。 每个项目都是特定于域和国家/地区的。 例如,你可以为在美国中使用英语的呼叫中心创建项目。 若要创建第一个项目,请选择 "语音到文本"/"自定义" 语音,然后单击 "新建项目"。 遵照向导中的说明创建项目。 创建项目后,应该会看到四个选项卡:数据、测试、培训和部署。 使用后续步骤中提供的链接了解如何使用每个选项卡。 自定义语音提供的工具可让你通过将音频数据与相应的识别结果进行比较,直观地检查模型的识别质量。 在自定义语音门户中,可以播放上传的音频,并确定所提供的识别结果是否正确。 使用此工具,可以快速检查 Microsoft 的基线语音到文本模型或定型自定义模型的质量,无需转录任何音频数据。 在本文档中,你将学习如何而言度量 Microsoft 的语音到文本模型或自定义模型的质量。 需要音频和人为标记的脚本数据来测试准确性,并且应提供30分钟到5小时的代表音频。 什么是 Word 错误率(WER)? 度量模型准确性的行业标准是Word 错误率(WER)。 WER 计算在识别期间标识的错误单词数,然后除以用户标记的脚本中提供的字数。 最后,此数字乘以 100% 来计算 WER。 WER 公式 错误识别的单词分为三个类别: 插入(I):在假设脚本中错误添加的字词 删除(D):在假设脚本中未检测到的字词 替换:在 reference 和假设间替换的单词 以下是一个示例: 错误标识单词的示例 解决错误并改善 WER 你可以从计算机识别结果使用 WER 来评估你在应用、工具或产品中使用的模型的质量。 5%-10% 的 WER 被视为良好的质量,并且已准备好使用。 可接受 20% 的 WER,但你可能需要考虑其他培训。 30% 或更多信号的 WER 质量较差,需要自定义和培训。 如何分发错误非常重要。 遇到许多删除错误时,通常是由于音频信号强度弱导致的。 若要解决此问题,需要收集离源更近的音频数据。 插入错误意味着音频记录在干扰环境中并且可能出现 crosstalk,从而导致识别问题。 当以人为标记的转录或相关文本提供的域特定术语的示例不足时,通常会遇到替换错误。 通过分析单个文件,您可以确定存在哪种类型的错误,以及哪些错误对于特定文件是唯一的。 了解文件级别的问题可帮助你定位改进。 创建测试 如果要测试 Microsoft 语音到文本基线模型的质量或已定型的自定义模型的质量,可以比较两个模型,以便评估准确性。 比较包含 WER 和识别结果。 通常,自定义模型与 Microsoft 的基线模型比较。 并行计算模型: 登录到自定义语音门户。 导航到 "语音到文本" > 自定义语音 > 测试。 单击 "添加测试"。 选择 "评估准确性"。 为测试指定名称、说明,并选择音频 + 人标记的脚本数据集。 最多选择两个想要测试的模型。 单击“创建”。 成功创建测试后,可以并排比较结果。 此详细信息页列出了数据集中的所有最谈话指明了两种模型的识别结果以及提交的数据集的脚本