Webex实时语音翻译的准确性,能代替人工同传吗?
来源:Webex Blog
|
作者:yunxue
|
发布时间: 2022-04-02
|
3464 次浏览
|
分享到:
2022年2月,实时语音翻译功能(Real-Time-Translation)在Webex中上线后,其翻译原理和准确些如何?能逐步代替人工同传吗?
所以,要回答“它准确吗?”这个问题。概述自动语音识别准确性的不同维度至关重要:
1. 准确性是使用称为字错误率 (WER) 的通用指标来衡量的
WER 衡量机器在转录演讲者所说内容方面的表现。
机器学习 (ML) 模型转录的相同音频被提供给人工标注者,以提供转录的基本事实。
单词错误率 (WER) 的计算方法是将错误数除以总单词数。要计算 WER,首先将出现在已识别单词序列中的替换、插入和删除相加。根据基本事实,将该数字除以单词总数。结果就是 WER。用一个简单的公式来说,单词错误率=(替换+插入+删除)/说出的单词数。[3]
当单词被替换时会发生替换(例如,“Carl”被转录为“Car”)。
插入是指添加了未提及的单词(例如,“middleware”变为“model where”)。
当一个单词被完全遗漏在转录本中时,就会发生删除(例如,“come up with”变成“come with”)。
WER越低,转录引擎的准确性越好;这意味着它犯的错误更少。
在下表中,我们将 2020 年 6 月作为我们为 Webex Assistant AI 转录引擎提供的模型的基准。您可以看到,随着时间的推移,我们不断改进 WER,到 2022 年 2 月达到 36% 的增量改进。

2. 这一切都取决于数据集
对于任何给定的语音识别引擎,都没有绝对的 WER 度量。每个数据集都有几个属性,例如方言分布、性别、声学环境和领域。因此,在有声读物数据集上运行 Webex 转录引擎会导致 WER 与 Webex 会议不同,而 Webex 会议与电话呼叫不同。此外,如果在与会者有口音讲话的 Webex 会议上运行相同的转录引擎,则在 Webex 会议上为母语为英语的用户运行相同的转录引擎会导致不同的错误率。
为了达到一流的准确性,我们仅针对视频会议用例。与通过电话或他们的 Alexa 说话相比,人们在视频会议中说话的方式有很多不同之处。我们的语音识别引擎能够识别这些特定模式,并使其成为视频会议的最佳选择。在内部构建 ASR 引擎与使用第 3方提供商相比,我们能够根据特定于 Webex 会议体验的属性1训练我们的 ML 模型。
3. 会议过程中的准确性提高