研究人员发现自动语音识别更有可能误解黑人说话者

时间:2020-04-09 16:55:27来源:
导读之所以可能出现差异,是因为此类技术基于机器学习系统,而该系统严重依赖美国白人所说的英语数据库。斯坦福工程公司研究人员的一项新研究显

之所以可能出现差异,是因为此类技术基于机器学习系统,而该系统严重依赖美国白人所说的英语数据库。

斯坦福工程公司研究人员的一项新研究显示,为美国领先的自动语音识别系统提供支持的技术,在解释非裔美国人说出的单词时产生的错误是解释白人说出的相同单词时造成的错误的两倍。

研究人员总结说,尽管这项研究专门针对美国黑人和白人之间的差异,但类似的问题可能会影响那些使用地区性和非本地英语口音的人。

如果不解决,这种翻译失衡可能会对人们的职业甚至生活造成严重后果。现在,许多公司通过采用语音识别的自动在线面试来筛选求职者。法院使用该技术来帮助记录听证会。此外,对于不能动手的人来说,语音识别对于访问计算机至关重要。

这项发现发表在《美国国家科学院院刊》上,该发现基于对亚马逊,IBM,谷歌,微软和苹果公司开发的系统的测试。前四家公司提供收费的在线语音识别服务,研究人员使用这些服务进行测试。第五,研究人员构建了一个定制的iOS应用程序,该应用程序使用Apple的免费语音识别技术进行了测试。测试是在去年春季进行的,此后语音技术可能已经更新。

研究人员无法确定他们的虚拟助手是否也使用了公司的语音识别技术,例如苹果公司的Siri和亚马逊公司的Alexa,因为这些公司没有透露他们是否使用了不同版本的语音识别技术。不同产品中的技术。

研究主要作者艾里森·科内克(Allison Koenecke)说:“但是,我们应该期望美国的公司能够制造出为所有美国人服务的产品。” 他是语言和计算机科学家在计算和数学工程领域的博士候选人。“目前看来,他们并没有针对整个人口群体这样做。”

错误率不相等

Koenecke和她的同事们对来自两家公司的语音识别系统进行了测试,并从对非裔美国人和白人的访谈记录中获得了2000多个语音样本。黑色的语音样本来自来到 非洲区域美国语言的语料库,白色的样品从进行的访谈来到 加州的声音,其特色是记录不同加州社区居民的采访。

这五种语音识别技术的错误率几乎都是黑人的白人的两倍,即使说话者的性别和年龄相匹配,并且他们说的是相同的单词,其错误率也几乎是黑人的两倍。平均而言,该系统误解了黑人所讲单词的35%,但只有白人所讲单词的19%。

非裔美国人的错误率最高,而使用非裔美国人白话的说话者之间的差异更大。

研究人员还进行了额外的测试,以确定五种语音识别技术多长时间严重误解单词,以至于转录几乎没有用处。他们测试了成千上万个平均长度为15秒的语音样本,以计算该技术多长时间通过一次至少使每个样本中的单词减少一半的阈值。在黑人说出的样本中,超过20%出现了这种无法接受的高错误率,而白人说出的样本中,只有不到2%发生了这种错误率。

隐藏的偏见

研究人员推测,这五种技术共同的差异是由一个共同的缺陷引起的-用于训练语音识别系统的机器学习系统可能严重依赖于白人所讲的英语数据库。一种更公平的方法是包括反映其他英语使用者的口音和方言多样性的数据库。

与其他制造商不同,法律或惯例通常要求其解释其产品中所含的成分以及应如何工作,而提供语音识别系统的公司则不承担此类义务。

斯坦福大学计算工程学教授莎拉德·戈尔(Sharad Goel)负责这项工作。他说,这项研究着重指出,有必要对诸如语音识别之类的新技术进行审计,以发现可能已被边缘化人群排除在外的隐性偏见。这样的审核将需要由独立的外部专家进行,并且需要大量的时间和工作,但是对于确保这种技术具有包容性非常重要。

戈尔说:“我们不能指望公司进行自我监管。” “这不是他们要做的。我可以想象,如果有足够的公众压力,有些人可能会自愿进行独立审核。但是,政府机构也可能需要加强监督。人们有权知道影响他们生活的技术的效果如何。”

最新文章