OpenAI翻车Whisper也会产生幻觉

语音识别也开始胡说八道了!

OpenAI翻车Whisper也会产生幻觉-2

研究人员发现OpenAI的语音转录工具Whisper存在严重的「 幻觉 」问题,这让语音识别领域的专家们都坐不住了。

这不是简单的识别错误,而是完全的「无中生有」!

爱丁堡大学的研究员Pasquale Minervini指出,Whisper的幻觉问题与大语言模型的「忠实度幻觉」惊人地相似。他在推特上提出了一个发人深省的问题:

我们是否可以直接复用已有的LLM幻觉缓解技术来解决这个问题?

这个问题引发了学术界的热烈讨论。

幻觉有多离谱?

Jim O'Regan(@jimregan)分享了一个令人震惊的案例:

我的同事在测试TTS系统的词错率时发现,Whisper把「suicide」这个词转换成了「go kill yourself」这样的短语。

这种错误已经不是简单的识别偏差,而是完全改变了原文的语义!

更让人哭笑不得的是,O'Regan还发现:

如果你给Whisper一个包含较长静音片段的音频,它通常会莫名其妙地输出「Thanks to my supporters on patreon.com」这样的文本。

这种「创造性」让研究人员哭笑不得。

问题出在哪?

O'Regan进一步解释,大部分「幻觉」其实源于 输入数据的过滤不当 。

比如,由于YouTube上字幕语言标注的错误,当你用特定语言提示Whisper转录英语音频时,它有时会 错误地进行翻译 ,产生完全不相关的内容。

解决方案在望

面对这个问题,研究人员提出了两个潜在的解决方案:

DeCoRe方法:通过 对比检索头 来缓解幻觉,在总结任务上提升了18.6%的性能。

SpARE技术:使用 预训练稀疏自编码器 来控制大语言模型的知识选择行为,在开放域问答任务中超越现有方法10%。

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/55.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>