OpenAI翻车Whisper也会产生幻觉

shadowrocket • 2026年2月8日 am8:02 • Shadowrocket官网

语音识别也开始胡说八道了！

研究人员发现OpenAI的语音转录工具Whisper存在严重的「幻觉」问题，这让语音识别领域的专家们都坐不住了。

这不是简单的识别错误，而是完全的「无中生有」！

爱丁堡大学的研究员Pasquale Minervini指出，Whisper的幻觉问题与大语言模型的「忠实度幻觉」惊人地相似。他在推特上提出了一个发人深省的问题：

我们是否可以直接复用已有的LLM幻觉缓解技术来解决这个问题？

这个问题引发了学术界的热烈讨论。

幻觉有多离谱？

Jim O'Regan(@jimregan)分享了一个令人震惊的案例：

我的同事在测试TTS系统的词错率时发现，Whisper把「suicide」这个词转换成了「go kill yourself」这样的短语。

这种错误已经不是简单的识别偏差，而是完全改变了原文的语义！

更让人哭笑不得的是，O'Regan还发现：

如果你给Whisper一个包含较长静音片段的音频，它通常会莫名其妙地输出「Thanks to my supporters on patreon.com」这样的文本。

这种「创造性」让研究人员哭笑不得。

问题出在哪？

O'Regan进一步解释，大部分「幻觉」其实源于输入数据的过滤不当。

比如，由于YouTube上字幕语言标注的错误，当你用特定语言提示Whisper转录英语音频时，它有时会错误地进行翻译，产生完全不相关的内容。

解决方案在望

面对这个问题，研究人员提出了两个潜在的解决方案：

DeCoRe方法：通过对比检索头来缓解幻觉，在总结任务上提升了18.6%的性能。

SpARE技术：使用预训练稀疏自编码器来控制大语言模型的知识选择行为，在开放域问答任务中超越现有方法10%。

版权声明：
作者：shadowrocket
链接：https://www.shadowrocket8.top/55.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

Tweedie公式一个公式统治所有扩散模型

再也不能相信ChatGPT写的代码了

下一篇>>

搜索内容