OpenAI翻车Whisper也会产生幻觉
语音识别也开始胡说八道了!

研究人员发现OpenAI的语音转录工具Whisper存在严重的「 幻觉 」问题,这让语音识别领域的专家们都坐不住了。
这不是简单的识别错误,而是完全的「无中生有」!
爱丁堡大学的研究员Pasquale Minervini指出,Whisper的幻觉问题与大语言模型的「忠实度幻觉」惊人地相似。他在推特上提出了一个发人深省的问题:
我们是否可以直接复用已有的LLM幻觉缓解技术来解决这个问题?
这个问题引发了学术界的热烈讨论。
幻觉有多离谱?
Jim O'Regan(@jimregan)分享了一个令人震惊的案例:
我的同事在测试TTS系统的词错率时发现,Whisper把「suicide」这个词转换成了「go kill yourself」这样的短语。
这种错误已经不是简单的识别偏差,而是完全改变了原文的语义!
更让人哭笑不得的是,O'Regan还发现:
如果你给Whisper一个包含较长静音片段的音频,它通常会莫名其妙地输出「Thanks to my supporters on patreon.com」这样的文本。
这种「创造性」让研究人员哭笑不得。
问题出在哪?
O'Regan进一步解释,大部分「幻觉」其实源于 输入数据的过滤不当 。
比如,由于YouTube上字幕语言标注的错误,当你用特定语言提示Whisper转录英语音频时,它有时会 错误地进行翻译 ,产生完全不相关的内容。
解决方案在望
面对这个问题,研究人员提出了两个潜在的解决方案:
DeCoRe方法:通过 对比检索头 来缓解幻觉,在总结任务上提升了18.6%的性能。
SpARE技术:使用 预训练稀疏自编码器 来控制大语言模型的知识选择行为,在开放域问答任务中超越现有方法10%。
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/55.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论