重磅Rev发布Whisper终结者ReverbASR

shadowrocket • 2026年2月19日 am8:03 • Shadowrocket官网

语音识别领域迎来新王者！

Rev公司刚刚发布了一款堪称"Whisper终结者"的开源语音识别模型，一举打破了当前语音识别和说话人分离的最高水平。

这款名为 Reverb ASR 的模型，不仅性能强劲，还大方地将模型权重公开在了Hugging Face Hub上。这一举动无疑给语音识别领域带来了一股新鲜血液！

Reverb ASR：200K小时数据训练的超级模型

Reverb ASR可不是泛泛之辈。它在前所未有的20万小时人工转录数据上进行训练，成功达到了目前业界最低的词错误率（WER）。

更令人兴奋的是，这个模型还支持可定制的逐字转录。这意味着用户可以根据自己的需求，灵活调整转录的精确度和风格。

说话人分离：26K小时标注数据的加持

Rev团队没有止步于语音识别。他们还在说话人分离（Diarization）方面下足了功夫。

通过利用 2.6万小时的标注数据，他们对pyannote模型进行了微调，推出了两个版本的说话人分离模型：

v1版本：基于pyannote3.0架构，经过17轮训练。

v2版本：更先进的版本，用WavLM取代了SincNet特征，实现了更精准的说话人分离。

强大的模型架构：精心设计的细节

Reverb ASR的架构设计可谓煞费苦心：

结构：采用强大的CTC/注意力混合架构，包含18个conformer层和6个transformer层，总参数量达到6亿。

语言特定层：用于控制逐字输出，确保转录的准确性和灵活性。

多种解码模式：支持CTC、注意力和联合CTC/注意力解码，适应不同场景需求。

生产就绪：优化的推理管道

Rev团队显然深谙"理论与实践相结合"的道理。他们为Reverb ASR打造了一套优化的推理管道：

WFST波束搜索：提高解码效率。

Unigram语言模型：优化语言理解。

注意力重新评分：进一步提升准确性。

并行处理：确保快速输出。

后处理：生成格式化输出，直接可用于生产环境。

开源策略：引领行业新风向

值得一提的是，Rev作为市场领导者，选择采取开放权重的策略，将模型权重公开在Hugging Face Hub上。

该举动不仅展示了Rev的技术实力和开放态度，也为整个语音识别领域注入了新的活力。

想要一睹Reverb ASR的风采？你可以直接访问Hugging Face Hub上的Rev模型仓库：

https://huggingface.co/Revai

版权声明：
作者：shadowrocket
链接：https://www.shadowrocket8.top/150.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

Cursor开发者的自定义prompt曝光

< <上一篇

论文狗有救了OpenResearcher要来当你的论文Copilot

下一篇>>

搜索内容

重磅Rev发布Whisper终结者ReverbASR

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

重磅Rev发布Whisper终结者ReverbASR

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点