重磅Rev发布Whisper终结者ReverbASR
语音识别领域迎来新王者!

Rev公司刚刚发布了一款堪称"Whisper终结者"的开源语音识别模型, 一举打破了当前语音识别和说话人分离的最高水平 。
这款名为 Reverb ASR 的模型,不仅性能强劲,还大方地将模型权重公开在了Hugging Face Hub上。这一举动无疑给语音识别领域带来了一股新鲜血液!
Reverb ASR:200K小时数据训练的超级模型
Reverb ASR可不是泛泛之辈。它 在前所未有的20万小时人工转录数据上进行训练 ,成功达到了目前业界最低的词错误率(WER)。
更令人兴奋的是, 这个模型还支持可定制的逐字转录 。这意味着用户可以根据自己的需求,灵活调整转录的精确度和风格。
说话人分离:26K小时标注数据的加持
Rev团队没有止步于语音识别。他们还在说话人分离(Diarization)方面下足了功夫。
通过利用 2.6万小时的标注数据 ,他们对pyannote模型进行了微调,推出了两个版本的说话人分离模型:
v1版本 :基于pyannote3.0架构,经过17轮训练。
v2版本 :更先进的版本,用WavLM取代了SincNet特征,实现了更精准的说话人分离。
强大的模型架构:精心设计的细节
Reverb ASR的架构设计可谓煞费苦心:
结构 :采用强大的CTC/注意力混合架构,包含18个conformer层和6个transformer层,总参数量达到6亿。
语言特定层 :用于控制逐字输出,确保转录的准确性和灵活性。
多种解码模式 :支持CTC、注意力和联合CTC/注意力解码,适应不同场景需求。
生产就绪:优化的推理管道
Rev团队显然深谙"理论与实践相结合"的道理。他们为Reverb ASR打造了一套优化的推理管道:
WFST波束搜索 :提高解码效率。
Unigram语言模型 :优化语言理解。
注意力重新评分 :进一步提升准确性。
并行处理 :确保快速输出。
后处理 :生成格式化输出,直接可用于生产环境。
开源策略:引领行业新风向
值得一提的是,Rev作为市场领导者,选择采取开放权重的策略, 将模型权重公开在Hugging Face Hub上 。
该举动不仅展示了Rev的技术实力和开放态度,也为整个语音识别领域注入了新的活力。
想要一睹Reverb ASR的风采?你可以直接访问Hugging Face Hub上的Rev模型仓库:
https://huggingface.co/Revai
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/150.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论