LLM时代还记得那些年我们一起追过的BERT吗

shadowrocket • 2026年2月11日 am8:01 • Shadowrocket官网

还记得那些年我们一起追过的BERT吗？

LLM时代它们哪去了？

它们曾经是NLP领域的顶流明星，各种变体层出不穷，ELECTRA、DEBERTA、ROBERTA、XLM-ROBERTA......每一个名字都闪耀夺目。

可如今， LLM时代的浪潮席卷而来，这些小模型们似乎都销声匿迹了？

Leo Boytsov最近就发文：

亲爱的懒惰的推特用户们：我们是不是已经不再生产更好的预训练BERT或GPT模型来微调排序器/分类器了？之前我们有ELECTRA、DEBERTA、ROBERTA和XLM-ROBERTA。有什么更新/更好的吗？还是说大家都转向微调GEMMA、LLAMA和MISTRAL了？

这位老兄的感慨引发了不少讨论，Sebastian Raschka 也被勾起了兴趣，表示这是个值得深入探讨的话题。

确实， BERT们到底去哪了？

是真的江湖地位不保了，还是另有隐情呢？

BERT们还好用吗？

首先，让我们来看看 BERT们的实力如何。

Sebastian分享了一个有趣的实验：他们用 560百万参数的BLOOM模型在IMDB数据集上进行了微调，最终获得了 87%的准确率。

看起来还不错？等等，来看看bert 的。

要知道，用 358百万参数的RoBERTa模型，人家都能轻松拿下 96%的准确率！

BERT 也并非廉颇老矣？

LLM时代的新宠儿

接下来才是重点。

最近有篇论文《Label Supervised LLaMA Finetuning》可能会另有结论。研究发现，如果你用 7B或13B的Llama 2模型来做分类任务，效果居然出奇的好！

更妙的是，如果你把因果注意力掩码（causal attention mask）去掉，效果会更好。

这下轮到BERT们尴尬了？

不过，别高兴太早， Sebastian提醒到：

需要注意的是，7B的Llama 2模型比BERT大70倍，运行成本也高得多。因此，这是一个需要权衡准确性和计算效率的决定。

小模型的未来在哪里？

是不是意味着BERT们真的要退出历史舞台了呢？

这不好下定论。

如Sebastian所说，这个话题值得写一篇综述好好梳理一下。

毕竟，在某些场景下，小模型依然有它的优势：

计算资源友好：不是每个团队都有能力部署动辄上百亿参数的大模型。

特定任务表现出色：在一些细分领域，精心设计的小模型可能比通用大模型更有效。

迭代更新快：小模型训练周期短，更容易针对新数据进行更新。

而且，谁说小模型就不能借鉴大模型的技术呢？

比如，我们完全可以尝试用大模型的训练方法来优化小模型，或者探索大小模型协同工作的方案。

结语

总的说来，BERT们可能是暂时沉寂了，但绝不意味着它们就此消失。

技术迭代总是快得让人目不暇接。今天的弄潮儿，明天可能就成了过气网红。但每一项技术都有它存在的价值和意义。

模型就像工具箱里的工具，大锤和螺丝刀各有所长。重要的是选择适合任务的那个。

那么，你们觉得BERT们还有翻身的机会吗？

版权声明：
作者：shadowrocket
链接：https://www.shadowrocket8.top/218.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

为什么4090比A100更有性价比

< <上一篇

llamaocr登顶HackerNews

下一篇>>

搜索内容

LLM时代还记得那些年我们一起追过的BERT吗

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

LLM时代还记得那些年我们一起追过的BERT吗

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点