LLM时代还记得那些年我们一起追过的BERT吗
还记得那些年我们一起追过的BERT吗?
LLM时代它们哪去了?
它们曾经是NLP领域的顶流明星,各种变体层出不穷,ELECTRA、DEBERTA、ROBERTA、XLM-ROBERTA......每一个名字都闪耀夺目。
可如今, LLM时代的浪潮 席卷而来,这些小模型们似乎都销声匿迹了?

Leo Boytsov最近就发文:
亲爱的懒惰的推特用户们:我们是不是已经 不再生产更好的预训练BERT或GPT模型 来微调排序器/分类器了?之前我们有ELECTRA、DEBERTA、ROBERTA和XLM-ROBERTA。有什么更新/更好的吗?还是说大家都转向微调GEMMA、LLAMA和MISTRAL了?
这位老兄的感慨引发了不少讨论,Sebastian Raschka 也被勾起了兴趣,表示 这是个值得深入探讨的话题 。
确实, BERT们到底去哪了?
是真的江湖地位不保了,还是另有隐情呢?
BERT们还好用吗?
首先,让我们来看看 BERT们的实力如何 。
Sebastian分享了一个有趣的实验:他们用 560百万参数的BLOOM模型 在IMDB数据集上进行了微调,最终获得了 87%的准确率 。
看起来还不错?等等,来看看bert 的。
要知道,用 358百万参数的RoBERTa模型 ,人家都能轻松拿下 96%的准确率 !
BERT 也并非廉颇老矣?
LLM时代的新宠儿
接下来才是重点。
最近有篇论文《Label Supervised LLaMA Finetuning》可能会另有结论。研究发现,如果你用 7B或13B的Llama 2模型 来做分类任务,效果居然出奇的好!
更妙的是,如果你把 因果注意力掩码(causal attention mask)去掉 ,效果会更好。
这下轮到BERT们尴尬了?
不过,别高兴太早, Sebastian提醒到 :
需要注意的是,7B的Llama 2模型比BERT大70倍,运行成本也高得多。因此,这是一个需要权衡准确性和计算效率的决定。
小模型的未来在哪里?
是不是意味着BERT们真的要退出历史舞台了呢?
这不好下定论。
如Sebastian所说,这个话题值得写一篇综述好好梳理一下。
毕竟,在某些场景下,小模型依然有它的优势:
计算资源友好 :不是每个团队都有能力部署动辄上百亿参数的大模型。
特定任务表现出色 :在一些细分领域,精心设计的小模型可能比通用大模型更有效。
迭代更新快 :小模型训练周期短,更容易针对新数据进行更新。
而且, 谁说小模型就不能借鉴大模型的技术呢?
比如,我们完全可以尝试用 大模型的训练方法来优化小模型 ,或者探索 大小模型协同工作 的方案。
结语
总的说来,BERT们可能是暂时沉寂了,但绝不意味着它们就此消失。
技术迭代总是快得让人目不暇接。今天的弄潮儿,明天可能就成了过气网红。但每一项技术都有它存在的价值和意义。
模型就像工具箱里的工具,大锤和螺丝刀各有所长。 重要的是选择适合任务的那个。
那么, 你们觉得BERT们还有翻身的机会吗?
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/218.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论