LLM时代还记得那些年我们一起追过的BERT吗

还记得那些年我们一起追过的BERT吗?

LLM时代它们哪去了?

它们曾经是NLP领域的顶流明星,各种变体层出不穷,ELECTRA、DEBERTA、ROBERTA、XLM-ROBERTA......每一个名字都闪耀夺目。

可如今, LLM时代的浪潮 席卷而来,这些小模型们似乎都销声匿迹了?

LLM时代还记得那些年我们一起追过的BERT吗-2

Leo Boytsov最近就发文:

亲爱的懒惰的推特用户们:我们是不是已经 不再生产更好的预训练BERT或GPT模型 来微调排序器/分类器了?之前我们有ELECTRA、DEBERTA、ROBERTA和XLM-ROBERTA。有什么更新/更好的吗?还是说大家都转向微调GEMMA、LLAMA和MISTRAL了?

这位老兄的感慨引发了不少讨论,Sebastian Raschka 也被勾起了兴趣,表示 这是个值得深入探讨的话题 。

确实, BERT们到底去哪了?

是真的江湖地位不保了,还是另有隐情呢?

BERT们还好用吗?

首先,让我们来看看 BERT们的实力如何 。

Sebastian分享了一个有趣的实验:他们用 560百万参数的BLOOM模型 在IMDB数据集上进行了微调,最终获得了 87%的准确率 。

看起来还不错?等等,来看看bert 的。

要知道,用 358百万参数的RoBERTa模型 ,人家都能轻松拿下 96%的准确率 !

BERT 也并非廉颇老矣?

LLM时代的新宠儿

接下来才是重点。

最近有篇论文《Label Supervised LLaMA Finetuning》可能会另有结论。研究发现,如果你用 7B或13B的Llama 2模型 来做分类任务,效果居然出奇的好!

更妙的是,如果你把 因果注意力掩码(causal attention mask)去掉 ,效果会更好。

这下轮到BERT们尴尬了?

不过,别高兴太早, Sebastian提醒到 :

需要注意的是,7B的Llama 2模型比BERT大70倍,运行成本也高得多。因此,这是一个需要权衡准确性和计算效率的决定。

小模型的未来在哪里?

是不是意味着BERT们真的要退出历史舞台了呢?

这不好下定论。

如Sebastian所说,这个话题值得写一篇综述好好梳理一下。

毕竟,在某些场景下,小模型依然有它的优势:

计算资源友好 :不是每个团队都有能力部署动辄上百亿参数的大模型。

特定任务表现出色 :在一些细分领域,精心设计的小模型可能比通用大模型更有效。

迭代更新快 :小模型训练周期短,更容易针对新数据进行更新。

而且, 谁说小模型就不能借鉴大模型的技术呢?

比如,我们完全可以尝试用 大模型的训练方法来优化小模型 ,或者探索 大小模型协同工作 的方案。

结语

总的说来,BERT们可能是暂时沉寂了,但绝不意味着它们就此消失。

技术迭代总是快得让人目不暇接。今天的弄潮儿,明天可能就成了过气网红。但每一项技术都有它存在的价值和意义。

模型就像工具箱里的工具,大锤和螺丝刀各有所长。 重要的是选择适合任务的那个。

那么, 你们觉得BERT们还有翻身的机会吗?

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/218.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>