Google新方法JEST让AI训练提速13倍算力需求狂降90
又到大公司秀肌肉的时候 了 !
这回是Google DeepMind的新招数,直接让AI训练 快出天际 !

他们搞了个叫 JEST (Joint Example Selection)的方法,能把AI训练时间缩短 13倍 ,还能把算力需求砍掉 90% !

这是什么神仙操作?简单来说,就是用一个已经训练好的" 参考模型 "来挑选训练数据,只选那些" 集体可学习性 "高的数据子集。

听起来有点像" 老师带徒弟 "?没错!有眼尖的网友就指出:
这有点像训练Gemma和phi-3时用的师生法。他们用更大的预训练模型生成输出,小模型就跟着学。

但JEST可不是简单地让大模型教小模型。它的厉害之处在于:
批量选择 :不是一个一个挑数据,而是成批地选。这样更高效,尤其是在多模态学习中。
联合可学习性评分 :用s_learn(B|θ,θ ) = ℓ(B|θ) - ℓ(B|θ )这个公式来给数据打分。其中ℓ是批次损失,θ是学习模型,θ 是参考模型。简单说就是 既要难度适中,又要有学习价值 *。
Flexi-JEST :这是个更高效的评分方法。它用了FlexiViT架构来降低图像分辨率,结果 算力需求减少72% ,实际用时少了 67% !
多分辨率训练 :把一批数据分成低分辨率和高分辨率两半。这招妙啊,既能高效评分,又能减少36%的计算量。
数据质量自举 :用小规模高质量数据集训练参考模型,然后用这个模型来指导更大数据集的筛选。他们搞了个"WebLI-curated++"数据集,有 6亿个样本 呢!

效果如何?那叫一个 炸裂 !
JEST++只用了原来1/13的迭代次数就达到了SigLIP基准的性能。
Flexi-JEST++更是用1/11的迭代次数和1/10的计算量就创造了新纪录。

而且这方法还挺 皮实 的:
不管你用sigmoid还是softmax对比损失函数,它都能用。(不过sigmoid效率更高一些)
在优化方面也有两下子。过滤比例高的时候,只要把Adam优化器的β2调到0.95,训练就稳如老狗。

最后还有个意外收获:JEST++在未经筛选的WebLI数据集上表现依旧出色。这意味着以后可能都不用费劲去离线筛选基础数据集了!
有网友看完直呼:
疯了疯了都疯了!这是要把其他AI公司往死里卷啊!

确实,这波操作不仅让训练速度起飞,还把算力需求砍得稀碎。要知道,现在AI训练最大的瓶颈就是算力和时间。这么一搞,岂不是要让其他公司 望尘莫及 ?
不过话说回来,技术进步总是好事。也许在不久的将来,咱们普通人也能在家里的笔记本上训练大模型了?
别做梦了,赶紧 关注我 吧!我们下期再见!
论文地址:https://arxiv.org/abs/2406.17711
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/212.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论