Google新方法JEST让AI训练提速13倍算力需求狂降90

又到大公司秀肌肉的时候 了 !

这回是Google DeepMind的新招数,直接让AI训练 快出天际 !

Google新方法JEST让AI训练提速13倍算力需求狂降90-2

他们搞了个叫 JEST (Joint Example Selection)的方法,能把AI训练时间缩短 13倍 ,还能把算力需求砍掉 90% !

Google新方法JEST让AI训练提速13倍算力需求狂降90-3

这是什么神仙操作?简单来说,就是用一个已经训练好的" 参考模型 "来挑选训练数据,只选那些" 集体可学习性 "高的数据子集。

Google新方法JEST让AI训练提速13倍算力需求狂降90-4

听起来有点像" 老师带徒弟 "?没错!有眼尖的网友就指出:

这有点像训练Gemma和phi-3时用的师生法。他们用更大的预训练模型生成输出,小模型就跟着学。

Google新方法JEST让AI训练提速13倍算力需求狂降90-5

但JEST可不是简单地让大模型教小模型。它的厉害之处在于:

批量选择 :不是一个一个挑数据,而是成批地选。这样更高效,尤其是在多模态学习中。

联合可学习性评分 :用s_learn(B|θ,θ ) = ℓ(B|θ) - ℓ(B|θ )这个公式来给数据打分。其中ℓ是批次损失,θ是学习模型,θ 是参考模型。简单说就是 既要难度适中,又要有学习价值 *。

Flexi-JEST :这是个更高效的评分方法。它用了FlexiViT架构来降低图像分辨率,结果 算力需求减少72% ,实际用时少了 67% !

多分辨率训练 :把一批数据分成低分辨率和高分辨率两半。这招妙啊,既能高效评分,又能减少36%的计算量。

数据质量自举 :用小规模高质量数据集训练参考模型,然后用这个模型来指导更大数据集的筛选。他们搞了个"WebLI-curated++"数据集,有 6亿个样本 呢!

Google新方法JEST让AI训练提速13倍算力需求狂降90-6

效果如何?那叫一个 炸裂 !

JEST++只用了原来1/13的迭代次数就达到了SigLIP基准的性能。

Flexi-JEST++更是用1/11的迭代次数和1/10的计算量就创造了新纪录。

Google新方法JEST让AI训练提速13倍算力需求狂降90-7

而且这方法还挺 皮实 的:

不管你用sigmoid还是softmax对比损失函数,它都能用。(不过sigmoid效率更高一些)

在优化方面也有两下子。过滤比例高的时候,只要把Adam优化器的β2调到0.95,训练就稳如老狗。

Google新方法JEST让AI训练提速13倍算力需求狂降90-8

最后还有个意外收获:JEST++在未经筛选的WebLI数据集上表现依旧出色。这意味着以后可能都不用费劲去离线筛选基础数据集了!

有网友看完直呼:

疯了疯了都疯了!这是要把其他AI公司往死里卷啊!

Google新方法JEST让AI训练提速13倍算力需求狂降90-9

确实,这波操作不仅让训练速度起飞,还把算力需求砍得稀碎。要知道,现在AI训练最大的瓶颈就是算力和时间。这么一搞,岂不是要让其他公司 望尘莫及 ?

不过话说回来,技术进步总是好事。也许在不久的将来,咱们普通人也能在家里的笔记本上训练大模型了?

别做梦了,赶紧 关注我 吧!我们下期再见!

论文地址:https://arxiv.org/abs/2406.17711

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/212.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>