Google新方法JEST让AI训练提速13倍算力需求狂降90

shadowrocket • 2026年2月14日 am8:12 • Shadowrocket官网

又到大公司秀肌肉的时候了！

这回是Google DeepMind的新招数，直接让AI训练快出天际！

他们搞了个叫 JEST （Joint Example Selection）的方法，能把AI训练时间缩短 13倍，还能把算力需求砍掉 90% ！

这是什么神仙操作？简单来说，就是用一个已经训练好的" 参考模型 "来挑选训练数据，只选那些" 集体可学习性 "高的数据子集。

听起来有点像" 老师带徒弟 "？没错！有眼尖的网友就指出：

这有点像训练Gemma和phi-3时用的师生法。他们用更大的预训练模型生成输出，小模型就跟着学。

但JEST可不是简单地让大模型教小模型。它的厉害之处在于：

批量选择：不是一个一个挑数据，而是成批地选。这样更高效，尤其是在多模态学习中。

联合可学习性评分：用s_learn(B|θ,θ ) = ℓ(B|θ) - ℓ(B|θ )这个公式来给数据打分。其中ℓ是批次损失，θ是学习模型，θ 是参考模型。简单说就是既要难度适中，又要有学习价值 *。

Flexi-JEST ：这是个更高效的评分方法。它用了FlexiViT架构来降低图像分辨率，结果算力需求减少72% ，实际用时少了 67% ！

多分辨率训练：把一批数据分成低分辨率和高分辨率两半。这招妙啊，既能高效评分，又能减少36%的计算量。

数据质量自举：用小规模高质量数据集训练参考模型，然后用这个模型来指导更大数据集的筛选。他们搞了个"WebLI-curated++"数据集，有 6亿个样本呢！

效果如何？那叫一个炸裂！

JEST++只用了原来1/13的迭代次数就达到了SigLIP基准的性能。

Flexi-JEST++更是用1/11的迭代次数和1/10的计算量就创造了新纪录。

而且这方法还挺皮实的：

不管你用sigmoid还是softmax对比损失函数，它都能用。（不过sigmoid效率更高一些）

在优化方面也有两下子。过滤比例高的时候，只要把Adam优化器的β2调到0.95，训练就稳如老狗。

最后还有个意外收获：JEST++在未经筛选的WebLI数据集上表现依旧出色。这意味着以后可能都不用费劲去离线筛选基础数据集了！

有网友看完直呼：

疯了疯了都疯了！这是要把其他AI公司往死里卷啊！

确实，这波操作不仅让训练速度起飞，还把算力需求砍得稀碎。要知道，现在AI训练最大的瓶颈就是算力和时间。这么一搞，岂不是要让其他公司望尘莫及？

不过话说回来，技术进步总是好事。也许在不久的将来，咱们普通人也能在家里的笔记本上训练大模型了？

别做梦了，赶紧关注我吧！我们下期再见！

论文地址：https://arxiv.org/abs/2406.17711

版权声明：
作者：shadowrocket
链接：https://www.shadowrocket8.top/212.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

惊人突破ChatGPT诊断癌症达96准确率

下一篇>>

搜索内容