揭秘模型融合进化史从90年代到今天

今天给大家带来一个 有趣又有料 的AI话题 —— 模型合并技术!

没想到吧?!

这个听起来很高大上的技术,竟然是个 90年代的老古董 !

别急着嫌弃它, 这个"老古董"可是一路进化到了今天的LLM时代,还在大放异彩呢!

揭秘模型融合进化史从90年代到今天-2

最近,Cameron R. Wolfe博士在推特上发布了一条长文,给我们梳理了模型合并技术的发展历程。

我看完之后不禁感叹:这哪是技术进化,简直就是AI模型的 "返祖现象" 啊!

让我们一起来看看这段跨越30多年的AI进化史👉

第0阶段:90年代的"初心"

90年代,那个互联网还在襁褓中的年代,就已经有人开始研究模型合并了。

当时的研究发现, 把多个神经网络的参数平均一下,效果居然和把多个神经网络的输出平均差不多 !

这个发现简直就是AI界的" 蝴蝶效应 ",为后来的发展埋下了伏笔。

第1阶段:训练轨迹上的平均艺术

到了2010年代中后期,研究者们玩出了新花样。

他们开始 在训练过程中对模型参数做平均 ,有的用指数移动平均,有的就简单地平均特定的检查点。

这种操作不仅能提高训练的稳定性,还能提升模型性能和泛化能力。简直是一石三鸟啊!

第2阶段:线性模式连接性的发现

接下来的故事更有意思了。

研究者们发现, 从同一个基础模型微调出来的多个神经网络,它们之间存在一条"损失不增加"的线性路径 。

用人话说就是:你把两个微调后的模型的参数插值一下,得到的新模型性能也不会差!

这个发现直接为后面的模型合并铺平了道路。

第3阶段:权重平均的简单粗暴

有了前面的铺垫,研究者们开始尝试 直接平均多个单独训练的神经网络的参数 。

这种"模型汤"(model soup)的做法虽然简单,但效果却出奇的好,在提升模型性能和泛化能力方面表现不俗。

第4阶段:更高级的合并技巧

随着研究的深入,更多花里胡哨的合并技术被提出来了。比如:

用任务向量来合并模型

TIES或DARE策略来减少合并时的干扰

这些技术都在努力解决一个问题: 如何在合并的时候减少冲突,让不同模型的优点能够和谐共存 。

第5阶段:LLM时代的绽放

终于到了我们熟悉的LLM时代!

模型合并技术在这个舞台上大放异彩,被广泛应用于:

结合多个LLM的能力

改进对齐过程

训练更好的奖励模型

其中最引人注目的应用当属WARP技术,它在Gemma-2的对齐过程中发挥了重要作用。

看完是不是觉得AI的发展历程跟人类历史有点像? 从最初的简单想法,到不断的创新和突破,最后回归本源但又更加强大。

有网友就调侃道:

"我保证我90年代没学过这个。"

还有网友则补充道:

"线性模式连接性和彩票假设(LTH)稍晚一些,但也很早了。"

这确实让人感叹, 在AI的世界里,没有真正的"新"技术,只有被重新发现的"旧"智慧。

相关阅读

1. 模型合并大法:AI 也可以做加减法

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/207.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>