揭秘模型融合进化史从90年代到今天
今天给大家带来一个 有趣又有料 的AI话题 —— 模型合并技术!
没想到吧?!
这个听起来很高大上的技术,竟然是个 90年代的老古董 !
别急着嫌弃它, 这个"老古董"可是一路进化到了今天的LLM时代,还在大放异彩呢!

最近,Cameron R. Wolfe博士在推特上发布了一条长文,给我们梳理了模型合并技术的发展历程。
我看完之后不禁感叹:这哪是技术进化,简直就是AI模型的 "返祖现象" 啊!
让我们一起来看看这段跨越30多年的AI进化史👉
第0阶段:90年代的"初心"
90年代,那个互联网还在襁褓中的年代,就已经有人开始研究模型合并了。
当时的研究发现, 把多个神经网络的参数平均一下,效果居然和把多个神经网络的输出平均差不多 !
这个发现简直就是AI界的" 蝴蝶效应 ",为后来的发展埋下了伏笔。
第1阶段:训练轨迹上的平均艺术
到了2010年代中后期,研究者们玩出了新花样。
他们开始 在训练过程中对模型参数做平均 ,有的用指数移动平均,有的就简单地平均特定的检查点。
这种操作不仅能提高训练的稳定性,还能提升模型性能和泛化能力。简直是一石三鸟啊!
第2阶段:线性模式连接性的发现
接下来的故事更有意思了。
研究者们发现, 从同一个基础模型微调出来的多个神经网络,它们之间存在一条"损失不增加"的线性路径 。
用人话说就是:你把两个微调后的模型的参数插值一下,得到的新模型性能也不会差!
这个发现直接为后面的模型合并铺平了道路。
第3阶段:权重平均的简单粗暴
有了前面的铺垫,研究者们开始尝试 直接平均多个单独训练的神经网络的参数 。
这种"模型汤"(model soup)的做法虽然简单,但效果却出奇的好,在提升模型性能和泛化能力方面表现不俗。
第4阶段:更高级的合并技巧
随着研究的深入,更多花里胡哨的合并技术被提出来了。比如:
用任务向量来合并模型
TIES或DARE策略来减少合并时的干扰
这些技术都在努力解决一个问题: 如何在合并的时候减少冲突,让不同模型的优点能够和谐共存 。
第5阶段:LLM时代的绽放
终于到了我们熟悉的LLM时代!
模型合并技术在这个舞台上大放异彩,被广泛应用于:
结合多个LLM的能力
改进对齐过程
训练更好的奖励模型
其中最引人注目的应用当属WARP技术,它在Gemma-2的对齐过程中发挥了重要作用。
看完是不是觉得AI的发展历程跟人类历史有点像? 从最初的简单想法,到不断的创新和突破,最后回归本源但又更加强大。
有网友就调侃道:
"我保证我90年代没学过这个。"
还有网友则补充道:
"线性模式连接性和彩票假设(LTH)稍晚一些,但也很早了。"
这确实让人感叹, 在AI的世界里,没有真正的"新"技术,只有被重新发现的"旧"智慧。
相关阅读
1. 模型合并大法:AI 也可以做加减法
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/207.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论