揭秘模型融合进化史从90年代到今天

shadowrocket • 2026年1月21日 am8:04 • Shadowrocket官网

今天给大家带来一个有趣又有料的AI话题 —— 模型合并技术！

没想到吧？！

这个听起来很高大上的技术，竟然是个 90年代的老古董！

别急着嫌弃它，这个"老古董"可是一路进化到了今天的LLM时代，还在大放异彩呢！

最近，Cameron R. Wolfe博士在推特上发布了一条长文，给我们梳理了模型合并技术的发展历程。

我看完之后不禁感叹：这哪是技术进化，简直就是AI模型的 "返祖现象" 啊！

让我们一起来看看这段跨越30多年的AI进化史👉

第0阶段：90年代的"初心"

90年代，那个互联网还在襁褓中的年代，就已经有人开始研究模型合并了。

当时的研究发现，把多个神经网络的参数平均一下，效果居然和把多个神经网络的输出平均差不多！

这个发现简直就是AI界的" 蝴蝶效应 "，为后来的发展埋下了伏笔。

第1阶段：训练轨迹上的平均艺术

到了2010年代中后期，研究者们玩出了新花样。

他们开始在训练过程中对模型参数做平均，有的用指数移动平均，有的就简单地平均特定的检查点。

这种操作不仅能提高训练的稳定性，还能提升模型性能和泛化能力。简直是一石三鸟啊！

第2阶段：线性模式连接性的发现

接下来的故事更有意思了。

研究者们发现，从同一个基础模型微调出来的多个神经网络，它们之间存在一条"损失不增加"的线性路径。

用人话说就是：你把两个微调后的模型的参数插值一下，得到的新模型性能也不会差！

这个发现直接为后面的模型合并铺平了道路。

第3阶段：权重平均的简单粗暴

有了前面的铺垫，研究者们开始尝试直接平均多个单独训练的神经网络的参数。

这种"模型汤"（model soup）的做法虽然简单，但效果却出奇的好，在提升模型性能和泛化能力方面表现不俗。

第4阶段：更高级的合并技巧

随着研究的深入，更多花里胡哨的合并技术被提出来了。比如：

用任务向量来合并模型

TIES或DARE策略来减少合并时的干扰

这些技术都在努力解决一个问题：如何在合并的时候减少冲突，让不同模型的优点能够和谐共存。

第5阶段：LLM时代的绽放

终于到了我们熟悉的LLM时代！

模型合并技术在这个舞台上大放异彩，被广泛应用于：

结合多个LLM的能力

改进对齐过程

训练更好的奖励模型

其中最引人注目的应用当属WARP技术，它在Gemma-2的对齐过程中发挥了重要作用。

看完是不是觉得AI的发展历程跟人类历史有点像？从最初的简单想法，到不断的创新和突破，最后回归本源但又更加强大。

有网友就调侃道：

"我保证我90年代没学过这个。"

还有网友则补充道：

"线性模式连接性和彩票假设（LTH）稍晚一些，但也很早了。"

这确实让人感叹，在AI的世界里，没有真正的"新"技术，只有被重新发现的"旧"智慧。

搜索内容

揭秘模型融合进化史从90年代到今天

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

揭秘模型融合进化史从90年代到今天

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点