科罗拉多大学教授手把手教你正则化大模型

你还在为大模型训练中的正则化问题抓耳挠腮吗?

科罗拉多大学博尔德分校的计算机科学教授Tom Yeh 分享了一个有趣的手写习题,主题是 批量正则化(Batch Normalization) 。

看到这个视频,不少网友直呼"太有趣了":

"这真是个绝妙的方法来理解批量正则化的工作原理。我感觉自己终于get到了这个概念!"

批量正则化听起来简单,但很多人还是会对它产生误解。Tom教授抛出了三个问题:

批量正则化涉及可训练参数、可调超参数,还是两者都有?

批量正则化应用于输入、特征、权重、偏置还是输出?

批量正则化和层正则化有什么不同?

为了解答这些疑问,Tom教授设计了一个 7步骤的手写习题 。让我们一起来看看这个"神奇"的解题过程吧!

第一步:给定条件

一个mini-batch包含4个训练样本,每个样本有3个特征。

第二步:线性层

将输入与权重和偏置相乘,得到新的特征。

第三步:ReLU激活

应用ReLU激活函数,抑制负值。在这个例子中,-2被设为0。

第四步:批量统计

计算这个mini-batch中4个样本的总和、平均值、方差和标准差。注意,这些统计量是针对每一行(即每个特征维度)计算的。

第五步:均值归零

从每个训练样本的激活值中减去平均值(绿色)。这样做的目的是让每个维度的4个激活值平均为零。

第六步:方差归一

除以标准差(橙色)。这样做的目的是让4个激活值的方差等于1。

第七步:缩放与平移

将步骤6中的归一化特征乘以一个线性变换矩阵,并将结果传递给下一层。这一步的目的是将归一化后的特征值缩放和平移到一个新的均值和方差,这些参数将由网络学习得到。对角线和最后一列的元素是网络将要学习的可训练参数。

看完这个解题过程,是不是对批量正则化有了更深入的理解?

网友纷纷表示:

"这种手写+动画的方式真是太棒了!比起看那些晦涩难懂的公式,这种方法让人一目了然。"

也有人提出思考:

"虽然这种方法很直观,但在实际的大规模模型中,批量正则化的计算复杂度会不会成为一个问题?"

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/198.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>