KarpathyLLM应更名为自回归模型

Karpathy又语出惊人了!

这次他吐槽的对象是.... LLM的名字?

没错,就是那个被我们天天挂在嘴边的 "大语言模型"(Large Language Model) 。

Karpathy说: 这名字不仅让人困惑,还有点可悲。

卧槽,这是要改名的节奏?

来看看大佬到底想说什么。

KarpathyLLM应更名为自回归模型-2

LLM:不只是"语言"的专属

Karpathy直言不讳: LLM与语言的关系,其实没那么密切。

"语言"这个词,只是历史遗留问题。

那LLM到底是什么?

Karpathy给出了一个更准确的定义: 它们是用于对token流进行统计建模的高度通用技术。

啥是token流? 简单说,就是一串串离散的符号。

这些符号可以是:

文本片段

图像块

音频片段

动作选择

分子结构

......

只要你能把问题转化为对这种token流的建模, 你就能"扔个LLM"过去解决。

所以,LLM根本不在乎这些token是不是真的代表了语言!

Karpathy建议,也许我们该叫它 "自回归Transformer" 之类的名字。

LLM:通吃各行各业的"怪物"

既然LLM不局限于语言,那它还能干啥?

Karpathy给出了惊人的预测: 随着LLM技术栈越来越成熟,大量问题可能会收敛到这种建模范式。

这是什么意思?

简单说,就是 未来80%的问题,都可能用LLM来解决!

不管你是做图像处理、语音识别,还是分子设计,只要能把问题转化为"预测下一个token",就能用LLM搞定。

这不是要让各行各业的专业模型都失业吗?

深度学习框架:要凉凉?

甚至,Karpathy还质疑了现有深度学习框架的未来。

他说: 如果80%的问题都只想用LLM,那PyTorch这些框架是不是太"重"了?

想想看:

上千种操作

各种可以随意配置的层

......

但其实大多数人可能只想用个LLM而已。

虽然Karpathy说这只是一种可能,但已经足够让人深思了。

难道未来AI开发,真的会变成"人人都在玩LLM"?

LLM:万物皆可"语言"?

面对Karpathy的 惊人 言论 ,Clive Chan 认为: 其实一切都可以表达成自回归的形式,所以一切都是语言!

KarpathyLLM应更名为自回归模型-3

Karpathy回应说:确实,你可以说是在"说"纹理、"说"分子。但"语言"这个词还是容易让人误以为LLM只能用于文本应用。

KarpathyLLM应更名为自回归模型-4

还有人指出: LLM安排token的方式,其实并不是真正意义上的任意符号系统。

KarpathyLLM应更名为自回归模型-5

Leo Dirac 则提醒: 对于视觉或化学这样的领域,如何定义token的顺序并不是显而易见的,这可能会影响模型的归纳偏置。

Yann LeCun也对这个话题发表了看法,他认为 自回归预测有时是个" 纯粹的恶行 "!

KarpathyLLM应更名为自回归模型-6

LeCun 还是这么 尖锐!

1. 问题的根源在于 自回归预测 , 而不是具体使用的架构(无论是Transformer还是其他)。

2. 对于 非时序 数据来说 , 使用 自回归预测 简直是" 纯粹的恶行 "。

3. 即便是对 时序数据 , 在输入空间进行 自回归预测 也不如在 表示空间 进行自回归预测。

4. 动态系统 并不总是能通过 过去输入序列 来高效表示。

这直指自回归预测的本质 , 暗示我们可能需要 探索更先进的预测方法 , 特别是对于 非时序数据 。

KarpathyLLM应更名为自回归模型-7

马斯克也看不下去了,跳出来吐槽到: “绝对需要一个新名字!多模态语言模型,这显然就是个矛盾的名字!”

重新认识LLM

Karpathy的这番言论,算是给我们打开了一扇新的认知之窗,点了一条思考之路。

LLM不仅仅是"语言"模型,而是一种强大的通用建模技术。

未来,我们可能会看到:

更多领域被LLM统一

深度学习框架的变革

AI应用方式的根本改变

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/182.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>