KarpathyLLM应更名为自回归模型
Karpathy又语出惊人了!
这次他吐槽的对象是.... LLM的名字?
没错,就是那个被我们天天挂在嘴边的 "大语言模型"(Large Language Model) 。
Karpathy说: 这名字不仅让人困惑,还有点可悲。
卧槽,这是要改名的节奏?
来看看大佬到底想说什么。

LLM:不只是"语言"的专属
Karpathy直言不讳: LLM与语言的关系,其实没那么密切。
"语言"这个词,只是历史遗留问题。
那LLM到底是什么?
Karpathy给出了一个更准确的定义: 它们是用于对token流进行统计建模的高度通用技术。
啥是token流? 简单说,就是一串串离散的符号。
这些符号可以是:
文本片段
图像块
音频片段
动作选择
分子结构
......
只要你能把问题转化为对这种token流的建模, 你就能"扔个LLM"过去解决。
所以,LLM根本不在乎这些token是不是真的代表了语言!
Karpathy建议,也许我们该叫它 "自回归Transformer" 之类的名字。
LLM:通吃各行各业的"怪物"
既然LLM不局限于语言,那它还能干啥?
Karpathy给出了惊人的预测: 随着LLM技术栈越来越成熟,大量问题可能会收敛到这种建模范式。
这是什么意思?
简单说,就是 未来80%的问题,都可能用LLM来解决!
不管你是做图像处理、语音识别,还是分子设计,只要能把问题转化为"预测下一个token",就能用LLM搞定。
这不是要让各行各业的专业模型都失业吗?
深度学习框架:要凉凉?
甚至,Karpathy还质疑了现有深度学习框架的未来。
他说: 如果80%的问题都只想用LLM,那PyTorch这些框架是不是太"重"了?
想想看:
上千种操作
各种可以随意配置的层
......
但其实大多数人可能只想用个LLM而已。
虽然Karpathy说这只是一种可能,但已经足够让人深思了。
难道未来AI开发,真的会变成"人人都在玩LLM"?
LLM:万物皆可"语言"?
面对Karpathy的 惊人 言论 ,Clive Chan 认为: 其实一切都可以表达成自回归的形式,所以一切都是语言!

Karpathy回应说:确实,你可以说是在"说"纹理、"说"分子。但"语言"这个词还是容易让人误以为LLM只能用于文本应用。

还有人指出: LLM安排token的方式,其实并不是真正意义上的任意符号系统。

Leo Dirac 则提醒: 对于视觉或化学这样的领域,如何定义token的顺序并不是显而易见的,这可能会影响模型的归纳偏置。
Yann LeCun也对这个话题发表了看法,他认为 自回归预测有时是个" 纯粹的恶行 "!
LeCun 还是这么 尖锐!
1. 问题的根源在于 自回归预测 , 而不是具体使用的架构(无论是Transformer还是其他)。
2. 对于 非时序 数据来说 , 使用 自回归预测 简直是" 纯粹的恶行 "。
3. 即便是对 时序数据 , 在输入空间进行 自回归预测 也不如在 表示空间 进行自回归预测。
4. 动态系统 并不总是能通过 过去输入序列 来高效表示。
这直指自回归预测的本质 , 暗示我们可能需要 探索更先进的预测方法 , 特别是对于 非时序数据 。

马斯克也看不下去了,跳出来吐槽到: “绝对需要一个新名字!多模态语言模型,这显然就是个矛盾的名字!”
重新认识LLM
Karpathy的这番言论,算是给我们打开了一扇新的认知之窗,点了一条思考之路。
LLM不仅仅是"语言"模型,而是一种强大的通用建模技术。
未来,我们可能会看到:
更多领域被LLM统一
深度学习框架的变革
AI应用方式的根本改变
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/182.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论