大模型数不对几个R并非分词器惹的祸
为什么ChatGPT数不清"strawberry"里有几个"r"呢?

这是个看似简单的问题,但却揭示了大语言模型(LLM)在基础能力上的一个有趣盲区。
I. 大模型的"数学盲区"
Riley Goodside 提到这个有趣的例子: 当被问及"strawberry"中有多少个"r"时,ChatGPT给出了错误答案。
这个简单的计数任务,竟然难倒了号称能写代码、做数学的AI。
原因为何呢?
II. 不只是tokenization的锅
很多人认为,这个问题是由于模型的tokenization(分词)导致的。但Goodside通过实验证明, 即使每个字母都被单独tokenize,模型仍然会犯错 。

这意味着问题的根源可能更加深层。

Goodside进一步指出: 即使是在计数单词而非字母时,模型也会出错 。这表明LLM在处理精确计数任务时存在普遍性问题。

III. 多模型对比:谁更擅长数数?
不同的模型在这个任务上表现如何?
Goodside测试了GPT-4o和Claude 3.5 Sonnet,结果显示它们都存在类似问题。


有趣的是,一些用户发现,通过调整提问方式,可以提高模型的准确率。这也再次引发了人们对提示词工程(Prompt Engineering)重要性的讨论。
IV. AI的"数学盲区"从何而来?
为什么看似简单的计数任务会成为AI的"滑铁卢"?有几种可能的解释:
统计偏差: 如@elrohir@mastodon.gal所言,训练数据中可能存在偏差。如果数据集中"roar有2个r"的样本远多于"strawberry有3个r",模型就可能倾向于输出"2"。
理解偏差: @agentkazak指出,模型可能将问题理解为"是bery还是berry?"而非真正的字母计数。
推理能力限制: LLM本质上是预测下一个token的概率分布,而非真正"思考"。精确计数可能超出了它们的核心能力范围。
V. 提示词工程的未来
虽然调整提示词能让大模型答对,但@soyhenryxyz大胆预测:
这仍然是一个工作理论,但提示词工程将成为一种遗物。随着时间的推移,随着智能的提高,LLM将不再需要它们。
比如o1-preview 经过简单的思考就轻松给出了正确答案:

随着模型变得越来越"聪明",我们是否还需要精心设计提示词?
这是个好问题,值得深思。见前文: GPT-o1:提示词工程已死!
VI. 启示与思考
这个看似简单的计数问题,实际上揭示了AI能力的边界。这提醒我们:
不要高估AI : 即使在简单任务上,AI也可能出错。我们需要谨慎使用AI,特别是在关键决策中。
人类智慧的独特性 : 精确计数对人类来说是小菜一碟,但对基于统计特性的AI 而言却是大挑战。这也凸显了人类智慧的某些方面仍然独一无二。
AI研究方向 : 这个问题指出了AI在基础能力上的不足,为未来研究提供了方向。
理解AI的本质 : LLM本质上是基于统计的预测模型,而非真正的"思考"。理解这一点有助于我们更好地利用和改进AI。
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/172.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论