大模型数不对几个R并非分词器惹的祸

为什么ChatGPT数不清"strawberry"里有几个"r"呢?

大模型数不对几个R并非分词器惹的祸-2

这是个看似简单的问题,但却揭示了大语言模型(LLM)在基础能力上的一个有趣盲区。

I. 大模型的"数学盲区"

Riley Goodside 提到这个有趣的例子: 当被问及"strawberry"中有多少个"r"时,ChatGPT给出了错误答案。

这个简单的计数任务,竟然难倒了号称能写代码、做数学的AI。

原因为何呢?

II. 不只是tokenization的锅

很多人认为,这个问题是由于模型的tokenization(分词)导致的。但Goodside通过实验证明, 即使每个字母都被单独tokenize,模型仍然会犯错 。

大模型数不对几个R并非分词器惹的祸-3

这意味着问题的根源可能更加深层。

大模型数不对几个R并非分词器惹的祸-4

Goodside进一步指出: 即使是在计数单词而非字母时,模型也会出错 。这表明LLM在处理精确计数任务时存在普遍性问题。

大模型数不对几个R并非分词器惹的祸-5

III. 多模型对比:谁更擅长数数?

不同的模型在这个任务上表现如何?

Goodside测试了GPT-4o和Claude 3.5 Sonnet,结果显示它们都存在类似问题。

大模型数不对几个R并非分词器惹的祸-6

大模型数不对几个R并非分词器惹的祸-7

有趣的是,一些用户发现,通过调整提问方式,可以提高模型的准确率。这也再次引发了人们对提示词工程(Prompt Engineering)重要性的讨论。

IV. AI的"数学盲区"从何而来?

为什么看似简单的计数任务会成为AI的"滑铁卢"?有几种可能的解释:

统计偏差: 如@elrohir@mastodon.gal所言,训练数据中可能存在偏差。如果数据集中"roar有2个r"的样本远多于"strawberry有3个r",模型就可能倾向于输出"2"。

理解偏差: @agentkazak指出,模型可能将问题理解为"是bery还是berry?"而非真正的字母计数。

推理能力限制: LLM本质上是预测下一个token的概率分布,而非真正"思考"。精确计数可能超出了它们的核心能力范围。

V. 提示词工程的未来

虽然调整提示词能让大模型答对,但@soyhenryxyz大胆预测:

这仍然是一个工作理论,但提示词工程将成为一种遗物。随着时间的推移,随着智能的提高,LLM将不再需要它们。

比如o1-preview 经过简单的思考就轻松给出了正确答案:

大模型数不对几个R并非分词器惹的祸-8

随着模型变得越来越"聪明",我们是否还需要精心设计提示词?

这是个好问题,值得深思。见前文: GPT-o1:提示词工程已死!

VI. 启示与思考

这个看似简单的计数问题,实际上揭示了AI能力的边界。这提醒我们:

不要高估AI : 即使在简单任务上,AI也可能出错。我们需要谨慎使用AI,特别是在关键决策中。

人类智慧的独特性 : 精确计数对人类来说是小菜一碟,但对基于统计特性的AI 而言却是大挑战。这也凸显了人类智慧的某些方面仍然独一无二。

AI研究方向 : 这个问题指出了AI在基础能力上的不足,为未来研究提供了方向。

理解AI的本质 : LLM本质上是基于统计的预测模型,而非真正的"思考"。理解这一点有助于我们更好地利用和改进AI。

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/172.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>