大模型数不对几个R并非分词器惹的祸

shadowrocket • 2026年2月7日 am8:04 • Shadowrocket官网

为什么ChatGPT数不清"strawberry"里有几个"r"呢？

这是个看似简单的问题，但却揭示了大语言模型(LLM)在基础能力上的一个有趣盲区。

I. 大模型的"数学盲区"

Riley Goodside 提到这个有趣的例子：当被问及"strawberry"中有多少个"r"时，ChatGPT给出了错误答案。

这个简单的计数任务，竟然难倒了号称能写代码、做数学的AI。

原因为何呢？

II. 不只是tokenization的锅

很多人认为，这个问题是由于模型的tokenization(分词)导致的。但Goodside通过实验证明，即使每个字母都被单独tokenize,模型仍然会犯错。

这意味着问题的根源可能更加深层。

Goodside进一步指出：即使是在计数单词而非字母时，模型也会出错。这表明LLM在处理精确计数任务时存在普遍性问题。

III. 多模型对比：谁更擅长数数?

不同的模型在这个任务上表现如何？

Goodside测试了GPT-4o和Claude 3.5 Sonnet,结果显示它们都存在类似问题。

有趣的是，一些用户发现，通过调整提问方式，可以提高模型的准确率。这也再次引发了人们对提示词工程(Prompt Engineering)重要性的讨论。

IV. AI的"数学盲区"从何而来？

为什么看似简单的计数任务会成为AI的"滑铁卢"？有几种可能的解释:

统计偏差：如@elrohir@mastodon.gal所言，训练数据中可能存在偏差。如果数据集中"roar有2个r"的样本远多于"strawberry有3个r"，模型就可能倾向于输出"2"。

理解偏差： @agentkazak指出，模型可能将问题理解为"是bery还是berry？"而非真正的字母计数。

推理能力限制： LLM本质上是预测下一个token的概率分布，而非真正"思考"。精确计数可能超出了它们的核心能力范围。

V. 提示词工程的未来

虽然调整提示词能让大模型答对，但@soyhenryxyz大胆预测:

这仍然是一个工作理论，但提示词工程将成为一种遗物。随着时间的推移,随着智能的提高，LLM将不再需要它们。

比如o1-preview 经过简单的思考就轻松给出了正确答案：

随着模型变得越来越"聪明"，我们是否还需要精心设计提示词？

这是个好问题，值得深思。见前文： GPT-o1：提示词工程已死！

VI. 启示与思考

这个看似简单的计数问题，实际上揭示了AI能力的边界。这提醒我们:

不要高估AI : 即使在简单任务上，AI也可能出错。我们需要谨慎使用AI，特别是在关键决策中。

人类智慧的独特性 : 精确计数对人类来说是小菜一碟，但对基于统计特性的AI 而言却是大挑战。这也凸显了人类智慧的某些方面仍然独一无二。

AI研究方向 : 这个问题指出了AI在基础能力上的不足，为未来研究提供了方向。

理解AI的本质 : LLM本质上是基于统计的预测模型，而非真正的"思考"。理解这一点有助于我们更好地利用和改进AI。

版权声明：
作者：shadowrocket
链接：https://www.shadowrocket8.top/172.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

重要突破微软联手OpenAI实现跨数据中心模型训练

< <上一篇

Tweedie公式一个公式统治所有扩散模型

下一篇>>

搜索内容

大模型数不对几个R并非分词器惹的祸

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

大模型数不对几个R并非分词器惹的祸

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点