o1模型能否通向AGI

shadowrocket • 2026年2月13日 am8:09 • Shadowrocket官网

上周发布的OpenAI 的o1 新模型彻底颠覆了我们对AI模型能力的认知。

ARC-AGI-Pub Leaderboard

OpenAI的新模型 o1-preview 直接把GPT-4o给干翻了！不仅如此，它还在ARC Prize测试中与Claude 3.5 Sonnet打得有来有回。

这不是要让其他AI模型集体失业吗？

那问题来了， o1 这个"怪物"能带我们通向AGI（通用人工智能）吗？

o1模型：OpenAI的新宠儿

OpenAI刚刚发布了他们的最新模型家族 o1 ，包括 o1-preview 和 o1-mini 两个版本。这两个小家伙可不简单，它们在ARC-AGI公开评估数据集上的表现直接超越了GPT-4o！

来看看具体数据：

模型名称

公开评估得分

半私有评估得分

平均每任务用时（分钟）

o1-preview

21.2%

18%

4.2

Claude 3.5

21%

14%

0.3

o1-mini

12.8%

9.5%

3.0

GPT-4o

0.3

Gemini 1.5

4.5%

1.1

o1-preview 不仅打败了GPT-4o，还与Claude 3.5 Sonnet不相上下。虽然它用时比Claude 3.5多了10倍，但这已经是相当惊人的成绩了！

链式思考：o1的制胜法宝

那么，o1是如何做到这一点的呢？

答案就在于它的核心技术：链式思考（Chain-of-Thought，CoT）。

OpenAI o1 Performance Chart

上图展示了o1在不同任务上的表现。

这就是链式思考的威力！

简单来说，链式思考就是让AI像人类一样，一步一步地思考问题。OpenAI在训练和推理过程中都应用了这种方法，使得o1在需要规划的任务上表现更好。

不仅如此，OpenAI还使用了新的强化学习算法，让o1能够在推理时不断优化自己的思考策略。这就像是给AI装上了一个"自我完善"的引擎，太酷了！

测试时计算量：性能提升的秘密武器？

但是，o1的强大表现背后还有一个秘密：测试时计算量。

简单来说，就是给AI更多的时间和计算资源来思考问题。这就像是让学生做题时多给一些时间，naturally，成绩会更好。

Top 3 Accuracy vs k

上图展示了随着计算量的增加，模型的准确率如何提升。

看到这漂亮的上升曲线了吗？

这就是为什么o1能够在某些任务上表现得如此出色。

但是，这也带来了一个问题：**如何客观地比较不同AI系统的智能水平？**毕竟，给的时间越多，表现自然越好。这就像是比赛跑步，但允许有些人骑自行车一样，不太公平对吧？

挑战与局限：o1模型的"软肋"

虽然o1在很多任务上表现出色，但它在ARC-AGI测试中的表现却不如预期。这是为什么呢？

原因可能在于，o1主要是在已知的思考模式上做得更好了，但面对全新的、需要创造性思维的问题时，它仍然力不从心。

这就像是一个学霸，他可以很快地解决已经学过的题型，但遇到完全陌生的问题时，可能就会卡壳。

o1模型 vs AGI

那么，o1模型是否意味着我们离AGI更近了一步呢？

答案是：既是，又不是。

一方面，o1展示了链式思考和测试时优化的强大潜力，这无疑是向AGI迈进的一大步。

但另一方面，o1的局限性也提醒我们，真正的AGI还需要更多创新。我们需要的不仅是能够更好地"记忆推理过程"的AI，还需要能够真正"创造性思考"的AI。

正如ARC Prize的研究者所说：

我们仍然需要新的想法来实现AGI。

版权声明：
作者：shadowrocket
链接：https://www.shadowrocket8.top/180.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

重磅OpenAI前CTOMiraMurati筹资一亿美元创办新公司

< <上一篇

DisTrO让你家里的电脑也能训练超级大模型

下一篇>>

搜索内容

o1模型能否通向AGI

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

o1模型能否通向AGI

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点