o1模型能否通向AGI
上周发布的OpenAI 的o1 新模型彻底颠覆了我们对AI模型能力的认知。

ARC-AGI-Pub Leaderboard
OpenAI的新模型 o1-preview 直接把GPT-4o给干翻了!不仅如此,它还在ARC Prize测试中与Claude 3.5 Sonnet打得有来有回。
这不是要让其他AI模型集体失业吗?
那问题来了, o1 这个"怪物"能带我们通向AGI(通用人工智能)吗?
o1模型:OpenAI的新宠儿
OpenAI刚刚发布了他们的最新模型家族 o1 ,包括 o1-preview 和 o1-mini 两个版本。这两个小家伙可不简单,它们在ARC-AGI公开评估数据集上的表现直接超越了GPT-4o!
来看看具体数据:
模型名称
公开评估得分
半私有评估得分
平均每任务用时(分钟)
o1-preview
21.2%
18%
4.2
Claude 3.5
21%
14%
0.3
o1-mini
12.8%
9.5%
3.0
GPT-4o
9%
5%
0.3
Gemini 1.5
8%
4.5%
1.1
o1-preview 不仅打败了GPT-4o,还与Claude 3.5 Sonnet不相上下。虽然它用时比Claude 3.5多了10倍,但这已经是相当惊人的成绩了!
链式思考:o1的制胜法宝
那么,o1是如何做到这一点的呢?
答案就在于它的核心技术: 链式思考(Chain-of-Thought,CoT) 。

OpenAI o1 Performance Chart
上图展示了o1在不同任务上的表现。
这就是链式思考的威力!
简单来说,链式思考就是让AI像人类一样, 一步一步地思考问题 。OpenAI在训练和推理过程中都应用了这种方法,使得o1在需要规划的任务上表现更好。
不仅如此,OpenAI还使用了新的强化学习算法,让o1能够在推理时不断优化自己的思考策略。这就像是给AI装上了一个"自我完善"的引擎,太酷了!
测试时计算量:性能提升的秘密武器?
但是,o1的强大表现背后还有一个秘密: 测试时计算量 。
简单来说,就是给AI更多的时间和计算资源来思考问题。这就像是让学生做题时多给一些时间,naturally,成绩会更好。

Top 3 Accuracy vs k
上图展示了随着计算量的增加,模型的准确率如何提升。
看到这漂亮的上升曲线了吗?
这就是为什么o1能够在某些任务上表现得如此出色。
但是,这也带来了一个问题:**如何客观地比较不同AI系统的智能水平?**毕竟,给的时间越多,表现自然越好。这就像是比赛跑步,但允许有些人骑自行车一样,不太公平对吧?
挑战与局限:o1模型的"软肋"
虽然o1在很多任务上表现出色,但它在ARC-AGI测试中的表现却不如预期。这是为什么呢?
原因可能在于,o1主要是在 已知的思考模式 上做得更好了,但面对全新的、需要创造性思维的问题时,它仍然力不从心。
这就像是一个学霸,他可以很快地解决已经学过的题型,但遇到完全陌生的问题时,可能就会卡壳。
o1模型 vs AGI
那么,o1模型是否意味着我们离AGI更近了一步呢?
答案是: 既是,又不是。
一方面,o1展示了链式思考和测试时优化的强大潜力,这无疑是向AGI迈进的一大步。
但另一方面,o1的局限性也提醒我们, 真正的AGI还需要更多创新 。我们需要的不仅是能够更好地"记忆推理过程"的AI,还需要能够真正"创造性思考"的AI。
正如ARC Prize的研究者所说:
我们仍然需要新的想法来实现AGI。
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/180.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论