AI快讯OpenAI发布模型o1OpenAI发布模型o1OpenAI发布模型o1Chat

shadowrocket • 2026年1月18日 am8:03 • Shadowrocket官网

🧠 OpenAI发布新模型o1，提升推理能力

🧠 OpenAI 发布新 AI 模型系列o1，提升复杂任务处理能力

🤖 OpenAI发布新模型o1系列

🚀 ChatGPT全功能上线通知

🤖 OpenAI推出o1模型，开启复杂推理时代

🚀 OpenAI发布o1系列模型，提升推理能力

🚀 Cognition评测OpenAI o1模型: 代码能力显著提升

🚀 AI专家Noam Brown加入OpenAI探索推理未来

🚀 AI语言模型4年巨变，OpenAI高管展望未来

🧲 大模型物理知识出现有趣副作用

🧠 Meta研究揭示LLM自我改进局限

🔍 OpenAI发布新推理模型，提升ChatGPT推理能力

🤖 AGI实现过程中的不均衡现象

🔍 OpenAI 增强研究透明度与开放性

🚀 OpenAI成功推出o1项目

①👉OpenAI发布新模型o1，提升推理能力

OpenAI 发布了新系列AI模型「OpenAI o1」的预览版本。这些模型在做出回应前会花更多时间思考，能够解决比以前更复杂的任务，尤其在科学、编码和数学领域表现突出。链接： openai.com/index/introducing-openai-o1-preview [1]

o1模型能够进行复杂的逻辑推理，在竞争性编程问题中排名第89百分位，并在美国数学奥林匹克资格赛中跻身前500名。此外，在物理、生物、化学问题的基准测试中超过了人类博士水平的准确性。链接： openai.com/index/learning-to-reason-with-llms [2]

今天，ChatGPT所有Plus和Team用户，包括API tier 5的开发者，均已可以使用。此模型展示了代码视频游戏的能力：

https://video.twimg.com/ext_tw_video/1834274285684391936/pu/vid/avc1/1920x1012/qDuDYJd-s0PCJEGZ.mp4?tag=14

此外，OpenAI还推出了「OpenAI o1-mini」，这是一款高效的推理模型，在STEM尤其是数学和编码领域表现优异。链接： openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning [3]

②👉OpenAI 发布新 AI 模型系列o1，提升复杂任务处理能力

OpenAI 发布了新系列 AI 模型 OpenAI o1 ，旨在提升模型的思考能力，从而在应答前进行更深入的推理。

这些新模型能够处理科学、编程和数学领域中的复杂任务，并解决比以往更难的问题。现已在 ChatGPT 和 API 平台上线，提供给所有 Plus 和 Team 用户。

体验链接 [4]

OpenAI o1 在解决复杂逻辑难题方面表现突出，该模型还在竞争性编程题中排名第89百分位，并在美国数学奥林匹克的预选考试中跻身前500名。同时，o1 在物理、生物和化学等学术领域的准确性超越了人类博士水平。

详细信息 [5]

推出的 OpenAI o1-mini 版本则作为一个经济高效的推理模型，专注于 STEM 领域，尤其是数学和编程。

更多信息 [6]

包括视频展示，OpenAI o1 能从提示中编写视频游戏、解决常见大语言模型难题以及翻译错误文句，显示出其强大的推理和编码能力。

OpenAI o1 视频展示：

https://video.twimg.com/ext_tw_video/1834273401395113984/pu/vid/avc1/1920x1080/mxK6I-0M-aZ7FoC7.mp4?tag=14

视频链接 [7]

③👉OpenAI发布新模型o1系列

OpenAI 宣布推出 o1 系列 AI 模型预览版，这些模型在回答前会花更多时间思考。

这些模型能够处理复杂任务，在科学、编程和数学等领域解决更难的问题。

o1 模型在编程竞赛中排名第 89 个百分位，并在美国数学奥林匹克资格赛中名列前 500 名。

在物理、生物和化学问题基准测试中，o1 模型超越了人类博士水平。

该模型现已在 ChatGPT 的 Plus 和 Team 用户中推出，并在 API 的第五层面向开发者开放。

此外，还发布了 o1-mini，这是一个成本效益高的推理模型，特别擅长 STEM，尤其是数学和编程。

详细信息请查看 [8]

查看 o1 模型的视频演示：

https://video.twimg.com/ext_tw_video/1834273401395113984/pu/vid/avc1/1920x1080/mxK6I-0M-aZ7FoC7.mp4?tag=14

观看 o1 其他任务的视频演示：

https://video.twimg.com/ext_tw_video/1834274285684391936/pu/vid/avc1/1920x1012/qDuDYJd-s0PCJEGZ.mp4?tag=14

④👉ChatGPT全功能上线通知

ChatGPT现在已经全面上线，所有Plus和团队用户都可以使用该功能。

用户需要先退出并重新登录，以确保能够访问这款被誉为「星球上最强大的AI」的全部功能。

⑤👉OpenAI推出o1模型，开启复杂推理时代

OpenAI推出了「o1」系列模型，这是公司迄今为止最强大和对齐的模型之一。

链接中详细介绍了这些模型的能力：了解大语言模型的推理 [9]

o1虽然仍然有缺陷和局限性，初次使用可能让人印象深刻，但长时间使用后可能会感到未达预期。

这标志着一个全新范式的开始：可进行通用复杂推理的AI。o1-preview 和 o1-mini现已在ChatGPT的Plus和团队用户中可用，并通过API向第五级用户开放。

特别值得注意的是，经过微调的o1模型在IOI比赛条件下达到第49百分位，并在一万个提交中获得金牌。

Sam Altman对团队表示极大自豪，认可整个公司为此付出的巨大努力。希望用户能够从中受益。

⑥👉OpenAI发布o1系列模型，提升推理能力

OpenAI正式推出o1系列模型，旨在提升AI的推理能力。

新系列包含o1-preview和o1-mini，部分功能已开放使用，展示其新的扩展范式。这标志着推理能力的重大进步，并且仅仅是开始。

o1模型通过强化学习进行训练，能够在回答前进行「思考」，思考越久，推理任务表现越好。这为推理维度扩展提供了新的可能性，超越了预训练的限制，可以扩大计算推理能力。

然而，o1模型并非在所有任务上都优于GPT-4o。某些任务不需要复杂推理，有时快速响应更为重要。发布o1-preview版的一个原因是为了观察哪些用例最受欢迎，并在哪些地方需要改进。

o1-preview在许多声称「LLM无法推理」的例子上表现优异，但其在复杂推理上仍存改进空间。

虽然目前推理时间为几秒，未来版本可能需要数小时到数周，尽管推理成本增加，但可能为医学、材料科学等领域带来巨大的突破。

研究更多细节可查看： OpenAI研究 [10]

⑦👉Cognition评测OpenAI o1模型：代码能力显著提升

Cognition近期与OpenAI合作，使用其Devin系统评估了OpenAI新推出的o1系列模型在推理能力方面的表现。评估结果显示，o1模型在处理代码的代理系统中表现出显著提升。

评估采用了简化版的Devin（称为"Devin-Base"），以专门衡量基础模型变化对Devin能力的影响。与GPT-4相比，o1模型展现出强大的反思和分析能力：

更倾向于回溯并考虑不同选项，然后得出正确解决方案

减少了产生幻觉或自信但错误的可能性

使用o1-preview版本时，Devin更有可能正确诊断根本原因，而非仅处理表面问题

然而，o1模型在提示方面也有一些独特之处：

通常直接要求给出最终答案效果更好，因为模型会在回答前自行思考

需要更密集的上下文，对冗余和不必要的内容更敏感

在执行高度规范性指令时的可变性增加

Cognition还介绍了他们评估编码代理的方法，包括：

使用名为"cognition-golden"的内部基准

创建具有经济价值的现实任务评估

采用可完全复现的环境和自主反馈机制

引入模拟用户进行交互

使用代理评估代理的方法

通过地面实况集和持续人工审查来评估评估过程本身

Cognition表示将继续与OpenAI合作，推动行业发展。详细的评估报告可在Cognition的博客上查看。

⑧👉AI专家Noam Brown加入OpenAI探索推理未来

Noam Brown宣布加盟OpenAI，致力于研究在扑克和外交等游戏中应用的AI自我推理方法，探究如何使其成为通用技术。

2016年，AlphaGo在对抗李世石的比赛中，每步预留1分钟思考时间，这相当于将预训练规模提升了10万倍。图中展示了AlphaGoZero的部分结果：

Brown也观察到了扑克游戏中的相似现象，这促成了Libratus Poker AI的成功。他引用了一项研究，该研究探讨了MCTS中训练计算和推理计算之间的平衡关系，这与他的观察一致：

这种方法如果能找到通用版本，应用潜力巨大。在推理成本增加的情况下，其性能提升可能用于癌症新药研发或数学假设证明。

通过深入研究，未来或许能够以更高成本进行推理，帮助预见更强大的模型能力，进而为安全研究提供价值。链接至OpenAI职业页面： openai.com/careers [11]

⑨👉AI语言模型4年巨变，OpenAI高管展望未来

OpenAI高管Will Depue在社交媒体上回顾了人工智能语言模型的快速发展。他指出，仅仅4年前，世界上最先进的语言模型还是GPT-2 XL。

Depue提出了一个发人深省的问题：「你能想象4年后我们可能会在哪里吗？」这一问题凸显了AI技术发展的惊人速度，也暗示了未来可能出现的巨大突破。

OpenAI CEO Sam Altman对此作出了幽默回应：「随机鹦鹉可以飞得如此之高...」这一比喻似乎暗示了AI模型尽管基于统计学习，但其潜力和表现已远超预期。

这段对话反映了AI领域顶尖专家对行业快速发展的认知，以及对未来持续创新的期待。随着AI技术不断突破，业界普遍认为未来几年可能会出现更多令人惊叹的进展。

⑩👉大模型物理知识出现有趣副作用

NYU助理教授Saining Xie分享了一个关于大语言模型在处理物理问题时出现的有趣现象。

Xie发布了一张截图，显示模型在回答一个物理问题时，似乎将重力概念误用到了非相关情境中。

Xie在回复中进一步解释，这种现象可能是大规模链式思考（Chain of Thought，CoT）训练在海量科学和物理知识上扩展后的副作用。

他认为，虽然像o1这样的模型表现出色，但更有趣的是观察到这种训练方法带来的意外结果。这一发现揭示了大模型在处理专业知识时可能出现的复杂行为，为AI研究提供了新的洞察。

⑪👉Meta研究揭示LLM自我改进局限

Jim Fan 指出，大语言模型（LLM）的自我改进在三轮后似乎达到了饱和极限。

他引用了Meta的一项研究「Self-Rewarding Language Models」，该研究简单地迭代提升一个LLM，使其能提出提示、生成响应并自我奖励。实验表明自我奖励建模能力随着主模型的改进而提高，但在三次迭代后达到饱和。

改进饱和是因为奖励建模（评论者）的改进速度比生成（执行者）慢。在一开始，分类比生成容易，因此有可利用的差距，但执行者在三轮内追上评论者。

Jim Fan提到另一篇论文「Reinforced Self-Training (ReST) for Language Modeling」也显示，三轮后改进收益递减。

他认为，除非有外部驱动信号，否则评论者和执行者之间的差距不可持续。然而，这些信号通常高度专注于特定领域，并不足以支持通用的自我改进。

搜索内容

AI快讯OpenAI发布模型o1OpenAI发布模型o1OpenAI发布模型o1Chat

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

AI快讯OpenAI发布模型o1OpenAI发布模型o1OpenAI发布模型o1Chat

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点