AI快讯OpenAI发布模型o1OpenAI发布模型o1OpenAI发布模型o1Chat

AI快讯OpenAI发布模型o1OpenAI发布模型o1OpenAI发布模型o1Chat-2

🧠 OpenAI发布新模型o1,提升推理能力

🧠 OpenAI 发布新 AI 模型系列o1,提升复杂任务处理能力

🤖 OpenAI发布新模型o1系列

🚀 ChatGPT全功能上线通知

🤖 OpenAI推出o1模型,开启复杂推理时代

🚀 OpenAI发布o1系列模型,提升推理能力

🚀 Cognition评测OpenAI o1模型: 代码能力显著提升

🚀 AI专家Noam Brown加入OpenAI探索推理未来

🚀 AI语言模型4年巨变,OpenAI高管展望未来

🧲 大模型物理知识出现有趣副作用

🧠 Meta研究揭示LLM自我改进局限

🔍 OpenAI发布新推理模型,提升ChatGPT推理能力

🤖 AGI实现过程中的不均衡现象

🔍 OpenAI 增强研究透明度与开放性

🚀 OpenAI成功推出o1项目

①👉OpenAI发布新模型o1,提升推理能力

OpenAI 发布了新系列AI模型「OpenAI o1」的预览版本。这些模型在做出回应前会花更多时间思考,能够解决比以前更复杂的任务,尤其在科学、编码和数学领域表现突出。链接: openai.com/index/introducing-openai-o1-preview [1]

o1模型能够进行复杂的逻辑推理,在竞争性编程问题中排名第89百分位,并在美国数学奥林匹克资格赛中跻身前500名。此外,在物理、生物、化学问题的基准测试中超过了人类博士水平的准确性。链接: openai.com/index/learning-to-reason-with-llms [2]

今天,ChatGPT所有Plus和Team用户,包括API tier 5的开发者,均已可以使用。此模型展示了代码视频游戏的能力:

https://video.twimg.com/ext_tw_video/1834274285684391936/pu/vid/avc1/1920x1012/qDuDYJd-s0PCJEGZ.mp4?tag=14

此外,OpenAI还推出了「OpenAI o1-mini」,这是一款高效的推理模型,在STEM尤其是数学和编码领域表现优异。链接: openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning [3]

②👉OpenAI 发布新 AI 模型系列o1,提升复杂任务处理能力

OpenAI 发布了新系列 AI 模型 OpenAI o1 ,旨在提升模型的思考能力,从而在应答前进行更深入的推理。

这些新模型能够处理科学、编程和数学领域中的复杂任务,并解决比以往更难的问题。现已在 ChatGPT 和 API 平台上线,提供给所有 Plus 和 Team 用户。

体验链接 [4]

OpenAI o1 在解决复杂逻辑难题方面表现突出,该模型还在竞争性编程题中排名第89百分位,并在美国数学奥林匹克的预选考试中跻身前500名。同时,o1 在物理、生物和化学等学术领域的准确性超越了人类博士水平。

详细信息 [5]

推出的 OpenAI o1-mini 版本则作为一个经济高效的推理模型,专注于 STEM 领域,尤其是数学和编程。

更多信息 [6]

包括视频展示,OpenAI o1 能从提示中编写视频游戏、解决常见大语言模型难题以及翻译错误文句,显示出其强大的推理和编码能力。

OpenAI o1 视频展示:

https://video.twimg.com/ext_tw_video/1834273401395113984/pu/vid/avc1/1920x1080/mxK6I-0M-aZ7FoC7.mp4?tag=14

视频链接 [7]

③👉OpenAI发布新模型o1系列

OpenAI 宣布推出 o1 系列 AI 模型预览版,这些模型在回答前会花更多时间思考。

这些模型能够处理复杂任务,在科学、编程和数学等领域解决更难的问题。

o1 模型在编程竞赛中排名第 89 个百分位,并在美国数学奥林匹克资格赛中名列前 500 名。

在物理、生物和化学问题基准测试中,o1 模型超越了人类博士水平。

该模型现已在 ChatGPT 的 Plus 和 Team 用户中推出,并在 API 的第五层面向开发者开放。

此外,还发布了 o1-mini,这是一个成本效益高的推理模型,特别擅长 STEM,尤其是数学和编程。

详细信息请查看 [8]

查看 o1 模型的视频演示:

https://video.twimg.com/ext_tw_video/1834273401395113984/pu/vid/avc1/1920x1080/mxK6I-0M-aZ7FoC7.mp4?tag=14

观看 o1 其他任务的视频演示:

https://video.twimg.com/ext_tw_video/1834274285684391936/pu/vid/avc1/1920x1012/qDuDYJd-s0PCJEGZ.mp4?tag=14

④👉ChatGPT全功能上线通知

ChatGPT现在已经全面上线,所有Plus和团队用户都可以使用该功能。

用户需要先退出并重新登录,以确保能够访问这款被誉为「星球上最强大的AI」的全部功能。

AI快讯OpenAI发布模型o1OpenAI发布模型o1OpenAI发布模型o1Chat-3

⑤👉OpenAI推出o1模型,开启复杂推理时代

OpenAI推出了「o1」系列模型,这是公司迄今为止最强大和对齐的模型之一。

链接中详细介绍了这些模型的能力: 了解大语言模型的推理 [9]

AI快讯OpenAI发布模型o1OpenAI发布模型o1OpenAI发布模型o1Chat-4

o1虽然仍然有缺陷和局限性,初次使用可能让人印象深刻,但长时间使用后可能会感到未达预期。

这标志着一个全新范式的开始:可进行通用复杂推理的AI。o1-preview 和 o1-mini现已在ChatGPT的Plus和团队用户中可用,并通过API向第五级用户开放。

特别值得注意的是,经过微调的o1模型在IOI比赛条件下达到第49百分位,并在一万个提交中获得金牌。

Sam Altman对团队表示极大自豪,认可整个公司为此付出的巨大努力。希望用户能够从中受益。

⑥👉OpenAI发布o1系列模型,提升推理能力

OpenAI正式推出o1系列模型,旨在提升AI的推理能力。

新系列包含o1-preview和o1-mini,部分功能已开放使用,展示其新的扩展范式。这标志着推理能力的重大进步,并且仅仅是开始。

o1模型通过强化学习进行训练,能够在回答前进行「思考」,思考越久,推理任务表现越好。这为推理维度扩展提供了新的可能性,超越了预训练的限制,可以扩大计算推理能力。

然而,o1模型并非在所有任务上都优于GPT-4o。某些任务不需要复杂推理,有时快速响应更为重要。发布o1-preview版的一个原因是为了观察哪些用例最受欢迎,并在哪些地方需要改进。

o1-preview在许多声称「LLM无法推理」的例子上表现优异,但其在复杂推理上仍存改进空间。

虽然目前推理时间为几秒,未来版本可能需要数小时到数周,尽管推理成本增加,但可能为医学、材料科学等领域带来巨大的突破。

研究更多细节可查看: OpenAI研究 [10]

AI快讯OpenAI发布模型o1OpenAI发布模型o1OpenAI发布模型o1Chat-5

AI快讯OpenAI发布模型o1OpenAI发布模型o1OpenAI发布模型o1Chat-6

AI快讯OpenAI发布模型o1OpenAI发布模型o1OpenAI发布模型o1Chat-7

AI快讯OpenAI发布模型o1OpenAI发布模型o1OpenAI发布模型o1Chat-8

⑦👉Cognition评测OpenAI o1模型:代码能力显著提升

Cognition近期与OpenAI合作,使用其Devin系统评估了OpenAI新推出的o1系列模型在推理能力方面的表现。评估结果显示,o1模型在处理代码的代理系统中表现出显著提升。

评估采用了简化版的Devin(称为"Devin-Base"),以专门衡量基础模型变化对Devin能力的影响。与GPT-4相比,o1模型展现出强大的反思和分析能力:

更倾向于回溯并考虑不同选项,然后得出正确解决方案

减少了产生幻觉或自信但错误的可能性

使用o1-preview版本时,Devin更有可能正确诊断根本原因,而非仅处理表面问题

然而,o1模型在提示方面也有一些独特之处:

通常直接要求给出最终答案效果更好,因为模型会在回答前自行思考

需要更密集的上下文,对冗余和不必要的内容更敏感

在执行高度规范性指令时的可变性增加

Cognition还介绍了他们评估编码代理的方法,包括:

使用名为"cognition-golden"的内部基准

创建具有经济价值的现实任务评估

采用可完全复现的环境和自主反馈机制

引入模拟用户进行交互

使用代理评估代理的方法

通过地面实况集和持续人工审查来评估评估过程本身

AI快讯OpenAI发布模型o1OpenAI发布模型o1OpenAI发布模型o1Chat-9

Cognition表示将继续与OpenAI合作,推动行业发展。详细的评估报告可在Cognition的博客上查看。

⑧👉AI专家Noam Brown加入OpenAI探索推理未来

Noam Brown宣布加盟OpenAI,致力于研究在扑克和外交等游戏中应用的AI自我推理方法,探究如何使其成为通用技术。

2016年,AlphaGo在对抗李世石的比赛中,每步预留1分钟思考时间,这相当于将预训练规模提升了10万倍。图中展示了AlphaGoZero的部分结果:

AI快讯OpenAI发布模型o1OpenAI发布模型o1OpenAI发布模型o1Chat-10

Brown也观察到了扑克游戏中的相似现象,这促成了Libratus Poker AI的成功。他引用了一项研究,该研究探讨了MCTS中训练计算和推理计算之间的平衡关系,这与他的观察一致:

AI快讯OpenAI发布模型o1OpenAI发布模型o1OpenAI发布模型o1Chat-11

这种方法如果能找到通用版本,应用潜力巨大。在推理成本增加的情况下,其性能提升可能用于癌症新药研发或数学假设证明。

通过深入研究,未来或许能够以更高成本进行推理,帮助预见更强大的模型能力,进而为安全研究提供价值。链接至OpenAI职业页面: openai.com/careers [11]

⑨👉AI语言模型4年巨变,OpenAI高管展望未来

OpenAI高管Will Depue在社交媒体上回顾了人工智能语言模型的快速发展。他指出,仅仅4年前,世界上最先进的语言模型还是GPT-2 XL。

Depue提出了一个发人深省的问题:「你能想象4年后我们可能会在哪里吗?」这一问题凸显了AI技术发展的惊人速度,也暗示了未来可能出现的巨大突破。

OpenAI CEO Sam Altman对此作出了幽默回应:「随机鹦鹉可以飞得如此之高...」这一比喻似乎暗示了AI模型尽管基于统计学习,但其潜力和表现已远超预期。

这段对话反映了AI领域顶尖专家对行业快速发展的认知,以及对未来持续创新的期待。随着AI技术不断突破,业界普遍认为未来几年可能会出现更多令人惊叹的进展。

⑩👉大模型物理知识出现有趣副作用

NYU助理教授Saining Xie分享了一个关于大语言模型在处理物理问题时出现的有趣现象。

Xie发布了一张截图,显示模型在回答一个物理问题时,似乎将重力概念误用到了非相关情境中。

AI快讯OpenAI发布模型o1OpenAI发布模型o1OpenAI发布模型o1Chat-12

Xie在回复中进一步解释,这种现象可能是大规模链式思考(Chain of Thought,CoT)训练在海量科学和物理知识上扩展后的副作用。

他认为,虽然像o1这样的模型表现出色,但更有趣的是观察到这种训练方法带来的意外结果。这一发现揭示了大模型在处理专业知识时可能出现的复杂行为,为AI研究提供了新的洞察。

⑪👉Meta研究揭示LLM自我改进局限

Jim Fan 指出,大语言模型(LLM)的自我改进在三轮后似乎达到了饱和极限。

他引用了Meta的一项研究「Self-Rewarding Language Models」,该研究简单地迭代提升一个LLM,使其能提出提示、生成响应并自我奖励。实验表明自我奖励建模能力随着主模型的改进而提高,但在三次迭代后达到饱和。

改进饱和是因为奖励建模(评论者)的改进速度比生成(执行者)慢。在一开始,分类比生成容易,因此有可利用的差距,但执行者在三轮内追上评论者。

Jim Fan提到另一篇论文「Reinforced Self-Training (ReST) for Language Modeling」也显示,三轮后改进收益递减。

他认为,除非有外部驱动信号,否则评论者和执行者之间的差距不可持续。然而,这些信号通常高度专注于特定领域,并不足以支持通用的自我改进。

AI快讯OpenAI发布模型o1OpenAI发布模型o1OpenAI发布模型o1Chat-13

相关链接

arxiv.org/abs/2401.10020 [12]

arxiv.org/abs/2308.08998 [13]

⑫👉OpenAI发布新推理模型,提升ChatGPT推理能力

OpenAI最新公布了一些新的推理模型,这些模型正在推动未来更先进模型的开发,并且已逐渐替代研究人员和工程师对ChatGPT的大量使用。

新模型使ChatGPT可以在做出回答之前进行更深入的思考。这一改进类似于从仅使用系统1思维(快速、自动、直觉性、错误率高)发展到系统2思维(缓慢、深思熟虑、可靠)。若涉及复杂数学或编程问题,用户将会注意到显著变化。

这一更新虽然只是一个小的进步,却预示着未来发展的重要信号。

⑬👉AGI实现过程中的不均衡现象

AGI(通用人工智能)在实现过程中呈现出明显的不均衡性。

预计AGI将表现出「锯齿状」的特征,意味着在某些狭窄领域能够展现超越人类的能力,而在其他领域则存在明显的差距或滞后。

关于「通用AGI」全面实现的时间仍然不确定,但一个充斥着「局部超能」的AGI世界似乎正在形成。

⑭👉OpenAI 增强研究透明度与开放性

OpenAI 最近在研究方法的发布上提高了透明度,公开的细节比以往任何时候都多。此举被视为重大突破。

OpenAI 表示,尽管尚有许多需要改进之处,但正在努力提高开放性,加快发布速度,并更广泛地听取意见。

⑮👉OpenAI成功推出o1项目

OpenAI团队成功发布o1项目 ,协调多个动态组件,展现团队幕后努力的成果。

这一里程碑标志着利用长链推理和测试时计算的新技术应用,展示了模型规模化的新方式。

项目推出为明年的技术进步奠定了基础,令人期待。

👇

👇

👇

受篇幅限制,下述 35条 快讯可点击 阅读原文 查看详情。

🔄 OpenAI修改tokenizer方案

🏅 OpenAI模型在国际竞赛中获金牌表现

🧠 再论语言模型与智能的界限

🎥 Hugging Face推出FineVideo开源视频数据集

🔍 安全测试揭示AI模型新能力

🧪 o1-preview在ARC Prize测试结果公布

🎶 Suno 推出音频转换新功能

💸 o1模型不透明收费惹争议

🤖 AIW研究: 顶级大语言模型难解简单推理问题

🎙️ 谷歌推出AI工具,自动生成播客内容

🎧 NotebookLM 推出音频摘要功能

😆 GPT-4o发布引发技术调侃

🧠 新预览模型o1-preview展示卓越推理能力

🚀 OpenAI新模型o1大幅领先

🤖 OpenAI API 助力推文情感分析

🔍 长提示语及405B模型的训练进展

📈 Cerebras 更新 Llama3.1 性能数据

🤖 GPT-o1模型推动AI小型化趋势

🔄 OpenAI逐步推送API更新

🤖 DeepMind推出新AI系统提升机器人技能

🍓 OpenAI发布Q-Star项目及GPT-1o测试版

🔍 AI助力眼科医院筛查能力提升8倍

🍓 Joanne Jang介绍推理模型o1的特性

🤖 幽默看本地嵌入与技术挑战

🖥️ GPU时间扩展提升计算能力

💻 软件工程师在机器学习的优势

🧠 研究人员倾注精力减少内存使用

🔍 AI领域的计算复杂性分析降温

🔍 ChatGPT生成文件确认泄露

📊 GPQA测评: o1模型表现超越人类

🌐 Groq与Aramco合作建全球最大AI推理中心

🧠 模型推理与pass@1基准测试讨论

💻 Google实习生升级AI助手功能

⚖️ OpenAI o1模型在法律领域获优选

⏳ AI模型效率与用户耐心: o1模型面临的挑战

受篇幅限制,上述 35条 快讯可点击 阅读原文 查看详情。

相关链接

[1] openai.com/index/introducing-openai-o1-preview: https://openai.com/index/introducing-openai-o1-preview/

[2] openai.com/index/learning-to-reason-with-llms: https://openai.com/index/learning-to-reason-with-llms/

[3] openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning: https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

[4] 体验链接: https://openai.com/index/introducing-openai-o1-preview/

[5] 详细信息: https://openai.com/index/learning-to-reason-with-llms/

[6] 更多信息: https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

[7] 视频链接: https://video.twimg.com/ext_tw_video/1834278225146773909/video/1

[8] 详细信息请查看: https://openai.com/index/introducing-openai-o1-preview/

[9] 了解大语言模型的推理: https://openai.com/index/learning-to-reason-with-llms/

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/185.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>