AI快讯OpenAI发布模型o1OpenAI发布模型o1OpenAI发布模型o1Chat

🧠 OpenAI发布新模型o1,提升推理能力
🧠 OpenAI 发布新 AI 模型系列o1,提升复杂任务处理能力
🤖 OpenAI发布新模型o1系列
🚀 ChatGPT全功能上线通知
🤖 OpenAI推出o1模型,开启复杂推理时代
🚀 OpenAI发布o1系列模型,提升推理能力
🚀 Cognition评测OpenAI o1模型: 代码能力显著提升
🚀 AI专家Noam Brown加入OpenAI探索推理未来
🚀 AI语言模型4年巨变,OpenAI高管展望未来
🧲 大模型物理知识出现有趣副作用
🧠 Meta研究揭示LLM自我改进局限
🔍 OpenAI发布新推理模型,提升ChatGPT推理能力
🤖 AGI实现过程中的不均衡现象
🔍 OpenAI 增强研究透明度与开放性
🚀 OpenAI成功推出o1项目
①👉OpenAI发布新模型o1,提升推理能力
OpenAI 发布了新系列AI模型「OpenAI o1」的预览版本。这些模型在做出回应前会花更多时间思考,能够解决比以前更复杂的任务,尤其在科学、编码和数学领域表现突出。链接: openai.com/index/introducing-openai-o1-preview [1]
o1模型能够进行复杂的逻辑推理,在竞争性编程问题中排名第89百分位,并在美国数学奥林匹克资格赛中跻身前500名。此外,在物理、生物、化学问题的基准测试中超过了人类博士水平的准确性。链接: openai.com/index/learning-to-reason-with-llms [2]
今天,ChatGPT所有Plus和Team用户,包括API tier 5的开发者,均已可以使用。此模型展示了代码视频游戏的能力:
https://video.twimg.com/ext_tw_video/1834274285684391936/pu/vid/avc1/1920x1012/qDuDYJd-s0PCJEGZ.mp4?tag=14
此外,OpenAI还推出了「OpenAI o1-mini」,这是一款高效的推理模型,在STEM尤其是数学和编码领域表现优异。链接: openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning [3]
②👉OpenAI 发布新 AI 模型系列o1,提升复杂任务处理能力
OpenAI 发布了新系列 AI 模型 OpenAI o1 ,旨在提升模型的思考能力,从而在应答前进行更深入的推理。
这些新模型能够处理科学、编程和数学领域中的复杂任务,并解决比以往更难的问题。现已在 ChatGPT 和 API 平台上线,提供给所有 Plus 和 Team 用户。
体验链接 [4]
OpenAI o1 在解决复杂逻辑难题方面表现突出,该模型还在竞争性编程题中排名第89百分位,并在美国数学奥林匹克的预选考试中跻身前500名。同时,o1 在物理、生物和化学等学术领域的准确性超越了人类博士水平。
详细信息 [5]
推出的 OpenAI o1-mini 版本则作为一个经济高效的推理模型,专注于 STEM 领域,尤其是数学和编程。
更多信息 [6]
包括视频展示,OpenAI o1 能从提示中编写视频游戏、解决常见大语言模型难题以及翻译错误文句,显示出其强大的推理和编码能力。
OpenAI o1 视频展示:
https://video.twimg.com/ext_tw_video/1834273401395113984/pu/vid/avc1/1920x1080/mxK6I-0M-aZ7FoC7.mp4?tag=14
视频链接 [7]
③👉OpenAI发布新模型o1系列
OpenAI 宣布推出 o1 系列 AI 模型预览版,这些模型在回答前会花更多时间思考。
这些模型能够处理复杂任务,在科学、编程和数学等领域解决更难的问题。
o1 模型在编程竞赛中排名第 89 个百分位,并在美国数学奥林匹克资格赛中名列前 500 名。
在物理、生物和化学问题基准测试中,o1 模型超越了人类博士水平。
该模型现已在 ChatGPT 的 Plus 和 Team 用户中推出,并在 API 的第五层面向开发者开放。
此外,还发布了 o1-mini,这是一个成本效益高的推理模型,特别擅长 STEM,尤其是数学和编程。
详细信息请查看 [8]
查看 o1 模型的视频演示:
https://video.twimg.com/ext_tw_video/1834273401395113984/pu/vid/avc1/1920x1080/mxK6I-0M-aZ7FoC7.mp4?tag=14
观看 o1 其他任务的视频演示:
https://video.twimg.com/ext_tw_video/1834274285684391936/pu/vid/avc1/1920x1012/qDuDYJd-s0PCJEGZ.mp4?tag=14
④👉ChatGPT全功能上线通知
ChatGPT现在已经全面上线,所有Plus和团队用户都可以使用该功能。
用户需要先退出并重新登录,以确保能够访问这款被誉为「星球上最强大的AI」的全部功能。

⑤👉OpenAI推出o1模型,开启复杂推理时代
OpenAI推出了「o1」系列模型,这是公司迄今为止最强大和对齐的模型之一。
链接中详细介绍了这些模型的能力: 了解大语言模型的推理 [9]

o1虽然仍然有缺陷和局限性,初次使用可能让人印象深刻,但长时间使用后可能会感到未达预期。
这标志着一个全新范式的开始:可进行通用复杂推理的AI。o1-preview 和 o1-mini现已在ChatGPT的Plus和团队用户中可用,并通过API向第五级用户开放。
特别值得注意的是,经过微调的o1模型在IOI比赛条件下达到第49百分位,并在一万个提交中获得金牌。
Sam Altman对团队表示极大自豪,认可整个公司为此付出的巨大努力。希望用户能够从中受益。
⑥👉OpenAI发布o1系列模型,提升推理能力
OpenAI正式推出o1系列模型,旨在提升AI的推理能力。
新系列包含o1-preview和o1-mini,部分功能已开放使用,展示其新的扩展范式。这标志着推理能力的重大进步,并且仅仅是开始。
o1模型通过强化学习进行训练,能够在回答前进行「思考」,思考越久,推理任务表现越好。这为推理维度扩展提供了新的可能性,超越了预训练的限制,可以扩大计算推理能力。
然而,o1模型并非在所有任务上都优于GPT-4o。某些任务不需要复杂推理,有时快速响应更为重要。发布o1-preview版的一个原因是为了观察哪些用例最受欢迎,并在哪些地方需要改进。
o1-preview在许多声称「LLM无法推理」的例子上表现优异,但其在复杂推理上仍存改进空间。
虽然目前推理时间为几秒,未来版本可能需要数小时到数周,尽管推理成本增加,但可能为医学、材料科学等领域带来巨大的突破。
研究更多细节可查看: OpenAI研究 [10]




⑦👉Cognition评测OpenAI o1模型:代码能力显著提升
Cognition近期与OpenAI合作,使用其Devin系统评估了OpenAI新推出的o1系列模型在推理能力方面的表现。评估结果显示,o1模型在处理代码的代理系统中表现出显著提升。
评估采用了简化版的Devin(称为"Devin-Base"),以专门衡量基础模型变化对Devin能力的影响。与GPT-4相比,o1模型展现出强大的反思和分析能力:
更倾向于回溯并考虑不同选项,然后得出正确解决方案
减少了产生幻觉或自信但错误的可能性
使用o1-preview版本时,Devin更有可能正确诊断根本原因,而非仅处理表面问题
然而,o1模型在提示方面也有一些独特之处:
通常直接要求给出最终答案效果更好,因为模型会在回答前自行思考
需要更密集的上下文,对冗余和不必要的内容更敏感
在执行高度规范性指令时的可变性增加
Cognition还介绍了他们评估编码代理的方法,包括:
使用名为"cognition-golden"的内部基准
创建具有经济价值的现实任务评估
采用可完全复现的环境和自主反馈机制
引入模拟用户进行交互
使用代理评估代理的方法
通过地面实况集和持续人工审查来评估评估过程本身

Cognition表示将继续与OpenAI合作,推动行业发展。详细的评估报告可在Cognition的博客上查看。
⑧👉AI专家Noam Brown加入OpenAI探索推理未来
Noam Brown宣布加盟OpenAI,致力于研究在扑克和外交等游戏中应用的AI自我推理方法,探究如何使其成为通用技术。
2016年,AlphaGo在对抗李世石的比赛中,每步预留1分钟思考时间,这相当于将预训练规模提升了10万倍。图中展示了AlphaGoZero的部分结果:

Brown也观察到了扑克游戏中的相似现象,这促成了Libratus Poker AI的成功。他引用了一项研究,该研究探讨了MCTS中训练计算和推理计算之间的平衡关系,这与他的观察一致:

这种方法如果能找到通用版本,应用潜力巨大。在推理成本增加的情况下,其性能提升可能用于癌症新药研发或数学假设证明。
通过深入研究,未来或许能够以更高成本进行推理,帮助预见更强大的模型能力,进而为安全研究提供价值。链接至OpenAI职业页面: openai.com/careers [11]
⑨👉AI语言模型4年巨变,OpenAI高管展望未来
OpenAI高管Will Depue在社交媒体上回顾了人工智能语言模型的快速发展。他指出,仅仅4年前,世界上最先进的语言模型还是GPT-2 XL。
Depue提出了一个发人深省的问题:「你能想象4年后我们可能会在哪里吗?」这一问题凸显了AI技术发展的惊人速度,也暗示了未来可能出现的巨大突破。
OpenAI CEO Sam Altman对此作出了幽默回应:「随机鹦鹉可以飞得如此之高...」这一比喻似乎暗示了AI模型尽管基于统计学习,但其潜力和表现已远超预期。
这段对话反映了AI领域顶尖专家对行业快速发展的认知,以及对未来持续创新的期待。随着AI技术不断突破,业界普遍认为未来几年可能会出现更多令人惊叹的进展。
⑩👉大模型物理知识出现有趣副作用
NYU助理教授Saining Xie分享了一个关于大语言模型在处理物理问题时出现的有趣现象。
Xie发布了一张截图,显示模型在回答一个物理问题时,似乎将重力概念误用到了非相关情境中。

Xie在回复中进一步解释,这种现象可能是大规模链式思考(Chain of Thought,CoT)训练在海量科学和物理知识上扩展后的副作用。
他认为,虽然像o1这样的模型表现出色,但更有趣的是观察到这种训练方法带来的意外结果。这一发现揭示了大模型在处理专业知识时可能出现的复杂行为,为AI研究提供了新的洞察。
⑪👉Meta研究揭示LLM自我改进局限
Jim Fan 指出,大语言模型(LLM)的自我改进在三轮后似乎达到了饱和极限。
他引用了Meta的一项研究「Self-Rewarding Language Models」,该研究简单地迭代提升一个LLM,使其能提出提示、生成响应并自我奖励。实验表明自我奖励建模能力随着主模型的改进而提高,但在三次迭代后达到饱和。
改进饱和是因为奖励建模(评论者)的改进速度比生成(执行者)慢。在一开始,分类比生成容易,因此有可利用的差距,但执行者在三轮内追上评论者。
Jim Fan提到另一篇论文「Reinforced Self-Training (ReST) for Language Modeling」也显示,三轮后改进收益递减。
他认为,除非有外部驱动信号,否则评论者和执行者之间的差距不可持续。然而,这些信号通常高度专注于特定领域,并不足以支持通用的自我改进。

相关链接
arxiv.org/abs/2401.10020 [12]
arxiv.org/abs/2308.08998 [13]
⑫👉OpenAI发布新推理模型,提升ChatGPT推理能力
OpenAI最新公布了一些新的推理模型,这些模型正在推动未来更先进模型的开发,并且已逐渐替代研究人员和工程师对ChatGPT的大量使用。
新模型使ChatGPT可以在做出回答之前进行更深入的思考。这一改进类似于从仅使用系统1思维(快速、自动、直觉性、错误率高)发展到系统2思维(缓慢、深思熟虑、可靠)。若涉及复杂数学或编程问题,用户将会注意到显著变化。
这一更新虽然只是一个小的进步,却预示着未来发展的重要信号。
⑬👉AGI实现过程中的不均衡现象
AGI(通用人工智能)在实现过程中呈现出明显的不均衡性。
预计AGI将表现出「锯齿状」的特征,意味着在某些狭窄领域能够展现超越人类的能力,而在其他领域则存在明显的差距或滞后。
关于「通用AGI」全面实现的时间仍然不确定,但一个充斥着「局部超能」的AGI世界似乎正在形成。
⑭👉OpenAI 增强研究透明度与开放性
OpenAI 最近在研究方法的发布上提高了透明度,公开的细节比以往任何时候都多。此举被视为重大突破。
OpenAI 表示,尽管尚有许多需要改进之处,但正在努力提高开放性,加快发布速度,并更广泛地听取意见。
⑮👉OpenAI成功推出o1项目
OpenAI团队成功发布o1项目 ,协调多个动态组件,展现团队幕后努力的成果。
这一里程碑标志着利用长链推理和测试时计算的新技术应用,展示了模型规模化的新方式。
项目推出为明年的技术进步奠定了基础,令人期待。
👇
👇
👇
受篇幅限制,下述 35条 快讯可点击 阅读原文 查看详情。
🔄 OpenAI修改tokenizer方案
🏅 OpenAI模型在国际竞赛中获金牌表现
🧠 再论语言模型与智能的界限
🎥 Hugging Face推出FineVideo开源视频数据集
🔍 安全测试揭示AI模型新能力
🧪 o1-preview在ARC Prize测试结果公布
🎶 Suno 推出音频转换新功能
💸 o1模型不透明收费惹争议
🤖 AIW研究: 顶级大语言模型难解简单推理问题
🎙️ 谷歌推出AI工具,自动生成播客内容
🎧 NotebookLM 推出音频摘要功能
😆 GPT-4o发布引发技术调侃
🧠 新预览模型o1-preview展示卓越推理能力
🚀 OpenAI新模型o1大幅领先
🤖 OpenAI API 助力推文情感分析
🔍 长提示语及405B模型的训练进展
📈 Cerebras 更新 Llama3.1 性能数据
🤖 GPT-o1模型推动AI小型化趋势
🔄 OpenAI逐步推送API更新
🤖 DeepMind推出新AI系统提升机器人技能
🍓 OpenAI发布Q-Star项目及GPT-1o测试版
🔍 AI助力眼科医院筛查能力提升8倍
🍓 Joanne Jang介绍推理模型o1的特性
🤖 幽默看本地嵌入与技术挑战
🖥️ GPU时间扩展提升计算能力
💻 软件工程师在机器学习的优势
🧠 研究人员倾注精力减少内存使用
🔍 AI领域的计算复杂性分析降温
🔍 ChatGPT生成文件确认泄露
📊 GPQA测评: o1模型表现超越人类
🌐 Groq与Aramco合作建全球最大AI推理中心
🧠 模型推理与pass@1基准测试讨论
💻 Google实习生升级AI助手功能
⚖️ OpenAI o1模型在法律领域获优选
⏳ AI模型效率与用户耐心: o1模型面临的挑战
受篇幅限制,上述 35条 快讯可点击 阅读原文 查看详情。
相关链接
[1] openai.com/index/introducing-openai-o1-preview: https://openai.com/index/introducing-openai-o1-preview/
[2] openai.com/index/learning-to-reason-with-llms: https://openai.com/index/learning-to-reason-with-llms/
[3] openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning: https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/
[4] 体验链接: https://openai.com/index/introducing-openai-o1-preview/
[5] 详细信息: https://openai.com/index/learning-to-reason-with-llms/
[6] 更多信息: https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/
[7] 视频链接: https://video.twimg.com/ext_tw_video/1834278225146773909/video/1
[8] 详细信息请查看: https://openai.com/index/introducing-openai-o1-preview/
[9] 了解大语言模型的推理: https://openai.com/index/learning-to-reason-with-llms/
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/185.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论