Llama3模型使用反思调优超越Claude35和GPT4

shadowrocket • 2026年1月28日 am8:09 • Shadowrocket官网

Philipp Schmid 分享了一项令人惊叹的突破！

使用反思调优技术的 70B 开源 Llama 3 模型在性能上超越了 Anthropic 的 Claude 3.5 Sonnet 和 OpenAI 的 GPT-4。

反思调优是一种新的训练方法，让大语言模型学习推理和自我纠错:

模型首先在 <thinking> 标签内输出推理过程

如发现错误，使用 <reflection> 标签进行自我纠正

最后在 <output> 标签内给出最终答案

这个 Llama 3 模型在多项基准测试中表现出色：

MMLU: 89.9%

MATH: 79.7%

IFEval: 90.1%

该模型基于 Llama 3.1 70B Instruct 版本训练而来，是目前性能最佳的开源大语言模型。模型已在 Hugging Face 平台上发布，研究团队还在开发一个 405B 参数的更大版本。

你可以在 HuggingChat 上试试。Llama 3.1 70B 指令可用，并可以更改系统提示。

版权声明：
作者：shadowrocket
链接：https://www.shadowrocket8.top/193.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

YannLeCun人类智能并非通用智能

牛津大学模型训练就像养孩子别教太多难度适中是关键

下一篇>>

搜索内容