Llama3模型使用反思调优超越Claude35和GPT4
Philipp Schmid 分享了一项令人惊叹的突破!

使用反思调优技术的 70B 开源 Llama 3 模型在性能上超越了 Anthropic 的 Claude 3.5 Sonnet 和 OpenAI 的 GPT-4。
反思调优是一种新的训练方法,让大语言模型学习推理和自我纠错:
模型首先在 <thinking> 标签内输出推理过程
如发现错误,使用 <reflection> 标签进行自我纠正
最后在 <output> 标签内给出最终答案

这个 Llama 3 模型在多项基准测试中表现出色:
MMLU: 89.9%
MATH: 79.7%
IFEval: 90.1%
该模型基于 Llama 3.1 70B Instruct 版本训练而来,是目前性能最佳的开源大语言模型。模型已在 Hugging Face 平台上发布,研究团队还在开发一个 405B 参数的更大版本。

你可以在 HuggingChat 上试试。Llama 3.1 70B 指令可用,并可以更改系统提示。
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/193.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。
THE END
二维码


共有 0 条评论