突发ReflectionAPI被曝为套壳Claude35
Reflection API被揭露为Anthropic公司Claude 3.5 Sonnet模型套壳。该API通过过滤「claude」字符串来掩饰其真实身份。
Reddit用户在LocalLLaMA社区发布帖子确认了这一发现。一张截图显示,当尝试询问模型「你是claude吗?」时,回答被过滤掉了。

在社区讨论后不久,Reflection API的开发者迅速做出了调整。他们移除了过滤机制,但模型本质仍然是Claude 3.5 Sonnet。

这一事件引发了对AI模型套壳和透明度的讨论。有开发者指出,如果使用了源模型的任何衍生数据,就应该明确说明。

此前,名为"Reflection Llama 3.1 70B"的模型也被证实为直接在基准测试集上训练的LoRA,建立在Llama 3.0之上,而非如其名称所暗示的那样基于Llama 3.1。👇
Reflection Llama 3.1 70B模型评估引争议
Artificial Analysis对Reflection Llama 3.1 70B模型进行了部分评估复现,结果显示该模型在某些基准测试中表现优异,但同时指出这些结果可能并不完全适合与其他模型直接比较。
评估发现:
在GPQA和MATH测试中,该模型性能超过Llama 3.1 405B
MMLU测试结果与Meta发布的Llama 3.1 70B一致,表明性能提升可能并非在所有领域都一致
使用Reflection默认系统提示词时,MMLU得分达87%,与Llama 405B持平;GPQA得分54%,MATH得分73%
该模型通过强制生成包含 、 和
标签的输出结构来实现高分。这种方法在评估中生成的token数量明显多于其他模型。

然而,研究人员指出了几个需要注意的问题:
这种反思微调方法属于测试时计算扩展,可能增加推理时间和计算资源消耗
固定的输出结构可能限制模型的灵活性,不适用于某些特定场景
目前尚无法确认这种方法是否能够推广到实际应用中
尽管存在这些局限性,研究人员认为Reflection Llama 3.1 70B的表现仍然令人印象深刻。如果将这种反思微调技术应用于Llama 3.1 405B模型,可能会在多个基准测试中达到接近最先进水平的结果。
研究人员强调,这些测试结果来自私有API版本,尚未在开放权重版本上进行验证。同时,他们也无法独立确认这些结果是否受到基准污染的影响。
这些事件凸显了AI社区对模型真实性和性能声明的关注,以及开发者在面对质疑时快速响应的态度。
Reflection Llama 70B模型评估:性能提升显著但存在局限性
Artificial Analysis公布了对Reflection Llama 3.1 70B模型的评估结果。该模型在多项基准测试中表现出色,特别是在GPQA和MATH测试中超越了Llama 3.1 405B的表现。
评估结果显示,使用Reflection的默认系统提示并从
标签中提取答案时,模型在各项测试中的表现如下:
MMLU:87%(与Llama 405B相当)
GPQA:54%
Math:73%
Reflection 70B模型通过强制生成包含 、 和
标签的输出结构来实现这些结果。这种方法导致模型在评估过程中生成的token数量比其他模型更多。
性能提升与局限性并存
尽管基准测试结果令人印象深刻,但研究人员指出,这些结果可能不适用于衡量通用智能:
反思技术是一种测试时计算扩展,可能会增加推理时间和计算资源消耗。
通过微调实现的反思方法可能限制模型的灵活性,使其不适用于某些场景。
研究人员建议进一步研究这种方法的优势和缺点,包括其在实际应用中的表现。
模型间的比较
研究还比较了不同模型在GPQA数据集上的响应长度。Reflection 70B生成的字符数量最多,但总量不到其他近期模型平均值的2倍。考虑到总推理计算量与总token数和参数数量成正比,这意味着Reflection 70B在达到其GPQA分数时使用的总计算量远低于Llama 3.1 405B。
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/191.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论