人类完败斯坦福新研究爆AI创意超人类专家

shadowrocket • 2026年2月3日 am8:09 • Shadowrocket官网

斯坦福大学的研究团队刚刚发布了一项爆炸性研究！

他们发现大语言模型（LLM）生成的研究创意比人类专家更新颖！

没想到AI不仅能写论文，现在连研究创意都能甩人类专家几条街了？

你可能会好奇这项研究到底是怎么做的？结果靠谱吗？

一起来扒一扒！

首先，研究团队可没有随便找几个人来充数。他们招募了49位NLP领域的顶尖专家，让这些大佬们在7个NLP主题上提出新颖的研究创意。

与此同时，他们还训练了一个 LLM智能体，让它也在相同的7个主题上生成研究创意。

等等，别以为这就完了！

为了保证评审的公平性，研究团队又找来了 79位专家，对所有的创意进行匿名评审。

这阵容，堪称是学术界的春晚啊！

说到这些"专家"，可别以为是随便找的。

参与的研究人员来自36个不同的机构，大多数都是博士和博士后。他们的引用量中位数高达125 ，评审专家的引用量中位数更是达到了 327 ！

可谓是学术界的梦之队啊！

为了确保人类和AI生成的创意都能涵盖所有必要细节，研究团队还制定了一个超级详细的创意模板。他们甚至为每个创意支付了 300美元，还给出了 1000美元的奖金给最佳的5个人类创意。

啧！学术界的"非诚勿扰" 啊！

为了避免写作风格影响评审结果，研究团队还用LLM对所有创意的写作风格进行了标准化处理。

下面是一个随机选择的LLM生成的创意示例，看起来是不是很专业？

79位专家评审总共提交了 298份评审，每个创意都获得了2-4份独立评审。评审表格参考了ICLR和ACL的标准，包括新颖性、激动程度、可行性和预期效果等多个维度的评分和理由。

最后，研究团队对结果进行了三种不同的统计测试，考虑了所有可能的混淆因素。结果显示， LLM生成的创意在新颖性方面显著优于人类专家的创意。

这个结果，可以说是学术界的"李逵PK李鬼" 了！

除了人机对比，研究团队还发现了两个有趣的LLM特性：

LLM在生成创意时缺乏多样性。即使被明确告知不要重复，它们还是很快就开始重复之前生成的创意。

看来AI 还是喜欢做个 "复读机" ！

LLM还无法可靠地评估创意。当研究团队用之前的自动LLM评审员与人类专家评审进行对比时，发现所有LLM评审员都与人类判断的一致性很低。

看来用AI 做评委还是不那么靠谱！

研究团队表示，他们在论文中还包含了更多定量和定性分析，包括人类和LLM创意的示例及相应的专家评审，专家自由文本评审的总结，以及他们对这个新兴研究方向如何取得进展的思考。

接下来，他们还计划招募更多专家参与研究的第二阶段，让专家们将AI和人类的创意实施为完整的项目，以便基于真实的研究成果进行更可靠的评估。

有兴趣的专家可以通过这个链接报名参与：https://forms.gle/jVtUVruBARceY5YX9

最后，研究团队特别感谢了所有参与创意撰写和评审的专家，以及他们的导师@tatsu_hashimoto和@Diyi_Yang。他们表示，没有这些人的支持，这个 "疯狂" 的项目是不可能完成的。

AI在研究创意方面竟然超越了人类专家，这意味着什么？

是不是意味着以后的科研工作会有重大变革？

以后有可能数据合成、训练啥啥的都AI 干了，甚至想法都AI 自己想然后自己验证了!

这是AGI 的可能路径吗？类似auto ML 自动调参那样。

从特征工程师 -> 调参工程师 -> 想法工程师 -> ？师

这一连串都要被AI 取代了？

什么？你说至少还有评委不靠谱？

这很重要吗？

版权声明：
作者：shadowrocket
链接：https://www.shadowrocket8.top/190.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

Meta全面出击谷歌帝国危在旦夕

< <上一篇

重磅Salesforce宣布停止招聘软件工程师因为AI将生产力提升了30

下一篇>>

搜索内容

人类完败斯坦福新研究爆AI创意超人类专家

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

人类完败斯坦福新研究爆AI创意超人类专家

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点