人类完败斯坦福新研究爆AI创意超人类专家

斯坦福大学的研究团队刚刚发布了一项爆炸性研究!

他们发现 大语言模型(LLM)生成的研究创意比人类专家更新颖!

人类完败斯坦福新研究爆AI创意超人类专家-2

没想到AI不仅能写论文,现在连 研究创意 都能甩人类专家几条街了?

你可能会好奇这项研究到底是怎么做的?结果靠谱吗?

一起来扒一扒!

首先,研究团队可没有随便找几个人来充数。他们 招募了49位NLP领域的顶尖专家 ,让这些大佬们在7个NLP主题上提出新颖的研究创意。

与此同时,他们还训练了一个 LLM智能体 ,让它也在相同的7个主题上生成研究创意。

人类完败斯坦福新研究爆AI创意超人类专家-3

等等,别以为这就完了!

为了保证评审的公平性,研究团队又找来了 79位专家 ,对所有的创意进行 匿名评审 。

这阵容,堪称是 学术界的春晚 啊!

人类完败斯坦福新研究爆AI创意超人类专家-4 人类完败斯坦福新研究爆AI创意超人类专家-5

人类完败斯坦福新研究爆AI创意超人类专家-6

说到这些"专家",可别以为是随便找的。

参与的研究人员 来自36个不同的机构 ,大多数都是博士和博士后。他们的 引用量中位数高达125 ,评审专家的引用量中位数更是达到了 327 !

可谓是 学术界的梦之队 啊!

为了确保人类和AI生成的创意都能涵盖所有必要细节,研究团队还制定了一个 超级详细的创意模板 。他们甚至为每个创意支付了 300美元 ,还给出了 1000美元的奖金 给最佳的5个人类创意。

啧! 学术界的"非诚勿扰" 啊!

人类完败斯坦福新研究爆AI创意超人类专家-7

为了避免写作风格影响评审结果,研究团队还用LLM对所有创意的写作风格进行了 标准化处理 。

下面是一个随机选择的LLM生成的创意示例,看起来是不是很专业?

人类完败斯坦福新研究爆AI创意超人类专家-8

人类完败斯坦福新研究爆AI创意超人类专家-9 人类完败斯坦福新研究爆AI创意超人类专家-10

79位专家评审总共提交了 298份评审 ,每个创意都获得了2-4份独立评审。评审表格参考了ICLR和ACL的标准,包括 新颖性、激动程度、可行性和预期效果 等多个维度的评分和理由。

人类完败斯坦福新研究爆AI创意超人类专家-11

最后,研究团队对结果进行了 三种不同的统计测试 ,考虑了所有可能的混淆因素。结果显示, LLM生成的创意在新颖性方面显著优于人类专家的创意 。

这个结果,可以说是 学术界的"李逵PK李鬼" 了!

人类完败斯坦福新研究爆AI创意超人类专家-12

人类完败斯坦福新研究爆AI创意超人类专家-13 人类完败斯坦福新研究爆AI创意超人类专家-14 人类完败斯坦福新研究爆AI创意超人类专家-15

除了人机对比,研究团队还发现了两个有趣的LLM特性:

LLM在生成创意时 缺乏多样性 。即使被明确告知不要重复,它们还是很快就开始重复之前生成的创意。

看来AI 还是喜欢做个 "复读机" !

人类完败斯坦福新研究爆AI创意超人类专家-16

LLM还 无法可靠地评估创意 。当研究团队用之前的自动LLM评审员与人类专家评审进行对比时,发现所有LLM评审员都与人类判断的一致性很低。

看来用AI 做评委还是不那么靠谱!

人类完败斯坦福新研究爆AI创意超人类专家-17

研究团队表示,他们在论文中还包含了更多定量和定性分析,包括人类和LLM创意的示例及相应的专家评审,专家自由文本评审的总结,以及他们对这个新兴研究方向如何取得进展的思考。

接下来,他们还计划 招募更多专家参与研究的第二阶段 ,让专家们将AI和人类的创意实施为完整的项目,以便 基于真实的研究成果进行更可靠的评估 。

有兴趣的专家可以通过这个链接报名参与:https://forms.gle/jVtUVruBARceY5YX9

最后,研究团队特别感谢了所有参与创意撰写和评审的专家,以及他们的导师@tatsu_hashimoto和@Diyi_Yang。他们表示,没有这些人的支持,这个 "疯狂" 的项目是不可能完成的。

AI在研究创意方面竟然超越了人类专家 ,这意味着什么?

是不是意味着以后的科研工作会有重大变革?

以后有可能数据合成、训练啥啥的都AI 干了, 甚至想法都AI 自己想然后自己验证了!

这是AGI 的可能路径吗 ?类似auto ML 自动调参那样。

从 特征工程师 -> 调参工程师 -> 想法工程师 -> ?师

这一连串都要被AI 取代了?

什么?你说至少还有 评委不靠谱 ?

这很重要吗?

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/190.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>