牛津大学模型训练就像养孩子别教太多难度适中是关键

shadowrocket • 2026年1月28日 am8:09 • Shadowrocket官网

如何才能科学地养育你的AI模型宝宝？

最近，牛津大学的Alex Rutherford团队发布了一项重磅研究，揭示了训练强化学习(RL)智能体的最佳难度选择方法。

你可能会问：这和养孩子有啥关系？

其实啊，训练AI和养娃有异曲同工之妙。你总不能让孩子天天做简单题吧？但也不能一上来就是奥数难题啊！

Alex团队发现，传统方法往往选择AI能完美解决的关卡作为训练素材。但这就像让孩子天天做加减法，能学到啥？

他们提出应该选择那些AI能时而解决、时而失败的关卡。这不就和家长们常说的" 不要总让孩子赢 "异曲同工嘛！

具体来说，他们设计了一个叫" Sampling for Learnability (SFL) "的算法。这算法会从海量关卡中，挑选出那些AI只能解决一半的" 难度适中 "关卡。

然后，再把这些"难度适中"的关卡和随机关卡混在一起喂给AI。就像给孩子安排合理的课外活动，既有难度又不至于太打击自信。

结果如何？在多个领域测试中，SFL算法吊打了现有的多个顶尖算法！包括迷宫游戏、XLand-MiniGrid，甚至2D机器人导航任务这种接近现实的场景。

不过，也有网友提出了不同看法。比如@cedcolas就指出：

@alexrutherford0 what happens when a level is stochastic and solvable only half the time? max(p) is 0.5, so p(1-p) is maximized then, and there is no room for further learning

译：如果一个关卡本身就只有一半的概率可解，那么p(1-p)就已经最大化了，还有什么学习空间呢？

这个算法在随机性很强的场景下可能会遇到瓶颈。就像有些考试题目本身就是靠运气，再怎么练习也无法提高正确率。

@cedcolas还补充道：

(..) from the intrinsic motivation literature (both in psych and ai, eg Florensa's goalGan paper)

expected learning progress or learnability can be approximated by the derivative of p (see oudeyer's papers) using the same rollout data you collect

译：从内在动机（心理学和AI领域都有研究）的角度来看，可以用成功率p的导数来近似表示预期学习进度或可学习性。

这提醒我们，真正的"可学习性"可能更复杂，需要考虑AI的进步速度，而不仅仅是当前的成功率。

总的说来，这项研究为AI训练提供了新思路：不要总想着让AI"满分" ，适当的失败反而能促进学习。

就像养孩子一样，既不能溺爱，也不能苛责。

给AI一个充满挑战又不至于绝望的环境，才能让它循序渐进、茁壮成长！

如果你对技术细节感兴趣，可以去看看他们的论文和代码：

论文：https://www.arxiv.org/abs/2408.15099

代码：https://github.com/amacrutherford/sampling-for-learnability

好了，今天的AI育儿经就到这里。

版权声明：
作者：shadowrocket
链接：https://www.shadowrocket8.top/199.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

Llama3模型使用反思调优超越Claude35和GPT4

< <上一篇

马斯克2026年AGI必到Optimus替你接送孩子

下一篇>>

搜索内容

牛津大学模型训练就像养孩子别教太多难度适中是关键

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

牛津大学模型训练就像养孩子别教太多难度适中是关键

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点