牛津大学模型训练就像养孩子别教太多难度适中是关键

如何才能 科学地养育 你的AI模型宝宝?

最近,牛津大学的Alex Rutherford团队发布了一项重磅研究,揭示了训练强化学习(RL)智能体的 最佳难度选择方法 。

牛津大学模型训练就像养孩子别教太多难度适中是关键-2

你可能会问: 这和养孩子有啥关系?

其实啊,训练AI和养娃有异曲同工之妙。你总不能让孩子天天做简单题吧?但也不能一上来就是奥数难题啊!

Alex团队发现, 传统方法 往往选择AI能完美解决的关卡作为训练素材。但这就像让孩子天天做加减法,能学到啥?

牛津大学模型训练就像养孩子别教太多难度适中是关键-3

他们提出应该选择那些AI能 时而解决、时而失败 的关卡。这不就和家长们常说的" 不要总让孩子赢 "异曲同工嘛!

具体来说,他们设计了一个叫" Sampling for Learnability (SFL) "的算法。这算法会从海量关卡中,挑选出那些AI只能解决一半的" 难度适中 "关卡。

然后,再把这些"难度适中"的关卡和随机关卡混在一起喂给AI。就像给孩子安排 合理的课外活动 ,既有难度又不至于太打击自信。

结果如何?在多个领域测试中,SFL算法 吊打 了现有的多个顶尖算法!包括迷宫游戏、XLand-MiniGrid,甚至2D机器人导航任务这种接近现实的场景。

牛津大学模型训练就像养孩子别教太多难度适中是关键-4

不过,也有网友提出了不同看法。比如@cedcolas就指出:

@alexrutherford0 what happens when a level is stochastic and solvable only half the time? max(p) is 0.5, so p(1-p) is maximized then, and there is no room for further learning

译:如果一个关卡本身就只有一半的概率可解,那么p(1-p)就已经最大化了,还有什么学习空间呢?

这个算法在 随机性很强 的场景下可能会遇到瓶颈。就像有些考试题目本身就是靠运气,再怎么练习也无法提高正确率。

@cedcolas还补充道:

(..) from the intrinsic motivation literature (both in psych and ai, eg  Florensa's goalGan paper)

expected learning progress or learnability can be approximated by the derivative of p (see oudeyer's papers) using the same rollout data you collect

译:从内在动机(心理学和AI领域都有研究)的角度来看,可以用成功率p的导数来近似表示预期学习进度或可学习性。

这提醒我们, 真正的"可学习性"可能更复杂 ,需要考虑AI的进步速度,而不仅仅是当前的成功率。

总的说 来 ,这项研究为AI训练提供了新思路: 不要总想着让AI"满分" ,适当的失败反而能促进学习。

就像养孩子一样, 既不能溺爱,也不能苛责 。

给AI一个 充满挑战又不至于绝望 的环境,才能让它循序渐进、茁壮成长!

如果你对技术细节感兴趣,可以去看看他们的论文和代码:

论文:https://www.arxiv.org/abs/2408.15099

代码:https://github.com/amacrutherford/sampling-for-learnability

好了,今天的AI育儿经就到这里。

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/199.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>