现在AI圈最火的“元学习”,谷歌一年前就做出来了|DeepMind论文解读
作者:微信文章几个月前,强化学习之父Richard Sutton曾公开指出当前大语言模型缺乏持续学习能力。2025年10月22日,DeepMind在《Nature》上发表的一篇题为《Discovering state-of-the-art reinforcement learning algorithms(发现最先进的强化学习算法)》的论文,似乎正是对这一批评的直接回应。
Sutton的核心批评指向大模型的核心局限:这类基于互联网静态数据预训练的模型本质上是“被冻结的过去知识”,无法与环境实时交互,也无法实现持续学习或“学习如何学习”的元能力。
而DeepMind提出的DiscoRL框架,正是试图通过“元学习”打破这一僵局。
当我们把DiscoRL与谷歌的AlphaEvolve等项目联系起来,一个更宏大的战略浮出水面:谷歌正在悄悄构建一条让AI实现自我进化与持续学习的通路。有迹象表明,DeepMind服务器上可能已经运行着相关解决方案近一年时间——考虑到该论文实际完成于2024年底,剩余时间主要用于《自然》的评审。
这下,不由得让我们更加期待Gemini 3的到来了。
学习的基础,以及Sutton的“大世界”难题
要理解这项研究的颠覆性,必须回到Sutton的“大世界假设”:世界信息是无限的,而任何模型在预训练阶段学到的知识都极其有限。真正的智能必须能在与环境的持续交互中不断学习,其基础正是元学习能力。
具备元学习能力的系统能够从环境中预测未来,构建因果世界模型。它不仅能提炼、总结和压缩知识,更能找出事物背后的规律,最关键的是,它知道如何改进自己的学习过程。
但要实现这一点,需要解决两个根本问题:探索和抽象。
探索的问题在当下已经有一些相对比较成熟的解决方法了, 比如这篇论文在搜索层面上所用的Mirror Learning框架,就为蒙特卡洛探索提供了数学上严格的约束条件。
在这个框架下,理论上可以保证强化学习是单调改进的,每次更新都会让性能变得更好,最终收敛到全局最优策略。
好了,假设“探索”的问题正在被解决。那么,下一个问题就是抽象提炼。
AI如何从海量的、混乱的探索经验中,自动“悟道”,提炼出一条全新的、更高效的“学习法则”?这就是DeepMind这篇论文要回答的问题。
再多一层抽象,就有了方法
Deepmind构建了一个两层结构,我们可以将其理解成一个元网络老师和一群Agent学生。
它分为两个串行的优化循环。
内部循环:让学生在试错中学习
这一层简单来讲,就是让一群共128个Agent(学生)使用一个由老师提供固定的学习规则来与环境交互并优化自己的参数。
这些学生被扔进一个由57个经典的雅达利 (Atari) 游戏组成的试验场,这是一个公认的、极具挑战性的RL基准测试场。他们的工作就是去按照老师给定的规则去玩游戏。
但与一般的模型不同,它被设计了一个插槽,允许老师插入任何学习方法。
当“学生”观察游戏画面时,它会同时输出策略(即下一步应该采取的行动),还有一些标准的预测能力(原始规则),以及两块空白黑板,即元学习预测的两个空白向量y和z。之所以这是空白的,是因为它们没有被预先告知要预测什么。这两个向量是老师用来教授新概念的地方。老师将通过元学习来决定,学生应该去预测什么,才能让它更接近目标。
在循环中,学生先在游戏里玩一会儿,收集试错经验。之后老师会过来批改作业。它通过观察学生的这段表现,并为学生在预测方面提供一个新的目标值和正确答案。之后,学生尽可能地模仿老师给的正确答案,调整自己的参数。
在这个探索阶段,老师每次更新的教学方法是固定不变的。学生只是在盲目地、努力地追随老师设定的标准。
至于为什么要有128个Agent去探索,这主要是为了避免过拟合。 如果你只让1个学生去学一个游戏,老师很快会发现捷径。而当同时要教好128个学生,而这些学生又分布在57个风格迥异的游戏中时(有的需要长线规划,有的需要快速反应,有的奖励很少),老师就必须要能被迫去发现那些真正通用的学习法则。比如“预测未来重要的事”或“利用未来的预测更新现在”,这些法则在所有游戏中都是有益的。
外部循环:老师用总结更新教学方案
简单来讲,这一层就是老师改进它的教学方法(即它自己的参数 ),以便它教出的学生在各自的一生中能获得尽可能高的总分(累积折扣奖励)。
为了做到这一点,老师也需要一个反馈信号,这个信号在技术上被称为元梯度。这个信号需要回答一个非常复杂的问题:“我应该如何调整我的‘学习指南’,才能让学生们最终变得更强?”
要得到这个答案,这个模型得知道它的教学方法对‘学生’最终能学成什么样(即它的参数 )有多大影响?
为了回答这个问题,它必须靠反向传播回顾并反思学生的整个学习过程。
在实践中,系统会像看录像一样,观察一个“学生”如何应用“老师”的“学习指南”来更新自己20次(即20步内部循环)。然后,系统会“倒放”这20次更新。它会反向计算,从学生最终养成的游戏习惯(第20次更新),一步步追溯到它刚开始学时的状态(第1次更新)。
比如说:我的‘学生’这次考试(环境交互)总分很高。而他之所以总分高,是因为他学会了某项技能(内部循环的参数发生了特定变化)。他之所以学会这个技能 ,是因为我在第 10 节课时,给他的‘教学手册’(我的参数)里加入了一个新指令(一个特定的学习目标 )。所以,这条教学规则非常棒,在做这样的任务时,我应该在‘教学手册’里永久保留并加强它。
这个循环不断重复。 学生们拿到新的指南,再去练习;老师观察他们的表现,再改进指南。最终,这本“学习指南”会从一本“瞎猜”的手册,进化成一本“学神秘籍”。
实验结果,它真的“悟道”了
这个系统发现的强化学习规则,他们称之为 DiscoRL 。
在雅达利基准测试中,这个完全由AI自主发现的规则Disco57,“在成熟的雅达利基准上超越了所有现有(2024年末)的(人类设计的)规则” 。它不仅击败了包括MuZero在内的所有SOTA算法,而且在实际计算时间上也远超MuZero 。
但真正的震撼,来自于泛化能力测试。
研究人员将Disco57(这个只在雅达利上训练过的规则)应用到了它在发现过程中从未见过的全新基准测试上 。
ProcGen 基准: 这是一个专门为测试泛化能力而设计的程序生成游戏库。DiscoRL超越了所有已发表的方法(截止去年年底)。
NetHack 挑战赛: 这是一个以高难度和复杂性著称的黑客游戏。DiscoRL在2021年NeurIPS挑战赛中获得了第三名 。而且,它没有使用任何为该游戏定制的领域知识(比如奖励塑造或子任务定义),而这些是人类获胜团队所依赖的技巧 。
这证明了DiscoRL不仅学会了如何玩雅达利游戏,它发现了真正普适、高效的学习方式,可以应用到所有领域。这个教师元网络,真的知道了怎么去学习。
更进一步,当他们用更复杂、更多样化的环境(包括Atari、ProcGen和DMLab在内的103个环境)去训练“老师”时,诞生的Disco103规则,在所有未见过的基准测试上表现得更加强大 。
因此,用于发现的环境越复杂、越多维,被发现的学习规则就越强大、越通用。
预测和递归,带来世界模型
DiscoRL是如何做到这一点的?它发现的“学习秘诀”到底是什么?
首先是从奖励到预测的转向。过去的RL算法是奖励最大化器,只盯着奖励这个单一信号。而DiscoRL框架则是实现了Sutton的想法,即要实现长期的奖励最大化,必须把模型转变为一个预测器。
当研究人员深入分析那个由AI发明的两个空白预测向量时,他们发现,由老师给出的这些预测目标并不是传统的“价值函数”(即预测未来的总奖励)。
相反,它们会很精细地在事件发生之前对预测进行调整。比如,这些预测会在显著事件发生前出现峰值。在《吃豆人》中,它们在吃到大力丸前会兴奋;在《打砖块》中,它们则是在AI突然决定要往左、右走时出现峰值。 由此,模型便更准确地预测即将到来的大型奖励。这表明发现的预测可能捕获了策略和价值函数未能很好捕获的独特任务相关信息。
通过梯度分析发现,元学习的预测倾向于关注未来可能相关的对象,这与策略和价值函数关注的地方截然不同。元网络甚至会要求预测Agent自身“策略置信度”的未来变化(即AI自己对下一步行动的“犹豫”或“果断”程度)。
这就是萨顿所说的“因果世界模型”的雏形。AI不再是简单地学习做什么,它开始学习该关注什么(预测)。它在构建一个关于未来重要事件的抽象模型。
靠着这个能力,这一系统甚至独立自主地“重新发现”了自举法 (bootstrapping) 这一RL的基本概念,即使用未来的预测来更新当前的预测。
第二个不同,则是递归。我们其实可以把Agent群组和元网络当成两层相互递归的搜索。
在第一层,每个基础Agent都在Mirror Learning框架内进行蒙特卡洛方法策略搜索。而元学习网络则是算法空间中,从每种可能的学习算法配置里探索能够生成最优策略的算法配置。
这样的结构,给了元网络一个空间,让它专注于在策略这个更抽象层的探索,比如学习方法。而且因为学习的效果本身依赖于Agent和元网络的一系列相互依赖的更新过程。没有递归,就无法做正确的因果归因与长程优化。
在2025年前半,Deepmind的AlphaEvolve带来了进化AI方向的最热烈的讨论。而这篇论文的意义是开创性的。它通过建立起递归学习、预测转向提供了一个可扩展的、经实证有效的框架,证明了AI可以从纯粹的经验中发现,而非设计出SOTA级别的学习算法。
这可能是萨顿所呼吁的“元学习”未来的一个关键基准。
来源|未来AI指北
		页: 
[1]