新闻 发表于 2025-6-20 20:28

AI的终局是构建“机器文明”|OpenAI科学家最新万字访谈

作者:微信文章




6月20日,OpenAI 科学家Noam Brown接受播客Latent Space访谈,Noam Brown在2022年领导开发了能在复杂的谈判游戏“外交博弈”中跻身顶尖10%人类玩家的AI“Cicero”。目前,他致力于探索AI推理、扩展与协作的前沿。在与主持人Alessio和Swyx的深度对话中,Noam Brown详尽地阐述了OpenAI内部对AI核心范式的思考、关于技术路径的争论与战略抉择,以及他对AI Agent、多智能体协作乃至AGI终局的构想。

01

博弈论的实践与小模型的潜力

访谈的开篇,主持人便将焦点对准了Noam Brown在“外交博弈”领域的双重成就,提出了一系列核心问题:开发Cicero的经历,究竟如何反向塑造了他本人作为顶尖玩家的游戏策略?随着Cicero这类高水平AI的出现,人类玩家的博弈环境是否也随之改变,例如,玩家之间是否会下意识地进行“图灵测试”以提防AI对手?鉴于Cicero作为一个仅有27亿参数的小模型,却拥有强大的说服能力,这与当前业界对AI安全和模型规模的普遍讨论形成了何种张力?以及,是否有计划用OpenAI更新、更强大的模型(如O-series)来迭代Cicero?

针对这一系列问题,Noam Brown给出了详尽的回答,系统地回顾了Cicero的诞生过程及其带来的深远影响。

Brown首先解释了开发AI与提升个人游戏水平之间相辅相成的关系。他指出,要为一个复杂游戏开发AI,研究者必须对游戏本身具备超越常人的深刻理解,这主要是为了能够有效“调试”AI。他这样描述当时面临的挑战:“因为如果机器人做出了非常激进、人类玩家通常不会做的行为,你很难判断这究竟是它犯了错,是系统里存在一个程序错误,还是说机器人展现了超凡的智慧。”

为了解决这个“判断难题”,Brown深入地研究了“外交博弈”的每一个细节,他不仅亲自参加锦标赛以体验真实的高水平对抗,还观看了大量的教程和比赛解说视频。这个过程自然而然地极大地提升了他自己的游戏水平。与此同时,观察AI在游戏中的行为也为他提供了全新的视角。“它有时会做出一些人类玩家通常不会做的事情,这也让我对游戏有了新的认识。”

这段经历最终结出了硕果。在2022年底Cicero项目发布后,Brown对这款游戏的兴趣丝毫未减,并持续参与竞技,最终在2025年初赢得了世界冠军。当被问及比赛时是否直接使用了Cicero时,他明确否认了这一点,但他强调:“观察它的玩法并从中汲取灵感,我认为这确实在比赛中帮助了我。”这印证了AlphaGo出现后,人类顶尖围棋棋手通过学习AI的下法来革新自身风格的现象,是一种人机协作、共同进化的模式。

关于AI是否改变了人类玩家间的互动模式,Brown分享了一段关于Cicero早期测试阶段的有趣往事。他回忆道:“我们开发Cicero的时候,情况确实很有趣。因为当时我们还没有最好的大语言模型,我们的项目实实在在是受限于大语言模型的质量。”这种局限性导致Cicero在99%的时间里表现正常,但偶尔会因为模型的“幻觉”而说出一些非常古怪的话。他举了一个具体的例子:当一个人类玩家在对话中提及之前和Cicero的约定,Cicero可能会回答:“我不知道你在说什么,我从没说过那话。”当玩家拿出聊天记录作为证据时,Cicero甚至会反驳:“不,你是个骗子。”

在正常的社交情境下,这种对话足以让人怀疑对方的身份。然而,在当时的游戏环境中,人类玩家的反应却非常宽容。Brown分析道:“当它出现这类行为时,大家通常也就耸耸肩不当回事,心想:‘哦,这人可能是累了,或者喝醉了,也可能是在故意戏耍我。’”他认为,这背后的核心原因是“当时人们并没有提防机器人,他们根本没预料到游戏里会有机器人。”这种认知上的“未设防”状态,无意中为早期尚不完美的AI提供了“社交隐身”的保护。

Brown坦言,团队当时非常担心Cicero的AI身份被识破,因为“一旦你特意去寻找,你就能发现它。”而现在,随着事实的公开和公众对AI认知的提升,玩家们会更有意识地去寻找AI的蛛丝马迹,发现它会变得容易得多。当然,他也指出,自2022年以来,大语言模型本身的能力已经取得了巨大飞跃。像GPT-4o和O3这样的新一代模型,在图灵测试中的表现已经非常强大,人类玩家想通过简单的对话来有效区分人机,正变得越来越困难。

而关于Cicero模型大小与安全性,Cicero模型规模仅有27亿参数,属于非常小的模型。

Brown确认了这一点,并表示,这个项目的重要体会之一就是“使用更大的大语言模型确实会带来巨大的好处。”然而,正是在这个小模型上,他们发现了一个与主流AI安全叙事略有不同的现象。通常,一个擅长说服、甚至欺骗的AI会引发安全方面的担忧。但Brown透露:“坦白说,在我们发布Cicero之后,很多AI安全领域的人士对这项研究及其运作方式非常认可,因为它是一个高度可控的系统。”

他详细解释了Cicero的“可控性”来源:“具体来说,我们为Cicero的行为设定了具体的行动作为条件,这使得它具有很强的可引导性。也就是说,我们可以设定:‘它将会去执行一个我们可以清晰解读和明确定义的行为。’它不像是一个不受约束、可以为所欲为的大语言模型。恰恰相反,它实际上是相当容易引导的,并且有一整套推理系统来指导这个大语言模型与人类的互动方式。”正因为Cicero的语言生成服务于一个明确、可解释的战略目标,它被许多安全专家视为一个正面案例,甚至有研究者向他表示,“我们认为这或许是实现此类系统安全的一个极佳途径。”

至于是否会用O-series等新模型来升级Cicero,Brown表示他个人没有进行过测试。但他重申了自己曾在Twitter上表达过的一个想法,他认为这会是一个“绝佳的基准测试”。他饶有兴致地畅想:“我很想看到所有顶尖的AI聚在一起玩一局‘外交博弈’,看看谁能胜出。”他了解到,确实已经有一些团队受此启发,正在构建类似的基准测试平台,但据他所知,目前各种模型在“外交博弈”上的表现还不是很好。尽管如此,他依然认为“这是一个非常有趣的基准,尝试一下会非常酷。”

02

推理范式:从“快思慢想”到“深度研究”

在深入探讨了Cicero这一具体案例后,主持人Swyx和Alessio围绕OpenAI的O-series模型,提出了一系列问题,自O1模型发布和TED演讲后,Noam Brown对推理模型发展轨迹的看法有何演变?为何“深度研究”这一功能,能够成为AI在成功标准模糊、难以验证的领域取得成功的力证?“思考,快与慢”这一流行的比喻,其局限性究竟在何处?以及,这种推理范式是否能从语言领域推广到视觉等其他模态?

Brown首先表达了他对推理范式发展轨迹的坚定信心。他认为,自开发周期早期,其发展路径就已非常清晰,至今发生的一切基本都在预料之中。“所以我不会说我对事情发展方向的看法发生了很大变化,”他说道,“我认为我们将继续看到这种范式持续快速地进步。时至今日,这一点依然成立,我们从O1预览版到O1再到O3的持续进步中就能看到这一点。”

除了性能的纵向深化,他更强调了模型能力在广度上的拓宽。“我们将开始看到AI Agent行为,实际上我们已经看到了。”他以自己作为重度用户的亲身体验为例,生动地描述了O3模型的实用价值:“老实说,对我个人而言,我每天都在大量使用O3。我发现它非常有用,特别是它现在可以浏览网页,并为我做有意义的研究。这就像一个微型的‘深度研究’服务,你只要三分钟就能得到回应。”他坚信,随着时间的推移,这类模型会以极快的速度变得越来越有用、越来越强大。

AI能力评估中有一个难题:如何衡量AI在那些没有标准答案、充满主观性的任务上的表现?许多人,甚至包括一些资深的AI研究者都对此持怀疑态度。Brown坦言,他经常被问及这个问题:“我们看到这些推理模型在数学和编程等易于验证的领域表现优异,但它们能否在那些成功标准不那么明确的领域也取得成功?”

对于这种普遍的疑虑,Brown感到非常惊讶,因为在他看来,OpenAI已经用“深度研究”这一功能给出了一个强有力的“存在性证明”。他反问道:“这就好比问:你能生成的‘最佳’研究报告是什么样的?”这个问题的答案显然是主观且开放的,不存在一个唯一的、易于验证的正确答案。然而,事实是,“我们的模型在这个领域表现得极其出色。”

成功的关键,在于是否存在一个有效的反馈机制。Brown认为,即便没有机器可以自动判定的分数,人类用户的判断力也足以构成这个机制。“我的感觉是,用户拿到结果时是能够分辨出差异的,并且我认为他们对深度研究报告的质量感到惊喜。”他承认模型并非完美,仍有提升空间,但核心在于,“我相信,人们是能分清一份好报告和一份差报告的,当然也能分清一份好报告和一份平庸的报告。”这种来自用户的、定性的反馈,足以形成一个迭代闭环,驱动模型不断进步。他总结道,一个普遍的误解是认为AI的进步必须依赖“易于验证”的成功标准,而他坚信,“即使在那些成功的定义非常困难,甚至有时是主观的领域,这些模型也同样能表现出色。”

为了更好地理解推理模型,“思考,快与慢”中关于“系统1”(直觉、快速)和“系统2”(审慎、缓慢)的二元系统比喻被广泛引用。Brown认可这个比喻的价值,但他也指出了一个常被低估的关键前提。

“我认为有一点被大家低估了,那就是预训练模型本身需要具备一定的基础能力,才能真正从这种额外的‘思考’中获益。”他解释说,这在很大程度上回答了为什么推理范式在当前这个时间点才开始兴起。“我觉得它本可能出现得更早,但如果你试图把推理范式应用在GPT-2这样的模型上,我想到头来可能什么效果都不会有。”

这一现象——即“系统2”的有效性高度依赖于“系统1”的底层能力——是显而易见的。Brown提到:“人们曾尝试在非常小的模型上使用‘思维链’,结果发现基本没用。但当你转向更大的模型时,它就开始带来效果提升。”他认为,这并非两个可以随意组合的独立范式,而是相互关联、共同演进的。“你的模型需要具备一定水平的‘系统1’能力,才能够拥有并受益于‘系统2’。”他赞同主持人将其类比为大脑皮层的进化,并用一个生动的例子来强化自己的观点:“如果你让一只鸽子去努力思考如何下象棋,它也走不了多远。无论它思考一千年,也不可能下得更好。所以,或许在动物和人类身上也是如此:你首先需要在‘系统1’层面具备一定的智能基础,才能够从‘系统2’中获益。”

那么,这种“系统1+系统2”的推理范式是否也适用于视觉等其他模态?Brown给出了肯定的答案,但他同时强调了其适用性的边界。

他认为,这完全取决于问题的类型。“有些问题,我认为并不能真正从‘系统2’中获益。”他举例说,像GeoGuessr这样需要综合视觉线索、地理知识进行逻辑推断的游戏,无疑能从“系统2”的审慎思考中获益良多。但对于单纯的图像识别任务,情况则大不相同。“如果让我猜的话,它可能就属于那种从‘系统2’思考中受益较少的任务,”因为“你要么认识,要么不认识。”

为了让这个概念更清晰,他使用了信息检索的例子:“如果有人问你某人是哪年出生的,而你又不能上网查,那你要么知道,要么就不知道。你可以坐在那儿想很久,或许能做出一个有根据的猜测,但你永远无法得到准确的日期,除非你本身就记住了这个信息。”

与此相对,那些信息完备、需要进行多步逻辑推演的任务,则非常适合推理范式。他提到了“井字棋”:“在‘井字棋’上,我们看到即便是GPT-4.5也会出错。当然,它玩得还不错……但有时还是会犯错。你确实需要‘系统2’才能让它下得完美。”当然,他也承认,随着基础模型(系统1)能力的无限增强,未来可能仅靠直觉就能完美解决这类问题。“也许到了GPT-6的时代,只靠‘系统1’也能下得完美,我想我们总有一天会知道答案。但在现阶段,你必须借助‘系统2’才能真正把它做好。”

03

强化微调的长期价值与推理范式的内部抉择

在确立了推理作为核心范式之后,如何围绕它进行高效、可持续的开发,便成为所有从业者面临的现实问题。在模型之上构建的各种辅助框架(harnesses)和复杂架构(如模型路由器),它们的长期价值何在?面对日新月异的技术迭代,开发者应如何做出投入决策,例如,现在是否是投资强化微调(RFT)的好时机?

对于业界热衷于为AI模型构建的各种“辅助框架”和“脚手架”,Brown表达了几乎是持否定态度的立场。他认为,这些复杂的外部系统,本质上都只是暂时的“拐杖”。“关于辅助框架(harnesses),最理想的状态就是没有辅助框架,”他直言不讳地说,“我们最终是能够摆脱它的。”

他以评测模型玩“宝可梦”游戏为例,生动地阐述了自己的观点。当这个任务作为一个基准测试出现时,他本人非常反对用OpenAI的模型去做这项评测,因为他预见到人们会为模型构建一个极其精良的辅助框架,让它在评测中取得好成绩。在他看来,这偏离了正确的方向。“正确的应对方式不应该是构建一个精良的辅助框架……而应该是去提升模型本身的核心能力,让它们在所有任务上都做得更好,自然地,它们在这项评测中也就会取得进步。”

同样的逻辑也适用于当前流行的“模型路由器”等复杂架构。他认为,这些为了平衡成本和性能而设计的系统,虽然在短期内有其价值,但终将被技术的滚滚浪潮所淹没。“现在人们正在构建的很多东西,最终都会被规模的浪潮所淹没,”他断言,“我们已经非常公开地表示,希望未来能有一个单一、统一的模型。在那样的世界里,你就不需要在模型之上再加一个路由器。”

Brown敏锐地指出了开发者们面临的窘境:“必须去预测这些模型在6个月、12个月后的形态,而这非常困难,因为技术进步太快了。谁也不想花6个月构建一个东西,结果它完全被规模的进步所淘汰。”他的建议是,在投入资源构建这类复杂的辅助系统时,务必保持审慎,因为它们很可能在不久的将来,随着核心模型能力的提升而变得毫无用处。

既然“脚手架”不可靠,那么开发者应该将精力投向何方?当被问及OpenAI近期发布的“强化微调”(RFT)功能时,Brown给出了非常积极的评价。他认为,RFT与那些可能会被淘汰的辅助系统有着本质的不同。

“强化微调非常酷,值得深入研究,其核心是利用你自己的数据来‘特化’模型。”他解释说,RFT的价值在于其产物——经过标注和整理的、反映特定领域偏好和知识的数据——具有持久性。“我认为区别在于,对于强化微调,你收集的数据在未来模型能力提升后依然是有用的。所以,当我们发布未来更强大的模型时,你仍然可以用你的数据对它们进行微调。”

因此,投入RFT并非一次性的消耗,而是一种能够与Scaling Law相辅相成、不断累积价值的长期投资。

回溯历史,OpenAI内部是如何在众多技术路径中做出艰难抉择,最终聚焦于推理范式的?Brown详细回顾了推理范式在OpenAI内部的曲折诞生过程。

他首先澄清,不应将Ilya Sutskever等人在强化学习上的早期探索简单地描述为“没有成功”,因为“从很多方面来说,它是成功的”,后来的所有成果都建立在这些先前工作的基础之上。他分享了2021年底与Ilya的一次关键对话,当时他向Ilya表达了自己的判断:若无一个通用的“推理范式”,仅靠扩大预训练规模是无法实现AGI的。他当时对此感到悲观,认为解决这个问题需要很长时间,而Ilya则更为乐观,认为“也许这并没有那么难”。

事实证明,Ilya和OpenAI的团队一直在持续地思考和研究这个问题。推理范式的突破是一个渐进的过程,而非单点的灵光一现。“它始于一些‘生命的迹象’,然后我们进行迭代、尝试更多东西,得到了‘更好的生命迹象’。”随着模型本身变得更强大、更快,研究的迭代速度也大大加快,最终促成了范式的诞生。

Brown坦言,OpenAI内部对此曾有过激烈的争论。“即使我们看到了初步的成功迹象,关于其重要性也存在很多争论。比如,我们应该在这个新范式上投入多少资源来扩大其规模?”他强调,在2023年,OpenAI的规模和算力远非今日可比,将宝贵的资源大规模地投入到一个尚未完全证明的新方向,是一个风险极高的战略赌注。“这是一个极具争议且非常困难的决定,总会使一些人不快。”

他分享了一件事,一位同事在推理项目初见端倪、但尚未公开发布时离开了OpenAI,他当时并不认为这个项目有多么重要。然而,当他身处竞争对手的实验室,亲眼目睹了O1发布后给整个行业带来的巨大震撼,他才后知后觉地意识到,这可能真的是一件“大事”。Brown感慨道:“很多事情事后看来似乎理所当然,但在当时其实并不那么明朗,而且可能很难认清事物的真正价值。”

尽管在算力扩展和算法范式上取得了巨大成功,但Brown也坦率地承认,AI领域仍面临着一个挑战——极低的数据效率。当与人类的学习能力相比时,这种差距尤为明显。“如果你比较一下这些模型训练所需的数据量和人类达到同等水平所接触的数据量,就会发现……这些模型在数据效率上远不如人类。”他将这个问题的重要性提到了极高的高度,称其为“一个悬而未决的研究问题,而且可能是最重要的研究问题之一。”如何让AI像人类一样,能够从少量样本中进行高效学习,是通往更高级通用智能的道路上,必须攻克的关键堡垒。

04

AI Agent的应用前沿:从编程到多智能体协作的崛起

随着底层模型能力的日益强大,AI正迅速地从一个被动的知识问答系统,演变为一个能够理解复杂指令、自主规划并执行任务的AI Agent。作为这一变革的亲历者和推动者,Noam Brown分享了他作为重度用户的第一手体验,并对AI Agent的未来演化,特别是他所领导的多智能体团队的研究方向,给出了极具前瞻性的思考。

当被问及个人的“编程技术栈”时,Brown透露他已经深度拥抱了AI编程工具。“最近我一直在用Windsurf和Codex,尤其是Codex,用得非常多。”他描述了一种高效且愉悦的工作流:“你只要给它一个任务,它就会自主去执行,五分钟后就带着一个合并请求回来了。”他将这种亲身实践,视为理解技术前沿和发现其不足的最佳途径。

在使用过程中,他多次体验到那种被技术飞跃所带来的“感受到AGI”的震撼。但他同时也敏锐地观察到人类心理的奇妙之处:“有趣的是,当你‘感受到AGI’之后,你又会很快地习以为常,然后你就会开始对它不完美的地方感到不满了。”他以Sora刚发布时的视频为例,最初的“魔法感”和震撼,在几个月后就会被挑剔的眼光所取代,人们开始能看出其中各种不自然的瑕疵。但他认为,这正是这项技术最酷的地方,“它的发展如此迅猛,以至于你每隔几个月就能体验一次那种‘感受到AGI’的震撼。”

当被问及给用户的“专业技巧”时,他的建议出人意料地简单而直接:“如果大家还没试过推理模型,真的应该去试试。说实话,用过的人都爱不释手。”他惊讶地发现,很多人甚至不知道O3这类推理模型的存在,而它们的强大能力,尤其是对于复杂的编程任务,是默认模型所无法比拟的。

尽管AI编程助手已如此强大,Brown也一针见血地指出了其当前最核心的局限。他用了一个生动而精妙的比喻来形容——“上班第一天的天才”。“我常常感到很沮丧:你让它们做一件事,它们花了10分钟;接着你让它们做一件非常相似的事,它们又重新花了10分钟。”他解释说,目前的AI Agent缺乏长期的记忆和对项目上下文的深入理解,每次任务都像是一次“冷启动”。“即便是世界上最聪明的人,在他们第一天上班时,也不可能像你期望的那样有用。”如何让模型能够积累项目经验,从一个“第一天的新人”成长为“入职六个月的老手”,在他看来,是提升AI Agent价值的关键所在,而“要实现这种能力,真的需要我们自己去构建。”

Brown的视野并未局限于软件工程。他坚信,AI Agent的能力将迅速溢出到更广泛的领域。“我认为它的能力不会只局限于ACE(AI Coder & Engineer),不会只局限于软件工程,”他预测道,“我认为它将能胜任大量远程办公类型的任务。”他认为,任何从事知识型远程工作的人,都应该主动去熟悉这项技术,了解其能力边界。

他进一步提出了一个深刻的观点,即一个完美对齐的AI Agent,有可能解决经济学中经典的“委托-代理问题”。人类代理在执行任务时,其动机、精力、甚至道德标准,都可能与委托人的最佳利益不完全一致。而一个理想的AI Agent,则可以被设计为完全与用户的偏好和目标对齐。“如果你有一个AI模型,它能够真正地与你和你的偏好对齐,那它最终完成工作的效果可能会远超人类,”他强调,“这并非说它比人类的能力更强,而是说它比人类的意愿更到位。”

在单一智能体的基础上,一个更宏大、更令人遐想的图景,正在Noam Brown所领导的OpenAI多智能体团队中孕育。他透露了团队正在探索的两个核心方向。

首先,团队的名字“多智能体”在某种程度上已经“名不副实”,因为他们的工作远不止于此。一个关键的研究方向是“如何将测试时计算的规模扩大成千上万倍”。他解释说:“我们现在能让模型思考15分钟,未来如何让它们思考几小时、几天甚至更长时间,去解决那些极其困难的问题?”这预示着一种全新的计算范式,即通过赋予AI远超人类的“思考时间”来攻克科学和工程领域的顶级难题。

其次,也是更具颠覆性的一点,是他们正在以一种全新的、基于第一性原理的思路来探索多智能体系统。Brown对过去该领域的研究方法提出了含蓄但尖锐的批评:“我投身多智能体领域很多年了,一直觉得这个领域在某些方面走偏了,无论是在研究方法还是实践路径上。”他认为,过去的许多研究“都过于依赖启发式,而没有真正遵循‘苦涩的教训’所揭示的,那种拥抱规模化与通用搜索方法的研究思路。”

为了阐述其团队的终极愿景,他提出了一个壮丽的“文明”级类比。“我通常的看法是:可以想象,如果把生活在石器时代的、与我们解剖结构完全相同的人类祖先拿来比较,按照今天的智能标准,他们取得的成就相当有限,而我们今天做到了这一切,区别何在?我认为区别在于,在数千年的历史长河中,数十亿人类通过持续的合作与竞争,一步步地构建了人类文明。”他将今天的AI比作“AI界的石器时代原始人”,并提出了一个惊人的畅想:“我相信,如果你能让数十亿的AI在漫长的时间里相互合作、相互竞争,并最终建立起它们自己的文明,那么它们所能创造和解答的,将远远超越今天任何AI的能力。”

05

对博弈、世界模型与自我对弈的再审视

主持人Alessio以扑克为引子,提出了一个关于最优策略的核心问题:在像扑克这样的不完美信息博弈中,AI应该追求绝对防御的“博弈论最优”(GTO)策略,还是应该采取更灵活的、旨在利用对手弱点的“利用性”策略?

Brown首先科普了这两种策略的区别。GTO策略,好比在“石头-剪刀-布”中以完全随机的概率出拳,其核心是保证自己在数学期望上立于不败之地。他过去参与开发的、第一个在无限注德州扑克中击败人类顶尖玩家的AI,采用的正是GTO策略。然而,GTO策略的缺点在于其“不以盈利最大化为目标”。“当它面对一个很弱的对手时,可能无法像人类高手那样以摧枯拉朽之势获胜,因为人类高手懂得如何偏离GTO策略,去专门利用弱者的特定缺陷。”

而“利用性策略”则恰恰相反,它的核心就是主动寻找并攻击对手的弱点,比如发现对手不爱诈唬,就疯狂地对他进行诈唬。这种策略追求利润最大化,但风险在于,偏离均衡的打法会使自己也暴露出弱点,可能被更强的对手反过来利用。

Brown坦言,如何构建一个真正懂得利用性策略的AI,其根本症结在于“AI的样本效率远不如人类”。人类牌手可以在短短十几手牌内就对对手的风格形成精准判断,而过去的AI需要上万手牌才能建立有效的对手模型。

然而,真正让他对策略产生颠覆性认识的,并非来自扑克,而是后来对“外交博弈”的研究。他发现,在“外交博弈”这种需要大量合作与谈判的非零和游戏中,GTO策略“完全行不通”。“你必须更好地理解并适应其他玩家,”他总结道,“在扑克里,适应是为了利用对手的弱点;而在《外交》里,适应是为了匹配对方的游戏风格。就好比在一张法语牌桌上,你不能固执地说英语,而应该切换到法语与大家交流。”

他意识到,其团队在“外交博弈”中为实现“适应性协作”而开发的技术,本质上就是一种广义的“利用性”策略。他相信,将这套技术反哺到扑克领域,将能够创造出真正懂得如何根据对手动态调整策略的、超越GTO的AI。他甚至表示:“如果我当初没有被大语言模型的惊人进展及其所预示的AGI前景深深吸引,那么我的下一个项目很可能就是去开发这种利用性扑克AI。”

从具体的博弈策略,延伸到AI对环境和他人心智的理解,Brown对当前AI领域关于“世界模型”和“心智理论”(Theory of Mind)的流行观点,也表明了自己的立场。

当被问及是否需要像杨立昆等人倡导的那样,为AI专门构建一个显式的、可预测环境动态的“世界模型”时,Brown给出了否定的答案。在他看来,这又是一个典型的、试图用人类的精巧设计来解决问题的“启发式”思路。“情况已经很明朗了:随着模型规模的扩大,它们确实会内化一个世界模型,而且这个世界模型会随着scale的提升而变得越来越好。”他坚信,对物理世界的深刻理解,将作为一种能力,在通用、可扩展的学习过程中被模型“隐式地”发展出来,而无需人为地去进行“显式地”建模。

同样的逻辑也适用于AI是否需要一个独立的“心智理论”模块来理解和预测其他智能体的行为。Brown坦诚自己的观点发生了转变:“在很长一段时间里,我持前一种观点:‘当然要显式建模’但随着时间的推移,我的看法转变了。”他现在的观点是,如果模型变得足够智能,它们会“自发地涌现出‘心智理论’这类能力”,将其他智能体的行为也作为环境的动态一部分进行隐式地、整体地建模。他将那种试图为不同智能体分别建立模型的想法,归类为“一个典型的启发式思路,它没有遵循‘苦涩的教训’,最终注定会被更通用的方法所取代。”

AlphaGo通过与自己下棋,最终达到远超人类的水平,这一成功路径让很多人相信,自我对弈(Self-Play)范式是通往超级智能的下一步。然而,Brow指出,AlphaGo的成功,很大程度上得益于围棋是一个“双人零和游戏”。在这类游戏中,存在一个明确的、可收敛的“极小化极大均衡”(minimax equilibrium),也就是GTO策略。自我对弈的过程,本质上就是在不断寻找并逼近这个最优均衡点。

然而,一旦跳出双人零和游戏的范畴,自我对弈就面临着一个难题:优化目标变得极其模糊和复杂。他反问道:“如果试图将同样的自我对弈模式应用到数学等领域,最终会得到非常奇怪的结果。例如,数学领域的自我对弈是什么意思?可能会陷入一个陷阱:‘让一个模型提出极难的问题,另一个模型去解决。’”问题在于,“模型可以提出一些虽然极难但毫无意义的问题,比如计算30位数的乘法。这对AI模型来说非常困难,但这真的是我们期望的进步方向吗?不完全是。”

因此,Brown的观点是,AlphaGo的类比在此处存在巨大的局限性。如何在开放域、非零和、合作与竞争并存的复杂问题中,为自我对弈定义一个有意义的、能够引导智能向着真正有价值的方向演化的目标函数,本身就是一个巨大的、悬而未决的挑战。

06

“测试时计算”的瓶颈

在访谈最后快答环节环节,主持人从研究方法、行业生态到对未来的预测等多个维度快速提问,问题包括顶尖实验室如何追踪和筛选海量的最新研究?当前是否存在某些环境因素(如基准测试的设计)正在无形中限制AI研究的多样性?如果“测试时计算”是下一个扩展范式,它在未来五年可能遇到的瓶颈是什么?

对于如何追踪前沿研究,Brown透露,像OpenAI这样的机构并非只是简单地浏览arXiv。他们非常关注学术研究,但面临的挑战是“很多论文在纸面上看起来很有前景,但实际应用到大规模场景时效果不佳,甚至无法复现。”因此,内部的筛选机制至关重要。“我们内部主要依靠推荐机制。有一个专门的频道,大家会在里面分享有趣的论文。”由领域内的专家进行第一轮筛选和推荐,然后团队会尝试在内部进行复现,验证其有效性和扩展性。

同时,他也指出了当前科研生态中一个令人无奈的现实,即社交媒体的影响力越来越大。“我们似乎走到了这样一步:一项研究如果不在社交媒体上获得足够多的关注,就很难引起人们的注意。”他甚至会建议与他合作的研究生,必须将研究成果发布到Twitter上,并仔细斟酌推文的呈现方式,因为这“确实有套路,而且很有用。”

在谈到限制当前研究方向的因素时,Brown直指“基准测试的设计”这一要害。他以MMLU这类流行的测试集为例,指出它们的特点是“包含了一些极其困难的问题,但同时又非常容易自动评分。”这种对“易于衡量”的偏好,实际上“限制了模型评估的范围。”他强调:“我们希望评估模型的许多能力,都体现在那些更开放、更模糊的任务上,而不是多项选择题。为这类任务设计基准要困难得多,评估成本也可能高昂得多。但我认为,这才是真正有价值的工作。”

当被问及“测试时计算”可能遇到的瓶颈时,Brown认为情况会与预训练非常相似,主要面临两大挑战。第一是成本。“让模型进行如此长时间的思考这是一个潜在的‘天花板’。”第二,也是更根本的,是物理时间的限制。“当你让模型思考的时间越来越长,就会受到实际物理时间的限制。比如一旦模型需要三个小时才能回应,事情就变得困难得多。如果它们需要三周才能回应呢?那你至少也得花三周时间来完成评估,然后才能进行下一次迭代。我们的迭代速度会因此受到根本性的限制。”

【AI技术与应用交流群|仅限受邀加入】

AI算力领域TOP级从业者专属圈层

√与头部算力企业深度对话
√与AI上下游企业深度对话√获取一手全球AI与算力产业信息√获取AI热点及前沿产业独家信息√随时了解全球AI领域高管最新观点及实录全文√有机会参与AI主题产业交流活动

扫码验证身份(需备注姓名/公司/职务)



不止有 DeepSeek,更有 AI产业的未来!



| 文章来源:数字开物
• END•
【专栏】精品再读
大模型最大的落地场景出现了|2024数字开物大会成功举办AI与数据中心出海东南亚面临两大挑战|万字圆桌实录2万字完整演讲实录:最强TPU芯片、全新AI Agent 来了|谷歌云 Next 大会黄仁勋3万字完整精校实录:"思考型token"爆发,AI infra即将巨变
何宝宏:大语言模型上半场已进入“垃圾时间”深度|“唤醒”特斯拉,进击的中国Robotaxi
页: [1]
查看完整版本: AI的终局是构建“机器文明”|OpenAI科学家最新万字访谈