AI杂谈(七十五):2025年图灵奖得主Richard Sutton:科学领域没有权威
作者:微信文章前言:Sutton的图灵奖时刻
3月5日,现代计算强化学习的奠基人之一,加拿大计算机科学家Richard Sutton荣获2025年度图灵奖。Sutton接到那通改变人生的视频电话时,这位强化学习之父正沉浸在日常研究中,他以为是个普通会议邀请,后来把这事给忘了,组委会不得不再打电话给他,结果一上线——满屏都是图灵奖得主!这份科学家的纯粹,恰似他深耕AI领域40余载的缩影:不追风口,只问本质。
强化学习:AI界的“自学成才”之道
在ChatGPT掀起模仿人类的热潮时,Sutton却认为:“很多事情都不是从经验中学习。我是说从人类那里学习,显然大语言模型是从人类那里学习的,因为它们模仿人类。甚至人类反馈的强化学习(RHLF)也高度依赖人类的指导。而强化学习是关于从经验中学习,经验是显而易见的学习方式。所以我真的认为这是显而易见的事情。强化学习是理所应当的。”真正的智能应该像婴儿学步——自己摔倒了才知道怎么站稳。
有三个关键词诠释强化学习:
1、经验为师:不靠人类标注数据,AI通过试错与世界对话(比如AlphaGo自己和自己下棋百万局) 。
2、反馈是金:不需要手把手教“该往左走三步”,只需告诉它“这局赢了”,就像教小狗接飞盘。
3、延迟满足:眼前看似无用的探索(比如机器人绕远路),可能是通向重大突破的阶梯
这也许是最自然的学习方式。从图灵1947年首次提出“能从经验中学习的机器”,到如今大模型涌现,这条被忽视的赛道正迎来高光时刻。
AI马拉松:跑得慢的人赢在终点
当世人惊叹于AI的爆发式增长,但Sutton不赞同“现在一切发展得太快了”的观点,认为虽然AI已经取得了巨大的进步,但这是一场马拉松,而非短跑,我们还有很长的路要走,AI最具影响力的那些方面尚未到来。以DeepSeek和AlphaGo为例,两次“AI斯普特尼克时刻”看似颠覆,实则是量变的积累。Sutton眼中AI的终极形态,应该像人类大脑般在混沌中捕捉规律,而非依赖海量标注数据。
科学真谛:在权威之上重建真理
手握计算机界诺贝尔奖,Sutton却说出一句震惊四座的话: “科学领域没有权威”。他认为,我们每个人能做出的最重要贡献,往往是对我们自己来说显而易见的事情。我们对它如此熟悉,唯一的问题是我们可能没意识到别人并未看到这一点。我们应该倾听那些以不同方式思考的人,应该拓宽“奥弗顿之窗”,让更多可能性进入视野。Sutton认为这非常重要,是他思考方式的核心。
结语
最伟大的发现往往藏在“常识盲区”里,保持谦逊与野心,恰是AI革命最需要的品格:既要敢想“重构智能本质”,又要警惕技术霸权。
页:
[1]