专题文章2026-06-02👁 29,400

写不出新歌的复读机——图灵奖得主萨顿,用一个老笑话,戳破了这个时代最大的AI幻觉

2026年5月,强化学习之父、图灵奖得主理查德·萨顿录了一段演讲,用一个流传几十年的老笑话,对整个生成式AI时代下了死亡诊断书:「好的那部分,不新颖;新颖的那部分,不好。」他说的不是在批评ChatGPT,他说的是:生成式AI,永远成不了科学家。而贝夫把这个理论发到X上,马斯克回了两个字——Good point。

写不出新歌的复读机——图灵奖得主萨顿,用一个老笑话,戳破了这个时代最大的AI幻觉

那个赢过一次的老人

2026年5月,一个老人重新开口了。

他叫理查德·萨顿——强化学习之父,图灵奖得主,没有「之一」。他从1980年代就开始研究强化学习,和老师巴托合著的《强化学习》,是全世界AI研究生的圣经教材。

2019年,他写了一篇几千字的文章,叫《苦涩的教训》。核心论点只有一句话:凡是靠人类小聪明、靠人工设计规则去做的AI,最终都会被「规模+通用算法」彻底碾压。

结果:3年后ChatGPT横空出世,字字应验。萨顿,赢了。

所以当这个「赢过一次」的老人,在2026年重新站出来说「规模这条路,也有尽头」——你最好认真听一听。

那个老笑话

萨顿这篇演讲,是给一个专门研究「怎么用AI做科学发现」的基金会录的。连陶哲轩这种顶级数学家都参与其中。

他一上来,没讲技术,讲了一个老笑话:

> 有一个研究员,把论文交去评审,意见回来写着——「这篇研究,既新颖,又好。遗憾的是——好的那部分,不新颖;新颖的那部分,不好。」

这个流传了几十年的、专门用来嘲讽学术废物的笑话,被萨顿用来精确描述2026年所有生成式AI的本质。

他说:这个评价,一字不差,适用于今天我们所有的生成式AI。

为什么「好」和「新」永远互斥

萨顿的逻辑很清晰:生成式AI的输出,来源只有两个。

第一个:训练数据。 AI模仿它学过的一亿篇文章,输出「好」的东西——但这个「好」,本质上是从人类那里抄来的,不新鲜。

第二个:随机性。 AI内部有个「掷骰子」机制,偏离训练数据,走没人走过的路——这带来了「新」,但同时也偏离了「好」的来源,所以往往是错的。

你天天听到的那个词——幻觉——本质上就是AI在尝试「新颖」,但因为没有任何东西来验证,所以那个「新」,往往不好。

好,来自数据,但不新。新,来自随机,但不好。天然互斥,永远无法兼得。

萨顿补了一句公道话:对99%的日常用途,这根本不是问题。总结文档、写代码、翻译——你要的是「好但不新」,生成式AI是完美的工具。

但对科学,这是致命的。 科学的本质恰恰就是「既新又好」——发现一个前人没发现过的、正确的真理。而一台模仿机器,永远,成不了科学家。

发现的公式

那么,真正的「发现」需要什么?

萨顿给出了一个公式,只有三步:

1. 变异(Variation):先生成大量可能性,怎么古怪都行

2. 评估(Evaluation):用明确标准判断哪个好、哪个烂

3. 选择性保留(Selective Retention):留好的,扔烂的,再次瞎试

你认识这个公式——它叫达尔文进化论。也叫科学方法。也叫你学骑自行车的过程。

而生成式AI,致命地缺了第二步——评估

在「推理阶段」(AI真正干活的时候),它没有任何实时机制判断自己的输出好不好。它是「裸奔」的。那些天才的火花,像萨顿说的,「会像火花一样,一闪而过,然后熄灭,被永远浪费掉。」

对比之下,AlphaGo的第37手——那步人类几百年没走过的神之一手——之所以能诞生,恰恰是因为AlphaGo有评估:它内部有个实时裁判,能算出每步棋的胜率。这就是那座灯塔。

同样的道理,萨顿在演讲里专门点名了Claude Code:写代码自带评估——AI写完代码,运行,报错或通过,这本身就是一个完整的「发现循环」。代码的执行环境,就是那座灯塔。这就是为什么AI在编程领域进步最快。

他等了这一天,等了40年

萨顿的时机选择,意味深长。

整个行业开始传出「规模定律撞墙了」的声音,堆参数的边际收益在肉眼可见地下降。就在这个节点,一个搞了40年强化学习、被边缘化了整整十年的老人,站出来说:「纯模仿,有天花板。要真正突破,你们得回到发现——回到我搞了40年的那个东西。」

而整个行业,已经在悄悄验证他说的话。o1、o3、R1这一代「会思考」的模型,本质上就是在生成式AI的基础上,硬生生装上了萨顿一直说的「评估」环节。

他不是在追热点。他是在所有人追热点之前画好地图,然后等着所有人走进来。

马斯克的两个字

物理学家出身的硅谷「有效加速主义」旗手贝夫·杰索斯,看完萨顿的演讲,发了一条帖子:

> 「Grok应该成为全世界最擅长发爆款帖的AI。人类是怎么变成发帖高手的?靠强化学习。你发帖,获得点赞转发,根据反馈迭代。而马斯克手里有全世界最好的这种数据——X平台上每秒钟的几十亿次互动。但xAI没有把这个反馈回灌进模型里。」

翻译成萨顿的公式:变异✓(Grok生成候选帖子),评估✗(X平台反馈数据还没接入),保留✗(还没做)。

马斯克,一个人,同时握着最大语言模型之一(Grok)和最大实时社会反馈数据集(整个X平台)。他握着变异的引擎,也握着评估的灯塔。但这两样东西,还没有被接到一起。

马斯克回了两个字:Good point.

达尔文,和你

萨顿把AI世界拉回到了一个古老的哲学分野:拉马克式,还是达尔文式

拉马克说,长颈鹿天天伸脖子,所以脖子变长,然后直接遗传给下一代——直接继承后天获得的智慧。今天所有的生成式AI,就是这个路子:直接继承人类已经写好的一亿篇文章。

达尔文说不对:脖子有长有短(变异),长的更容易活(评估),代代筛选(保留)。这才是真正创造出新物种的方式。

而「发现循环」,不只是关于AI。它关于一切创造——包括你自己的人生。

你,是一台「模仿机器」,还是一台「发现机器」?

读书背标准答案,工作复制别人的路径,投资跟着「别人都在买」走——这是精密的拉马克式人生。它让你过得「还不错」,就像生成式AI能很好地总结文档一样。但它永远不会让你做出属于自己的发现。

你缺的,不是努力。是一座属于自己的灯塔——一套独立的评估标准,而不是用「别人怎么说」来判断对错。

萨顿那个算法的核心,叫「持续反向传播」:定期杀死最偷懒的神经元,强行注入新鲜血液,保持终身可塑性。

翻译成人话就是:逼自己,定期接触你最抗拒的、最不舒服的新东西。让变异,永不停止。

复读机再贵、再精密,也写不出一首新歌。

而新歌,从来都属于那些,敢于瞎试、并且听得见自己内心那座灯塔的人。

本文同步发布于 YouTube,观看完整视频请前往 YouTube @pizypizy
#AI#强化学习#萨顿#生成式AI#马斯克#Grok#规模定律

📬 邮件订阅

留下邮箱,马斯克帝国每日资讯更新时通知你

评论 (0)

加载中...