大模型“缩放定律”悖论:RL(强化学习)越强,AGI(通用智能)越远?_今日精选
(资料图片仅供参考)
在人工智能迈向通用智能(AGI)的竞赛中,当前最受追捧的强化学习(RL)路径,可能正将我们引向一条歧路——RL越强,距离真正的AGI或许越远。
12月24日,知名科技博主、Dwarkesh Podcast博客主持人Dwarkesh Patel今日发布了一则引发行业深思的视频,直击当前大模型发展的痛点。在硅谷普遍对Scaling Law(缩放定律)和RL(强化学习)持极度乐观态度的背景下,Patel提出了一个反直觉的犀利观点:对RL(强化学习)的过度依赖和投入,可能非但不是通往AGI的捷径,反而是其远未到来的明确信号。
Patel的核心论点在于,当前顶尖AI实验室正耗费巨资,通过基于可验证结果的强化学习,为大模型“预制”大量特定技能,例如操作Excel或浏览网页。然而,这一做法本身就构成了逻辑上的冲突。他犀利地指出:“如果我们真的接近一个类人学习者,那么这套在可验证结果上进行训练的整个方法就注定要失败。”
在Patel看来,这种“预置”技能的模式,恰恰暴露了当前模型的根本缺陷。人类之所以在工作中具有价值,正是因为我们不需要为工作的每一个细微部分都建立专门的“繁琐训练循环”。一个真正的智能体应该能够通过经验和反馈自主学习,而不是依赖于预先排练好的脚本。如果AI无法做到这一点,那么其通用性就大打折扣,离真正的AGI也就相去甚远。
因此,Patel认为,通往更强大AI的真正驱动力,并非无尽的RL(强化学习),而是“持续学习”(Continual Learning)——即像人类一样从经验中学习的能力。他预测,解决持续学习问题不会是一蹴而就的“单一成就”,而会是一个渐进的过程,类似于模型在“上下文学习”能力上的逐步演进。这个过程可能需要“5到10年才能完善”,从而排除了某个模型因率先破解该难题而获得“失控优势”的可能性。
核心要点提炼:
视频文字全文实录(由AI工具翻译):
重返巅峰!王曼昱爆发原因揭晓,赢陈梦吐露心声,马琳用人受质疑