Bitter Lesson http://www.incompleteideas.net/IncIdeas/BitterLesson.html 痛苦的教训 作者:Rich Sutton 2019年3月13日 从人工智能研究的 70 年历史中能够读出的最大教训是:利用计算能力的通用方法最终最为有效,并且差距巨大。其根本原因在于摩尔定律,或者更一般地说,是“单位计算成本持续以指数级下降”的趋势。大多数 AI 研究都是基于这样一种假设:智能体所能使用的计算资源是固定不变的(在这种情况下,利用人类知识或许是提升性能的唯一途径)。但从比典型研究项目稍长的时间尺度来看,大规模的计算资源不可避免地变得触手可及。研究者为了在较短期内获得提升,会努力融入他们对领域的人类知识;然而,从长远来看,唯一重要的就是对计算资源的有效利用。两者原本不必对立,但现实中却往往相互排斥。投入在一方面的时间,就意味着无法投到另一方面。而且基于人类知识的方法常常会使系统更加复杂,从而不利于应用那些能充分利用计算资源的通用方法。纵观 AI 历史,有许多案例都证明了研究者在这点上“后知后觉”,值得回顾这些最具代表性的例子。
在计算机国际象棋领域,击败国际象棋世界冠军卡斯帕罗夫(Kasparov)的 1997 年系统主要依靠大规模的深度搜索。当时,大多数计算机国际象棋研究者对这一结果感到沮丧,因为他们投入大量精力研究如何利用人类对国际象棋特殊结构的理解。当时,凭借简化的搜索方法以及专门的硬件和软件,整个系统在性能上远胜于依赖人类知识的方法,这些研究者都难以接受。他们声称“蛮力”搜索也许这一次赢了,但并不是通用策略,也不符合人类下棋的方式。这些研究者更希望那些基于人类经验输入的方法能够赢,所以当事实并非如此时自然感到失望。
在计算机围棋的研究中也出现了类似的发展模式,只不过推迟了 20 年。早期的巨大努力都用于避免大规模搜索,转而利用人类知识或围棋的特殊特征,但当大规模搜索得到有效应用后,这些努力都变得无足轻重,甚至适得其反。此外,自对弈学习价值函数也至关重要(这一点在许多其他游戏以及国际象棋中也有体现,不过在 1997 年打败世界冠军的国际象棋程序中,学习并未发挥主要作用)。无论是搜索还是学习,都是在 AI 研究中利用大量计算资源的最重要手段。正如在国际象棋中一样,计算机围棋最初投入了大量精力来利用人类对围棋的理解(以减少搜索需求),但直到后来,人们拥抱了搜索和学习,才取得了更大的成功。
在语音识别领域,1970 年代美国国防高级研究计划局(DARPA)曾经举办过一次早期的竞争。参赛者中有很多方法依赖于人类知识——比如对于词汇、音素以及人类声道等的专业理解;另一边则是更新的、更加依赖统计并进行大量计算的隐马尔可夫模型(HMM)方法。结果表明,统计方法最终胜过了基于人类知识的方法。这一胜利引发了自然语言处理领域几十年的重大变革,统计与计算逐渐成为主流。近年在语音识别领域深度学习的崛起,正是这一趋势的最新阶段。深度学习方法更少地依赖人类知识,更多地利用大规模计算与大规模数据集上的学习,带来了显著更好的语音识别效果。与之前在游戏领域的情况类似,研究者总是试图构建与人类思维相似的系统——将我们对思维的认识“内置”于系统之中,但事实证明,这在长远来看效果并不好,而且当摩尔定律带来的海量计算资源出现并能被有效利用时,研究者大量投入在此的时间就显得非常浪费。
在计算机视觉领域,同样可以看到类似的历程。早期的方法把视觉过程设想为对边缘、广义圆柱体或者 SIFT 特征的搜索,但如今这些都已被淘汰。现代的深度学习神经网络只基于卷积和某些不变性的概念,就能取得远胜以往的结果。
这是一个重大教训。整个领域仍然没有充分吸取这个教训,我们依旧在不断重蹈覆辙。要认识到这一点并有效抵制,我们需要理解这些“错误”吸引人的原因。我们必须真切体会这个“痛苦的教训”:基于我们对自身思维的假设来构建系统,在长远来看是行不通的。这个教训的历史依据可以归结为以下几点:1)AI 研究者常常试图将知识内置到智能体中;2)这样做短期内确实有效,也能给研究者带来满足感;但是 3)从长远看,这种方法会陷入瓶颈,甚至阻碍进一步的进展;4)最后的重大突破往往来自一个相反的方向,即基于搜索和学习,通过大规模计算来实现的。取得突破时,人们常常带着苦涩,因为这代表一种人类中心方法的挫败。
从这个痛苦的教训中可以得出的第一个启示,是要充分认识到通用方法的巨大力量,尤其是能随着计算资源的增加而持续扩展的方法。目前看来,搜索和学习是唯二能在计算量不断扩大的情况下继续扩展的方法。
第二个启示则在于,我们应该认识到心智的具体内容极其复杂,几乎无法被彻底简化。我们要停止去寻找那些对心智内容的简单描述方式,比如对空间、物体、多智能体或对称性的简单抽象。这些都属于外部世界本就错综复杂、近乎无穷的内容,并不应当被硬编码到系统之中。相反,我们只应当设计可以学习并捕捉这种任意复杂性的“元方法”。这些方法的核心是能找到合适的近似,但搜索这些近似的方法应该由系统本身完成,而不是依赖我们去预先发现。我们希望人工智能像我们一样去发现真理,而不是只被动地包含我们已经发现的知识。将我们自己发现的结论预先写进系统,只会让人更加难以理解系统本身的“发现”过程是如何进行的。
===
以下是一篇对原文的深度分析与讲解,从文章背景、核心观点、典型案例和意义启示几个方面阐述“痛苦的教训”带给我们的思考与影响。
- 背景与动机 作者 Rich Sutton 是强化学习领域的重要人物。他在 2019 年发表了这篇文章,总结了自人工智能(AI)诞生以来(大约 70 年)的发展历程中,屡次被验证的“痛苦教训”(The Bitter Lesson)。这个教训的核心是: 基于通用方法并充分利用不断增长的计算能力的策略,从长期来看远胜于那些依赖人类知识或手工构造的专业方法。 这在人工智能研究的多个分支(如象棋、围棋、语音识别、自然语言处理、计算机视觉等)反复出现,但很多研究者往往“后知后觉”,甚至在客观事实面前依旧会抱有对“人类知识主导”的执念。 为什么叫“痛苦的教训”?
- 对研究者而言,基于人类先验知识的模型和算法通常更“优雅”,也符合人类的认知直觉,因此短期内往往更能带来满足感或阶段性成果。
- 然而,随着硬件计算能力不断爆发式提升(遵循“摩尔定律”或更广义的“计算指数增长”规律),那些“粗暴”但通用的大规模搜索与学习算法在长期内往往会超越那些基于人类知识的复杂策略。
- 当研究者发现自己苦心构造的“精妙”结构最终不敌简单但可扩展的搜索与学习时,这种“失败”就显得颇为苦涩——因而称之为“痛苦的教训”。
- 核心观点 作者在文中明确指出,AI 研究中经常会遇到下列情形:
- 人类知识方法:研究者根据对某一领域的深入理解,将自己的专家知识或对思维过程的“猜测”写进程序。这种方法在一开始常能起到作用,因为它更符合现实的专业结构或规则,也能在相对有限的计算资源下较好地提升性能。
- 通用方法(搜索与学习):研究者依赖能不断“扩容”的大规模计算,通过搜索算法或自动学习(尤其是自我博弈学习、深度学习等),让机器“海量尝试”或“自我迭代”,最终找到比人类手工设计更优的解决方案。 短期和长期的矛盾往往是这类冲突出现的根源:
- 短期:研究者希望在论文或实验的时限内做出可见的成果,用人类知识“硬编码”常能很快获得一些进展。
- 长期:一旦计算资源激增,搜索与学习所能进行的大规模迭代往往能达到人类手工设计难以企及的水平,从而实现质的飞跃。 因此,作者反复强调: “我们应该着力开发能随着计算规模提升而‘水涨船高’的通用性方法。这些方法不应过度依赖特定领域的专业知识,而应更多地依赖搜索与学习的能力。”
- 典型案例分析 文中提到了多个领域的发展历史来印证“痛苦的教训”: 3.1 国际象棋
- 1997 年,IBM 的“深蓝”(Deep Blue)击败世界冠军卡斯帕罗夫。
- 深蓝的成功主要依靠大规模深度搜索,配合专用硬件与软件。
- 当时许多研究者更想通过“棋谱专家系统”或“人类对棋局结构的理解”来指导机器下棋,然而事实证明,强力搜索在计算能力支撑下击败了更基于人类知识的对手。
- 许多坚持“人类知识主导”的研究者对于深蓝的胜利并不甘心,质疑其只是“蛮力算法”,不够优雅和“智能”,但历史结果说明,真正获胜的方法恰恰是能利用大规模计算资源的搜索。 3.2 计算机围棋
- 围棋比国际象棋复杂得多(搜索空间更庞大),因此早期很多人认为深度搜索不太可行,于是更倾向于利用围棋专业知识来简化问题或进行局部处理。
- 这一切在谷歌 DeepMind 团队利用深度学习 + 蒙特卡洛树搜索(MCTS)击败顶尖职业棋手李世石之后走到了终点。
- 事实上,AlphaGo 以及后续版本 AlphaGo Zero、AlphaZero 等,依赖的核心也是自对弈自学习与强力搜索的结合。随着计算力的提升,它们不再需要人类的定式知识或超多的手工特征,而是通过“海量自学”超越了人类水平。
- 围棋的案例让更多人清楚看到:人类对游戏本身的理解在大规模搜索+学习面前,很可能并不是最优捷径。 3.3 语音识别
- 1970 年代的 DARPA 语音识别竞赛里,很多方法用到了对人类语音系统的理解:分词、音素、声道模型、发音规则等。
- 与之对应,使用**隐马尔可夫模型(HMM)**的统计方法在当时胜出。HMM 的优势是更通用、更适合自动大规模训练和推断。
- 这种胜利逐步渗透到自然语言处理的更多领域,统计与数据驱动的方法兴起,也逐渐淘汰了许多依赖专家系统的方法。
- 近些年,深度学习崛起则更是将这种趋势放大,尤其在语音识别里,RNN、Transformer 等模型在超大规模数据集和算力的支持下,性能突飞猛进,极大减少了手工特征设计的必要。 3.4 计算机视觉
- 早年的视觉研究集中在边缘检测、几何模型(如广义圆柱体)或关键点检测(如 SIFT)等方面,希望结合人类对物理世界和视觉系统的理解进行图像理解。
- 但如今主流的图像识别方法几乎都是深度卷积神经网络(CNN),依赖于大量标注数据和大规模算力做训练,且模型设计相对统一(卷积操作、归一化层、激活函数等),并无多少人工特征或人类视觉结构的显式嵌入。
- 事实证明,这种通用型的卷积网络在很多任务上轻松超越了手工设计的特征工程方案。
- 深层次原因与启示 4.1 短期 vs 长期收益 短期内,在算力有限的情况下,利用人类知识确实能够帮助模型快速提升性能;研究者也能更快发表论文,获得回报。 长期,摩尔定律或同类的“计算爆炸”趋势不断改变算力的规模上限。当算力再上一个甚至几个数量级,单纯利用海量计算让机器自己“搜索”或“学习”,往往能最终超越手工设计的复杂特征。 4.2 可扩展性
- 一套方法如果能随着计算资源的增长而线性甚至超线性提升性能,就会在未来算力充足时有巨大优势。
- 作者指出,搜索和学习正是这样两个最重要的通用策略。搜索能将庞大的可能性空间有效地探索,而学习则能在海量数据或自对弈中不断更新模型的参数。
- 而那些植入大量“领域知识”的方法通常并不具备良好的可扩展性,一旦规模扩大,里面的人类知识反而会成为瓶颈。 4.3 复杂性与心智
- 作者提出另一个要点:人类心智本身极为复杂。我们以为可以通过先验几何或逻辑规则去“模拟”或“解析”心智,但其实现实世界信息与人的思维过程极其错综庞大。
- 与其妄想对空间、物体、多智能体互动或对称性等有一种简洁完美的理论,不如开发能自主学习、可动态适应的“元方法”——让系统自己去发现如何高效表征这些复杂性。
- “痛苦的教训”告诫我们:过度将人类对世界的理解“硬编码”到系统中,只会在未来限制机器更大规模的学习和适应能力。
-
对未来 AI 研究的意义
-
拥抱大规模计算:当下已经进入“大模型”与“海量算力”的时代,DeepMind、OpenAI 等机构在引领风潮,各类通用模型(如 GPT 系列、Vision Transformer 等)也在显示出惊人的性能。正如文中指出,这些都是“搜索”和“学习”大规模应用的实践。
-
减少对“人类知识”的过度依赖:领域知识仍有用,但要慎重评估其投入和产出。对于那些能通过大数据和强计算自动学习到的特征,人类或许无需花费过多精力加以人工干预。
-
方法论上的平衡:作者并不是说完全摒弃人类知识,而是要警醒我们不要以“人类知识”为终极依赖。大规模搜索与学习是“主旋律”,而专家知识只能在一定程度上辅助或加速系统收敛,不应将它当作方法的核心结构。
-
对教学与研究思路的启示:对学生和研究人员来说,“痛苦的教训”意味着掌握通用的搜索算法、概率统计方法、深度学习框架与思考如何“扩展计算规模”的工程能力也许比钻研某个狭窄领域内的手工知识更具长远价值。
-
总结 Rich Sutton 所说的“痛苦的教训”是对人工智能历史上一系列技术路线竞争结果的反思。它强调了利用计算能力的通用方法(尤其是搜索与学习)在长周期发展中的核心地位,并对过度依赖人类知识的方法所带来的短期快感与长期局限做出了尖锐的分析。
- 痛苦之处在于:这与很多研究者对“智能”的直觉或对“优雅方法”的追求相违背;他们想要让机器按照人类的思维方式来解决问题,但现实表明,“大规模搜索和学习”反而走到了前面。
- 教训在于:即使在今天的深度学习时代,依然要牢记这一点——不断增长的算力将进一步带来指数级飞跃,AI 研究者最好将重心放在如何让系统“自我发现”并高效利用海量资源,而不是投入过多在人工构造的知识上。 从一个更宏观的视角看,“痛苦的教训”并不是鼓吹无脑计算,而是提醒: “我们应该搭建那些能利用海量数据、海量算力并且可在大规模条件下持续改进的通用算法或框架;尽量避免自以为‘聪明’的人工规则或狭窄先验,留给系统自身去学习如何最优地表征世界的复杂性。” 这就是该文章最核心、最持久的启示。