Bitter Lesson http://www.incompleteideas.net/IncIdeas/BitterLesson.html 痛苦的教训 作者:Rich Sutton 2019年3月13日 从人工智能研究的 70 年历史中能够读出的最大教训是:利用计算能力的通用方法最终最为有效,并且差距巨大。其根本原因在于摩尔定律,或者更一般地说,是“单位计算成本持续以指数级下降”的趋势。大多数 AI 研究都是基于这样一种假设:智能体所能使用的计算资源是固定不变的(在这种情况下,利用人类知识或许是提升性能的唯一途径)。但从比典型研究项目稍长的时间尺度来看,大规模的计算资源不可避免地变得触手可及。研究者为了在较短期内获得提升,会努力融入他们对领域的人类知识;然而,从长远来看,唯一重要的就是对计算资源的有效利用。两者原本不必对立,但现实中却往往相互排斥。投入在一方面的时间,就意味着无法投到另一方面。而且基于人类知识的方法常常会使系统更加复杂,从而不利于应用那些能充分利用计算资源的通用方法。纵观 AI 历史,有许多案例都证明了研究者在这点上“后知后觉”,值得回顾这些最具代表性的例子。
在计算机国际象棋领域,击败国际象棋世界冠军卡斯帕罗夫(Kasparov)的 1997 年系统主要依靠大规模的深度搜索。当时,大多数计算机国际象棋研究者对这一结果感到沮丧,因为他们投入大量精力研究如何利用人类对国际象棋特殊结构的理解。当时,凭借简化的搜索方法以及专门的硬件和软件,整个系统在性能上远胜于依赖人类知识的方法,这些研究者都难以接受。他们声称“蛮力”搜索也许这一次赢了,但并不是通用策略,也不符合人类下棋的方式。这些研究者更希望那些基于人类经验输入的方法能够赢,所以当事实并非如此时自然感到失望。
在计算机围棋的研究中也出现了类似的发展模式,只不过推迟了 20 年。早期的巨大努力都用于避免大规模搜索,转而利用人类知识或围棋的特殊特征,但当大规模搜索得到有效应用后,这些努力都变得无足轻重,甚至适得其反。此外,自对弈学习价值函数也至关重要(这一点在许多其他游戏以及国际象棋中也有体现,不过在 1997 年打败世界冠军的国际象棋程序中,学习并未发挥主要作用)。无论是搜索还是学习,都是在 AI 研究中利用大量计算资源的最重要手段。正如在国际象棋中一样,计算机围棋最初投入了大量精力来利用人类对围棋的理解(以减少搜索需求),但直到后来,人们拥抱