强化学习是人工智能中令人兴奋的分支之一。它在游戏AI系统、现代机器人、芯片设计系统和其他应用中发挥着重要作用。
有许多不同类型的强化学习算法,但主要有两类是“基于模型的”和“无模型的”RL。它们都受到了我们对人类和动物学习的理解的启发。
几乎每一本关于强化学习的书都包含一个章节来解释无模型和基于模型的强化学习之间的区别。但是,关于计算机强化学习算法的书籍中很少讨论生物学和进化的先例。
我在《智能的诞生》(The Birth of Intelligence)这本探索智能进化的书中找到了关于无模型和基于模型的RL的非常有趣的解释。在与TechTalks的对话中,神经科学家、《智能的诞生》(The Birth of Intelligence)一书的作者Daeyeol Lee讨论了人类和动物、人工智能和自然智能的不同强化学习模式,以及未来的研究方向。
美国心理学家爱德华·桑代克(Edward Thorndike)提出了“效果定律”,这成为了无模型强化学习的基础
19世纪晚期,心理学家爱德华·桑代克提出了“效果定律”,即在特定情况下产生积极影响的行为更有可能在该情况下再次发生,而产生消极影响的反应在未来发生的可能性更小。
桑代克通过一个实验探索了效应定律。在这个实验中,他把一只猫放在一个拼图盒里,并测量猫逃离盒子所需的时间。为了逃脱,这只猫必须操纵一系列小工具,如绳子和杠杆。桑代克观察到,当猫与谜盒互动时,它学会了帮助它逃脱的行为反应。随着时间的推移,猫越来越快地逃离了盒子。桑代克得出结论,猫从它的行为提供的奖励和惩罚中学习。
效应定律后来为行为主义铺平了道路,行为主义是心理学的一个分支,试图从刺激和反应的角度来解释人类和动物的行为。
效果定律也是无模型强化学习的基础。在无模型强化学习中,智能体感知世界,采取行动,并衡量奖励。智能体通常开始采取随机行动,并逐渐重复那些与更多奖励相关的行动。
“你基本上可以看到世界的状态,一个世界的快照,然后你采取行动。之后,根据结果,你会增加或减少在特定情况下采取相同行动的概率。”“这基本上就是无模型强化学习。你能想到的最简单的事情。”
在无模型强化学习中,没有关于世界的直接知识或模型。RL代理必须通过试错直接体验每个操作的每个结果。
美国心理学家爱德华·c·托尔曼(Edward C. Tolman)提出了“潜在学习”的概念,这成为了模型学习的基础Sed强化学习
桑代克效应定律一直盛行,直到20世纪30年代,另一位心理学家爱德华·托尔曼(Edward Tolman)在研究老鼠如何快速学会穿越迷宫时,发现了一个重要的洞见。在他的实验中,托尔曼意识到动物可以在没有强化的情况下了解环境。
例如,当一只老鼠在迷宫中被释放时,它会自由地探索隧道,并逐渐了解环境的结构。如果随后将同一只老鼠重新引入相同的环境,并向其提供强化信号,例如寻找食物或寻找出口,那么它可以比没有机会探索迷宫的动物更快地达到目标。托尔曼称之为“潜在学习”。
潜在学习使动物和人类能够对他们的世界形成一种心理表征,在他们的脑海中模拟假设的场景,并预测结果。这也是基于模型的强化学习的基础。
“在基于模型的强化学习中,你开发了一个世界模型。就计算机科学而言,这是一种过渡概率,世界如何从一种状态转变到另一种状态,取决于你在其中采取什么样的行动。”“当你在一个给定的情况下,你已经学习了之前的环境模型,你会做一个心理模拟。你基本上会搜索你大脑中已经形成的模型,并尝试看看如果你采取一系列特定的行动会产生什么样的结果。当你找到了能让你实现目标的行动路径时,你就会开始行动起来。”
基于模型的强化学习的主要好处是,它消除了代理在其环境中进行试错的需要。例如,如果你听说一场事故堵塞了你通常上班的道路,基于模型的RL将允许你对替代路线进行心理模拟,并改变你的路线。使用无模型强化学习,新信息对你没有任何用处。你将像往常一样继续前进,直到你到达事故现场,然后你将开始更新你的价值函数并开始探索其他行动。
基于模型的强化学习在开发AI系统方面尤其成功,这些系统可以掌握国际象棋和围棋等棋盘游戏,在这些游戏中,环境是确定的。
在某些情况下,创建一个像样的环境模型要么是不可能的,要么是太难了。基于模型的强化学习可能非常耗时,在时间敏感的情况下,这可能是危险的,甚至是致命的。
“在计算上,基于模型的强化学习要复杂得多。你必须获得模型,进行心理模拟,你必须在神经过程中找到轨迹,然后采取行动,”李说。
然而,Lee补充说,基于模型的强化学习并不一定要比无模型的强化学习更复杂。
“决定无模型RL复杂性的是刺激集和行动集的所有可能组合,”他说。“当你有越来越多的世界状态或传感器表示时,你必须在状态和动作之间学习的配对将会增加。因此,即使想法很简单,如果有许多状态,这些状态被映射到不同的动作,你将需要大量的内存。”
相反,在基于模型的强化学习中,复杂性将取决于你构建的模型。如果环境真的很复杂,但可以用一个相对简单的模型来建模,并且可以快速获得,那么模拟就会简单得多,成本也低得多。
“如果环境倾向于相对频繁地变化,那么当世界发生变化时,与其试图重新学习刺激-作用对的关联,不如使用基于模型的强化学习,从而获得更有效的结果,”Lee说。
基本上,基于模型或无模型的强化学习都不是完美的解决方案。当你看到一个强化学习系统解决一个复杂的问题时,它很可能同时使用基于模型和无模型的rl——可能还有更多形式的学习。
神经科学的研究表明,人类和动物有多种学习形式,大脑根据对这些模式的确定性在任何给定时刻不断地在这些模式之间切换。
Lee说:“如果无模型的RL工作得非常好,并且一直都能准确地预测奖励,这意味着无模型的不确定性更小,你会更多地使用它。”“相反,如果你有一个非常准确的世界模型,你可以对每时每刻都会发生的事情进行心理模拟,那么你更有可能使用基于模型的RL。”
近年来,人们对创建结合多种强化学习模式的AI系统越来越感兴趣。加州大学圣地亚哥分校的科学家最近的研究表明,将无模型和基于模型的强化学习结合起来,可以在控制任务中获得优异的表现。
“如果你看看像AlphaGo这样复杂的算法,它既有无模型的RL元素,也有基于模型的RL元素,”Lee说。“它根据棋盘配置学习状态值,这基本上是无模型的RL,因为你要根据所有石头的位置来尝试值。但它也做基于模型的前向搜索。”
但是,尽管取得了显著的成就,强化学习的进展仍然缓慢。一旦RL模型面临复杂和不可预测的环境,它们的性能就会开始下降。例如,创建一个在Dota 2中打出冠军级别的强化学习系统需要数万小时的训练,这是人类在物理上不可能完成的壮举。其他任务,如机械手操作,也需要大量的训练和试错。
强化学习仍然难以提高效率的部分原因是我们在人类和动物学习方面的知识仍然存在差距。Lee认为,我们拥有的不仅仅是无模型和基于模型的强化学习。
“我认为我们的大脑是一个学习算法的大杂烩,它已经进化到可以处理许多不同的情况,”他说。
除了在这些学习模式之间不断切换之外,大脑还设法一直保持和更新它们,即使它们没有积极地参与决策。
“当你有多种学习算法时,如果你关闭其中一些,它们就会变得毫无用处。即使你依赖于一种算法——比如无模型rl——其他算法也必须继续运行。我仍然必须更新我的世界模型,而不是保持它冻结,因为如果我不这样做,几个小时后,当我意识到我需要切换到基于模型的RL时,它将被淘汰,”Lee说。
人工智能研究中一些有趣的工作展示了这可能是如何工作的。最近一项受到心理学家丹尼尔·卡尼曼(Daniel Kahneman)系统1和系统2思想启发的技术表明,维护不同的学习模块并并行更新它们有助于提高人工智能系统的效率和准确性。
我们还需要解决的另一件事是如何在我们的人工智能系统中应用正确的归纳偏差,以确保它们以经济高效的方式学习正确的东西。数十亿年的进化为人类和动物提供了有效学习所需的归纳偏差,并尽可能少地使用数据。
“我们从环境中获得的信息非常稀少。利用这些信息,我们必须进行推广。原因是,大脑有归纳性偏见,有可以从一小部分例子中归纳出来的偏见。这是进化的产物,许多神经科学家对此越来越感兴趣,”李说。
然而,虽然归纳偏差对于物体识别任务可能很容易理解,但对于建立社会关系等抽象问题来说,它们就变得复杂得多。
“归纳偏差的概念是相当普遍的,不仅适用于感知和物体识别,而且适用于智能生物必须处理的各种问题,”李说。“我认为这在某种程度上与基于模型和无模型的区别是正交的,因为它是关于如何根据一些观察建立复杂结构的有效模型。我们需要了解的还有很多。”