因果强化学习 (Casual Reinforcement Learning) | Intro
在统计学中,人们普遍认为关联在逻辑上不等同因果关系。
根据莱辛巴赫的共同原因原理:如果两个随机变量 X 和 Y 在统计学上是相互依存的,那么下面的一个因果关系必须成立:
- X 导致 Y;
- Y 导致 X;
- 存在一个随机变量Z ,它是引起 X 和 Y的共同原因。
因此,与关联相比,因果的关系更进一步,探索变量之间本质的关系,因果推理的根本任务是揭示不同变量之间的因果关系。
理解一个因果结构使我们需要具备一下能力:
- 预测如果某些变量被干预会发生什么;
- 评估影响干预及其结果的混杂因素的影响;
- 使我们能够预测到之前从未观察到的情况。
那么Pearl提出过一个因果层级 (Casual hierachy)。
第一层就是观察变量之间的关系,变量 X 改变的时候,Y 最有可能变成什么。也就是说患一个疾病会带来哪些症状,其实现在大部分的算法都是在做这个事情,比如机器学习中的一些回归算法,包括神经网络的拟合。
第二层就是对于变量进行干预,当我们强制变量 X 的值为一个特定的值的时候,会对 Y 产生什么影响。也就是如果我吃了阿司匹林,我的头疼能否被治愈;
第三层是反事实推理,这个层次一直停留在想象层面,也就是最根本的为什么的问题。比如我头疼的前一天熬了一整个通宵,第二天我感到头疼后,吃了阿司匹林,好好的睡了一觉,那这时候治愈我头疼的到底是我恢复的睡眠还是我吃的药呢。
在干预层面,有一个很著名的推演就是DO-CALCULAS。在我们强制一个变量 X 的值为特定值的时候,其他混淆因素对于他的干扰联系就被切断了,因为无论干扰的因素是什么, X 的值都不会改变。
在因果推理中实施干预的一个自然想法是利用强化学习中的action概念,agent可以根据当前的状态,通过采取不同的干预来观察环境状态的变化,并获得及时的回报。然而agent的目标是最大化累积的reward,这表明强化学习本身并不具备因果推理的能力,可以用因果推理进行状态之间或者状态和动作之间因果关系的推断来减少状态或者搜索空间,处理混淆,帮助强化学习更有效地学习价值函数或者策略。
人类总是以一种类似因果强化学习的方式前进,人类与大自然交互总结出规律和经验,然后利用这些经验提高自己在下一次探索中的适应能力,因果强化学习就是模拟人类的行为,从与环境沟通的agent那里学习因果关系,然后根据所学到的因果关系优化其策略。
一个结构因果模型 (SCM, Structual Casual Model) 由一个四元组
在因果强化学习中,代理可以根据环境给定的结构因果模型通过对变量的干预和观察学习因果图。
在利用因果推理处理强化问题的时候,主要由三种方法,第一个是Online-learning,也就是agent通过实验来学习P(Y|do(X))。
第二个是Off-policy learning,也就是代理通过其他代理的干预数据学习。通过其他代理的P(Y|do(X))学习干预后的分布P(Y|do(X))。
第三个是Do-calculus learning, 也就是代理观察其他代理的行为。通过其他代理的观测数据学习P(Y|do(X))。
因果强化学习已经有了一个tutorial,在https://crl.causalai.net/上有相应的视频和文档,在https://stjohngrimbly.com/causal-reinforcement-learning/中有对于tutorial的说明。在这个tutorial中介绍了因果强化学习中的六个任务,也就是
- Generalized Policy Learning
- Interventions: Where and When?
- Counterfactual Decision Making
- Generalizability and Robustness of causal claims
- Learning Causal Models by combining observations (L1) and experiments (L2)
- Causal Imitation Learning
1.第一个任务是广义策略学习。
2.第二个任务的重点是如何确定系统中最佳干预区域的问题。这对于 RL 代理来说显然非常重要,因为它的整个学习机制都基于对某些具有反馈机制的系统的干预。
3.第三个任务涉及应用反事实数量来提高学习性能。这对于 RL 代理来说显然非常重要,因为它的整个学习机制都基于对系统的干预。
4.第四个任务概括了不同环境之间数据传输的概念。当我们将来讨论模仿学习时,这将证明很重要。对于那些来自更纯粹的强化学习背景的人来说,能够概括关于我们可以在何时何地在相关领域之间转移知识的结果对于通用代理显然是有用的。
5.第五个任务介绍了与因果推理和强化学习相关的该领域的当前状态。
6.因果模仿学习的核心仍然是一个简单的目标,有严格的方法将因果技术与模仿相结合,使用 RL 的学习过程。