CRL | TASK 1 广义策略学习
关于广义的策略学习,它的任务就是根据一个给定的因果图,学到agent的最佳策略,有一篇文章就是在IJCAI2017上面发表的Transfer Learning in Multi-Armed Bandits。 这篇文章将强化学习中的迁移学习和因果推理的理论相结合,在两个多臂老虎机代理的上下文中完成迁移,作者提供了一个从可用的分布中包含的可用的知识中提取因果界限的方法。
离线的策略学习设计从一组固定的数据中进行学习,这对于数据的要求很高,而在线的策略学习通常能够及时的学习,但是对于时间有所限制,这种方法需要灵活性没因为数据可能会随着时间的推移而变化。此类代理通常需要大量的时间进行训练,迁移学习旨在应用先前的知识和经验提高学习的性能,解决学习过程中的低效问题,类似与人类如何利用先前的知识来解决新的任务。这个过程中的主要问题就是如何在存在未观察变量的混杂因素的情况下进行迁移学习。
本文的贡献如下:
- 用因果的语言定制了跨多臂赌博机的迁移学习,并将其与识别因果效应和off-policy评估的算法结合起来;
- 对于因果效应不可识别的三个经典的任务,提供了一个有效的方法来从可用的分布中提取知识作为预期的奖励的边界(因果边界)。
- 提出了两种以因果边界为输入的MAB算法。
多臂赌博机问题类似于我们去游戏厅玩的游戏,假设我们买了100个游戏币,游戏机上有十个摇杆,每次我们开始游戏的时候都要塞进去一个游戏币,拉动一个摇杆,这个游戏机会以一定的概率吐出几个游戏币。也就是在给定游戏币的情况下,我们每次会选择一个动作,观察拉动摇杆的奖励。那实际情况中呢,所有摇杆的分布是不一样的。在之前的工作中,解决多臂老虎机的方法有基于贪婪和上置信界的算法。
基于贪婪的方法就是每次我们都选择奖励最多的摇杆,但是产生的问题是我们可能仍然存在未探索过的摇杆,那么应该怎么平衡探索和利用。
还有一类方法就是基于上置信界的算法。初始状态我们假设每个老虎机的分布都是相同的,这个问题的核心就是我们要探索每个老虎机的平均期望。每一轮选择的时候我们都会选择拥有最大上界的老虎机。上下文赌博机是MAB的一种变体,代理可以观察与奖励信号相关的额外信息。那么随机的MAB代理被赋予一个结构因果模型,X表示手臂的选择,Y表示奖励,