《强化学习实战：强化学习在阿里的技术演进和业务创新》| 每天读本书

2019-06-18 23:50:00

强化学习实战：强化学习在阿里的技术演进和业务创新

近年来，随着与深度神经网络的结合，强化学习在以Atari2600和围棋为代表的游戏领域取得了突破性的进展。

与学术界关注的方向不同，在阿里巴巴，我们则将重点放在推动强化学习技术输出及商业应用上。由于基于监督学习方式的信息提供手段，缺少有效的探索能力，系统倾向于给消费者推送曾经发生过行为的信息单元(商品、店铺或问题答案)。而强化学习作为一种有效的基于用户与系统交互过程建模和最大化过程累积收益的学习方法，在一些阿里具体的业务场景中进行了很好的实践并得到大规模应用。

本书汇集了阿里巴巴一线算法同学在强化学习应用方面的经验和心得，覆盖了搜索事业部、阿里妈妈事业部、计算平台事业部以及智能服务事业部的多条业务线，是首次由工业界系统地披露强化学习在互联网级别的应用上使用强化学习的技术细节，其中更包含了我们的算法同学对强化学习的深入理解、思考和创新。

笪庆、曾安祥著

图书试读：

在电商任务中，候选集信息主要是候选集的全部打分。为说明这一点，我们不妨先把问题设定在最理想的环境下，有如下几点假设。

（1）强化学习中的折扣系数为 0，单个流量最优化就是全流量最优化。

（2）具备优化目标相关的全部因素，比如优化目标是 RPM，我们有每个广告的预估CTR 和BID。

（3）所有的预估值都是准确的，例如 CTR 和 BID 完全准确。

（4）从因素到优化目标的建模是准确的，例如输入三个广告的顺序和相应的预估 CTR、BID 值，建模能计算出准确的 RPM 收益（甚至已经考虑了三个广告的相互影响）。

在理想的环境下，我们不需要引入除候选集的全部打分外的任何信息，只需穷举广告三元组即可。

把假设条件稍微放松，如预估值或者优化目标建模有瑕疵，我们可以利用强化学习主动探索和对标真实奖赏的特性进行修正。

只有当一些假设严重失真的时候，我们才需要引入候选集的全部打分以外的信息，比如：

（1）当折扣系数大于 0 时，这意味着单流量最优化，并非全流量最优化，而候选集的全部打分只能做到单流量最优化，所以必然引入额外信息；

（2）优化目标相关因素不完备和部分预估值不准确，这二者其实有一定的重叠，它们都要求引入额外信息修正用户的点击、购买估计。

用一个简单的例子说明以上表述的道理。

开学初，老师说期末考题都在教材范围以内，熟练掌握教材就能得到满分。后来老师说，教材内容有错误，熟练掌握教材得 90 分还是有可能的，想得满分要同时参考教材勘误表。再后来老师又说，期末考题不限于教材范围，只看教材最多考 70 分，想得满分要另外参考一本国外教材。

候选集的全部打分其实就是教材，教材（候选集的全部打分）是考试（决策）考高分（获得最优奖赏）的基础，其他资料（如用户最近的行为偏好）是教材的纠正或补充。

《强化学习实战：强化学习在阿里的技术演进和业务创新》| 每天读本书