Paper慢慢读 - AB实验人群定向 Recursive Partitioning for Heterogeneous Casual Effects

佚名 7年前 (2019-10-21) 人工智能 2282人围观抢沙发百度已收录

这篇是treatment effect估计相关的论文系列第一篇所以会啰嗦一点多给出点背景。

论文

Athey, S., and Imbens, G. 2016. Recursive partitioning for heterogeneous causal effects. Proceedings of the National Academy of
Sciences.

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

背景

论文给出基于决策树估计实验对不同用户的不同影响。并提出Honest，variance Penalty算法旨在改进CART在tree growth过程中的过拟合问题。

我们举个例子：科研人员想衡量一种新的降血压药对病人的效果，发现服药的患者有些血压降低但有些血压升高。于是问题可以抽象成我们希望预测降压药会对哪些病人有效？相似的问题经常出现在经济，政治决策，医疗研究以及当下的互联网AB测试中。

Treatment effect之所以比通常的预测问题要更难解决，因为groud-truth在现实中是无法直接观测到的，一个人在同一时刻要么吃药要不么吃药，所以你永远无法知道吃药的人要是没吃药血压会不会也降低，或者没吃药的人要是吃了药血压会不会降低。

既然个体的treatment effect无法估计，只能退而求其次去估计群体的treatment effect- ATE (Average treatment effect),既全部用户中（服药效果- 未服药效果）。但是当出现个体效果差异时ATE无法反应局部效果（E.g.样本稀释）。这时我们需要估计相似群体的treatment effect-CATE（Conditional average treatment effect）

用数学抽象一下上述问题：
\[ \begin{align} & {(X_i, Y_i,T_i): X_i \in X} \\ & \text{where X是特征，Y是Response，T是AB实验分组}\\ &T_i \in {0,1} \quad \\ &Y_i = \begin{cases} Y(1) & \quad T_i = 0\\ Y(0) & \quad T_i = 1\\ \end{cases}\\ &CATE: \tau(x) = E(Y_i(1)-Y_i(0)|X=x)\\ \end{align} \]

模型

这里寻找相似用户的方式是通过决策树。树相较线性模型的优点毫无疑问是它对特征类型的兼容，尤其考虑到实际情况中会存在大量离散特征如性别，地域等等。

那究竟怎样grow tree来找到局部用户群, 取决于cost function的定义。一般决策/回归树是对Y的拟合例如RMSE，或者cross-entropy等等。这里作者选择最大化\(Y(1)-Y(0)\)作为cost Function，既我们通过树划分出的局部人群可以实现局部实验效果最大化（正向或负向）。 cost function 如下：
\[ \begin{align} &S_l = {(X_i, Y_i,T_i): X_i \in X_l} \quad \text{叶节点-局部样本}\\ &\hat{\mu_t}(S_l) = \frac{1}{N_{l,t}}\sum_{T_i=t, i \in S_l}Y_i \quad \text{AB组Y的均值} \\ &\hat{\tau}(S_l) = \hat{\mu_1}(S_l) -\hat{\mu_0}(S_l) \quad \text{叶节点CATE}\\ &F(S_l) = N_l * \hat{\tau}^2(S_l)\\ & \text{cost fucntion}: max \sum_{i=1}^L F(S_i)\\ \end{align} \]

熟悉决策树的朋友也就知道后续split criterion就是去寻找最大化CATE增长的特征和阈值。对决策树不太睡的朋友可以来我之前的博客看看Tree-Decision Tree with Sklearn source code