负样本采样及bias校准
参考:https://zhuanlan.zhihu.com/p/31529643
SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。
在CTR预估中,负样本采样是一种常见的特征工程方法。一般CTR预估的原始正负样本比可能达到1:1000~1:10000左右,而要获取好的效果,一般需要采样到1:5~1:15之间(VC维可推导)。
我们详细分析采样对于pCTR的影响。
设采样前CTR为 ,采样后CTR为
,正样本数为
,负样本数为
,正样本采样概率为
,负样本采样概率为
,其中 $n=m/l$。
$ p = \frac{a}{a + b}$
$p' = \frac{la}{la + mb} = \frac{a}{(a + nb)} $
两者化简得到:$p = \frac{p'}{p' + (1 - p') / n}$
注意 $p$为我们希望得到的校准后概率;但由于我们用采样的数据进行训练,模型计算出的pCTR实际为校准前概率$p'$ 。
可以看到,负采样之后的pCTR值会被高估【$p' + (1-p')/n > 1$】。这对于一般的CTR排序影响不大,但对于DSP这类有强烈的保距需求的场景,需要将pCTR校准回对采样前的估计。
对于LR、FM等用logistics function做处理的模型,可以得到
$p' = \frac{p}{n + p -np} = \frac{1}{1 + e^{-(w^Tx + b)}}$
两者化简可得
因此可以计算出校准后的bias: $b' = b + log(n)$

更多精彩