参考:https://zhuanlan.zhihu.com/p/31529643

 

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

在CTR预估中,负样本采样是一种常见的特征工程方法。一般CTR预估的原始正负样本比可能达到1:1000~1:10000左右,而要获取好的效果,一般需要采样到1:5~1:15之间(VC维可推导)。

我们详细分析采样对于pCTR的影响。

设采样前CTR为 负样本采样及bias校准 随笔 第1张 ,采样后CTR为 负样本采样及bias校准 随笔 第2张 ,正样本数为 负样本采样及bias校准 随笔 第3张 ,负样本数为 负样本采样及bias校准 随笔 第4张 ,正样本采样概率为 负样本采样及bias校准 随笔 第5张 ,负样本采样概率为 负样本采样及bias校准 随笔 第6张,其中 $n=m/l$。

$ p = \frac{a}{a + b}$

$p' = \frac{la}{la + mb} = \frac{a}{(a + nb)} $

两者化简得到:$p = \frac{p'}{p' + (1 - p') / n}$

注意 $p$为我们希望得到的校准后概率;但由于我们用采样的数据进行训练,模型计算出的pCTR实际为校准前概率$p'$ 。

可以看到,负采样之后的pCTR值会被高估【$p' + (1-p')/n > 1$】。这对于一般的CTR排序影响不大,但对于DSP这类有强烈的保距需求的场景,需要将pCTR校准回对采样前的估计。

对于LR、FM等用logistics function做处理的模型,可以得到

$p' = \frac{p}{n + p -np} = \frac{1}{1 + e^{-(w^Tx + b)}}$

两者化简可得

负样本采样及bias校准 随笔 第7张

因此可以计算出校准后的bias: $b' = b + log(n)$

 

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄