这就是UCB的原理——你先选择有最高UCB值的项目,在我们的案例中就是CTR的置信上限较大的项目。随着时间的发展,假设的CTR会逐渐变成真值CTR,置信上限会缩小到0。经过足够的时间,我们就能探寻所有项目了。
2018-09-08 09:25
在A/B测试的语境下,每台老虎机代表试验中的一个实验组,每次拉动摇杆代表一个实验组的一次曝光,累计回报代表累计转化。多臂老虎机问题有很多不同的算法,比如UCB、Epsilon-Greedy等,本文将聚焦于一种名为“汤普森采样”的算法。
2018-08-17 09:14