在线学习与多臂老虎机:简介¶
多臂老虎机(Multi-Armed Bandits)是一种统一的在线学习框架,具有广泛的应用,因此近年来的相关研究也非常多。 参考资料:
- Introduction to Multi-Armed Bandits
- Bandit Algorithms
- 《算法博弈论二十讲》
- 芝加哥大学 Haifeng Xu 老师的课件
简介¶
William R. Thompson. On the likelihood that one unknown probability exceeds another in view of the evidence of two samples. Biometrika, 25(3-4):285–294, 1933.