跳转至

在线学习与多臂老虎机:简介

多臂老虎机(Multi-Armed Bandits)是一种统一的在线学习框架,具有广泛的应用,因此近年来的相关研究也非常多。 参考资料:

  1. Introduction to Multi-Armed Bandits
  2. Bandit Algorithms
  3. 《算法博弈论二十讲》
  4. 芝加哥大学 Haifeng Xu 老师的课件

简介

William R. Thompson. On the likelihood that one unknown probability exceeds another in view of the evidence of two samples. Biometrika, 25(3-4):285–294, 1933.