长尾的(a,u,c)组合 Multi-arm Bandit问题 有限个arms,代表每一个a,每一个有有限的确定收益 目的是在每个时刻t,我们必须从arms中选择一个,最终目标是优化整体收益 挑战 海量空间需要被探索,每个arm期望收益是动态变化的 思路 UCB算法 beta-UCB LinUCB,特征空间内的UCB