限りなく院生に近いニート@エストニア

エストニアという国で一人ダラダラしてます。

Upper Confidence Bounds

Upper Confidence Boundsという方策について簡単にまとめたい。

今回の例においては、スロットマシンをどう選んで遊んでいくかを考えることがポイントであるが、

その際、結果を最大化するために、最適なマシンを選んでいくことが重要になってくる。

しかし、選択回数が少ないマシンについては、そのマシンからの結果が正確に推定できていない可能性がありますよね。

これらのバランスをとる方法が、Upper Confidence Boundsである。

マシンを選択する際、毎回以下の氷菓式で求められる評価値を算出し、最もスコアの高いアームを引く。



\bar{\mu_{i}}(t) = \hat{\mu}_{i}(t) + \sqrt{\frac{\log t}{2N_{i} (t)}}



\bar{\mu_i}(t)

時刻tのアームiのスコア



\hat{\mu}_{i}(t)
時刻tのアームiの標本平均



N_{i} (t)
時刻tまでのアームiの選択回数

*メリットとデメリット

メリット

どの程度マシンについて知っているかを考慮してマシンを選択できる。
パラメータを設定する必要がない。
最終的に最も良いアームのみを選ぶように収束する。

デメリット

悪いマシンをExploreのために引きすぎてしまう。