Exploration & Exploitation¶
探索と知識活用のトレードオフ¶
- 未知の情報を行動によって少しずつ得られるような場合、未知の部分を探索すべきか、これまで得られた情報を活用すべきか、トレードオフが発生する
- 探索ばかりだと、得られた知識を活用できていない(無駄な行動ばかりになってしまう)
- 知識活用(得られた情報で最良を使う)ばかりだと、未知の探索ができていない(より良い情報が得られる可能性が低くなる)
- バランス良く行うことで、最終的に得られる報酬などを最大化する
探索・活用系の問題¶
バンディット¶
Links¶
- いろんなバンディットアルゴリズムを理解しよう
- バンディット問題の基本的な方策アルゴリズムの評価