Skip to content

Exploration & Exploitation

探索と知識活用のトレードオフ

  • 未知の情報を行動によって少しずつ得られるような場合、未知の部分を探索すべきか、これまで得られた情報を活用すべきか、トレードオフが発生する
    • 探索ばかりだと、得られた知識を活用できていない(無駄な行動ばかりになってしまう)
    • 知識活用(得られた情報で最良を使う)ばかりだと、未知の探索ができていない(より良い情報が得られる可能性が低くなる)
  • バランス良く行うことで、最終的に得られる報酬などを最大化する

探索・活用系の問題

バンディット

ε-greedy

UCB1

UCB1-tuned

UCB2

UCT

Decoupled UCT(DUCT)

Thompson Sampling