6041

Автор(ы): 

Автор(ов): 

4

Параметры публикации

Тип публикации: 

Доклад

Название: 

Gap-Free Bounds for Stochastic Multi-Armed Bandit

Наименование конференции: 

  • 17th IFAC World Congress (Seoul, Korea, 2008)

Наименование источника: 

  • Proceedings of the 17th IFAC World Congress (Seoul, Korea, 2008)

Город: 

  • Seoul

Издательство: 

  • IFAC

Год издания: 

2008

Страницы: 

11560-11563
Аннотация
Рассматривается стохастическая задача о многоруком бандите при неизвестном горизонте. Представлена рандомизированная стратегия решений, которая основана на пересчете вероятностей распределения с помощью стохастического алгоритма типа зеркального спуска. Рассматривается независимо два предположения: неотрицательные потери или произвольные потери с условием экспоненциального момента. Доказываются оптимальные (с точностью до логарифмических членов) универсальные границы на превышение риска (т.н. условия "gap-free") - среднего по времени мгновенных потерь, порожденных реализуемыми действиями.

Библиографическая ссылка: 

Юдицкий А.Б., Назин А.В., Цыбаков А.Б., Ваятис Н.Н. Gap-Free Bounds for Stochastic Multi-Armed Bandit / Proceedings of the 17th IFAC World Congress (Seoul, Korea, 2008). Seoul: IFAC, 2008. С. 11560-11563.