Рассматривается стохастическая задача о многоруком бандите при неизвестном горизонте. Представлена рандомизированная стратегия решений, которая основана на пересчете вероятностей распределения с помощью стохастического алгоритма типа зеркального спуска. Рассматривается независимо два предположения: неотрицательные потери или произвольные потери с условием экспоненциального момента. Доказываются оптимальные (с точностью до логарифмических членов) универсальные границы на превышение риска (т.н. условия "gap-free") - среднего по времени мгновенных потерь, порожденных реализуемыми действиями.