Краткое описание:
Программа предназначена для обучения с подкреплением мобильных роботов движению в толпе на основе подхода Soft Actor-Critic, а также тестирования предобученных моделей. В процессе обучения роботы выбирают определенные действия, которые переводят их в новые состояния. В зависимости от целесообразности своих действий робот либо получает награду, либо штрафуется. Одновременно на сцене действуют несколько роботов, при этом у каждого своя цель (пункт назначения), но в итоге все вместе они вырабатывают общую стратегию поведения в толпе в зависимости от заданной функции наград.
Программа используется в области групповой навигации, мобильной робототехники.
Функциями программы являются выполнение обучения с возможностью дообучения ранее предобученных моделей, а также тестирование моделей. Дополнительно собирается статистика о числе столкновений, общей награде, времени достижения цели и т.п.