84358 | ИПУ РАН

Автор(ы):

Девяткин Д. Д. (МГТУ им. Н.Э. Баумана)

Юрченков А. В. (ИПУ РАН, Лаборатория 01)

Автор(ов):

Параметры публикации

Тип публикации:

Статья в журнале/сборнике

Название:

Построение управления на основе алгоритма обучения с подкреплением

ISBN/ISSN:

1812-3368

DOI:

10.18698/1812-3368-2026-1

Наименование источника:

Вестник МГТУ им. Н.Э. Баумана. Серия «Естественные науки»

Обозначение и номер тома:

№ 1

Город:

Москва

Издательство:

Изд-во МГТУ им. Н.Э. Баумана

Год издания:

2026

Страницы:

32-50

Аннотация

Работа посвящена построению управления на основе алгоритма обучения с подкреплением для непрерывной системы и его сравнению с классическим методом дискретно-непрерывного управления. Дискретно-непрерывное управление расширяет классические методы, позволяя изменять управляющий сигнал внутри интервала дискретизации. Это повышает точность, однако требует знания параметров системы, что ограничивает его применение в условиях неопределенности. В качестве более современного и адаптивного метода рассмотрен подход на основе данных с использованием алгоритма off-policy Q-learning, который не требует априорной идентификации модели и знания точных параметров управляемого объекта, а обучается непосредственно на измеренных данных. Показано, что последовательность коэффициентов усиления имеет передел, при этом каждый элемент последовательности будет стабилизировать замкнутую систему. Разработанный алгоритм управления обладает свойством робастности. Проведено численное моделирование для системы двойного интегратора, демонстрирующее эффективность обоих методов, а также эксперимент с воздействием шума на модель. Выполнены анализ и сравнение обоих алгоритмов. Практическая часть реализована на языке программирования Python с использованием общедоступных библиотек NumPy, SciPy, Matplotlib и Seaborn

Библиографическая ссылка:

Девяткин Д.Д., Юрченков А.В. Построение управления на основе алгоритма обучения с подкреплением // Вестник МГТУ им. Н.Э. Баумана. Серия «Естественные науки». 2026. № 1. С. 32-50.