Работа посвящена построению управления на основе алгоритма обучения с подкреплением для непрерывной системы и его сравнению с классическим методом дискретно-непрерывного управления. Дискретно-непрерывное управление расширяет классические методы, позволяя изменять управляющий сигнал внутри интервала дискретизации. Это повышает точность, однако требует знания параметров системы, что ограничивает его применение в условиях неопределенности. В качестве более современного и адаптивного метода рассмотрен подход на основе данных с использованием алгоритма off-policy Q-learning, который не требует априорной идентификации модели и знания точных параметров управляемого объекта, а обучается непосредственно на измеренных данных. Показано, что последовательность коэффициентов усиления имеет передел, при этом каждый элемент последовательности будет стабилизировать замкнутую систему. Разработанный алгоритм управления обладает свойством робастности. Проведено численное моделирование для системы двойного интегратора, демонстрирующее эффективность обоих методов, а также эксперимент с воздействием шума на модель. Выполнены анализ и сравнение обоих алгоритмов. Практическая часть реализована на языке программирования Python с использованием общедоступных библиотек NumPy, SciPy, Matplotlib и Seaborn