ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ В СИСТЕМАХ УПРАВЛЕНИЯ ОБЪЕКТАМИ С ТРАНСПОРТНЫМ ЗАПАЗДЫВАНИЕМ
"В.С. Боровик1, С.В. Шидловский2,1"
"1Национальный исследовательский Томский государственный университет, г. Томск, Россия borovik_vasiliy@mail.ru 2Национальный исследовательский Томский политехнический университет, г. Томск, Россия shidlovskiysv@mail.ru"
Ключевые слова: обучение с подкреплением, DDPG, система управления, моделирование, ПИД-регулятор, формирование управляющих воздействий, управление в условиях недостатка априорной информации
Страницы: 48-57
Аннотация
Обсуждается возможность применения систем обучения с подкреплением для решения задач регулирования в условиях недостатка априорной информации об объекте управления. Представлено решение проблемы обучения системы методом Deep Deterministic Policy Gradient для объектов с транспортным запаздыванием, а также сравнение эффективности предлагаемого решения с классическим методом на основе ПИД-регулирования, параметры которого рассчитаны с применением метода расширенных амплитудно-фазочастотных характеристик и метода Циглера-Никольса.
Наш сайт использует куки. Продолжая им пользоваться, вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности. Подробнее