Издательство СО РАН

Издательство СО РАН

Адрес Издательства СО РАН: Россия, 630090, а/я 187
Новосибирск, Морской пр., 2

soran2.gif

Baner_Nauka_Sibiri.jpg


Яндекс.Метрика

Array
(
    [SESS_AUTH] => Array
        (
            [POLICY] => Array
                (
                    [SESSION_TIMEOUT] => 24
                    [SESSION_IP_MASK] => 0.0.0.0
                    [MAX_STORE_NUM] => 10
                    [STORE_IP_MASK] => 0.0.0.0
                    [STORE_TIMEOUT] => 525600
                    [CHECKWORD_TIMEOUT] => 525600
                    [PASSWORD_LENGTH] => 6
                    [PASSWORD_UPPERCASE] => N
                    [PASSWORD_LOWERCASE] => N
                    [PASSWORD_DIGITS] => N
                    [PASSWORD_PUNCTUATION] => N
                    [LOGIN_ATTEMPTS] => 0
                    [PASSWORD_REQUIREMENTS] => Пароль должен быть не менее 6 символов длиной.
                )

        )

    [SESS_IP] => 3.235.20.185
    [SESS_TIME] => 1716548822
    [BX_SESSION_SIGN] => 9b3eeb12a31176bf2731c6c072271eb6
    [fixed_session_id] => 031dbb7ee11a8634fa55c2cc955be7b4
    [UNIQUE_KEY] => 9162d7458fa941bdc2cfa0bddbece7b2
    [BX_LOGIN_NEED_CAPTCHA_LOGIN] => Array
        (
            [LOGIN] => 
            [POLICY_ATTEMPTS] => 0
        )

)

Поиск по журналу

Автометрия

2021 год, номер 3

ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ В СИСТЕМАХ УПРАВЛЕНИЯ ОБЪЕКТАМИ С ТРАНСПОРТНЫМ ЗАПАЗДЫВАНИЕМ

В.С. Боровик1, С.В. Шидловский2,1
1Национальный исследовательский Томский государственный университет, г. Томск, Россия
borovik_vasiliy@mail.ru
2Национальный исследовательский Томский политехнический университет, г. Томск, Россия
shidlovskiysv@mail.ru
Ключевые слова: обучение с подкреплением, DDPG, система управления, моделирование, ПИД-регулятор, формирование управляющих воздействий, управление в условиях недостатка априорной информации
Страницы: 48-57

Аннотация

Обсуждается возможность применения систем обучения с подкреплением для решения задач регулирования в условиях недостатка априорной информации об объекте управления. Представлено решение проблемы обучения системы методом Deep Deterministic Policy Gradient для объектов с транспортным запаздыванием, а также сравнение эффективности предлагаемого решения с классическим методом на основе ПИД-регулирования, параметры которого рассчитаны с применением метода расширенных амплитудно-фазочастотных характеристик и метода Циглера-Никольса.

DOI: 10.15372/AUT20210306
Добавить в корзину
Товар добавлен в корзину