В
лекции рассматриваются задачи многошаговой оптимизации и управления сложными
динамическими системами. Обсуждаются постановки типовых задач и особенности
алгоритмов нейродинамического программирования, использующих для аппроксимаций
функций оптимального поведения аппарат искусственных нейронных сетей. Показана
связь задачи целевой адаптации автономного агента при обучении с подкреплением
и задачи прогностического оптимального управления. Приведены примеры приложений
методов нейродинамического программирования.
Введение: примеры систем с
динамически-оптимальным управлением.......1
Классическая задача оптимизации с
ограничениями.3
Управляемая оптимальная динамика................4
Программное
управление..............4
Прогностическое
управление на основе нейросетевой модели системы.....5
Нейродинамическое
программирование........7
Марковский
процесс принятия решения.............8
Уравнение
беллмана...................11
Игровая
стратегия и оценка позиции................12
Итерации
в уравнениях беллмана.....................13
Нейросетевая
аппроксимация функции ценности.................13
Алгоритм
sarsa и q-обучение....16
Примеры прикладных разработок..17
Динамическое
управление портфелем финансовых активов17
Динамическое
резервирование каналов сети сотовой связи.18
Итоги.....................19