Для установки нажмите кнопочку Установить расширение. И это всё.

Исходный код расширения WIKI 2 регулярно проверяется специалистами Mozilla Foundation, Google и Apple. Вы также можете это сделать в любой момент.

4,5
Келли Слэйтон
Мои поздравления с отличным проектом... что за великолепная идея!
Александр Григорьевский
Я использую WIKI 2 каждый день
и почти забыл как выглядит оригинальная Википедия.
Статистика
На русском, статей
Улучшено за 24 ч.
Добавлено за 24 ч.
Что мы делаем. Каждая страница проходит через несколько сотен совершенствующих техник. Совершенно та же Википедия. Только лучше.
.
Лео
Ньютон
Яркие
Мягкие

Из Википедии — свободной энциклопедии

Уравнение Беллмана (также уравнение динамического программирования) — достаточное условие оптимальности в методах оптимизации динамического программирования, названное в честь Ричарда Эрнста Беллмана и основывающееся на принципе оптимальности Беллмана.

Описание

Уравнение Беллмана представляет собой дифференциальное уравнение в частных производных с начальными условиями, заданными для последнего момента времени (то есть справа), для функции Беллмана, которая выражает минимальное значение критерия оптимизации, которое может быть достигнуто, при условии эволюции системы из текущего состояния в некоторое конечное. А это в свою очередь позволяет перейти от решения исходной многошаговой задачи оптимизации к последовательному решению нескольких одношаговых задач оптимизации.

Понятие уравнения Беллмана и функции Беллмана обычно применяется для непрерывных систем. Для дискретных систем аналогом выступает рекуррентное соотношение Беллмана. Принцип оптимальности (см. ниже) позволяет в этом случае оптимальное планирование от конца к началу[1].

Формальные соотношения, выражающие достаточное условия оптимальности как для дискретных, так и для непрерывных систем могут быть записаны как для случая детерминированных, так и для случая стохастических динамических систем общего вида. Отличие заключается лишь в том, что для случая стохастических систем в правых частях этих выражений возникает условное математическое ожидание.

В контексте решения задачи оптимального управления можно выделить два подхода: численный и аналитический. Численный подход основан на использовании вычислительных процедур динамического программирования, в то время как аналитический подход связан с решением уравнения Беллмана. То есть, нелинейного уравнения в частных производных, которое имеет аналитическое решение лишь в простейших случаях[2].

Принцип оптимальности

Принцип оптимальности, подходящий как для непрерывных, так и дискретных систем является основополагающим в теории управления. Две формулировки[1]:

Если управление оптимально, то, каковы бы ни были первоначальное состояние системы и управление системой в начальный момент времени, последующее управление оптимально относительно состояния, которое система примет в результате начального управления.

Указанное свойство можно сравнить с соответствующим свойством марковского процесса[1].

Оптимальное управление в любой момент времени не зависит от предыстории системы и определяется только состоянием системы в этот момент и целью управления.

Как следствие этого, оптимальное управление зависит только от текущего состояния системы. Последствия неоптимального управления в прошлом не могут быть исправлены в будущем[1].

Согласно принципу оптимальности, оптимальная стратегия гарантирует, что после первого решения последующие решения будут оптимальными относительно нового состояния, полученного в результате первоначального решения, независимо от начального состояния и начального решения[2].

Пример уравнения Беллмана из теории оптимального управления

Модель системы и управления

Рассмотрим уравнение состояния управляемой динамической системы[3]:

,

где:

 — время из интервала времени функционирования системы ,
 — вектор-функция состояния системы из пространства состояний (n-мерного евклидова пространства, ),
 — вектор-функция управления со значениями из пространства управлений ,
 — вектор-функция системы .

Для упрощения изложения требования к гладкости функций и другие нюансы здесь и далее опущены.

Вектор начальных условий:

,

где не считается произвольным.

Определим функционал качества управления для минимизации:

где:

и  — заданные непрерывно дифференцируемые функции.

Для получения управления используется текущее время и состояние системы :

Задача оптимального управления состоит в том, чтобы найти такую функцию , которая минимизирует :

где:

,
D — множество допустимых управлений с учетом и , то есть, ограничение на возможные .

Функция оптимального управления для любого начального дает оптимальный процесс: оптимальное управление и оптимальную траекторию .

Уравнение Беллмана

Если существует функция , непрерывно дифференцируемая по и на , удовлетворяющая уравнению Беллмана[3]:

и граничному условию

,

то управление

,

является оптимальным управлением с полной обратной связью.

См. также

Примечания

Литература

  • Рачков М. Ю. Оптимальное управление в технических системах. — 2-е изд., испр. и доп. — Москва: Юрайт, 2023. — С. 53—59. — 120 с. — ISBN 978-5-534-09144-1.
  • Семенов В. В., Пантелеев А. В., Бортаковский А. С. Математическая теория управления в примерах и задачах. — Прикладная математика в примерах и задачах. — МАИ, 1997. — С. 214—216. — ISBN 9785703513941.
  • Ванько В. И., Ермошина О. В., Кувыркин Г. Н. Вариационное исчисление и оптимальное управление. — Математика в техническом университете. — МГТУ им. Н.Э. Баумана, 2006. — ISBN 5-7038-2627-6.
Эта страница в последний раз была отредактирована 8 мая 2024 в 07:43.
Как только страница обновилась в Википедии она обновляется в Вики 2.
Обычно почти сразу, изредка в течении часа.
Основа этой страницы находится в Википедии. Текст доступен по лицензии CC BY-SA 3.0 Unported License. Нетекстовые медиаданные доступны под собственными лицензиями. Wikipedia® — зарегистрированный товарный знак организации Wikimedia Foundation, Inc. WIKI 2 является независимой компанией и не аффилирована с Фондом Викимедиа (Wikimedia Foundation).