Определение оптимального плана замены оборудования
так как вместо того, чтобы один раз решать сложную многовариантную задачу, метод поэтапного планирования предполагает многократное решение относительно простых задач.
Планируя поэтапный процесс, исходят из интересов всего процесса в целом, т.е. при принятии решения на отдельном этапе всегда необходимо иметь в виду конечную цель.
Однако динамическое программирование имеет и свои недостатки. В отличие от линейного программирования, в котором симплексный метод является универсальным, в динамическом программировании такого метода не существует. Каждая задача имеет свои трудности, и в каждом случае необходимо найти наиболее подходящую методику решения. Недостаток динамического программирования заключается также в трудоемкости решения многомерных задач. При очень большом числе переменных решение задачи даже на современных ЭВМ ограничивается памятью и быстродействием машины. Например, если для исследования каждой переменной одномерной задачи требуется 10 шагов, то в двумерной задаче их количество увеличивается до 100, в трехмерной до 1000 и т.д. [7].
Предположим, какая-то система S находится в некотором начальном состоянии S0 и является управляемой. Таким образом, благодаря осуществлению некоторого управления U указанная система переходит из начального состояния S0 в конечное состояние Sк. При этом качество каждого из реализуемых управлений U характеризуется соответствующим значением функции W(U). Задача состоит в том, чтобы из множества возможных управлений U найти такое U* , при котором функция W(U) принимает экстремальное (максимальное или минимальное) значение W(U*).
Задачи динамического программирования имеют геометрическую интерпретацию. Состояние физической системы S можно описать числовыми параметрами, например расходом горючего и скоростью, количеством вложенных средств и т.д. Назовем эти параметры координатами системы; тогда состояние системы можно изобразить точкой S, а переход из одного состояния S1 в другое S2 траекторией точки S. Управление U означает выбор определенной траектории перемещения точки S из S1 в S2 , т.е. установление определенного закона движения точки S.
S0 S Sk
0 x
Область возможных состояний системы
Графическое изображение перехода системы S
Рис.2.1
Совокупность состояний, в которые может переходить система, называется областью возможных состояний. В зависимости от числа параметров, характеризующих состояние системы, область возможных состояний системы
может быть различной. Пусть, например, состояние системы S характеризуется одним параметром, - координатой x . В этом случае изменение координаты, если на нее наложены некоторые ограничения, изобразится перемещением точки S по оси Оx или по ее участку. Следовательно, областью возможных состояний системы является совокупность значений x, а управлением закон движения точки S из начального состояния S0 в конечное Sk по оси Ox или ее части (рис.2.1).
Если состояние системы S характеризуется двумя параметрами (x1 и x2 ), то областью возможных состояний системы служит плоскость x1Ox2 или ее часть, а управление изобразится линией на плоскости, по которой точка S перемещается из S0 в Sk (рис. 2.2).
х2
S0
S Sk
0 х1
Управление системы S в графическом изображении
рис.2.2
В общем случае, когда состояние системы описывается n параметрами xi (i=1,2,…,n), областью возможных состояний служит n-мерное пространство, а уравление изображается перемещением точкиS из какой-то начальной области S0 в конечную Sk по некоторой “траектории” этого пространства.
Таким образом, задаче динамического программирования можно дать следующую геометрическую интерпретацию. Из всех траекторий, принадлежащих области возможных состояний системы и соединяющих области S0 и Sk , необходимо выбрать такую, на которой критерий W принимает оптимальное значение. [7].
Чтобы рассмотреть общее решение задач динамического программирования, введем обозначения и сделаем для дальнейших изложений предположения.
Будем считать, что состояние рассматриваемой системы S на K-м шаге (k=1,n) определяется совокупностью чисел X(k) =(x1 (k) , x2(k) ,…, xn(k) ), которые получены в результате реализации управления uk, обеспечившего переход системы S из состояния X(k-1) в состояние X(k). При этом будем предполагать, что состояние X(k) , в которое перешла система S , зависит от данного состояния
X(k-1) и выбранного управления uk и не зависит от того, каким образом система S пришла в состояние X(k-1) .
Далее будем считать, что если в результате реализации k-го шага обеспечен определенный доход или выигрыш, также зависящий от исходного
состояния системы X(k-1) и выбранного управления uk и равный Wk(X(k-1), uk ), то общий доход или выигрыш за n шагов составляет
n
F=? Wk(X(k-1), uk ). (2.1)
k=1
Таким образом, задача динамического программирования должна удовлетворять два условия. Первое условие обычно называют условием отсутствия последействия, а второе условием аддитивности целевой функции задачи.
2.2 Информационно-методическое обеспечение метода
Выполнение для задачи динамического программирования первого условия позволяет сформулировать для нее принцип оптимальности Беллмана. Прежде чем сделать это, надо дать определение оптимальной стратегии управления. Под такой стратегией понимается совокупность управлений U*=(u1*, u2*, …, un*), в результате реализации которых система S за n шагов переходит из начального состояния X(0) в конечное X(k) и при этом функция (2.1) принимает наибольшее значение.
Принцип оптимальности: какое бы не было состояние системы перед очередным шагом, надо выбрать управление на этом шаге так, чтобы выигрыш на данном шаге плюс оптимальный выигрыш на всех последующих шагах был максимальным.
Отсюда следует, что оптимальную стратегию управления можно получить, если сначала найти оптимальную стратегию управления на n-м шаге, затем на двух последних шагах, затем на трех последних шагах и т.д., вплоть до первого шага. Таким образом, решение рассматриваемой задачи динамического программирования целесообразно начинать с определения оптимального решения на последнем, n-м шаге. Для того чтобы найти это решение, очевидно, нужно сделать различные предположения о том, как мог окончиться предпоследний шаг, и с учетом этого выбрать управление un0 , обеспечивающее максимальное значение функции Wn(X(n-1), un ). Такое управление un0 выбранное при определенных предположениях о том, как окончился предыдущий шаг, называется условно оптимальным управлением. Следовательно, принцип оптимальности требует находить на каждом шаге условно оптимальное управление для любого из возможных исходов предшествующего шага.
Чтобы это можно было осуществить практически, необходимо дать математическую формулировку принципа оптимальности. Для этого введем некоторые дополнительные обозначения. Обозначим через Fn(X0) максимальный доход, получаемый за n шагов при переходе системы S из начального состояния X(0) в конечное состояние X(k) при реализации
скачать реферат
1 2 3 4 5 ... последняя