УПРАВЛЯЕМЫЙ СЛУЧАЙНЫЙ ПРОЦЕСС
случайный процесс, вероятностные характеристики к-рого можно
изменять с помощью управляющих воздействий. Осн. цель теории У. с. п.-
отыскание оптимальных (или близких к ним) управлений, доставляющих экстремум
заданному критерию качества. В простейшем случае управляемых марковских
цепей одна из матем. постановок задачи
нахождения оптимального управления
формулируется след. образом. Пусть
однородных марковских цепей
с конечным числом состояний Е - {0,1,...,N} и матрицами переходных
вероятностей
метра d, принадлежащего
нек-рому множеству управляющих воздействий D. Набор функций а = {a
в момент времени п.
Каждой стратегии а отвечает
управляемая
где функция f(d, х)5>=
0 и f(d,0) = 0 (если точка {0} является поглощающим состоянием и
f(d,x)
= 1, d принадлежит D,x = 1,...,N, то Vа(x)
есть
матем. ожидание времени попадания из точки х в точку 0). Функцию
наз. ценой, а стратегию а*
- оптимальной, если Vа*(x) = V(x) для всех х принадлежит
Е.
При довольно общих предположениях
о множестве D устанавливается, что цена V(x) удовлетворяет след.
уравнению оптимальности (уравнению Белл-мана):
В классе всех стратегий наибольший
интерес представляют т. н. однородные марковские стратегии, характеризуемые
одной функцией а(х) такой, что а
След. критерий оптимальности
(или достаточное условие оптимальности) может быть использован для проверки
того, что данная однородная марковская стратегия является оптимальной:
пусть существуют функции а* = а*(х) и V* = V*(x) такие, что
для любого d принадлежащего D 0 = f(x, a*(x)) + Lа*V*<=f(x,d)+LdV*(x)
(Ld = Td
- 1,1 - единичный
оператор), тогда V* является ценой (V* = V) и стратегия а* = а*(х) является
оптимальной.
Лит.: Xовард Р.-А.,
Динамическое программирование и марковские процессы, пер. с англ., М. 1964.
А.
Н. Ширяев.
А Б В Г Д Е Ё Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я