УПРАВЛЯЕМЫЙ СЛУЧАЙНЫЙ ПРОЦЕСС
случайный процесс, вероятностные характеристики к-рого можно
изменять с помощью управляющих воздействий. Осн. цель теории У. с. п.-
отыскание оптимальных (или близких к ним) управлений, доставляющих экстремум
заданному критерию качества. В простейшем случае управляемых марковских
цепей одна из матем. постановок задачи
нахождения оптимального управления
формулируется след. образом. Пусть
однородных марковских цепей
с конечным числом состояний Е - {0,1,...,N} и матрицами переходных
вероятностей
метра d, принадлежащего
Каждой стратегии а отвечает
где функция f(d, х)5>=
наз. ценой, а стратегию а*
При довольно общих предположениях
В классе всех стратегий наибольший
След. критерий оптимальности
(Ld = Td
Лит.: Xовард Р.-А.,
А
Б
В
Г
Д
Е
Ё
Ж
З
И
Й
К
Л
М
Н
О
П
Р
С
Т
У
Ф
Х
Ц
Ч
Ш
Щ
Ъ
Ы
Ь
Э
Ю
Я
нек-рому множеству управляющих воздействий D. Набор функций а = {a
в момент времени п.
управляемая
0 и f(d,0) = 0 (если точка {0} является поглощающим состоянием и
f(d,x)
= 1, d принадлежит D,x = 1,...,N, то Vа(x)
есть
матем. ожидание времени попадания из точки х в точку 0). Функцию
- оптимальной, если Vа*(x) = V(x) для всех х принадлежит
Е.
о множестве D устанавливается, что цена V(x) удовлетворяет след.
уравнению оптимальности (уравнению Белл-мана):
интерес представляют т. н. однородные марковские стратегии, характеризуемые
одной функцией а(х) такой, что а
(или достаточное условие оптимальности) может быть использован для проверки
того, что данная однородная марковская стратегия является оптимальной:
пусть существуют функции а* = а*(х) и V* = V*(x) такие, что
для любого d принадлежащего D 0 = f(x, a*(x)) + Lа*V*<=f(x,d)+LdV*(x)
- 1,1 - единичный
оператор), тогда V* является ценой (V* = V) и стратегия а* = а*(х) является
оптимальной.
Динамическое программирование и марковские процессы, пер. с англ., М. 1964.
А.
Н. Ширяев.