РЕГРЕССИЯ

РЕГРЕССИЯ в теории вероятностей
и математической статистике, зависимость среднего значения к.-л. величины
от нек-рой другой величины или от нескольких величин. В отличие от чисто
функциональной зависимости у = f (х), когда каждому значению независимой
переменной х соответствует одно определённое значение величины у,
при
регрессионной связи одному и тому же значению х могут соответствовать
в зависимости от случая различные значения величины у. Если при
каждом значении х = xнаблюдается nyyinвеличины у,
то зависимость
средних арифметических y+ ... +
уin)/nот xи является Р. в статистич. понимании этого термина.
Примером такого рода зависимости служит, в частности, зависимость средних
диаметров сосен от их высот; см. табл. в ст. Корреляция.


Изучение Р. в теории вероятностей основано
на том, что случайные величины X и У, имеющие совместное распределение
вероятностей, связаны вероятностной зависимостью: при каждом фиксированном
значении X = х величина У является случайной величиной с определённым
(зависящим от значения х) условным распределением вероятностей.
Р. величины У по величине X определяется условным математич. ожиданием
У, вычисленным при условии, что X = х:


Е(У | х) = и(х).


Уравнение у = и (х), в к-ром
х
играет
роль "независимой" переменной, наз. уравнением регрессии, а соответствующий
график - линией регрессии величины У по X. Точность, с к-рой уравнение
Р. У по X отражает изменение У в среднем при изменении
х,
измеряется
условной дисперсией величины У, вычисленной для каждого значения X = х:


D(У | х) = o2(x).


Если o2 (х) = 0 при всех
значениях х, то можно с достоверностью утверждать, что У и X связаны
строгой функциональной зависимостью У = и (X). Если o2(х)
не равно
0 при всех значениях х и и (х) не зависит от
х,
то
говорят, что Р. У по X отсутствует. Аналогичным образом определяется Р.
X по У и, в частности, уравнение Р. х = v (у), где v (у)
=
= Е (Х|У = у). Функции у = и (х) и х = v (у), вообще
говоря, не являются взаимно обратными.


Линии Р. обладают следующим замечательным
свойством: среди всех действительных функций f (х) минимум математич.
ожидания Е [У - f(X)]2 достигается для функции f(x)
= и(х),
т. е. Р. У по X даёт наилучшее, в указанном смысле, представление
величины У по величине X. Это свойство используется для прогноза У по X:
если значение У непосредственно не наблюдается и эксперимент позволяет
регистрировать лишь компоненту X вектора (X, У), то в качестве прогнозируемого
значения У используют величину и (X).


Наиболее простым является тот случай, когда
Р. У по X линейна:


Е(У| х) = B

Коэффициенты Bназ. коэффициентами регрессии, определяются равенствами

2140-17.jpg


где mтматематич.
ожидания X и Y, о2 и о2
- дисперсии X и У,


а р - коэффициент корреляции между X и
Y. Уравнение Р. при этом выражается формулой

2140-18.jpg


В случае, когда совместное распределение
X и У нормально, обе линии Р. у = и(х) и х = v (у) являются
прямыми.


Если Р. У по X отлична от линейной, то
последнее уравнение есть линейная аппроксимация истинного уравнения Р.:
математич. ожидание Е [У - bb2
достигает
минимума по bb=
Bслучай уравнения Р., выражающегося линейной комбинацией тех или иных заданных
функций:

2140-19.jpg


Наиболее важное значение имеет параболическая
(полиномиальная) Р., при к-рой
ф(x) =
1, ф(x)
=
x, ..., ф(x)= xm.


Понятие Р. применимо не только к случайным
величинам, но и к случайным векторам. В частности, если У - случайная величина,
а X = (XXслучайный вектор,
имеющие совместное распределение вероятностей, то P. Y по X определяется
уравнением


у = и (xгде

2141-1.jpg


то Р. наз. линейной. Эта форма уравнения
Р. включает в себя мн. типы Р. с одной независимой переменной, в частности
полиномиальная Р. У по X порядка k сводится к линейной Р.
У по X..., ХX= Xk.


Простым примером Р. У по X является зависимость
между У и X, к-рая выражается соотношением: У = и (X) + o, где
и
(х) =
Е (У|Х = х), а случайные величины X и 6 независимы. Это
представление полезно, когда планируется эксперимент для изучения функциональной
связи у = и (х) между неслучайными величинами у и х.


На практике обычно коэффициенты Р. в уравнении
у
=
и
(х)
неизвестны и их оценивают по экспериментальным данным (см.
Регрессионный
анализ).



Первоначально термин "Р." был употреблён
англ. статистиком Ф. Гальтоном (1886) в теории наследственности в следующем
специальном смысле: "возвратом к среднему состоянию" (regression to mediocrity)
было названо явление, состоящее в том, что дети тех родителей, рост к-рых
превышает среднее значение на а единиц, имеют в среднем рост, превышающий
среднее значение меньше чем на а единиц.


Лит.: Крамер Г., Математические
методы статистики, пер. с англ., М., 1948; Кендалл М. Дж. , Стьюарт А.,
Статистические выводы и связи, пер. с англ., М., 1973. А. В. Прохоров.

А Б В Г Д Е Ё Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я