РЕГРЕССИОННЫЙ АНАЛИЗ

РЕГРЕССИОННЫЙ АНАЛИЗ раздел математической
статистики, объединяющий практич. методы исследования регрессионной зависимости
между величинами по статистич. данным (см. Регрессия). Цель Р. а.
состоит в определении общего вида уравнения регрессии, построении оценок
неизв. параметров, входящих в уравнение регрессии, и проверке статистич.
гипотез о регрессии. При изучении связи между двумя величинами по результатам
наблюдений ..., усоответствии с теорией регрессии предполагается, что
одна из них Y имеет нек-рое распределение вероятностей при фиксированном
значении х другой, так что Е(Y | х) = g(х, B) и D(Y| х)
= o2h2(x),



где (3 обозначает совокупность неизвестных
параметров, определяющих функцию g (x), a h (х) есть известная
функция х (в частности, тождественно равная 1). Выбор модели регрессии
определяется предположениями о форме зависимости g (х, B) от х
и
B. Наиболее естественной с точки зрения единого метода оценки неизвестных
параметров B является модель регрессии, линейная относительно B:


g(x, B) = B(х)
+ ... + B


Относительно значений переменной х возможны
различные предположения в зависимости от характера наблюдений и целей анализа.
Для установления связи между величинами в эксперименте используется модель,
основанная на упрощённых, но правдоподобных допущениях: величина х является
контролируемой величиной, значения к-рой заранее задаются при планировании
эксперимента, а наблюдаемые значения у представимы в виде


yg(x)
+ еi
= 1, ..., k,


где величины eошибки, независимые при различных измерениях и одинаково распределённые
с нулевым средним и постоянной дисперсией о2. Случай неконтролируемой
переменной х отличается тем, что результаты наблюдений (xy..., представляют
собой выборку из нек-рой двумерной совокупности. И в том, и в другом случае
Р. а. производится одним и тем же способом, однако интерпретация результатов
существенно различается (если обе исследуемые величины случайны, то связь
между ними изучается методами корреляционного анализа).


Предварительное представление о форме графика
зависимости д (х) от х можно получить по расположению на
диаграмме рассеяния (паз. также корреляционным полем, если обе переменные
случайные) точек (xгде у (x- средние арифметические тех значений у, к-рые соответствуют
фиксированному значению xНапр., если расположение
этих точек близко к прямолинейному, то допустимо использовать в качестве
приближения линейную регрессию. Стандартный метод оценки линии регрессии
основан на использовании полиномиальной модели (m>=1)


y(х,B) = B+ ... + Bm


(этот выбор отчасти объясняется тем, что
всякую непрерывную на нек-ром отрезке функцию можно приблизить полиномом
с любой наперёд заданной степенью точности). Оценка неизвестных коэффициентов
регрессии B2
осуществляется наименьших квадратов методом. Оценки B..., Bэтим методом, наз. выборочными коэффициентами регрессии, а уравнение


у (х) = B

определяет т. н. эмпирическую линию регрессии.
Этот метод в предположении нормальной распределённости результатов наблюдений
приводит к оценкам для B2,
совпадающим с оценками наибольшего правдоподобия (см. Максимального
правдоподобия метод).
Оценки, полученные этим методом, оказываются
в нек-ром смысле наилучшими и в случае отклонения от нормальности. Так,
если проверяется гипотеза о линейной регрессии, то

2140-16.jpg


где х и у - средние арифметические
значений xи yи oценка g (х)
=
Bg (х),
а
её дисперсия будет меньше, чем дисперсия любой другой линейной оценки.
При допущении, что величины yэффективно осуществляется проверка точности построенной эмпирической регрессионной
зависимости и проверка гипотез о параметрах регрессионной модели. В этом
случае построение доверительных интервалов для истинных коэффициентов регрессии
Bсвязи (B
= 1, ..., т ) производится с
помощью Стъюдента распределения.


В более общей ситуации результаты наблюдений
yурассматриваются как независимые
случайные величины с одинаковыми дисперсиями и матема-тич. ожиданиями

Еy=
B +
... + B,
i = 1, ..., n,


где значения x, j = 1,
..., k предполагаются известными. Эта форма линейной модели регрессии
является общей в том смысле, что к ней сводятся модели более высоких порядков
по переменным хКроме того, нек-рые
нелинейные относительно параметров Bтакже сводятся к указанной линейной форме.


Р. а. является одним из наиболее распространённых
методов обработки результатов наблюдений при изучении зависимостей в физике,
биологии, экономике, технике и др. областях. На модели Р. а. основаны такие
разделы математической статистики, как дисперсионный анализ и планирование
эксперимента;
модели Р. а. широко используются в статистическом
анализе многомерном.



Лит.: Юл Дж. Э., Кендэл М. Дж.,
Теория статистики, пер. с англ., 14 изд., М., 1960; Смирнов Н. В., Дунин-Барковский
И. В., Курс теории вероятностей и математической статистики для технических
приложений, 3 изд., М., 1969; Айвазян С. А., Статистическое исследование
зависимостей, М., 1968; Рао С. Р., Линейные статистические методы и их
применения, пер. с англ., М., 1968. См. также лит. при ст. Регрессия.
А. В. Прохоров.





А Б В Г Д Е Ё Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я