МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА раздел
математики, посвящённый математич. методам систематизации, обработки и
использования статистических данных для науч. и практич. выводов. При этом
статистич. данными наз. сведения о числе объектов в к.-л. более или менее
обширной совокупности, обладающих теми или иными признаками (таковы, например,
данные табл. 1а и 2а).



Предмет и метод математической статистики.
Статистич.
описание совокупности объектов занимает промежуточное положение между индивидуальным
описанием каждого из объектов совокупности, с одной стороны, и описанием
совокупности по её общим свойствам, совсем не требующим её расчленения
на отд. объекты,- с другой. По сравнению с первым способом статистич. данные
всегда в большей или меньшей степени обезличены и имеют лишь ограниченную
ценность в случаях, когда существенны именно индивидуальные данные (напр.,
учитель, знакомясь с классом, получит лишь весьма предварительную ориентировку
о положении дела из одной статистики числа выставленных его предшественником
отличных, хороших, удовлетворительных и неудовлетворит. оценок). С другой
стороны, по сравнению с данными о наблюдаемых извне суммарных свойствах
совокупности статистич. данные позволяют глубже проникнуть в существо дела.
Напр., данные грану ломет-рич. анализа породы (т. е. данные о распределении
образующих породу частиц по размерам) дают ценную дополнит, информацию
по сравнению с испытанием нерасчленённых образцов породы, позволяя в нек-рой
мере объяснить свойства породы, условия её образования и пр.


Метод исследования, опирающийся на рассмотрение
статистич. данных о тех или иных совокупностях объектов, наз. статистическим.
Статистич. метод применяется в самых различных областях знания. Однако
черты статистич. метода в применении к объектам различной природы столь
своеобразны, что было бы бессмысленно объединять, напр., социально-экономич.
статистику,
физич.
статистику (см. Статистическая физика), звёздную статистику
и т.
п. в одну науку.


Общие черты статистич. метода в различных
областях знания сводятся к подсчёту числа объектов, входящих в те или иные
группы, рассмотрению распределения количеств, признаков, применению выборочного
метода (в случаях,когда детальное исследование всех объектов обширной совокупности
затруднительно), использованию теории вероятностей при оценке достаточности
числа наблюдений для тех или иных выводов и т. п. Эта формальная математическая
сторона статистич. методов исследования, безразличная к специфич. природе
изучаемых объектов, и составляет предмет М. с.


Связь математической статистики с тeoрией
вероятностей. Связь М. с. с теорией вероятностей имеет в разных случаях
различный характер. Вероятностей теория изучает не любые явления,
а явления случайные и именно -"вероятностно случайные", т. е. такие, для
к-рых имеет смысл говорить о соответствующих им распределениях вероятностей.
Тем не менее теория вероятностей играет определённую роль и при статистич.
изучении массовых явлений любой природы, к-рые могут не относиться к категории
вероятностно случайных. Это осуществляется через основанные на теории вероятностей
теорию выборочного метода и теорию ошибок измерений (см. Ошибок
теория).
В этих случаях вероятностным закономерностям подчинены не
сами изучаемые явления, а приёмы их исследования.


Табл. 1 а. - Распределение диаметра
детали в мм, обнаруженное при статистическом исследовании массовой _ продукции
(объяснение обозначений х, S, s см. на стр. 482).



























































































































































































































Диаметр


Основная выборка


1-я выборка


2-я выборка


3-я выборка


13,05-13,09


_


_


1


1


13,10-13,14


2


-






13,15-13,19


1


-


1


1


13,20-13,24


8


-




-


13,25-13,29


17


1


2


1


13,30-13,34


27


1


1


2


13,35-13,39


30


2


3


1


13,40-13,44


37


2


1


1


13,45-13,49


27


1


-


-


13,50-13,54


25


2


1


-


13,55-13,59


17


--


--




13,60-13,64


7


1


--


2


13,65-13,69


2


-


-


1


Всего


200


10


10


10


X


13,416


13,430


13,315


13,385


S2


2,3910


0,0990


0,1472


0,3602


s


0,110


0,105


0,128


0,200



Табл. 16. - Распределение диаметра детали
основной выборки (из табл. 1а) при более крупных интервалах группировки

































Диаметр


Число деталей


13,00-13,24


11


13,25-13,49


138


13,50-13,74


51


Всего


200





Более важную роль играет теория вероятностей
при статистич. исследовании вероятностных явлений. Здесь в полной мере
находят применение такие основанные на теории вероятностей разделы М. с.,
как теория статистич. проверки вероятностных гипотез, теория статистич.
оценки распределений вероятностей и входящих в них параметров и т. д. Область
же применения этих более глубоких статистич. методов значительно уже, т.
к. здесь требуется, чтобы сами изучаемые явления были подчинены достаточно
определённым вероятностным закономерностям. Напр., статистич. изучение
режима турбулентных водных потоков или флюктуации в радиоприёмных устройствах
производится на основе теории стационарных случайных процессов.
Однако
применение той же теории к анализу экономических временных рядов может
привести к грубым ошибкам ввиду того, что входящее в определение стационарного
процесса допущение наличия сохраняющихся в течение длительного времени
неизменных распределений вероятностей в этом случае, как правило, совершенно
неприемлемо.


Вероятностные закономерности получают статистич.
выражение (вероятности осуществляются приближённо в виде частот, а математические
ожидания - в виде средних) в силу больших чисел закона.


Простейшие приёмы статистического описания.
Изучаемая совокупность из п объектов может по к.-л. качественному
признаку А разбиваться на классы A..., АСоответствующее этому разбиению статистическое
распределение задаётся при помощи указания численностей (частот) nп..., n.


Напр., в первом столбце табл. 1а даны результаты
измерения 200 диаметров деталей, группированные по интервалам дл. 0,05
мм.
Основная
выборка соответствует нормальному ходу технологич. процесса. 1-я, 2-я и
3-я выборки сделаны через нек-рые промежутки времени для проверки устойчивости
этого нормального хода производства. В табл. 16 результаты измерения деталей
основной выборки даны при группировке по интервалам дл. 0,25 мм.


Обычно группировка по 10-20 интервалам,
в каждый из к-рых попадает не более 15-20% значений xt,
оказывается
достаточной для довольно полного выявления всех существенных свойств распределения
и надёжного вычисления по групповым численностям основных характеристик
распределения (см. о них ниже). Составленная по таким группированным данным
гистограмма
наглядно
изображает распределение. Гистограмма, составленная на основе группировки
с маленькими интервалами, обычно многовершинная и не отражает наглядно
существенных свойств распределения.


В качестве примера на рис. 1 дана гистограмма
распределения 200 диаметров, соответствующая данным первого столбца табл.
1а, а на рис. 3 - гистограмма того же распределения (соответствующая таблица
не приводится ввиду её громоздкости) при интервале 0,01 мм. С другой
стороны, группировка по слишком крупным интервалам может привести к потере
ясного представления о характере распределения и к грубым ошибкам при вычислении
среднего и других характеристик распределения (см. табл. 16 и соответствующую
гистограмму на рис. 2).
Рис. 1. Гистограмма распределения
диа-i метров 200 деталей. Длина интервала группировки 0,05 мм.

Рис. 2. Гистограмма распределения
диаметров 200 деталей. Длина интервала группировки 0,25 мм.

Рис. 3. Гистограмма распределения
диаметров 200 деталей. Длина интервала группировки 0,01 мм.



В пределах М. с. вопрос об интервалах группировки
может быть рассмотрен только с формальной стороны: полноты математич. описания
распределения, точности вычисления средних по сгруппированным данным и
т. д. О группировке, имеющей целью выделить качественно различные группы
в изучаемой совокупности, см. Статистические группировки. При изучении
совместного распределения двух признаков пользуются таблицами с двумя входами.
Примером совместного распределения двух качеств, признаков может служить
таблица 2а. В общем случае, когда по признаку А материал разбит
на классы
Aпо
признаку
В - на классы
Bтаблица
состоит из численностей nобъектов, принадлежащих одновременно
классам Aи
BСуммируя их по формулам

1533-2.jpg

получают численности самих классов Aи
Bочевидно, что

1533-3.jpg

где п - численность всей изучаемой
совокупности. В зависимости от целей дальнейшего исследования вычисляют
те или иные из относительных частот

1533-4.jpg


Напр., при изучении влияния вдыхания сыворотки
на заболевание гриппом по табл. 2а естественно вычислить относительные
частоты, данные в табл. 26.


Табл. 2 а. - Распределение заболевших
и не заболевших гриппом среди работников Центрального универмага в Москве,
вдыхавших и не вдыхавших противогриппозную сыворотку (1939)











































Не заболевшие


Заболевшие


Всего


Не вдыхавшие


1675


150


1825


Вдыхавшие


497


4


501


Всего


2172


154


2326



Табл. 2б. - Относительные частоты (соответствующие
данным табл. 2а)

































Не заболевшие


Заболевшие


Всего


Не вдыхавшие


0,918


0,082


1,000


Вдыхавшие


0,992


0,008


1,000





Пример таблицы для совместного распределения
двух количеств, признаков см. в статье Корреляция. Табл. 1а служит
примером смешанного случая: материал группируется по одному качеств, признаку
(принадлежность к основной выборке, произведённой для определения среднего
уровня производств, процесса, и к трём выборкам, произведённым в различные
моменты времени для проверки сохранения этого нормального среднего уровня)
и по одному количеств, признаку (диаметр деталей).


Простейшими сводными характеристиками распределения
одного количеств, признака являются среднее

1533-5.jpg

и среднее квадратичное отклонение

1533-6.jpg

При вычислении х, S2
и D по группированным данным пользуются формулами

1533-7.jpg

где т - число интервалов группировки,
а- их середины (в случае табл. 1а - 13,07; 13,12; 13,17; 13,22 и т.
д.). Если материал сгруппирован по слишком крупным интервалам, то такой
подсчёт даёт слишком грубые результаты. Иногда в таких случаях полезно
прибегать к специальным поправкам на группировку. Однако эти поправки имеет
смысл вводить лишь при условии выполнения определённых вероятностных предположений.


О совместных распределениях двух и большего
числа признаков см. Корреляция, Корреляционный анализ, Регрессия, Регрессионный
анализ.




Связь статистических распределений с
вероятностными. Оценка параметров. Проверка вероятностных гипотез. Выше
были изложены лишь нек-рые избранные простейшие приёмы статистич. описания,
представляющего собой довольно обширную дисциплину с хорошо разработанной
системой понятий и техникой вычислений. Приёмы статистич. описания интересны,
однако не сами по себе, а в качестве средства для получения из статистич.
материала выводов о закономерностях, к-рым подчиняются изучаемые явления,
и о причинах, приводящих в каждом отд. случае к тем или иным наблюдённым
статистич. распределениям.


Напр., данные, приведённые в табл. 2а,
естественно связать с такой теоретич. схемой. Заболевание гриппом каждого
отд. работника универмага следует считать случайным событием, т. к. общие
условия работы и жизни обследованных работников универмага могут определять
не сам факт заболевания такого-то и такого-то работника, а лишь нек-рую
вероятность заболевания. Вероятности заболевания для вдыхавших сыворотку
(p) и для не вдыхавших (рданным, различны: эти данные дают основания предполагать, что pсущественно
меньше рПеред М. с. возникает задача: по наблюдённым
частотам h= 4/501 0,008 и h150/1825
0,082 оценить вероятности
ри
ри
проверить, достаточен ли статистич. материал для того, чтобы считать установленным,
что p(т. е. что вдыхание сыворотки
действительно уменьшает вероятность заболевания). Утвердительный ответ
на поставленный вопрос в случае данных табл. 2а достаточно убедителен и
без тонких средств М. с. Но в более сомнительных случаях необходимо прибегать
к разработанным М. с. специальным критериям.


Данные первого столбца табл. 1а собраны
с целью установления точности изготовления деталей, расчётный диаметр к-рых
равен
13,40 мм, при нормальном ходе производства. Простейшим допущением,
к-рое может быть в этом случае обосновано нек-рыми теоретич. соображениями,
является предположение, что диаметры отд. деталей можно рассматривать как
случайные величины X, подчинённые нормальному распределению вероятностей

1533-8.jpg

Если это допущение верно, то параметры
а
и
б2-среднее и дисперсию вероятностного распределения - можно
с достаточной точностью оценить по соответствующим характеристикам статистического
распределения (т. к. число наблюдений п = 200 достаточно велико).
В качестве оценки для теоретич. дисперсии б2 предпочитают не
статистич. дисперсию D2 = S2/n,
а
несмещённую
оценку


1533-9.jpg


Для теоретич. среднего квадратичного отклонения
не существует общего (пригодного при любом распределении вероятностей)
выражения несмещённой оценки. В качестве оценки (вообще говоря, смещённой)
для а чаще всего употребляют s. Точность оценок х и s для
а и а указывается соответствующими дисперсиями, к-рые в случае нормального
распределения (1) имеют вид

1533-10.jpg

где знак обозначает приближённое равенство
при больших п. Таким образом, уславливаясь прибавлять к оценкам
со знаком ± их среднее квадратичное отклонение, имеем при больших
п
в
предположении нормального распределения (1):

1533-11.jpg

Объём выборки п = 200 достаточен
для законности пользования этими формулами теории больших выборок.


Дальнейшие сведения об оценке параметров
теоретич. распределений вероятностей см. в статьях Статистические оценки,
Доверительные границы.
О способах, при помощи к-рых по данным первого
столбца табл. 1а можно было бы проверить исходные гипотезы нормальности
распределения и независимости наблюдений, см. в статьях Распределения,
Непараметрические методы, Статистическая проверка гипотез.



При рассмотрении данных следующих столбцов
табл. 1а, каждый из к-рых составлен на основе 10 измерений, употребление
формул теории больших выборок, может служить только для первой ориентировки.
В качестве приближённых оценок параметров а и 0 по-прежнему употребляются
величины х и s, но для оценки точности и надёжности таких оценок
необходимо применять теорию малых выборок. При сравнении по правилам
М. с. выписанных в последних строках табл. 1а значений х и 5 для
трёх выборок с нормальными значениями а и а, оценёнными по первому столбцу
таблицы, можно сделать следующие выводы: первая выборка не даёт оснований
предполагать существенного изменения хода производственного процесса, вторая
выборка даёт основание к заключению об уменьшении среднего диаметра а,
третья
выборка - к заключению об увеличении дисперсии.


Все основанные на теории вероятностей правила
статистич. оценки параметров и проверки гипотез действуют лишь с определённым
значимости
уровнем
со < 1, т. е. могут приводить к ошибочным результатам с
вероятностью а = 1 - со. Напр., если в предположении нормального распределения
и известной теоретичдисперсии б2 производить оценку
а по
х
по правилу

1533-12.jpg


то вероятность ошибки будет равна а, связанному
с k соотношением (см. табл. 3);

1533-13.jpg

Вопрос о рациональном выборе уровня значимости
в данных конкретных условиях (напр., при разработке правил статистич. контроля
массовой продукции) является весьма существенным. При этом желанию применять
правила лишь с высоким (близким к единице) уровнем значимости противостоит
то обстоятельство, что при ограниченном числе наблюдений такие правила
позволяют сделать лишь очень бедные выводы (не дают возможности установить
неравенство вероятностей даже при заметном неравенстве частот и т. д.).

Табл. 3. - Зависимость аи w = 1-а о
т k.







































k


1,96


2,58


3,00


3,29


а


0,050


0,010


0,003


0,001


со


0,950


0,990


0,997


0,999





Выборочный метод. В предыдущем разделе
результаты наблюдений, используемых для оценки распределения вероятностей
или его параметров, подразумевались (хотя это и не оговаривалось) независимыми
(см. Вероятностей теория и особенно Независимость). Хорошо
изученным примером использования зависимых наблюдений может служить оценка
статистич. распределения или его параметров в "генеральной совокупности"
из N объектов по произведённой из неё "выборке", содержащей п
< N
объектов.


Терминологическое замечание. Часто совокупность
п
наблюдений,
сделанных для оценки распределения вероятностей, также наз. выборкой. Этим
объясняется, напр., происхождение употреблённого выше термина "теория малых
выборок". Эта терминология связана с тем, что часто распределение вероятностей
представляют себе в виде статистич. распределения в воображаемой бесконечной
"генеральной совокупности" и условно считают, что наблюдаемые п объектов
"выбираются" из этой совокупности. Эти представления не имеют отчётливого
содержания. В собственном смысле слова выборочный метод всегда предполагает
исходную конечную генеральную совокупность.


Примером применения выборочного метода
может служить следующий. Пусть в партии из N изделий имеется
L
дефектных.
Из партии отбирается случайным образом п < N
изделий (напр.,
п
=
100 при N = 10 000). Вероятность того, что число lдефектных изделий
в выборке будет равно т, равна Р{/ = т} =

1533-14.jpg

Таким образом, l и соответствующая относительная
частота h = l/п оказываются случайными величинами, распределение
к-рых зависит от параметра L или, что то же самое, от параметра
Н
=
L/N. Задача оценки относительной частоты Н по выборочной относительной
частоте h очень похожа на задачу оценки вероятности
р по
относительной частоте h при п независимых испытаниях. При
больших п с вероятностью, близкой к единице, в задаче об оценке
вероятности имеет место приближённое равенство р h,
а в
задаче об оценке относительной частоты - приближённое равенство
Hh.
Однако
в задаче об оценке Н формулы сложнее, а отклонения и от Н в среднем
несколько меньше, чем отклонения h от р в задаче об оценке вероятности
(при том же п). Таким образом, оценка доли
Н
дефектных изделий
в партии по доле h дефектных изделий в выборке при данном объёме
выборки п производится всегда (при любом
N)
несколько точнее,
чем оценка вероятности р по относительной частоте h при независимых
испытаниях. Когда N/n -> стремится к бесконечности, формулы задачи
о выборке переходят асимптотически в формулы задачи об оценке вероятности
р.
См.
также Выборочный метод.


Дальнейшие задачи математической статистики.
Упоминавшиеся выше способы оценки параметров и проверки гипотез основаны
на предположении, что число наблюдений, необходимых для достижения заданной
точности выводов, определяют заранее (до проведения испытаний). Однако
часто априорное определение числа наблюдений нецелесообразно, т. к., не
фиксируя число опытов заранее, а определяя его в ходе эксперимента, можно
уменьшить его математич. ожидание. Сначала это обстоятельство было подмечено
на примере выбора одной из двух гипотез по последовательности независимых
испытаний. Соответствующая процедура (впервые предложенная в связи с задачами
приёмочного
статистического контроля)
состоит в следующем: на каждом шаге по результатам
уже проведённых наблюдений решают а) провести ли следующее испытание, или
о) прекратить испытания и принять первую гипотезу, или в) прекратить испытания
и принять вторую гипотезу. При надлежащем подборе количеств, характеристик
подобной процедуры можно добиться (при той же точности выводов) сокращения
числа наблюдений в среднем почти вдвое по сравнению с процедурой выборки
фиксированного объёма (см.
Последовательный анализ). Развитие методов
последовательного анализа привело, с одной стороны, к изучению управляемых
случайных процессов,
с другой- к появлению общей теории статистических
решений. Эта теория исходит из того, что результаты последовательно проводимых
наблюдений служат основой принятия нек-рых решений (промежуточных - продолжать
испытания или нет, и окончательных - в случае прекращения испытаний). В
задачах оценки параметров окончательные решения суть числа (значение оценок),
в задачах проверки гипотез - принимаемые гипотезы. Цель теории - указать
правила принятия решений, минимизирующих средний риск или убыток (риск
зависит и от вероятностных распределений результатов наблюдений, и от принимаемого
окончательного решения, и от расходов на проведение испытаний и т. п.).


Вопросы целесообразного распределения усилий
при проведении статистического анализа явлений рассматриваются в теории
планирования
эксперимента,
ставшей важной частью совр. М. с.


Наряду с развитием и уточнением общих понятий
М. с. развиваются и её отд. разделы, такие, как дисперсионный анализ,
статистический анализ случайных процессов, статистический анализ многомерный
Появились
новые оценки в регрессионном анализе (см. также
Стохастическая аппроксимация).
Большую
роль в задачах М. с. играет т. н. байесовский подход (см. Статистические
решения).




Историческая справка. Первые начала
М. с. можно найти уже в сочинениях создателей теории вероятностей - Я.
Бернулли
(кон.
17 - нач. 18 вв.), П. Лапласа (2-я пол. 18 - нач. 19 вв.) и С. Пуассона
(1-я пол. 19 в.). В России методы М. с. в применении к демографии и
страховому делу развивал на основе теории вероятностей В. Я. Буняковский
(1846). Решающее значение для всего дальнейшего развития М. с. имели
работы русской классич. школы теории вероятностей 2-й пол. 19 - нач. 20
вв. (П. Л. Чебышев, А. А. Марков, А. М. Ляпунов,
С.
Н. Бернштейн). Многие вопросы теории статистич. оценок были по существу
разработаны на основе теории ошибок и метода наименьших квадратов [К. Гаусс
(1-я пол. 19 в.) и А. А. Марков (кон. 19 - нач. 20 вв.)]. Работы А.
Кетле (19 в., Бельгия), Ф. Гальтона (19 в., Великобритания)
и К. Пирсона (кон. 19 - нач. 20 вв., Великобритания) имели большое
значение, но по уровню использования достижений теории вероятностей отставали
от работ русской школы. К. Пирсоном была широко развёрнута работа по составлению
таблиц функций, необходимых для применения методов М. с. В создании теории
малых выборок, общей теории статистич. оценок и проверки гипотез (освобождённой
от предположений о наличии априорных распределений), последовательного
анализа весьма значительна роль представителей англо-американской школы
[Стью-дент (псевд. У. Госсета), Р. Фишер, Э. Пирсон - Великобритания, Ю.
Нейман, А. Вальд - США], деятельность к-рых началась в 20-х гг. 20 в. В
СССР значительные результаты в области М. с. получены В. И. Романовским,
Е. Е. Слуцким, к-рому принадлежат важные работы по статистике связанных
стационарных рядов, Н. В. Смирновым, заложившим основы теории непараметрических
методов М. с., Ю. В. Линником, обогатившим аналитический аппарат М. с.
новыми методами. На основе М. с. особенно интенсивно разрабатываются статистич.
методы исследования и контроля массового производства, статистич. методы
в области физики, гидрологии, климатологии, звёздной астрономии, биологии,
медицины и др.


Существует неск. журналов, публикующих
работы по М. с., в том числе ч Annals of Statistics" (до 1973 "Annals of
Mathematical Statistics"), "International Statistical Institute Review",
"Biometrika", "Journal of the Royal Statistical Society". Имеются науч.
ассоциации, поддерживающие исследования по М. с. и её применениям. Важную
роль играет Международный статистический институт (ISI) с центром в Амстердаме
и созданная при нём Международная ассоциация по статистич. методам в естеств.
науках (IASPS).


Лит.: Крамер Г., Математические
методы статистики, пер. с англ., М., 1948; Ван-дер-ВарденБ. Л., Математическая
статистика, пер. с нем., М., 1960; Смирнов Н. В., Дунин-Барковский И. В.,
Курс теории вероятностей и математической статистики для технических приложений,
Зизд., М., 1969; Большее Л.Н., СмирновН. В., Таблицы математической статистики,
М., 1968; Л и н н и к Ю.В., Метод наименьших квадратов . . ., 2 изд., М.,
1962; X а л ь д А., Математическая статистика с техническими приложениями,
пер. с англ., М., 1956; Андерсон Т., Введение в многомерный статистический
анализ, пер. с англ., М., 1963; К е н-д а л л М. Д ж., С т ь ю а р т А.,
Теория распределений, пер. с англ., М., 1966. А. Н. Колмогоров, Ю. В.
Прохоров.





А Б В Г Д Е Ё Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я