МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
раздел
математики, посвящённый математич. методам систематизации, обработки и
использования статистических данных для науч. и практич. выводов. При этом
статистич. данными наз. сведения о числе объектов в к.-л. более или менее
обширной совокупности, обладающих теми или иными признаками (таковы, например,
данные табл. 1а и 2а).
Предмет и метод математической статистики.
Статистич.
описание совокупности объектов занимает промежуточное положение между индивидуальным
описанием каждого из объектов совокупности, с одной стороны, и описанием
совокупности по её общим свойствам, совсем не требующим её расчленения
на отд. объекты,- с другой. По сравнению с первым способом статистич. данные
всегда в большей или меньшей степени обезличены и имеют лишь ограниченную
ценность в случаях, когда существенны именно индивидуальные данные (напр.,
учитель, знакомясь с классом, получит лишь весьма предварительную ориентировку
о положении дела из одной статистики числа выставленных его предшественником
отличных, хороших, удовлетворительных и неудовлетворит. оценок). С другой
стороны, по сравнению с данными о наблюдаемых извне суммарных свойствах
совокупности статистич. данные позволяют глубже проникнуть в существо дела.
Напр., данные грану ломет-рич. анализа породы (т. е. данные о распределении
образующих породу частиц по размерам) дают ценную дополнит, информацию
по сравнению с испытанием нерасчленённых образцов породы, позволяя в нек-рой
мере объяснить свойства породы, условия её образования и пр.
Метод исследования, опирающийся на рассмотрение
статистич. данных о тех или иных совокупностях объектов, наз. статистическим.
Статистич. метод применяется в самых различных областях знания. Однако
черты статистич. метода в применении к объектам различной природы столь
своеобразны, что было бы бессмысленно объединять, напр., социально-экономич.
статистику,
физич.
статистику (см. Статистическая физика), звёздную статистику
и т.
п. в одну науку.
Общие черты статистич. метода в различных
областях знания сводятся к подсчёту числа объектов, входящих в те или иные
группы, рассмотрению распределения количеств, признаков, применению выборочного
метода (в случаях,когда детальное исследование всех объектов обширной совокупности
затруднительно), использованию теории вероятностей при оценке достаточности
числа наблюдений для тех или иных выводов и т. п. Эта формальная математическая
сторона статистич. методов исследования, безразличная к специфич. природе
изучаемых объектов, и составляет предмет М. с.
Связь математической статистики с тeoрией
вероятностей. Связь М. с. с теорией вероятностей имеет в разных случаях
различный характер. Вероятностей теория изучает не любые явления,
а явления случайные и именно -"вероятностно случайные", т. е. такие, для
к-рых имеет смысл говорить о соответствующих им распределениях вероятностей.
Тем не менее теория вероятностей играет определённую роль и при статистич.
изучении массовых явлений любой природы, к-рые могут не относиться к категории
вероятностно случайных. Это осуществляется через основанные на теории вероятностей
теорию выборочного метода и теорию ошибок измерений (см. Ошибок
теория). В этих случаях вероятностным закономерностям подчинены не
сами изучаемые явления, а приёмы их исследования.
Табл. 1 а. - Распределение диаметра
детали в мм, обнаруженное при статистическом исследовании массовой _ продукции
(объяснение обозначений х, S, s см. на стр. 482).
Диаметр
|
Основная выборка
|
1-я выборка
|
2-я выборка
|
3-я выборка
|
13,05-13,09
|
_
|
_
|
1
|
1
|
13,10-13,14
|
2
|
-
|
|
|
13,15-13,19
|
1
|
-
|
1
|
1
|
13,20-13,24
|
8
|
-
|
|
-
|
13,25-13,29
|
17
|
1
|
2
|
1
|
13,30-13,34
|
27
|
1
|
1
|
2
|
13,35-13,39
|
30
|
2
|
3
|
1
|
13,40-13,44
|
37
|
2
|
1
|
1
|
13,45-13,49
|
27
|
1
|
-
|
-
|
13,50-13,54
|
25
|
2
|
1
|
-
|
13,55-13,59
|
17
|
--
|
--
|
|
13,60-13,64
|
7
|
1
|
--
|
2
|
13,65-13,69
|
2
|
-
|
-
|
1
|
Всего
|
200
|
10
|
10
|
10
|
X
|
13,416
|
13,430
|
13,315
|
13,385
|
S2
|
2,3910
|
0,0990
|
0,1472
|
0,3602
|
s
|
0,110
|
0,105
|
0,128
|
0,200
|
Табл. 16. - Распределение диаметра детали
основной выборки (из табл. 1а) при более крупных интервалах группировки
Диаметр
|
Число деталей
|
13,00-13,24
|
11
|
13,25-13,49
|
138
|
13,50-13,74
|
51
|
Всего
|
200
|
Более важную роль играет теория вероятностей
при статистич. исследовании вероятностных явлений. Здесь в полной мере
находят применение такие основанные на теории вероятностей разделы М. с.,
как теория статистич. проверки вероятностных гипотез, теория статистич.
оценки распределений вероятностей и входящих в них параметров и т. д. Область
же применения этих более глубоких статистич. методов значительно уже, т.
к. здесь требуется, чтобы сами изучаемые явления были подчинены достаточно
определённым вероятностным закономерностям. Напр., статистич. изучение
режима турбулентных водных потоков или флюктуации в радиоприёмных устройствах
производится на основе теории стационарных случайных процессов.
Однако
применение той же теории к анализу экономических временных рядов может
привести к грубым ошибкам ввиду того, что входящее в определение стационарного
процесса допущение наличия сохраняющихся в течение длительного времени
неизменных распределений вероятностей в этом случае, как правило, совершенно
неприемлемо.
Вероятностные закономерности получают статистич.
выражение (вероятности осуществляются приближённо в виде частот, а математические
ожидания - в виде средних) в силу больших чисел закона.
Простейшие приёмы статистического описания.
Напр., в первом столбце табл. 1а даны результаты
Обычно группировка по 10-20 интервалам,
В качестве примера на рис. 1 дана гистограмма
В пределах М. с. вопрос об интервалах группировки
Напр., при изучении влияния вдыхания сыворотки
Табл. 2 а. - Распределение заболевших
Табл. 2б. - Относительные частоты (соответствующие
Пример таблицы для совместного распределения
Простейшими сводными характеристиками распределения
О совместных распределениях двух и большего
Напр., данные, приведённые в табл. 2а,
Данные первого столбца табл. 1а собраны
Для теоретич. среднего квадратичного отклонения
Дальнейшие сведения об оценке параметров
При рассмотрении данных следующих столбцов
Все основанные на теории вероятностей правила
то вероятность ошибки будет равна а, связанному
Табл. 3. - Зависимость аи w = 1-а о
Выборочный метод. В предыдущем разделе
Терминологическое замечание. Часто совокупность
Примером применения выборочного метода
Дальнейшие задачи математической статистики.
Вопросы целесообразного распределения усилий
Наряду с развитием и уточнением общих понятий
Существует неск. журналов, публикующих
Лит.: Крамер Г., Математические
А
Б
В
Г
Д
Е
Ё
Ж
З
И
Й
К
Л
М
Н
О
П
Р
С
Т
У
Ф
Х
Ц
Ч
Ш
Щ
Ъ
Ы
Ь
Э
Ю
Я
Изучаемая совокупность из п объектов может по к.-л. качественному
признаку А разбиваться на классы A
распределение задаётся при помощи указания численностей (частот) n
измерения 200 диаметров деталей, группированные по интервалам дл. 0,05
мм.
Основная
выборка соответствует нормальному ходу технологич. процесса. 1-я, 2-я и
3-я выборки сделаны через нек-рые промежутки времени для проверки устойчивости
этого нормального хода производства. В табл. 16 результаты измерения деталей
основной выборки даны при группировке по интервалам дл. 0,25 мм.
в каждый из к-рых попадает не более 15-20% значений xt,
оказывается
достаточной для довольно полного выявления всех существенных свойств распределения
и надёжного вычисления по групповым численностям основных характеристик
распределения (см. о них ниже). Составленная по таким группированным данным
гистограмма
наглядно
изображает распределение. Гистограмма, составленная на основе группировки
с маленькими интервалами, обычно многовершинная и не отражает наглядно
существенных свойств распределения.
распределения 200 диаметров, соответствующая данным первого столбца табл.
1а, а на рис. 3 - гистограмма того же распределения (соответствующая таблица
не приводится ввиду её громоздкости) при интервале 0,01 мм. С другой
стороны, группировка по слишком крупным интервалам может привести к потере
ясного представления о характере распределения и к грубым ошибкам при вычислении
среднего и других характеристик распределения (см. табл. 16 и соответствующую
гистограмму на рис. 2).
Рис. 1. Гистограмма распределения
диа-i метров 200 деталей. Длина интервала группировки 0,05 мм.
Рис. 2. Гистограмма распределения
диаметров 200 деталей. Длина интервала группировки 0,25 мм.
Рис. 3. Гистограмма распределения
диаметров 200 деталей. Длина интервала группировки 0,01 мм.
может быть рассмотрен только с формальной стороны: полноты математич. описания
распределения, точности вычисления средних по сгруппированным данным и
т. д. О группировке, имеющей целью выделить качественно различные группы
в изучаемой совокупности, см. Статистические группировки. При изучении
совместного распределения двух признаков пользуются таблицами с двумя входами.
Примером совместного распределения двух качеств, признаков может служить
таблица 2а. В общем случае, когда по признаку А материал разбит
на классы
A
признаку
В - на классы
B
состоит из численностей n
классам A
B
получают численности самих классов A
B
где п - численность всей изучаемой
совокупности. В зависимости от целей дальнейшего исследования вычисляют
те или иные из относительных частот
на заболевание гриппом по табл. 2а естественно вычислить относительные
частоты, данные в табл. 26.
и не заболевших гриппом среди работников Центрального универмага в Москве,
вдыхавших и не вдыхавших противогриппозную сыворотку (1939)
данным табл. 2а)
двух количеств, признаков см. в статье Корреляция. Табл. 1а служит
примером смешанного случая: материал группируется по одному качеств, признаку
(принадлежность к основной выборке, произведённой для определения среднего
уровня производств, процесса, и к трём выборкам, произведённым в различные
моменты времени для проверки сохранения этого нормального среднего уровня)
и по одному количеств, признаку (диаметр деталей).
одного количеств, признака являются среднее
и среднее квадратичное отклонение
При вычислении х, S2
и D по группированным данным пользуются формулами
где т - число интервалов группировки,
а
д.). Если материал сгруппирован по слишком крупным интервалам, то такой
подсчёт даёт слишком грубые результаты. Иногда в таких случаях полезно
прибегать к специальным поправкам на группировку. Однако эти поправки имеет
смысл вводить лишь при условии выполнения определённых вероятностных предположений.
числа признаков см. Корреляция, Корреляционный анализ, Регрессия, Регрессионный
анализ.
Связь статистических распределений с
вероятностными. Оценка параметров. Проверка вероятностных гипотез. Выше
были изложены лишь нек-рые избранные простейшие приёмы статистич. описания,
представляющего собой довольно обширную дисциплину с хорошо разработанной
системой понятий и техникой вычислений. Приёмы статистич. описания интересны,
однако не сами по себе, а в качестве средства для получения из статистич.
материала выводов о закономерностях, к-рым подчиняются изучаемые явления,
и о причинах, приводящих в каждом отд. случае к тем или иным наблюдённым
статистич. распределениям.
естественно связать с такой теоретич. схемой. Заболевание гриппом каждого
отд. работника универмага следует считать случайным событием, т. к. общие
условия работы и жизни обследованных работников универмага могут определять
не сам факт заболевания такого-то и такого-то работника, а лишь нек-рую
вероятность заболевания. Вероятности заболевания для вдыхавших сыворотку
(p
меньше р
частотам h
0,082 оценить вероятности
р
р
проверить, достаточен ли статистич. материал для того, чтобы считать установленным,
что p
действительно уменьшает вероятность заболевания). Утвердительный ответ
на поставленный вопрос в случае данных табл. 2а достаточно убедителен и
без тонких средств М. с. Но в более сомнительных случаях необходимо прибегать
к разработанным М. с. специальным критериям.
с целью установления точности изготовления деталей, расчётный диаметр к-рых
равен
13,40 мм, при нормальном ходе производства. Простейшим допущением,
к-рое может быть в этом случае обосновано нек-рыми теоретич. соображениями,
является предположение, что диаметры отд. деталей можно рассматривать как
случайные величины X, подчинённые нормальному распределению вероятностей
Если это допущение верно, то параметры
а
и
б2-среднее и дисперсию вероятностного распределения - можно
с достаточной точностью оценить по соответствующим характеристикам статистического
распределения (т. к. число наблюдений п = 200 достаточно велико).
В качестве оценки для теоретич. дисперсии б2 предпочитают не
статистич. дисперсию D2 = S2/n,
а
несмещённую
оценку
не существует общего (пригодного при любом распределении вероятностей)
выражения несмещённой оценки. В качестве оценки (вообще говоря, смещённой)
для а чаще всего употребляют s. Точность оценок х и s для
а и а указывается соответствующими дисперсиями, к-рые в случае нормального
распределения (1) имеют вид
где знак обозначает приближённое равенство
при больших п. Таким образом, уславливаясь прибавлять к оценкам
со знаком ± их среднее квадратичное отклонение, имеем при больших
п
в
предположении нормального распределения (1):
Объём выборки п = 200 достаточен
для законности пользования этими формулами теории больших выборок.
теоретич. распределений вероятностей см. в статьях Статистические оценки,
Доверительные границы. О способах, при помощи к-рых по данным первого
столбца табл. 1а можно было бы проверить исходные гипотезы нормальности
распределения и независимости наблюдений, см. в статьях Распределения,
Непараметрические методы, Статистическая проверка гипотез.
табл. 1а, каждый из к-рых составлен на основе 10 измерений, употребление
формул теории больших выборок, может служить только для первой ориентировки.
В качестве приближённых оценок параметров а и 0 по-прежнему употребляются
величины х и s, но для оценки точности и надёжности таких оценок
необходимо применять теорию малых выборок. При сравнении по правилам
М. с. выписанных в последних строках табл. 1а значений х и 5 для
трёх выборок с нормальными значениями а и а, оценёнными по первому столбцу
таблицы, можно сделать следующие выводы: первая выборка не даёт оснований
предполагать существенного изменения хода производственного процесса, вторая
выборка даёт основание к заключению об уменьшении среднего диаметра а,
третья
выборка - к заключению об увеличении дисперсии.
статистич. оценки параметров и проверки гипотез действуют лишь с определённым
значимости
уровнем со < 1, т. е. могут приводить к ошибочным результатам с
вероятностью а = 1 - со. Напр., если в предположении нормального распределения
и известной теоретичдисперсии б2 производить оценку
а по
х
по правилу
с k соотношением (см. табл. 3);
Вопрос о рациональном выборе уровня значимости
в данных конкретных условиях (напр., при разработке правил статистич. контроля
массовой продукции) является весьма существенным. При этом желанию применять
правила лишь с высоким (близким к единице) уровнем значимости противостоит
то обстоятельство, что при ограниченном числе наблюдений такие правила
позволяют сделать лишь очень бедные выводы (не дают возможности установить
неравенство вероятностей даже при заметном неравенстве частот и т. д.).
т k.
результаты наблюдений, используемых для оценки распределения вероятностей
или его параметров, подразумевались (хотя это и не оговаривалось) независимыми
(см. Вероятностей теория и особенно Независимость). Хорошо
изученным примером использования зависимых наблюдений может служить оценка
статистич. распределения или его параметров в "генеральной совокупности"
из N объектов по произведённой из неё "выборке", содержащей п
< N объектов.
п
наблюдений,
сделанных для оценки распределения вероятностей, также наз. выборкой. Этим
объясняется, напр., происхождение употреблённого выше термина "теория малых
выборок". Эта терминология связана с тем, что часто распределение вероятностей
представляют себе в виде статистич. распределения в воображаемой бесконечной
"генеральной совокупности" и условно считают, что наблюдаемые п объектов
"выбираются" из этой совокупности. Эти представления не имеют отчётливого
содержания. В собственном смысле слова выборочный метод всегда предполагает
исходную конечную генеральную совокупность.
может служить следующий. Пусть в партии из N изделий имеется
L
дефектных.
Из партии отбирается случайным образом п < N
изделий (напр.,
п
= 100 при N = 10 000). Вероятность того, что число lдефектных изделий
в выборке будет равно т, равна Р{/ = т} =
Таким образом, l и соответствующая относительная
частота h = l/п оказываются случайными величинами, распределение
к-рых зависит от параметра L или, что то же самое, от параметра
Н
= L/N. Задача оценки относительной частоты Н по выборочной относительной
частоте h очень похожа на задачу оценки вероятности
р по
относительной частоте h при п независимых испытаниях. При
больших п с вероятностью, близкой к единице, в задаче об оценке
вероятности имеет место приближённое равенство р h,
а в
задаче об оценке относительной частоты - приближённое равенство
Hh.
Однако
в задаче об оценке Н формулы сложнее, а отклонения и от Н в среднем
несколько меньше, чем отклонения h от р в задаче об оценке вероятности
(при том же п). Таким образом, оценка доли
Н
дефектных изделий
в партии по доле h дефектных изделий в выборке при данном объёме
выборки п производится всегда (при любом
N)
несколько точнее,
чем оценка вероятности р по относительной частоте h при независимых
испытаниях. Когда N/n -> стремится к бесконечности, формулы задачи
о выборке переходят асимптотически в формулы задачи об оценке вероятности
р.
См.
также Выборочный метод.
Упоминавшиеся выше способы оценки параметров и проверки гипотез основаны
на предположении, что число наблюдений, необходимых для достижения заданной
точности выводов, определяют заранее (до проведения испытаний). Однако
часто априорное определение числа наблюдений нецелесообразно, т. к., не
фиксируя число опытов заранее, а определяя его в ходе эксперимента, можно
уменьшить его математич. ожидание. Сначала это обстоятельство было подмечено
на примере выбора одной из двух гипотез по последовательности независимых
испытаний. Соответствующая процедура (впервые предложенная в связи с задачами
приёмочного
статистического контроля) состоит в следующем: на каждом шаге по результатам
уже проведённых наблюдений решают а) провести ли следующее испытание, или
о) прекратить испытания и принять первую гипотезу, или в) прекратить испытания
и принять вторую гипотезу. При надлежащем подборе количеств, характеристик
подобной процедуры можно добиться (при той же точности выводов) сокращения
числа наблюдений в среднем почти вдвое по сравнению с процедурой выборки
фиксированного объёма (см.
Последовательный анализ). Развитие методов
последовательного анализа привело, с одной стороны, к изучению управляемых
случайных процессов,
с другой- к появлению общей теории статистических
решений. Эта теория исходит из того, что результаты последовательно проводимых
наблюдений служат основой принятия нек-рых решений (промежуточных - продолжать
испытания или нет, и окончательных - в случае прекращения испытаний). В
задачах оценки параметров окончательные решения суть числа (значение оценок),
в задачах проверки гипотез - принимаемые гипотезы. Цель теории - указать
правила принятия решений, минимизирующих средний риск или убыток (риск
зависит и от вероятностных распределений результатов наблюдений, и от принимаемого
окончательного решения, и от расходов на проведение испытаний и т. п.).
при проведении статистического анализа явлений рассматриваются в теории
планирования
эксперимента, ставшей важной частью совр. М. с.
М. с. развиваются и её отд. разделы, такие, как дисперсионный анализ,
статистический анализ случайных процессов, статистический анализ многомерный
Появились
новые оценки в регрессионном анализе (см. также
Стохастическая аппроксимация).
Большую
роль в задачах М. с. играет т. н. байесовский подход (см. Статистические
решения).
Историческая справка. Первые начала
М. с. можно найти уже в сочинениях создателей теории вероятностей - Я.
Бернулли
(кон.
17 - нач. 18 вв.), П. Лапласа (2-я пол. 18 - нач. 19 вв.) и С. Пуассона
(1-я пол. 19 в.). В России методы М. с. в применении к демографии и
страховому делу развивал на основе теории вероятностей В. Я. Буняковский
(1846). Решающее значение для всего дальнейшего развития М. с. имели
работы русской классич. школы теории вероятностей 2-й пол. 19 - нач. 20
вв. (П. Л. Чебышев, А. А. Марков, А. М. Ляпунов,
С.
Н. Бернштейн). Многие вопросы теории статистич. оценок были по существу
разработаны на основе теории ошибок и метода наименьших квадратов [К. Гаусс
(1-я пол. 19 в.) и А. А. Марков (кон. 19 - нач. 20 вв.)]. Работы А.
Кетле (19 в., Бельгия), Ф. Гальтона (19 в., Великобритания)
и К. Пирсона (кон. 19 - нач. 20 вв., Великобритания) имели большое
значение, но по уровню использования достижений теории вероятностей отставали
от работ русской школы. К. Пирсоном была широко развёрнута работа по составлению
таблиц функций, необходимых для применения методов М. с. В создании теории
малых выборок, общей теории статистич. оценок и проверки гипотез (освобождённой
от предположений о наличии априорных распределений), последовательного
анализа весьма значительна роль представителей англо-американской школы
[Стью-дент (псевд. У. Госсета), Р. Фишер, Э. Пирсон - Великобритания, Ю.
Нейман, А. Вальд - США], деятельность к-рых началась в 20-х гг. 20 в. В
СССР значительные результаты в области М. с. получены В. И. Романовским,
Е. Е. Слуцким, к-рому принадлежат важные работы по статистике связанных
стационарных рядов, Н. В. Смирновым, заложившим основы теории непараметрических
методов М. с., Ю. В. Линником, обогатившим аналитический аппарат М. с.
новыми методами. На основе М. с. особенно интенсивно разрабатываются статистич.
методы исследования и контроля массового производства, статистич. методы
в области физики, гидрологии, климатологии, звёздной астрономии, биологии,
медицины и др.
работы по М. с., в том числе ч Annals of Statistics" (до 1973 "Annals of
Mathematical Statistics"), "International Statistical Institute Review",
"Biometrika", "Journal of the Royal Statistical Society". Имеются науч.
ассоциации, поддерживающие исследования по М. с. и её применениям. Важную
роль играет Международный статистический институт (ISI) с центром в Амстердаме
и созданная при нём Международная ассоциация по статистич. методам в естеств.
науках (IASPS).
методы статистики, пер. с англ., М., 1948; Ван-дер-ВарденБ. Л., Математическая
статистика, пер. с нем., М., 1960; Смирнов Н. В., Дунин-Барковский И. В.,
Курс теории вероятностей и математической статистики для технических приложений,
Зизд., М., 1969; Большее Л.Н., СмирновН. В., Таблицы математической статистики,
М., 1968; Л и н н и к Ю.В., Метод наименьших квадратов . . ., 2 изд., М.,
1962; X а л ь д А., Математическая статистика с техническими приложениями,
пер. с англ., М., 1956; Андерсон Т., Введение в многомерный статистический
анализ, пер. с англ., М., 1963; К е н-д а л л М. Д ж., С т ь ю а р т А.,
Теория распределений, пер. с англ., М., 1966. А. Н. Колмогоров, Ю. В.
Прохоров.