Центральная предельная теорема понятие частоты события. Энциклопедия маркетинга. Альтернативная формулировка ЦПТ

Чарльз Уилан Глава из книги
Издательство «Манн, Иванов и Фербер»

Наконец, настало время подвести итог сказанному. Поскольку средние значения выборок распределены по нормальному закону (благодаря центральной предельной теореме), мы можем воспользоваться богатым потенциалом кривой нормального распределения. Мы рассчитываем, что примерно 68% средних значений всех выборок будут отстоять от среднего значения совокупности на расстоянии, не превышающем одной стандартной ошибки; 95% - на расстоянии, не превышающем двух стандартных ошибок; и 99,7% - на расстоянии, не превышающем трех стандартных ошибок.

Теперь вернемся к отклонению (разбросу) в примере с пропавшим автобусом - правда, на этот раз призовем на помощь не интуицию, а числа. (Сам по себе этот пример остается абсурдным; в следующей главе мы рассмотрим множество более близких к реальности случаев.) Допустим, что организаторы исследования Americans" Changing Lives пригласили всех его участников на выходные в Бостон, чтобы весело провести время и заодно предоставить кое-какие недостающие данные. Участников распределяют произвольным образом по автобусам и отвозят в тестовый центр, где их взвесят, определят рост и т. п. К ужасу организаторов мероприятия, один из автобусов пропадает где-то по пути в тестовый центр. Об этом событии оповещают в программе новостей местного радио и телевидения. Возвращаясь примерно в то же время в своем автомобиле с Фестиваля любителей сосисок, вы замечаете на обочине дороги сломавшийся автобус. Похоже, его водитель был вынужден резко свернуть в сторону, пытаясь уклониться от столкновения с лосем, неожиданно появившимся на дороге. От столь резкого маневра все пассажиры потеряли сознание или лишились дара речи, хотя никто из них, к счастью, не получил серьезных травм. (Такое предположение понадобилось мне исключительно для чистоты приведенного здесь примера, а надежда на отсутствие у пассажиров серьезных травм объясняется моим врожденным человеколюбием.) Врачи кареты скорой помощи, оперативно прибывшие на место происшествия, сообщили вам, что средний вес 62 пассажиров автобуса составляет 194 фунта. Кроме того, оказалось (к огромному облегчению всех любителей животных), что лось, от столкновения с которым пытался увернуться водитель автобуса, практически не пострадал (если не считать легкого ушиба задней ноги), но от сильного испуга тоже потерял сознание и лежит рядом с автобусом.

К счастью, вам известен средний вес пассажиров автобуса, а также сред-неквадратическое отклонение для всей совокупности Americans" Changing Lives. Кроме того, мы имеем общее представление о центральной предельной теореме и знаем, как оказать первую помощь пострадавшему животному. Средний вес участников исследования Americans" Changing Lives составляет 162 фунта; среднеквадратическое отклонение равняется 36. На основе этой информации вы можете вычислить стандартную ошибку для выборки из 62 человек (количество пассажиров автобуса, потерявших сознание): .

Разница между средним значением этой выборки (194 фунта) и средним значением совокупности (162 фунта) равна 32 фунта, то есть значительно больше трех стандартных ошибок. Из центральной предельной теоремы вам известно, что 99,7% средних значений всех выборок будут отстоять от среднего значения совокупности на расстоянии, не превышающем трех стандартных ошибок. Таким образом, крайне маловероятно, что встретившийся вам автобус перевозит группу участников исследования Americans" Changing Lives. Будучи видным общественным активистом города, вы звоните организаторам мероприятия, чтобы сообщить, что в повстречавшемся вам автобусе, скорее всего, находится какая-то другая группа людей. Правда, в этом случае вы можете опираться на статистические результаты, а не свои «интуитивные догадки». Вы сообщаете организаторам, что отрицаете вероятность того, что найденный вами автобус именно тот, который они разыскивают, с 99,7% доверительным уровнем. А поскольку в данном случае вы разговариваете с людьми, знакомыми со статистикой, то можете не сомневаться, они понимают, что вы правы. (Всегда приятно иметь дело с умными людьми!)

Сделанные вами выводы находят дальнейшее подтверждение, когда врачи скорой помощи берут пробы крови у пассажиров автобуса и обнаруживают, что средний уровень холестерина в их крови превышает средний уровень холестерина в крови участников исследования Americans" Changing Lives на пять стандартных ошибок. Из этого следует, что впавшие в бессознательное состояние пассажиры - участники Фестиваля любителей сосисок. (Впоследствии это было неопровержимо доказано.)

[У этой истории оказался счастливый конец. Когда к пассажирам автобуса вернулось сознание, организаторы исследования Americans" Changing Lives посоветовали им проконсультироваться у специалистов-диетологов относительно опасности употребления в пищу продуктов с высоким содержанием насыщенных жиров. После таких консультаций многие из любителей сосисок решили порвать со своим позорным прошлым и вернуться к более здоровому рациону питания. Пострадавшего лося выходили в местной ветеринарной клинике и выпустили на свободу под одобрительные возгласы членов местного Общества защиты животных. Да, история почему-то умалчивает о судьбе водителя автобуса. Возможно, потому, что статистика не занимается судьбами отдельно взятых людей. Лось - совсем другое дело, замолчать его судьбу не удастся! В случае чего за него может вступиться Общество защиты животных.]

В этой главе я пытался говорить только об основах. Вы, наверное, обратили внимание, что центральная предельная теорема применима лишь в случаях, когда размер выборки достаточно велик (как правило, не менее 30). Кроме того, нам требуется относительно большая выборка, если мы намерены предположить, что ее среднеквадратическое отклонение будет примерно таким же, как и среднеквадратическое отклонение генеральной совокупности.

Существует немало статистических поправок, которые можно применять в случае несоблюдения указанных условий, но все это похоже на сахарную глазурь на торте (и, возможно, даже на шоколадные крошки, которыми присыпают эту глазурь сверху). «Общая картина» здесь проста и чрезвычайно эффективна.

  1. Если вы формируете на основе какой-либо совокупности большие (по объему) случайные выборки, то их средние значения будут распределены по нормальному закону вблизи среднего значения соответствующей совокупности (какой бы вид ни имело распределение исходной совокупности).
  2. Большинство средних значений выборок будет расположено достаточно близко к среднему значению совокупности (что именно следует в том или ином случае считать «достаточно близким», определяется стандартной ошибкой).
  3. Центральная предельная теорема говорит нам о вероятности того, что среднее значение выборки будет находиться не дальше определенного расстояния от среднего значения совокупности. Относительно маловероятно, что среднее значение выборки будет отстоять от среднего значения совокупности дальше, чем на расстояние двух стандартных ошибок, и крайне маловероятно, что среднее значение выборки будет отстоять от среднего значения совокупности дальше, чем на расстояние трех и более стандартных ошибок.
  4. Чем меньше вероятность того, что какой-то исход оказался чисто случайным, тем больше мы можем быть уверены в том, что здесь не обошлось без воздействия какого-то другого фактора.

В этом по большому счету и заключается сущность статистического вывода. Центральная предельная теорема главным образом делает все это возможным. И до тех пор, пока Леброн Джеймс не станет столько раз чемпионом НБА, сколько Майкл Джордан (шесть), центральная предельная теорема будет производить на нас гораздо большее впечатление, чем знаменитый баскетболист.

Леброн Рэймон Джеймс (LeBron Raymone James) - американский профессиональный баскетболист, играющий на позиции легкого и тяжелого форварда за команду НБА «Кливленд Кавальерс». Прим. перев.

Обратите внимание на весьма остроумное использование в данном случае ложной точности.

Когда среднеквадратическое отклонение соответствующей совокупности вычисляется на основании меньшей выборки, приведенная нами формула несколько видоизменяется: Это помогает учесть то обстоятельство, что дисперсия в малой выборке может «недооценивать» дисперсию всей совокупности. Это не имеет особого отношения к более универсальным положениям, о которых идет речь в данной главе.

Мой коллега из Чикагского университета, Джим Сэлли, сделал очень важное критическое замечание по поводу примеров с пропавшим автобусом. Он указал, что пропавший автобус - чрезвычайно большая редкость в наше время. Поэтому если нам придется искать какой-нибудь пропавший автобус, то любой встретившийся нам автобус, который окажется пропавшим или поломавшимся, наверняка будет именно тем автобусом, который нас интересует, каким бы ни был вес пассажиров в этом автобусе. Пожалуй, Джим прав. (Воспользуюсь такой аналогией: если вы потеряли в супермаркете своего ребенка и дирекция этого магазина сообщает по радио, что возле кассы номер шесть стоит чей-то потерявшийся ребенок, то вы наверняка сразу же решите, что речь идет именно о вашем ребенке.) Следовательно, нам не остается ничего другого, как дополнить наши примеры еще одним элементом абсурда, полагая, что пропажа автобуса является вполне рядовым событием.

План:

1. Понятие центральной предельной теоремы (теорема Ляпунова)

2. Закон больших чисел, вероятность и частота (теоремы Чебышева и Бернулли)

1. Понятие центральной предельной теоремы.

Нормальное распределение вероятностей имеет в теории вероят­ностей большое значение. Нормальному закону подчиняется вероят­ность при стрельбе по цели, в измерениях и т. п. В частности, оказывается, что закон распределения суммы достаточно большого чис­ла независимых случайных величин с произвольными законами распределения близок к нормальному распределению. Этот факт, называемый центральной предельной теоремой или теоремой Ляпунова.

Известно, что нормально распределенные случай­ные величины широко распространены на практике. Чем это объясняется? Ответ на этот вопрос был дан

Централь­ная предельная теорема. Если случайная величина X пред­ставляет, собой сумму очень большого числа взаимно неза­висимых случайных величин, влияние каждой из которых на всю сумму ничтожно мало, то X имеет распределение, близкое к нормальному распределению.

Пример. Пусть производится измерение некоторой физической величины. Любое измерение дает лишь приближенное значение изме­ряемой величины, так как на результат измерения влияют очень многие независимые случайные факторы (температура, колебания прибора, влажность и др.). Каждый из этих факторов порождает ничтожную "частную ошибку". Однако, поскольку число этих факторов очень велико, их совокупное действие порождает уже заметную «суммар­ную ошибку».

Рассматривая суммарную ошибку как сумму очень большого числа взаимно независимых частных ошибок, мы вправе заключить, что суммарная ошибка имеет распределение, близкое к нормальному распределению. Опыт подтверждает справедливость такого заключения.

Рассмотрим условия, при которых выполняется "централь­ная предельная теорема"

Х1, Х2, ...,Х n – последовательность независимых случайных величин,

M (Х1), M (Х2), ..., M n ) - конечные математические ожидания этих величин, соответственно равные М(Xk )= ak

D(Х1), D (Х2), ..., D n ) - конечные дисперсии их, соответственно равные D (X k )= bk 2

Введем обозначения: S= Х1+Х2 + ...+Хn;

A k= Х1+Х2 + ...+Хn=; B2= D(Х1)+ D (Х2)+ ...+ D n ) =

Запишем функцию распределения нормированной суммы:

Говорят, что к последовательности Х1, Х2, ...,Х n применима централь­ная предельная теорема, если при любом x функция распределения нормированной суммы при n ® ¥ стремится к нормальной функции распределения:

Right " style="border-collapse:collapse;border:none;margin-left:6.75pt;margin-right: 6.75pt">

Рассмотрим дискретную случайную величину X , задан­ную таблицей распределения:

Поставим перед собой задачу оценить вероятность того, что отклонение случайной величины от ее математического ожидания не превышает по абсолютной величине поло­жительного числа ε

Если ε достаточно мало, то мы оце­ним, таким образом, вероятность того, что X примет значения, достаточно близкие к своему математическому ожиданию. доказал неравенство, позволяю­щее дать интересующую нас оценку.

Лемма Чебышева. Дана случайная величина X, принимающая только неотрицательные значения с математическим ожиданием M(X). Для любого числа α>0 имеет место выражение:


Неравенство Чебышева. Вероятность того, что отклонение случайной величины X от ее математического ожидания по абсолютной величине меньше положитель­ного числа ε , не меньше, чем 1 – D(X) / ε 2:

Р (| X-M (X) | < ε ) ³ 1 - D (Х) / ε 2.

Замечание. Неравенство Чебышева имеет для практики огра­ниченное значение, поскольку часто дает грубую, а иногда и три­виальную (не представляющую интереса) оценку.

Теоретическое же значение неравенства Чебышева весьма велико. Ниже мы воспользуемся этим неравенством для вывода теоремы Чебышева.

2.2. Теорема Чебышева

Если Х1, Х2, ...,Хn..- попарно независимые случайные величины, причем диспер­сии их равномерно ограничены (не превышают постоян­ного числа С), то, как бы мало ни было положительное число ε , вероятность неравенства

÷ (Х1+Х2 + ...+Хn) / n - (M(Х1)+M(Х2)+ ...+M(Хn))/n | < ε

будет как угодно близка к единице, если число случайных величин достаточно велико.

P (÷ (Х1+Х2 + ...+Хn) / n - (M(Х1)+M(Х2)+ ...+M(Хn))/n | < ε )=1.

Теорема Чебышева утверждает:

1. Рассматривается достаточно большое число незави­симых случайных величин, имеющих ограниченные ди­сперсии,

Формулируя теорему Чебышева, мы предпола­гали, что случайные величины имеют различные матема­тические ожидания. На практике часто бывает, что слу­чайные величины имеют одно и то же математическое ожидание. Очевидно, что если вновь допустить, что диспер­сии этих величин ограничены, то к ним будет применима теорема Чебышева.

Обозначим математическое ожидание каждой из слу­чайных величин через а;

В рассматриваемом случае среднее арифметическое математических ожиданий, как легко видеть, также равно а.

Можно сформулировать тео­рему Чебышева для рассматриваемого частного случая.

"Если Х1, Х2, ...,Хn..- попарно независимые случай­ные величины, имеющие одно и то же математическое ожидание а, и если дисперсии этих величин равномерно ограничены, то, как бы мало ни было число ε > О, ве­роятность неравенства

÷ (Х1+Х2 + ...+Хn) / n - a | < ε

будет как угодно близка к единице, если число случай­ных величин достаточно велико".

Другими словами, в условиях теоремы

P (÷ (Х1+Х2 + ...+Хn) / n - a | < ε ) = 1.

2.3. Сущность теоремы Чебышева

Хотя от­дельные независимые случайные величины могут прини­мать значения, далекие от своих математических ожиданий, среднее арифметическое достаточно большого числа случай­ных величин с большой вероятностью принимает значе­ния, близкие к определенному постоянному числу, а именно к числу

(М (Xj ) + М (Х2) +... + М (Х„))/п или к числу а в частном случае.

Иными словами, отдельные случайные величины могут иметь значительный разброс, а их среднее арифметическое рассеянно мало.

Таким образом, нельзя уверенно предсказать, какое возможное значение примет каждая из случайных вели­чин, но можно предвидеть, какое значение примет их среднее арифметическое.

Итак, среднее арифметическое достаточно большого числа независимых случайных величин (дисперсии которых равномерно ограничены) утрачивает характер случайной, величины.

Объясняется это тем, что отклонения каждой из величин от своих математических ожиданий могут быть как положительными, так и отрицательными, а в среднем арифметическом они взаимно погашаются.

Теорема Чебышева справедлива не только для дискрет­ных, но и для непрерывных случайных величин; она является примером, подтверждающим справедли­вость учения о связи между случайностью и необходимостью.

2.4. Значение теоремы Чебышева для практики

Приведем примеры применения теоремы Чебышева к решению практических задач.

Обычно для измерения некоторой физической величины производят несколько измерений и их среднее арифме­тическое принимают в качестве искомого размера. При каких условиях этот способ измерения можно считать правильным? Ответ на этот вопрос дает теорема Чебы­шева (ее частный случай).

Действительно, рассмотрим результаты каждого из­мерения как случайные величины

Х1, Х2, ...,Хn

К. этим величинам можно применить теорему Чебышева, если:

1) Они попарно независимы.

2) имеют одно и то же ма­тематическое ожидание,

3) дисперсии их равномерно огра­ничены.

Первое требование выполняется, если результат каж­дого измерения не зависит от результатов остальных.

Второе требование выполняется, если измерения произ­ведены без систематических (одного знака) ошибок. В этом случае математические ожидания всех случайных величин одинаковы и равны истинному размеру а.

Третье требо­вание выполняется, если прибор обеспечивает определен­ную точность измерений. Хотя при этом результаты отдельных измерений различны, но рассеяние их огра­ничено.

Если все указанные требования выполнены, мы вправе применить к результатам измерений теорему Чебышева: при достаточно большом п вероятность неравенства

| (Х1 + Хя+...+Х„)/п - а |< ε как угодно близка к единице.

Другими словами, при достаточно большом числе измерений почти достоверно, что их среднее арифметическое как угодно мало отли­чается от истинного значения измеряемой величины.

Теорема Чебышева указывает условия, при ко­торых описанный способ измерения может быть приме­нен. Однако ошибочно думать, что, увеличивая число измерений, можно достичь сколь угодно большой точ­ности. Дело в том, что сам прибор дает показания лишь с точностью ± α , поэтому каждый из результатов изме­рений, а следовательно, и их среднее арифметическое будут получены лишь с точностью, не превышающей точности прибора.

На теореме Чебышева основан широко применяемый в статистике выборочный метод, суть которого состоит в том, что по сравнительно небольшой случайной выборке судят о всей совокупности (генеральной совокупности) исследуемых объектов.

Например, о качестве кипы хлопка заключают по небольшому пучку, состоящему из волокон, наудачу отобранных из разных мест кипы. Хотя число волокон в пучке значительно меньше, чем в кипе, сам пучок содержит достаточно большое количество волокон, исчисляемое сотнями.

В качестве другого примера можно указать на опре­деление качества зерна по небольшой его пробе. И в этом случае число наудачу отобранных зерен мало сравни­тельно со всей массой зерна, но само по себе оно доста­точно велико.

Уже из приведенных примеров можно заключить, что для практики теорема Чебышева имеет неоценимое значение.

2.5. Теорема Бернулли

Производится п независимых испытаний (не событий, а испытаний). В каждом из них вероятность появления события A равна р.

Возникает вопрос, какова примерно будет относительная частота появлений события? На этот вопрос отвечает теорема, доказанная Бернулли которая полу­чила название "закона больших чисел" и положила начало теории вероятностей как науке.

Теорема Бернулли. Если в каждом из п независимых испытаний вероятность р появления события А постоянна, то как угодно близка к единице вероятность того, что отклонение относительной частоты от вероятности р по абсолютной величине будет сколь угодно малым, если число испытаний достаточно велико.

Другими словами, если ε >0 сколь угодно малое число, то при соблюдении условий теоремы имеет место равенство

Р(| m / п - р| < ε)= 1

Замечание. Было бы неправильным на основании теоремы Бернулли сделать вывод, что с ростом числа испытаний относитель­ная частота неуклонно стремится к вероятности р; другими словами, из теоремы Бернулли не вытекает равенство (т/п) = р,

В теореме речь идет лишь о вероятности того, что при достаточно большом числе испытаний относительная частота будет, как угодно мало отличаться от постоянной вероятности появления события в каж­дом испытании.

Задание 7-1.

1. Оценить вероятность того, что при 3600 бросаниях кости число появления 6 очков будет не меньше 900.

Решение. Пусть x – число появления 6 очков при 3600 бросаниях монеты. Вероятность появления 6 очков при одном бросании равна p=1/6, тогда M(x)=3600·1/6=600. Воспользуемся неравенством (леммой) Чебышева при заданном α = 900

= P (x ³ 900) £ 600 / 900 =2 / 3

Ответ 2 / 3.

2. Проведено 1000 независимых испытаний, p=0,8. Найти вероятность числа наступлений события A в этих испытаниях отклонится от своего математического ожидания по модулю меньше, чем 50.

Решение. x –число наступлений события A в n – 1000 испытаниях.

М(Х)= 1000·0,8=800. D(x)=100·0,8·0,2=160

Воспользуемся неравенством Чебышева при заданном ε = 50

Р (| х-M (X) | < ε) ³ 1 - D (х) / ε 2

Р (| х-800 | < 50) ³ / 50 2 = 1-160 / 2500 = 0,936.

Ответ. 0,936

3. Используя неравенство Чебышева, оценить вероятность того, что |Х - М(Х)| < 0,1, если D (X) = 0,001. Ответ Р³0,9.

4. Дано: Р(|Х-М(Х)\ < ε) ³ 0,9; D (X )= 0,004. Используя неравенство Чебышева, найти ε. Ответ. 0,2.

Контрольные вопросы и задания

1. Назначение центральной предельной теоремы

2. Условия применимости теоремы Ляпунова.

3. Отличие леммы и теоремы Чебышева.

4. Условия применимости теоремы Чебышева.

5. Условия применимости теоремы Бернулли (закона больших чисел)

Требования к знаниям умениям и навыкам

Студент должен знать обще смысловую формулировку центральной предельной теоремы. Уметь формулировать частные теоремы для не зависимых одинаково распределенных случайных величин. Понимать неравенство Чебышева и закон больших чисел в форме Чебышева. Иметь представление о частоте события, взаимоотношениях между понятиями "вероятность" и "частота". Иметь представление о законе больших чисел в форме Бернулли.

(1857-1918), вы­дающийся русский математик

Рассмотренный выше закон больших чисел устанавливает факт приближения средней большого числа случайных величин к определен- н ы м ностоянн ы м. Но этим не ограничиваются закономерности, возникающие в результате суммарного действия случайных величии. Оказывается, что при некоторых весьма общих условиях совокупное действие большого числа случайных величин приводит к определен - н о м у, а именно - к н о р м а л ь н о м у закону распределения.

Центральная предельная теорема представляет собой группу теорем, посвященных установлению условий, при которых возникает нормальный закон распределения. Среди этих теорем важнейшее место принадлежит теореме Ляпунова.

Теорема Ляпунова. Если Х { , Х ъ ..., , у каждой из которых существует математическое ожидание М(Х г) = а ,

дисперсия 0(Хд =а 2 , абсолютный центральный момент третьего порядка и

то закон распределения суммы при п -> оо неограничен

но приближается к нормальному с математическим ожиданием и дисперсией

Теорему принимаем без доказательства.

Неограниченное приближение закона распределения суммы

к нормальному закону при п -> оо в соответствии со свойствами нормального закона означает, что

где Ф(г) - функция Лапласа (2.11).

Смысл условия (6.20) состоит в том, чтобы в сумме не было

слагаемых, влияние которых на рассеяние У п подавляюще велико по сравнению с влиянием всех остальных, а также не должно быть большого числа случайных слагаемых, влияние которых очень мало по сравнению с суммарным влиянием остальных. Таким образом, удельный вес каждого отдельного слагаемого должен стремиться к нулю при увеличении числа слагаемых.

Так, например, потребление электроэнергии для бытовых нужд за месяц в каждой квартире многоквартирного дома можно представить в виде п различных случайных величин. Если потребление электроэнергии в каждой квартире по своему значению резко не выделяется среди остальных, то на основании теоремы Ляпунова можно считать, что потребление электроэнергии всего дома, т.е. сумма п независимых случайных величин будет случайной величиной, имеющей приближенно нормальный закон распределения. Если, например, в одном из помещений дома разместится вычислительный центр, у которого уровень потребления электроэнергии несравнимо выше, чем в каждой квартире для бытовых нужд, то вывод о приближенно нормальном распределении потребления электроэнергии всего дома будет неправомерен, так как нарушено условие (6.20), ибо потребление электроэнергии вычислительного центра будет играть превалирующую роль в образовании всей суммы потребления.

Другой пример. При устойчивом и отлаженном режиме работы станков, однородности обрабатываемого материала и т.д. варьирование качества продукции принимает форму нормального закона распределения в силу того, что производственная погрешность представляет собой результат суммарного действия большого числа случайных величин: погрешности станка, инструмента, рабочего и т.д.

Следствие. Если Х { , Х 2 , ..., Х п - независимые случайные величины , у которых существуют равные математические ожидания М(Х {) = а , дисперсии 0(Х,) = а 2 и абсолютные центральные моменты третьего

порядка то закон распределения суммы

при п -> со неограниченно приближается к нормальному

закону.

Доказательство сводится к проверке условия (6.20):

следовательно, имеет место и равенство (6.21). ?

В частности, если все случайные величины Х } одинаково распределены , то закон распределения их суммы неограниченно приближается к нормальному закону при п -> оо.

Проиллюстрируем это утверждение па примере суммирования независимых случайных величин, имеющих равномерное распределение на интервале (0, 1). Кривая распределения одной такой случайной величины показана на рис. 6.2, а. На рис. 6.2, б показана плотность вероятности суммы двух таких случайных величин (см. пример 5.9), а на рис. 6.2, в - плотность вероятности суммы трех таких случайных величин (ее график состоит из трех отрезков парабол на интервалах (0; 1), (1; 2) и (2; 3) и но виду уже напоминает нормальную кривую).

Если сложить шесть таких случайных величин, то получится случайная величина с плотностью вероятности, практически не отличающейся от нормальной.

Теперь у нас имеется возможность доказать локальную и ипте- гральную теоремы Муавра - Лапласа (см. параграф 2.3).

Рассмотрим случайную величину - число появлений события в п независимых испытаниях, в каждом из которых оно может появиться с одной и той же вероятностью р, т.е. X = т - случайная величина, имеющая биномиальный закон распределения, для которого математическое ожидание М(Х) = пр и дисперсия О(Х) = пру.

Случайная величина 7, так же как случайная величина X, вообще говоря, дискретна, но при большом числе п испытаний ее значения расположены на оси абсцисс так тесно, что ее можно рассматривать как непрерывную с плотностью вероятности ср(х).

Найдем числовые характеристики случайной величины 7, используя свойства математического ожидания и дисперсии:

В силу того, что случайная величина X представляет собой сумму независимых альтернативных случайных величин (см. параграф 4.1), случайная величина 2 представляет также сумму независимых, одинаково распределенных случайных величин и, следовательно, на основании центральной предельной теоремы при большом числе п имеет распределение, близкое к нормальному закону с параметрами а = 0, с 2 = 1. Используя свойство (4.32) нормального закона, с учетом равенств (4.33) получим

Полагая , с учетом того, что получаем,

что двойное неравенство в скобках равносильно неравенству аВ результате из формулы (6.22) получим интегральную формулу Муавра - Лапласа (2.10):

Вероятность Р т п того, что событие А произойдет т раз в п независимых испытаниях, можно приближенно записать в виде

Чем меньше Ат, тем точнее приближенное равенство. Минимальное (целое) Ат - 1. Поэтому, учитывая формулы (6.23) и (6.22), можно записать:

где

При малых Дг имеем

где ф(г) - плотность стандартной нормально распределенной случайной величины с параметрами а = 0, а 2 = 1, т.е.

Полагая , из формулы

(6.25) с учетом равенства (6.24) получим локальную формулу Муавра - Лапласа (2.7):

Замечание. Необходимо соблюдать известную осторожность, применяя центральную предельную теорему в статистических исследованиях. Так, если сумма при п -> оо всегда имеет нормальный закон

распределения, то скорость сходимости к нему существенно зависит от типа распределения ее слагаемых. Так, например, как отмечено выше, при суммировании равномерно распределенных случайных величин уже при 6-10 слагаемых можно добиться достаточной близости к нормальному закону, в то время как для достижения той же близости при суммировании х 2 -распределенных случайных слагаемых понадобится более 100 слагаемых.

Опираясь на центральную предельную теорему, можно утверждать, что рассмотренные в гл. 4 случайные величины, имеющие законы распределения - биномиальный, Пуассона, гипергеометрический, у} («хи-квадрат»), Ь (Стьюдента), при п -> оо распределены асимптотически нормально.

Так как многие случайные величины в приложениях формируются под влиянием нескольких слабо зависимых случайных факторов, их распределение считают нормальным. При этом должно соблюдаться условие, что ни один из факторов не является доминирующим. Центральные предельные теоремы в этих случаях обосновывают применение нормального распределения.

Энциклопедичный YouTube

  • 1 / 5

    Пусть есть бесконечная последовательность независимых одинаково распределённых случайных величин, имеющих конечное математическое ожидание и дисперсию . Обозначим последние μ {\displaystyle \mu } и σ 2 {\displaystyle \sigma ^{2}} , соответственно. Пусть также

    . S n − μ n σ n → N (0 , 1) {\displaystyle {\frac {S_{n}-\mu n}{\sigma {\sqrt {n}}}}\to N(0,1)} по распределению при ,

    где N (0 , 1) {\displaystyle N(0,1)} - нормальное распределение с нулевым математическим ожиданием и стандартным отклонением , равным единице. Обозначив символом выборочное среднее первых n {\displaystyle n} величин, то есть X ¯ n = 1 n ∑ i = 1 n X i {\displaystyle {\bar {X}}_{n}={\frac {1}{n}}\sum \limits _{i=1}^{n}X_{i}} , мы можем переписать результат центральной предельной теоремы в следующем виде:

    n X ¯ n − μ σ → N (0 , 1) {\displaystyle {\sqrt {n}}{\frac {{\bar {X}}_{n}-\mu }{\sigma }}\to N(0,1)} по распределению при n → ∞ {\displaystyle n\to \infty } .

    Скорость сходимости можно оценить с помощью неравенства Берри - Эссеена .

    Замечания

    • Неформально говоря, классическая центральная предельная теорема утверждает, что сумма n {\displaystyle n} независимых одинаково распределённых случайных величин имеет распределение, близкое к N (n μ , n σ 2) {\displaystyle N(n\mu ,n\sigma ^{2})} . Эквивалентно, X ¯ n {\displaystyle {\bar {X}}_{n}} имеет распределение близкое к N (μ , σ 2 / n) {\displaystyle N(\mu ,\sigma ^{2}/n)} .
    • Так как функция распределения стандартного нормального распределения непрерывна , сходимость к этому распределению эквивалентна поточечной сходимости функций распределения к функции распределения стандартного нормального распределения. Положив Z n = S n − μ n σ n {\displaystyle Z_{n}={\frac {S_{n}-\mu n}{\sigma {\sqrt {n}}}}} , получаем F Z n (x) → Φ (x) , ∀ x ∈ R {\displaystyle F_{Z_{n}}(x)\to \Phi (x),\;\forall x\in \mathbb {R} } , где Φ (x) {\displaystyle \Phi (x)} - функция распределения стандартного нормального распределения.
    • Центральная предельная теорема в классической формулировке доказывается методом характеристических функций (теорема Леви о непрерывности).
    • Вообще говоря, из сходимости функций распределения не вытекает сходимость плотностей . Тем не менее в данном классическом случае это имеет место.

    Локальная Ц. П. Т.

    В предположениях классической формулировки, допустим в дополнение, что распределение случайных величин { X i } i = 1 ∞ {\displaystyle \{X_{i}\}_{i=1}^{\infty }} абсолютно непрерывно, то есть оно имеет плотность. Тогда распределение также абсолютно непрерывно, и более того,

    f Z n (x) → 1 2 π e − x 2 2 {\displaystyle f_{Z_{n}}(x)\to {\frac {1}{\sqrt {2\pi }}}\,e^{-{\frac {x^{2}}{2}}}} при n → ∞ {\displaystyle n\to \infty } ,

    где f Z n (x) {\displaystyle f_{Z_{n}}(x)} - плотность случайной величины Z n {\displaystyle Z_{n}} , а в правой части стоит плотность стандартного нормального распределения.

    Обобщения

    Результат классической центральной предельной теоремы справедлив для ситуаций гораздо более общих, чем полная независимость и одинаковая распределённость.

    Ц. П. Т. Линдеберга

    Пусть независимые случайные величины X 1 , … , X n , … {\displaystyle X_{1},\ldots ,X_{n},\ldots } определены на одном и том же вероятностном пространстве и имеют конечные математические ожидания и дисперсии : E [ X i ] = μ i , D [ X i ] = σ i 2 {\displaystyle \mathbb {E} =\mu _{i},\;\mathrm {D} =\sigma _{i}^{2}} .

    Пусть S n = ∑ i = 1 n X i {\displaystyle S_{n}=\sum \limits _{i=1}^{n}X_{i}} .

    Тогда E [ S n ] = m n = ∑ i = 1 n μ i , D [ S n ] = s n 2 = ∑ i = 1 n σ i 2 {\displaystyle \mathbb {E} =m_{n}=\sum \limits _{i=1}^{n}\mu _{i},\;\mathrm {D} =s_{n}^{2}=\sum \limits _{i=1}^{n}\sigma _{i}^{2}} .

    И пусть выполняется условие Линдеберга :

    ∀ ε > 0 , lim n → ∞ ∑ i = 1 n E [ (X i − μ i) 2 s n 2 1 { | X i − μ i | > ε s n } ] = 0 , {\displaystyle \forall \varepsilon >0,\;\lim \limits _{n\to \infty }\sum \limits _{i=1}^{n}\mathbb {E} \left[{\frac {(X_{i}-\mu _{i})^{2}}{s_{n}^{2}}}\,\mathbf {1} _{\{|X_{i}-\mu _{i}|>\varepsilon s_{n}\}}\right]=0,}

    где 1 { | X i − μ i | > ε s n } {\displaystyle \mathbf {1} _{\{|X_{i}-\mu _{i}|>\varepsilon s_{n}\}}} функция - индикатор.

    по распределению при n → ∞ {\displaystyle n\to \infty } .

    Ц. П. Т. Ляпунова

    Пусть выполнены базовые предположения Ц. П. Т. Линдеберга. Пусть случайные величины { X i } {\displaystyle \{X_{i}\}} имеют конечный третий момент . Тогда определена последовательность

    r n 3 = ∑ i = 1 n E [ | X i − μ i | 3 ] {\displaystyle r_{n}^{3}=\sum _{i=1}^{n}\mathbb {E} \left[|X_{i}-\mu _{i}|^{3}\right]} .

    Если предел

    lim n → ∞ r n s n = 0 {\displaystyle \lim \limits _{n\to \infty }{\frac {r_{n}}{s_{n}}}=0} (условие Ляпунова ), S n − m n s n → N (0 , 1) {\displaystyle {\frac {S_{n}-m_{n}}{s_{n}}}\to N(0,1)} по распределению при n → ∞ {\displaystyle n\to \infty } .

    Ц. П. Т. для мартингалов

    Пусть процесс (X n) n ∈ N {\displaystyle (X_{n})_{n\in \mathbb {N} }} является мартингалом с ограниченными приращениями. В частности, допустим, что

    E [ X n + 1 − X n ∣ X 1 , … , X n ] = 0 , n ∈ N , X 0 ≡ 0 , {\displaystyle \mathbb {E} \left=0,\;n\in \mathbb {N} ,\;X_{0}\equiv 0,}

    и приращения равномерно ограничены, то есть

    ∃ C > 0 ∀ n ∈ N | X n + 1 − X n | ≤ C {\displaystyle \exists C>0\,\forall n\in \mathbb {N} \;|X_{n+1}-X_{n}|\leq C} τ n = min { k | ∑ i = 1 k σ i 2 ≥ n } {\displaystyle \tau _{n}=\min \left\{k\left\vert \;\sum _{i=1}^{k}\sigma _{i}^{2}\geq n\right.\right\}} . X τ n n → N (0 , 1) {\displaystyle {\frac {X_{\tau _{n}}}{\sqrt {n}}}\to N(0,1)} по распределению при n → ∞ {\displaystyle n\to \infty } .

    Простейший вариант Центральной предельной теоремы (ЦПТ) теории вероятностей таков.

    (для одинаково распределенных слагаемых). Пусть X 1 , X 2 ,…, X n , …– независимые одинаково распределенные случайные величины с математическими ожиданиями M (X i ) = m и дисперсиями D (X i ) = , i = 1, 2,…, n ,… Тогда для любого действительного числа х существует предел

    где Ф(х) – функция стандартного нормального распределения.

    Эту теорему иногда называют теоремой Линдеберга-Леви .

    В ряде прикладных задач не выполнено условие одинаковой распределенности. В таких случаях центральная предельная теорема обычно остается справедливой, однако на последовательность случайных величин приходится накладывать те или иные условия. Суть этих условий состоит в том, что ни одно слагаемое не должно быть доминирующим, вклад каждого слагаемого в среднее арифметическое должен быть пренебрежимо мал по сравнению с итоговой суммой. Наиболее часто используется теорема Ляпунова.

    Центральная предельная теорема (для разнораспределенных слагаемых) – теорема Ляпунова . Пусть X 1 , X 2 ,…, X n , …– независимые случайные величины с математическими ожиданиями M (X i ) = m i и дисперсиями D (X i ) = , i = 1, 2,…, n ,… Пусть при некотором δ>0 у всех рассматриваемых случайных величин существуют центральные моменты порядка 2+δ и безгранично убывает «дробь Ляпунова»:

    Тогда для любого действительного числа х существует предел

    где Ф(х) – функция стандартного нормального распределения.

    В случае одинаково распределенных случайных слагаемых

    и теорема Ляпунова переходит в теорему Линдеберга-Леви.

    История получения центральных предельных теорем для случайных величин растянулась на два века – от первых работ Муавра в 30-х годах 18-го века для необходимых и достаточных условий, полученных Линдебергом и Феллером в 30-х годах 20-го века.

    Теорема Линдеберга-Феллера. Пусть X 1 , X 2 ,…, X n , …, – независимые случайные величины с математическими ожиданиями M (X i ) = m i и дисперсиями D (X i ) = , i = 1, 2,…, n ,… Предельное соотношение (1), т.е. центральная предельная теорема, выполнено тогда и только тогда, когда при любом τ>0

    где F k (x ) обозначает функцию распределения случайной величины X k .

    Доказательства перечисленных вариантов центральной предельной теоремы для случайных величин можно найти в классическом курсе теории вероятностей .

    Для прикладной статистики и, в частности, для нечисловой статистики большое значение имеет многомерная центральная предельная теорема. В ней речь идет не о сумме случайных величин, а о сумме случайных векторов.

    Необходимое и достаточное условие многомерной сходимости . Пусть F n обозначает совместную функцию распределения k -мерного случайного вектора , n = 1,2,…, и F λn . Необходимое и достаточное условие для сходимости F n к некоторой k -мерной функции распределения F состоит в том, что F λn имеет предел для любого вектора λ.

    Приведенная теорема ценна тем, что сходимость векторов сводит к сходимости линейных комбинаций их координат, т.е. к сходимости обычных случайных величин, рассмотренных ранее. Однако она не дает возможности непосредственно указать предельное распределение. Это можно сделать с помощью следующей теоремы.

    Теорема о многомерной сходимости. Пусть F n и F λn – те же, что в предыдущей теореме. Пусть F - совместная функция распределения k -мерного случайного вектора . Если функция распределения F λn сходится при росте объема выборки к функции распределения F λ для любого вектора λ, где F λ – функция распределения линейной комбинации , то F n сходится к F .

    Здесь сходимость F n к F означает, что для любого k -мерного вектора такого, что функция распределения F непрерывна в , числовая последовательность F n сходится при росте n к числу F . Другими словами, сходимость функций распределения понимается ровно также, как при обсуждении предельных теорем для случайных величин выше. Приведем многомерный аналог этих теорем.

    Многомерная центральная предельная теорема . Рассмотрим независимые одинаково распределенные k -мерные случайные вектора

    где штрих обозначает операцию транспонирования вектора. Предположим, что случайные вектора U n имеют моменты первого и второго порядка, т.е.

    М (U n ) = μ, D (U n ) = Σ,

    где μ – вектор математических ожиданий координат случайного вектора, Σ – его ковариационная матрица. Введем последовательность средних арифметических случайных векторов:

    Тогда случайный вектор имеет асимптотическое k -мерное нормальное распределение , т.е. он асимптотически распределен так же, как k -мерная нормальная величина с нулевым математическим ожиданием, ковариационной Σ и плотностью

    Здесь |Σ| - определитель матрицы Σ. Другими словами, распределение случайного вектора сходится к k -мерному нормальному распределению с нулевым математическим ожиданием и ковариационной матрицей Σ.

    Напомним, что многомерным нормальным распределением с математическим ожиданием μ и ковариационной матрицей Σ называется распределение, имеющее плотность

    Многомерная центральная предельная теорема показывает, что распределения сумм независимых одинаково распределенных случайных векторов при большом числе слагаемых хорошо приближаются с помощью нормальных распределений, имеющих такие же первые два момента (вектор математических ожиданий координат случайного вектора и его корреляционную матрицу), как и исходные вектора. От одинаковой распределенности можно отказаться, но это потребует некоторого усложнения символики. В целом из теоремы о многомерной сходимости вытекает, что многомерный случай ничем принципиально не отличается от одномерного.

    Пример. Пусть X 1 , … X n ,…– независимые одинаково распределенные случайные величины. Рассмотрим k -мерные независимые одинаково распределенные случайные вектора

    Их математическое ожидание – вектор теоретических начальных моментов, а ковариационная матрица составлена из соответствующих центральных моментов. Тогда - вектор выборочных центральных моментов. Многомерная центральная предельная теорема утверждает, что имеет асимптотически нормальное распределение. Как вытекает из теорем о наследовании сходимости и о линеаризации (см. ниже), из распределения можно вывести распределения различных функций от выборочных начальных моментов. А поскольку центральные моменты выражаются через начальные моменты, то аналогичное утверждение верно и для них.

    Предыдущая
КАТЕГОРИИ

ПОПУЛЯРНЫЕ СТАТЬИ

© 2024 «unistomlg.ru» — Портал готовых домашних заданий