МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени М. В. ЛОМОНОСОВА Механико–математический факультет
Курс лекций по теории в...
8 downloads
186 Views
391KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени М. В. ЛОМОНОСОВА Механико–математический факультет
Курс лекций по теории вероятностей Лектор — Валерий Николаевич Тутубалин
IV курс, 7 семестр, поток механиков
Москва, 2008 г.
Предисловие. Этот конспект был набран по курсу лекций, прочитанному на потоке механиков в 2008 учебному году. Главный TEXник — Иван Горохов, студент кафедры Вычислительной механики. Автор конспекта выражает благодарность студентам кафедры Вычислительной механики: Анастасии Янгировой, Андрею Ненашеву, а также Евгению Кудашеву, за активное содействие в наборе сего конспетка.
1
Основные понятия.
Обозначим через Ω = {ω1 , . . . ωn } множество всевозможных исходов (оно не более чем счетно), и под |Ω| мы будем понимать число всех элементов в множестве Ω. ω — элементарное событие. A ⊆ Ω - событие. Сопоставим каждому элементарному событию ω число P (ω) ≥ 0, называемое вероятностью отдельного элементарного события ω. При этом должна выполнятся единственная аксиома. P Аксиома: P (ω) = 1 ω∈Ω def
P Определение: Вероятность P (A) события A определяется формулой P (A) = P (ωi ), 0 6 P (A) 6 1 ωi ∈A
Пример: Пусть имеется N экзаменационных билетов, из которых n "счастливых" (в том смысле, что все студенты их знают), а N − n "несчастливых"(т.е. ни один студент их не знает), и пусть студентов всего N человек. Студенты тянут билеты по очереди, сначала берет билет первый студент, потом второй и т. д. Для первого студента вероятность вытащить счастливый билет равна Nn . В случае если первый студент вытащит счастливый билет, то шансы второго на вытягивание счастливого , т.е. уменьшатся, а если первый вытащит несчастливый билета будут составлять Nn−1 −1 билет, то шансы второго вырастут Nn−1 . Для третьего студента будет еще более сложный набор ситуаций. Пусть Aj - событие, состоящие в том что j-ый студент в очереди вытянет счастливый билет. Попытаемся найти P (Aj ), введя множество Ω элементарных событий так, чтобы они были равновероятными. Под отдельным элементарным событием ω будем понимать тот список, который окажется у экзаменатора после окончания раздачи билетов: 1 2 ... j ... N ω= i1 i2 . . . ij . . . iN (в первой строке стоят номера студентов, во второй — номера билетов). Очевидно, что |Ω| = N !. Для подсчета |Aj | заметим, что для ω ∈ Aj номер ij может принимать n различных значений; i1 — все значения, кроме ij , т. е. всего N − 1 значений, i2 — все значения, кроме i1 и ij , т. е. N − 2 значений и т. д. Поэтому |A | |Aj | = n(N − 1)! и P (Aj ) = |Ω|j . Таким образом, вероятность вытащить счастливый билет не зависит от места в очереди. Определение: Вероятностным пространством называется не более чем счетное множество Ω = {ω}, каждому элементу которого сопоставлено P (ω) > 0, называемое вероятностью.
2
Исчисление вероятностей.
Рассмотрим операции над событиями и свойства вероятностей. Под символом ∅ будем понимать невозможное событие, и его вероятность, как понятно из названия P (∅) = 0. Дополнение (отрицание, противоположное событие): A = {ω : ω ∈ / A} Очевидно, что P (A) + P (A) = P (Ω) = 1 Пример: Бросается 10 монет. Чему равна вероятность того, что выпадет хотя бы один "орел"? 1
Обозначим через A выпадение орла, тогда A — это событие, при котором не выпадет ни одного орла. P (A) = 2110 ⇒ P (A) = 1 − 2−10 . Объединение (сумма событий): A ∪ B = {ω : ω ∈ A или ω ∈ B} Пересечение (произведение событий): A ∩ B = {ω : ω ∈ A и ω ∈ B} заметим, что в теории вероятности принято A ∩ B обозначать, как AB. Нетрудно заметить что выполняется следующая формула: P (A ∪ B) = P (A) + P (B) − P (AB)
(1)
Замечание: под знаком "+"мы будем понимать сумму двух не пересекающихся множеств, т. е. если A ∩ B = AB = ∅ ⇒ P (AB) = 0 ⇒ A ∪ B = A + B и в этом случае формула (1) перепишется P (A + B) = P (A) + P (B). Теперь обобщим формулу (1) на случай n событий: X X X P (A1 ∪ A2 ∪ . . . ∪ An ) = P (Ai ) − P (Ai Aj ) + P (Ai Aj Ak ) − . . . (2) i
i<j
i<j
Докажем эту формулу. Для этого нужно показать, что в сумме стоящей в правой части вероятность P (ω) каждого ω ∈ A1 ∪ A2 ∪ . . . ∪ An учтется ровно один раз. Пусть для определенности ω ∈ A1 A2 . . . Ak , но ω ∈ / Ak+1 , . . . ω ∈ / An . Тогда в правую часть 1 2 3 k P (ω) войдет следующее число раз: Ck − Ck + Ck − . . . ± Ck = 1 т. е. формула доказана.
3
Условная вероятность.
Представим себе ряд из n опытов, в котором событие A произошло µA раз, а событие B — µB раз. Тогда частота события A равна µnA , а частота события B равна µnB . Что же тaкое условная частота события B при условии, что A произошло? Очевидно, из всех n опытов нужно рассмотреть лишь те µA опытов, в которых A произошло и вычислить частоту наступления B в этих опытах. Но число наступлений события B в этих опытах есть, очевидно, число наступлений события AB во всех опытах, и его естественно обозначить через µAB . Итак, условная частота события B при условии, = ( µAB )/( µnA ). что A произошло, есть µµAB n A Но если число n всех опытов достаточно велико, то частоты должны быть близки к вероятностям: µAB /n ≈ P (AB) и µA /n ≈ P (A). Тогда получаем математическое определение условной вероятности P (B|A) события B при условии наступления события A: P (AB) (3) P (B|A) = P (A) Отсюда несложно получить "теорему умножения вероятностей": P (AB) = P (A)P (B|A). Пример: Рассмотрим опять задачу о раздаче экзаменационных билетов. Предположим, что номера экзаменационных билетов, доставшихся студентам, для нас ненаблюдаемы, а наблюдаемо лишь выражение лица - счастливое или несчастное. Допустим, что мы верим в принцип, согласно которому ненаблюдаемые вещи не следует вводить в модель. Тогда для ситуации с первыми двумя студентами у нас будут 2
4 элементарных события: 1с2с, 1с2н, 1н2с, 1н2н, где "с"означает, то что студент счастлив, а "н"означает, что несчастен. Найдем вероятность P (1c2c). Из теоремы умножения вероятностей следует P (1c2c) = P (1c)P (2c|1c), . где P (1c) = Nn , а P (2c|1c) = Nn−1 −1 Поскольку 2с=(1c2c)∪(1н2c), аналогично получаем P (2c) = P (1c2c) + P (1н2c) =
n n−1 N −n n n · + · = , N N −1 N N −1 N
т. е. шансы второго и первого равны.
4
Геометрическая вероятность.
Пусть мы можем представить событие A ⊂ Ω и само пространство всевозможных исходов Ω в виде некоторых объектов на плоскости, имеющих площадь, тогда вероят. ность события A можно вычислить следующих способом: P (A) ≈ square(A) square(Ω)
5
Формула полной вероятности.
Пусть множество всевозможных исходов Ω разбито на n непересекающихся событий H1 , H2 . . . Hn : H1 + H2 + . . . + Hn = Ω, где Hi называются гипотезами. Пусть B ⊆ Ω. Тогда имеем B = BΩ = BH1 + BH2 + . . . + BHn X X P (B = P (BHi ) = P (Hi )P (B|Hi )) (4) i
i
Это есть формула полной вероятности. Теперь проделаем выкладку: P (Hi |B) =
P (Hi B) P (Hi )P (B|Hi ) = P n P (B) P (Hi )P (B|Hi )
(5)
i=1
Полученная формула называется формулой Байеса. В этой формуле вероятности гипотез P (Hi ) называются априорными, а условные вероятности P (Hi |B) - апостериорными. Определение: Два события A и B называются независимыми, если P (B|A) = P (B) = PP(AB) или P (AB) = P (A)P (B). (A) Определение: События A1 , A2 , . . . An называются независимыми в совокупности, если для любых k : 2 6 k 6 n выполняется соотношение P (Ai1 · ·Ai2 . . . Aik ) = P (Ai1 )P (Ai2 ) . . . P (Aik ). Нам предстоит понять естественность соответствующей вероятностной модели. Пусть один опыт описывается вероятностным пространством {Ω(1) , P (1) }, второй — вероятностным пространством {Ω(2) , P (2) }. Спрашивается, как описать сложный опыт, состоящий из двух опытов, с соблюдением всякого рода независимостей? Ясно, что пространством элементарных событий будет прямое произведение Ω = Ω(1) × Ω(2) = {(ω (1) , ω (2) ) : ω (1) ∈ Ω(1) , ω (2) ∈ Ω(2) }. 3
Заметим, что события, связанные с исходом только первого (или только второго) опыта, можно с удобством описывать в рамках более сложного пространства элементарных событий: Ω = Ω(1) × Ω(2) . Действительно, пусть A(1) ⊆ Ω(1) . Рассмотрим e(1) = A(1) × Ω(2) = {(ω (1) , ω (2) ) : ω (1) ∈ A(1) , ω (2) ∈ Ω(2) } ⊆ Ω. Сказать, что наступило A A(1) (т.е. первый опыт закончился исходом ω (1) ∈ A(1) ), или сказать, что наступило e(1) (т. е. первый опыт закончился исходом ω (1) ∈ A(1) , а второй опыт — каким угодно A исходом ω (2) ∈ Ω(2) ), совершенно все равно. Далее для достижения независимости введем на множестве Ω = {(ω (1) , ω (2) )} вероятность P по формуле P {(ω (1) , ω (2) )} = P (1) (ω (1) )P (2) (ω (2) ). При этом переход e(1) не меняет вероятности: от A(1) к A X X e(1) ) = P (A P {(ω (1) , ω (2) )} = P (1) (ω (1) )P (2) (ω (2) ) = ω (1) ∈A(1) ,ω (2) ∈Ω(2)
e(1) (ω (1) ,ω (2) )∈A
X
=
X
P (1) (ω (1) ) ·
ω (1) ∈A(1)
P (2) (ω (2) ) =
ω (2) ∈Ω(2)
Здесь мы воспользовались аксиомой
X
P (1) (ω (1) ) = P (1) (A(1) ).
ω (1) ∈A(1)
P
P (2) (ω (2) ) = 1.
ω (2) ∈Ω(2)
Наконец, заметим, что независимыми в смысле умножения вероятностей оказываe(1) A e(2) , из которых ются не только элементарные события, но и любые события A первое связано лишь с исходом первого опыта, а второе — с исходом второго опыта. Проверим это: X X e(1) A e(2) ) = P (A P {(ω (1) , ω (2) )} = P (1) (ω (1) )P (2) (ω (2) ) = ω (1) ∈A(1) ,ω (2) ∈A(2)
e(1) A e(2) (ω (1) ,ω (2) )∈A
=
X ω (1) ∈A(1)
P (1) (ω (1) ) ·
X
e(1) )P (A e(2) ). P (2) (ω (2) ) = P (1) (A(1) )P (2) (A(2) ) = P (A
ω (2) ∈A(2)
Совокупность приведенных соображений показывает, что в прямом произведении вероятностных пространств пары независимых событий возникают совершенно естественно. Для получения n независимых в совокупности событий естественно взять прямое произведение n вероятностных пространств. При этом выкладки, основанные на разложении суммы произведений вероятностей в произведение сумм не изменятся.
6
Испытания Бернулли.
Испытание Бернулли — это независимые испытания с двумя исходами и с вероятностью успеха, не меняющейся от испытания к испытанию. По аналогии с двоичным кодом обозначим через 1 - успех, а через 0 - неудачу. Так же пусть P (1) = p, а P (0) = q при этом p + q = 1. Примером такого испытания может служить бросание монеты. Рассмотрим n независимых испытаний. Пространство всевозможных исходов Ω в нашем случае будет следующим: Ω = (0, 1) × (0, 1) × . . . × (0, 1) {z } | n раз ω — последовательность нулей и единиц длины n, µ(ω) - число единиц в последовательности ω, которое можно назвать числом успехов в n испытаниях. Тогда P (ω) = pµ(ω) q n−µ(ω) . 4
Посчитаем вероятность события {µ = m} = {ω : µ(ω) = m}. Из определения вероятности события A имеем: X P {µ = m} = (6) P (ω) = Cnm pm q n−m ω:µ(ω)=m
7
Проверка статистических гипотез.
H — гипотеза; X = {x} — выборочное пространство, куда входят всевозможные результаты x проведенного опыта; S ⊆ X — некоторое подмножество выборочного пространства X, называемое критическим подмножеством; α — некоторое число, называемое уровнем значимости. Если H верна, то S произойти не может. Проверка гипотезы H состоит в следующем. До опыта указывается критическое множество S, затем производится опыт. Если результат опыта x ∈ / S, то гипотеза не отвергается. А вот если x ∈ S, то гипотеза отвергается на уровне α. Смысл α состоит в том, что это число ограничивает сверху вероятность отвергнуть гипотезу H в тех случаях, когда она на самом деле верна. P {x ∈ S|H} 6 α Рассмотрим понятие мощности статистичекого критерия. Здесь введем дополнительное предположение, состоящие в том, что возможными альтернативами к проверяемой гипотезе H являются также вероятностные гипотезы. Это означает, что если гипотеза H не верна, то верна какая-то другая гипотеза, позволяющая также вычислить вероятность того, что x ∈ A ⊆ X, где A — некоторое подмножество X. Параметризуем наши гипотезы параметром a, т. е. по сути просто пронумеруем наши гипотезы. Говорим тогда о проверке гипотезы H0 , при a = 0, по отношению к альтернативам Ha , при a 6= 0. Тогда критическое множество S характеризуется функцией M (a) = P {x ∈ S|Ha } равной верояности отвергнуть гипотезу H0 , если на самом деле верна гипотеза Ha . Эта функция M (a) называется функцией мощности статистического критерия S. M (0) = P {x ∈ S|H0 } есть вероятность напрасно отвергнуть справедливую гипотезу H0 , которая называется вероятностью ошибки 1-го рода. β(a) = 1 − M (a) = P {x ∈ / S|Ha } величина β(a) — есть вероятность ошибочно не отвергнуть гипотезу H0 , когда на самом деле верна гипотеза Ha , она называется вероятность ошибки 2-го рода. Нам хотелось бы вероятности ошибок 1-го и 2-го рода сделать (за счет выбора критерия S), в идеале, равными нулю или хотя бы очень маленькими. Но на практике это невозможно, причем, если выбирать уровень значимости α поменьше, то и при a 6= 0 обычно M (a) делается меньше: критерий теряет чувствительность к отклонениям a от 0, или, что то же, растет β(a). Если же стараться сделать больше M (a) при a 6= 0, то увеличивается и M (0), т. е. вероятность ошибки 1-го рода. При оценке практических качеств той или иной проверки гипотез и нужно следить за балансом возможных ошибок 1-го и 2-го рода. 5
Пример: Нарисуем квадрат 20 × 20. Нарисуем произвольный путь от нижнего левого угла до правого верхнего, при этом двигаться можно только вверх либо вправо. Обозначим один шаг вправо через a, а один шаг вверх через b. Пусть наш путь составил m штук a и n штук b, т. е. в нашем случае m = n = 20. Например: aababb .{z . . baaaba} | m+n Серией будем называть последовательность одинаковых букв. Пусть S — число n m серий. Число Cm+n = Cm+n — есть число расположений a. Найдем чему равна P {S = 2k}, т. е. имеем k серий из a, и k серий из b. Как известно из курса дискретной k−1 математики, k серий из a можно получить Cm−1 способами, соответственно k серий k−1 из b можно получить Cn−1 способами. Тогда P {S = 2k} =
k−1 k−1 2Cm−1 Cn−1 m Cm+n
Множитель 2 в числителе этого выражения берется из-за того что начать путь можно как с шага вправо a, так и с шага вверх b. По статистике P {S 6 15} = P {S > 27} = 5%.
8
Случайные величины.
Определение: Случайной величиной ξ = ξ(ω) ∈ R1 называется функция от элементарного события, определенная на не более чем счетном множестве Ω. Рассмотрим набор a1 , a2 , . . . an , . . . — различные значения случайной величины ξ. Теперь мы рассмотрим множества вида {ω : ξ(ω) = ξ = ai } и их вероятности P pi = P {ξ = ai } = P (ω) ω:ξ(ω)=ai
Таблица вида: a1 a2 . . . an . . . p1 p2 . . . pn . . . называется распределением вероятностей случайной величины ξ,где ai 6= aj , при i 6= j. P Определение: Математическим ожиданием называется Eξ = ξ(ω)P (ω). ω∈Ω P Математическое ожидание существует, если ряд ξ(ω)P (ω) сходится абсолютно, ω∈Ω P т. е. |ξ(ω)|P (ω) < ∞. Если предположение абсолютной сходимости не выполнено, ω∈Ω
то говорят , что случайная величина ξ не имеет математического ожидания. Из определения математического ожидания вытекают следующие правила исчисления: E(cξ) = cEξ (7) E(ξ + η) = Eξ + Eη
(8)
Здесь подразумевается, что cξ - это случайная величина, определяемая соотношением (cξ)(ω) = cξ(ω), а сумма ξ + η — это случайная величина, определяемая соотношением (ξ + η)(ω) = ξ(ω) + η(ω), при этом ξ и η должны быть определены на одном и том же пространстве всевозможных исходов. Утверждение: Для любой функции f (x) вещественного переменного 6
Ef (ξ) =
X
f (ai )pi
(9)
ai
где pi = P {ξ = ai }, а f (ξ)(ω) = f (ξ(ω)). Доказательство: Утверждение верно только, если ряд в правой части (9) сходится абсолютно. Проделаем преобразования: X X X Ef (ξ) = f (ξ(ω))P (ω) = f (ξ(ω))P (ω) = ai
ω∈Ω
=
X
X
f (ai )P (ω) =
ai
ω:ξ(ω)=ai
f (ai )
ai
ω:ξ(ω)=ai
=
X
X
f (ai )P {ξ = ai } =
ai
X
P (ω) =
ω:ξ(ω)=ai
X
f (ai )pi
ai
Очевидно, что все ряды участвующие в этих преобразованиях, одновременно сходятся или не сходятся абсолютно. В предположении же абсолютной сходимости существует некоторое конечное число членов ряда, сумма которых не более чем на заданное ε > 0 отличается от суммы ряда, в то время как сумма модулей остальных членов не более ε. Поэтому всевозможные группировки членов ряда сводятся к группировкам слагаемых в конечной сумме и тем самым законны. А значит, произведенные нами преобразования верны. Определение: ξ1 , . . . ξn — независимые в совокупности случайные величины, если для любых числовых множеств A1 , A2 . . . An : события {ξ1 ∈ A1 }, . . . {ξn ∈ An } независимы в совокупности. Из независимости в совокупности вытекает, что совместное распределение случайных величин ξ1 , . . . ξn является прямым произведением одномерных распределений n Q величин ξ1 , . . . ξn . А это означает, что P {ξ1 ∈ A1 , . . . ξn ∈ An } = P {ξi ∈ Ai }. i=1
Утверждение: E(ξη) = EξEη, если ξ и η - независимы и существуют Eξ и Eη. Доказательство: Рассмотрим f (ξ, η) = ξη. X X Eξη = Ef (ξ, η) = ai bj P {ξ = ai , η = bj } = ai bj P {ξ = ai }P {η = bj } = ai ,bj
ai ,bj
=
X ai
ai P {ξ = ai }
X
bj P {η = bj } = EξEη.
bj
Определение: Дисперсией Dξ случайной величины ξ называется число, опредеP ляемое формулой Dξ = E(ξ − Eξ)2 = (ai − Eξ)2 pi , где pi = P {ξ = ai }. ai
Утверждение: ξ и η — независимые случайные величины, тогда D(ξ + η) = D(ξ) + D(η). Доказательство: D(ξ + η) = E(ξ + η − E(ξ + η))2 = E((ξ − Eξ)2 + (η − Eη)2 + 2(ξ − Eξ)(η − Eη)) = = Dξ + Dη. Так как E(ξ − Eξ) = 0, E(η − Eη) = 0 и E(ξ − Eξ)(η − Eη) = E(ξ − Eξ)E(η − Eη). 7
Пример: Посчитаем математическое ожидание,а также дисперсию биноминального распределения. Пусть у нас n испытаний, µ — число успехов в этих испытаниях, которое представим в виде µ = µ1 + µ2 + . . . + µn , где µi = 1, если в i-ом испытании был успех и µi = 0 — в противном случае. Через p обозначим вероятность успеха в испытании, q = 1 − p — вероятность неудачи. Заметим, что Eµi = p, тогда Eµ = np; а Dµi = Eµ2i − (Eµi )2 = p − p2 = pq, тогда Dµ = npq. Рассмотрим последовательность серий испытаний Бернулли. Пусть в первой серии будет n = 1 испытание с вероятностью успеха p1 , а число успехов будет определятся как µ(1); во второй серии n = 2 испытаний с вероятностью успеха p2 и числом успехов µ(2) и т. д., наконец в n-й серии рассмотрим n испытаний, с вероятностью успеха pn каждое и числом успехов равным µ(n), причем npn → λ. Пусть m - фиксированное целое неотрицательное число. Тогда сформулируем теорему. Теорема (Пуассона): При n → ∞ выполняется предельное соотношение P {µ(n) = m} →
λm −λ e . m!
n−m Доказательство: В выражении P {µ(n) = m} = Cnm pm перейдем к n (1 − pn ) 1 λ пределу при n → ∞, pn = n + o( n ), где m фиксировано. Поскольку m n−m n(n − 1) · . . . · (n − m + 1) λ 1 1 λ P {µ(n) = m} = +o 1− −o , m! n n n n
то при этом предельном переходе m m λ 1 λ +o → n n n n−m 1 λ → e−λ 1− −o n n m λ → λm n(n − 1) · . . . · (n − m + 1) n Из этих выкладок напрямую вытекает утверждение теоремы. m Замечание: P {ξ = m} = λm! e−λ - распределением Пуассона с параметром λ > 0. Утверждение (Неравенство Чебышева): Пусть существует Dξ и дано число ε > 0, тогда Dξ P {|ξ − Eξ| > ε} 6 2 . ε Доказательство: Dξ = E(ξ − Eξ)2 =
X
(ai − Eξ)2 P {ξ = ai } >
ai
> ε2
X
(ai − Eξ)2 P {ξ = ai } >
ai :|ai −Eξ|>ε
X
P {ξ = ai } = ε2 P {|ξ − Eξ| > ε}.
ai :|ai −Eξ|>ε
Отсюда и вытекает нужное нам утверждение. Теорема (Закон больших чисел в форме Чебышева): Пусть случайные величины ξ1 , . . . ξn , . . . - попарно независимы, причем Dξi 6 C < ∞. Тогда P (|
ξ1 + . . . + ξn Eξ1 + . . . + Eξn − | > ε) → 0 n n 8
при n → ∞ для ∀ε > 0. n Доказательство: Достаточно установить, что D( ξ1 +...+ξ ) → 0. Из того, что n D(ξ + η) = D(ξ) + D(η) и того, что n → ∞ следует: n 1 Cn ξ1 + . . . + ξn 1 X C = 2 D(ξ1 + . . . + ξn ) = 2 Dξi 6 2 = → 0. D n n n i=1 n n Пусть x1 , . . . , xn - измерения, причем xi = a + δi , где δi — погрешность измерения, n P 2 а a — точное значение. Пусть Eδi = 0 и Dδi = σ 2 . Пусть x = n1 xi , тогда Dx = σn . i=1
P {|ξ − Eξ| > ε} 6
Dξ 1 6 2 ξ 9
√ где ε = 3 Dξ = 3σ. Ex = a. 3σ 1 6 P |x − a| > √ 9 n На практике пользуемся оценкой: n
1X S = (xi − x)2 ≈ σ 2 n i=1 2
при n порядка нескольких десятков и больше. Это практическое правило обосновывается следующей формулой: Dξ = E(ξ − Eξ)2 = E(ξ 2 − 2Eξ · ξ + (Eξ)2 ) = Eξ 2 − 2(Eξ)2 + (Eξ)2 = Eξ 2 − (Eξ)2 Тогда, в силу закона больших чисел n
n
1X 1X 2 S = (xi − x)2 = x − x2 ≈ Ex2i − (Exi )2 n i=1 n i=1 i 2
Пример: Пусть у нас есть 1000 булочек и 10000 изюминок. Пусть µ — число 1 изюминок в булочке. Вероятность попадания каждой изюминки в булочку p = 1000 . n = 10000 — число испытаний. Найдем вероятность того, что в булочке не оказалось изюма. λ = np = 10, тогда P {µ = 0} = e−λ ≈ 0.5 · 10−4 . Тогда на тысячу человек за год придется 0.05 булочек без изюма. Т. е. вероятность того, что не будет жалоб на отсутствие изюма в булках будет (0.95)365 ≈ 0 Введем a для доли украденного изюма, 0 6 a 6 1. Рассмотрим гипотезы H0 — ничего не украли, Ha = {µ}, где µ — подчиняется закону Пуассона с параметром xa = 101−a . α — уровень значимости, x = {0, 1, 2, . . .} и S = {x : x 6 k}. a 0.0 0.1 0.2 0.5 0.7
Функция мощности: α = 0.01 α = 0.001 α = 0.15 (S = {x 6 3}) (S = {x 6 1}) (S = {x 6 6}) 0.01 0.0005 0.13 0.021 0.0013 ... 0.042 0.031 ... 0.27 0.041 0.76 0.65 0.2 ... 80% - расходов впустую. 9
9
Основные понятия аксиоматики Колмогорова.
Определение: Измеримым множеством называется некоторое множество, на котором задана некоторая σ-алгебра его подмножеств. Определение: Измеримым отображением называется отображение одного измеримого пространства в другое (прообразы измеримых множеств — измеримы). Вероятностным пространством называется тройка {Ω, B, P }. Где Ω = {ω} — мно- жество элементарных событий. B — σ–алгебра подмножеств множества Ω. P — счетно–аддитивная мера, определенная на σ–алгебре B, и подчиненная дополнительному условию: P (Ω) = 1. Это означает, что если множества A1 , A2 , . . . An , . . . ∈ B не пересекаются между собой, то определены значения P (Ai ): 0 6 P (Ai ) 6 1, так же ∞ P как и значение P (A1 + A2 + . . . + An + . . .) = P (Ai ). i=1
Остановимся поподробнее на σ–алгебре B. Напомним, что σ–алгеброй называется совокупность подмножеств Ω, обладающая следующими свойствами: 1. ∅ ∈ B и Ω ∈ B; 2. если множество A ∈ B, то его дополнение A = Ω\A ∈ B; 3. Если имеем счетную систему подмножеств A1 , A2 , . . . , An , . . . ∈ B, то и
∞ T
∞ S
Ai ∈ B
i=1
Ai ∈ B.
i=1
Элементы σ-алгебры B называются событиями. Определение: Назовем наименьшей σ–алгеброй, содержащей данную систему подмножеств Aβ , пересечение всех σ–алгебр, каждая из которых содержит систему Aβ . Определение: σ–алгеброй борелевских подмножеств прямой R1 называется наименьшая σ–алгебра, содержащая все интервалы [α, β] ∈ R1 (в n-мерном пространстве — все параллелепипеды). Определение: Случайной величиной называется измеримая функция ξ = ξ(ω) со значениями в R1 . Измеримость означает, что для любого борелевского B ⊆ R1 его полный прообраз измерим, что в математическом виде представляется как ξ −1 (B) = {ω : ξ(ω) ∈ B} ∈ B. Определение: Пусть ξ = ξ(ω) — случайная величина (со значением в Rn ). Пусть для борелевского B ⊆ Rn µξ (B) = P {ω : ξ(ω) ∈ B} = P {ξ −1 (B)} Тогда µξ — мера, определенная на борелевской σ–алгебре в Rn . Эта мера называется распределением вероятностей (или просто распределением) случайной величины ξ. Замечание: При этом для распределения вероятностей случайной величины ξ выполняется следующее свойство: µξ (B1 + B2 + . . .) =
∞ X
µξ (Bi )
i=1
что вытекает из счетной аддитивности вероятностной меры и того, что ξ −1 (B1 + B2 + . . .) = ξ −1 (B1 ) + ξ −1 (B2 ) + . . . (свойство полного прообраза). 10
10
Интеграл Лебега.
Пусть ξ(ω) — ступенчатая, простая функция, принимающая не более чем счетное P число значений ai на множетсвах Ai , т. е. ξ(ω) = an IAn (ω), где Ai — измеримые {an }
подмножества Ω, причем A1 + . . . An + . . . = Ω, где Ai Aj = ∅ при i 6= j, а I( An ) — индикатор множества An . Определение: Определим значение интеграла Лебега следующей формулой Z X ξ(ω)P (dω) = P (An )an (10) {an }
Ω
При этом мы предполагаем, что ряд в правой части формулы (10) сходится абсоP лютно, т. е. |an |P (An ) < ∞. В противном случае считаем, что интеграл {an }
Лебега не существует. Заметим, что определение интеграла Лебега моглоPбы быть противоречиво, так как представление функции ξ(ω), ω ∈ Ω в виде ξ(ω) = an IAn (ω) неоднозначно, так {an }
как здесь мы подразумеваем, что имеется разбиение Ω на части A1 , A2 , . . ., причем на каждой части Ai функция ξ(ω) принимает постоянное значение ai . Если части Ai разделить на более мелкие или объединить такие Ai и Aj , что ai = aj , то получим другое P разбиение Ω, удовлетворяющее тому же самому условию и получим, что ξ(ω) = bm IBm (ω), где числа bm те же самые, что и an , но занумерованы в другом {bm }
порядке. Итак, для корректности определения, нам надо показать, что X X ξ(ω) = an IAn (ω) = bm IBm (ω) {an }
{bm }
Положим, что Dnm = An Bm , при этом может быть, что некоторые Dnm — пусты, а величина P ξ(ω) принимает постоянные значения на каждом не пустом Dnm , тогда ξ(ω) = dnm IDnm (ω). Преобразуем правую часть интеграла Лебега: {dnm }
!
! X
dnm P (Dnm ) =
X X n
{dnm }
an P (Dnm )
=
X
m
n
an
X
P (Dnm )
=
m
! =
X n
an P
X
(Dnm )
=
m
X
an P (An ).
{an }
Эти преобразования основаны на том, что при фиксированном P n имеем: Dnm ⊆ An ⇒ dnm = an = ξ(ω) при ω ∈ An , а также исходя из того, что Dnm = An . И m
эти преобразования законны ввиду предположения, что ряды абсолютно сходятся. P Аналогично, поменяв порядок суммирования, можно доказать, что dnm P (Dnm ) = {dnm } P P P bm P (Bm ). Таким образом, мы показали, что an P (An ) = bm P (Bm ). {bm }
{an }
{bm }
Свойства интеграла Лебега: R R R 1. Покажем, что (ξ(ω) + η(ω))P (dω) = ξ(ω)P (dω) + η(ω)P (dω). Пусть ξ(ω) Ω
Ω
Ω
и η(ω) — линейные комбинации индикаторов одних и тех же множеств An , 11
т.е. ξ(ω) =
P
an IAn (ω) и η(ω) =
{an }
P
bn IAn (ω), тогда это равенство напрямую
{bn }
вытекает из определения интеграла Лебега. P P Пусть теперь это не так, т. е. ξ(ω) = an IAn (ω) и η(ω) = bm IBm (ω). {an }
{bm }
Тогда образуем систему Dnm = An Bm и запишем ξ(ω) и η(ω) как линейные комбинации индикаторов множеств Dnm , отсюда и получим искомое равенство. 2. Отметим теперь другое свойство интеграла Лебега, которое так же напрямую вытекает из определения интеграла Лебега, если, конечно, мы не забудем, что P P (Ai ) = 1, а именно: i
R если |ξ(ω)| 6 ε, то | ξ(ω)P (dω)| 6 ε. Ω
3. Отметим последнее свойство интеграла Лебега. Пусть ξn (ω) — последовательность элементарных функций, равномерно сходящаяся к ξ(ω), т. е. ξn (ω) ⇒ ξ(ω): sup |ξ(ω) − ξn (ω)| → 0 при n → ∞. Тогда ω∈Ω R последовательность ξn (ω)P (dω) фундаментальна. Ω
Пусть при m > N и n > N , |ξ(ω) − ξn (ω)| 6 ε, |ξ(ω) − ξm (ω)| 6 ε. Тогда в силу уже доказанных нами свойств интеграла Лебега и того, что |ξm (ω) − ξn (ω)| 6 2ε получим Z Z Z ξm (ω)P (dω) − ξn (ω)P (dω) = (ξm (ω) − ξn (ω)P (dω)) 6 2ε Ω
т. е. последовательность
Ω
Ω
R
ξn (ω)P (dω) — фундаментальна.
Ω
R Если sup |ξ(ω) − ξn (ω)| → 0 при n → ∞, то можно положить, что ξ(ω)P (dω) = Ω Rω∈Ω lim ξn (ω)P (dω), причем мы уже доказали, что предел в правой части не
n→∞ Ω
зависит от выбора последовательности ξn (ω), равномерно сходящейся к ξ(ω). Теперь нам осталось показать, что для каждой измеримой ξ(ω) существует хотя бы одна последовательность ξn (ω) элементарных функций, равномерно сходящаяся к ξ(ω). Построим последовательность следующим образом. Пусть n — натуральное, k Pk (n) k+1 k I (ω). — целое число. Положим Ak = {ω : n 6 ξ(ω) < n }, ξn (ω) = n A(n) k
k
Очевидно, что |ξ(ω) − ξn (ω)| 6 n1 . Тогда получим: Z Z Xk k k+1 ξ(ω)P (dω) = lim ξn P (dω) = lim P ω : 6 ξ(ω) < . n→∞ k→∞ n n n k Ω
Ω
Суммы входящие в правую часть, называются интегральными суммами Лебега. Видно, что если при каком-нибудь n существует, в смысле абсолютной сходимости ряда по k, такая сумма, то существуют и все остальные. В противном случае говорим, что интеграла Лебега от ξ(ω) не существует. 12
Определение: Математическим ожиданием Eξ случайной величины ξ называR ется значение интеграла Лебега: Eξ = ξ(ω)P (dω), в предположении, что этот Ω
интеграл существует. Свойства: 1. c - константа, то E(cξ) = cE(ξ);
2. Если существуют Eξ и Eη, то E(ξ + η) = E(ξ) + E(η). ξ — случайная величина и f (x) — измеримая по Борелю функция, тогда f (ξ(ω)) — тоже измерима. Т.е. {ω : f (ξ(ω)) ∈ B} = {ω : ξ(ω) ∈ f −1 (B)} — измерима по Борелю, где B — борелевское подмножество Rn . Теорема: Выполняется следующее равенство Z Z Ef (ξ) = f (ξ(ω))P (dω) = f (x)µξ (dx) Rn
Ω
причем оба интеграла существуют одновременно, а µξ (B) = P {ξ = B} — распределение случайной величины ξ. Доказательство: Покажем, что лебеговы интегральные суммы у обоих интегралов одинаковы: ∞ X k k k+1 P ω : 6 f (ξ(ω)) < = n n n k=−∞ ∞ ∞ X X k k k+1 k k k+1 −1 = P ω : f (ξ(ω)) ∈ ; = P ω : ξ(ω) ∈ f ; = n n n n n n k=−∞ k=−∞ ∞ ∞ X k X k k k+1 k k+1 −1 = µξ x : x ∈ f ; µξ x : f (x) ∈ ; = n n n n n n k=−∞ k=−∞ )) — борелевское мноПричем f −1 здесь обозначает полный прообраз; f −1 ([ nk ; k+1 n жество (в силу измеримости f ). Определение: Распределение µξ называется абсолютно непрерывным (относительно меры Лебега в Rn , элемент которой обозначается dx), если существует измеримая по Борелю функция ρξ (x), такая, что для любого борелевского B ⊆ Rn выполняется соотношение Z P {ξ ∈ B} = µξ (B) = pξ (x)dx B
где функция pξ (x) называется плотностью распределения случайной величины ξ. Очевидны свойства плотности распределения случайной величины ξ: 1. pξ (x) > 0; R 2. pξ (x)dx = P {ξ ∈ Rn } = 1. Rn
Теорема: Для любой измеримой по Борелю функции f (x) имеем в случае абсолютно непрерывного распределения µξ Z Z f (x)µξ (dx) = f (x)pξ (x)dx Rn
Rn
13
Доказательство: Если f (x) = IB (x), B ⊆ Rn борелевское, то Z Z Z IB (x)µξ (dx) = µξ (B) = pξ (x)dx = IB (x)pξ (x)dx. Rn
B
Rn
Если f (x) — линейная комбинация счетного числа индикаторов непересекающихся множеств, то утверждение теоремы также справедливо. Если же f (x) — произвольная измеримая функция, то она может быть аппроксимирована линейными комбинациями счетного числа индикаторов. R Следствие: Ef (ξ) = f (x)pξ (x)dx. Rn
Это следствие очевидным образом вытекает из двух последних, нами доказанных, теорем. Замечание: Если существует Риманов и Лебегов интегралы, то они совпадают. Тогда вычисляем обычный Риманов интеграл. Определение: Дисперсия Dξ случайной величины ξ определяется как и в дискретном случае, а именно Dξ = E(ξ − Eξ)2 Дисперсию случайно величины ξ можно вычислить: Z∞ Dξ =
(ξ − Eξ)2 pξ (x)dx.
−∞
Определение: ξ1 , . . . , ξn - независимые в совокупности случайные величины, если для ∀ борелевых B1 , . . . , Bn : {ξ1 ∈ B1 }, . . . , {ξn ∈ Bn } выполнено P {{ξ1 ∈ n Q B1 } ∩ . . . ∩ {ξn ∈ Bn }} = P {ξi ∈ Bi }. Тогда получим pξ (x) = pξ1 ,...,ξn (x1 , . . . , xn ) = i=1
n Q
pξi (xi ), где pξ1 ,...,ξn называется совместной плотностью распределения случайных величин. Теорема: Значение плотности pη (y) случайной величины η = f (ξ) задается:
i=1
pη (y) = pξ (f −1 (y)) · |Jf −1 (y)|, где Jf −1 (y) — значение якобиана отображения f −1 в точке y. Доказательство: На практике у нас плотность распределения зачастую является кусочно–непрерывной функцией. Поэтому достаточно определить плотность pη (y) в точках y, являющимися точками непрерывности этой функции. Исходя из интегрального определения плотности, получим в точке y P {η ∈ O(y)} O(y)↓y V (O(y))
pη (y) = lim
где O(y) — окрестность точки y, предельный переход O(y) ↓ y означает, что диаметр O(y) стремится к нулю, а V (O(y)) обозначает объем O(y). Произведем некоторые выкладки: P {f (ξ) ∈ O(y)} P {η ∈ O(y)} = lim = O(y)↓y O(y)↓y V (O(y)) V (O(y))
pη (y) = lim
P {ξ ∈ f −1 (O(y))} P {ξ ∈ O(f −1 (y))} V {f −1 (O(y))} = lim · = O(y)↓y O(y)↓y V (O(y)) V {f −1 (O(y))} V (O(y))
= lim
14
= pξ (f −1 (y)) · |Jf −1 (y)|. Здесь замену f −1 (O(y)) на O(f −1 (y)) следует понимать в том смысле, что при (однозначном) обратном отображении f −1 окрестность O(y) переходит в некоторую окрестность O(f −1 (y)) точки f −1 (y), причем если O(y) ↓ y, то O(f −1 (y)) ↓ f −1 (y).
11
Преобразование Фурье.
Пусть f (t) - некоторая функция от t ∈ R1 , суммируемая на всей прямой. eitξ = cos tξ + i sin tξ. Тогда itξ
fξ (t) = Ee
Z∞
Z∞
itξ
=
e µξ (dx) = −∞
eitξ ρξ (x)dx
(11)
−∞
называется преобразованием Фурье, но в теории вероятности fξ (t) называют — характеристической функцией, где pξ (x) — плотность распределения. Рассмотрим финитную функицю ϕ(x) (функцию, обращающуюся в нуль всюду, за исключением некоторого компакта). Тогда преобразование Фурье для ϕ: Z∞ ϕ(t) e =
eitx ϕ(x)dx
−∞
и будет существовать обратное преобразование Фурье Z∞
1 ϕ(x) = 2π
e−itx ϕ(t)dt e
−∞
Рассмотрим гладкую суммируемую функцию F (x), определим линейный функционал, который эта функция задает на гладких финитных функциях, обозначаемый R∞ (F, f ). Тогда за определение возьмем (F, f ) = F (x)f (x)dx. −∞
Пусть µξ (x) есть распределение вероятностей случайной величины ξ, ϕ — гладкая финитная функция, тогда Z∞ Eϕ(ξ) =
Z∞ ϕ(x)µξ (dx) =
−∞
1 = 2π
−∞
Z∞
Z∞ ϕ(t)dt e
−∞
1 ( 2π
Z∞
e−itx ϕ(t)dt)µ e ξ (dx) =
−∞
1 e−itx µξ (dx) = 2π
−∞
Z∞ fξ (t)ϕ(t)dt e =
1 (fξ , ϕ) e 2π
−∞
где fξ — функционал, задаваемый характеристической функцией itξ
fξ (t) = Ee
Z∞ =
eitx µξ (dx),
−∞
Z∞ fξ (t) =
e−itx µξ (dx).
−∞
15
В итоге мы получили, что если под µξ понимать функционал, задаваемый мерой µξ , то его преобразование Фурье есть функционал, задаваемый характеристической функцией µ eξ = fξ . Таким образом мы решили проблему однозначности соответствия между распределениями вероятностей случайной величины ξ и характеристическими функциями: по характеристической функции мера определяется однозначно. А ведь и правда так. Посмотрим на выкладки, проделанные нами: (µξ , ϕ) = Eϕ(ξ) =
1 (fξ , ϕ) e 2π
(12)
для любой гладкой финитной функции ϕ. А значениями (µξ , ϕ) мера µξ определяется однозначно. Определение: ξ1 , . . . , ξn — независимые в совокупности случайные величины, если для ∀ борелевых B1 , . . . , Bn : {ξ1 ∈ B1 }, . . . , {ξn ∈ Bn } выполнено P {{ξ1 ∈ n Q B1 } ∩ . . . ∩ {ξn ∈ Bn }} = P {ξi ∈ Bi }. При этом любые f1 (ξ1 ), . . . , fn (ξn ) тоже i=1
независимы в совокупности, ввиду того, что {f1 (ξ1 ) ∈ B1 } = {ξ1 ∈ f1−1 (B1 )}. Пусть ξ и η — независимые случайные величины, тогда fξ+η (t) = Eeit(ξ+η) = E(eitξ eitη ) = fξ (t)fη (t). Определение: Последовательность случайных величин ξ1 , . . . , ξn , . . . слабо сходится к случайной величине ξ, если Eϕ(ξn ) → Eϕ(ξ) при n → ∞. Определение: Пусть последовательность вероятностных мер µn , где n = 1, 2, . . . слабо сходится к мере µ, если для любой гладкой и финитной ϕ(x) справедливо предельное соотношение Z∞
Z∞
w
ϕ(x)µn (dx) → (µ, ϕ) =
µn (ϕ) = (µn , ϕ) = −∞
ϕ(x)µ(dx). −∞
w
Теорема: Для слабой сходимости µn → µ необходима и достаточна сходимость соответствуюих характеристических функций Z∞ fn (t) =
eitx µn (dx) → f (t) =
−∞
Z∞
eitx µ(dx).
−∞
Доказательство: Достаточность. Пусть имеем fn (t) → f (t), тогда основываясь на (12), справедливость которой была продемонстрирована выше 1 µn (ϕ) = 2π
Z∞ fn (t)ϕ(t)dt, e −∞
1 µ(ϕ) = 2π
Z∞ f (t)ϕ(t)dt. e −∞
Ввиду того, что |fn (t)| 6 1, а
R∞ −∞
w
|ϕ(t)|dt e < ∞, то µn (ϕ) → µ(ϕ) по теореме о
предельном переходе под знаком интеграла Лебега (так как подинтегральные выражения ограничены суммируемой функцией). 16
w
Необходимость. µn → µ влечет за собой, что для любого ε > 0 существует число Aε , что µ{x : |x| < Aε } > 1 − ε и µn {x : |x| < Aε } > 1 − ε, для достаточно больших n. Действительно, существует такое число Bε , что для предельной меры µ выполняется соотношение µ{x : |x| < Bε } > 1 − 2ε . Положим Aε = Bε + 1 и рассмотрим гладкую функцию ϕ(x), которая заключена между 0 и 1, равную единице при |x| 6 Bε и w равную нулю при |x| > Aε . Тогда µ(ϕ) > 1 − 2ε . Однако µn (ϕ) → µ(ϕ), а значит при достаточно больших n будем иметь µn (ϕ) > 1 − ε, чего быть не может, если µn {x : |x| < Aε } < 1 − ε, так как µn (ϕ) 6 µn {x : |x| < Aε }, поскольку 0 6 ϕ(x) 6 1, причем ϕ(x) = 0 при |x| > Aε . Нам нужно доказать, что fn (t) → f (t). Функции fn (t) и f (t) получаются интегрированием от −∞ до +∞ ограниченной функции eitx по мерам µn и µ. Сравнение интегралов в пределах от −∞ до +∞ приводится к сравнению интегралов от −Aε до Aε . Заменим функцию eitx на гладкую функцию ϕ(x), совпадающую с eitx при |x| < Aε и равную нулю при |x| > Aε + 1. Значения интегралов, определяющих fn (t) и f (t), при этом (для достаточно больших n) изменятся не более чем на ε, но при n → ∞ они обязаны неограничено сближаться. Это и доказывает, что для достаточно больших n имеем: |fn (t)−f (t)| 6 2ε, что в силу произвольного выбора ε и доказывает теорему.
12
Независимые случайные величины.
Определение: ξ1 , . . . , ξn — независимые случайные величины, если для любых измеn Q римых B1 , . . . , Bn ∈ R выполнено P {ξ1 ∈ B1 , . . . , ξn ∈ Bn } = P {ξi ∈ Bi }. i=1
Следствие: ξ1 , . . . , ξn — независимы, тогда ξ1 , . . . , ξk — так же независимы, для любого k < n. Докзательство: P {ξ1 ∈ B1 , . . . , ξk ∈ Bk } = P {ξ1 ∈ B1 , . . . , ξk ∈ Bk , ξk+1 ∈ R, . . . , ξn ∈ R} = = P {ξ1 ∈ B1 } · . . . · P {ξk ∈ Bk }}. Определение: ξ = (ξ1 , . . . , ξn ), η = (η1 , . . . , ηk ) — независимы, если P {ξ ∈ B n , η ∈ C k } = P {ξ ∈ B n }P {η ∈ C k } для любых измеримых B n ∈ Rn и C k ∈ Rk Определение: Распределение случайной величины ξ называется абсолютно непрерывным, если существует pξ (x) = pξ1 ,...,ξn (x1 , . . . , xn ) Z Z Z P {ξ ∈ B} = . . . pξ1 ,...,ξn (x1 , . . . , xn )dx1 . . . dxn = pξ (x)dx B
где pξ (x) — плотность многомерной величины. Теорема: Пусть ξ = (ξ1 , . . . , ξn ) — независимы (компоненты), каждое ξi — непре- рывно, т. е. существует pξi . Тогда ξ — непрерывно и плотность pξ (x) = n Q pξi (xi ). i=1
Доказательство: Пусть B = B1 × Bn , тогда P {ξ ∈ B} = P {ξ1 ∈ B1 , . . . , ξn ∈ Bn } = P {ξ1 ∈ B1 } · . . . · P {ξn ∈ Bn } = Z Z Y n Z n Y = pξi (xi )dxi = . . . pξi (xi )dx1 . . . dxn i=1 B
i
Bn i=1
B1
17
Это верно на прямоугольнике, а значит верно везде: µ1 = P {ξ ∈ B} Z ...
µ2 = B1
Z Y n
Bn
pξi (xi )dx1 . . . dxn .
i=1 0
Следствие: Если ξ = (ξ1 , . . . , ξn ) имеет Rплотность pξ (x), то для k < n, ξ = R (ξ1 , . . . , ξn ) тоже имеет плотность pξ0 (x0 ) = . . . pξ (x)dxk+1 . . . dxn , где повторный интеграл берется по Rn−k . Доказательство: Z Z 0 0 k n−k P {ξ ∈ B } = P {ξ ∈ Bk , (ξk+1 , . . . , ξn ) ∈ R } = . . . pξ (x)dx = Z Z
Z =
...
Z ...
pξ1 ,...,ξn (x1 , . . . , xn )dxk+1 . . . dxn dx1 dxk
где в скобках стоит определение плотности. Свойства математического ожидания: R Напомним, что Eg(ξ) = g(x)pξ (x)dx. R
1. Если ξ > 0, то Eξ > 0; 2. E(aξ + η) = aEξ + Eη. Свойства дисперсии: Напомним, что Dξ = E(ξ − Eξ)2 1. D(ξ1 + . . . + ξn = E((ξ1 − Eξ1 )2 ) + . . . + (ξn − Eξn )2 ) =
n P
Dξi + +
i=1
где cov(ξi , ξj ) = E(ξi − Eξi )(ξj − Eξj ) - ковариация; 2. D(cξ + b) = c2 Dξ.
13
Примеры непрерывных распределений.
1. Равномерное распределение на отрезке [a, b]. Плотность распределения записывается в следующем виде: pξ (x) =
1 I[a,b] (x) b−a
Z∞
Zx
Функция распределения: Fξ (x) = P {ξ < x} =
pξ (u)du = −∞
18
a
1 x−a du = b−a b−a
P i6=j
cov(ξi , ξj ),
Пусть ξ0 - равномерно распределена на [− 12 , 12 ]. (ξ0 + 21 )(b − a) + a = = ξ0 (b − a) + b+a = ξ - она будет также равномерно распределена на [a, b]. Тогда pξ0 (x) = 2 I[− 1 , 1 ] (x). Выразим Eξ, Eξ0 , Dξ, Dξ0 2 2
1
Z2
Z Eξ0 =
xpξ0 (x)dx =
xdx = 0 − 12
R
1
Dξ0 = Eξ02 =
Z
x2 pξ0 (x)dx =
Z2
1 12
x2 dx =
− 12
R
a+b a+b = Eξ = E (b − a)ξ0 + 2 2 a+b (b − a2 ) Dξ = D (b − a)ξ0 + = (b − a)2 Dξ0 = 2 12 2. Показательное распределение с параметром λ > 0. Плотность распределения записывается в следующем виде: ( λe−λx , x > 0 pξ (x) = 0, x<0 Пусть α > 0 ( ξγ ∼ γ(x, λ, α) = pξγ =
λα xα−1 −λx e , Γ(α)
x>0
0,
x<0
Функция распределения: ( 1 − e−λx , x > 0 Fξ = P {ξ 6 x} = 1 − P {ξ > x} = 0, x<0 Выразим Eξ, Dξ, Eξγ , Dξγ : Z∞ Eξ =
xλe
−λx
0
Eξ 2 =
Z∞ dx = −
xde
−λx
=
∞ −xe−λx 0
0
Z∞
∞ x2 λe−λx dx = −x2 e−λx 0 +
0
Z∞
Z
∞
+ 0
e−λx 2xdx =
0
2 2 1 1 2 2 Dξ = Eξ − (Eξ) = 2 − = 2 λ λ λ α Eξγ = λ α Dξγ = 2 λ 19
e−λx dx =
2 λ2
1 λ
3. Нормальное (гауссовское) распределение с параметрами (a, σ 2 ). Плотность распределениязаписывается в следующем виде: (x−a)2 1 pξ = √ e− 2σ2 2πσ
Функция распределения: r=
p x2 + y 2
2 Z ZZ Z Z∞ x2 +y 2 r2 1 1 pξ (x)dx = e− 2 dxdy = dθ e− 2 rdr = 1 π 2π 0
R2
R
Fξ = 1 Пусть ξ1 = a + σξ, тогда pξ1 = σ1 pξ (x − a) =
√ 1 e− 2πσ
(x−a)2 2σ 2
Выразим теперь Eξ, Dξ, Eξ1 , Dξ1 : Eξ = 0 1 Dξ = Eξ = √ 2π 2
Z
2
2 − x2
xe
2 dx = 2π
R
Z
x2
xde− 2 = 1
R
Eξ1 = a Dξ1 = σ 2 Получаем, что ξ ∼ N (0, 1) и ξ1 ∼ N (a, σ 2 ).
14
Центральная предельная теорема.
Пусть ξ ∈ X, f : X → Y — взаимнооднозначное гладкое отображение, η = f (ξ), тогда pη (y) = pξ (f −1 (y))|J(f −1 (y))| где J(f −1 (y)) — якобиан. Пусть ξ1 , ξ2 — абсолютно непрерывные и независимые случайные величины с плотностями распределения p1 (x1 ) и p2 (x2 ) соответственно, тогда pξ1 ξ2 (x1 , x2 ) = p1 (x1 )p2 (x2 ) и случайная величина ξ1 +ξ2 — будет абсолютно непрерывной. Найдем ее плотность. Так как ξ1 и ξ2 — независимы, то pξ1 ξ2 (x1 , x2 ) = p1 (x1 )p2 (x2 ). Обозначим η = ξ1 + ξ2 и y1 = x1 + x2 и y2 = x2 , тогда мы получим pη1 η2 = pξ1 ξ2 (y1 − y2 , y2 ) = pξ1 (y1 − y2 )pξ2 (y2 ). Тогда получаем формулу для плотности распределения η Z∞ pξ1 (y1 − y2 )pξ2 (y2 )dy2
pξ1 +ξ2 (y1 ) = −∞
20
Пусть ξ1 и ξ2 — независимые случайные величины, тогда очевидно Eξ1 ξ2 = Eξ1 Eξ2 . Покажем это, если pξ1 ξ2 (x1 x2 ) = pξ1 (x1 )pξ2 (x2 ), тогда Z∞Z Eξ1 ξ2 = Ef (ξ1 , ξ2 ) =
x1 x2 pξ1 (x1 )pξ2 (x2 )dx1 dx2 = −∞
Z
Z x1 p1 dx1 ·
=
x2 p2 dx2 = Eξ1 Eξ2
Далее fξ1 +ξ2 (t) = Eeit(ξ1 +ξ2 ) = Eeitξ1 eitξ2 = fξ1 (t)fξ2 (t). Sn = ξ1 +. . .+ξn , где ξi — независимы, тогда P {ξi ∈ B} = µ(B), т. е. она независит от i. Пусть существует a = Eξi и σ 2 = Dξi = E(ξ1 − a)2 . Вместо Sn рассмотрим def def n −ESn нормированную сумму s∗n = S√ , причем Es∗n = 0 и Ds∗n = 1. Тогда ϕ(x) = DSn 2
x √1 e− 2 2π
— нормальный закон. Теорема (Центральная предельная теорема): Оценки s∗n слабо сходится к x2
нормальному, т. е. fs∗n (t) → e− 2
Доказательсвто: Перепишем s∗n в виде s∗n =
√1 n
n P k=1
ξk −a . σ
Обозначим ηk = R∞
g(t) = Eeitηk . Тогда заметим, что ESn = na, DSn = nσ 2 , g(0) = 1, g(t) =
ξk −a σ
и
eitx µn (dx),
−∞
где µn (B) = P {ηn ∈ B}, g 0 (t) =
R∞
ixeitx µn (dx), g 0 (0) = 0, g 00 (0) = −Dηn = −1. Тогда
−∞
fSn∗ = g
t √ n
n
t 1 t2 = 1 + g (0) √ + g 00 (0) + o n n 2 2 n t2 t t2 +o → e− 2 = 1− 2n n
0
2 n t = n
Докажем, что из слабой сходимости следует, что P {a 6 s∗n 6 b} →
Rb a
2
x √1 e− 2 2π
dx.
Пусть ϕ− (x) и ϕ+ (x) — приближения I[a,b] (x), т. е. Eϕ− (s∗n )
Z∞ → −∞
Eϕ+ (s∗n )
Z∞ → −∞
И понятно, что √ √ a = A−na и b = B−na σ n σ n
Eϕ+ (s∗n )
и
Eϕ− (s∗n )
x2 1 ϕ− √ e− 2 dx 2π
x2 1 ϕ+ √ e− 2 dx 2π
близки. Тогда получаем при условии, что
P {A < Sn < B} = P {a 6 s∗n 6 b} ≈ Φ(b) − Φ(a) где Φ(x) =
Rx −∞
2
y √1 e− 2 2π
dy - функция Лапласа.
21
Испытания Бернулли. Пусть µ — число успехов в n испытаниях, а p — вероятность успеха. Пусть µ = µ1 +. . .+µn , где µi — есть нуль или единица в зависимостиот того неудача была в i-ом испытании али успех. Поскольку a = Eµi = p и σ 2 = Dµi = √ . Получаем, что центральная предельная pq. Нормированное число успехов m∗ = µ−np npq теорема имееет вид: P {µ∗ < x} → Φ(x) Это соотношение и называется теоремой Муавра-Лапласа. Пусть имеем n наблюдений с результатами x1 , . . . , xn , пусть x =
1 n
n P
xi . Положим
i=1
xi = a + δi , где δi - есть ошибка i-го измерения. И допустим, что δi случайны и одинаково распределены и Eδi = 0, т. е. нет систематической ошибки. Найдем оценку для |x − a|. Считаем P {|x − a| 6 ε} ≈ 0.95, тогда P {|x − a| > ε} ≈ 0.05. n
x−a=
n
1X 1X xi − a = (xi − na) n i=1 n i=1 n P
(xi − na) √ S = , σ n n o √ где σ 2 = Dxi = Dδi . Пусть P |x − a| σn 6 1.96 ≈ 0.95, тогда ε = n P взять σ? Однако S 2 = n1 (xi − x) ≈ σ 2 , но 2
i=1
1.96σ √ . n
Но откуда
i=1
1 S2 = n
n X
! xi − x2
→ Ex2i − (Exi )2
i=1
Видно, что ε → 1.96 √Sn . P {x−ε 6 a 6 x+ε} ≈ 0.95, где ε — случайно, а (x−ε, x+ε) - доверительный интервал. Но как выбрать ε? Если ε = 0.99, то 1.96 надо заменить на 2.57. Надо убедиться, что числа x1 , . . . , xn из эксперимента похожи на X1 , . . . , Xn . Определение: Эмпирической (выборочной) функцией распределения называется функция Fn (x), задаваемая соотношением Fn (x) =
числоxi < x = частота события{xi < x} ≈ P {xi < x}. n
При достаточно больших n можно неплохо судить об теоретической (истинной) функции распределения F (x). Rx 1 − y2 √ e 2 dy, то будет нормальное распределение. Если F (x) похожа на Φ(x) = 2π −∞
2 − x2
pξ (x) = √12π e — нормальное распределение N (0, 1). Eξ = 0 и Dξ = 1, η = σξ +a, где σ > 0. P {ξ < x} = Fξ (x) и, если Fξ (x) = Φ, тогда P {η < y} = P {σξ + a < y} = P {ξ <
√S n
y−a y−a } = Φ( ) σ σ
Пример (Плотность Земли. Чебышев.): ε = 1.96 √Sn , S ≈ 0.20, n = 29, тогда ≈ 0.4, а x = 5.48, тогда получаем, что a - плотность Земли находится лежит в 22
пределах 5.48 − 0.1 6 a 6 5.48 + 0.1, но в реальности плотность Земли a = 5.518 истинное значение. Пример (Заряд электрона. Милликен.): 2 √Sn ≈ 0.1% от измеряемой величины. Тогда |x − a| ≈ 0.001a, но на деле оказалось, что |x − a| ≈ 0.006a. Дело в том, что Милликен использовал неверное значение вязкости воздуха, т. е. была систематическая ошибка. Пусть x1 , . . . , xn - наблюдения. Пусть F (x) = P {xi < x} — известна. Как сопоставить F (x) и Fn (x)? Положим Dn = sup |Fn (x) − F (x)| — статистика Колмогорова. x
Пусть y = G(x) — монотонная, yi = G(xi ), тогда P {G(xi ) < x} = P {xi < G−1 (x)}, но Dn при этом не изменится P {Dn < z} =: Kn (z). n n P P S 2 = n1 (xi − x)2 , xi = a + δi , Eδi = 0, Dδi = Eδi2 = σ 2 ≈ n1 (xi − x)2 . Найдем i=1
i=1
чему равно ES 2 , для этого предположим, что Exi = 0 (это можно достичь заменой). Пусть x1 x2 . . . xn ξ∼ 1 1 . . . n1 n n n P Заметим, что S 2 = n1 x2i − x2 , тогда i=1
n n n 1X 2 1 X σ2 1 X Ex = E( Exi xj = 2 Ex2i = xi ) = 2 n i=1 n i,j=1 n i=1 n 2
Так как при i 6= j — xi и xj независимы, а значит Exi xj = Exi Exj = 0, тогда σ2 1 n−1 2 2 2 2 2 =σ 1− = σ2 ES = Exi − Ex = Exi − n n n √ А значит ES 2 = σ 2 — несмещенная оценка σ 2 . σ = σ 2 , тогда ES 6= σ. 2 Пусть Dx = σn , Ex = a и ξ ∼ N (a, σ 2 ) (из нормлального распределения). Тогда P {|ξ − a| > 1.96σ} = 0.05 и P {|x − a| > 1.96 √σn } = 0.05. Пусть x1 , . . . , xn и y1 , . . . , yn - две серии измерений, тогда эти доверительные интервалы должны хотя бы пересекаться! Пусть xi = a + δi и yi = a + εi , при этом Eδi = 0 и Eεi = 0, тогда имеем гипотезу: Exi = Eyi . Рассмотрим x − y, считая, что {xi } и {yi } - независимы. Однако этот способ не дает возможности определить уровень значимости. Утверждение: Докажем, что сумма двух случайных величин с нормальным распределением, тоже имеет нормальное распределение. Доказательсвто: Пусть ξ1 имеет нормальное распределение N (a1 , σ12 ), а ξ2 имеет нормальное распределение N (a2 , σ22 ). Пусть η ∼ N (0, 1) — стандартно распределенная t2
нормальная случайная величина, Eeitη = = e− 2 . Тогда fξ1 = Eeitξ1 = Eeit(a1 +σ1 η) = 2 t 2 σ1
2 t 2 σ2
eita1 Eei(tσ1 )η = eita1 e− 2 , аналогично fξ2 = eita2 e− 2 . Тогда получаем fξ1 +ξ2 (t) = 1 2 2 2 eit(a1 +a2 ) e− 2 (t (σ1 +σ2 )) , т.е. N (a1 + a2 , σ12 + σ22 ). q 2
Итак мы получили, что x − y ∼ N (Exi − Eyi , σmx + σy → py — оценки, тогда: x−y z=q ∼ N (0, 1) p2y p2x + n m Критическая область = {z : |z| > 1.96}. 23
σy2 ). n
Заменим σx → px и
Пусть n испытаний, µ успехов, и мы имеем нормлаьный закон распределения. Пусть h = nµ , Dµ = npq, тогда D nµ = n12 Dµ = pq , также Eµ = np, тогда E nµ = n1 Eµ = p, n p pq p µ µ и q = 1 − p. Тогда n − p ∼ N (0, n ), P {| n − p| 6 1.96 pq } = 0.05. n p pq 1 1 Пример: кидаем монету n = 100 раз, p = q = 2 . Тогда = 20 , тогда h : n 1 1 1 1 ± 2 = ± . 2 20 2 10 Пусть имеем n1 и n2 испытаний для двухq опытов, число успехов которых равно µ2 µ1 2 - оценка на p. µ1 и µ2 соответственно. Тогда n1 − n2 ∼ N (0, npq1 + npq2 ) и pb = nµ11 +µ +n2 Замечание: Считаем долю людей, дающих ответ: "ДА"на некоторый вопрос. Берем некоторую выборку из населения. Не существует научного способа создать случайную выборку из населения. Но если взять две выборки и сравнить их результаты, то можно косвенно проверить гипотезу о случайности выборок.
15
Метод Монте–Карло
Рассмотрим вычисление Z1 I=
Z1 ...
0
f (x1 , . . . , xn )dx1 . . . dxn 0
Всего 10k точек сетки (если хотя бы 10 различных значений для каждого xi ), если k = 20, то ни один компьютер не осилит. И что же делать? А вот что! Предположим, что мы умеем моделировать случайные числа, принимающие значения на [0, 1] с равномерным распределением и независимые друг от друга. Если ξ = (ξ1 , . . . , ξn ) — набор n таких одномерных случайных чисел, то ξ имеет равномерное распределение на n-мерном единичном кубе. Но тогда I = Ef (ξ). Реализуя случайный вектор ξ N раз: ξ (1) , . . . , ξ (N ) и образуя выборку x1 = f (ξ (1) ), . . . , xN = f (ξ (N ) ), для чего нужно лишь уметь вычислять значения функции f , получаем уже рассмотренную задачу оценки математического ожидания по выборке.
16
Метод наименьших квадратов.
Пусть наблюдения xi = ai +δi , где ai - некоторые неслучайные величины, подлежащие оценки, а δi — независимые случайные величины, чей смысл — ошибка i-го измерения, и каждая δi имеет нормальное распределение N (0, σ 2 ). Неизвестное σ не зависит от i. Основное предположение состоит в том, что a = (a1 , . . . , an ) ∈ L ∈ Rn , где L некоторое известное линейное пространство. Случай, когда L — линейное многообразие, т.е. L = L0 + a0 , где L0 — подпространство, a0 - вектор, сводится к случаю многообразия вычитанием из всех наблюдений компонент a0 . Пример: Пусть a1 , a2 , a3 — углы треугольника, x1 , x2 , x3 — их измерения, не имеющие систематической ошибки. Тогда xi = ai + δi . Должно выполняться равенство: a1 + a2 + a3 = π. Используем это для улучшения наблюдений xi : за приблизительные значения углов возьмем некоторые другие значения x01 , x02 , x03 , такие, что x01 + x02 + x03 = π, хорошо бы, чтобы значения x0i были ближе к истинным значениям ai чем первоначальные xi . Вычтем x0i из xi , тогда математические ожидания, полученных разностей, будут лежать в L.
24
17
Метод максимума правдоподобия. 2
Считаем, что Eδi2 = σwi , где wi — известные числа, называющиеся весом наблюдения. √ √ √ yi = xi wi = ai wi +δi wi . Будем рассматривать модель, когда все веса wi одинаковы, т. е. w1 = w2 = . . . = wn . Пусть x - вектор наблюдения, такой, что x ∈ / L. Нужно оценить a = (a1 , . . . , am ) ∈ L, где L — известное подпространство. Пусть xi = ai + δi , δi ∼ N (0, δ). Плотность (xi −ai )2
распределения p(xi ) = σ√12π e− 2σ2 . Тогда, в силу независимости xi , функция правдоподобия p(x, a) будет иметь вид. p(x, a) =
n Y
p(xi ) =
i=1
1 √ σ 2π
n
−
e
P
(xi −ai )2 2σ 2
Это выражение будет достигать максимума при таком a, при котором (x − a, x − a) → min или b a = projectionL x = projL x. Но x = a + δ, и значит b a = a + projL δ. n Замечание: Если dim L1 = dim L2 , где Li ∈ R , тогда существует ортогональное преобразование L1 ↔ L2 Покажем, что распределение U δ совпадает с распределением δ, где U — ортогональное преобразование. pδ (x) =
n Y i=1
1 √ e− σ 2π
(xi )2 2σ 2
P
=
1 √ σ 2π
n
1
e− 2σ2 (x,x)
Тогда согласно формуле преобразования плотности распределения при замене переменных, плотность распределение U δ получится, если взять pδ (x) в точке x = U y −1 и разделить ее на модуль соответствующего якобиана, который в нашем случае будет равен 1, здесь мы воспользовались тем что (U y −1 , U y −1 ) = (y, y). Пусть dim L = k и k < n, т. е. L = L(e1 , . . . , ek ), тогда projL δ = (δ1 , . . . , δk , 0, . . . , 0), а projL⊥ δ = (0, . . . , 0, δk+1 , . . . , δn ). ЕслиPбы мы наблюдали δ1 , . . . , δn , то σ 2 = Eδi2 , и δi2 . Имеем x = a + δ, задан базис в L. Тогда мы бы получили оценку для σ 2 S 2 = n1 projL x = a + projL δ и projL⊥ x = x − projL x = δ − projL δ = progL⊥ δ. 4 = x−b a — вектор кажущихся ошибок. Тогда k4k2 = kxk2 − kak2 (по теореме Пифагора), причем 2 k4k2 = k projL⊥ δk2 = δk+1 + . . . + δn2 это означает, что n−k 1 X 2 1 2 2 k4k = σ ξ = σ 2 Eξi2 ≈ σ 2 S = n−k n − k i=1 i 2
Здесь мы воспользовались законом больших чисел, считая n − k большим. Пусть χ2f = ξ12 + . . . + ξf2 , где ξi ∼ N (0, 1), а f = n − k — число степеней свободы. D
n−k 1 X 2 ξ n − k i=1 i
! =
1 2 2(n − k) = 2 (n − k) n−k
При достаточно большом количестве степеней свободы S 2 довольно сильно варьиn−k P 2 1 руется n−k ξi ∼ 1 ± 2 · ( 12 ), при n = 10 и k = 2. i=1
25
P (xi − x)2 , tf = q 1ξ 2 . χ f f P Тогда projL x = a + projL δ и projL⊥ δ независимы. abi − ai = (projL δ)i = cij δj ∼ j ! rP N 0, σ c2ij , где коэффициенты cij — известны ввиду, того, что известно L. xi = a + δi , L = L(1, . . . , 1) и a = (1, . . . , 1). S 2 =
1 n−1
j
,s (abi − ai ) σ
q
1 n−k
n P
c2ij
j=1 n−k P
ξi2
σξ ξ = q =q 1 1 σ n−k χn−k χ n−k n−k
i=1
Полученное выражение называется распределением стьюдента. При этом
sabi −ai n P c2ij
∼
j=1
N (0, σ) = σξ, а ξ ∼ N (0, 1). При n−k = 10 распределение стьюдента довольно близко к нормальному. P {|H1 | 6 z0.05 } ≈ 0.05 qP (abi − ai )/ c2ij P 6 z0.05 = 0.95 S P {|ξ| 6 1.64} = 0.9, приz0 .05 = 1.64 P {|t10 | 6 1.81} = 0.9, приz0 .05 = 1.81 P {|t20 | 6 1.7} = 0.9, приz0 .05 = 1.7 Уровень значимости α = 0.05 1 2 P χ kb a − ak2 = (abi − ai )2 , Fm,n = m1 χm a = projL x = a − projL δ, а значит 2 . Помним b n n b a − a = projL δ и тогда 4 = x − b a = projL⊥ δ. 1 kb a − ak2 dim L 1 k4k2 n−dim L
=
1 2 2 σ χk n 1 σ 2 χ2n−k n−k
= Fn,n−k
Это называется распределением Фишера. P {Fk,n−k 6 zα } = 1 − α, где α = 0.05. ( ) 1 2 kb a − ak dim L 2 2 dim L 1 − α = P zα > = P kb a − ak 6 zα k4k . 1 2 n − dimL k4k n−dim L Определение: Пусть χ2n и χ2m — две независимые случайные величины, имеющие каждая распределение χ2 с n и m степенями свободы. Распределением Фишера с 1 2 χ (m, n) степенями свободы называется распределение частного Fm,n = m1 χm 2 . n
n
Определение: Пусть ξ — случайная величина с распределением N (0, 1); χ2k — независимая от ξ случайная величина, имеющая распределение χ2k с k степенями свободы. Тогда распределением Стьюдента с k степенями свободы называется распределение tk = √ ξ1 2 . k
χk
26
18
Сглаживание наблюдений многочленом.
Пусть мы хотим сгладить наше наблюдения многочленом степени k. Таким образом имеем: xi = xi (ti ) = p(ti ) + δi = a0 + a1 ti + . . . + ak tki + δi где δi независимы и меют нормальное распределение N (0, σ). Ведем векторы x = (x1 , . . . , xn ), T 0 = (1, . . . , 1), T 1 = (t1 , . . . , tn ), . . ., T k = (tk1 , . . . , tkn ) и считая, что вектора T i , где i ∈ [0, k], сведем задачу к проектированию x на линейную оболочку L векторов T 0 , . . . , T k . Таким образом имеем: x1 1 t1 tk1 δ1 .. .. .. .. .. . = a0 . + a1 . + . . . + ak . + . xn
1
tkn
tn
δn
Или , если переписать это выражение: x = a0 T 0 + . . . + ak T k + δ xi = p(ti ) + δi = a0 + a1 t1 + . . . + ak tkk + δi , так как p(t) = a0 + a1 t1 + . . . + ak tkk . x b = a0 T 0 + . . . + ak T k + δ, где a0 T 0 + . . . + ak T k ∈ L. Если k1 < k2 , то k41 k2 < k42 k2 и, учитывая, что L1 = L(T 0 , . . . , T k1 ) и L2 = L(T 0 , . . . , T k2 ), тогда получим k41 k2 − k42 k2 = projL2 L1 δ, где через L2 L1 обозначено ортогональное дополнение к L1 в L2 . 1 k4k2 = S 2 ≈ σ 2 . Пусть dim Li = ki Тогда projL+ x = x − projL x = 4 и n−dim L и k1 < k2 , т. е. L1 ⊂ L2 , тогда k41 k2 > k42 k2 и k41 k2 − k42 k2 = k projL2 L1 k2 , напомним, что через L2 L1 обозначили ортогональное дополнение к L1 в L2 . Тогда отношение k41 k2 − k42 k2 / (k2 − k1 ) Fk2 −k1 ,n−k2 = k42 k2 / (n − k2 ) имеет распределение Фишера с указанным числом степеней свободы. Т. к. k41 k2 − k42 k2 ∼ σ 2 χ2k2 −k1 . Пример: Рассмотрим задачу сглаживания наблюдений x1 , . . . , xn прямой, т. е. модель xi = a + bti + δi . Тогда P xi (ti − t) (x, T 0 ) 0 (x, T ) 0 T = xT 0 + bbT projL x = 0 0 T + T = xT + P (T , T ) (T, T ) (ti − t)2 P
P
i −t) c = x. где T 0 = (1, . . . , 1), T = (t1 − t, . . . , tn − t), t = nti и bb = Px(tii(t−t) 2 . Обозначим b Тогда σ (δ, T 0 ) b c − c = 0 0 = δ ∼ N 0, √ (T , T ) n ! P (δ, T ) t) σ δ (t − i i bb − b = = P ∼ N 0, pP (T, T ) (ti − t)2 (ti − t)2 )
42 =
n X
2 xi − x − bb(ti − t) ∼ σ 2 χ2n−2
i=1
Поэтому статистика tn−2
pP (bb − b) (ti − t)2 p = 42 /(n − 2) 27
имеет распределение Стьюдента с n − 2 степенями свободы. Выборочным коэффициентом корреляции называется отношение: r=
stx st sx
где 1 X (xi − x)2 n−1 1 X s2t = (ti − t)2 n−1 1 X (xi − x)(ti − t) stx = n−1 s2x =
Тогда получаем, что X
(xi − x)2 (1 − r2 ) = (n − 1)s2x (1 − r2 )
tn−2
r sx = qst
42 =
√ 2 n−2 = √ n−1 2 2) 1 − r2 s (1 − r n−2 x p (n − 1)s2t
Таким образом мы нашли преобразование приводящее случайную величины r к случайной величине tn−2 с известным распределением.
19
Корреляционная теория случайных величин.
ξ = (ξ1 , . . . , ξn ), pξ = pξ1 ,...,ξn (x1 , . . . , xn ), Eξ = (Eξ1 , . . . , Eξn ). ξ1 .. Cξ = k cov(ξi , ξi )k = E . (ξ1 , . . . , ξn ) = Eξξ T ξn Пусть η = Aξ, тогда Eηη T = EAξ(Aξ)T = AEξξ T AT = ACξ AT P Посмотрим чему равна дисперсия (x, ξ) = xi ξi , для любого неслучайного x = i
(x1 , . . . , xn ) ∈ Rn D(x, ξ) = D
n X
! xi ξi
=
X
xi xj cov(ξi , ξj ) = (Cξ x, x) > 0
i=1
Для некоторого x0 6= 0 из Rn имеем, что D(x0 , ξ) = 0, т. е. с вероятностью 1 случайная величина (x0 , ξ) принимает постоянное значение a. N P xij xik ,где у xij первый индекс отвечает за номер Отметим, что cov(ξj , ξk ) ≈ N1−1 i=1
наблюдения, а второй — номер параметра.
28
20
Регрессионный анализ.
Речь идет о возможно точном определении значения случайной величины η по наблюдаемым значениям случайных величин ξ1 , . . . , ξn . Предположим, что Eη = 0 и Eξ1 = . . . = Eξn = 0. Различия между η и ξ1 , . . . , ξn обычно измеряются в смысле L2 , где скалярное произведение задается формулой (ξ, η) = Eξη, ξ = ξ(ω) и η = η(ω). Наша n n P P цель найти такие c1 , . . . , cn , что ci ξi ≈ η. Т.е. E(η − ci ξi )ξj = 0, где j = 1, n, i=1
i=1
откуда ввиду условия Eη = Eξ1 = . . . = Eξn = 0 получаем n X
ci cov(ξi , ξj ) = Eηξj
(13)
i=1
Нужно минимизировать E(η −
n P
ci ξi )2 . Заметим, что η = projL η + projL⊥ η, тогда
i=1
Dη = Eη 2 = D projL η + D projL⊥ η. Соотношение η=
n X
ci ξi + δ,
(14)
i=1
в котором ci находятся из уравнения (13), называется уравнением регресии случайной величины η на величины ξ1 , . . . , ξn . Коэффициент корреляции P E (η ci ξi ) r=p P DηD ( ci ξi ) называется множественным коэффициентом корреляции между случайной величиной η и случайными величинами P ξ1 , . . . , ξn . Так как случайные величины ci ξi и δ в (14) ортогональны, имеем: E
η
n X
! ci ξi
=E
i=1
Dη = D
n X
n X
!2 ci ξi
=D
i=1
+ Dδ = E
! ci ξi
i=1
! ci ξi
n X
η
i=1
n X
!! ci ξi
+ Dδ
i=1
Из этих равенств и из определения множественного коэффициента корреляции получаем: ! n X D ci ξi = r2 Dη i=1
Dδ = (1 − r2 )Dη Эти равенства имеют следующий наглядный смысл. Мы собираемся "объяснить" n P ci ξi . Если множественный случайную величину η с помощью линейной комбинации i=1
коэффициент корреляции равен r, то общий разброс значений η, измеряемый дисn P персией Dη, объясняется с помощью ci ξi в доле r2 ; остается необъясненным разброс i=1
значений величины δ, измеряемый дисперсией Dδ = (1 − r2 )Dη. 29
n P
Например, при r = 0.7 имеем r2 ≈ 0.5, это означает, что
ci ξi и δ — одинаковые
i=1
по величине разброса случайные величины; иначе говоря, η представляется в виде n P суммы двух равноправных некоррелированных слагаемых ci ξi и δ: грубо говоря, i=1
мы объяснили значения случайной величины η примерно на половину. Поэтому хорошо бы было бы, если r2 > 12 , т. е. r > 0.7. И отсюда получим следующее выражение: Dη = r2 Dη + (1 − r2 )Dη
21
Многомерное нормальное распределение.
Нормальная плотность имеет вид: pξ (x) = pξ1 ,...,ξn (x1 , . . . , xn ) =
1 √ 2π
n Y n
−
e
x2 i 2
i=1
Определение: Говорят, что вектор η имеет многомерное норамальное распределение, если можно предстваить η = Aξ + b, где A — матрица, b - вектор, а ξ имеет стандартное нормальное распределение. Для произвольного нормального вектора η имеем Eη = b и Cη = ACξ AT = AAT . Пусть η = f (ξ), где f = (f1 , . . . , fn ), y = Ax + b, тогда x = A−1 (y − b). Тогда n (A−1 (y−b),A−1 (y−b)) 1 1 1 −1 2 = √ e− pη (y) = pξ A (y − b) = | det A| | det A| 2π n (C −1 (y−b),y−b) 1 1 2 p = √ e− det Cη 2π Следовательно, pη (y) выражается через вектор средних b и матрицу ковариаций Cη , т. е. никаких понятий, кроме понятий корреляционной теории не нужно. Если нормальные величины некоррелируемы, то они независимы.
22
Лемма Неймана-Пирсона.
Рассмотрим две гипотезы: проверяемую H0 : θ = θ0 и конкурирующую H1 : θ = θ1 . С каждым S-критерием связаны ошибки двух родов. Ошибка первого рода — отвержение гипотезы H0 , когда она верна; а принимая гипотезу H0 , когда верна конкурирующая гипотеза HR1 , мы совершаем ошибку второго рода. Пусть i = 0, 1 и обозначим через Pi (B) = p(x, θi )dx, тогда вероятность ошибки первого рода SB
критерия равна: α = P0 (S), а вероятность ошибки второго рода равна: β = P1 (S), где S = X\S. Задача построения S-критерия для проверки простой гипотезы H0 при конкурирующей гипотезе H1 ставится следующим образом. Напомним, что вероятность ошибки первого рода α называется уровнем значимости S-критерия. ФункциейRмощности W = W (S, θ) S-критерия называется следующая функция от θ: W (S, θ) = p(x, θ)dx, S
т. е. вероятность отвергнуть гипотезу H0 , когда истинное значение параметра равно θ. 30
Из определение вероятностей ошибки первого и второго рода и из функции мощности видно, что α = W (S, θ0 ) и β = 1 − W (S, θ1 ). Итак сначала задается уровень значимости α и рассматривается множество Fα всех S-критериев с уровнем значимости α. Среди этих критериев выбирается S ∗ , для которого мощность при θ = θ1 принимает наибольшее значение, т. е. W (S ∗ , θ0 ) = α и W (S ∗ , θ1 ) = max W (S, θ1 ). Критерий S ∗ , удовлетворяющий этому условию, нзывается S∈Fα
оптимальным или наиболее мощным критерием. Однако такой критерий не всегда существует. Опишем S-критерий с помощью функции ϕ(x): ( 1, x ∈ S ϕ(x) = 0, x ∈ /S Критерии, описываемые этой функцией называются нерандомизированными. Введем понятие рандомизированного критерия. Пусть задана функция ϕ(x), такая, что 0 6 ϕ(x) 6 1 для всех x. Мы предполагаем, что с каждым значением выборки x свзывается некий случайный эксперимент (рандомизация) с двумя исходами 0 и 1. В зависимости от исхода этой рандомизации действует и наш рандомизированный критерий. Если выпала 1, то H0 отвергается, а если 0, то H0 принимается. Функция мощности этого критерия, который можно назвать ϕ–критерием имеет следующий R вид: W (ϕ, θ) = ϕ(x)p(x, θ)dx = Eθ ϕ(ξ), где Eθ — математическое ожидание по распределению p(x, θ), а ξ — случайная величина, плотность которой равна p(x, θ). Уровень значимости ϕ–критерия равна: α = W (ϕ, θ0 ) = Eθ0 ϕ(ξ), а вероятность ошибки второго рода равна: β = 1 − W (ϕ, θ1 ) = 1 − Eθ1 ϕ(ξ). Рассмотрим множество Fα всех ϕ–критериев с фиксированным уровнем значимости α. Будем называть ϕ∗ –критерий оптимальным, если W (ϕ∗ , θ0 ) = α, W (ϕ∗ , θ1 ) = max W (ϕ, θ1 ) ϕ∈Fα
(15)
Задача (15) всегда имеет решение. R R Обозначим p0 = p(x, θ0 ), p1 = p(x, θ1 ), E0 ϕ = ϕ(x)p0 (x)dx, E1 ϕ = ϕ(x)p1 (x)dx. Оптимальный критерий можно искать среди критериев, которые определяются кри(x) . терием правдоподобия pp01 (x) Теорема (Неймана–Пирсона): Для любого 0 < α < 1 существуют такие числа c > 0 и 0 6 ε 6 1, что ϕ∗ –критерий с функцией: 1, p1 (x) > cp0 (x) ∗ ϕ (x) = ε, p1 (x) = cp0 (x) (16) 0, p1 (x) < cp0 (x) определяет оптимальный критерий с уровнем значимости α, который удовлетворяет (15). Доказательство: Пусть 0 < α < 1, случаи α = 0 и α = 1 проверяются отдельно и мы не будем здесь этим заниматься. Рассмотрим функцию зависящую от c: g(c) = P {p1 (ξ) > cp0 (ξ)|H0 } в предположении, что верна гипотеза H0 . Функция p1 (ξ) 1 − g(c) = P 6 c|H0 p0 (ξ) 31
поэтому она непрерывна спраесть функция распределения случайной величины pp10 (ξ) (ξ) ва и g(∞) = 0, а g(0−) = 1. Определим cα из условия g(cα ) 6 α 6 g(cα − 0). Если g(cα ) < g(cα − 0). то выбираем εα =
α − g(cα ) g(cα − 0) − g(cα )
Если g(cα ) = g(cα − 0), полагаем εα = 0. В случае, когда g(cα ) ≡ α для целого отрезка c1 6 c 6 c2 , принимаем за cα любую точку этого отрезка. Полагая c и ε в (16) найденным cα и εα строим функцию ϕ∗ . Докажем, что полученный ϕ∗ –критерий имеет уровень значимости α и обладает свойством оптимальности (15). Z Z α − g(cα ) ∗ p0 (x)dx = E0 ϕ = p0 (x)dx + g(cα − 0) − g(cα ) p1 (x)=cα p0 (x)
p1 (x)>cα p0 (x)
= g(cα ) +
α − g(cα ) · (g(cα − 0) − g(cα )) = α g(cα − 0) − g(cα )
Пусть ϕ — любой другой критерий с E0 ϕ 6 α. Покажем, что E1 ϕ∗ > E1 ϕ. Рассмотрим интеграл: Z (ϕ∗ (x) − ϕ(x)) (p1 (x) − cα p0 (x)) dx Разобьем его на два слагаемых Z Z ∗ (ϕ (x) − ϕ(x)) (p1 (x) − cα p0 (x)) dx + ϕ∗ >ϕ
(ϕ∗ (x) − ϕ(x)) (p1 (x) − cα p0 (x)) dx
ϕ∗ <ϕ
В первом слагаемом интегрирование производится по точкам x, для которых ϕ (x) > ϕ(x) > 0, поэтому в этом интеграле p1 (x) > cα p0 (x), т. е. подинтегральная функция неотрицательна. Аналогично во втором интеграле ϕ∗ (x) < ϕ(x) 6 1 и поэтому p1 (x) 6 cα p0 (x), т. е. подинтегральная функция опять таки неотрицательна. Отсюда заключаем, что рассматриваемый нами интеграл неотрицателен, т. е. Z Z ∗ (ϕ (x) − ϕ(x)) p1 (x)dx > (ϕ∗ (x) − ϕ(x)) p0 (x)dx ∗
это означает, что E1 ϕ∗ − E1 ϕ > cα (α − E0 ϕ) > 0. Замечание: Если правильно понимать dx, то доказательство для дискретного случая не требует изменений. λx Пример: X = {x}, H0 — закон Пуассона с параметром λ0 . p0 (x) = x!0 e−λ0 . Пусть λx у нас есть λ1 = (1 − a1 )λ0 , где λ0 = 10. p1 (x) = x!1 e−λ1 . Тогда x p1 (x) λ1 = eλ0 −λ1 > c p0 (x) λ0 где ограничение снизу мы предположили. Поделим обе части этого неравенства на x λ1 λ0 −λ1 положительное e , тогда получим, что λ0 , которая будет больше некоторого 32
D. Т. к. λ1 < λ0 получаем, что критической областью. Пусть X = R1 , p0 (x) =
λ1 λ0
< 1, тогда x 6 G, которая будет являться 2
2
x √1 e− 2 2π
и p1 (x) =
(x−1) √1 e− 2 2π
. Тогда
p1 (x) p0 (x)
= Dex > c. x2
Пусть имеются два нормальных закона N (0, 1) и N (1, 2). Тогда p0 = c1 e− 2 и p1 = (x−1)2
c1 e− 2·4 . Тогда pp01 = Eeq , где через q обозначен многочлен второй степени. Если x очень большое положительное, то и как при x очень маленьком отрицательном, будем высказываться в пользу второго закона N (1, 2).
23
Теория оценок.
Имеется наблюдение x = (x1 , . . . , xn ) ∈ Rn и мы хотим узнать закон распределения. p(x, θ) = p(x1 , . . . , xn , θ), где θ — параметр. Оценка неизвестного параметра θb = ϕ(x), где ϕ(x1 , . . . , xn ) - функция наблюдения. (θb − θ) — ошибка наблюдения, которую мы хотим минимизировать, т. е. мы хотим, чтобы E(θb − θ) ≈ 0 и θb ≈ θ. E θb = θ — есть x2 R i несмещенная оценка. p(xi ) = √1 e− 2σ2 . Пусть E(θb−θ) ∼ c . Ef (ξ) = f (xi )p(xi , θ)dx, n
ξ 2π
где ξ = (ξ1 , . . . , ξn ). Все Eξ1 , p Eξ12 , . . . , Eξ1k (θb1 , . . . , θbn ). D(θb − θ) = Dθb и Dθb ∼ √1n .
X
есть функции от θ = (θ1 , . . . , θn ) и θb =
Сделаем еще эксперименты с такими же свойствами, тогда систематическая ошибка уменьшится. R R Пусть g(θ) = E θb = ϕ(x)p(x, θ)dx = ϕpdx и желательно, чтобы это X
{x:p(x,θ)>0}
равнялось θ. Здесь центральным предположением является, что область {x : p(x, θ) > R R 0} не зависит от θ. Тогда 1 = pdx = Rp(x1 , . . . , xn , θ)dx, и возьмем от этого dx. Также возьмем производную и равенства производную по θ. Получим 0 = ∂p ∂θ R ∂p 0 от g(θ): g (θ) = ϕ(x) ∂θ dx. Рассмотрим следующее выражение: 2 Z 0 2 ∂(ln p(ξ, θ)) pθ J(θ) = E = pdx ∂θ p Здесь J(θ) — называется информацией Фишера, это та информация, которая содержится в наблюдении относительно неизвестного параметра θ. Теорема (Неравенство Рао–Крамера): Имеет место неравенство: Dθb >
(g 0 (θ))2 . J(θ)
Доказательство: Z
Z ∂p ∂ ln p 0= dx = pdx ∂θ ∂θ Z ∂p 0 g (θ) = ϕ(x) pdx ∂θ домножим первое равенство на g(θ) и вычтем его из второго: Z ∂ ln p 0 g (θ) = (ϕ(x) − g(θ)) pdx ∂θ
33
возведем в квадрат и пользуясь неравенством Коши–Буняковского получим: 2 Z Z ∂ ln p 2 2 0 (g (θ)) 6 (ϕ(x) − g(θ)) pdx · pdx ∂θ отсюда учитываю, что второй интеграл в неравенстве есть информация Фишера и то, что ϕ(x) = θb и g(θ) = E θb получаем: 2 (g 0 (θ)) 6 Dθb · J(θ)
откуда и следует утверждение теоремы. Замечание: Неравенство Рао–Крамера остается справедливым, если под p(x, θ) понимать вероятности дискретного распределения, а под интегралами суммы. Замечание: Если x1 , . . . , xn — независимы, то их совместная плотность: p(x1 , . . . , xn , θ) =
n Y
p(xi , θ)
i=1
В этом случае информация Фишера Jn (θ) = E
∂ ln pn (x, θ) ∂θ
n
зависит от n линейно, т. е. Jn (θ) = nJ1 (θ), где 2 Z ∂ ln p(x, θ) J1 (θ) = p(x, θ)dx ∂θ есть информация Фишера одного наблюдения xi . И неравенство Рао–Крамера запишется в следующем виде: (g 0 (θ)2 ) Dθb > . nJ1 (θ) При этом формула Jn (θ) = nJ1 (θ) следует из ! n n X X ∂ ln pn (xi , θ) ∂ ln pn (xi , θ) Jn (θ) = D = D ∂θ ∂θ i=1 i=1 Q Замечание: Пусть p(x, θ) = p(x1 , . . . , θ) = p(xi , θ). Тогда заметим, что: ∂ 2 ln p ∂ p0θ p00θθ p − (p0θ )2 = = ∂θ2 ∂θ p p2 Z 2 Z 0 2 Z ∂ ln p pθ 00 pdx = pθθ dx − pdx = −J(θ) 2 ∂θ p R Второе равенство выполняется ввиду того, что p00θθ dx = 0. R p(x,θ) p(x,θ) Замечание: Если p(x, θ) ∂ ln ∂θ dx ≡ 0 верно, то E ∂ ln ∂θ = 0 и тогда информацию Фишера можно переписать в следующем виде ∂ ln p(x, θ) J(θ) = D . ∂θ 34
Смещение: E θb − θ = g(θ) − θ, хотим это смещение сделать маленьким, тогда 1 g 0 (θ) ≈ 1. Тогда Dθb > I(θ) является разумной оценкой. Определение: Назовем эффективностью оценки отношение: b = e(θ)
(g 0 (θ))2 . Dθb · J(θ)
b = 1 называется эффективной. Оценка θb с эффективностью e(θ)
35