Федеральное агентство по образованию Омский государственный университет им. Ф.М. Достоевского
УДК 51+007 ББК 22.1+32.81...
38 downloads
278 Views
1MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Федеральное агентство по образованию Омский государственный университет им. Ф.М. Достоевского
УДК 51+007 ББК 22.1+32.81 И855
Рекомендовано к изданию редакционно-издательским советом ОмГУ Рецензент – канд. физ.-мат. наук С.Е. Макаров
И855
Н.А. Исаченко
МАТЕМАТИКА И ИНФОРМАТИКА Учебное пособие (для студентов специальности «Документоведение и документационное обеспечение управления»)
Исаченко Н.А. Математика и информатика: Учебное пособие (для студентов специальности «Документоведение и документационное обеспечение управления»). – Омск: Изд-во ОмГУ, 2006. – 160 с. ISBN 5-7779-0665-6 В пособии изложен курс математики и информатики, читаемый автором студентам исторического факультета ОмГУ, обучающимся по специальности «Документоведение и документационное обеспечение управления». Включены основы теории множеств, логика высказываний, теория вероятностей, математическая статистика. Информатика представлена обсуждением вопросов, связанных с работой с текстовыми редакторами, электронными таблицами и базами данных. Освещены действия локальных сетей и Internet. УДК 51+007 ББК 22.1+32.81
Изд-во ОмГУ
Омск 2006
© Исаченко Н.А., 2006 © Омский госуниверситет, 2006
ISBN 5-7779-0665-6
2
ОГЛАВЛЕНИЕ ПРЕДИСЛОВИЕ........................................................................................... 5 МАТЕМАТИКА............................................................................................ 7 1. Основания математики ........................................................................... 7 1.1. Элементы теории множеств ............................................................... 7 1.2. Операции с множествами................................................................... 8 1.3. Элементы математической логики .................................................. 10 2. Теория вероятностей.............................................................................. 16 2.1. Случайные события ............................................................................ 16 2.1.1. Пространство элементарных исходов .......................................... 16 2.1.2. Вероятность события ..................................................................... 18 2.1.3. Элементы комбинаторики............................................................. 21 2.1.4. Основные теоремы теории вероятностей .................................... 25 2.1.5. Формула полной вероятности и формулы Байеса....................... 28 2.1.6. Последовательности независимых испытаний............................ 32 2.2. Случайные величины......................................................................... 38 2.2.1. Дискретные случайные величины ................................................ 38 2.2.2. Функция распределения ................................................................ 41 2.2.3. Независимость случайных величин и математические операции над случайными величинами...................................................... 43 2.2.4. Математическое ожидание дискретной случайной величины ..... 44 2.2.5. Свойства математического ожидания случайной дискретной величины ....................................................................................................... 45 2.2.6. Ожидаемое среднее значение функции случайной величины ..... 48 2.2.7. Дисперсия дискретной случайной величины .............................. 50 2.2.8. Дисперсия линейной функции случайной величины ................... 52 2.2.9. Законы распределения дискретных случайных величин ............. 53 2.2.10. Закон больших чисел ................................................................... 66 3. Математическая статистика ................................................................ 75 3.1. Основные понятия математической статистики ............................ 75 3.2. Числовые характеристики статистического распределения ......... 79 3.3. Основные свойства статистических характеристик параметров распределения............................................................................................... 81 3.4. Способы построения оценок............................................................ 83 3.5. Интервальное оценивание неизвестных параметров ..................... 86 3.6. Статистическая проверка статистических гипотез ........................ 92 3.7. Критерии проверки гипотезы о виде закона распределения случайной величины .................................................................................... 98 3
ИНФОРМАТИКА .....................................................................................102 1. Основные компьютерные технологии ..............................................103 1.1. Работа с текстом...............................................................................103 1.2. Работа с электронными таблицами ................................................107 1.3. Работа с базами данных...................................................................111 1.4. Работа с графическими объектами.................................................119 2. Системные программы ........................................................................120 2.1. Программы-архиваторы ..................................................................120 2.2. Программы обслуживания магнитных дисков..............................123 2.3. Компьютерные вирусы и антивирусные программные средства ........................................................................................................127 3. Сетевые компьютерные технологии .................................................135 3.1. Эволюция и типы сетей ЭВМ .........................................................135 3.2. Классификация вычислительных сетей .........................................137 3.3. Компоненты локальной вычислительной сети..............................142 3.4. Характеристики вычислительной сети ..........................................144 3.5. Основные топологии ЛВС ..............................................................146 3.6. Способы объединения ЛВС ............................................................149 3.7. Глобальная сеть Internet ..................................................................152 Список рекомендуемой литературы......................................................158
4
ПРЕДИСЛОВИЕ С введением в конце прошлого – начале нынешнего веков предмета «Математика и информатика» на гуманитарных факультетах высших учебных заведений встала проблема учебников и учебных пособий, предназначенных студентам соответствующих специальностей. Эта проблема включает в себя: • выбор из всего многообразия высшей математики того материала, который, по мнению автора, может быть полезен гуманитариям и в то же время соответствует положениям Государственного образовательного стандарта. • выбор уровня строгости, который, очевидно, не может быть столь же высок, как на естественных и инженерных факультетах. По положению Государственного образовательного стандарта в излагаемый курс должны входить «аксиоматический метод, основные структуры, составные структуры, вероятности, языки и программирование, алгоритмы, компьютерный практикум». В связи с этим в настоящее пособие включены элементы теории множеств, логика высказываний, теория вероятностей и математическая статистика, информатика. Книга состоит из двух самостоятельных разделов: математика и информатика. Каждый раздел разбит на подразделы. Большую часть первой половины курса занимают теория вероятностей и математическая статистика, поскольку, по мнению автора, нет более прикладной ветви математики, чем теория вероятностей. Основы теории множеств и математической логики призваны улучшить понимание именно этой части читаемого курса. Автор осознанно отказался от таких фундаментальных разделов математики, как математический анализ, линейная алгебра и геометрия. Как показывает опыт, изложение даже только основ этих разделов требует достаточно большого времени. Выделенных же часов едва-едва хватит на то, чтобы поверхностно прочитать курс дифференциального и интегрального исчисления. К тому же выпускники средней школы имеют представление о производной и об интеграле. Учитывая вышесказанное, автор ограничивается дискретными случайными величинами. Тогда же, когда возникает необ5
ходимость рассматривать непрерывные случайные величины, он апеллирует к школьному курсу математики. Основной текст снабжен большим количеством примеров, а большая часть тем заканчивается подборкой задач. В первой части второго раздела изучаются принципы работы текстовых редакторов, электронных таблиц и баз данных на примере стандартных пакетов Microsoft Office. Вторая часть этого раздела касается программ архивации, программ обслуживания магнитных дисков, а также компьютерных вирусов и способов борьбы с ними. Наконец, в последней части обсуждаются вопросы, связанные с сетевыми компьютерными технологиями.
6
МАТЕМАТИКА 1. ОСНОВАНИЯ МАТЕМАТИКИ 1.1. Элементы теории множеств В основе всей современной математики лежит понятие множества. Множеством называют произвольный набор различимых между собой элементов (множество столов в этой аудитории, множество студентов, учащихся на таком-то курсе такого-то университета). Сформулируем основные аксиомы так называемой наивной теории множеств. 1. Всякое множество полностью определяется набором входящих в него элементов, то есть два множества считаются равными, если они состоят из одних и тех же элементов. 2. Если A – некоторое множество, и P – некоторое свойство, то из A можно выделить множество тех элементов, которые обладают свойством P . В наивной теории множеств существуют парадоксы (утверждения, про которые нельзя сказать, истинны они или нет). Повидимому, первым, кто это заметил, был Бертран Рассел – один из сильнейших математиков XIX–XX веков. Множества сами бывают элементами других множеств. К примеру, взвод – это множество, состоящее из определенного числа солдат, рота – это множество, состоящее из нескольких взводов. Таким образом: рота – это множество, элементами которого являются множества (взводы). Большинство множеств не являются элементами самих себя. Например, множество котов не является своим элементом, поскольку оно не кот. В то же время существуют множества, которые принадлежат сами себе, в частности таковым является множество всех множеств. Рассмотрим множество всех множеств, не являющихся своими элементами, обозначим его X . Попробуем ответить на вопрос: «Является ли X элементом самого себя?». Допустим, что ответ: «ДА». Но ведь в множество X входят лишь те множества, которые не являются своими элементами. Противоречие. Следовательно, ответ: «НЕТ». Но в этом случае X должно являться элементом самого себя. Опять противоречие! 7
Обычно множества мы будем обозначать прописными латинскими буквами (A, B, C,…), а их элементы – строчными (a, b, c, …, x, y, z) . Математики постоянно пользуются специальными символами, сокращающими, а зачастую и упрощающими записи различных утверждений. Ниже мы приводим некоторые из таких символов. Множество, не содержащее ни одного элемента, называется пустым и обозначается ∅ . Запись x ∈ A используется для обозначения того, что x является элементом A , или что x принадлежит A . Выражение A ⊂ B читается: множество A является подмножеством множества B, это означает, что всякий элемент множества A является также и элементом множества B. Например, если A – это множество китов, а B – множество млекопитающих, то A ⊂ B , в самом деле: всякий кит – млекопитающее. Символы ∀ и ∃ читаются, соответственно, как для любого (для всякого) и существует (найдется). Стрелка ⇒ заменяет слово «следует» или, что то же самое, «если … то …». Двойная стрелка ⇔ обозначает фразу «тогда и только тогда». В качестве примера запишем сформулированные ранее утверждения с помощью введенных нами символов: 1. A = B ⇔ (( x ∈ A ⇒ x ∈ B) и ( x ∈ B ⇒ x ∈ A)) . 2. ∀A и ∀P ∃B ⊂ A такое, что x ∈ B ⇔ P ( x) . 1.2. Операции с множествами Пусть A и B – множества. Объединением множеств A и B называют множество элементов, входящих хотя бы в одно из них, и обозначают A ∪ B . Таким образом: A ∪ B = {x | x ∈ A или x ∈ B} . Выражение {x | P} читается: «множество тех x, которые удовлетворяют условию P». Пересечением множеств A и B называют множество элементов, входящих сразу и в A, и в B. Итак: A ∩ B = {x | x ∈ A и x ∈ B} . 8
Разностью множеств A и B называется множество элементов, входящих в A и не входящих в B. Обозначение – A \ B . Таким образом: A \ B = {x | x ∈ A и x ∉ B} . Если B ⊂ A , то разность A \ B называют дополнением A до B . Множество элементов, не входящих в множество A , обозначают A . Таким образом: A = {x | x ∉ A} . Пример 1. Рассмотрим множество всех студентов. Пусть A – множество студентов, учащихся на юридических факультетах. B – множество студентов, изучающих английский язык. Тогда: 1) A ∪ B – это множество студентов, которые либо учатся на юридическом факультете, либо изучают английский язык (возможно то и другое вместе); 2) A ∩ B – множество студентов-юристов, изучающих английский язык; 3) A \ B – множество студентов-юристов, которые не изучают английский; 4) A – множество всех студентов-неюристов. Часто операции с множествами изображают в виде диаграмм.
Объединение
Пересечение
Дополнение
Разность
Симметрическая разность
Упражнение. Сформулируйте определение симметрической разности, исходя из ее диаграммы. 9
1.3. Элементы математической логики Согласно одному из самых распространенных определений, логика есть анализ методов рассуждений. Изучая эти методы, логик интересуется в первую очередь формой, а не содержанием доводов в том или ином рассуждении. Рассмотрим, например, два следующих вывода: 1. Все люди смертны. Сократ – человек. Следовательно, Сократ смертен. 2. Все кролики любят морковь. Чип – кролик. Следовательно, Чип любит морковь. Оба эти вывода имеют одну и ту же форму: Все A суть B ; C есть A ; следовательно, C есть B . Истинность или ложность отдельных посылок или заключений не интересует логика. Он желает лишь знать, вытекает ли истинность заключения из истинности посылок. Хотя логика и является основой всех остальных наук, тем не менее присущее ей, наряду с фундаментальностью, свойство самоочевидности действовало расхолаживающе на стремление к сколько-нибудь глубоким логическим исследованиям вплоть до девятнадцатого столетия, когда интерес к логике оживился под влиянием открытия неевклидовых геометрий (геометрии Лобачевского), а также необходимости строгого обоснования математического анализа. Но особый всплеск внимания к логике был на исходе девятнадцатого века, когда мир был поражен открытием парадоксов, то есть рассуждений, приводящих к противоречиям. Один из таких парадоксов мы рассмотрели в предыдущем параграфе. Приведем еще несколько. Эти парадоксы обычно называют семантическими. 1. Парадокс лжеца. Некто утверждает: «Я лгу». Если утверждение истинно, то это в точности означает, что он лжет, т. е. утверждение ложно. Но если утверждение ложно, то это означает, что он говорит правду, то есть его утверждение истинно. В любом случае оно истинно и ложно одновременно. С парадоксом лжеца имеет сходство так называемый парадокс критянина. Критский философ Эпименид сказал: «Все критяне – лжецы». Если это утверждение истинно, то, следовательно, поскольку сам он тоже критянин, сказанное им есть ложь. Это оз10
начает, что есть хотя бы один человек на Крите, который не лжет. Последнее не является логически невозможным, тем самым мы видим, что здесь нет настоящего парадокса. 2. В русском языке лишь конечное множество слов. Следовательно, лишь конечное множество фраз русского языка состоят менее чем из ста слов. А потому существует лишь конечное множество натуральных чисел (1, 2, 3, 4, …), которые можно описать фразами, содержащими менее ста слов. Пусть N есть наименьшее из тех натуральных чисел, которые невозможно описать фразой, содержащей менее ста слов. Набранная курсивом фраза полностью описывает число N и при этом содержит менее ста слов, что противоречит самому определению этого числа. 3. Прилагательное назовем автологическим, если оно обладает тем свойством, которое оно обозначает, в противном случае прилагательное будем называть гетерологическим. Например, прилагательные «многосложный», «русский» являются автологическими (первое само состоит из многих слогов, второе само является русским), и, наоборот, прилагательные «односложный», «французский», «голубой» – гетерологическими. Рассмотрим прилагательное «гетерологический». Если оно гетерологическое, то есть не обладает свойством гетерологичности, то оно негетерологическое. Но если оно негетерологическое, то оно гетерологическое. В любом случае это прилагательное является одновременно гетерологическим и негетерологическим. 4. Парадокс брадобрея. Командир полка назначает одного из солдат брадобреем, приказывая при этом брить тех и только тех солдат, которые не бреются сами. Что же делать брадобрею с самим собою? Если он будет брить себя, то он бреет того, кто бреется сам. Но если он не будет брить себя, то он должен себя побрить. В обоих случаях он должен брить и не брить себя одновременно. Основная цель математической логики – обеспечить символизм (систему формальных обозначений) для рассуждений, встречающихся не только в математике, но и в повседневной жизни. В этом пособии мы познакомимся с простейшей математической логикой – логикой высказываний или, как часто говорят, исчислением высказываний.
Определение. Высказыванием называется произвольное утвердительное предложение, которое либо истинно, либо ложно, но не то и другое вместе. «ИСТИНА» или «ЛОЖЬ», приписанная конкретному высказыванию, называется его истинностным значением. Примеры высказываний: «Снег белый» (но не «Белый снег»), «Идет дождь», «Иванов – доктор наук». Подобные простейшие высказывания называют атомарными формулами или атомами и обозначают прописными латинскими буквами. Для построения составных высказываний используются логические связки. Примерами составных высказываний могут служить: «Идет снег и светит солнце», «Тает снег, следовательно, бегут ручьи», «Если сыро и жарко, то душно». Мы будем использовать пять логических связок: ¬ (не), ∧ (и), ∨ (или), ⇒ (следует, если … то), ⇔ (тогда и только тогда). Эти связки можно использовать при построении все более сложных высказываний. К примеру, если A – «Лечение от рака найдено», B – «Определены причины рака», C – «Найдены новые лекарства», то утверждение: «Лечение от рака не будет найдено, пока не определены его причины и не найдены новые лекарства» – запишется формулой: (¬( B ∧ C )) ⇒ (¬A) . Определение. Формулы определяются следующим образом: 1. Атом есть формула. 2. Если A – формула, то ¬A – формула. 3. Если A и B – формулы, то ( A ∧ B ) , ( A ∨ B ) , ( A ⇒ B ) , ( A ⇔ B) – формулы. 4. Никаких формул, кроме порожденных применением указанных выше правил, не существует. Из определения следует, что такие выражения, как ( A ⇒) , ( B ∧) и им подобные, не являются формулами. Пусть A и B – формулы. В таблице 1 перечислены соотношения между истинностными значениями формул ¬A , ( A ∧ B) , ( A ∨ B) , ( A ⇒ B) , ( A ⇔ B) и формул A и B .
11
12
Таблица 1 (A ∧ B) A B ¬A ИСТИНА ИСТИНА ЛОЖЬ ИСТИНА ИСТИНА ЛОЖЬ ЛОЖЬ ЛОЖЬ ЛОЖЬ ИСТИНА ИСТИНА ЛОЖЬ ЛОЖЬ ЛОЖЬ ИСТИНА ЛОЖЬ
(A ∨ B)
(A ⇒ B) (A ⇔ B)
ИСТИНА ИСТИНА ИСТИНА ИСТИНА ЛОЖЬ ЛОЖЬ ИСТИНА ИСТИНА ЛОЖЬ ЛОЖЬ ИСТИНА ИСТИНА
Определение. Пусть G – формула. Таблицу, в которой указаны все истинностные значения формулы G при всевозможных истинностных значениях атомов, входящих в G , называют таблицей истинности формулы G . Определение. Пусть G – формула, A1 , A2 , …, An – входящие в нее атомы. Приписывание истинностных значений атомам A1 , A2 , …, An , при котором каждому из них приписано либо ИСТИНА, либо ЛОЖЬ (но не оба вместе), называется интерпретацией формулы G . Определение. Говорят, что формула истинна при данной интерпретации, если она принимает значение ИСТИНА в этой интерпретации, в противном случае говорят, что G ложна при этой интерпретации. Пример 2. Построим таблицу истинности для формулы (¬( B ∧ C )) ⇒ (¬A) (табл. 2). Таблица 2 1 2 3 4 5 6 7
A ИСТИНА ИСТИНА ИСТИНА ЛОЖЬ ИСТИНА ЛОЖЬ ЛОЖЬ
B ИСТИНА ИСТИНА ЛОЖЬ ИСТИНА ЛОЖЬ ИСТИНА ЛОЖЬ
C ИСТИНА ЛОЖЬ ИСТИНА ИСТИНА ЛОЖЬ ЛОЖЬ ИСТИНА
B∧C
¬A ЛОЖЬ ЛОЖЬ ЛОЖЬ ИСТИНА ЛОЖЬ ИСТИНА ИСТИНА
¬ ( B ∧ C ) (¬( B ИСТИНА ЛОЖЬ ЛОЖЬ ИСТИНА ЛОЖЬ ИСТИНА ИСТИНА ЛОЖЬ ЛОЖЬ ИСТИНА ЛОЖЬ ИСТИНА ЛОЖЬ ИСТИНА
∧ C )) ⇒ ( ¬ A ) ИСТИНА ЛОЖЬ ЛОЖЬ ИСТИНА ЛОЖЬ ИСТИНА ИСТИНА
на в каждой интерпретации, то говорят, что она противоречивая, или невыполнимая. Определение. Формула B является логическим следствием формул A1 , A2 , …, An , если формула A1 ∧ A2 ∧ K ∧ An ⇒ B общезначима. Определение. Формулы A и B называются эквивалентными, если A истинна тогда и только тогда, когда истинна B. Если A эквивалентна B , то будем писать A~B. Теорема. Пусть формула A является частью формулы G , и A~B. Тогда формула G ' , полученная из G заменой A на B , эквивалентна G . Пример 3 (важный). Покажем, что формулы ( P ⇒ Q ) и
( ¬P ∨ Q )
эквивалентны. Для этого составим таблицы истинности
обеих формул (табл. 3). Таблица 3 P
Q
(P ⇒ Q)
(¬ P ∨ Q )
ИСТИНА ИСТИНА ЛОЖЬ
ИСТИНА ЛОЖЬ ИСТИНА
ИСТИНА ЛОЖЬ ИСТИНА
ИСТИНА ЛОЖЬ ИСТИНА
Из таблицы видим, что ( P ⇒ Q ) истинна тогда и только тогда, когда истинна ( ¬P ∨ Q ) .
Из таблицы видим, что данная формула является истинной в 1, 4, 6, 7 и 8-й интерпретациях. Определение. Говорят, что формула общезначима, если она принимает значение ИСТИНА в любой интерпретации, то есть при любых значениях входящих в нее атомов. Если формула лож-
Пример 4. Рассмотрим два утверждения: а) F1 – Том не может быть хорошим студентом, если неверно, что он способный и его отец помогает ему. б) F2 – Том – хороший студент, только если отец помогает ему. Покажем, что второе утверждение есть логическое следствие первого. Для этого запишем оба утверждения в виде формул. Положим: A – Том – хороший студент;
13
14
B – Том способный; C – Отец помогает ему. Тогда
2. ТЕОРИЯ ВЕРОЯТНОСТЕЙ 2.1. СЛУЧАЙНЫЕ СОБЫТИЯ
F1 = ( ¬ ( B ∧ C ) ⇒ ¬A )
2.1.1. Пространство элементарных исходов
F2 = ( A ⇒ C ) .
Таким образом, наша задача, показать, что формула
( ¬ ( B ∧ C ) ⇒ ¬A ) ⇒ ( A ⇒ C )
общезначима. Для составления таблицы истинности последней формулы воспользуемся возможностями табличного процессора Excel. Учитывая специфику набора логических функций в Excel, преобразуем нашу формулу, исключив из нее все стрелки следствий. С этой целью воспользуемся предыдущим примером. Итак, наша формула примет вид:
(
)
¬ ¬ ( ¬ ( B ∧ C ) ) ∨ ( ¬A ) ∨ ( ¬A ∨ C ) .
Учитывая очевидную эквивалентность ¬ ( ¬A ) ~ А, получим
¬ ( ( B ∧ C ) ∨ ( ¬A ) ) ∨ ( ¬A ∨ C ) .
Таблица 4 A ИСТИНА ИСТИНА ИСТИНА ЛОЖЬ ИСТИНА ЛОЖЬ ЛОЖЬ ЛОЖЬ
B ИСТИНА ИСТИНА ЛОЖЬ ИСТИНА ЛОЖЬ ИСТИНА ЛОЖЬ ЛОЖЬ
C ИСТИНА ЛОЖЬ ИСТИНА ИСТИНА ЛОЖЬ ЛОЖЬ ИСТИНА ЛОЖЬ
¬ ( ( B ∧ C ) ∨ ( ¬A) ) ∨ ( ¬A ∨ C ) ИСТИНА ИСТИНА ИСТИНА ИСТИНА ИСТИНА ИСТИНА ИСТИНА ИСТИНА
Из полученной таблицы (табл. 4) видно, что формула истинна в любой интерпретации, следовательно, F2 является логическим следствием F1 . 15
В предыдущей главе мы уже говорили о том, что математическая теория (как, впрочем, и любая другая) строится по схеме: – неопределяемые понятия, – правила действия с этими понятиями (аксиомы), – утверждения (теоремы). Материалом для установления начальных понятий теории вероятностей являются случайные исходы – результаты некоторого опыта, испытания. Выполняется ли испытание фактически или же мы лишь воображаем его повторяющееся любое число раз при неизменных условиях – безразлично для построения теории. Теория вероятностей создает и анализирует теоретическую модель опыта. Такая модель не обязана учитывать все физически возможные результаты рассматриваемого испытания, а только заранее обусловленные – существенные для теории и ее приложений. Например, когда мы говорим, что опыт состоит в подбрасывании монеты, то единственными возможными исходами считаем появление орла или решки, хотя может оказаться и так, что монета встанет на ребро или же закатится под стол. Все обусловленные, взаимоисключающие результаты опыта будем называть элементарными исходами, а множество всех элементарных исходов – пространством элементарных исходов (ПЭИ). Пример 1. Опыт – один раз подбрасывается монета. В этом случае ПЭИ состоит из двух исходов – Орел, Решка. Пример 2. Бросаем игральную кость. ПЭИ = {1,2,3,4,5,6}. Пример 3. Монета подбрасывается трижды. ПЭИ = {OOO, OOP, OPO, POO, OPP, POP, PPO, PPP}. Определение. Событием называется произвольное подмножество ПЭИ. В дальнейшем пространство элементарных исходов будем обозначать буквой Ω , события большими латинскими буквами, а элементарные исходы – ω . 16
Пример 4. Монета подбрасывается два раза. Элементарные исходы: ω1 = ОО , ω2 = ОР , ω3 = РО , ω4 = РР . ПЭИ = {ω1 , ω2 , ω3 , ω4 } .
Пусть А обозначает событие, состоящее в том, что выпал ровно один орел, тогда A = {ω2 , ω3 } . Определение. Если событие совпадает со всем ПЭИ, то оно называется достоверным. Если событие не содержит ни одного элементарного исхода, то оно называется невозможным. В примере 4 достоверное событие может быть описано фразой: «Решка выпала не более двух раз». И, наоборот, невозможное событие: «Решка выпала более двух раз». Элементарные исходы, входящие в событие А, называются благоприятными для А, или, другими словами, говорят, что исход ω является благоприятным для события А, если при появлении ω событие А наступает. Пример 5. Бросаем две игральные кости. Событие А – сумма выпавших чисел делится на 4. В качестве пространства элементарных исходов данного опыта естественно взять множество пар чисел:
⎧(1,1);(1, 2);(1,3);(1, 4);(1,5);(1, 6); ⎫ ⎪(2,1);(2, 2);(2,3);(2, 4);(2,5);(2, 6);⎪ ⎪ ⎪ ⎪(3,1);(3, 2);(3,3);(3, 4);(3,5);(3, 6); ⎪ ⎨ ⎬ ⎪(4,1);(4, 2);(4,3);(4, 4);(4,5);(4, 6);⎪ ⎪(5,1);(5, 2);(5,3);(5, 4);(5,5);(5, 6); ⎪ ⎪ ⎪ ⎩(6,1);(6, 2);(6,3);(6, 4);(6,5);(6, 6). ⎭ Благоприятными для события А являются
{(1,3);(2, 2);(2, 6);(3,1);(3,5); (4, 4);(5,3);(6, 2)} .
Определение. Пусть А – событие. Событие, состоящее из элементарных исходов, не входящих в А, называется противоположным к А и обозначается A .
17
2.1.2. Вероятность события В предыдущем параграфе мы сделали первый шаг в построении математической модели реального опыта, а именно ввели понятие пространства элементарных исходов. ПЭИ должно быть таким, чтобы любое событие, связанное с этим опытом, либо было элементарным, либо как-то составлялось из элементарных (было бы их набором). Следующим шагом в нашем построении является приписывание каждому событию определенного числа – меры возможности его появления в данном опыте, называемого вероятностью события. Вероятность события – это безразмерная величина, характеризующая степень близости события к достоверному. Пусть Ω = {ω1 , ω2 ,L , ωn } – ПЭИ модели, описывающей некоторый опыт. Вероятность события введем, постулируя следующие три правила. 1. Вероятность достоверного события равна 1. Вероятность невозможного события равна 0. 2. Каждому элементарному исходу ωi , i = 1, 2, K, n , приписано неотрицательное число p (ω i ) так, что
p (ω1 ) + p (ω 2 ) + L + p (ω n ) = 1 . 3. Вероятность события есть сумма вероятностей входящих в него элементарных исходов. Вероятность события А будем обозначать p ( A ) . Из принятых постулатов сразу же получаем: а) для любого события А верно неравенство 0 ≤ p ( A) ≤ 1 ; б) для взаимно противоположных событий A и A имеет место равенство
( )
p A = 1 − p ( A) .
18
Пример 6. Снова рассмотрим опыт с подбрасыванием двух монет. Будем считать, что монеты разные. ПЭИ есть Ω = {ω1 = ОО, ω 2 = ОР, ω3 = РО, ω 4 = РР} . Поскольку нет причин полагать, что какой-то из исходов будет появляться чаще, то естественно считать исходы равновероятными. Таким образом,
p (ω i ) =
1 , i = 1,K , 4 . 4
Теперь предположим, что монеты абсолютно одинаковые. В этом случае вполне естественно в качестве ПЭИ взять следующее Ω = {ω1 = ОО, ω 2 = ОР, ω3 = РР} . Как и ранее можно было бы положить
p (ω i ) =
1 i = 1, 2,3 . 3,
исходы равновероятны, то p ( A ) =
Но всякий, кто играл в «орлянку», скажет, что это «нечестно» – событие ω 2 наступает чаще чем ω1 или ω3 . Опытный игрок положил бы
p (ω1 ) = p (ω3 ) =
1 1 , p (ω 2 ) = . 4 2
Пусть Ω состоит из n элементарных исходов, которые по тем или иным причинам предполагаются равновозможными. Тогда вероятность каждого элементарного исхода равна
1 . Если n
событие А состоит из k элементарных исходов, то
p ( A) =
равновозможных пар чисел. Сумма делится на 4 у девяти пар, сле9 1 довательно, вероятность этого события равна = . 36 4 Подводя некоторые итоги, можно предложить следующую схему вычисления вероятности какого-либо обусловленного задачей события. 1. Исходя из условия задачи, построить ПЭИ, полностью определяющее задуманное событие. 2. На основе правдоподобных рассуждений приписать вероятность каждому элементарному исходу. 3. Установить, какие элементарные исходы образуют событие A. 4. Вычислить вероятность события A, сложив вероятности элементарных исходов, благоприятных для A. Если элементарные
k . n
k , где k – число благоприятn
ных для A исходов, n – общее число исходов. Пример 8. При совместных поездках на своем автомобиле брат и сестра бросали монету, чтобы решить, кому быть водителем. Однажды сестра предложила брату другие правила: «Ты будешь бросать одну монету, а я – две. Я выигрываю, если у меня выпадает орлов больше, чем у тебя». Стала ли сестра чаще сидеть за рулем? Р е ш е н и е . Рассмотрим все возможные случаи, полагая их равновозможными: У сестры
ОО
ОР
РО
РР
ОО
ОР
РО
РР
У брата
О
О
О
О
Р
Р
Р
Р
Таким образом, мы получаем так называемое классическое определение вероятности: вероятность события A есть отношение числа благоприятных исходов к общему числу элементарных исходов. Пример 7. Вычислим вероятность того, что при бросании двух игральных костей сумма выпавших очков делится на 4. В примере 5 мы построили ПЭИ данного опыта, оно состоит из 36
Только в четырех случаях из восьми у сестры орлов больше, чем у брата, следовательно, шансы выиграть остаются равными у сестры и у брата.
19
20
2.1.3. Элементы комбинаторики Решение задач по теории вероятностей часто требует умения вычислять количества различных комбинаций. В параграфе мы познакомимся с некоторыми из таких комбинаций. Перестановки. Пусть имеется упорядоченный набор из n элементов. Изменение порядка в этом наборе называют перестановкой. Количество различных перестановок обозначают Pn . Утверждение. Pn = 1⋅ 2 ⋅ 3 ⋅ K ⋅ n . Доказательство. Если имеется n элементов, то при изменении их порядка есть n возможностей поставить на первое место элемент. После того как выбран первый элемент, остается ( n − 1) возможностей выбрать второй. Итого: на каждый выбор первого есть ( n − 1) способ выбрать второй. Следовательно, имеем
n ( n − 1) возможностей выбрать первые два элемента. Аналогично: после того, как выбраны первые два, есть (n – 2) способов выбрать третий. Продолжая эти рассуждения до тех пор, пока не кончатся элементы, получим доказательство утверждения. Число, равное произведению первых n натуральных чисел называют n -факториал и обозначают n ! . Таким образом, Pn = n ! . Размещения. Пусть все также имеется n элементов. Из них нужно выбрать k элементов, причем расположить их в заданном порядке. В этом случае говорят, что нужно осуществить размещение из n элементов по k . Число таких различных размещений обозначают Ank .
n! Утверждение. Ank = . ( n − k )! Доказательство. Повторяя рассуждения из доказательства предыдущего утверждения, видим что Ank = n ⋅ ( n − 1) ⋅ ( n − 2 ) ⋅ K ⋅ ( n − k + 1) .
21
Умножив и разделив это выражение на
Ank =
( n − k )! ,
получим
n! . ( n − k )!
Сочетания. Если порядок выбранных k элементов не важен, то говорят, что осуществлено сочетание (комбинация) из n элементов по k . Число сочетаний обозначают Cnk . Утверждение. Cnk =
n! . k !( n − k ) !
Доказательство. Размещения отличаются от сочетаний только наличием порядка выбранных элементов. Таким образом, при подсчете количества сочетаний все размещения, отличающиеся только порядком, нужно считать как одно. Но, как уже доказано, Pk = k ! . Следовательно
Cnk =
Ank n! = k ! k !( n − k ) !
Пример 9. В отделении 10 солдат. Необходимо составить наряд из 4-х человек. Сколько существует способов составления такого наряда? Р е ш е н и е . Поскольку порядок, в котором мы выбираем участников наряда, не важен, то мы имеем дело с сочетаниями их 10 по 4. Итак,
C104 =
10! 10! 1⋅ 2 ⋅ 3 ⋅ 4 ⋅ 5 ⋅ 6 ⋅ 7 ⋅ 8 ⋅ 9 ⋅10 = = = 210 4! ⋅ (10 − 4 ) ! 4! ⋅ 6! 1⋅ 2 ⋅ 3 ⋅ 4 ⋅1⋅ 2 ⋅ 3 ⋅ 4 ⋅ 5 ⋅ 6
Пример 10. Сколько существует четырехзначных чисел, состоящих из различных цифр? Р е ш е н и е . Ноль не может быть первой цифрой, следовательно, есть 9 возможностей выбрать первую цифру. Далее может следовать любая упорядоченная тройка оставшихся цифр, а для этого есть A93 способов. Итого, получаем 9! 9 ⋅ A93 = 9 ⋅ = 9 ⋅ 7 ⋅ 8 ⋅ 9 = 4536 . 6! 22
Пример 11. На полке стоят 6 одинаковых банок: 3 с зеленой краской и 3 с красной. Наугад берут 3 банки. Какова вероятность того, что эти банки содержат краску одного цвета? Р е ш е н и е . Составим вероятностную модель данного опыта. Будем считать, что банки занумерованы числами 1, 2, 3, 4, 5, 6, при этом первые три содержат зеленую краску, а последние три – красную. Тогда естественно считать, что элементарным исходом нашего опыта является тройка выбранных чисел, причем порядок чисел не важен. Количество таких троек равно C63 = 20 , и все они равновозможны. Благоприятных исходов два, а именно (1, 2, 3) и 2 1 (4, 5, 6). Таким образом, искомая вероятность равна = . 20 10 Пример 12. На складе имеется 15 кинескопов, причем 10 из них изготовлены Омским заводом. Найти вероятность того, что среди пяти наудачу взятых кинескопов окажутся 3 кинескопа Омского завода. Р е ш е н и е . Аналогично предыдущему примеру, элементарным исходом следует считать пятерку выбранных кинескопов. Таким образом, общее число исходов равно C155 = 3003 . Посчитаем число благоприятных исходов. Таковыми являются те, в которых 3 кинескопа Омского завода и 2 не омского. Из 10-ти кинескопов Омского завода 3 можно выбрать C103 = 120 способами, и на каждую тройку омских кинескопов пару неомских можно выбрать C52 = 10 способами. Итого C103 ⋅ C52 = 1200 благоприятных 1200 исходов. Наконец, искомая вероятность равна ≈ 0,3996 . 3003 Упражнения 1. В стакане 10 карандашей, из них 6 простых и 4 цветных. Кроме того из этих десяти карандашей у двух сломан грифель. Какова вероятность того, что среди трех наудачу взятых карандашей будут 2 цветных, которыми можно писать. 2. Телефонный номер состоит из 6-ти цифр от 0 до 9. Найти вероятность того, что в случайно выбранном номере есть 3 одинаковые цифры. 23
3. Игровой автомат имеет три барабана с цифрами от 0 до 9. Игрок выигрывает, если на барабанах выпали цифры 1, 1, 9 (в любом порядке). Найти вероятность выигрыша. 4. Двое друзей учатся в группе из 10-ти студентов. Студентов по очереди вызывают к доске, причем известно, что успеют вызвать всех. Какова вероятность, что друзей вызовут последними? 5. Два студента выучили 20 одних и тех же билетов из 25. На экзамене они первыми берут билеты. Найти вероятность того, что они оба сдадут экзамен. 6. Имеется 30 вопросов, разбитых на 10 билетов по 3 вопроса в каждом. Студент знает 15 вопросов. Студент сдает экзамен, если он отвечает не менее чем на 2 вопроса. Какова вероятность успешной сдачи экзамена? 7. В ящике 10 бананов, из которых 4 незрелые. Какова вероятность того, что из 5 наудачу выбранных бананов 4 зрелых? 8. Имеются кубики с буквами И, И, Ч, К, Р, П. Из этих кубиков выбирают по одному и составляют в том порядке, в котором выбрали: – Какова вероятность того, что из выбранных 6-ти кубиков получилось слово КИРПИЧ? – Какова вероятность того, что из выбранных 3-х кубиков получилось слово ПИК? 9. Имеется коробка с 60-ю деталями. Известно, что среди них стандартных в 3 раза больше, чем нестандартных. Какова вероятность того, что из трех наудачу выбранных деталей окажется хотя бы одна стандартная? 10. Имеются кубики с буквами О, О, Р, К, Ш, А, М. Из этих кубиков выбирают по одному и составляют в том порядке, в котором выбрали: – Какова вероятность того, что из выбранных 7-ми кубиков получилось слово МОРОШКА? – Какова вероятность того, что из выбранных 5-ти кубиков получилось слово МОШКА? 11. Телефонный номер состоит из 6-ти цифр от 0 до 9. Человек забыл в нужном ему номере последние 2 цифры и пытается их угадать. Какова вероятность того, что он угадает их с трех попыток? 24
12. Имеются три двери с кодовыми замками. Кодовый замок имеет 10 кнопок с цифрами от 0 до 9. Код состоит из двух разных цифр, порядок которых не важен. Какова вероятность того, что случайно выбранные две цифры являются кодом хотя бы для одного из замков? 13. Телефонный номер состоит из 6-ти цифр от 0 до 9. Человек забыл в нужном ему номере последние 3 цифры и пытается их угадать. Известно, что две цифры из трех забытых совпадают. Какова вероятность того, что он угадает их с двух попыток? 14. На станке должны быть последовательно обработаны 5 деталей. Сколько вариантов должен проанализировать технолог для выбора наилучшей очередности их обработки? 15. Текст кодируется цифрами от 0 до 9. Сколько различных сообщений можно передать комбинацией из 7-ми цифр? 16. На участке работают 30 человек. Сколько существует различных способов сформировать из них бригаду в составе: а) мастера и рабочего; б) мастера и четырех рабочих? 17. В урне 3 белых и 4 черных шара. Наудачу вынимают два шара. Какое из событий более вероятно: A – шары одного цвета; В – шары разных цветов? 18. Десять студентов договорились ухать определенной электричкой, но не договорились, в каком вагоне. Какова вероятность того, что хотя бы двое из них попадут в один вагон, если в составе электрички 10 вагонов? Предполагается, что каждый студент выбирает вагон наугад. (У к а з а н и е . Вычислите вероятность того, что все студенты попадут в разные вагоны). 2.1.4. Основные теоремы теории вероятностей
Определение. Два события называются несовместными, если они (как подмножества пространства элементарных исходов) не имеют общих элементарных исходов. Попросту говоря, два события несовместны, если они не могут происходить одновременно. Определение. Произведением событий А и В называется их пересечение как подмножеств пространства элементарных исходов. Проще говоря, произведение событий А и В – это событие, состоящее в том, что произошли два события сразу: и А, и В. Сумма и произведение событий обозначаются обычным способом: А+В и АВ. Теорема сложения. 1. Вероятность суммы двух несовместных событий равна сумме вероятностей слагаемых. Коротко
p( A + B) = p( A) + p(B).
2. Вероятность суммы двух совместных событий равна сумме вероятностей слагаемых без вероятности их произведения.
p ( A + B) = p( A) + p( B) - p( AB).
Доказательство.
{
}
{
}
1. Пусть A = ω1' , ω2' , K , ωl' , B = ω1'' , ω2'' , K , ωm'' , причем ωi' ≠ ω ''j при всех i = 1, 2, K , l ,
j = 1, 2, K, m . Тогда
A + B = {ω1' , ω2' , K, ωl' , ω1'' , ω2'' , K, ωm'' } . Следовательно, по оп-
ределению вероятности p ( A + B ) = p (ω1' ) + K + p (ωl' ) + p (ω1'' ) + K + p (ω m'' ) = p ( A) + p ( B ) . 2. Допустим, что
A и B совместны, и, к примеру,
AB = {ω = ω , ω = ω } . Тогда ' 1
'' 1
' 2
'' 2
A + B = {ω1' , ω2' , K, ωl' , ω3'' , ω4'' , K, ωm'' } .
В этом параграфе мы введем понятия суммы и произведения событий, а также рассмотрим утверждения, показывающие, как связаны вероятность суммы событий с вероятностями слагаемых и вероятность произведения с вероятностями сомножителей. Определение. Суммой событий А и В называется их объединение как подмножеств пространства элементарных исходов. Проще говоря, сумма событий А и В – это событие, состоящее в том, что произошло хотя бы одно из двух: А или В, возможно два сразу. Аналогично определяется сумма большего числа событий.
Два события называют независимыми, если появление одного не влияет на вероятность появления второго.
25
26
Следовательно, p ( A + B ) = p (ω1' ) + K + p (ωl' ) + p (ω3'' ) + K + p (ωm'' ) =
= p (ω1' ) + K + p (ω1' ) + K + p (ωl' ) + p (ω1'' ) + p (ω2'' ) + p (ω3'' ) + K + p (ωm'' ) −
(
)
− p (ω1'' ) + p (ω2'' ) = p ( A ) + p ( B ) − p ( AB ) .
Условной вероятностью события А относительно события В называется вероятность события А, вычисленная в предположении, что событие В произошло. Условную вероятность события А относительно события В обозначают p ( A / B). Теорема умножения. Вероятность произведения двух событий равна произведению вероятности одного на условную вероятность второго относительно первого, то есть
p( AB) = p( A) · p( B / A). Если события А и В независимые, то p ( B / A) = p ( B) и, следовательно, в этом случае p ( AB) = p( A) · p( B).
Теоремы сложения и умножения можно сформулировать и для большего числа событий. В случае трех событий они выглядят так:
p ( A + B + C ) = p ( A) + p ( B ) + p (C ) - p ( AB ) - p ( AC ) - p ( BC ) + p ( ABC ); p( ABC ) = p( A) · p( B / A) · p(C / AB).
Как и в случае двух событий, теорема сложения особенно просто звучит, когда события несовместны: вероятность суммы несовместных событий равна сумме вероятностей слагаемых. Аналогично, теорема умножения для независимых событий: вероятность произведения независимых событий равна произведению вероятностей сомножителей. Напомним, что через Ā обозначается событие, противоположное к А, и
( )
p A = 1 − p ( A) .
будет хотя бы один «счастливый» есть A + B . В случае а) события А и В несовместны, следовательно,
p( A + B) = p( A) + p ( B) = 0, 05525 + 0, 05525 = 0,1105.
В случае же б) не исключено, что оба билета окажутся «счастливыми», то есть события совместны, а потому
p( A + B) = p( A) + p( B) - p ( AB) = 0, 05525 + 0, 05525 -
- 0, 05525·0, 05525 = 0,1075. Здесь мы учли, что события А и В независимы, и, следовательно
p( AB) = p( A) · p( B) = 0, 05525 · 0, 05525 = 0,00305.
Пример 14. Сколько раз надо бросить игральную кость, чтобы вероятность того, что шестерка не выпала ни разу, была бы меньше 0,3? Р е ш е н и е . Невыпадение шестерки при k-том бросании обозначим Ak . Тогда для каждого k вероятность события Ak равна
5 / 6 . Допустим, что для выполнения условия задачи требуется n бросаний, то есть p ( A1 · A2 · K · An ) < 0,3. Учитывая независимость событий, получаем (5 / 6) n < 0,3 . Отсюда n > log 5 0,3 > 6. 6
2.1.5. Формула полной вероятности и формулы Байеса Допустим, событие A может произойти вместе с одним из несовместных событий H1 , H 2 , …, H n , образующих полную группу событий (то есть H1 + H 2 + …+ H n = Ω ).
Пример 13. Автобусный билет называют «счастливым», если сумма первых трех цифр равна сумме последних трех. Вероятность получить такой билет равна 0,05525. Найти вероятность того, что из двух взятых билетов будет хотя бы один «счастливый», если, а) они имеют последовательные номера; б) они куплены независимо друг от друга. Р е ш е н и е . Пусть A – первый билет «счастливый»; B – второй билет «счастливый». Тогда событие «из двух взятых билетов
= p( H1 )· p( A / H1 ) + p( H 2 )· p( A / H 2 ) + K + p( H n )· p( A / H n ).
27
28
A = AH1 + AH 2 + K + AH n , причем слагаемые этой суммы являются несовместными событиями. Следовательно, Тогда
p ( A) = p ( AH1 ) + p ( AH 2 ) + K + p ( AH n ) =
Таким образом, мы вывели формулу, которую называют формулой полной вероятности. p( A) = p( H1 )· p( A / H1 ) + p( H 2 )· p( A / H 2 ) + K + p ( H n )· p ( A / H n ).
События H1 , H 2 , …, H n обычно называют гипотезами. Пример 15. Из пункта A в пункт B ведут три дороги, причем первая имеет одну развилку, третья – две, вторая дорога развилок не имеет. Р е ш е н и е . Слепой старец идет из A и B. В пункте A, а также на каждой развилке старец выбирает дорогу наугад. Найти вероятность того, что он дойдет до пункта B.
Пусть D обозначает событие, что старец дошел до пункта B. Выдвинем следующие гипотезы: H1 – он выбрал первую дорогу,
H 2 – вторую, H 3 – третью. Поскольку дороги старец выбирает наугад, то вероятность каждой гипотезы равна 1/3. Вероятность того, что старец дойдет до пункта B, если он выбрал первую дорогу равна 1/2; при выборе второй – 1; если же он выбирает третью дорогу, то он доходит с вероятностью 1/4 (он должен дважды из двух дорог выбрать нужную). Следовательно, пользуясь формулой полной вероятности, получаем
1 1 1 1 1 7 P ( A) = ⋅ + ⋅ 1 + ⋅ = . 3 2 3 3 4 12 Вернемся к тому, с чего мы начали этот параграф, и рассмотрим такую задачу: известно, что событие A произошло, найти вероятность того, что при этом произошло событие H i . Решение этой задачи дают формулы Байеса:
P ( H i A) =
P( H i ) ⋅ P( A H i ) . P( A) 29
Нестрогое доказательство этих формул можно увидеть из картинки: искомая вероятность равна отношению площади сектора, по которому A пересекается с H i , к площади A. Пример 16. Снова рассмотрим задачу про старца. Допустим, мы знаем, что старец дошел до пункта B. Найдем вероятность того, что он шел по второй дороге. По формуле Байеса получаем P( H 2 ) ⋅ P ( A H 2 ) 1/ 3 4 = = . P( H 2 A) = 7 /12 7 P( A) Пример 17. Экономист полагает, что вероятность роста стоимости акций некоторой компании в следующем году равна 0,75, если экономика страны будет на подъёме; и эта же вероятность равна 0,30, если экономика страны не будет успешно развиваться. По его мнению, вероятность экономического подъёма в будущем году равна 0,80. Используя предположения экономиста, оцените вероятность того, что акции компании поднимутся в цене в следующем году? Р е ш е н и е . Событие А – «акции компании поднимутся в цене в будущем году». Составим рабочую таблицу (см. табл. 1). Таблица 1
Hi 1 2 ∑
P( A / H i ) P( H i ) ⋅ P( A / H i )
Гипотезы H i
P( H i )
H1 – «подъем экономики» H2 – *спад экономики»
0,80
0,75
0,60
0,20
0,30
0,06
1,00
–
P(А) = 0,66
Пример 18. В каждой из двух урн содержится 6 черных и 4 белых шара. Из урны 1 в урну 2 наудачу переложен один шар. Найти вероятность того, что шар, извлеченный из урны 2 после перекладывания, окажется черным? Р е ш е н и е . Событие А – «шар, извлеченный из урны 2 – черный». Составим рабочую таблицу (см. табл. 2).
30
Таблица 2
Hi
Гипотезы H i
1
H1 – «из урны 1 в урну 2 переложили черный шар» H2 – «из урны 1 в урну 2 переложили белый шар»
2 ∑
P( H i ) P( A / H i ) P( H i ) ⋅ P( A / H i ) 6/10
7/11
42/110
4/10
6/11
24/110
1,00
–
Р(А) = 0,60
Пример 19. Экономист полагает, что в течение периода активного экономического роста американский доллар будет расти в цене с вероятностью 0,7, в период умеренного экономического роста доллар подорожает с вероятностью 0,4, и при низких темпах экономического роста доллар подорожает с вероятностью 0,2. В течение любого периода времени вероятность активного экономического роста равна 0,3, в периоды умеренного экономического роста равна 0,5, низкого роста – 0,2. Предположим, что доллар дорожает в течение текущего периода. Чему равна вероятность того, что анализируемый период совпал с периодом активного экономического роста? Р е ш е н и е . Определим гипотезы: Н1 – «активный экономический рост»; H2 – «умеренный экономический рост»; H3 – «низкий экономический рост». Определим событие A – «доллар дорожает». Имеем: P ( H1 ) = 0,3 ; P ( H 2 ) = 0,5 ; P ( H 3 ) = 0, 2 ; P( A / H1 ) = 0, 7 ;
P ( A / H 2 ) = 0, 4 и P ( A / H 3 ) = 0, 2 . Найти P ( H1 / A ) .
Используя формулу Байеса и подставляя заданные значения вероятностей, имеем: P (H 1 ) ⋅ P ( A / H 1 ) = P (H 1 / A) = P (H 1 ) ⋅ P ( A / H 1 ) + P (H 2 ) ⋅ P ( A / H 2 ) + P (H 3 ) ⋅ P ( A / H 3 )
0,3 ⋅ 0,7 = 0,467. = 0,3 ⋅ 0,7 + 0,5 ⋅ 0,4 + 0,2 ⋅ 0,2 31
2.1.6. Последовательности независимых испытаний
Если производятся испытания, при которых вероятность появления события A в каждом испытании не зависит от исходов других испытаний, то такие испытания называют независимыми относительно события A. Задача. Проводится серия из n независимых испытаний, в каждом из которых событие A может наступить с вероятностью p . Найти вероятность Pn (k ) того, что событие A произойдет ровно k раз. Решим поставленную задачу для случая, когда n = 5 и k = 3 . Как обычно, через A обозначим событие, противоположное к A, тогда p ( A) = q = 1 − p . Событие, состоящее в том, что A произойдет ровно k раз, можно представить в виде AAAĀĀ+AAĀAĀ+AAĀĀA+AĀAĀA+AĀĀAA+ĀAĀAA+ĀĀAAA+ +ĀAAAĀ+ĀAAĀA+AĀAAĀ Здесь 10 слагаемых, это в точности число сочетаний из 5-ти по 3, причем слагаемые попарно несовместны. Вероятность каждого слагаемого равна p3q2, следовательно, P5 (3) = 10 p 3 q 2 . В общем случае решение задачи дает формула Бернулли:
Pn (k ) = Cnk ⋅ p k q n − k Пример 20. Два равносильных игрока играют в шахматы. Что вероятнее: выиграть две партии из четырех или три из шести (ничьи не считаются)? Р е ш е н и е . Поскольку игроки равносильны, то вероятность выигрыша p = 1/2 и вероятность проигрыша q также равна 1/2. Применяя формулу Бернулли, получим
4! ⎛1⎞ P4 (2) = C ⋅ p q = ⋅⎜ ⎟ 2!( 4 − 2 ) ! ⎝ 2 ⎠ 2 4
2
2
3
2
2
1 1 3 ⎛1⎞ ⋅⎜ ⎟ = 6⋅ ⋅ = . 4 4 8 ⎝ 2⎠ 3
6! 1 1 5 ⎛1⎞ ⎛1⎞ P6 (3) = C ⋅ p q = ⋅ ⎜ ⎟ ⋅ ⎜ ⎟ = 20 ⋅ ⋅ = . 3!( 6 − 3) ! ⎝ 2 ⎠ ⎝ 2 ⎠ 8 8 16 3 6
3 3
32
Пример 21. Найти вероятность того, что событие A наступит не менее трех раз в серии из четырех испытаний, если вероятность появления события A в каждом испытании равна 0,4. Р е ш е н и е . Ожидаемое событие произойдет, если событие A наступит либо три, либо четыре раза. Таким образом, искомая вероятность равна
P4 (3) + P4 (4) = C34 ( 0, 4 ) ( 0, 6 ) + C44 ( 0, 4 ) ( 0, 6 ) = 3
=
1
4
0
4! 4! 3 1 4 0 ⋅ ( 0, 4 ) ( 0, 6 ) + ⋅ ( 0, 4 ) ( 0, 6 ) = 0,1792. 3! ⋅1! 4! ⋅ 0!
Схема Бернулли – это последовательность n идентичных испытаний, удовлетворяющих следующим условиям: 1. Каждое испытание имеет два исхода: успех и неуспех – взаимно несовместные и противоположные события. 2 Вероятность успеха p остается постоянной от испытания к испытанию. Вероятность неуспеха q = 1- p . 3. Все n испытаний независимы. Вероятность наступления события в любом из испытаний не зависит от результатов других испытаний. Успех и неуспех – статистические термины. Например, когда имеют дело с производственным процессом, то исход испытания «деталь дефектная» определяют как успех. Успех относится к появлению определенного события – «деталь дефектная», а неуспех относится к непоявлению события. Пример 22. Для получения приза нужно собрать 5 изделий с особым знаком на этикетке. Найти вероятность того, что придется купить 10 изделий, если этикетки с этим знаком имеют 5% изделий. Р е ш е н и е . Из постановки задачи следует, что последнее купленное изделие имеет особый знак. Следовательно, из предыдущих девяти эти знаки имели 4 изделия. Найдем вероятность этого по формуле Бернулли:
p9 (4) = C ⋅ (0,05) ⋅ (0,95) = 0,0006092. 4 9
Тогда
4
5
Формула Бернулли требует громоздких расчетов при большом количестве испытаний. Можно получить более удобную для расчетов приближенную формулу, если при большом числе испытаний вероятность появления A в одном опыте мала, а произведение np = λ сохраняет постоянное значение для разных серий опытов (т. е. среднее число появлений события A в разных сериях испытаний остается неизменным). Применим формулу Бернулли:
pn (k ) =
n(n − 1)(n − 2)...(n − k + 1) k p (1 − p) n − k = k! k
n(n − 1) ...(n − k + 1) ⎛ λ ⎞ ⎛ λ ⎞ = ⎜ ⎟ ⎜1 − ⎟ k! ⎝n⎠ ⎝ n⎠
n−k
.
Найдем предел полученного выражения при n → ∞ :
pn (k ) ≈ =
λk
⎛ ⎛ 1 ⎞⎛ 2 ⎞ ⎛ k − 1 ⎞⎛ λ ⎞ n − k ⎞ lim ⎜ 1 ⋅ ⎜ 1 − ⎟⎜1 − ⎟ ... ⎜ 1 − ⎟⎜ 1 − ⎟ ⎟ = k ! n →∞ ⎜⎝ ⎝ n ⎠⎝ n ⎠ ⎝ n ⎠⎝ n ⎠ ⎟⎠
λk
n
−k
λ −λ ⎛ λ⎞ ⎛ λ⎞ lim ⎜1 − ⎟ ⎜ 1 − ⎟ = ⋅ e ⋅1. k ! n →∞ ⎝ n ⎠ ⎝ n ⎠ k! Таким образом, формула Пуассона k
p n (k ) =
λk e − λ k!
позволяет найти вероятность k появлений события А для массовых ( n велико) и редких ( p мало) событий. Пример 23. Радиоприбор состоит из 1000 электроэлементов. Вероятность отказа одного элемента в течение одного года работы равна 0,001 и не зависит от состояния других элементов. Найти вероятность того, что в течение года откажут ровно два элемента. Р е ш е н и е . Искомая вероятность равна 2 C1000 ( 0, 001) ⋅ ( 0,991) 2
1998
.
p = 0, 0006092 ⋅ 0, 05 = 0, 0000304 .
Поскольку число элементов велико, а вероятность «успеха» (отказа) мала, то искомую вероятность можно приближенно вычислить по формуле Пуассона:
33
34
p1000 ( 2 )
(1000 ⋅ 0, 001) = 2!
2
e −1
≈ 0,184.
Пример 24. Обувщики полагают, что около 30 % женщин носят обувь 37 размера. С какой вероятностью сотрудники магазина могут ожидать, что из 300 покупательниц 75 имеют намерение приобрести обувь именно этого размера? Р е ш е н и е . Вероятность того, что одной покупательнице нужна пара 37 размера, равна p = 0,3 . Вероятность противоположного события q = 0, 7 , число испытаний n = 300 и число успехов k = 75 . В данном случае, в отличие от предыдущего примера, не выполняются условия, при которых можно было бы воспользоваться формулой Пуассона. И тем не менее выход есть. Спасает так называемая Локальная теорема Муавра – Лапласа. Если вероятность успеха в каждом испытании постоянна и не равна ни нулю ни единице, то вероятность получить k успехов в n испытаниях приближенно равна значению функции 2
t − 1 1 k − np y= ⋅ ⋅ e 2 при t = . npq 2π npq
Упражнения. 1. Вероятность производственного брака из-за плохого качества материала 0,09; вероятность брака из-за нарушений технологии производства 0,06; вероятность брака вследствие обеих причин 0,05. Какова вероятность брака вследствие плохого качества материала или нарушений технологии? 2. Игровой автомат имеет три барабана с цифрами от 0 до 9. Игрок выигрывает, если на барабанах выпали цифры 1, 1, 9 (в любом порядке). Найти вероятность выигрыша. 3. В роще 10 деревьев, из них 4 березы и 2 осины. Вероятность того, что осина высокая, равна 1/2, вероятность того, что береза высокая, равна 1/4, для остальных деревьев 1/3. Найти вероятность того, что произвольно взятое дерево высокое. 4. Прибор состоит из деталей A, B и C. Вероятность отказа детали A – 1/4. Вероятность отказа детали B – 1/3. Деталь C лома35
ется с вероятностью 1/2, если отказала деталь B, и ломается с вероятностью 1/4, если деталь B работает. Прибор работает, если функционируют 2 детали из трех. Какова вероятность того, что прибор работает? 5. Два студента выучили 20 одних и тех же билетов из 25. На экзамене они первыми берут билеты. Найти вероятность того, что они оба сдадут экзамен. 6. Имеется 30 вопросов, разбитых на 10 билетов по 3 вопроса в каждом. Студент знает 15 вопросов. Студент сдает экзамен, если он отвечает не менее, чем на 2 вопроса. Какова вероятность успешной сдачи экзамена? 7. Три друга заблудились в лесу. Они нашли три тропинки и пошли каждый по своей. Вероятность выйти из леса по первой тропинке 1/2, по второй – 1/3, по третьей – 1/4. Кроме того, идущего по первой тропинке может съесть волк с вероятностью 1/6. Какова вероятность того, что хоть один выберется из леса? 8. Книга является полезной, если она художественная и интересная или научная. В шкафу есть 30 книг, из которых выбрали 3. Какова вероятность того, что хотя бы одна из них полезная? 9. В кошельке есть 1 банкнота достоинством 5000 руб., 3 по 1000 руб., 2 по 500 руб., 4 по 200 руб. и 2 по 100 руб. Какова вероятность того, что три случайно взятые банкноты в сумме составляют 1200 руб.? 10. В «Поле чудес» автомобиль можно выиграть двумя способами: получить в качестве приза и выиграть в суперигру. Вероятность выпадения сектора «приз» 1/20, а доля автомобилей во всех призах – 1/50. Вероятность дойти до суперигры и выиграть ее составляет 1/10, а вероятность получить в качестве выигрыша автомобиль – 1/6. Какова вероятность выиграть автомобиль на «Поле чудес»? 11. Телефонный номер состоит из 6-ти цифр от 0 до 9. Человек забыл в нужном ему номере последние 2 цифры и пытается их угадать. Какова вероятность того, что он угадает их с трех попыток? 12. Имеются три двери с кодовыми замками. Кодовый замок имеет 10 кнопок с цифрами от 0 до 9. Код состоит из двух разных цифр, порядок которых не важен. Какова вероятность того, что 36
случайно выбранные две цифры являются кодом хотя бы для одного из замков? 13. Банк разорится, если его ограбят или повысят налоги. Вероятность ограбления в течение года составляет 1/100. Вероятность того, что повысятся налоги – 1/4, если правительство останется прежним, и 1/3, если сменится. Вероятность смены правительства 1/5. Найти вероятность того, что банк не разорится. 14. Телефонный номер состоит из 6-ти цифр от 0 до 9. Человек забыл в нужном ему номере последние 3 цифры и пытается их угадать. Известно, что две цифры из трех забытых совпадают. Какова вероятность того, что он угадает их с двух попыток? 15. В коробке имеются 1 белый, 3 черных и 2 красных шара. Двое людей играют в игру по правилам: они по очереди вытаскивают шары, если игрок вытащил белый шар, то он выиграл, если красный, то объявляется ничья. Найти вероятность выигрыша первого игрока. 16. Двое людей играют в игру по следующим правилам: каждый игрок задумывает любое целое число. После этого игроки называют друг другу числа, и если они отличаются не более чем на 100, то выигрывает первый игрок, иначе – второй. 17. В результате наблюдений, продолжавшихся многие десятки лет, установлено, что на каждую тысячу новорожденных приходится в среднем 515 мальчиков и 485 девочек. В некоторой семье шестеро детей. Найти вероятность того, что среди них не больше двух девочек. 18. Вероятность поражения мишени стрелком при одном выстреле равна 0,75. Найти вероятность того, что при 100 выстрелах мишень будет поражена не менее 70 раз и не более 80 раз. 19. Из 300 жителей поселка каждый примерно пять раз в месяц ездит в город, выбирая день поездки случайным образом и независимо от остальных жителей. Для этих поездок администрация ежедневно выделяет автобус. Какое число мест необходимо в нем предусмотреть, чтобы переполнение возникало не чаще, чем один раз в 100 дней? 20. По данным телевизионного ателье, в течение гарантийного срока выходит из строя в среднем 12 % кинескопов. Какова вероятность того, что из 200 наугад выбранных кинескопов гарантийный срок проработают не менее 160 и не более 174?
В этом разделе теории вероятностей мы познакомимся с числовыми оценками, соответствующими исходам испытаний, например, таким, как подбрасывание кости. Отсюда исходы испытаний, определяемые случаем, – случайные величины (СВ). Определим случайную величину следующим образом. Случайная величина – это величина, которая в результате эксперимента (опыта, испытания) принимает одно из своих возможных значений, причем заранее неизвестно, какое именно. Примеры случайных величин: • число дефектных деталей в партии при контроле качества; • процент завершенного строительства жилого дома спустя 6 месяцев; • число клиентов операционного отдела банка в течение рабочего дня; • число продаж автомобилей в течение месяца. Случайные величины обозначаются заглавными латинскими буквами: X , Y , Z и тому подобными. Строчные буквы используются для обозначения определенных значений случайной величины. Например, случайная величина X принимает значения x1 , x2 , K , xn различают случайные величины дискретные и непрерывные. Дискретной случайной величиной называют случайную величину, которая принимает конечное или бесконечное (но счетное) число отдельных, изолированных возможных значений с определенными вероятностями. К примеру, число студентов на лекции – дискретная случайная величина. Совокупность значений может быть задана таблицей, функцией или графиком. Соотношение, устанавливающее связь между отдельными возможными значениями случайной величины и соответствующими им вероятностями, называется законом распределения дискретной случайной величины. Простейшей формой закона распределения для дискретных случайных величин является ряд распределений.
37
38
2.2. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ
2.2.1. Дискретные случайные величины
Рядом распределения дискретной случайной величины X называется таблица, в которой перечислены возможные (различные) значения этой случайной величины x1 , x2 , K , xn с соответствующими им вероятностями p1 , p2 , K , pn .
xi pi
x1 p1
x2 p2
K K
xn pn
Так как события ( X = x1 ) , ( X = x2 ) , …, ( X = xn ) составляют полную группу событий, то сумма вероятностей p1 , p2 , K , pn равна единице: n
∑ P = 1. i
Ряд распределения случайной дискретной величины должен удовлетворять следующим условиям: P ( x) ≥ 0 ; n
∑ P( x ) = 1 . i =1
i
(1)
Пример 1. Каждый день местная газета получает заказы на новые рекламные объявления (от одного до пяти), которые будут напечатаны на следующий день. Число рекламных объявлений в газете зависит от многих факторов: дня недели, сезона, общего состояния экономики, активности местного бизнеса и т. д. Пусть X – число новых рекламных объявлений, напечатанных в местной газете в определенный день. X – случайная величина, которая может быть только целым числом. В нашем примере случайная величина X принимает значения 0; 1; 2; 3; 4; 5 с вероятностями 0,1; 0,2; 0,3; 0,2; 0,1; 0,1 соответственно. 39
Ряд распределения случайной величины X
xi P( X = xi ) = pi
Таким образом, случайная величина X в результате испытания может принять одно из возможных значений x1 , x2 , K , xn с вероятностями P ( X = x1 ) = p1 , P ( X = x2 ) = p2 , …, P( X = xn ) = pn . Можно использовать более короткую запись: P( x) = P(3) = 0, 2 .
i =1
Таблица 1
0 0,1
1 0,2
2 0,3
3 0,2
4 0,1
5 0,1
Поскольку появления различных значений случайной величины X – несовместные события, то вероятность того, что в газету будут помещены или 2 или 3 рекламных объявления, равна сумме вероятностей P (2) + P (3) = 0,3 + 0, 2 = 0,5 . Вероятность же того, что их число будет находиться в пределах от 1 до 4 (включая 1 и 4), равна 0,8, т. е. P(1 ≤ X ≤ 4) = 0,8 , a P ( X = 0) = 0,1 . Пример 2. В книжном магазине организована лотерея. Разыгрываются две книги стоимостью по 10 руб. и одна – стоимостью в 30 руб. Составить закон распределения случайной величины X – суммы чистого (возможного) выигрыша для того, кто приобрел один билет за 1 руб., если всего продано 50 билетов. Р е ш е н и е . Случайная величина X может принимать три значения: (-1) руб. (если владелец билета не выиграет, а фактически проиграет 1 руб., уплаченный им за билет); 9 руб.; 29 руб. (фактический выигрыш уменьшается на стоимость билета – 1 руб.). Первому результату благоприятствуют 47 исходов из 50, второму – два, а третьему – один. Поэтому их вероятности таковы: 47 2 2 P ( X = −1) = = 0,94 ; P( X = 9) = = 0, 04 ; P ( X = 29) = = 0, 02 . 50 50 50 Закон распределения случайной величины X имеет вид: Сумма выигрыша X Вероятность P
-1 0,94
9 0,04
n
Контроль:
∑ P = 0,94 + 0, 04 + 0, 02 = 1 . i =1
i
40
29 0,02
2.2.2. Функция распределения
При анализе экономических явлений определенный смысл имеют кумулятивные (накопленные) вероятности случайных величин. Нас может интересовать вероятность того, что число проданных единиц некоторого товара окажется не меньше некоторого определенного числа, гарантирующего прибыль продавцу, вероятность того, что суммы возможных убытков от рискованных инвестиций окажутся не выше (или только меньше) некоторого определенного значения и т. д. Зная закон распределения дискретной случайной величины, можно составить функцию накопленных вероятностей. Определим интегральную (кумулятивную) функцию распределения. Функцией распределения дискретной случайной величины называется функция F(x), определяющая для каждого значения x вероятность того, что случайная величина X не превзойдет некоторого x , т. е. F ( x) = P( X ≤ x) = P ( X = xi ) = P( X = i) , (2)
∑
i xi ≤ x
∑
i xi ≤ x
где суммирование распространяется на все значения индекса i , для которых xi ≤ x . Функцию F ( x) называют также накопленным (кумулятивным) распределением вероятностей. Иногда вместо термина «функция распределения» используют термин «интегральная функция распределения». Пример 3. Для примера 1 найти функцию распределения случайной величины X – числа рекламных объявлений. Р е ш е н и е . Случайная величина X не принимает значений, меньших 0. Следовательно, если x ≤ 0 , то событие X < x – невозможно, и, следовательно, вероятность его равна нулю. Поэтому функция распределения случайной величины X для всех значений x ≤ 0 также равна 0. Для всех x , удовлетворяющих двойному неравенству 0 < x ≤ 1 , значения функции F ( x) равны вероятности события ( X < 1) . Но случайная величина X принимает значение, меньшее 1 , лишь в одном случае: значение 0 с вероятностью 0,1. 41
Покажем, что для всех x , удовлетворяющих двойному неравенству 1 < x ≤ 2
F ( x) = 0,1 + 0, 2 = 0,3. Пусть, например, x = 2 . Тогда F (2) – вероятность события ( X < 2) . Это возможно в двух случаях: или случайная величина X
принимает значение 0 (с вероятностью 0,1), или 1 (с вероятностью 0,2). Применяя теорему сложения вероятностей, получим указанное значение функции F ( x) при x = 2 . Аналогичные рассуждения позволяют найти функцию распределения. Запишем ее в табличной форме (см. табл. 2). Таблица 2 Функция распределения (интегральная функция распределения для примера 7.1)
x x ≤ 0 0 < x ≤1 0,1 F ( x) 0
1< x ≤ 2 2 < x ≤ 3 3 < x ≤ 4 4 < x ≤ 5 x > 5 0,3 0,6 0,8 0,9 1,0
Построим график функции распределения F ( x) (рис. 1).
Рис. 1. График интегральной функции числа рекламных объявлений 42
Интегральная функция не убывает и равна единице при x , большем наибольшего возможного значения случайной величины (см. рис. 1). График F ( x) имеет ступенчатый вид. Функция распределения каждой дискретной случайной величины постоянна на интервалах и имеет скачки на границах, соответствующих ее значениям. Величина скачков равна вероятностям, с которыми случайная величина принимает свои значения. Исходя из условия примера 1, вероятность того, что число рекламных объявлений, помещенных в завтрашней газете, будет меньше или равно трем P ( X ≤ 3) = F (3) = 0,8 . Вероятность того, что в газете будет помещено не менее одной рекламы P( X ≥ 1) = 1 − F (1) = 0,9 . Вероятность того, что в газете появится от одного до трех рекламных объявлений P(1 ≤ X ≤ 3) = P(4) − P(1) = 0,8 − 0,1 = 0, 7 . 2.2.3. Независимость случайных величин и математические операции над случайными величинами
Введем понятие независимости случайных величин. Если рассматривать не одну, а две или более случайных величин (системы случайных величин), то необходимо знать, изменяется или не изменяется закон распределения одной из них в зависимости от того, какое значение принимают другие случайные величины. Если закон распределения одной случайной величины не зависит от того, какие возможные значения приняли другие случайные величины, то такие случайные величины называются независимыми в совокупности. Если закон распределения одной случайной величины зависит от того, какие возможные значения приняли другие случайные величины, то такие случайные величины называются зависимыми в совокупности. Например, приобретены два лотерейных билета различных выпусков. Пусть X – размер выигрыша на первый билет, а Y – размер выигрыша на второй билет. Случайные величины X и Y независимые. В самом деле, если на первый билет выпал выигрыш, то закон распределения Y не изменится. Но если купленные лотерей43
ные билеты одного и того же выпуска, то X и Y являются зависимыми случайными величинами. Пусть случайная величина X принимает значения: x1 , x2 , K , xn с вероятностями p1 , p2 , K , pn , а случайная величина Y принимает значения
y1 , y2 , K , yn с вероятностями
q1 , q2 , K , qn .
Определим некоторые операции над случайными величинами. 1. Произведение случайной величины X на постоянную величину С есть случайная величина СХ, которая принимает значения Cx1 , Cx2 , K , Cxn с теми же вероятностями, что и случайная величина X. 2. Квадрат случайной величины X – случайная величина X 2 , которая принимает свои значения x12 , x22 , K , xn2 с теми же вероятностями, что и случайная величина X . 3. Суммой случайных величин X и Y называется случайная величина Х+Y, возможные значения которой равны суммам каждого возможного значения X с каждым возможным значением Y, а вероятности возможных значений Х+Y для независимых величин X и Y равны произведению вероятностей слагаемых; для зависимых величин – произведениям вероятности одного слагаемого на условную вероятность второго. 4. Произведением независимых случайных величин X и Y называется случайная величина XY, возможные значения которой равны произведениям каждого возможного значения X на каждое возможное значение Y, а вероятности возможных значений произведения XY равны произведениям вероятностей возможных значений сомножителей. 2.2.4. Математическое ожидание дискретной случайной величины
Рассмотрим основные характеристики дискретной случайной величины при конечном числе значений. Каждому значению дискретной случайной величины отвечает его вероятность. Как отмечалось выше, последовательность таких пар образует ряд распределения дискретной случайной величины: 44
⎡x X =⎢ 1 ⎣ p1
x2
...
p2
...
где x1 < x 2 < ... < x n , 0 ≤ pi ≤ 1 , …, n,
xn ⎤ , pn ⎥⎦ n
∑ P = 1. i =1
i
Математическое ожидание случайной дискретной величины X (т. е. принимающей только конечное или счетное множество значений x1 , x2 , K , xn соответственно с вероятностями
p1 , p2 , K , pn ) равно сумме произведений значений случайной
величины на соответствующие им вероятности:
M (X ) =
n
∑ xi P ( xi ) = i =1
n
∑x p i =1
i
i
.
(3)
Найдем математическое ожидание случайной величины X – числа рекламных объявлений в газете в заданный день для примера 1. Расчет ожидаемого среднего значения случайной величины удобно производить, пользуясь табл. 3. Таблица 3 Вычисление математического ожидания числа рекламных объявлений (пример 1)
х P(х)
0 0,1
1 0,2
2 0,3
3 0,2
4 0,1
5 0,1
n n
∑ P( x ) i =1
2
i
1. M (C ) = C , где C – постоянная величина. 2. M (CX ) = CM ( X ) , где C – постоянная величина. 3. M ( X 1 ± X 2 ± K ± X n ) = M ( X 1 ) ± M ( X 2 ) ± K ± M ( X n ). (4) 4. Для конечного числа n независимых случайных величин: M ( X 1 ⋅ X 2 ⋅K ⋅ X n ) = M ( X 1 ) ⋅ M ( X 2 ) ⋅K ⋅ M ( X n ). (5) Следствие. Математическое ожидание отклонения значений случайной величины X от ее математического ожидания равно нулю: M [ X − M ( X )] = 0. (6) 5. Математическое ожидание среднего арифметического значения n одинаково распределенных взаимно независимых случайных величин равно математическому ожиданию каждой из величин: M ( X ) = M ( X i ).
Случайные дискретные величины называются одинаково распределенными, если у них одинаковые ряды распределения, а следовательно, и одинаковые числовые характеристики. Пусть X 1 , X 2 , K, X n – одинаково распределенные случайные величины, математические ожидания которых одинаковы и равны а. Тогда математическое ожидание их суммы равно na и математическое ожидание средней арифметической равно a
M (X ) =
na 1 ⋅ M ( X 1 + X 2 + ... + X n ) = =a. n n
Математическое ожидание случайной дискретной величины обладает следующими свойствами.
Пример 4. Для лотереи, описанной в примере 2, составьте закон распределения суммы выигрыша для посетителя магазина, который приобрел два билета стоимостью по 1 руб. Найдите математическое ожидание суммы выигрыша и убедитесь в справедливости формулы M ( X + Y ) = M ( X ) + M (Y ) . Р е ш е н и е . Суммы выигрышей на первый и второй билеты лотереи с учетом затрат на их приобретение являются случайными величинами, которые обозначим соответственно X и Y. Это одинаково распределенные случайные величины, а их законы распределения получены в примере 2. Сумма выигрыша для посетителя, который приобрел два билета, является случайной величиной. Она
45
46
хP(х)
0,0
0,2
0,6
0,6
0,4
0,5
М(Х)=2,3
Можно сказать, что в среднем 2–3 рекламных объявления ежедневно помещаются в газете. Это – ожидаемое среднее число рекламных объявлений в заданный день. 2.2.5. Свойства математического ожидания случайной дискретной величины
представляет собой сумму случайных величин Х и Y, которые являются зависимыми. Для нахождения закона распределения случайной величины X+Y рассмотрим возможные различные исходы лотереи (табл. 4). Таблица 4 Возможные исходы лотереи
X
Y
X+Y
-1 -1 -1 9 9 9 29 29 29
-1 9 29 -1 9 29 -1 9 29
-2 8 28 8 18 38 28 38 58
Вероятность результата (47/50)·(46/49)=1081/1225 (47/50)·(2/49)=47/1225 (47/50)·(1/49)=47/2450 (2/50)·(47/49)=47/1225 (2/50)·(1/49)=1/1225 (2/50)·(1/49)=1/1225 (1/50)·(47/49)=47/2450 (1/50)·(2/49)=1/1225 (1/50)·(0/49)=0
Вероятности P ( X + Y = 8) , P ( X + Y = 28) и P ( X + Y = 38) получаем, используя теорему сложения вероятностей. Найдем математическое ожидание Х+Y: 1081 94 1 47 2 + 8⋅ + 18 ⋅ + 28 ⋅ + 38 ⋅ = 0; 1225 1225 1225 1225 1225 47 2 M ( X ) = M (Y ) = (−1) ⋅ 0,94 + 9 ⋅ 0, 04 + 29 ⋅ 0, 02 = (−1) ⋅ + 9 ⋅ = 0. 49 49 Следовательно, M ( X + Y ) = M ( X ) + M (Y ) . M ( X + Y ) = −2 ⋅
2.2.6. Ожидаемое среднее значение функции случайной величины
Можно вычислять ожидаемое среднее значение как функцию случайной величины. Пусть h( X ) – функция случайной величины X. Ожидаемое значение функции дискретной случайной величины: n
M [h( X )] = ∑ h( xi ) P( xi ).
(7)
i =1
При нахождении вероятностей соответствующих результатов применяется теорема умножения вероятностей для зависимых событий. Например, случайная величина X+Y примет значение, равное –2 руб., если покупатель не выиграет ни на первый билет, ни на второй. Вероятность проиграть на первый билет лотереи равна 47/50, на второй – при условии, что первый билет не выиграл, равна 46/49. По теореме умножения получаем вероятность проиграть на оба билета. Вероятность выиграть на оба билета книги по 30 руб. оказывается равной 0, так как имеется лишь один такой выигрыш. Таким образом, случайная величина X+Y может принимать следующие значения: –2, 8, 18, 28 и 38 руб. Закон распределения случайной величины X+Y: Сумма выигрыша, руб. Вероятность
-2
8
18
28
38
1081/1225 94/1225 1/1225 47/1225 2/1225 47
Функция h( X ) может быть любой, например X 2 , 4X 6 , ln X . Разберем простой пример, когда h( X ) – линейная функция от X, т. е. h( X ) = aX + b , где a, b – числа. Пример 5. Компания продает некоторый продукт, учет продаж которого ведется в тысячах штук. Закон распределения объема ежемесячных продаж продукта представлен в табл. 5. Найти ожидаемое среднее значение числа месячных продаж. Таблица 5 Ряд распределения числа месячных продаж
Число единиц товара х, тыс. шт. 5000 6000 7000 8000 9000 48
Р(х) 0,2 0,3 0,2 0,2 0,1 1,0
Р е ш е н и е . Из формулы (4) следует, что M ( X ) = 5000 ⋅ 0, 2 + 6000 ⋅ 0,3 + 7000 ⋅ 0, 2 + 8000 ⋅ 0, 2 + 9000 ⋅ 0,1 =
= 1000 + 1800 + 1400 + 1600 + 900 = 6700. Пример 6. Вернемся к примеру 5. Предположим, что стоимость фиксированного месячного выпуска продукции составляет 8000 условных денежных единиц и что доход от реализации каждой единицы товара составляет 2 денежные единицы. Найти ожидаемый месячный доход от продажи продукции. Р е ш е н и е . Функция дохода от продажи продукции компании есть h(X)=2X–8000. Формула (7) свидетельствует, что ожидаемое значение h(X) есть сумма произведений h(X) на соответствующие вероятности. Результаты расчета представлены в таблице 6. Таблица 6 К вычислению среднего ожидаемого значения
Число единиц товара х, тыс. шт. 5000 6000 7000 8000 9000
h( xi )
P ( xi )
M [h( X )] = h( xi ) ⋅ P( xi )
2000 4000 6000 8000 10 000
0,2 0,3 0,2 0,2 0,1
400 1200 1200 1600 1000
M [h( X )] = 5400
умножить полученное значение на 2 и вычесть из полученного произведения стоимость фиксированного выпуска 8000. Ожидаемое значение X есть 6700 и ожидаемый доход, следовательно, равен М[h(Х)]=М(2Х–8000)=2М(Х)–8000=2·6700–8000=5400, что и было получено нами ранее. 2.2.7. Дисперсия дискретной случайной величины
Дисперсия случайной величины есть математическое ожидание квадрата отклонения значений случайной величины от ее математического ожидания. n
σ 2 = D( X ) = M ([ X − M ( X )]2 ) = ∑ [ xi − M ( X )]2 P( xi ).
(8)
i =1
Вероятности значений случайной величины играют роль весов (частот) при вычислении ожидаемых значений квадратов отклонений дискретной случайной величины от средней. По формуле (8) дисперсия вычисляется путем вычитания математического ожидания из каждого значения случайной величины, затем возведением в квадрат результатов, умножением их на вероятности P ( xi ) и сложением результатов для всех xi . Для примера 1 (о рекламных объявлениях, размещаемых в газете в определенный день) дисперсия вычисляется так: σ2=
n
∑ [x –M(X)] P(x )=(0–2,3) +(1–2,3) +(2–2,3) +(3–2,3) +(4– i
2
2
i
2
2
2
i=1
Ожидаемый ежемесячный доход от продаж продукции составляет 5400 условных денежных единиц (см. табл. 6). Для линейной функции случайной величины (см. пример 6) можно упростить вычисления M [h( x)] : из свойств математического ожидания следует, что M (aX + b) = aM ( X ) + b , где a, b – числовые параметры. Формула (7) подходит для любых случайных величин, как дискретных, так и непрерывных. В примере 6 можно вычислить ожидаемый доход: для этого сначала следует рассчитать ожидаемое среднее значение X, затем 49
2,3)2+(5–2,3)2=2,01. Свойства дисперсии дискретной случайной величины Дисперсия дискретной случайной величины обладает следующими свойствами. 1. D (C ) = 0 , где C – постоянная величина.
2. D (C ⋅ X ) = C 2 ⋅ D ( X ) , где C – постоянный множитель. 3. Для конечного числа n независимых случайных величин: D( X 1 ± X 2 ± K ± X n ) = D( X 1 ) + D( X 2 ) + K + D( X n ). (9) 4. Если X 1 , X 2 , K , X n – одинаково распределенные независимые случайные величины, дисперсия каждой из которых рав50
на σ2, то дисперсия их суммы равна nσ 2 , а дисперсия средней арифметической равна σ 2 / n : D X = σ2/п. (10) Для вычисления дисперсии проще пользоваться другой формулой: D( X ) = M ( X 2 ) − ( M ( X )) 2 , (11) полученной путем несложных выкладок:
( )
D( X ) = M [ X − M ( X )]2 = M [ X 2 − 2 M ( X ) ⋅ X + ( M ( X )) 2 ] = = M ( X 2 ) − 2 M ( X ) M ( X ) + ( M ( X )) 2 = M ( X 2 ) − ( M ( X )) 2 . При вычислении дисперсии с помощью формулы (11) используют определение ожидаемого среднего значения функции случайной дискретной величины из формулы (7) для специального случая h(X)=X2. Вычисляют х2 для каждого хi, умножают его на Р(х) и складывают для всех xi. Это дает М(Х2). Для получения дисперсии из M(X2) вычитают квадрат математического ожидания случайной величины X. Вычислим дисперсию случайной величины для примера 1, используя этот способ. Результаты оформим в виде рабочей таблицы (табл. 7). Таблица 7 К вычислению дисперсии случайной величины
x
P ( x)
xP( x)
x 2 P ( x)
0 1 2 3 4 5
0,1 0,2 0,3 0,2 0,1 0,1
0,0 0,2 0,6 0,6 0,4 0,5
0,0 0,2 1,2 1,8 1,6 2,5
M ( X ) = 2,3
1
Чтобы получить дисперсию M ( X 2 ) − ( M ( X )) 2 :
M ( X ) = 7,3 2
X , вычисляем разность
Результат вычислений совпал с полученным при помощи формулы (8). Среднее квадратическое отклонение (стандартное отклонение) дискретной случайной величины равно корню квадратному из дисперсии σ = D( X ). (12) Для примера 1 среднее квадратическое отклонение σ = 2, 01 = 1, 418 . В чем смысл дисперсии и среднего квадратического отклонения? Как можно интерпретировать их значения? По определению σ 2 – средний квадрат отклонения значений случайной величины от математического ожидания. Отсюда следует, что это мера рассеяния всех возможных значений случайной величины относительно среднего ожидаемого значения. Дисперсия характеризует изменчивость случайной величины: чем больше вариация, тем дальше от средней находятся возможные значения случайной величины. Для содержательной интерпретации зачастую полезно применять значение, которое дает корень квадратный из дисперсии – среднее квадратическое отклонение (стандартное отклонение). Если сравнивают две случайные величины, то та из них, которая имеет большую дисперсию и среднее квадратическое отклонение, более вариабельна. Риск, ассоциируемый с инвестициями, часто измеряют стандартным отклонением возврата инвестиций. Если сравниваются два типа инвестиций с одинаковой ожидаемой средней возврата, то инвестиции с более высоким средним квадратическим отклонением считаются более рискованными (хотя более высокое стандартное отклонение предполагает возврат более вариабельный с обеих сторон – как ниже, так и выше средней). 2.2.8. Дисперсия линейной функции случайной величины
Для случайной величины, заданной линейной функцией
aX + b , имеем:
D(aX + b) = a 2 D( X ) = a 2σ 2 .
D( X ) = M ( X 2 ) − ( M ( X )) 2 = 7,3 − (2,3) 2 = 2, 01 .
(13) По формуле (13) найдем дисперсию ожидаемого дохода для примера 5. Доход задан функцией 2 X − 8000 . Находим
51
52
M ( X 2 ) = 50002 ⋅ 0, 2 + 60002 ⋅ 0,3 + 70002 ⋅ 0, 2 + 80002 + +90002 ⋅ 0,1 = 4650000. M ( X ) = 6700 . Отсюда дисперсия
D ( X ) = M ( X 2 ) − ( M ( X )) 2 = 4 650 000 − 67002 = 1 610 000 . Используя формулу (13), вычислим дисперсию ожидаемого дохода: D( X ) = σ2 = 22 ⋅1 610 000 = 6 440 000 . Среднее квадратическое отклонение дохода равно σ = 6 440 000 = 253 772 . 2.2.9. Законы распределения дискретных случайных величин 1. Схема повторных испытаний. Биномиальное распределение Пример 7. Монета подбрасывается 4 раза, пусть X – число появившихся гербов. Пример 8. Известно, что в определенном городе 30 % горожан предпочитают добираться на работу личным автотранспортом. Случайно выбраны 8 человек. Пусть Y – число людей в выборке, предпочитающих личный автотранспорт. Пример 9. Известно, что 15 % деталей, произведенных автоматом, бракованные. В порядке случайного отбора взято 12 деталей. Пусть Z – число дефектных деталей. В примерах X, Y, Z – дискретные случайные величины, подчиняющиеся биномиальному распределению. Биномиальное распределение базируется на эксперименте, состоящем в последовательности испытаний Бернулли (схеме повторных испытаний). Определим случайную величину как биномиальную, если для нее мы рассчитываем число успехов и неуспехов в последовательности п испытаний Бернулли. Случайная величина, для которой вычисляется число успехов в n повторных испытаниях, где р – вероятность успеха в любом из заданных испытаний, a q=(1–р) – соответствующая вероят53
ность неуспеха, подчиняется закону биномиального распределения с параметрами n и р. В примере 1 п=4, р=0,5 – параметры биномиального распределения случайной величины X. Последовательные подбрасывания монеты – независимые эксперименты; исходы – «цифра» или «герб» (успех – неуспех) и вероятности их выпадения постоянны от испытания к испытанию. В примере 2 п=8, р=0,3 – параметры биномиального распределения случайной величины Y. Заметим, что случайная выборка из большой генеральной совокупности предполагает независимость испытаний. Мы полагаем, что число людей в городе (генеральная совокупность) намного больше, чем число испытаний, и случайный отбор небольшого числа людей не влияет на ту часть оставшихся горожан, которые предпочитают добираться до работы на личном транспорте (события «предпочитает личный транспорт» для любых выбранных горожан – независимы). Если в генеральной совокупности только 10 человек, трое из которых предпочитают личный транспорт, то ситуация меняется. Вероятность того, что следующий отобранный предпочтет также личный транспорт, составит уже только 2/9≈0,22 или 3/9≈0,33 в зависимости от того, предпочитает ли отобранный человек личный транспорт или нет. В этом случае условия 2 и 3 испытаний Бернулли будут нарушены, и Y не будет биномиальной случайной величиной. Чем больше объем генеральной совокупности в сравнении с выборкой, тем менее серьезно нарушение условий 2 и 3. На практике пользуются правилом: если N/п > 10 (N – объем генеральной совокупности, n – объем выборки), то можно предположить независимость исходов. В примере 3 Z подчиняется биномиальному распределению с параметрами n=12, р=0,15. Полагаем, что автомат произвел большое количество деталей, выборка выполнена случайным образом из большого числа деталей, сходных друг с другом (наличием или отсутствием дефектов). 2. Формула Бернулли. Биномиальные вероятности Вычислим вероятности значений случайной величины, подчиняющиеся закону биномиального распределения. 54
При четырех подбрасываниях монеты случайная величина X, определяющая число выпадений герба, принимает возможные значения Xi = 0; 1; 2; 3; 8. Рассмотрим определенное событие, когда X=2. Это событие состоит в том, что при четырех подбрасываниях монеты 2 раза выпадет герб. Определим вероятность Р(Х=2). Для этого подсчитаем, сколькими способами может осуществиться данное событие. При четырех бросаниях монеты герб появится два раза в одной из следующих шести последовательностей: ГГЦЦ, ГЦГЦ, ГЦЦГ, ЦГГЦ, ЦГЦГ, ЦЦГГ. Исходя из независимости четырех испытаний вероятность определенной последовательности, скажем, ЦЦГГ, есть ppqq. Порядок появления цифры или герба не влияет на вероятность. Вероятность р2q2 – вероятность для любой из шести перечисленных комбинаций. Поскольку все шесть возможных комбинаций ведут к событию Х=2, то умножим результат на шесть и получим 6р2q2. Для идеальной монеты р=q=0,5; отсюда P(X=2)=6(0,5)4=0,375. Точно так же можно вычислить другие вероятности Р(Х=0), Р(Х=1), Р(Х=3), Р(Х=4). Удобнее обобщить процедуру вычисления вероятности появлений некоторого события точно т раз в n последовательных испытаниях, удовлетворяющую условиям повторных испытаний, при помощи специальной формулы. Отметим следующее. 1. Вероятность любой заданной последовательности, в которой событие появляется т раз и в n испытаниях с вероятностью успеха в каждом отдельном испытании р и с вероятностью неуспеха q, равна pmqn-m. Заметим, что для опыта с подбрасыванием монеты при р=q=0,5, n=4 и т=2, получим P(X=2)=(0,5)2(0,5)2=(0,5)4. 2. Число различных комбинаций в испытаниях, в результате которых наступит точно т успехов, равно числу сочетаний из n элементов по т элементов в каждом
Cnm =
n! . m !(n − m)!
Для примера с подбрасыванием монеты Сnm = 4·3/(1·2) = 6. Этот результат совпадает с полученным путем непосредственного подсчета. 55
3. Поскольку существует Сnm комбинаций и каждая комбинация имеет вероятность рmqn-m, то вероятность т успехов в n испытаниях есть результат двух описанных выше действий. Будем использовать символ Рп,т для обозначения вероятности Р(Х=т) в n испытаниях с вероятностью успеха в каждом отдельном испытании р:
P (n = m) = Pn , m = Cnm p 2 q n − m =
n! ⋅ p m ⋅ q n−m , m !(n − m)!
(1)
где q = 1 − p , n – число испытаний, m – число успешных испытаний, а формула (1) называется формулой Бернулли. 3. Биномиальный закон распределения В формуле (1) т может принимать значения от 0 до n. Подставим m= 0; 1; 2; ...; n в формулу (1):
(q + p ) n = Cn0 q n + Cn1 pq n −1 + Cn2 p 2 q n − 2 + + K + Cnk p k q n − k + K + Cnn p n .
(2)
Так как ( q + p ) = 1 , то Pn ,0 + Pn ,1 + K + Pn ,n = 1 (табл. 8). Таблица 8 Биномиальное распределение
Число успехов m
Вероятность Pn ,m
0
Cn0 p 0 q n −0
1
Cn1 p1q n −1
2
Cn2 p 2 q n −2
3
Cn3 p 3 q n −3
… k
C p k q n−k
… k n
… n
…
C p n q n−n 1 n n
56
В табл. 9 представлены биномиальные вероятности случайной величины X для примера 7, рассчитанные при помощи формулы (1).
более 5 человек; c) не менее 5 человек. По условию р=0,3. Значит, надо определить P(Х=5), Р(Х≤5), Р(Х≥5). Таблица 11
Таблица 9
Фрагмент таблиц ряда и функции биномиального распределения
Биномиальное распределение X – числа гербов, появляющихся при четырех подбрасываниях монеты
X =m
0 0,0625
P(x)=P4,m
1 0,2500
2 0,375
3 0,2500
4 0,0625
С увеличением числа испытаний расчет вероятностей по формуле (1) становится все более громоздким. Существуют специальные таблицы, в которых табулированы значения вероятностей биномиального распределения для различных п и р. Иногда в литературе предлагаются таблицы, в которых табулированы значения интегральной функции 1–F(x)=Р(Х≥х). Табл. 10 воспроизводит значения функции при п=4. Найдем кумулятивную вероятность, которой соответствует распределение, представленное в табл. 9. Заметим, что для p=0,5 2
1
i =0
i =0
P ( X = 2) = ∑ P (i ) − ∑ P (i ) = F (2) − F (1) = 0,6875 − 0,3125 = 0,3750,
т. е. в общем виде Р(Х)=F (x)–F(x–1). (3) Вероятность, равная 0,3750, корреспондирует с вероятностью при т=2 в табл. 9. Таблица 10 Фрагмент таблицы F(x)=Р(Х≤х) биномиального распределения т
0
P( X < x) = 0,06250 = F ( x)
1 0,3125= =0,0625+ +0,2500
2 0,687= =0,3125+ +0,375
3 0,9375= =0,6875+ +0,2500
4 1,0000= =0,9375+ +0,0625
Для случайной величины Y (пример 8) найдем вероятности того, что предпочтут личный транспорт: а) 5 человек из 8; b) не 57
Х=т 0 1 2 3 4 5
Р(Х=т)= =Сnm рmqп-m 0,058 0,198 0,296 0,254 0,136 0,047
Р(Х≤m)=F1(x) Р(Х<х)=F(x) 0,058 0,2560,552 0,806 0,942 0,989
0 0,058 0,256 0,552 0,806 0,942
Р(Х≥x)= =1–F(x) 1 0,942 0,745 0,448 0.194 0,058
И тогда P(X=5)=0,047; Р(Х≤5)=0,989; P(X≥5)=0,058. 4. Математическое ожидание, дисперсия и график биномиального распределения Пусть случайная величина X – число т наступления некоторого события в n независимых испытаниях. Общее число X появлений этого события в испытаниях Xi=т=Х1+Х2+...+Хп, где Xi – число появлений события в i-ом испытании (i=1, 2, ..., п). Так как вероятность наступления события в каждом испытании постоянна и равна р (q – вероятность ненаступления события), то для каждой случайной величины Xi имеем распределение вероятностей: x p
0 q
1 p
Следовательно, М(Х1)=М(Х2)=...=М(Хn); М(Хi)=0·q+1·p=p. Из свойств математического ожидания получим: n
M ( X ) = M ( X 1 ) + M ( X 2 ) + ... + M ( X n ) = ∑ M ( X i ) = пр. i =1
Математическое ожидание случайной величины X (частоты появления события в п независимых испытаниях), подчиняющей58
ся биномиальному распределению, равно произведению числа испытаний п на постоянную вероятность успеха р в каждом отдельном испытании. Следует отметить, что частость (m/n) также можно рассматривать как случайную величину, и тогда М(т/п)=1/n·М(т)=1/n·(np)=р. (4) Математическое ожидание частоты биномиального распределения М(X)=n/p. (5) Аналогично рассуждая, получим D(Xi)=М(Xi2)–М2(Xi)=02·q+12·p– p2=p·(1–p)=p·q;
2. Два исхода – посетитель совершает покупку (успех) или не совершает покупку (неуспех) – возможны для каждого отдельного испытания. 3. Вероятность каждой покупки равна 0,3, вероятность непокупки – 0,7. 4. Решение о покупке для каждого из покупателей не зависит от решений других покупателей. Рассчитаем вероятности биномиального распределения, применяя формулу (1), и результаты представим в виде таблицы (табл. 12). Таблица 12
n
2
D(X)= σ =D(X1)+D(X2)+…+D(Xn)=
∑D(X )=n·p·q. i
(6)
i=1
Если роль случайной величины играет т/п, то D(m/n)=1/п2·D(m)=1/n2·n·p·q=p·q/n. (7) Стандартное отклонение биномиального распределения равно σ=√n·p·q. (8) Используя формулы (4) и (5), найдем математическое ожидание и дисперсию случайной величины X – числа появления гербов при четырех подбрасываниях монеты, М(Х)=пр=4·0,5=2. При достаточно большой серии испытаний по четыре подбрасывания монеты можно ожидать, что в среднем при четырех подбрасываниях монеты выпадет два герба. D(X)=n·p·q=4·0,5·0,5=1,00, а σ=1,00. Пример 10. В отдел верхней одежды универмага один за другим входят трое посетителей. По оценкам менеджера, вероятность того, что вошедший посетитель совершит покупку, равна 0,3. Чему равна вероятность того, что ни один из посетителей ничего не купит? Один из посетителей купит что-либо? Двое из трех вошедших в магазин людей совершат покупку? Все трое купят что-нибудь в отделе? Р е ш е н и е . Проверим задачу на соответствие условиям биномиального эксперимента. 1. Эксперимент описан как последовательность трех идентичных испытаний – по одному испытанию для каждого из трех посетителей, входящих в универмаг. 59
Биномиальное распределение числа покупателей
m=xi 0 1 2 3
Pn,m=pi 0,343 0,441 0,189 0,027 1
xipi 0 0,441 0,378 0,081 0,9
xi2pI 0 0,441 0,756 0,2643
n
M ( X ) = ∑ xi P( xi ) = 0 ⋅ 0,343 + 1 ⋅ 0,441 + 2 ⋅ 0,189 + 3 ⋅ 0,027 = 0,9. i =1
Математическое ожидание биномиального распределения проще вычислить по формуле (4) М(Х)=пр = 3·0,3 = 0,9. Дисперсия σ2=D(X) = n·p·q = 3·0,3·0,7 = 0,63. Построим график распределения (рис. 2). pi 0,441 0,4
0,343
0,3 0,189
0,2 0,1
0,027
0
1
xi
2
Рис. 2. Графическое представление биномиального распределения 60
При m = l (см. рис. 2) вероятность достигает максимального значения. Вероятнейшей частотой наступления события называется та частота, при которой вероятность достигает своего наибольшего значения и обозначается m0. Для определения наивероятнейшего числа используем формулу: пp–q≤m0≤np+p. (9) В этом неравенстве т0 может быть только целым числом. Если пр – целое число, то m0=пр. Пример 11. Вероятность того, что выписанный продавцом чек будет оплачен, равна 0,9. Какое наивероятнейшее число чеков будет оплачено, если выписано 40 чеков? Р е ш е н и е . Находим произведение пр = 40·0,9 = 36 (целое число), значит, т0 = 36. Найдем т0 по формуле (9) 40·0,9– 0,1 ≤ т0 ≤ 40·0,9+0,9; 35,9 ≤ m0 ≥ 36,9. Этому двойному неравенству удовлетворяет целое число т0 = 36. 5. Распределение Пуассона Распределение Пуассона (закон распределения редких событий) часто используется, когда мы имеем дело с числом событий, появляющихся в промежутке времени или пространства (число машин, прибывших на автомойку в течение часа, число дефектов на новом отрезке шоссе длиной в 10 километров, число мест утечки воды на 100 километров водопровода, число остановок станков в неделю, число дорожных происшествий). Если вероятность появления события А в п отдельных независимых испытаниях очень мала (р
Pm ,n ≈
λm
m!
⋅ e −λ ,
(10)
где λ = пр; п – число независимых испытаний с постоянной малой вероятностью р; е – основание натуральных логарифмов (е = 2,71828); т – число появлений события (т = 0, 1, 2, 3, ...). При помощи формулы (10) можно записать закон распределения Пуассона. Его можно написать в виде ряда распределения (табл. 13), если, придавая m целые неотрицательные значения т = 0, 1, 2, ..., n, вычислить соответствующие им вероятности Рn,т. 61
Таблица 13 Закон распределения Пуассона
т
0
Рn,т
e–λ
1
2
3
…
k
…
n
λ·e–λ λ2·e–λ/2! λ3·e–λ/3! … λk·e–λ/k! … λn·e–λ/n!
Закон распределения Пуассона можно записать в виде функции распределения: λk·e–λ/k!. F(X)=P(m<x)= Рn,т= λm/k! e–λ,
∑
∑
m〈x
m〈x
F(X ) = ∑ где знак
∑
m〈 x
λ
m
m!
⋅ e −λ ,
(11)
означает сумму вероятностей Рп,т для всех т, мень-
m〈 x
ших п. Применяя формулу (11), можно определить вероятность появления события хотя бы один раз в п независимых испытаниях. Поскольку вероятности Рп,т≥1 и Рп,0 есть вероятности противоположных событий, то
Pn ,m≥1 = 1 − Pn ,0 = 1 −
λ0 0!
⋅ e −λ = 1 − e −λ .
(12)
По формуле (12) вычисляются вероятности появления события хотя бы один раз в п независимых испытаниях, если вероятность появления события в отдельных испытаниях постоянна и очень мала, а число испытаний достаточно велико (n≥20), т. е. при условии применимости формулы Пуассона (10). Математическое ожидание и дисперсия случайной величины, распределенной по закону Пуассона, совпадают и равны параметру λ, который определяет этот закон, т. е. M(Х)=D(Х)=λ. (13) Формула (13) устанавливает важный теоретико-вероятностный смысл параметра λ. Последовательность событий, которые наступают в случайные моменты времени, называется потоком событий (например вызов на АТС). При этом должны выполняться следующие условия. 62
1. Вероятность появления события одна и та же для любых двух интервалов равной длины. 2. Вероятность того, что событие появится в короткий интервал времени (или пространства), пропорциональна величине интервала. 3. В очень коротком интервале вероятность того, что два события появятся, близка к нулю. 4. Вероятность того, что любое число событий появится в интервале, не зависит от начала интервала. 5. Появление или непоявление события в определенном интервале не зависит от появления или непоявления события в любом другом интервале. Пример 12. Предположим, что нас интересует число инкассаторов, прибывающих утром на автомобиле в банк в течение 15 минут. Если мы предположим, что вероятность прибытия автомобиля одинакова в любые два периода времени равной длины и что прибытие или неприбытие автомобиля в любой период времени не зависит от прибытия или неприбытия в любой другой период времени, то последовательность прибытия инкассаторов в банк может быть описана распределением Пуассона. Р е ш е н и е . Анализ предыдущих данных показал, что среднее число инкассаторов, прибывающих в 15 минутный период, равно 10, тогда при λ=10 получаем: Р(т)=λm·e–λ/m!=10m·e–10/m! при т=0, 1, 2, ... Если мы хотим узнать вероятность прибытия пяти инкассаторов в течение 15 минут, то при m = 5 получим: 105 ⋅ e −10 P(5) = = 0, 0378. 5! Расчет вероятностей распределения Пуассона легче осуществлять, пользуясь специальными таблицами вероятностей распределения Пуассона. В них содержатся значения вероятностей при заданных т и λ. Пример 13. Предположим, что нас интересует число дефектов, появившихся на определенном участке шоссе через месяц после его асфальтирования. Мы предполагаем, что вероятность появления дефектов одна и та же на любых двух участках равной длины и что появление или непоявление дефектов на любом промежутке шоссе не зависит от появления дефектов на любом дру-
гом участке. Следовательно, для решения задачи можно использовать распределение Пуассона. Р е ш е н и е . Предположим, мы выяснили, что количество дефектов спустя месяц после асфальтирования в среднем равно двум на километр. Найдем вероятность того, что на определенном участке шоссе длиной в три километра мы не найдем ни одного дефекта спустя месяц после асфальтирования. Поскольку нас интересует интервал длиной в три километра, то λ=(2 дефекта/километр)·(3 километра)=6. Это – ожидаемое число дефектов на трехкилометровом участке шоссе. Отсюда, используя формулу (10) или таблицы распределения Пуассона с λ=6 и т=0, получаем, что вероятность отсутствия дефектов на трех километрах дороги равна 0,0025. Результат говорит о том, что отсутствие дефектов на изучаемом участке дороги весьма маловероятно. Вероятность того, что хотя бы один дефект появится на трех километрах вновь асфальтированной дороги равна 1–0,0025=0,9975. Рассмотрим пример, в котором вероятности будут вычислены точно по формуле Бернулли (1) и приближенно по формуле Пуассона (10). Пример 14. Проведено 25 независимых испытаний с вероятностью появления события А в каждом из них 0,01. Построить ряд распределения для случайной величины Х=т – числа появлений события А. Вероятность Рn,m вычислить двумя способами: по формуле Бернулли и по формуле Пуассона. Полученные результаты сравнить и оценить погрешности приближенной формулы. По условию п=25; р=0,01; q=0,999. Вычислим Рn,m и сведем их в таблицу 14. Таблица 14
63
64
Сравнение вероятностей, полученных по формулам Бернулли и Пуассона
m Рn,m=Cnmpmqn–m
Pn ,m = |∆|
λm m!
⋅ e −λ
0 1 2 3 4 5 6 0,778 0,196 0,024 0,002 0,000 0,000 0,000 0,779 0,195 0,022 0,001 0,000 0,000 0,000 0,001 0,001 0,002 0,001 0,000 0,000 0,000
Сопоставление вероятностей показывает, что вычисленные по формуле Пуассона вероятности почти совпадают с их значениями, вычисленными по формуле Бернулли. Максимальная погрешность результатов, вычисленных по формуле Пуассона равна 0,002. 6. Геометрическое распределение Рассмотрим биномиальный эксперимент с обычными условиями. Пусть вместо вычисления числа успехов в независимых испытаниях случайная величина определяет число испытаний до первого успеха. Такая случайная величина распределена по закону геометрического распределения. Вероятности геометрического распределения вычисляются по формуле: P(m)=pqm–1, (14) где т=1, 2, 3, ..., p и q – биномиальные параметры. Математическое ожидание геометрического распределения равно: M(m)= 1/p, (15) а дисперсия σ2=D(m)=q/p2. (16) Например, число деталей, которые мы должны отобрать до того, как найдем первую дефектную деталь, есть случайная величина, распределенная по геометрическому закону. В чем здесь смысл математического ожидания? Если доля дефектных деталей равна 0,1, то вполне логично, что в среднем мы будем иметь выборки, состоящие из 10 деталей до тех пор, пока не встретим дефектную деталь. Пример 15. Исследования в некотором регионе показали, что Пепси-Кола занимает 33,2 % рынка безалкогольных напитков, а Кока-Кола 40,9 %. Исследователи рынка собираются провести новое исследование, чтобы проверить вкусы и предпочтения потребителей Пепси-Колы. Потенциальные участники отбираются случайным образом среди потребителей безалкогольных напитков. Чему равна вероятность того, что случайно отобранный потребитель пьет Пепси-Колу? Чему равна вероятность того, что среди двух отобранных потребителей безалкогольных напитков первым будет найден потребитель Пепси-Колы? А среди трех? Четырех? 65
Р е ш е н и е . Пусть «успех» в единичном испытании с вероятностью 0,332 есть событие «первый случайно отобранный потребитель предпочитает Пепси-Колу». Используя геометрическое распределение при т=1, найдем из формулы (14): Р(1)=0,332·0,6880=0,332. Точно так же первый выбранный человек не будет, а второй будет потребителем Пепси-Колы с вероятностью P(2)=0,332·0,6881=0,2218. Вероятность того, что двое потребителей, не употребляющих Пепси-Колу, будут проинтервьюированы до того, как первый потребитель Пепси-Колы будет найден, равна P(3)=0,332·0,6882=0,1481. И окончательно P(4)=0,332·0.6883=0,099. 2.2.10. Закон больших чисел 1. Принцип практической уверенности. Формулировка закона больших чисел Этот принцип иногда в литературе называется «принципом практической невозможности маловероятных событий». Известно, что если событие имеет очень малую вероятность, то в единичном испытании это событие может наступить и не наступить. Но так рассуждаем мы только теоретически, а на практике считаем, что событие, имеющее малую вероятность, не наступает, и поэтому мы, не задумываясь, пренебрегаем им. Но нельзя дать ответ в рамках математической теории на вопрос, какой должна быть верхняя граница вероятности, чтобы можно было назвать «практически невозможными» события, вероятности которых не будут превышать найденной верхней границы. Пример 16. Рабочий изготавливает на станке 100 изделий, из которых одно в среднем оказывается бракованным. Вероятность брака равна 0,01, но ею можно пренебречь и считать рабочего неплохим специалистом. Но если строители будут строить дома так, что из 100 домов (в среднем) в одном доме будет иметь место разрушение крыши, то вряд ли можно пренебречь вероятностью такого события. Итак, в каждом отдельном случае мы должны исходить из того, насколько важны последствия в результате наступления со66
бытия. При «практически достоверных» событиях, вероятность которых близка к единице, также встает вопрос о степени этой близости. Вероятность, которой можно пренебречь в исследовании, называется уровнем значимости. Принцип практической уверенности: «Если какое-нибудь событие имеет малую вероятность (например, р<0,01), то при единичном испытании можно практически считать, что это событие не произойдет, а если событие имеет вероятность, близкую к единице (р>0,99), то практически при единичном испытании можно считать, что событие произойдет наверняка». Таким образом, исследователя всегда должен интересовать вопрос, в каком случае можно гарантировать, что вероятность события будет как угодно близка к 0 или как угодно близка к 1. Основной закономерностью случайных массовых явлений является свойство устойчивости средних результатов. В широком смысле слова под «законом больших чисел» понимают свойство устойчивости случайных массовых явлений. Это свойство состоит в том, что средний результат действия большого числа случайных явлений практически перестает быть случайным и может быть предсказан с достаточной определенностью. Оно вытекает из того, что индивидуальные особенности отдельных случайных явлений, их отклонения от среднего результата в массе своей взаимно погашаются, выравниваются. В узком смысле слова под «законом больших чисел» понимают совокупность теорем, в которых устанавливается факт приближения средних характеристик к некоторым постоянным величинам в результате большого числа наблюдений. Различные формы закона больших чисел дают возможность уверенно оперировать со случайными величинами, осуществлять научные прогнозы случайных явлений и оценивать точность этих прогнозов. Формулировка закона больших чисел, развитие идеи и методов доказательства теорем, относящихся к этому закону, принадлежат русским ученым: П.Л. Чебышеву, А.А. Маркову и A.M. Ляпунову. Приведенные здесь формы закона больших чисел даются без доказательства.
2. Неравенства Маркова и Чебышева Доказательство закона больших чисел основано на неравенстве Чебышева. Неравенство Маркова в литературе иногда называется леммой Маркова или леммой Чебышева, так как оно является частным случаем неравенства Чебышева. Лемма Маркова. Если случайная величина Х не принимает отрицательных значений, то для любого положительного числа α справедливо неравенство: P(Х ≥ α) ≤ М(Х)/α. (1) События Х < α и Х ≥ α – противоположные, поэтому, используя формулу (1), получаем Р(Х<α) = 1–Р(Х ≥ α )≥ 1 – М(Х)/α. (2) Выражения (1–2) справедливы для дискретных и непрерывных случайных величин. Пример 17. Дана случайная величина X:
67
68
X P
2 0,1
4 0,2
6 0,25
8 0,15
10 0,15
12 0,15
Пользуясь неравенством Маркова, оценить вероятность того, что случайная величина X примет значение, меньшее 11? Р е ш е н и е . Исходя из условия будем рассуждать так: (Х<11)=Р(X=2)+Р(Х=4)+Р(Х=6)+Р(Х=8)+Р(Х=10)=0,1+0,2+0,25+ +0,15+0,15=0,85. Используя неравенство Маркова (2), получаем Р(Х<11)≥1–М(Х)/11=1 – (2·0,1+4·0,2+6·0,25+8·0,15+10·0,15+ +12·0,15)/11=1–(0,2+0,8+1,5+1,2+1,8)/11=1–7/11=1–0,636=0,364. Р(Х<11) ≥ 0,364. Пример 18. Сумма всех вкладов в некоторой сберегательной кассе составляет 20 000 000 руб., а вероятность того, то случайно взятый вклад меньше 100 000 равна 0,8. Каково число вкладчиков сберегательной кассы? Р е ш е н и е . Пусть X – величина случайно взятого вклада, а n – число всех вкладчиков. Тогда из условия задачи следует, что М(Х)=20 000 000/n; Р(X<100 000)=0,8, и по неравенству Маркова Р(X<100 000)≥1–М(Х)/100 000. Т. е. 0,8≥1–20 000 000/(n·100 000); 20 000 000/(n·100 000)≥0,2; 200≥n·0,2; n≤1000.
Неравенство Чебышева. Вероятность того, что отклонение X от ее математического ожидания по абсолютной величине будет меньше данного положительного числа ε, ограничена снизу величиной 1–D(X)/ε2, т. е. Р(|X–M(X)|<ε)≥1–D(X)/ε2. (3) Из (3) переходом к противоположному событию можно получить: Р(|X–M(X)|≥ε)≤D(X)/ε2. (4) Пример 19. Вероятность наступления некоторого события р=0,3 в каждом из n=900 независимых испытаний. Используя неравенство Чебышева, оценить вероятность того, что событие повторится число раз, заключенное в пределах от m1=240 до m2=300. Р е ш е н и е . Здесь по условиям задачи имеет место биномиальный эксперимент. Следовательно: М(X)=а=пр=900·0,3=270; ε=|240–270|=|300–270|=30; D(X)=npq=900·0,3·0,7=189; Р(|X–270|≤30)≥1–D(X)/ε2=1–189/302=1–0,21=0,79, т. е. Р(|X–270|≤30≥0,79. 3. Теорема Чебышева (частный случай) Теорема устанавливает связь между средней арифметической
X наблюдаемых значений случайной величины X и М(X)=а. Теорема Чебышева. При неограниченном увеличении числа n независимых испытаний «средняя арифметическая наблюдаемых значений случайной величины сходится по вероятности к ее математическому ожиданию», т. е. для любого положительного ε lim Р(| X –а|<ε)=1.
n→∞
(5)
Смысл выражения « X сходится по вероятности к a» состоит в том, что вероятность того, что X будет сколь угодно мало отличаться от a, неограниченно приближаясь к 1 с ростом n. Для конечного n применим неравенство Чебышева для случайной величины X Р(| X –M( X )|<ε)≥1–D( X )/(ε2).
69
(6)
Подставляя в это неравенство значения M( X ) и D( X ), получим Р(| X –M(X)|<ε)≥1–D(X)/(n·ε2). Если в (6) взять сколь угодно малое ε>0 и n→∞, то получим
lim[1 − D ( X ) /( n ⋅ ε 2 )] = 1, n →∞
что и доказывает теорему Чебышева. Из рассмотренной теоремы вытекает важный практический вывод. Он состоит в том, что неизвестное нам значение математического ожидания случайной величины мы вправе заменить средним арифметическим значением, полученным по достаточно большому числу опытов. При этом, чем больше опытов для вычисления, тем с большей вероятностью (надежностью) можно ожидать, что связанная с этой заменой ошибка ( X –а) не превзойдет заданную величину ε. Кроме того, можно решать другие практические задачи. Например, по значениям вероятности (надежности) Р=Р(| X –а|<ε) и максимальной допустимой ошибке ε определить необходимое число опытов n; по Р и п определить ε; по ε и п определить границу вероятности события | X –а|<ε. Пример 20. Дисперсия случайной величины X равна 4. Сколько требуется произвести независимых опытов, чтобы с вероятностью не менее 0,9 можно было ожидать, что среднее арифметическое значение этой случайной величины будет отличаться от математического ожидания менее чем на 0,5? Р е ш е н и е . По условию задачи ε = 0,5; Р(| X –а| < 0,5) ≥ 0,9; n = ? Применив формулу (6), получим P(|X–M(X)|<ε)≥1–D(X)/(n·ε2). Из соотношения 1–D(X)/(n·ε2)=0.9 определяем п =D(X)/(0,1·ε2)=4/(0,1·0,25)=160. Если использовать утверждение, что в любом случае средняя арифметическая распределена примерно нормально, то получаем: Р(| X –а|<ε)=2Φ0(ε√n/σ)≥0,9. 70
Откуда, воспользовавшись таблицей интеграла вероятностей, получим ε√n/σ≥1,645 или √n≥6,58, т.е. n≥49. Пример 21. Дисперсия случайной величины D(X)=5. Произведено 100 независимых опытов, по которым вычислено X . Вместо неизвестного значения математического ожидания а принята
X . Определить максимальную величину ошибки, допускаемую при этом, с вероятною не менее 0,8. Р е ш е н и е . По условию n=100, Р(| X –а|<ε)≥0,8; ε=? Применяем формулу (6): Р(| X -а|<ε)≥1–D(X)/(n·ε2). Из соотношения 1–D(X)/(n·ε2)=0,8 определяем ε: ε2=D(X)/(0,2·n)=5/(0,2·100)=0,25; ε=0,5. 4. Теорема Бернулли Пусть произведено п независимых испытаний, в каждом из которых вероятность появления некоторого события А постоянна и равна Р. Теорема Бернулли. При неограниченном возрастании числа независимых испытаний п относительная частота m/n появления события А сходится по вероятности к вероятности p события А, т. е.
lim P( m / n − p 〈ε ) = 1, n →∞
где ε – сколь угодно малое положительное число. Для конечного n при условии, что
⎛ m ⎞ p⋅q D⎜ ⎟ = , n ⎝n⎠ неравенство Чебышева для случайной величины m/n будет иметь вид: P(|m/n–p|<ε)≥1–pq/(n·ε2). (8)
71
Каким бы малым ни было число ε при n→∞ величина дроби pq/(n·ε2)→0, а P(|m/n–p|<ε)→1. Из теоремы Бернулли следует, что при достаточно большом числе испытаний относительная частота т/п появления события практически утрачивает свой случайный характер, приближаясь к постоянной величине p – вероятности данного события. В этом и состоит принцип практической уверенности. Пример 22. С целью установления доли брака было проверено по схеме возвратной выборки 1000 единиц продукции. Какова вероятность того, что установленная этой выборкой доля брака по абсолютной величине будет отличаться от доли брака по всей партии не более, чем на 0,01, если известно, что в среднем на каждые 10 000 изделий приходится 500 бракованных? Р е ш е н и е . По условию задачи число независимых испытаний n=1000. p=500/1000=0,05; q=1–p=0,95; ε=0,01. P(|m/n–p|<0,01? Применяя формулу (8), получим P(|m/n–p|<0,01)≥1–pq/(n·ε2)=1–0,05·0,95/(1000·0,0001)=0,527. Итак, с вероятностью не менее 0,527 можно ожидать, что выборочная доля брака (относительная частота появления брака) будет отличаться от доли брака во всей продукции (от вероятности брака) не более чем на 0,01. Пример 23. При штамповке деталей вероятность брака составляет 0,05. Сколько нужно проверить деталей, чтобы с вероятностью не менее 0,95 можно было ожидать, что относительная частота бракованных изделий будет отличаться от вероятности брака менее, чем на 0,01? Р е ш е н и е . По условию задачи
⎛m ⎞ p = 0, 05 ; q = 0,95 ; ε = 0, 01 ; P ⎜ − p < 0, 01⎟ ≥ 0,95 ; n = ? . ⎝ n ⎠
72
Для конечного n будем иметь:
Из равенства
pq 1 − 2 = 0,95 nε
n
рi qi ∑ ⎛ m p1 + p2 + ... + pn ⎞ i =1 P⎜ − < ε ⎟ ≥ 1− 2 2 . n nε ⎝ n ⎠
находим:
pq 0, 05 ⋅ 0,95 = = 9500 . 2 0, 05 ⋅ ε 0, 05 ⋅ 0, 0001 З а м е ч а н и е . Оценки необходимого числа наблюдений, получаемые при применении теоремы Бернулли (или Чебышева), очень преувеличены. Существуют более точные оценки, предложенные Бернштейном и Хинчиным, но требующие более сложного математического аппарата. Чтобы избежать преувеличения оценок, иногда пользуются формулой Лапласа: n=
⎛ ⎛m ⎞ n ⎞ P ⎜ − p < ε ⎟ ≈ 2Φ 0 ⎜⎜ ε ⎟⎟ . ⎝ n ⎠ ⎝ pq ⎠ Недостатком этой формулы является отсутствие оценки допускаемой погрешности. 5. Теорема Пуассона В теореме Бернулли устанавливается связь между относительной частотой появлений события и его вероятностью p при условии, что последняя от опыта к опыту не изменяется. Теорема Пуассона устанавливает связь между относительной частотой появления события и некоторой постоянной величиной при переменных условиях опыта. Теорема Пуассона. Если производится n независимых опытов и вероятность появления события А в i-м опыте равна pi, то при увеличении n относительная частота появления события m/n сходится по вероятности к среднему арифметическому значению вероятностей pi, т. е. n ⎡ ⎤ pi ∑ ⎢m ⎥ < ε ⎥ = 1. lim ⎢ − i =1 n →∞ ⎢ n n ⎥ ⎢ ⎥ ⎣ ⎦
73
Каким
бы
ни
было
ε, при
n→∞
величина
(10) дроби
n
∑рq i =1
i
n 2ε 2
i
→ 0 , а вероятность ⎛ m p + p2 + ... + pn ⎞ P⎜ − 1 < ε ⎟ → 1. n ⎝ n ⎠
Пример 24. Одинаковые партии изделий размешены в 11 ящиках, причем доли первосортных изделий в них составляют 0,0; 0,1; 0,2; 0,3; 0,4; 0,5; 0,6; 0,7; 0.8; 0,9; 1,0. Из каждого ящика наудачу извлечено по одному изделию. Определить вероятность того, что доля первосортных изделий в выборке будет отличаться от средней арифметической доли менее, чем на 0,2. Р е ш е н и е . По условию задачи: n=11; p1=0,0; p2=0,1; p3=0,2; p4=0,3; p5=0,4; р6=0,5; p7=0,6; p8=0,7; p9=0,8; p10=0,9; p11=1,0; ε=0,2. Применяя формулу (10), получим n
∑рq
i i ⎛ m p1 + p2 + ... + pn ⎞ i =1 P⎜ − < 0, 2 ⎟ ≥ 1 − 2 2 = n nε ⎝ n ⎠ = 1- 0, 0 + 0, 09 + 0,16 + 0, 21 + 0, 24 + 0, 25 + 0, 24 + 0, 21 + 0,16 +
+ 0, 09 + 0, 0) /(121⋅ 0, 04) = 1-1,165 / 4,84 = 0, 64
(9)
74
3. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА 3.1. Основные понятия математической статистики
Математическая статистика занимается установлением закономерностей, которым подчинены массовые случайные явления, на основе обработки статистических данных, полученных в результате наблюдений. Двумя основными задачами математической статистики являются: – определение способов сбора и группировки этих статистических данных; – разработка методов анализа полученных данных в зависимости от целей исследования, к которым относятся: а) оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости от других случайных величин и т.д.; б) проверка статистических гипотез о виде неизвестного распределения или о значениях параметров известного распределения. Для решения этих задач необходимо выбрать из большой совокупности однородных объектов ограниченное количество объектов, по результатам изучения которых можно сделать прогноз относительно исследуемого признака этих объектов. Определим основные понятия математической статистики. Генеральная совокупность – все множество имеющихся объектов. Выборка – набор объектов, случайно отобранных из генеральной совокупности. Объем генеральной совокупности N и объем выборки n – число объектов в рассматриваемой совокупности. Виды выборки: Повторная – каждый отобранный объект перед выбором следующего возвращается в генеральную совокупность; Бесповторная – отобранный объект в генеральную совокупность не возвращается. З а м е ч а н и е . Для того, чтобы по исследованию выборки можно было сделать выводы о поведении интересующего нас признака генеральной совокупности, нужно, чтобы выборка правиль75
но представляла пропорции генеральной совокупности, то есть была репрезентативной (представительной). Учитывая закон больших чисел, можно утверждать, что это условие выполняется, если каждый объект выбран случайно, причем для любого объекта вероятность попасть в выборку одинакова. 1.1. Первичная обработка результатов Пусть интересующая нас случайная величина Х принимает в выборке значение х1 п1 раз, х2 – п2 раз, …, хк – пк раз, причем k
∑n i =1
k
= n, где п – объем выборки. Тогда наблюдаемые значения
случайной величины х1, х2, …, хк называют вариантами, а п1, п2, …, пк – частотами. Если разделить каждую частоту на объем выборки, то получим относительные частоты wi =
ni . Последоваn
тельность вариант, записанных в порядке возрастания, называют вариационным рядом, а перечень вариант и соответствующих им частот или относительных частот – статистическим рядом: x2 n2 w2
x1 n1 w1
xi ni wi
… … …
xk nk wk
Пример 1. При проведении 20 серий из 10 бросков игральной кости число выпадений шести очков оказалось равным 1, 1, 4, 0, 1, 2, 1, 2, 2, 0, 5, 3, 3, 1, 0, 2, 2, 3, 4, 1. Составим вариационный ряд: 0, 1, 2, 3, 4, 5. Статистический ряд для абсолютных и относительных частот имеет вид:
xi ni wi
0 3 0,15
1 6 0,3
2 5 0,25
3 3 0,15
4 2 0,1
5 1 0,05
Если исследуется некоторый непрерывный признак, то вариационный ряд может состоять из очень большого количества чисел. В этом случае удобнее использовать группированную выборку. Для ее получения интервал, в котором заключены все на76
блюдаемые значения признака, разбивают на несколько равных частичных интервалов длиной h, а затем находят для каждого частичного интервала ni сумму частот вариант, попавших в i-й интервал. Составленная по этим результатам таблица называется группированным статистическим рядом:
Определение. Выборочной (эмпирической) функцией распределения называют функцию F*(x), определяющую для каждого значения х относительную частоту события X < x. Таким образом,
Номера интервалов Границы интервалов Сумма частот вариант, попавших в интервал
где пх – число вариант, меньших х, п – объем выборки. З а м е ч а н и е . В отличие от эмпирической функции распределения, найденной опытным путем, функцию распределения F(x) генеральной совокупности называют теоретической функцией распределения. F(x) определяет вероятность события X < x, а F*(x) – его относительную частоту. При достаточно больших п, как следует из теоремы Бернулли, F*(x) стремится по вероятности к F(x). Из определения эмпирической функции распределения видно, что ее свойства совпадают со свойствами F(x), а именно: 1) 0 ≤ F*(x) ≤ 1. 2) F*(x) – неубывающая функция. 3) Если х1 – наименьшая варианта, то F*(x) = 0 при х≤ х1; если хк – наибольшая 4) Если хк – наибольшая варианта, то F*(x) = 1 при х > хк . Для непрерывного признака графической иллюстрацией служит гистограмма, то есть ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длиной h, а высотами – отрезки длиной ni/h (гистограмма частот) или wi/h (гистограмма относительных частот). В первом случае площадь гистограммы равна объему выборки, во втором – единице (рис. 2).
1 2 (a, a + h) (a + h, a + 2h) n1 n2
… … …
k (b – h, b) nk
1.2. Полигон частот. Выборочная функция распределения и гистограмма Для наглядного представления о поведении исследуемой случайной величины в выборке можно строить различные графики. Один из них – полигон частот: ломаная, отрезки которой соединяют точки с координатами (x1, n1), (x2, n2), …, (xk, nk), где xi откладываются на оси абсцисс, а ni – на оси ординат. Если на оси ординат откладывать не абсолютные (ni), а относительные (wi) частоты, то получим полигон относительных частот (рис. 1).
F * ( x) =
nx , n
Рис. 1
По аналогии с функцией распределения случайной величины можно задать некоторую функцию, относительную частоту события X < x. 77
Рис. 2 78
(1)
3.2. Числовые характеристики статистического распределения
Одна из задач математической статистики: по имеющейся выборке оценить значения числовых характеристик исследуемой случайной величины. Определение. Выборочным средним называется среднее арифметическое значений случайной величины, принимаемых в выборке: k
х + х 2 + ... + х п n1 x1 + n2 x 2 + ... + nk x k хВ = 1 = = п n
∑n x i
i =1
n
i
,
(2)
где xi – варианты, ni – частоты. З а м е ч а н и е . Выборочное среднее служит для оценки математического ожидания исследуемой случайной величины. В дальнейшем будет рассмотрен вопрос, насколько точной является такая оценка. Определение. Выборочной дисперсией называется n
DB =
∑ ( xi − x B ) 2 i =1
n
k
=
∑ n (x i =1
i
i
− xB ) 2 ,
n
2 ⋅3 + 5⋅8 + 7 ⋅ 7 + 8⋅ 2 = 5,55; 20 4 ⋅ 3 + 25 ⋅ 8 + 49 ⋅ 7 + 64 ⋅ 2 − 5,552 = 3,3475; DB = 20 σ B = 3,3475 = 1,83. хВ =
Другими характеристиками вариационного ряда являются: – мода М0 – варианта, имеющая наибольшую частоту (в предыдущем примере М0 = 5). – медиана те – варианта, которая делит вариационный ряд на две части, равные по числу вариант. Если число вариант нечетно ( n = 2k + 1 ), то me = xk+1, а при четном n = 2k те = В частности, в примере 1 me =
Оценки начальных и центральных моментов (так называемые эмпирические моменты) определяются аналогично соответствующим теоретическим моментам: - начальным эмпирическим моментом порядка k называется
(3)
Mk
а выборочным средним квадратическим отклонением –
σ В = DB .
(4) Так же, как в теории случайных величин, можно доказать, что справедлива следующая формула для вычисления выборочной дисперсии:
D = x 2 − (x ) 2 .
(5) Пример 2. Найдем числовые характеристики выборки, заданной статистическим рядом xi ni
2 3
5 8
7 7
8 2
5+7 = 6. 2
x k + x k +1 . 2
В частности, M 1 =
∑n x = i
∑n x i
n
i
n
k i
.
(6)
= x B , то есть начальный эмпи-
рический момент первого порядка равен выборочному среднему. – центральным эмпирическим моментом порядка k называется
тk В частности, т 2 =
∑ n (x = i
i
− хВ ) k
n ∑ ni ( x i − х В ) 2 n
.
(7)
= DB , то есть централь-
ный эмпирический момент второго порядка равен выборочной дисперсии. 79
80
3.3. Основные свойства статистических характеристик параметров распределения
Получив статистические оценки параметров распределения (выборочное среднее, выборочную дисперсию и т. д.), нужно убедиться, что они в достаточной степени служат приближением соответствующих характеристик генеральной совокупности. Определим требования, которые должны при этом выполняться. Пусть Θ* – статистическая оценка неизвестного параметра Θ теоретического распределения. Извлечем из генеральной совокупности несколько выборок одного и того же объема п и вычислим для каждой из них оценку параметра Θ: Θ1* , Θ*2 , ..., Θ*k . Тогда оценку Θ* можно рассматривать как случайную величину, принимающую возможные значения Θ1* , Θ*2 , ..., Θ*k . Если математическое ожидание Θ* не равно оцениваемому параметру, мы будем получать при вычислении оценок систематические ошибки одного знака (с избытком, если М( Θ*) >Θ, и с недостатком, если М(Θ*) < Θ). Следовательно, необходимым условием отсутствия систематических ошибок является требование М(Θ*) = Θ. Определение. Статистическая оценка Θ* называется несмещенной, если ее математическое ожидание равно оцениваемому параметру Θ при любом объеме выборки: М(Θ*) = Θ. (8) Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру. Однако несмещенность не является достаточным условием хорошего приближения к истинному значению оцениваемого параметра. Если при этом возможные значения Θ* могут значительно отклоняться от среднего значения, то есть дисперсия Θ* велика, то значение, найденное по данным одной выборки, может значительно отличаться от оцениваемого параметра. Следовательно, требуется наложить ограничения на дисперсию. Определение. Статистическая оценка называется эффективной, если она при заданном объеме выборки п имеет наименьшую возможную дисперсию. При рассмотрении выборок большого объема к статистическим оценкам предъявляется еще и требование состоятельности. 81
Определение. Состоятельной называется статистическая оценка, которая при п→∞ стремится по вероятности к оцениваемому параметру (если эта оценка несмещенная, то она будет состоятельной, если при п→∞ ее дисперсия стремится к 0). Убедимся, что х В представляет собой несмещенную оценку математического ожидания М(Х). Будем рассматривать х В как случайную величину, а х1, х2, …, хп, т. е. значения исследуемой случайной величины, составляющие выборку, – как независимые, одинаково распределенные случайные величины Х1, Х2, …, Хп, имеющие математическое ожидание а. Из свойств математического ожидания следует, что
⎛ Х + Х 2 + ... + Х п ⎞ М (Х В ) = М ⎜ 1 ⎟ = а. п ⎝ ⎠ Но, поскольку каждая из величин Х1, Х2, …, Хп имеет такое же распределение, что и генеральная совокупность, а = М(Х), т. е. М( Х В ) = М(Х), что и требовалось доказать. Выборочное среднее является не только несмещенной, но и состоятельной оценкой математического ожидания. Если предположить, что Х1, Х2, …, Хп имеют ограниченные дисперсии, то из теоремы Чебышева следует, что их среднее арифметическое, т. е. Х В , при увеличении п стремится по вероятности к математическому ожиданию а каждой из величин, т. е. к М(Х). Следовательно, выборочное среднее есть состоятельная оценка математического ожидания. В отличие от выборочного среднего, выборочная дисперсия является смещенной оценкой дисперсии генеральной совокупности. Можно доказать, что
М ( DB ) =
n −1 DГ , n
(9)
где DГ – истинное значение дисперсии генеральной совокупности. Можно предложить другую оценку дисперсии – исправленную дисперсию s², вычисляемую по формуле k
s2 =
n DB = n −1
∑ n (x i =1
i
i
− xB ) 2
n −1 82
.
(10)
Такая оценка будет являться несмещенной. Ей соответствует исправленное среднее квадратическое отклонение k
s = s2 =
∑ n (x i =1
i
i
− xB ) 2
n −1
.
(11)
Определение. Оценка некоторого признака называется асимптотически несмещенной, если для выборки х1, х2, …, хп
lim n→∞
x1 + x 2 + ... + x n =X, n
(12)
где Х – истинное значение исследуемой величины. 3.4. Способы построения оценок Метод наибольшего правдоподобия Пусть Х – дискретная случайная величина, которая в результате п испытаний приняла значения х1, х2, …, хп. Предположим, что нам известен закон распределения этой величины, определяемый параметром Θ, но неизвестно численное значение этого параметра. Найдем его точечную оценку. Пусть р(хi, Θ) – вероятность того, что в результате испытания величина Х примет значение хi. Назовем функцией правдоподобия дискретной случайной величины Х функцию аргумента Θ, определяемую по формуле: L (х1, х2, …, хп; Θ) = p(x1,Θ)p(x2,Θ)…p(xn,Θ). Тогда в качестве точечной оценки параметра Θ принимают такое его значение Θ* = Θ(х1, х2, …, хп), при котором функция правдоподобия достигает максимума. Оценку Θ* называют оценкой наибольшего правдоподобия. Поскольку функции L и lnL достигают максимума при одном и том же значении Θ, удобнее искать максимум lnL – логарифмической функции правдоподобия. Для этого нужно:
d ln L 1) найти производную ; dΘ
3) найти вторую производную
d 2 ln L ; если она отрицаdΘ 2
тельна в критической точке, то это – точка максимума. Достоинства метода наибольшего правдоподобия: полученные оценки состоятельны (хотя могут быть смещенными), распределены асимптотически нормально при больших значениях п и имеют наименьшую дисперсию по сравнению с другими асимптотически нормальными оценками; если для оцениваемого параметра Θ существует эффективная оценка Θ*, то уравнение правдоподобия имеет единственное решение Θ*; метод наиболее полно использует данные выборки и поэтому особенно полезен в случае малых выборок. Недостаток метода наибольшего правдоподобия: сложность вычислений. Для непрерывной случайной величины с известным видом плотности распределения f(x) и неизвестным параметром Θ функция правдоподобия имеет вид: L (х1, х2, …, хп; Θ) = f(x1,Θ)f(x2,Θ)…f(xn,Θ). Оценка наибольшего правдоподобия неизвестного параметра проводится так же, как для дискретной случайной величины. Метод моментов Метод моментов основан на том, что начальные и центральные эмпирические моменты являются состоятельными оценками соответственно начальных и центральных теоретических моментов, поэтому можно приравнять теоретические моменты соответствующим эмпирическим моментам того же порядка. Если задан вид плотности распределения f(x, Θ), определяемой одним неизвестным параметром Θ, то для оценки этого параметра достаточно иметь одно уравнение. Например, можно приравнять начальные моменты первого порядка: ∞
xB = M ( X ) =
∫ xf ( x; Θ)dx = ϕ (Θ) ,
−∞
2) приравнять ее к нулю (получим так называемое уравнение правдоподобия) и найти критическую точку;
получив тем самым уравнение для определения Θ. Его решение Θ* будет точечной оценкой параметра, которая является функцией от выборочного среднего и, следовательно, от вариант выборки:
83
84
Θ = ψ (х1, х2, …, хп). Если известный вид плотности распределения f(x, Θ1, Θ2 ) определяется двумя неизвестными параметрами Θ1 и Θ2, то требуется составить два уравнения, например ν1 = М1, µ2 = т2.
⎧М ( Х ) = х В Отсюда ⎨ – система двух уравнений с двумя ⎩D( X ) = DB
Рассмотрим в качестве примера подбор параметров линейной функции методом наименьших квадратов. Для того, чтобы оценить параметры а и b в функции y = ax + b, найдем
⎛ ∂ϕ ⎞ ⎛ ∂ϕ ⎞ ⎟ = 1. ⎟ = xi ; ⎜ ⎜ ⎝ ∂b ⎠ i ⎝ ∂а ⎠ i
Тогда
⎧ n ⎪∑ ( yi − (axi + b)) xi = 0 ⎪ i =1 ⎨ n ⎪ ( yi − (axi + b)) = 0. ⎪⎩ ∑ i =1
неизвестными Θ1 и Θ2. Ее решениями будут точечные оценки Θ1* и Θ2* – функции вариант выборки: Θ1 = ψ1 (х1, х2, …, хп), Θ2 = ψ2(х1, х2, …, хп). Метод наименьших квадратов Если требуется оценить зависимость величин у и х, причем известен вид связывающей их функции, но неизвестны значения входящих в нее коэффициентов, их величины можно оценить по имеющейся выборке с помощью метода наименьших квадратов. Для этого функция у = φ (х) выбирается так, чтобы сумма квадратов отклонений наблюдаемых значений у1, у2, …, уп от φ(хi) была минимальной: n
∑(y i =1
i
− ϕ ( xi )) 2 = min .
При этом требуется найти стационарную точку функции φ(x; a, b, c…), т. е. решить систему:
⎧n ⎛ ∂ϕ ⎞ ⎪∑ ( y i − ϕ ( xi ; a, b, c...))⎜ ∂a ⎟ = 0 ⎠i ⎝ ⎪ i =n1 ⎪⎪ ( y − ϕ ( x ; a, b, c...))⎛ ∂ϕ ⎞ = 0 ⎜ ⎟ ∑ i i ⎨ i =1 ⎝ ∂b ⎠ i ⎪n ⎛ ∂ϕ ⎞ ⎪∑ ( y i − ϕ ( xi ; a, b, c...))⎜ ⎟ =0 ⎝ ∂c ⎠ i ⎪ i =1 ⎪⎩ ........................................
Отсюда n n ⎧ n 2 x y − a x − b xi = 0 ∑ ∑ ∑ i i i ⎪ ⎪ i =1 i =1 i =1 ⎨ n n ⎪ y a xi − bn = 0. − ∑ i ⎪⎩ ∑ i =1 i =1
Разделив оба полученных уравнения на п и вспомнив определения эмпирических моментов, можно получить выражения для а и b в виде:
a=
( K xy ) B ( Dx ) B
, b = yB −
( K xy ) B ( Dx ) B
xB .
Следовательно, связь между х и у можно задать в виде:
y − yB =
( K xy ) B ( Dx ) B
( x − x B ).
3.5. Интервальное оценивание неизвестных параметров
(решение, конечно, возможно только в случае, когда известен конкретный вид функции φ).
При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, что приводит к грубым ошибкам. Поэтому в таком случае лучше пользоваться интервальными оценками, т. е. указывать интервал, в который с заданной вероятностью попадает истинное значение оцениваемого
85
86
параметра. Разумеется, чем меньше длина этого интервала, тем точнее оценка параметра. Поэтому, если для оценки Θ* некоторого параметра Θ справедливо неравенство | Θ* – Θ | < δ, число δ > 0 характеризует точность оценки (чем меньше δ, тем точнее оценка). Но статистические методы позволяют говорить только о том, что это неравенство выполняется с некоторой вероятностью. Определение. Надежностью (доверительной вероятностью) оценки Θ* параметра Θ называется вероятность γ того, что выполняется неравенство | Θ* – Θ | < δ. Если заменить это неравенство двойным неравенством – δ < Θ* – Θ < δ, то получим: p( Θ* – δ < Θ < Θ* + δ ) = γ. Таким образом, γ есть вероятность того, что Θ попадает в интервал ( Θ* – δ, Θ* + δ). Определение. Доверительным интервалом называется интервал, в который попадает неизвестный параметр с заданной надежностью γ. Построение доверительных интервалов 1. Доверительный интервал для оценки математического ожидания нормального распределения при известной дисперсии. Пусть исследуемая случайная величина Х распределена по нормальному закону с известным средним квадратическим σ, и требуется по значению выборочного среднего х В оценить ее математическое ожидание а. Будем рассматривать выборочное среднее х В как случайную величину Х , а значения вариант выборки х1, х2, …, хп как одинаково распределенные независимые случайные величины Х1, Х2, …, Хп, каждая из которых имеет математическое ожидание а и среднее квадратическое отклонение σ. При этом
М( Х ) = а, σ ( Х ) =
σ
п
(используем свойства математического
⎛δ ⎞ ⎟. ⎝σ ⎠
р ( | X − a |< δ ) = 2Ф ⎜ Тогда, с учетом того, что
σ (Х ) = где t =
σ п
⎛δ п ⎞ ⎟ ⎜ σ ⎟ =2Ф( t ), ⎝ ⎠
, р ( | X − a |< δ ) = 2Ф ⎜
δ n tσ . Отсюда δ = , и предыдущее равенство можно σ n
переписать так:
⎛ tσ ⎞ tσ < a < xB + ⎟⎟ = 2Φ (t ) = γ . p⎜⎜ x B − n⎠ n ⎝
(13)
Итак, значение математического ожидания а с вероятностью
⎛
tσ
⎝
n
(надежностью) γ попадает в интервал ⎜⎜ x B −
; xB +
tσ ⎞ ⎟⎟ , где n⎠
значение t определяется из таблиц для функции Лапласа так, чтобы выполнялось равенство 2Ф(t) = γ. Пример 3. Найдем доверительный интервал для математического ожидания нормально распределенной случайной величины, если объем выборки п = 49, x B = 2,8, σ = 1,4, а доверительная вероятность γ = 0,9. Р е ш е н и е . Определим t, при котором Ф(t) = 0,9:2 = 0,45:t = = 1,645. Отсюда:
2,8 −
1,645 ⋅ 1,4 49
< a < 2,8 +
1,645 ⋅ 1,4 14
,
или 2,471 < a < 3,129. Найден доверительный интервал, в который попадает а с надежностью 0,9.
ожидания и дисперсии суммы независимых случайных величин). Оценим вероятность выполнения неравенства | X − a |< δ . Применим формулу для вероятности попадания нормально распределенной случайной величины в заданный интервал:
2. Доверительный интервал для оценки математического ожидания нормального распределения при неизвестной дисперсии. Если известно, что исследуемая случайная величина Х распределена по нормальному закону с неизвестным средним квадратическим отклонением, то для поиска доверительного интервала
87
88
для ее математического ожидания построим новую случайную величину
T=
xB − a , s
(14)
гда 3 −
n где x B – выборочное среднее, s – исправленная дисперсия, п – объем выборки. Эта случайная величина, возможные значения которой будем обозначать t, имеет распределение Стьюдента с k = n – 1 степенями свободы. Поскольку плотность распределения Стьюдента
⎛ t2 ⎞ ⎟⎟ s (t , n) = Bn ⎜⎜1 + ⎝ n −1⎠
−
n 2
,
где
25
< a < 3+
2,797 ⋅ 1,5 25
, или 2,161< a < 3,839 – до-
верительный интервал, в который попадает а с вероятностью 0,99. 3. Доверительные интервалы для оценки среднего квадратического отклонения нормального распределения. Будем искать для среднего квадратического отклонения нормально распределенной случайной величины доверительный интервал вида (s – δ, s +δ), где s – исправленное выборочное среднее квадратическое отклонение, а для δ выполняется условие: p (|σ – s| < δ ) = γ. Запишем это неравенство в виде:
или, обозначив q =
явным образом не зависит от а и σ, можно задать вероятность ее попадания в некоторый интервал (- tγ, tγ), учитывая четность плотности распределения, следующим образом:
⎞ ⎟ tγ ⎟ = 2 s (t , n)dt = γ . ∫0 ⎟ ⎟ ⎠
δ
s
,
s (1 − q ) < σ < s (1 + q ) . (16) Рассмотрим случайную величину χ, определяемую по формуле
χ=
s
n −1 ,
σ
которая распределена по закону «хи-квадрат» с п-1 степенями свободы. Плотность ее распределения
Отсюда получаем:
tγ s tγ s ⎞ ⎛ ⎟⎟ = γ . p⎜⎜ x B − < a < xB + n n ⎝ ⎠
2,797 ⋅ 1,5
⎛ δ⎞ ⎛ δ⎞ s ⎜1 − ⎟ < σ < s ⎜1 + ⎟ s⎠ s⎠ ⎝ ⎝
⎛n⎞ Γ⎜ ⎟ ⎝2⎠ , Bn = ⎛ n −1⎞ π (n − 1)Γ⎜ ⎟ ⎝ 2 ⎠
⎛ ⎜ x −a p⎜ B < tγ ⎜ s ⎜ n ⎝
Пример 4. Пусть объем выборки п = 25, х В = 3, s = 1,5. Р е ш е н и е . Найдем доверительный интервал для а при γ = 0,99. Из таблицы находим, что tγ (п = 25, γ = 0,99) = 2,797. То-
χ
R ( χ , n) = (15)
2
n −3 2
n−2
e
−
χ2 2
⎛ n −1⎞ Γ⎜ ⎟ ⎝ 2 ⎠
Таким образом, получен доверительный интервал для а, где tγ можно найти по соответствующей таблице при заданных п и γ.
не зависит от оцениваемого параметра σ, а зависит только от объема выборки п. Преобразуем неравенство (16) так, чтобы оно приняло вид χ1 < χ < χ2. Вероятность выполнения этого неравенства равна доверительной вероятности γ, следовательно,
89
90
χ2
∫ R( χ , n)dχ = γ .
3.6. Статистическая проверка статистических гипотез
Пример 5. Пусть п = 20, s = 1,3. Найдем доверительный интервал для σ при заданной надежности γ = 0,95. Р е ш е н и е . Из соответствующей таблицы находим q (n = 20, γ = 0,95) = 0,37. Следовательно, границы доверительного интервала: 1,3(1-0,37) = 0,819 и 1,3(1+0,37) = 1,781. Итак, 0,819 < σ < 1,781 с вероятностью 0,95.
Определение. Статистической гипотезой называют гипотезу о виде неизвестного распределения генеральной совокупности или о параметрах известных распределений. Определение. Нулевой (основной) называют выдвинутую гипотезу Н0. Конкурирующей (альтернативной) называют гипотезу Н1, которая противоречит нулевой. Пример 6. Пусть Н0 заключается в том, что математическое ожидание генеральной совокупности а = 3. Тогда возможные варианты Н1: а) а ≠ 3; б) а > 3; в) а < 3. Определение. Простой называют гипотезу, содержащую только одно предположение, сложной – гипотезу, состоящую из конечного или бесконечного числа простых гипотез. Пример 7. Для показательного распределения гипотеза Н0: λ = 2 – простая, Н0: λ > 2 – сложная, состоящая из бесконечного числа простых (вида λ = с, где с – любое число, большее 2). В результате проверки правильности выдвинутой нулевой гипотезы (такая проверка называется статистической, так как производится с применением методов математической статистики) возможны ошибки двух видов: ошибка первого рода, состоящая в том, что будет отвергнута правильная нулевая гипотеза, и ошибка второго рода, заключающаяся в том, что будет принята неверная гипотеза. З а м е ч а н и е . Какая из ошибок является на практике более опасной, зависит от конкретной задачи. Например, если проверяется правильность выбора метода лечения больного, то ошибка первого рода означает отказ от правильной методики, что может замедлить лечение, а ошибка второго рода (применение неправильной методики) чревата ухудшением состояния больного и является более опасной. Определение. Вероятность ошибки первого рода называется уровнем значимости α. Основной прием проверки статистических гипотез заключается в том, что по имеющейся выборке вычисляется значение некоторой случайной величины, имеющей известный закон распределения.
91
92
χ1
Предположим, что q < 1, тогда неравенство (16) можно записать так:
1 1 1 , < < s (1 + q) σ s (1 − q) или, после умножения на s n − 1 ,
n −1 s n −1 n −1 . < < 1+ q σ 1− q Следовательно,
n −1 n −1 . <χ< 1+ q 1− q Тогда n −1 1− q
∫ R ( χ , n ) dχ = γ .
n −1 1+ q
Существуют таблицы для распределения «хи-квадрат», из которых можно найти q по заданным п и γ, не решая этого уравнения. Таким образом, вычислив по выборке значение s и определив по таблице значение q, можно найти доверительный интервал (16), в который значение σ попадает с заданной вероятностью γ. З а м е ч а н и е . Если q > 1, то с учетом условия σ > 0 доверительный интервал для σ будет иметь границы 0 < σ < s (1 + q) . (17)
Определение. Статистическим критерием называется случайная величина К с известным законом распределения, служащая для проверки нулевой гипотезы. Определение. Критической областью называют область значений критерия, при которых нулевую гипотезу отвергают, а областью принятия гипотезы называют область значений критерия, при которых гипотезу принимают. Итак, процесс проверки гипотезы состоит из следующих этапов: 1) выбирается статистический критерий К; 2) вычисляется его наблюдаемое значение Кнабл по имеющейся выборке; 3) поскольку закон распределения К известен, определяется (по известному уровню значимости α) критическое значение kкр, разделяющее критическую область и область принятия гипотезы (например, если р(К > kкр) = α, то справа от kкр располагается критическая область, а слева – область принятия гипотезы); 4) если вычисленное значение Кнабл попадает в область принятия гипотезы, то нулевая гипотеза принимается, если в критическую область, то нулевая гипотеза отвергается. Различают отдельные виды критических областей: – правостороннюю критическую область, определяемую неравенством K > kкр ( kкр > 0); – левостороннюю критическую область, определяемую неравенством K < kкр ( kкр < 0); – двустороннюю критическую область, определяемую неравенствами K < k1, K > k2 (k2 > k1). Определение. Мощностью критерия называют вероятность попадания критерия в критическую область при условии, что верна конкурирующая гипотеза. Если обозначить вероятность ошибки второго рода (принятия неправильной нулевой гипотезы) β, то мощность критерия равна 1 – β. Следовательно, чем больше мощность критерия, тем меньше вероятность совершить ошибку второго рода. Поэтому после выбора уровня значимости следует строить критическую область так, чтобы мощность критерия была максимальной. 93
Критерий для проверки гипотезы о вероятности события Пусть проведено п независимых испытаний (п – достаточно большое число), в каждом из которых некоторое событие А появляется с одной и той же, но неизвестной вероятностью р, и найде-
на относительная частота
т появлений А в этой серии испытап
ний. Проверим при заданном уровне значимости α нулевую гипотезу Н0, состоящую в том, что вероятность р равна некоторому значению р0. Примем в качестве статистического критерия случайную величину
⎛M ⎞ ⎜ − p0 ⎟ n n ⎠ , U=⎝ p0 q0
(18)
имеющую нормальное распределение с параметрами M(U) = 0, σ(U) = 1 (т. е. нормированную). Здесь q0 = 1 – p0. Вывод о нормальном распределении критерия следует из теоремы Лапласа (при достаточно большом п относительную частоту можно приближенно считать нормально распределенной с математическим ожиданием р и средним квадратическим отклонением
pq ). n
Критическая область строится в зависимости от вида конкурирующей гипотезы. 1) Если Н0: р = р0, а Н1: р ≠ р0, то критическую область нужно построить так, чтобы вероятность попадания критерия в эту область равнялась заданному уровню значимости α. При этом наибольшая мощность критерия достигается тогда, когда критическая область состоит из двух интервалов, вероятность попадания в α каждый из которых равна . Поскольку U симметрична относи2 тельно оси Оу, вероятность ее попадания в интервалы (-∞; 0) и (0; +∞) равна 0,5, следовательно, критическая область тоже должна быть симметрична относительно Оу. Поэтому икр определяется по
94
таблице значений функции Лапласа из условия Ф (и кр ) = критическая область имеет вид ( −∞;−и кр ) ∪ (и кр ;+∞ ) .
1−α , а 2
З а м е ч а н и е . Предполагается, что используется таблица х
∫
значений функции Лапласа, заданной в виде Ф( х) = е
−
t2 2
dt , где
0
нижний предел интегрирования равен 0, а не -∞. Функция Лапласа, заданная таким образом, является нечетной, а ее значения на 0,5 меньше, чем значения стандартной функции Ф(х). Далее нужно вычислить наблюдаемое значение критерия:
U набл
⎛т ⎞ ⎜ − p0 ⎟ n n ⎠ =⎝ . p0 q0
(19)
Если |Uнабл| < uкр, то нулевая гипотеза принимается. Если |Uнабл| > uкр, то нулевая гипотеза отвергается. 2) Если конкурирующая гипотеза Н1: р > p0, то критическая область определяется неравенством U > uкр, т. е. является правосторонней, причем р(U > uкр) = α. 1 1 − 2α . Тогда р(0 < U < u кр ) = − α = 2 2 Следовательно, икр можно найти по таблице значений функ1 − 2α . Вычислим наблюции Лапласа из условия, что Ф(и кр ) = 2 даемое значение критерия по формуле (19). Если Uнабл < uкр, то нулевая гипотеза принимается. Если Uнабл > uкр, то нулевая гипотеза отвергается. 3) Для конкурирующей гипотезы Н1: р < p0 критическая область является левосторонней и задается неравенством U <- uкр, где икр вычисляется так же, как в предыдущем случае. Если Uнабл > – uкр, то нулевая гипотеза принимается. Если Uнабл < – uкр, то нулевая гипотеза отвергается. Пример 8. Пусть проведено 50 независимых испытаний, и относительная частота появления события А оказалась равной 0,12. 95
Проверим при уровне значимости α = 0,01 нулевую гипотезу Н0: р = 0,1 при конкурирующей гипотезе Н1: р > 0,1. Р е ш е н и е . Найдем (0,12 − 0,1) 50 U набл = = 0,471. 0,1 ⋅ 0,9 Критическая область является правосторонней, а икр нахо1 − 2 ⋅ 0,01 дим из равенства Ф(икр) = = 0,49. Из таблицы значений 2 функции Лапласа определяем икр = 2,33. Итак, Uнабл < uкр, и гипотеза о том, что р = 0,1, принимается. Критерий для проверки гипотезы о математическом ожидании Пусть генеральная совокупность Х имеет нормальное распределение, и требуется проверить предположение о том, что ее математическое ожидание равно некоторому числу а0. Рассмотрим две возможности. 1) Известна дисперсия σ2 генеральной совокупности. Тогда по выборке объема п найдем выборочное среднее х В и проверим нулевую гипотезу Н0: М(Х) = а0. Учитывая, что выборочное среднее Х является несмещенной оценкой М(Х), то есть М( Х ) = М(Х), можно записать нулевую гипотезу так: М( Х ) = а0. Для ее проверки выберем критерий
U=
X − a0 ( X − a0 ) n . = σ (X ) σ
(20)
Это случайная величина, имеющая нормальное распределение, причем, если нулевая гипотеза справедлива, то М(U) = 0, σ(U) = 1. Выберем критическую область в зависимости от вида конкурирующей гипотезы: 1−α если Н1: М( Х ) ≠ а0, то икр: Ф (и кр ) = , критическая об2 ( х − a0 ) n ласть двусторонняя, U набл = , и, если |Uнабл| < uкр, то нуσ 96
левая гипотеза принимается; если |Uнабл| > uкр, то нулевая гипотеза отвергается; 1 − 2α если Н1: М( Х ) > а0, то икр: Ф (и кр ) = , критическая об2 ласть правосторонняя, и, если Uнабл < uкр, то нулевая гипотеза принимается; если Uнабл > uкр, то нулевая гипотеза отвергается; 1 − 2α , критическая обесли Н1: М( Х ) < а0, то икр: Ф (и кр ) = 2 ласть левосторонняя, и, если Uнабл > – uкр, то нулевая гипотеза принимается; если Uнабл < – uкр, то нулевая гипотеза отвергается. 2) Дисперсия генеральной совокупности неизвестна. В этом случае выберем в качестве критерия случайную величину
T=
( X − a0 ) n , S
(21)
где S – исправленное среднее квадратическое отклонение. Такая случайная величина имеет распределение Стьюдента с k = n – 1 степенями свободы. Рассмотрим те же, что и в предыдущем случае, конкурирующие гипотезы и соответствующие им критические области. Предварительно вычислим наблюдаемое значение критерия:
Tнабл =
( х В − a0 ) n . S
(22)
Если Н1: М( Х ) ≠ а0, то критическая точка tдвуст.кр. находится по таблице критических точек распределения Стьюдента по известным α и k = n – 1: если | Tнабл | < tдвуст.кр., то нулевая гипотеза принимается; если | Tнабл | > tдвуст.кр., то нулевая гипотеза отвергается; если Н1: М( Х ) > а0, то по соответствующей таблице находят tправост.кр.(α, k) – критическую точку правосторонней критической области. Нулевая гипотеза принимается, если Tнабл < tправост.кр.. При конкурирующей гипотезе Н1: М( Х ) < а0 критическая область является левосторонней, и нулевая гипотеза принимается при условии Tнабл > – tправост.кр.. Если Tнабл<-tправост.кр., нулевую гипотезу отвергают. 97
3.7. Критерии проверки гипотезы о виде закона распределения случайной величины
В предыдущем параграфе рассматривались гипотезы, в которых закон распределения генеральной совокупности предполагался известным. Теперь займемся проверкой гипотез о предполагаемом законе неизвестного распределения, т. е. будем проверять нулевую гипотезу о том, что генеральная совокупность распределена по некоторому известному закону. Обычно статистические критерии для проверки таких гипотез называются критериями согласия. Критерий Пирсона Достоинством критерия Пирсона является его универсальность: с его помощью можно проверять гипотезы о различных законах распределения.
1. Проверка гипотезы о нормальном распределении Пусть получена выборка достаточно большого объема п с большим количеством различных значений вариант. Для удобства ее обработки разделим интервал от наименьшего до наибольшего из значений вариант на s равных частей и будем считать, что значения вариант, попавших в каждый интервал, приближенно равны числу, задающему середину интервала. Подсчитав число вариант, попавших в каждый интервал, составим так называемую сгруппированную выборку: варианты………..х1, х2, …, хs частоты………….п1, п2, …, пs , где хi – значения середин интервалов, а пi – число вариант, попавших в i-й интервал (эмпирические частоты). По полученным данным можно вычислить выборочное среднее х В и выборочное среднее квадратическое отклонение σВ. Проверим предположение, что генеральная совокупность распределена по нормальному закону с параметрами M(X) = х В , D(X) =
σ В2 . Тогда можно найти количество чисел из выборки объема п, которое должно оказаться в каждом интервале при этом предположении (т. е. теоретические частоты). Для этого по таблице зна98
чений функции Лапласа найдем вероятность попадания в i-й интервал:
⎛ b − xB pi = Φ⎜⎜ i ⎝ σB
⎞ ⎛ a − xB ⎟⎟ − Φ⎜⎜ i ⎠ ⎝ σB
i =1
⎞ ⎟⎟ , ⎠
где аi и bi – границы i-го интервала. Умножив полученные вероятности на объем выборки n, найдем теоретические частоты: пi =n·pi. Наша цель – сравнить эмпирические и теоретические частоты, которые, конечно, отличаются друг от друга, и выяснить, являются ли эти различия несущественными, не опровергающими гипотезу о нормальном распределении исследуемой случайной величины, или они настолько велики, что противоречат этой гипотезе. Для этого используется критерий в виде случайной величины s
χ2 = ∑ i =1
(ni − ni′ ) 2 . ni′
s
2 χ набл =∑
2 2 Если χ набл < χ kp2 – нулевую гипотезу принимают, при χ набл > χ kp2
ее отвергают. 2. Проверка гипотезы о равномерном распределении При использовании критерия Пирсона для проверки гипотезы о равномерном распределении генеральной совокупности с предполагаемой плотностью вероятности
⎧ 1 , x ∈ ( a, b ) ⎪ f ( x) = ⎨ b − a ⎪⎩ 0, x ∉ (a, b) необходимо, вычислив по имеющейся выборке значение x B , оценить параметры а и b по формулам: (25) а* = х В − 3σ В , b* = x B + 3σ B , где а* и b* – оценки а и b. Действительно, для равномерного распределения
a+b , σ ( x) = D( X ) = М(Х) = 2
Итак, для проверки нулевой гипотезы Н0 – генеральная совокупность распределена нормально – нужно вычислить по выборке наблюдаемое значение критерия:
⎧ b * +a * = xB ⎪⎪ 2 , ⎨ b * −a * =σB ⎪ ⎪⎩ 2 3 решением которой являются выражения (25). Затем, предполагая, что f ( x ) =
1 , можно найти теоретические частоты по форb * −a *
мулам
99
(a − b) 2 a − b , = 12 2 3
откуда можно получить систему для определения а* и b*:
где α – уровень значимости. Следовательно, критическая область задается неравенством χ 2 > χ kp2 (α , k ), а область принятия гипотезы – χ 2 < χ kp2 (α , k ) .
(23`)
а по таблице критических точек распределения χ2 найти критиче2 скую точку χ кр (α , k ) , используя известные значения α и k = s – 3.
(23)
Смысл ее очевиден: суммируются квадраты отклонений эмпирических частот от соответствующих теоретических частот. Можно доказать, что вне зависимости от реального закона распределения генеральной совокупности закон распределения случайной величины (23) при п → ∞ стремится к закону распределения χ 2 с числом степеней свободы k = s – 1 – r, где r – число параметров предполагаемого распределения, оцененных по данным выборки. Нормальное распределение характеризуется двумя параметрами, поэтому k = s – 3. Для выбранного критерия строится правосторонняя критическая область, определяемая условием (24) p( χ 2 > χ kp2 (α , k )) = α ,
(ni − ni′ ) 2 , ni′
100
n1′ = np1 = nf ( x)( x1 − a*) = n ⋅ n2′ = n3′ = ... = ns′−1 = n ⋅
n ′s = n ⋅
1 ( x1 − a*); b * −a *
1 ( xi − xi −1 ), i = 1, 2, ..., s − 1; b * −a *
1 (b * − x s −1 ). b * −a *
Здесь s – число интервалов, на которые разбита выборка. Наблюдаемое значение критерия Пирсона вычисляется по формуле (23`), а критическое – по таблице с учетом того, что число степеней свободы k = s – 3. После этого границы критической области определяются так же, как и для проверки гипотезы о нормальном распределении. 3. Проверка гипотезы о показательном распределении В этом случае, разбив имеющуюся выборку на равные по длине интервалы, рассмотрим последовательность вариант x + xi +1 , равноотстоящих друг от друга (считаем, что все ваxi* = i 2 рианты, попавшие в i-й интервал, принимают значение, совпадающее с его серединой), и соответствующих им частот ni (число вариант выборки, попавших в i-й интервал). Вычислим по этим данным x B и примем в качестве оценки параметра λ величину 1 . Тогда теоретические частоты вычисляются по формуле λ* = хВ
ИНФОРМАТИКА Войти в XXI век образованным человеком можно, только хорошо владея информационными технологиями. Ведь деятельность людей все в большей степени зависит от их информированности, способности эффективно использовать информацию. Для свободной ориентации в информационных потоках современный специалист любого профиля – инженер, экономист, юрист, социолог, журналист и др. – должен уметь получать, обрабатывать и использовать информацию с помощью компьютеров, телекоммуникаций и других средств связи. Специалисту, чтобы на должном уровне выполнять свои обязанности, необходимы инструментарий и методология его применения для обработки информации. Это сравнимо с использованием средств передвижения: теоретически человек может пешком преодолеть любое расстояние, но современный темп жизни просто немыслим без применения автомобиля, поезда, самолета и т. д. То же самое происходит и в области, связанной с обработкой информации: теоретически человек сам может переработать без компьютера любую информацию, но сделает это эффективнее, если овладеет соответствующими знаниями и умениями. Заложить фундамент информационной культуры призвана дисциплина «Информатика». В настоящем разделе рассматриваются основные офисные компьютерные технологии и системное программное обеспечение, основы организации и функционирования компьютерных сетей.
ni′ = ni p i = ni p ( xi < X < xi +1 ) = ni (e − λxi − e − λxi +1 ). Затем сравниваются наблюдаемое и критическое значение критерия Пирсона с учетом того, что число степеней свободы k = s – 2.
101
102
1. ОСНОВНЫЕ КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ 1.1. Работа с текстом
При описании текстовых процессоров (прикладное программное обеспечение, используемое для создания текстовых документов) следует выделить две группы программных продуктов этого типа. Первая группа ориентирована на создание документов разной степени сложности с мощными средствами форматирования и включения графики. Типичным представителем этой группы является текстовый процессор Microsoft Word. Вторая группа текстовых процессоров (их часто называют текстовыми редакторами) ориентирована на работу с чисто текстовыми файлами, среди которых могут быть тексты программ, написанные на различных языках, конфигурационные файлы, файлы настройки и другие. Ярким представителем таких программных продуктов является MultiEdit версий, начиная с 5.0. Этот текстовый редактор имеет мощную систему контекстной замены, встроенный язык макрокоманд на уровне Visual Basic, средства поддержки внутренней среды, средства помощи при наборе ключевых слов. Редакторы текстов программ Редакторы текстов программ рассчитаны на редактирование программ на том или ином языке программирования. Часто они встроены в систему программирования на некотором языке программирования, и непосредственно из них можно запускать программы на компиляцию и выполнение. Примером могут служить редакторы, встроенные в системы программирования Turbo С, Turbo Pascal и т. д., а также MultiEdit и Brief. Редакторы, рассчитанные на тексты программ, как правило, выполняют следующие функции: • диалоговый просмотр текста; • редактирование строк программы; • копирование и перенос блоков текста; • копирование одной программы или ее части в указанное место другой программы; 103
• контекстный поиск и замену подстрок текста; • автоматический поиск строки, содержащей ошибку; • распечатку программы или ее части. Кроме того, часто редакторы текстов программ позволяют автоматически проверять синтаксическую правильность программ. Иногда эти редакторы объединены с отладчиками программ на уровне исходного текста. Редакторы текстов программ, как правило, можно использовать для создания и корректировки небольших документов. Однако для серьезной работы с документами лучше использовать редакторы, ориентированные на работу с документами. Редакторы документов Программы обработки документов в отличие от редакторов текстов программ ориентированы на работу с текстами, имеющими структуру документа, т. е. состоящими из разделов, страниц, абзацев, предложений, слов и т. д. Поэтому редакторы для обработки документов могут обеспечивать функции, ориентированные на структуру документа, а именно: • возможность использования различных шрифтов символов; • работу с пропорциональными шрифтами; • задание произвольных межстрочных промежутков; • автоматический перенос слов на новую строку; • автоматическую нумерацию страниц; • обработку и нумерацию сносок; • печать верхних и нижних заголовков страниц (колонтитулов); • выравнивание краев абзаца; • набор текста в несколько столбцов; • создание таблиц и построение диаграмм; • проверку правописания и подбор синонимов; • построение оглавлений, индексов и т. д. Всего существует несколько сотен редакторов текстов, от самых простых до весьма мощных и сложных. Среди наиболее распространенных в мире редакторов назовем Microsoft Word, Tex.
104
Тем пользователям, которым требуется обеспечить высокое качество напечатанных документов или подготавливать документы большого объема, рекламные буклеты или книги необходимо воспользоваться мощным редактором документов – текстовым процессором Microsoft Word. Вот некоторые из функций, поддерживаемых Word: • использование множества различных шрифтов (размеров и начертаний) символов и различных способов их выделения (полужирные, курсивные, подчеркнутые символы и т. д.); • указание параметров абзацев текста и страниц документа; • набор текста в несколько колонок; • печать верхних и нижних колонтитулов произвольного вида; • автоматическое формирование оглавления и различных видов указателей; • различное оформление таблиц и абзацев; • включение рисунков (графических файлов); • макетирование документа в любом виде; • вставка формул и диаграмм; • проверка орфографии и пунктуации. Опытные пользователи очень ценят такую возможность Word, как стили. Word позволяет записать в так называемую таблицу стилей все параметры наиболее часто используемых видов оформления текста: абзацев, символов и разделов документа. Если сделать это, то затем любому участку текста можно будет присвоить один из «стандартных» видов оформления с помощью одногодвух нажатий клавиш. Это не только значительно ускоряет набор документа, но и повышает гибкость его оформления. Например, чтобы изменить шрифт и расположение у всех заголовков некоторого уровня (скажем, заголовков параграфов), не потребуется искать эти заголовки и вручную изменять их форматирование – достаточно исправить стиль для этих заголовков, и они автоматически примут нужное оформление. В одно из многих полезных свойств Word входит автоматическая корректура текста по границам, автоматический перенос слов и правка правописания слов, сохранение текста в определенный устанавливаемый промежуток времени, наличие мастеров
текстов и шаблонов, позволяющих в считанные минуты создать деловое письмо, факс, автобиографию, расписание, календарь и многое другое. Word обеспечивает поиск заданного слова или фрагмента текста, замену его на указанный фрагмент, удаление, копирование во внутренний буфер или замену по шрифту, гарнитуре или размеру шрифта, а также по надстрочным или по подстрочным символам. Наличие закладки в тексте позволяет быстро перейти к заложенному месту в тексте. Можно также автоматически включать в текст дату, время создания, обратный адрес и имя написавшего текст. При помощи макрокоманд Word позволяет включать в текст базы данных или объекты графики, музыкальные модули в формате *.wav. Для ограничения доступа к документу можно установить пароль на текст, который Word будет спрашивать при загрузке текста для выполнения с ним каких-либо действий. Word позволяет открывать много окон для одновременной работы с несколькими текстами, а также разбить одно активное окно по горизонтали на несколько и выровнять их. Word позволяет работать одновременно с несколькими документами, что упрощает работу. В данную программу встроен редактор векторной графики. Векторные графические объекты – это различные схемы, графики, рисунки, выноски и другие. Объекты могут размещаться в любом месте документа, могут изменять свое местоположение, размер, формат, независимо от текста. Word располагает хорошими возможностями для создания и оформления произвольных таблиц. Внешний вид программы Microsoft Word (рис. 1) является характерным для всех программ, написанных под операционную систему Windows. Среди простых редакторов текста в России наибольшее распространение получил Лексикон. Он имеет интерфейс на русском языке и позволяет подготавливать несложные документы с текстом на русском и английском языках. Лексикон удачно заполняет свою «экологическую нишу» – он вполне подойдет тем, кому нужен простой инструмент для подготовки небольших и несложных документов, не требующих высокого полиграфического качества.
105
106
Электронная таблица – самая распространенная и мощная информационная технология для профессиональной работы с данными. Для управления электронной таблицей созданы специальные программные продукты – табличные процессоры. Имеющиеся сегодня на рынке табличные процессоры способны работать в широком круге экономических приложений и могут удовлетворить практически любого пользователя.
Идея создания электронной таблицы возникла у студента Гарвардского университета (США) Дэна Бриклина (Dan Bricklin) в 1979 году. Выполняя скучные вычисления экономического характера с помощью бухгалтерской книги, он и его друг Боб Франкстон (Bob Frankston), который разбирался в программировании, разработали первую программу электронной таблицы, названную ими VisiCalc. Первоначально она предназначалась для компьютеров типа Apple II, но потом была трансформирована для всех типов компьютеров. Многие считают, что резкое повышение продаж компьютеров типа Apple в то время и было связано с возможностью использования на них табличного процессора VisiCalc. В появившихся позже электронных таблицах-аналогах (например, SuperCalc) основные идеи VisiCalc были многократно усовершенствованы. Новый существенный шаг в развитии электронных таблиц – появление в 1982 году на рынке программных средств Lotus 1-2-3. Lotus был первым табличным процессором, интегрировавшим в своем составе, помимо обычных инструментов, графику и возможность работы с системами управления базами данных. Поскольку Lotus был разработан для компьютеров типа IBM, он сделал для этой фирмы то же, что VisiCalc в свое время сделал для фирмы Apple. После разработки Lotus 1-2-3 компания Lotus в первый же год повышает свой объем продаж до 50 млн дол. и становится самой большой независимой компанией – производителем программных средств. Успех компании Lotus привел к ужесточению конкуренции, вызванной появлением на рынке новых электронных таблиц, таких как VP Planner компании Paperback Software и Quattro Pro компании Borland International, которые предложили пользователю практически тот же набор инструментария, но по значительно более низким ценам. Следующий шаг – появление в 1987 году табличного процессора Excel фирмы Microsoft. Эта программа предлагала более простой графический интерфейс в комбинации с ниспадающими меню, значительно расширив при этом функциональные возможности пакета и повысив качество выходной информации. Расширение спектра функциональных возможностей электронной таблицы, как правило, ведет к усложнению работы с программой. Разработчикам Excel удалось найти золотую середину, максимально
107
108
Рис. 1. Внешний вид окна текстового процессора Microsoft Word: 1 – наименование документа; 2 – свернуть окно; 3 – развернуть окно; 4 – закрыть окно; 5 – главное меню; 6 – панель инструментов стандартная; 7 – панель инструментов таблицы и границы; 8 – панель инструментов форматирования; 9 – горизонтальная линейка форматирования; 10 – вертикальная полоса прокрутки; 11 – панель инструментов рисования; 12 – строка состояния; 13 – горизонтальная полоса прокрутки; 14 – различные виды просмотра; 15 – вертикальная линейка форматирования 1.2. Работа с электронными таблицами
облегчив пользователю освоение программы и работу с ней. Благодаря этому Excel быстро завоевала популярность среди широкого круга пользователей. В настоящее время, несмотря на выпуск компанией Lotus новой версии электронной таблицы, в которой использована трехмерная таблица с улучшенными возможностями, Excel занимает ведущее место на рынке табличных процессоров. Рассмотрим основы работы табличных процессоров на примере Microsoft Excel. Итак, электронная таблица – это компьютерный эквивалент обычной таблицы, в клетках (ячейках) которой записаны данные различных типов: тексты, даты, формулы, числа. Результат вычисления формулы в клетке является изображением этой клетки. Числовые данные и даты могут рассматриваться как частный случай формул. Главное достоинство электронной таблицы – это возможность мгновенного пересчета всех данных, связанных формульными зависимостями при изменении значения любого операнда. Рабочая область электронной таблицы состоит из строк и столбцов, имеющих свои имена. Имена строк – это их номера. Нумерация строк начинается с единицы и заканчивается максимальным числом, установленным для данной программы. Имена столбцов – это буквы латинского алфавита сначала от А до Z, затем от АА до AZ, ВА до BZ и т. д. Максимальное количество строк и столбцов определяется особенностями используемой программы и объемом памяти компьютера. Современные программы дают возможность создавать электронные таблицы, содержащие более одного миллиона ячеек, хотя для практических целей в большинстве случаев этого не требуется. Пересечение строки и столбца образует ячейку таблицы, имеющую свой уникальный адрес. Для указания адресов ячеек в формулах используются ссылки (например, А2 и тому подобные). В электронной таблице существует понятие блока (диапазона) ячеек, также имеющего свой уникальный адрес. В качестве блока ячеек может рассматриваться строка или часть строки, столбец или часть столбца, а также прямоугольник, состоящий из нескольких строк и столбцов или их частей. Адрес блока ячеек задается указанием ссылок первой и последней его ячеек, между кото-
рыми, например, ставится разделительный символ – двоеточие «:» или две точки подряд «..». Каждая команда электронной таблицы требует указания блока (диапазона) ячеек, в отношении которых она должна быть выполнена. Блок используемых ячеек может быть указан двумя путями: либо непосредственным набором с клавиатуры начального и конечного адресов ячеек, формирующих диапазон, либо выделением соответствующей части таблицы при помощи клавиш управления курсором. Удобнее задавать диапазон выделением ячеек. Типичными установками, принимаемыми по умолчанию на уровне всех ячеек таблицы, являются: ширина ячейки в 9 разрядов, левое выравнивание для символьных данных и основной формат для цифровых данных с выравниванием вправо. Документ, обрабатываемый табличным процессором Microsoft Excel называется рабочей книгой, содержащей несколько листов, в которые могут входить таблицы, диаграммы или макросы. Можно создать книгу для совместного хранения в памяти интересующих листов и указать, какое количество листов она должна содержать. Все листы рабочей книги сохраняются в одном файле. В каждую ячейку электронной таблицы пользователь может ввести данные одного из следующих возможных типов: символьные, числовые, формулы и функции, а также даты. 1. Символьные (текстовые) данные имеют описательный характер. Они могут включать в себя алфавитные, числовые и специальные символы. 2. Числовые данные не могут содержать алфавитных и специальных символов, поскольку с ними производятся математические операции. Единственными исключениями являются десятичная точка (запятая) и знак числа, стоящий перед ним. 3. Формулы. Видимое на экране содержимое ячейки, возможно, – результат вычислений, произведенных по имеющейся, но не видимой в ней формуле. Формула может включать ряд арифметических, логических и прочих действий, производимых с данными из других ячеек. Начинается формула со знака "=". 4. Функции. Функция представляет собой программу с уникальным именем, для которой пользователь должен задать кон-
109
110
кретные значения аргументов функции, стоящих в скобках после ее имени. Функцию (так же, как и число) можно считать частным случаем формулы. Различают статистические, логические, финансовые и другие функции. 5. Даты. Особым типом входных данных являются даты. Этот тип данных обеспечивает выполнение таких функций, как добавление к дате числа (пересчет даты вперед и назад) или вычисление разности двух дат (длительности периода). Даты имеют внутренний (например, дата может выражаться количеством дней от начала 1900 года или порядковым номером дня по Юлианскому календарю) и внешний формат. Внешний формат используется для ввода и отображения дат. 1.3. Работа с базами данных
Цель любой информационной системы – обработка данных об объектах реального мира. В широком смысле слова база данных – это совокупность сведений о конкретных объектах реального мира в какой-либо предметной области. Под предметной областью принято понимать часть реального мира, подлежащего изучению для организации управления и в конечном счете автоматизации, например, предприятие, вуз и т. д. Централизованный характер управления данными в базе данных предполагает необходимость существования некоторого лица (группы лиц), на которое возлагаются функции администрирования данными, хранимыми в базе. Создавая базу данных, пользователь стремится упорядочить информацию по различным признакам и быстро извлекать выборку с произвольным сочетанием признаков. Сделать это возможно, только если данные структурированы. Структурирование – это введение соглашений о способах представления данных. Неструктурированными называют данные, записанные, например, в текстовом файле. Пользователями базы данных могут быть различные прикладные программы, программные комплексы, а также специалисты предметной области, выступающие в роли потребителей или источников данных, называемые конечными пользователями. 111
В современной технологии баз данных предполагается, что создание базы данных, ее поддержка и обеспечение доступа пользователей к ней осуществляются централизованно с помощью специального программного инструментария – системы управления базами данных. База данных (БД) – это поименованная совокупность структурированных данных, относящихся к определенной предметной области. Система управления базами данных (СУБД) – это комплекс программных и языковых средств, необходимых для создания баз данных, поддержания их в актуальном состоянии и организации поиска в них необходимой информации. Классификация баз данных По технологии обработки данных базы данных подразделяются на централизованные и распределенные. Централизованная база данных хранится в памяти одной вычислительной системы. Если эта вычислительная система является компонентом сети ЭВМ, возможен распределенный доступ к такой базе. Такой способ использования баз данных часто применяют в локальных сетях ПК. Распределенная база данных состоит из нескольких, возможно пересекающихся или даже дублирующих друг друга частей, хранимых в различных ЭВМ вычислительной сети. Работа с такой базой осуществляется с помощью системы управления распределенной базой данных (СУРБД). По способу доступа к данным базы данных делятся на базы данных с локальным доступом и базы данных с удаленным (сетевым) доступом. Системы централизованных баз данных с сетевым доступом предполагают различные архитектуры подобных систем. Файл-сервер. Архитектура систем БД с сетевым доступом предполагает выделение одной из машин сети в качестве центральной (сервер файлов). На такой машине хранится совместно используемая централизованная БД. Все другие машины сети выполняют функции рабочих станций, с помощью которых поддер112
живается доступ пользовательской системы к централизованной базе данных. Файлы базы данных в соответствии с пользовательскими запросами передаются на рабочие станции, где в основном и производится обработка. При большой интенсивности доступа к одним и тем же данным производительность информационной системы падает. Пользователи могут создавать также на рабочих станциях локальные БД, которые используются ими монопольно. Концепция файл-сервера условно отображена на рис. 2.
Рис. 3. Схема обработки информации в БД по принципу клиент-сервер
Рис. 2. Схема обработки информации в БД по принципу файл-сервер
Клиент-сервер. В этой концепции подразумевается, что помимо хранения централизованной базы данных центральная машина (сервер базы данных) должна обеспечивать выполнение основного объема обработки данных. Запрос на данные, выдаваемый клиентом (рабочей станцией), порождает поиск и извлечение данных на сервере. Извлеченные данные (но не файлы) транспортируются по сети от сервера к клиенту. Спецификой архитектуры клиент-сервер является использование языка запросов SQL. Концепция клиент-сервер условно изображена на рис. 3.
113
Структурные элементы базы данных Понятие базы данных тесно связано с такими понятиями структурных элементов, как поле, запись, файл (таблица). Поле – элементарная единица логической организации данных, которая соответствует неделимой единице информации – реквизиту. Для описания поля используются следующие характеристики: имя, тип, длина (определяется максимально возможным количеством символов); точность для числовых данных. Запись – совокупность логически связанных полей. Файл (таблица) – совокупность экземпляров записей одной структуры. В структуре записи файла указываются поля, значения которых являются ключами: первичными (ПК), которые идентифицируют экземпляр записи, и вторичными (ВК), которые выполняют роль поисковых или группировочных признаков (по значению вторичного ключа можно найти несколько записей). Виды моделей данных Ядром любой базы данных является модель данных. Модель данных представляет собой множество структур данных, ограни114
чений целостности и операций манипулирования данными. С помощью модели данных могут быть представлены объекты предметной области и взаимосвязи между ними. Модель данных – совокупность структур данных и операций их обработки. СУБД основывается на использовании иерархической, сетевой или реляционной модели, на комбинации этих моделей или на некотором их подмножестве. Иерархическая модель данных Иерархическая структура представляет совокупность элементов, связанных между собой по определенным правилам. Объекты, связанные иерархическими отношениями, образуют ориентированный граф (перевернутое дерево), вид которого представлен на рис. 4. К основным понятиям иерархической структуры относятся: уровень, элемент (узел), связь. Узел – это совокупность атрибутов данных, описывающих некоторый объект. На схеме иерархического дерева узлы представляются вершинами графа. Каждый узел на более низком уровне связан только с одним узлом, находящимся на более высоком уровне. Иерархическое дерево имеет только одну вершину (корень дерева), не подчиненную никакой другой вершине и находящуюся на самом верхнем (первом) уровне. Зависимые (подчиненные) узлы находятся на втором, третьем и т. д. уровнях. Количество деревьев в базе данных определяется числом корневых записей.
К каждой записи базы данных существует только один (иерархический) путь от корневой записи. Сетевая модель данных В сетевой структуре при тех же основных понятиях (уровень, узел, связь) каждый элемент может быть связан с любым другим элементом (см. рис. 5).
Рис. 5. Графическое изображение сетевой структуры БД
Рис. 4. Графическое изображение иерархической структуры БД
Реляционная модель данных Понятие реляционный (англ. relation – отношение) связано с разработками известного американского специалиста в области систем баз данных Е. Кодда. Эти модели характеризуются простотой структуры данных, удобным для пользователя табличным представлением и возможностью использования формального аппарата алгебры отношений и реляционного исчисления для обработки данных. Реляционная модель ориентирована на организацию данных в виде двумерных таблиц. Каждая реляционная таблица представляет собой двумерный массив и обладает следующими свойствами: • каждый элемент таблицы – один элемент данных; • все столбцы в таблице однородные, т. е. все элементы в столбце имеют одинаковый тип (числовой, символьный и т. д.) и длину;
115
116
• каждый столбец имеет уникальное имя; • одинаковые строки в таблице отсутствуют; • порядок следования строк и столбцов может быть произвольным. Отношения представлены в виде таблиц, строки которых соответствуют записям, а столбцы – полям. Поле, каждое значение которого однозначно определяет соответствующую запись, называется простым ключом (ключевым полем). Если записи однозначно определяются значениями нескольких полей, то такая таблица базы данных имеет составной ключ. Чтобы связать две реляционные таблицы, необходимо ключ первой таблицы ввести в состав ключа второй таблицы (возможно совпадение ключей); в противном случае нужно ввести в структуру первой таблицы внешний ключ – ключ второй таблицы. Обзор СУБД Системой управления базами данных называют программную систему, предназначенную для создания на ЭВМ общей базы данных, используемой для решения множества задач. Подобные системы служат для поддержания базы данных в актуальном состоянии и обеспечивают эффективный доступ пользователей к содержащимся в ней данным в рамках предоставленных пользователям полномочий. СУБД предназначена для централизованного управления базой данных в интересах всех работающих в этой системе. По степени универсальности различают два класса СУБД: • системы общего назначения; • специализированные системы. СУБД общего назначения не ориентированы на какую-либо предметную область или на информационные потребности какойлибо группы пользователей. Каждая система такого рода реализуется как программный продукт, способный функционировать на некоторой модели ЭВМ в определенной операционной системе и поставляется многим пользователям как коммерческое изделие. Такие СУБД обладают средствами настройки на работу с конкретной базой данных. Использование СУБД общего назначения в качестве инструментального средства для создания автоматизиро117
ванных информационных систем, основанных на технологии баз данных, позволяет существенно сокращать сроки разработки, экономить трудовые ресурсы. Этим СУБД присущи развитые функциональные возможности и определенная функциональная избыточность. Специализированные СУБД создаются в редких случаях при невозможности или нецелесообразности использования СУБД общего назначения. СУБД общего назначения – это сложные программные комплексы, предназначенные для выполнения всей совокупности функций, связанных с созданием и эксплуатацией базы данных информационной системы. Рынок программного обеспечения ПК располагает большим числом разнообразных по своим функциональным возможностям коммерческих систем управления базами данных общего назначения, а также средствами их окружения практически для всех массовых моделей машин и для различных операционных систем. Используемые в настоящее время СУБД обладают средствами обеспечения целостности данных и надежной безопасностью, что дает возможность разработчикам гарантировать большую безопасность данных при меньших затратах сил на низкоуровневое программирование. Продукты, функционирующие в среде Windows, выгодно отличаются удобством пользовательского интерфейса и встроенными средствами повышения производительности. Производительность СУБД оценивается: • временем выполнения запросов; • скоростью поиска информации в неиндексированных полях; • временем выполнения операций импортирования базы данных из других форматов; • скоростью создания индексов и выполнения таких массовых операций, как обновление, вставка, удаление данных; • максимальным числом параллельных обращений к данным в многопользовательском режиме; • временем формирования отчета.
118
1.4. Работа с графическими объектами
2. СИСТЕМНЫЕ ПРОГРАММЫ
Потребность ввода графиков, диаграмм, схем, рисунков в различные документы вызвала необходимость создания графических процессоров. Графические процессоры представляют собой инструментальные средства, позволяющие создавать и модифицировать графические образы с использованием следующих информационных технологий: • коммерческой графики; • иллюстративной графики; • научной графики; • когнитивной графики и др. Информационные технологии коммерческой или деловой графики обеспечивают отображение информации, хранящейся в табличных процессорах, базах данных и отдельных локальных файлах в виде двух- или трехмерных графиков, круговых диаграмм, гистограмм, линейных графиков и других. Позволяют создавать иллюстрации для различных документов в виде регулярных структур (векторная графика) и нерегулярных структур (растровая графика). Также к этой группе программного обеспечения можно отнести графические процессоры по обработке готовых изображений и создания анимированной графики. Информационные технологии научной графики предназначены для обслуживания задач картографии, оформления научных расчетов, содержащих различные химические, математические формулы и тому подобное. Когнитивные графические процессоры представляют собой комплекс виртуальных устройств, программ и систем, реализующих совокупную обработку зрительной информации в виде образов, процессов, структур и позволяющих средствами диалога реализовать методы и приемы представления условий задачи или подсказки в виде зрительных образов. Виртуальное устройство является функциональным эквивалентом устройства, предоставляемого пользователю, независимо от того, имеется ли данное устройство в системе или нет. Когнитивная графика позволяет образно представить различные математические формулы и закономерности для доказательства сложных теорем, открывает новые возможности для познания законов функционирования сознания.
Работая на персональном компьютере с прикладными программами, нельзя ограничиваться только умением управлять этими программами. Практическая работа и реальные ситуации в компьютере часто требуют более широких знаний и прежде всего умения сохранять в целостности информацию, защищать ее от возможных разрушений, вызванных дефектами магнитных дисков, сбоями в работе компьютера, воздействиями программных вирусов или ошибками пользователя. И здесь на помощь пользователю могут прийти различные программы вспомогательного назначения (утилиты), относящиеся к группе системных программ. Таких программ разработано очень много. Некоторые из них объединяются в специальные программные комплексы (пакеты программ). Самый известный из таких программных пакетов – Norton Utilities. Рассмотрим некоторые наиболее распространенные группы программ-утилит.
119
120
2.1. Программы-архиваторы
Одним из наиболее широко распространенных видов сервисных программ являются программы, предназначенные для архивации, упаковки файлов путем сжатия хранимой в них информации. Сжатие информации – это процесс преобразования информации, хранящейся в файле, к виду, при котором уменьшается избыточность в ее представлении и соответственно требуется меньший объем памяти для хранения. Сжатие информации в файлах производится за счет устранения избыточности различными способами, например, за счет упрощения кодов, исключения из них постоянных битов или представления повторяющихся символов или повторяющейся последовательности символов в виде коэффициента повторения и соответствующих символов. Применяются различные алгоритмы подобного сжатия информации. Сжиматься могут как один, так и несколько файлов, которые в сжатом виде помещаются в так называемый архивный файл или архив.
Архивный файл – это специальным образом организованный файл, содержащий в себе один или несколько файлов в сжатом виде и служебную информацию об именах файлов, дате и времени их создания или модификации, размерах и тому подобное. Целью упаковки файлов обычно являются обеспечение более компактного размещения информации на диске, сокращение времени и соответственно стоимости передачи информации по каналам связи в компьютерных сетях. Кроме того, упаковка в один архивный файл группы файлов существенно упрощает их перенос с одного компьютера на другой, сокращает время копирования файлов на диски, позволяет защитить информацию от несанкционированного доступа, способствует защите от заражения компьютерными вирусами. Степень сжатия файлов характеризуется, как правило, коэффициентом K c , определяемым как отношение объема сжатого файла Vc к объему исходного файла V0 , выраженное в процентах
Kc =
Vc ⋅100% . V0
Степень сжатия зависит от используемой программы, метода сжатия и типа исходного файла. Программы для архивации отличаются используемыми методами сжатия, что соответственно влияет на степень сжатия. Программы, осуществляющие работу с архивными файлами, их упаковку и распаковку называются программами-архиваторами. Архивация (упаковка) – помещение (загрузка) исходных файлов в архивный файл в сжатом или несжатом виде. Разархивация (распаковка) – процесс восстановления файлов из архива точно в таком виде, какой они имели до загрузки в архив. При распаковке файлы извлекаются из архива и помещаются на диск или в оперативную память. Большие по объему архивные файлы могут быть размещены на нескольких дисках (томах). Такие архивы называются многотомными. Том – это составная часть многотомного архива. Создавая архив из нескольких частей, можно записать его части на несколько дискет. 121
Существует несколько десятков различных программ-архиваторов, которые отличаются перечнем функций и параметрами работы, однако лучшие из них имеют примерно одинаковые характеристики. Из числа наиболее популярных программ можно выделить программы-архиваторы, работающие с ZIP-архивами, RAR-архивами и ARJ-архивами. Обычно упаковка и распаковка файлов выполняются одной и той же программой, но в некоторых случаях это осуществляется разными программами, например, работа с ZIP-архивами под управлением MS DOS: программа PKZIP производит упаковку файлов, a PKUNZIP – распаковку файлов. Программы-архиваторы позволяют создавать и такие архивы, для извлечения из которых содержащихся в них файлов не требуются какие-либо программы-архиваторы, так как сами архивные файлы могут содержать программу распаковки. Такие архивные файлы называются самораспаковывающимися. Самораспаковывающийся архивный файл – это загрузочный, исполняемый модуль, который способен к самостоятельной разархивации находящихся в нем файлов без использования программы-архиватора. Самораспаковывающийся архив получил название SFX-архив (SelF-eXtracting). Архивы такого типа обычно создаются в форме файла с расширением ЕХЕ. Управление программой-архиватором осуществляется одним из двух способов: • с помощью командной строки MS DOS, в которой формируется команда запуска, содержащая имя программы-архиватора, команду управления и ключи ее настройки, а также имена архивного и исходного файлов; подобное управление характерно для большинства архиваторов, работающих под управлением ОС MS DOS: ARJ, ZIP, РАК, LHA и других; • с помощью встроенной оболочки и диалоговых панелей, появляющихся после запуска программы и позволяющих вести управление с использованием меню и функциональных клавиш, что создает для пользователя более комфортные условия работы. Такое управление имеет программа-архиватор RAR, работающая 122
под управлением ОС MS DOS, и все архиваторы, работающие под управлением ОС Windows: WinZIP, WinRAR, WinARJ. Выполняя предписанные ей действия, программа-архиватор, как правило, выводит на экран протокол своей работы. Все программы-архиваторы оснащены экранами помощи, которые для DOS-программ вызываются при вводе в командной строке только одного имени программы или имени с ключом /?. Помощь может быть краткой – на одном экране или развернутой – на нескольких. Многие архиваторы имеют экраны помощи с примерами составления команд для выполнения различных операций.
могут привести к существенному замедлению обмена с ними информацией. Рассмотрим некоторые программные средства для восстановления удаленных файлов, ремонта поврежденной файловой системы, восстановления информации поврежденных файлов и каталогов, профилактики файловой системы с целью ускорения обмена с жестким диском.
В настоящее время магнитные диски персонального компьютера (ПК) являются основными носителями информации, предназначенными для длительного и надежного ее хранения. В процессе работы ПК непрерывно происходит обмен информацией между дисками и оперативной памятью, при этом наиболее интенсивно происходит обмен с жестким диском. Несмотря на высокое качество изготовления дисков и дисковых устройств, в практике регулярной работы на компьютере нередко возникают ситуации, когда не удается прочитать информацию с дисков, происходят нарушения в работе файловой системы, значительно сокращается свободное пространство на дисках или диски оказываются переполненными. Нередко ошибочно удаляются нужные файлы. Эти нарушения в работе дисков могут возникать по следующим причинам: • физическое повреждение диска; • загрязнение магнитной поверхности диска; • аварийное отключение компьютера; • несвоевременное извлечение дискет из дисководов; • перезагрузка операционной системы после аварийного завершения задания; • воздействие программных вирусов. Кроме того, при интенсивной эксплуатации компьютера на дисках, главным образом на жестких, накапливаются такие изменения в расположении файлов, которые, если не принимать мер,
Восстановление поврежденных файлов и дисков При эксплуатации магнитных дисков нередко приходится сталкиваться с нарушениями в их работе, вызванными логическими или физическими дефектами, в результате которых информация не может быть правильно считана или записана. Физические дефекты возникают, главным образом, из-за механических повреждений, воздействия электромагнитных полей или старения магнитного покрытия диска. Наличие физического дефекта делает непригодными к использованию некоторые сектора и кластеры. Если оказывается, что какой-либо файл располагается в таких дефектных секторах или кластерах, то полностью спасти находящуюся в файле информацию не представляется возможным. Дефектные сектора диска должны быть исключены из дальнейшего использования. Логические дефекты диска связаны с повреждениями системной области диска, включающей таблицу разделов диска (жесткого), таблицу размещения файлов (FAT), загрузочный сектор, каталоги диска. Такие нарушения могут возникать при аварийном отключении питания, сбоях, зависании ошибочно работающих программ, воздействии компьютерных вирусов и других причинах. Во всех этих случаях оказываются незавершенными процедуры работы с дисками, файлами или каталогом. В результате на диске образуются потерянные кластеры, которые или не принадлежат ни одному файлу, или, наоборот, принадлежат сразу нескольким. Логические дефекты приводят к разрушению файловой системы, «засорению» дискового пространства, когда кластеры считаются занятыми, но не принадлежат ни одному из файлов, а некоторые файлы оказываются «связанными» друг с другом общими кластерами.
123
124
2.2. Программы обслуживания магнитных дисков
Для диагностики дисков и восстановления поврежденных файлов и дисков используются специально разработанные программы, такие как CHKDSK, SCANDISK, входящие в состав операционных систем MS DOS и Windows, и программа NDD (Norton Disk Doctor), входящая в состав программ Norton Utilities. Устранение фрагментации дисков и ускорение их работы Операционная система записывает файлы на диск физическими блоками, называемыми кластерами. Кластер занимает один или несколько смежных секторов и может иметь размер в зависимости от емкости диска и версии операционной системы от 2 до 32 Кбайт для жестких дисков и 512 байт для гибких дисков. После форматирования диска или в том случае, когда на нем имеется достаточно свободного пространства, операционная система записывает файл в смежные, примыкающие друг к другу кластеры. Считывание информации из такого файла происходит при минимальном перемещении магнитных головок. По мере записи на диск новых файлов свободное пространство на нем уменьшается. При недостаточном размере непрерывного свободного пространства на диске операционная система использует для размещения нового файла имеющиеся свободные участки, помещая в них отдельные цепочки кластеров файла – фрагменты файла. При этом фрагменты могут располагаться на значительном расстоянии друг от друга, что приводит к существенному увеличению времени на перемещение магнитных головок и соответственно времени считывания или записи файла. Файл, который занимает на диске более одного непрерывного участка, называется фрагментированным. Фрагментация диска – это появление на диске множества свободных участков, разделенных занятыми участками. Для увеличения свободного пространства диска производят его чистку, т. е. удаление неиспользуемых файлов. Однако удаление файлов еще больше способствует фрагментации, так как освободившиеся участки будут использоваться операционной системой для размещения фрагментов новых файлов. При этом может возникнуть ситуация, при которой свободного пространства на 125
диске много, но все оно состоит из множества разбросанных по диску мелких участков, недостаточных для размещения файлов целиком. Если в процессе длительной эксплуатации диска, особенно жесткого, не принимать специальных мер, то фрагментированной окажется большая часть файлов, и это может замедлить работу диска и соответственно программ, взаимодействующих с ним, в несколько раз. Кроме того, наличие фрагментации всегда ухудшает прогноз восстановления удаленных файлов и каталогов. В настоящее время разработаны и широко применяются специальные программы, устраняющие фрагментацию дисков. К наиболее распространенным можно отнести программу-утилиту SpeedDisk из пакета сервисных программ Norton Utilities и программу DEFRAG, входящую в состав операционных систем MS DOS и Windows. Восстановление информации на дисках В процессе работы на компьютере нередки случаи ошибочного или случайного удаления файлов и каталогов, содержащих ценную для пользователя информацию. Конечно, если сохранились точные копии удаленных файлов, то особых проблем не возникает. Но если копий нет, то восстановить удаленную информацию могут специально разработанные программы: • UnDelete, входящая в состав операционной системы MS DOS; • UnErase, входящая в пакет сервисных программ Norton Utilities. Восстановление удаленных файлов и каталогов – это воссоздание на диске файлов и каталогов точно в таком же виде, какой они имели до удаления. Для успешного восстановления стертых файлов и каталогов очень важно, чтобы после удаления не производилась запись какой-либо информации на тот диск, на котором находились эти файлы, и чтобы файлы не были фрагментированы. При удалении файла или каталога операционная система MS DOS не стирает сами данные с диска, а заменяет в каталоге код первого символа в соответствующем имени на 229, соответст126
вующий в альтернативной таблице кодировки русской строчной букве «х». Вся остальная информация о файле в каталоге, включая номер первого занятого файлом кластера, остается без изменения. При последующих просмотрах каталога этот символ воспринимается операционной системой как сигнал о том, что данное место в каталоге пусто и в него можно заносить информацию о новом файле. Таким образом, для того чтобы восстановить файл, программа должна найти и восстановить запись о файле в каталоге. Дальнейшие действия зависят от размера и расположения файла. Если файл занимает: • один кластер, то утилита отыскивает в записи каталога номер начального кластера, обращается к FAT и назначает этот кластер файлу; • несколько соседних кластеров, то утилита отыскивает в записи каталога номер начального кластера, обращается к FAT и назначает столько последовательно расположенных свободных кластеров, начиная с начального, сколько требует файл; • несколько непоследовательно расположенных кластеров, т. е. файл фрагментирован, то при автоматическом восстановлении в FAT утилита назначает требуемое число близлежащих свободных кластеров, а при ручном восстановлении утилита выводит свободные кластер за кластером, и пользователь решает, включать или не включать данный кластер в восстанавливаемый файл. Таким образом, условиями успешного и полного восстановления удаленного файла (каталога) являются: • непрерывность расположения файла (каталога); • незанятость используемых ранее файлом (каталогом) кластеров вновь созданными файлами или каталогами. 2.3. Компьютерные вирусы и антивирусные программные средства
Массовое применение ПК, к сожалению, спровоцировало появление самовоспроизводящихся программ-вирусов, препятствующих нормальной работе компьютера, разрушающих файловую структуру дисков и наносящих ущерб хранимой в компьютере 127
информации. Проникнув в один компьютер, компьютерный вирус способен распространиться на другие компьютеры. Компьютерным вирусом называется специально написанная программа, способная самопроизвольно присоединяться к другим программам, создавать свои копии и внедрять их в файлы, системные области компьютера и в вычислительные сети с целью нарушения работы программ, порчи файлов и каталогов, создания всевозможных помех в работе на компьютере. Несмотря на принятые во многих странах законы о борьбе с компьютерными преступлениями и разработку специальных программных средств защиты от вирусов, количество новых программных вирусов постоянно растет. Это требует от пользователя ПК знаний о природе вирусов, способах заражения вирусами и защиты от них. Основными путями проникновения вирусов в компьютер являются съемные диски (гибкие и лазерные), а также компьютерные сети. Заражение жесткого диска вирусами может произойти при загрузке компьютера с дискеты, содержащей вирус. Такое заражение может быть и случайным, например, если дискету не вынули из дисковода А: и перезагрузили компьютер, при этом дискета может и не быть системной. Заразить дискету гораздо проще. На нее вирус может попасть, даже если дискету просто вставили в дисковод зараженного компьютера и, например, прочитали ее оглавление. Зараженный диск – это диск, в загрузочном секторе которого находится программа-вирус. Теперь рассмотрим для примера вирус. В загрузочных вирусах выделяют две его части: так называемые голову и хвост. Заражая дискету, вирус производит следующие действия: • выделяет некоторую область диска и помечает ее как недоступную операционной системе, что можно сделать по-разному, в простейшем и традиционном случае занятые вирусом секторы помечаются как сбойные; • копирует в выделенную область диска свой хвост и оригинальный (здоровый) загрузочный сектор; • замещает программу начальной загрузки в загрузочном секторе своей головой; 128
• организует новую цепочку передачи управления по схеме: голова вируса – хвост вируса – программа начальной загрузки. Таким образом, голова вируса теперь первой получает управление, вирус устанавливается в память и передает управление оригинальному загрузочному сектору. После запуска программы, содержащей вирус, становится возможным заражение других файлов. Наиболее часто вирусом заражаются загрузочный сектор диска и исполняемые файлы, имеющие расширения ЕХЕ, СОМ, SYS или ВАТ. Зараженная программа – это программа, содержащая внедренную в нее программу-вирус. При заражении компьютера вирусом очень важно своевременно его обнаружить. Для этого следует знать основные признаки проявления вирусов. Эти признаки могут быть следующими: • прекращение работы или неправильная работа ранее успешно функционировавших программ; • медленная работа компьютера; • невозможность загрузки операционной системы; • исчезновение файлов и каталогов или искажение их содержимого; • изменение даты и времени модификации файлов; • изменение размеров файлов; • неожиданное значительное увеличение количества файлов на диске; • существенное уменьшение размера свободной оперативной памяти; • вывод на экран непредусмотренных сообщений или изображений; • подача непредусмотренных звуковых сигналов; • частые зависания и сбои в работе компьютера. Следует заметить, что вышеперечисленные явления не обязательно вызываются присутствием вируса, а могут быть следствием других причин. Поэтому правильная диагностика состояния компьютера всегда затруднительна. Все существующие в настоящее время вирусы можно классифицировать по среде обитания; способу заражения среды обитания; воздействию; особенностям алгоритма.
В зависимости от среды обитания вирусы можно разделить на сетевые, файловые, загрузочные и файлово-загрузочные. Сетевые вирусы распространяются по различным компьютерным сетям. Файловые вирусы внедряются, главным образом, в исполняемые модули, т. е. в файлы, имеющие расширения СОМ и ЕХЕ. Файловые вирусы могут внедряться и в другие типы файлов, но, как правило, записанные в таких файлах они никогда не получают управление и, следовательно, теряют способность к размножению. Загрузочные вирусы внедряются в загрузочный сектор диска (Boot-сектор) или в сектор, содержащий программу загрузки системного диска (Master Boot Record). Файлово-загрузочные вирусы заражают как файлы, так и загрузочные сектора дисков. По способу заражения вирусы делятся на резидентные и нерезидентные. Резидентный вирус при заражении (инфицировании) компьютера оставляет в оперативной памяти свою резидентную часть, которая потом перехватывает обращение операционной системы к объектам заражения (файлам, загрузочным секторам дисков и т. д.) и внедряется в них. Резидентные вирусы находятся в памяти и являются активными вплоть до выключения или перезагрузки компьютера. Нерезидентные вирусы не заражают память компьютера и являются активными ограниченное время. По степени воздействия вирусы бывают неопасные, опасные и очень опасные. Неопасные вирусы не мешают работе компьютера, но уменьшают объем свободной оперативной памяти и памяти на дисках. Действия таких вирусов проявляются в каких-либо графических или звуковых эффектах. Опасные вирусы могут привести к различным нарушениям в работе компьютера. Очень опасные вирусы – вирусы, воздействие которых может привести к потере программ, уничтожению данных, стиранию информации в системных областях диска. По особенностям алгоритма вирусы трудно классифицировать из-за большого разнообразия.
129
130
Простейшие вирусы – паразитические, они изменяют содержимое файлов и секторов диска и могут быть достаточно легко обнаружены и уничтожены. Можно отметить вирусы-репликаторы, называемые червями, которые распространяются по компьютерным сетям, вычисляют адреса сетевых компьютеров и записывают по этим адресам свои копии. Известны вирусы-невидимки, называемые стелс-вирусами, которые очень трудно обнаружить и обезвредить, так как они перехватывают обращения операционной системы к пораженным файлам и секторам дисков и подставляют вместо своего тела незараженные участки диска. Наиболее трудно обнаружить вирусымутанты, содержащие алгоритмы шифровки-расшифровки, благодаря которым копии одного и того же вируса не имеют ни одной повторяющейся цепочки байтов. Имеются и так называемые квазивирусные или «троянские» программы, которые хотя и не способны к самораспространению, но очень опасны, так как, маскируясь под полезную программу, разрушают загрузочный сектор и файловую систему дисков. В последние годы появился класс так называемых макровирусов. Они содержат скрытые команды для некоторых оболочек Windows, которые нежелательны для рядового пользователя. И этот код уже не является кодом для компьютера, т. е. это уже не программа, а текст программы, выполняемый оболочкой. Таким образом, он может быть записан в любом необходимом формате: html, htm – для Internet Explorer, doc, xls, xlw, txt, prt или любой другой – для Microsoft Office и т. д. Такие вирусы наносят вред только определенного характера, ведь оболочка не имеет команд, к примеру, для форматирования жесткого диска. Но все же этот вид вирусов заслуживает внимания, ведь с помощью скрытых гиперссылок он способен самостоятельно загрузить из Internet на ваш компьютер тело вируса, а некоторые вирусы способны обновляться и загружаться по частям через Internet с определенных серверов. Антивирусные программы Для обнаружения, удаления и защиты от компьютерных вирусов разработано несколько видов специальных программ, кото-
рые позволяют обнаруживать и уничтожать вирусы. Такие программы называются антивирусными. Различают следующие виды антивирусных программ: • программы-детекторы; • программы-доктора, или фаги; • программы-ревизоры; • программы-фильтры; • программы-вакцины, или иммунизаторы. Программы-детекторы осуществляют поиск характерной для конкретного вируса последовательности байтов (сигнатуры вируса) в оперативной памяти и в файлах, при обнаружении выдают соответствующее сообщение. Недостатком таких антивирусных программ является то, что они могут находить только те вирусы, которые известны разработчикам таких программ. Программы-доктора, или фаги, а также программы-вакцины не только находят зараженные вирусами файлы, но и «лечат» их, т. е. удаляют из файла тело программы-вируса, возвращая файлы в исходное состояние. В начале своей работы фаги ищут вирусы в оперативной памяти, уничтожая их, и только затем переходят к «лечению» файлов. Среди фагов выделяют полифаги, т. е. программыдоктора, предназначенные для поиска и уничтожения большого количества вирусов. Наиболее известными полифагами являются программы Norton AntiVirus и DrWeb, AVP Касперского. Учитывая, что постоянно появляются новые вирусы, программы-детекторы и программы-доктора быстро устаревают, требуется регулярное обновление их версий. Программы-ревизоры относятся к самым надежным средствам защиты от вирусов. Ревизоры запоминают исходное состояние программ, каталогов и системных областей диска тогда, когда компьютер не заражен вирусом, а затем периодически или по желанию пользователя сравнивают текущее состояние с исходным. Обнаруженные изменения выводятся на экран видеомонитора. Как правило, сравнение состояний производят сразу после загрузки операционной системы. При сравнении проверяются длина файла, код циклического контроля (контрольная сумма файла), дата и время модификации, другие параметры. Программы-ревизоры имеют достаточно развитые алгоритмы, обнаруживают стелс-вирусы и могут
131
132
даже отличить изменения версии проверяемой программы от изменений, внесенных вирусом. К числу программ-ревизоров относится широко распространенная в России программа ADInf фирмы «Диалог-Наука». Программы-фильтры, или «сторожа», представляют собой небольшие резидентные программы, предназначенные для обнаружения подозрительных действий при работе компьютера, характерных для вирусов. Такими действиями могут являться: • попытки коррекции файлов с расширениями СОМ и ЕХЕ; • изменение атрибутов файлов; • прямая запись на диск по абсолютному адресу; • запись в загрузочные сектора диска; • загрузка резидентной программы. При попытке какой-либо программы произвести указанные действия «сторож» посылает пользователю сообщение и предлагает запретить или разрешить соответствующее действие. Программы-фильтры весьма полезны, так как способны обнаружить вирус на самой ранней стадии его существования до размножения. Однако они не «лечат» файлы и диски. Для уничтожения вирусов требуется применить другие программы, например фаги. К недостаткам программ-сторожей можно отнести их «назойливость» (например, они постоянно выдают предупреждение о любой попытке копирования исполняемого файла), а также возможные конфликты с другим программным обеспечением. Примером программыфильтра является программа SpIDer Guard, входящая в состав пакета DrWeb. Вакцины, или иммунизаторы – это резидентные программы, предотвращающие заражение файлов. Вакцины применяют, если отсутствуют программы-доктора, «лечащие» этот вирус. Вакцинация возможна только от известных вирусов. Вакцина модифицирует программу или диск таким образом, чтобы это не отражалось на их работе, а вирус будет воспринимать их зараженными и поэтому не внедрится. В настоящее время программы-вакцины имеют ограниченное применение. Своевременное обнаружение зараженных вирусами файлов и дисков, полное уничтожение обнаруженных вирусов на каждом компьютере позволяют избежать распространения вирусной эпидемии на другие компьютеры.
Основные меры защиты от вирусов Для того чтобы не подвергнуть компьютер заражению вирусами и обеспечить надежное хранение информации на дисках, необходимо соблюдать следующие правила: • оснастите свой компьютер современными антивирусными программами и постоянно обновляйте их версии; • перед считыванием с дискет информации, записанной на других компьютерах, всегда проверяйте эти дискеты на наличие вирусов, запуская антивирусные программы своего компьютера; • при переносе на свой компьютер файлов в архивированном виде проверяйте их сразу же после разархивации на жестком диске, ограничивая область проверки только вновь записанными файлами; • периодически проверяйте на наличие вирусов жесткие диски компьютера, запуская антивирусные программы для тестирования файлов, памяти и системных областей дисков с защищенной от записи дискеты, предварительно загрузив операционную систему также с защищенной от записи системной дискеты; • всегда защищайте свои дискеты от записи при работе на других компьютерах, если на них не будет производиться запись информации; • обязательно делайте архивные копии ценной для вас информации; • не оставляйте в дисководе А: дискеты при включении или перезагрузке операционной системы, чтобы исключить заражение компьютера загрузочными вирусами; • используйте антивирусные программы для входного контроля всех исполняемых файлов, получаемых из компьютерных сетей; • для обеспечения большей безопасности работы на ПК необходимо использовать программы-ревизоры диска.
133
134
3. СЕТЕВЫЕ КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ 3.1. Эволюция и типы сетей ЭВМ
В 1960-х годах появились первые вычислительные сети (ВС) ЭВМ. По сути, они произвели своего рода техническую революцию, сравнимую с появлением первых ЭВМ, так как была предпринята попытка объединить технологии сбора, хранения, передачи и обработки информации на ЭВМ с техникой связи. Одной из первых сетей, оказавших влияние на дальнейшее их развитие, явилась сеть ARPA, созданная пятьюдесятью университетами и фирмами США. Она охватывала всю территорию США, часть Европы и Азии. Сеть ARPA доказала техническую возможность и экономическую целесообразность разработки больших сетей для более эффективного использования ЭВМ и программного обеспечения. В настоящее время она преобразовалась в сеть Internet. В Европе были разработаны и внедрены международные сети EIN и EuroNet, затем появились национальные сети. В 1972 году в Вене была создана сеть MIPSA, в 1979 году к ней присоединились 17 стран Европы, СССР, США, Канада, Япония. Данная сеть создана для проведения фундаментальных работ по проблемам энергетики, продовольствия, сельского хозяйства, здравоохранения и т. д. Кроме того, она создала технологию, позволяющую всем национальным институтам развивать связь друг с другом. В СССР первая сеть разработана в 1960-х годах в Академии наук в Ленинграде. В 1985 году к ней подсоединилась региональная подсеть «Северо-запад» с академическими центрами в Риге и Москве. В 1980 году была сдана в эксплуатацию система телеобработки статистической информации СТОСИ, обслуживавшая Главный вычислительный центр Центрального статистического управления СССР в Москве и республиканские вычислительные центры в союзных республиках. В настоящее время в мире зарегистрировано более нескольких сотен глобальных сетей. С появлением микроЭВМ и персональных компьютеров возникли локальные вычислительные сети (ЛВС). Они позволили 135
поднять на качественно новую ступень управление производственными объектами, повысить эффективность использования ЭВМ, поднять качество обрабатываемой информации, реализовать безбумажную технологию, создать новые технологии. Объединение ЛВС и глобальных сетей позволило получить доступ к мировым информационным ресурсам. ЭВМ, объединенные в сеть, делятся на основные и вспомогательные. Основные ЭВМ – это абонентские ЭВМ (рабочие станции, клиенты). Они выполняют все необходимые информационновычислительные работы и определяют ресурсы сети. Вспомогательные ЭВМ (серверы) служат для преобразования и передачи информации от одной ЭВМ к другой по каналам связи и коммутационным машинам (host-ЭВМ). К качеству и мощности серверов предъявляются повышенные требования. Введем ряд понятий. Рабочая станция – персональный компьютер, подключенный к сети, через который пользователь получает доступ к ее ресурсам. Рабочая станция сети функционирует как в сетевом, так и в локальном режиме. Она оснащена собственной операционной системой (MS DOS, Windows и т. д.), обеспечивает пользователя всеми необходимыми инструментами для решения прикладных задач. Клиент – это задача (приложение), рабочая станция или пользователь компьютерной сети, посылающие запрос к серверу. Они отвечают за обработку и вывод информации, а также передачу запросов серверу. ЭВМ клиента может быть любым. Сервер – это персональная или специализированная ЭВМ, выполняющая функции по обслуживанию клиента. Он распределяет ресурсы системы: принтеры, базы данных, программы, внешнюю память и т. д. Существуют сетевые, файловые, терминальные, серверы баз данных, почтовые и др. Сетевой сервер поддерживает выполнение следующих функций сетевой операционной системы: управление вычислительной сетью, планирование задач, распределение ресурсов, доступ к сетевой файловой системе, защиту информации. Терминальный сервер поддерживает выполнение функций многопользовательской системы. 136
Файл-сервер обеспечивает доступ к центральной базе данных удаленным пользователям. Сервер баз данных – многопользовательская система, обеспечивающая обработку запросов клиентов к базам данных. Он является средством решения сетевых задач, в которых локальные сети используются для совместной обработки данных, а не просто для организации коллективного использования удаленных внешних устройств. Почтовые серверы содержат программы, базы данных, каталоги почтовых ящиков и обеспечивают работу электронной почты. Host-ЭВМ – ЭВМ, установленная в узлах сети и решающая вопросы коммутации в сети, доступа к сетевым ресурсам: модемам, факс-модемам, серверам и др. Коммуникационная сеть образуется множеством серверов и host-ЭВМ, соединенных физическими каналами связи, которые называют магистральными. В качестве магистральных каналов выступают телефонные, оптоволоконные кабели, космическая спутниковая связь, беспроводная радиосвязь, медная витая пара. 3.2. Классификация вычислительных сетей
нентами региональной вычислительной сети составляет десятки, сотни километров. Локальная вычислительная сеть (ЛВС) объединяет абонентов, расположенных в пределах небольшой территории. В настоящее время не существует четких ограничений на территориальный разброс абонентов локальной вычислительной сети. Обычно такая сеть привязана к конкретному месту. К классу локальных вычислительных сетей относятся сети отдельных предприятий, фирм, банков, офисов и т. д. Протяженность такой сети можно ограничить пределами 2–2,5 км. Объединение глобальных, региональных и локальных вычислительных сетей позволяет создавать многосетевые иерархии. Они обеспечивают мощные, экономически целесообразные средства обработки огромных информационных массивов и доступ к неограниченным информационным ресурсам. На рис. 6 приведена одна из возможных иерархий вычислительных сетей. Локальные вычислительные сети могут входить как компоненты в состав региональной сети, региональные сети – объединяться в составе глобальной сети и, наконец, глобальные сети могут также образовывать сложные структуры.
В зависимости от территориального расположения абонентских систем вычислительные сети можно разделить на три основных класса: • глобальные сети (WAN – Wide Area Network); • региональные сети (MAN – Metropolitan Area Network); • локальные сети (LAN – Local Area Network). Глобальная вычислительная сеть объединяет абонентов, расположенных в различных странах, на различных континентах. Взаимодействие между абонентами такой сети может осуществляться на базе телефонных линий связи, радиосвязи и систем спутниковой связи. Глобальные вычислительные сети позволят решить проблему объединения информационных ресурсов всего человечества и организации доступа к этим ресурсам. Региональная вычислительная сеть связывает абонентов, расположенных на значительном расстоянии друг от друга. Она может включать абонентов внутри большого города, экономического региона, отдельной страны. Обычно расстояние между або-
Рис. 6. Иерархия компьютерных сетей
137
138
Компьютерные сети реализуют распределенную обработку данных, которая в этом случае распределена между двумя объектами: клиентом и сервером. В процессе обработки данных клиент может сформировать запрос на сервер для выполнения сложных процедур, чтение файла, поиск информации в базе данных и т. д. Сервер, определенный ранее, выполняет запрос, поступивший от клиента. Результаты выполнения запроса передаются клиенту. Сервер обеспечивает хранение данных общего пользования, организует доступ к этим данным и передает данные клиенту. Клиент обрабатывает полученные данные и представляет результаты обработки в виде, удобном для пользователя. В принципе обработка данных может быть выполнена и на сервере. Для подобных систем приняты термины: системы клиент-сервер или архитектура клиент-сервер. Архитектура клиент-сервер может использоваться как в одноранговых локальных вычислительных сетях, так и в централизованной сети с выделенным сервером.
Локальные вычислительные сети Локальные вычислительные сети за последние годы получили широкое распространение в самых различных областях науки, техники и производства. Особенно широко ЛВС применяются при разработке коллективных проектов, например, сложных программных комплексов. На базе ЛВС можно создавать системы автоматизированного проектирования. Это позволяет реализовывать новые технологии проектирования изделий машиностроения, радиоэлектроники и вычислительной техники. В условиях развития рыночной экономики появляется возможность создавать конкурентоспособную продукцию, быстро модернизировать ее, обеспечивая реализацию экономической стратегии предприятия. В последнее время большой популярностью стали пользоваться виртуальные локальные сети VLAN. Их отличие от обычных ЛВС заключается в том, что они не имеют физических ограничений. Виртуальные ЛВС определяют, какие рабочие станции объединяются в конкретные физические группы, что позволяет располагать их в любом месте сети. Объединение нескольких ЛВС на основе протоколов TCP/IP и HTTP (протокол – правила, по которым взаимодействуют между собой различные компоненты сети) в пределах одного или нескольких зданий одной корпорации получило название интрасети. На принципе интрасети формируются корпоративные сети, подсоединяемые к глобальным сетям. Особое распространение интрасети получили в сети Internet, обеспечивающей так называемую технологию Intranet. Наличие ЛВС в учебных лабораториях университетов позволяет повысить качество обучения и внедрять современные интеллектуальные технологии обучения. Информационные системы, построенные на базе компьютерных сетей, обеспечивают решение следующих задач: хранение данных, обработка данных, организация доступа пользователей к данным, передача данных и результатов обработки данных пользователям. В системах централизованной обработки эти функции выполняла центральная ЭВМ (Mainframe, Host-ЭВМ).
Одноранговая сеть В такой сети нет единого центра управления взаимодействием рабочих станций и нет единого устройства для хранения данных. Сетевая операционная система распределена по всем рабочим станциям. Каждая станция сети может выполнять функции как клиента, так и сервера. Она может обслуживать запросы от других рабочих станций и направлять свои запросы на обслуживание в сеть. Пользователю сети доступны все устройства, подключенные к другим станциям (диски, принтеры). Достоинства одноранговых сетей: низкая стоимость и высокая надежность. К недостаткам одноранговых сетей относят: • зависимость эффективности работы сети от количества станций; • сложность управления сетью; • сложность обеспечения защиты информации; • трудности обновления и изменения программного обеспечения станций. Структурная схема одноранговой сети изображена на рис. 7.
139
140
Недостатки сети: • высокая стоимость из-за выделения одного компьютера под сервер; • зависимость быстродействия и надежности сети от сервера; • меньшая гибкость по сравнению с одноранговой сетью. Структурная схема сети с выделенным сервером изображена на рис. 8.
Рис. 7. Одноранговая ЛВС
Централизованная сеть с выделенным сервером В сети с выделенным сервером один из компьютеров выполняет функции хранения данных, предназначенных для использования всеми рабочими станциями, управления взаимодействием между рабочими станциями и ряд сервисных функций. Такой компьютер обычно называют сервером сети. На нем устанавливается сетевая операционная система, к нему подключаются все разделяемые внешние устройства – жесткие диски, принтеры и модемы. Взаимодействие между рабочими станциями в сети, как правило, осуществляется через сервер. Роль центрального устройства выполняет сервер. В сетях с централизованным управлением существует возможность обмена информацией между рабочими станциями, минуя файл-сервер. Достоинства сети с выделенным сервером: • надежная система защиты информации; • высокое быстродействие; • отсутствие ограничений на число рабочих станций; • простота управления по сравнению с одноранговыми сетями. 141
Рис. 8. ЛВС с выделенным сервером
3.3. Компоненты локальной вычислительной сети
Основными компонентами ЛВС являются (рис. 9): 1. Сетевой сервер, который играет важную роль в управлении ЛВС. Он должен управлять накопителями на жестких дисках и поддерживать коллективные периферийные устройства. Большое значение имеет производительность сервера при управлении информацией больших объемов и при большом количестве рабочих станций. 2. Рабочие места – автономные компьютерные системы, связанные в сеть и называемые рабочими станциями, автоматизированными рабочими местами и сетевыми станциями. В ЛВС пер142
сональный компьютер используется как рабочее место, располагающее своим собственным процессором с собственным внутренним накопителем и устройством ввода-вывода. 3. При использовании сетевых плат с возможностью автозагрузки можно отказаться от накопителей на гибких магнитных дисках и повысить безопасность хранения данных, так как из этих рабочих станций, часто называемых РС-терминалами, не могут быть скопированы данные на транспортные носители данных, а также не могут быть занесены нежелательные данные, например вирусы. 4. Для подключения большего количества рабочих станций используют сетевые усилители или коммутаторы, а также концентраторы. 5. Модем может связывать удаленных пользователей. 6. Дорогостоящее периферийное оборудование (лазерные устройства печати, графопостроители, устройства факсимильной связи, модемы), подключенное к файловому серверу (или другому серверному устройству), можно использовать с любой рабочей станции. 7. Операционная система. Как и любая вычислительная система нуждается в программных средствах, объединенных в операционную систему, так и вычислительная сеть нуждается в собственной операционной системе. Всемирно известной операционной системой вычислительных сетей является NetWare фирмы Novell. Функциями операционных систем наделены системы на платформе Windows (Windows 3.11, Windows 95, Windows NT) фирмы Microsoft. 8. Сетевые адаптеры. Центральный процессор соединяется с периферийным оборудованием специальным устройством. Для подключения одного ПК к другому требуется устройство сопряжения, которое называется сетевым адаптером или сетевым интерфейсом, модулем, картой. Оно вставляется в свободное гнездо материнской платы. Серверу, в большинстве случаев, необходима сетевая плата с производительностью более высокой, чем у рабочих станций.
143
Рис. 9. Компоненты ЛВС
3.4. Характеристики вычислительной сети
Для оценки качества вычислительной сети можно использовать следующие характеристики: • скорость передачи данных по каналу связи; • пропускную способность канала связи; • достоверность передачи информации; • надежность канала связи и модемов. Скорость передачи данных по каналу связи измеряется количеством битов информации, передаваемых за единицу времени 144
– секунду. Часто для измерения скорости используется бод – число изменений состояния среды передачи в секунду. Так как каждое изменение состояния может соответствовать нескольким битам данных, то реальная скорость в битах в секунду может превышать скорость в бодах. Скорость передачи данных зависит от типа и качества канала связи, типа используемых модемов и принятого режима передачи данных. Для пользователей вычислительных сетей значение имеют не абстрактные биты в секунду, а информация, единицей измерения которой служат байты или знаки. Поэтому более удобной характеристикой канала является его пропускная способность, которая оценивается количеством знаков, передаваемых по каналу за единицу времени – секунду. При этом в состав сообщения включаются и все служебные символы. Теоретическая пропускная способность определяется скоростью передачи данных. Реальная пропускная способность зависит от ряда факторов, среди которых и способ передачи, и качество канала связи, и условия его эксплуатации, и структура сообщений. Существенной характеристикой коммуникационной системы любой сети является достоверность передаваемой информации. Так как на основе обработки информации о состоянии объекта управления принимаются решения о том или ином ходе процесса, то от достоверности информации, в конечном счете, может зависеть судьба объекта. Достоверность передачи информации оценивают как отношение количества ошибочно переданных знаков к общему числу переданных знаков. Требуемый уровень достоверности должны обеспечивать как аппаратура, так и канал связи. Нецелесообразно использовать дорогостоящую аппаратуру, если относительно уровня достоверности канал связи не обеспечивает необходимых требований. Для вычислительных сетей этот показатель должен лежать в пределах 10-6 … 10-7 ошибок/знак, т. е. допускается одна ошибка на миллион переданных знаков или на десять миллионов переданных знаков. Наконец надежность коммуникационной системы определяется либо долей времени исправного состояния в общем времени работы, либо средним временем безотказной работы. Вторая ха145
рактеристика позволяет более эффективно оценить надежность системы. Для вычислительных сетей среднее время безотказной работы должно быть достаточно большим и составлять, как минимум, несколько тысяч часов. 3.5. Основные топологии ЛВС
Вычислительные машины, входящие в состав ЛВС, могут быть расположены самым случайным образом на территории, где создается вычислительная сеть. Следует заметить, что для управления сетью небезразлично, как расположены абонентские ПК. Поэтому имеет смысл говорить о топологии ЛВС. Топология ЛВС – это усредненная геометрическая схема соединений ПК в сети. Топологии вычислительных сетей могут быть самыми различными, но для локальных вычислительных сетей типичными являются всего три: кольцевая, шинная, звездообразная. Любую компьютерную сеть можно рассматривать как совокупность узлов-устройств, непосредственно соединенных друг с другом. Кольцевая топология предусматривает соединение узлов сети замкнутой кривой – кабелем передающей среды (рис. 10). Выход одного узла сети соединяется со входом другого. Информация по кольцу передается от узла к узлу. Каждый промежуточный узел между передатчиком и приемником ретранслирует посланное сообщение. Принимающий узел распознает и получает только адресованные ему сообщения. Кольцевая топология является идеальной для сетей, занимающих сравнительно небольшое пространство. В ней отсутствует центральный узел, что повышает надежность сети. Ретрансляция информации позволяет использовать в качестве передающей среды любые типы кабелей.
146
стые сетевые адаптеры. В то же время работоспособность ЛВС со звездообразной топологией целиком зависит от центрального узла. В реальных вычислительных сетях могут использоваться более сложные топологии, представляющие в некоторых случаях сочетания рассмотренных.
Рис. 10. Сеть кольцевой топологии
Шинная топология – одна из наиболее простых (рис. 11). Она связана с использованием для соединения элементов сети коаксиального кабеля. Данные от передающего узла сети распространяются по шине в обе стороны. Промежуточные узлы не транслируют поступающих сообщений. Информация поступает на все узлы, но принимает сообщение только тот, которому оно адресовано. Это обеспечивает высокое быстродействие ЛВС с шинной топологией. Сеть легко наращивать и конфигурировать, а также адаптировать к различным системам. Сеть шинной топологии устойчива к возможным неисправностям отдельных узлов. Сети шинной топологии наиболее распространены в настоящее время. Звездообразная топология (рис. 12) базируется на концепции центрального узла, к которому подключаются периферийные узлы. Каждый периферийный узел имеет свою отдельную линию связи с центральным узлом. Вся информация передается через центральный узел, который ретранслирует, переключает и направляет информационные потоки в сети. Звездообразная топология значительно упрощает взаимодействие узлов ЛВС друг с другом, позволяет использовать более про-
Рис. 12. Сеть звездообразной топологии
147
148
Рис. 11. Сеть шинной топологии
Выбор той или иной топологии определяется областью применения ЛВС, географическим расположением ее узлов и размерностью сети в целом. 3.6. Способы объединения ЛВС
Созданная на определенном этапе развития система ЛВС с течением времени перестает удовлетворять потребности всех пользователей, и тогда встает проблема расширения ее функциональных возможностей (концентраторы или Hub-устройства, позволяющие развести одну внешнюю линию на несколько внутренних). Может возникнуть необходимость объединения различных ЛВС, появившихся в различных подразделениях в разное время, хотя бы для организации обмена данными с другими системами. Проблема расширения конфигурации сети может быть решена как в пределах ограниченного пространства, так и с выходом во внешнюю среду. Стремление получить выход на определенные информационные ресурсы может потребовать подключения ЛВС к сетям более высокого уровня. В самом простом варианте объединение ЛВС необходимо для расширения сети в целом, но если технические возможности существующей сети исчерпаны, то новых абонентов подключить к ней нельзя. Можно только создать еще одну ЛВС и объединить ее с уже существующей. Для объединения сетей используются следующие устройства: 1. Мост. Самый простой вариант объединения ЛВС – объединение одинаковых сетей в пределах ограниченного пространства. Существуют ограничения на длину сетевого кабеля. В пределах допустимой длины строится отрезок сети – сетевой сегмент. Для объединения сетевых сегментов используются мосты – устройства, соединяющие две сети, использующие одинаковые методы передачи данных. Для сети персональных компьютеров мост – отдельная ЭВМ со специальным программным обеспечением и дополнительной аппаратурой. Мост может соединять сети разных топологий, но работающие под управлением однотипных сетевых операционных систем. 2. Маршрутизатор, или роутер, – устройство, соединяющее сети разного типа, но использующее одну операционную систему. 149
Маршрутизатор выполняет свои функции на сетевом уровне. Маршрутизатор также может выбрать наилучший путь для передачи сообщения абоненту сети, фильтрует информацию, проходящую через него, направляя в одну из сетей только ту информацию, которая ей адресована. Кроме того, маршрутизатор обеспечивает балансировку нагрузки в сети, перенаправляя потоки сообщений по свободным каналам связи. 3. Шлюз. Для объединения ЛВС совершенно различных типов, работающих по существенно отличающимся друг от друга протоколам, предусмотрены специальные устройства – шлюзы. Шлюз – устройство позволяющее организовать обмен данными между двумя сетями, использующими различные протоколы взаимодействия. С помощью шлюзов можно подключить локальную вычислительную сеть к главному компьютеру, а также локальную сеть подключить к глобальной. Мосты, маршрутизаторы и даже шлюзы конструктивно выполняются в виде плат, которые устанавливаются в компьютерах. Свои функции они могут выполнять как в режиме полного выделения функций, так и в режиме совмещения их с функциями рабочей станции вычислительной сети. Физическая передающая среда ЛВС Физическая среда обеспечивает перенос информации между абонентами вычислительной сети. Физическая передающая среда ЛВС представлена тремя типами кабелей: витая пара проводов, коаксиальный кабель, оптоволоконный кабель. Витая пара состоит из двух изолированных проводов, свитых между собой (рис. 13). Скручивание проводов уменьшает влияние внешних электромагнитных полей на передаваемые сигналы. Самый простой вариант витой пары – телефонный кабель. Витые пары имеют различные характеристики, определяемые размерами, изоляцией и шагом скручивания. Дешевизна этого вида передающей среды делает ее достаточно популярной для ЛВС.
Рис. 13. Витая пара проводов 150
Основной недостаток витой пары – плохая помехозащищенность и низкая скорость передачи информации – 0,25 … 1 Мбит/с. Технологические усовершенствования позволяют повысить скорость передачи и помехозащищенность (экранированная витая пара), но при этом возрастает стоимость этого типа передающей среды. Коаксиальный кабель (рис. 14) по сравнению с витой парой обладает более высокой механической прочностью, помехозащищенностью и обеспечивает скорость передачи информации до 10 … 50 Мбит/с. Рис. 15. Оптоволоконный кабель
3.7. Глобальная сеть Internet
Рис. 14. Коаксиальный кабель
Оптоволоконный кабель – идеальная передающая среда (рис. 15). Он не подвержен действию электромагнитных полей и сам практически не имеет излучения. Последнее свойство позволяет использовать его в сетях, требующих повышенной секретности информации. Скорость передачи информации по оптоволоконному кабелю более 50 Мбит/с. По сравнению с предыдущими типами передающей среды он более дорог, менее технологичен в эксплуатации.
151
Internet представляет собой глобальную компьютерную сеть. Само ее название означает «между сетей». Это сеть, соединяющая отдельные сети. Логическая структура Internet представляет собой некое виртуальное объединение, имеющее свое собственное информационное пространство. Internet обеспечивает обмен информацией между всеми компьютерами, которые входят в сети, подключенные к ней. Тип компьютера и используемая им операционная система значения не имеют. Соединение сетей обладает громадными возможностями. С собственного компьютера любой абонент Internet может передавать сообщения в другой город, просматривать каталог библиотеки Конгресса в Вашингтоне, знакомиться с картинами на последней выставке в музее Метрополитен в Нью-Йорке, участвовать в видеоконференциях и даже в играх с абонентами сети из разных стран. Internet предоставляет в распоряжение своих пользователей множество всевозможных ресурсов. Основные ячейки Internet – локальные вычислительные сети. Это значит, что Internet не просто устанавливает связь между отдельными компьютерами, а создает пути соединения для более крупных единиц – групп компьютеров. Если некоторая локальная сеть непосредственно подключена к Internet, то каждая рабочая 152
станция этой сети также может подключаться к Internet. Существуют также компьютеры, самостоятельно подключенные к Internet. Они называются хост-компьютерами (host – хозяин). Каждый подключенный к сети компьютер имеет свой адрес, по которому его может найти абонент из любой точки света.
заведения – edu; правительственные учреждения – gov; коммерческие организации – com. Компьютерное имя включает как минимум два уровня доменов. Каждый уровень отделяется от другого точкой. Слева от домена верхнего уровня располагаются другие имена. Все имена, находящиеся слева, – поддомены для общего домена. Например, существует имя хххх.tstu.ru. Здесь ru – общий домен для России; хххх – поддомен tstu, который является поддоменом ru.
Система адресации в Internet Cеть Internet можно определить как совокупность ЛВС, удовлетворяющих протоколу TCP/IP, которая имеет общее адресное пространство, где у каждого компьютера есть свой уникальный IP-адрес. Internet самостоятельно осуществляет передачу данных. К адресам серверов и рабочих станций предъявляются специальные требования. Адрес должен иметь формат, позволяющий вести его обработку автоматически, и должен нести некоторую информацию о своем владельце. С этой целью для компьютеров, подключенных к Internet, устанавливаются два адреса: цифровой IP-адрес (IP – Internetwork Protocol – межсетевой протокол) для рабочих станций и host-ЭВМ, а также доменный адрес для host-ЭВМ. Оба эти адреса могут применяться равноценно. Цифровой адрес удобен для обработки на компьютере, а доменный адрес – для восприятия пользователем. Цифровой адрес IP-адрес включает в себя три компонента: адрес сети, адрес подсети, адрес компьютера в подсети. Он имеет вид: 192.45.9.200. Адрес сети – 192.45; адрес подсети – 9; адрес компьютера – 200. Доменный адрес определяет область, представляющую ряд хост-компьютеров. В отличие от цифрового адреса он читается в обратном порядке. Вначале идет имя компьютера, затем имя сети, в которой он находится. Для упрощения связи абонентов Internet все пространство ее адресов разделяется на области – домены. Возможно также разделение по определенным признакам и внутри доменов. В системе адресов Internet приняты домены, представленные географическими регионами. Они имеют имя, состоящее из двух букв: Франция – fr; Канада – са; США – us; Россия – ru. Существуют и домены, разделенные по тематическим признакам. Такие домены имеют трехбуквенное сокращенное название: учебные
Электронная почта Самой распространенной стала технология компьютерного способа пересылки и обработки информационных сообщений, позволяющая поддерживать оперативную связь между руководством рабочих групп, сотрудниками, учеными, деловыми людьми, бизнесменами и всеми желающими. Такая технология получила название электронной почты. Электронная почта (e-mail – electronic mail) – специальный пакет программ для хранения и пересылки сообщений между пользователями ЭВМ. Посредством электронной почты реализуется служба безбумажных почтовых отношений. Она является системой сбора, регистрации, обработки и передачи любой информации (текстовых документов, изображений, цифровых данных, звукозаписи и т. д.) по сетям ЭВМ и выполняет такие функции, как редактирование документов перед передачей; их хранение в базе почтового отделения; пересылка корреспонденции; проверка и исправление ошибок, возникающих при передаче; выдача подтверждения о получении корреспонденции адресатом; получение и хранение информации в собственном «почтовом ящике»; просмотр полученной корреспонденции. Почтовый ящик – специально организованный файл для хранения корреспонденции. Каждый почтовый ящик имеет сетевой адрес IP. Почтовый ящик состоит, как минимум, из двух корзин: отправления и получения. Для функционирования электронной почты некоторые компьютеры выделяют под почтовые сервера. При этом все компьютеры получателей подключены к ближайшему почтовому серверу, получающему, хранящему и пересылающему дальше по сети поч-
153
154
товые отправления, пока они не дойдут до адресата. Почтовые серверы реализуют следующие функции: обеспечение быстрой и качественной доставки информации, управление сеансом связи, проверку достоверности информации и корректировку ошибок, хранение информации «до востребования» и извещение пользователя о поступившей в его адрес корреспонденции, регистрацию и учет корреспонденции, проверку паролей при запросах корреспонденции, поддержку справочников с адресами пользователей. Пересылка сообщений пользователю может выполняться в индивидуальном, групповом и общем режимах. При индивидуальном режиме адресатом является отдельный компьютер пользователя, и корреспонденция содержит его IP адрес. При групповом режиме корреспонденция рассылается одновременно группе адресатов. Эта группа может быть сформирована по-разному. Почтовые серверы имеют средства распознавания группы. Например, в качестве адреса может быть указано: «Получить всем, интересующимся данной темой» или указан список рассылки. В общем режиме корреспонденция отправляется всем пользователям – владельцам почтовых ящиков. Посредством двух последних режимов можно организовать телеконференцию, электронные доски объявлений. Во избежание перегрузки почтовых ящиков в почтовых серверах хранятся справочники адресов, содержащих фильтры для групповых и общих сообщений. Электронная почта поддерживает текстовые процессоры для просмотра и редактирования корреспонденции, информационнопоисковые системы для определения адресата, средства поддержания списка рассылаемой информации, средства предоставления расширенных видов услуг: факс, телекс и т. д. Электронная почта может быть организована в локальной сети внутри предприятия для обеспечения внутреннего обмена информацией. Большинство глобальных сетей ЭВМ поддерживает электронную почту. В современных интегрированных пакетах используется объектно-ориентированная технология, а работа пользователя сводится к работе с меню. Почтовый ящик дополняется корзиной для мусора, куда пользователь может поместить ненужную корреспонденцию. Однако в случае необходимости он может оттуда ее забрать или окончательно выбросить.
Формат адреса электронной почты должен иметь вид: имя пользователя@адрес хост-компьютера. Для каждого пользователя на одном хост-компьютере может быть заведен свой каталог для получения сообщений по электронной почте.
155
156
WORLD-WIDE-WEB (WWW – Всемирная информационная сеть) Совмещение сетевой технологии с гипертекстом позволило создать новую технологию для работы в сети WWW (World Wide Web). Реализована она на базе сети Internet и получила название «Всемирная паутина». WWW является одной из самых популярных информационных служб Internet. Две основные особенности отличают WWW: использование гипертекста и возможность клиентов взаимодействовать с другими приложениями Internet. Гипертекст – текст, содержащий в себе связи с другими текстами, графической, видео или звуковой информацией. Внутри гипертекстового документа некоторые фрагменты текста четко выделены. Указание на них с помощью, например, мыши позволяет перейти на другую часть этого же документа, на другой документ в этом же компьютере или даже на документы на любом другом компьютере, подключенном к Internet. Связь между гипертекстовыми документами осуществляется с помощью ключевых слов. Найдя ключевое слово, пользователь может перейти в другой документ, чтобы получить дополнительную информацию. Новый документ также будет иметь гипертекстовые ссылки. Все серверы WWW (Web-серверы, sites) состоят из Webстраниц и используют специальный язык HTML (Hypertext Markup Language – язык разметки гипертекста). HTML-документы представляют собой текстовые файлы, в которые встроены специальные команды. Для перемещения по Web-страницам и передачи гипертекстовых документов по сети разработан протокол HTTP (Hyper Text Transfer Protokol). Для поиска Web-страницы с нужным гипертекстовым документом разработаны программы поиска и просмотра, называемые навигаторами, или браузерами (Brouser, Netscape Navigator, Internet Explorer). Они обеспечивают интерфейс пользователя со «Всемирной паутиной». При этом стиль
оформления экрана и форма представления документа задаются пользователем. Web-технология заключается в следующем. Пользователь посредством редактора HTML создает гипертекстовый документ. Он размещается на Web-сервере. Администратор делает ссылку в каталоге Web-сервера на Web-страницу, чтобы браузер смог ее найти. Любой другой пользователь посредством браузера может получить доступ к данной Web-странице. WWW обеспечивает доступ к сети как клиентам, требующим только текстовый режим, так и клиентам, предпочитающим работу в режиме графики. Работая с Web-сервером, можно выполнить удаленное подключение Telnet, послать абонентам сети электронную почту, получить файлы с помощью FTP-протокола и выполнить ряд других приложений (прикладных программ) Internet. Это дает возможность считать WWW интегральной службой Internet. Передача файлов с помощью протокола FTP Назначение электронной почты – прежде всего обмен текстовой информацией между различными компьютерными системами. Не меньший интерес для пользователей сети Internet представляет обмен отдельными файлами и целыми программами. Для того чтобы обеспечить перемещение данных между различными операционными системами, которые могут встретиться в Internet, используется протокол FTP (File Transfer Protocol), работающий независимо от применяемого оборудования. Протокол обеспечивает способ перемещения файлов между двумя компьютерами и позволяет абоненту сети Internet получить в свое распоряжение множество файлов. Пользователь получает доступ к различным файлам и программам, хранящимся на компьютерах, подключенных к сети. Программа, реализующая этот протокол, позволяет установить связь с одним из множества FTP-серверов в Internet. FTP-сервер – компьютер, на котором содержатся файлы, предназначенные для открытого доступа. Программа FTP-клиент не только реализует протокол передачи данных, но и поддерживает набор команд, которые используются для просмотра каталога FTP-сервера, поиска файлов и управления перемещением данных. 157
СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ Основной
1. Вентцель Е.С. Теория вероятностей. М.: Наука, 1969. 2. Вентцель Е.С., Овчаров Л.А. Теория вероятностей. М.: Наука, 1969. 3. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике (любое издание). 4. Гмурман В.Е. Теория вероятностей и математическая статистика (любое издание). 5. Информатика: Практикум по технологии работы на компьютере: Учеб. пособие / Под ред. Н.В. Макаровой. 3-е изд., перераб. М.: Финансы и статистика, 2001. 6. Информатика: Учебник / Под ред. Н.В. Макаровой. 4-е изд., перераб. М.: Финансы и статистика, 2001. 7. Колемаев В.А. и др. Теория вероятностей и математическая статистика. М.: Высшая школа, 1991. 8. Коршунов Д.А., Фосс С.Г. Сборник задач и упражнений по теории вероятностей. Новосибирск, 1997. 9. Коршунов Д.А., Чернова Н.И. Сборник задач и упражнений по математической статистике. Новосибирск, 2001. 10. Мендельсон Э. Введение в математическую логику. М.: Наука, 1976. 11. Севастьянов Б.А., Чистяков В.П., Зубков А.М. Сборник задач по теории вероятностей. М.: Наука, 1986. 12. Столл Р. Множества. Логика. Аксиоматические теории. М.: Просвещение, 1968. 13. Столяр А.А. Элементарное введение в математическую логику. М.: Просвещение, 1965. 14. Холл М. Комбинаторика. М.: Мир, 1974. 15. Экономическая информатика: Учебник / Под ред. В.П. Косарева, Л.В. Еремина. М.: Финансы и статистика, 2001. 16. Эренберг А.В. Анализ и интерпретация статистических данных. М., 1981.
158
Дополнительный
1. Безручко В.Т. Практикум по курсу «Информатика». Работа в Windows, Word и Excel: Учеб. пособие. М.: Финансы и статистика, 2001. 2. Боровков А.А. Математическая статистика. М.: Наука, 1984. 3. Боровков А.А. Теория вероятностей. М.: Наука, 1986. 4. Гнеденко Б.В. Курс теории вероятностей. М.: Наука, 1988. 5. Золотова С.И. Практикум по Access7.0. М.: Финансы и статистика, 2001. 6. Лавренов С.М. Excel. Сборник примеров и задач. М.: Финансы и статистика, 2001. 7. Марков А.С. Базы данных. Введение в теорию и методологию: Учеб. пособие. М.: Финансы и статистика, 2001. 8. Феллер В. Введение в теорию вероятностей и ее приложения. М.: Мир, 1984. 9. Чистяков В.П. Курс теории вероятностей. М., 1982.
Учебное издание
Николай Андреевич Исаченко
МАТЕМАТИКА И ИНФОРМАТИКА Учебное пособие (для студентов специальности «Документоведение и документационное обеспечение управления»)
Технический редактор Н.В. Москвичёва Редактор О.М. Азеева Дизайн обложки З.Н. Образова Подписано в печать 17.02.06. Формат бумаги 60х84 1/16. Печ. л. 10,0. Уч.-изд. л. 10,0. Тираж 120 экз. Заказ 72. Издательство Омского государственного университета 644077, г. Омск-77, пр. Мира, 55а, госуниверситет
159
160