МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ЯДЕРНЫЙ УНИВЕРСИТЕТ «МИФИ» ИНСТИТУТ...
13 downloads
330 Views
2MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ЯДЕРНЫЙ УНИВЕРСИТЕТ «МИФИ» ИНСТИТУТ АТОМНОЙ ЭНЕРГЕТИКИ
Г. К. Игнатенко, И. А. Сдельникова
СТАТИСТИЧЕСКАЯ ОЦЕНКА ДАННЫХ ЭКОЛОГИЧЕСКОГО МОНИТОРИНГА С ПРИМЕНЕНИЕМ EXCEL
Рекомендовано УМО «Ядерные физика и технологии» в качестве учебного пособия для студентов высших учебных заведений
Москва 2010
УДК 519.22:502/504 ББК 28.081 И 26 Игнатенко Г.К., Сдельникова И.А. Статистическая оценка данных экологического мониторинга с применением EXCEL: Учебное пособие. М.: НИЯУ МИФИ, 2010. – 124 с. В пособии излагаются основные методы первичной обработки экологического мониторинга окружающей среды. Описаны этапы и процедуры статистической обработки данных экологического мониторинга, сформулированы цели и задачи. Изложены методы ранжирования данных по значимости и определения согласованности данных, представленных различными аудиторами. Приводятся методы построения регрессионных уравнений, процедуры формирования моделей, определения их адекватности и статистической значимости коэффициентов с применением табличного редактора EXCEL. Пособие предназначено для студентов, обучающихся по курсам «Обработка данных экологического мониторинга» и «Системный анализ в экологии».
Подготовлено в рамках Программы создания и развития НИЯУ МИФИ.
Рецензент д-р физ.мат. наук, проф. В. С. Трошин
ISBN 978-5-7262-1240-1
Национальный исследовательский ядерный университет «МИФИ», 2010
Содержание 1. ПЕРВИЧНАЯ ОБРАБОТКА РЕЗУЛЬТАТОВ МОНИТОРИНГА ......................................................................................... 5 1.1. Общие сведения .............................................................................. 5 1.2. Статистические оценки результатов наблюдений ....................... 7 1.3. Расчет доверительного интервала для математического ожидания .................................................. 10 1.4. Определение необходимого объема выборки ............................ 13 1.5. Отбрасывание сомнительных наблюдений ................................ 16 1.6. Проверка гипотезы об однородности двух дисперсий ............................................................................. 17 1.7. Проверка однородности нескольких дисперсий, найденных по выборкам одинакового объема ........................... 18 1.8. Проверка однородности нескольких дисперсий, найденных по выборкам различного объема ............................ 20 1.9. Проверка однородности средних ................................................ 21 1.10. Проверка нормальности распределения................................... 22 1.11. Коэффициент корреляции ......................................................... 23 1.12. Ранговая корреляция .................................................................. 26 1.13. Обработка экспертных оценок при ранжировании ................. 28 2. СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ МОНИТОРИНГА В СИСТЕМЕ ТАБЛИЧНОГО РЕДАКТОРА EXCEL ............................................................................. 31 2.1. Проверка воспроизводимости (однозначности) наблюдаемых результатов .......................................................... 31 2.2. Дисперсионный анализ данных ................................................. 37 2.3. Корреляционный анализ данных ................................................ 41 3. ОСНОВНЫЕ ПОНЯТИЯ И ЗАДАЧИ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ В ЭКОЛОГИИ ......................................................................................... 43 3.1. Активные и пассивные, однофакторные и многофакторные эксперименты ................................................ 43 3.2. Основные задачи планирования эксперимента ......................... 48 4. ОБРАБОТКА РЕЗУЛЬТАТОВ ЭКСПЕРИМЕНТА ДЛЯ ПОЛУЧЕНИЯ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ ИССЛЕДУЕМЫХ ПРОЦЕССОВ........................................................... 51 4.1. Основные виды математических моделей, применяемых при исследованиях ...................................................... 51 3
4.2. Метод наименьших квадратов для моделей с одной переменной ...................................................................... 57 4.3. Метод наименьших квадратов для многофакторных экспериментов .............................................................................. 65 4.4. Об интервале съема данных и продолжительности пассивного эксперимента ............................................................ 75 4.5. Статистический анализ уравнения регрессии ............................ 77 4.6. Пример обработки результатов экспериментальных исследований ................................................................................ 87 5. ПОСТРОЕНИЕ МНОГОФАКТОРНОЙ ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ В EXCEL ........................................... 93 6. КУЛЬТУРА ПРЕДСТАВЛЕНИЯ ЧИСЛОВЫХ ЗНАЧЕНИЙ ИЗМЕРЕНИЙ И ВЫЧИСЛЕНИЙ ......................................................... 97 7. КОНТРОЛЬНОЕ ЗАДАНИЕ ............................................................... 100 ПРИЛОЖЕНИЯ: 1. Методические рекомендации для оценки состояния загрязнения атмосферы населенных мест ................................... 102 2. Значения критерия Фишера F при q = 0,05 ............................. 118 3. Значения критерия Кохрена G при q = 0,05 ............................. 120 2 4. Значения критерия χ ................................................................... 121 СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ ................................. 123
_____
4
1. ПЕРВИЧНАЯ ОБРАБОТКА РЕЗУЛЬТАТОВ МОНИТОРИНГА 1.1. Общие сведения Обработка данных контроля природной среды проводится с помощью методов прикладной статистики – дисперсионного анализа, регрессионного анализа и т.д. Следует отметить, что формальное применение методов статистики без анализа их пригодности для обработки конкретного типа данных приводит к совершенно невероятным результатам. Наибольшее значение для исследования природной среды имеет регрессионный анализ, изучающий зависимости между наблюдаемыми случайными величинами. Целью большинства наблюдений (мониторинга) является изучение влияния различных воздействий на окружающую среду. Эти воздействия называют факторами. Факторы могут быть основными и побочными, посторонними. Основные факторы участвуют в наблюдениях, контроле, эксперименте. Одни из них варьируются при исследовании процесса, и тогда их называют варьируемыми факторами, другие стабилизируются на определенном уровне. Побочные, посторонние факторы желательно, по возможности, устранять. Однако все побочные факторы устранить невозможно, поэтому результат единичного измерения представляет собой случайную величину, которая может принимать то или иное значение, причем заранее неизвестно, какое именно. Результат измерения по той же причине всегда отличается от истинного значения (истинного результата), т.е. такого значения измеряемой величины, которое можно было бы получить при воздействии на объект исследования только основных факторов [1]. Случайная величина, принимающая отделенные друг от друга значения, которые можно пронумеровать, называется дискретной. Примером дискретной величины может быть количество измерений контролируемых ингредиентов, как во времени, так и в пространстве. Случайную величину, возможные значения которой непрерывно заполняют некоторый промежуток, называют непрерыв5
ной (например, плотность распределения контролируемого ингредиента на территории в заданном интервале времени). Отклонение результата измерения от истинного результата называется ошибкой опыта. Ошибка опыта, как и результат измерения, является случайной величиной. В надежде избавиться от ошибок экспериментатор пытается, по возможности, устранить, учесть или компенсировать действие тех или иных мешающих факторов, стабилизирует условия опытов, калибрует измерительные приборы и т. д. Однако таким путем можно полностью избавиться только от части ошибок, называемых систематическими. Это – ошибки, повторяющиеся по всей серии наблюдений и связанные в основном с наличием факторов, действующих постоянно и в одном направлении. Наряду с систематическими ошибками в любом эксперименте присутствуют еще и случайные ошибки, вызываемые действием многочисленных факторов, которые проявляются нерегулярно, причины возникновения их неизвестны и они по-разному сказываются на результатах эксперимента. Такие факторы называются случайными. Каждый из них вносит в случайную ошибку малый вклад, поэтому выявление их бесполезно, да и затруднительно. Кроме систематических и случайных, различают грубые ошибки, или выбросы, являющиеся браком экспериментатора при повторении опытов. Грубые ошибки связаны с резким нарушением условий экспериментов или просчетом экспериментатора при отдельном наблюдении. Они должны быть отброшены на основании проверки по специальным критериям, которые будут рассмотрены ниже. Опыты, проводимые в одинаковых условиях при постоянных значениях основных факторов, называются однородными. Однородность испытаний является одним из важнейших условий правильного применения статистических методов обработки наблюдений. Чтобы обеспечить однородность опытов, нужно каждую серию проводить на одной и той же установке, по неизменной методике, одними и теми же исследователями и в реальный срок. При этом надо учесть, что многие факторы заметно меняются во времени и вызывают дрейф выходной измеряемой величины. Если избе6
жать этого явления не удается, то его желательно учитывать как особый фактор. Таким образом, единичный опыт не может дать точного представления о связи изучаемого явления с вызвавшими его обстоятельствами. Вот почему при большем количестве сделанных наблюдений результат будет более надежным. Исследователь вследствие указанных причин анализирует множество результатов наблюдений. И от того, насколько правильно будут обработаны эти результаты, зависит объективность, точность и надежность определения истинного значения измеряемой характеристики и, следовательно, правильность всех дальнейших заключений и выводов. Отсюда логически вытекает необходимость в научном подходе к обработке результатов опытов, который составляет предмет изучения математической статистики. Математическая статистика – это наука о математических методах обработки, систематизации и использовании результатов наблюдений для научных и практических выводов. Роль математической статистики в экологическом мониторинге особенно велика, так как результаты наблюдения определяют гарантии жизнеобеспечения на настоящий и будущие (при прогнозировании) моменты времени. Рассматриваемые в данном разделе простые статистические процедуры широко применяются при обработке данных экологического мониторинга (см.приложение 1). Они могут представлять самостоятельный интерес при решении конкретных задач и, кроме того, входят в комплекс методов, используемых при статистической обработке результатов многофакторных экспериментов. 1.2. Статистические оценки результатов наблюдений Множество значений случайной величины, полученных в результате эксперимента или наблюдений над объектом исследования, представляет собой статистическую совокупность. Статистическая совокупность, содержащая в себе все возможные значения случайной величины, называется генеральной статистической совокупностью. Выборочной статистической совокупностью называ7
ется совокупность, в которой содержится только некоторая часть элементов генеральной совокупности. По результатам экспериментов практически всегда встречаются с выборочной, а не с генеральной совокупностью. Выборочную статистическую совокупность будем в дальнейшем называть выборкой, а число опытов (наблюдений) n, содержащееся в выборке, – объемом выборки. При повторении опытов в одинаковых условиях обычно обнаруживается закономерность в частоте появления тех или иных результатов. Некоторые значения случайной величины появляются значительно чаще других, при этом в целом они группируются относительно некоторого значения – центра группирования, которое обозначим через My. Для описания этого явления используется вероятностный подход [2]. Пусть pi – вероятность того, что случайная величина, являющаяся результатом эксперимента, примет значение yi, i = 1, 2, ..., п. Если значения pi известны для всех возможных значений yi из генеральной совокупности, то величину My можно найти по формуле n
M y = p1 y1 + p2 y2 + ... + pn yn = ∑ pi yi .
(1.1)
i =1
Величину My называют математическим ожиданием, или генеральным средним случайной величины. Одно только математическое ожидание не может отобразить все характерные черты статистической совокупности. Исследователю необходимо знать, кроме того, изменчивость (или вариацию) наблюдаемой характеристики объекта. Рассеивание случайной величины относительно математического ожидания характеризуется величиной, называемой дисперсией. Обычно она обозначается через σ2. Для генеральной совокупности дисперсия определяется по формуле n
σ2 = ∑ pi ( yi − M i ) . 2
(1.2)
i =1
Дисперсию σ2 часто называют генеральной дисперсией. Квадратный корень из дисперсии называется средним квадратическим отклонением случайной величины (или стандартом) σ = σ2 . Как и дисперсия, среднее квадратическое отклонение является характе8
ристикой рассеивания значений случайной величины относительно математического ожидания. Формулы (1.1) и (1.2) справедливы для дискретных случайных величин. Для непрерывных случайных величин математическое ожидание и дисперсия выражаются через соответствующие интегралы. Поскольку экспериментатор встречается не с генеральной совокупностью, а с выборкой, необходимо иметь формулы, позволяющие приближенно оценить математическое ожидание My и дисперсию σ2 на основе экспериментальных данных. Пусть по результатам однородной серии опытов получена выборка y1, y2, ..., yn. Наилучшей оценкой для математического ожидания My является среднее арифметическое или просто «среднее» y + y2 + .. + yn y= 1 (1.3) n Найденное значение ycp называют еще выборочным средним в отличие от генерального среднего My. Оценкой дисперсии σ2 случайной величины является выборочная, или эмпирическая дисперсия. Она обозначается через s2 и вычисляется по формуле
( y − y) + ( y = 2
s2
1
2
−y
)
2
(
+ ... + yn − y
)
2
(1.4) . n −1 Числитель этой формулы представляет собой сумму квадратов отклонений значений случайной величины от среднего значения ycp. Знаменатель формулы для выборочной дисперсии называется числом степеней свободы, связанным с этой дисперсией, и обозначается через f: f = (n – 1). (1.5) Формулу (1.4) можно преобразовать к виду, более удобному для вычислений: 1 ⎛ n 2 2⎞ (1.6) s2 = ⎜ n ∑ yi − ny ⎟ . n − 1 ⎝ i =1 ⎠ Величина
s=
1 n 2 ( yi − y ) . ∑ n − 1 i =1 9
(1.7)
является оценкой среднего квадратического отклонения σ выборки. Ее также называют выборочным стандартом. Часто для оценки изменчивости (вариации) случайных величин используют коэффициент вариации ν, равный s ν = ⋅ 100% . (1.8) y Коэффициент вариации характеризует не абсолютное, а относительное рассеивание случайной величины относительно среднего. Важными в статистике являются также следующие статистические показатели: средняя квадратическая ошибка среднего значения sy = s n ; (1.9) показатель точности среднего значения sy ν ; ξ = ⋅ 100% = (1.10) y n ошибка среднего квадратического отклонения ss = s 2 n . При изложении дальнейшего материала данного раздела будем предполагать, что результаты наблюдений свободны от систематических ошибок, а случайные ошибки (а значит, и результаты наблюдений) подчинены нормальному закону распределения. 1.3. Расчет доверительного интервала для математического ожидания
Величина y , найденная по выборке, представляет ценность постольку, поскольку по ней можно судить об истинном среднем математическом ожидании My. Представляет интерес отыскание величины максимальной ошибки ∆, которую мы допускаем, предполагая My равным y . Требуется, следовательно, найти величину Δ, при которой y −Δ ≤ My ≤ y +Δ. (1.11) 10
Неравенством (1.11) задается интервал, в котором находится значение математического ожидания My. Этот интервал называется доверительным интервалом для математического ожидания. Величина Δ зависит, очевидно, от объема выборки n. Чем больше n, тем меньше максимальная ошибка Δ. Однако даже при заданном n нельзя абсолютно достоверно указать величину Δ, так как расчет этой величины, как и любой статистический вывод, делают на основе результатов эксперимента, а они заведомо содержат ошибки. Выводы, которые делают на основе неточных данных, принципиально не могут быть абсолютно достоверными, поэтому говорят о надежности статистического вывода, которую оценивают величиной доверительной вероятности p, где 0 < p < 1. Например, статистический вывод, сделанный с доверительной вероятностью p = = 0,95, будет справедлив в 95 случаях из 100. Будем пользоваться чаще величиной q = 1 – р, называемой уровнем значимости. Уровень значимости задается заранее до проведения расчетов. Типичные значения для q: 0,01; 0,05 и 0,1 или в процентах: 1, 5, 10. Вернемся к отысканию доверительного интервала для математического ожидания. Будем предполагать, что дисперсия измеряемой величины y заранее неизвестна, а ее оценка s2 найдена по выборке с помощью формул (1.4) или (1.9). В этом случае величина Δ определяется по формуле Δ = ts n [3], следовательно, доверительный интервал для математического ожидания равен y − ts n ≤ M y ≤ y + ts n . (1.12) Величина s – это оценка стандарта: s = s 2 . Кроме известных величин s и n, в формулу (1.12) входит величина t, для отыскания которой понадобятся статистические таблицы. Они есть практически в каждом руководстве по математической статистике или планированию эксперимента, в том числе и в данной книге. Величина t называется табличным значением t-критерия Стьюдента. В соответствующей таблице (см. табл. 1.1) ее следует отыскать по предварительно заданному уровню значимости q и числу степеней свободы f = п – 1. Оценку для математического ожидания в виде интервала часто называют интервальной оценкой в отличие от оценок по формулам 11
(1.3) и (1.11), которые называют точечными оценками для математического ожидания. Таблица 1.1 Значения t-критерия Стьюдента (q – уровень значимости, f – число степеней свободы) f 1 2 3 4 5 6 7 8 9 10 11 12 13
q 0,05 12,7 4,30 3,18 2,78 2,57 2,45 2,36 2,31 2,26 2,23 2,20 2,18 2,16
0,01 63,66 9,92 5,84 4,60 4,03 3,71 3,50 3,36 3,25 3,17 3,11 3,05 3,01
f 14 15 16 17 18 19 20 21 22 23 24 25 26
q 0,05 2,14 2,13 2,12 2,11 2,10 2,09 2,09 2,08 2,07 2,07 2,06 2,06 2,06
0,01 2,98 2,95 2,92 2,90 2,88 2,86 2,85 2,83 2,82 2,81 2,80 2,79 2,78
f 27 28 29 30 40 50 60 80 100 120 200 500
q 0,05 2,05 2,05 2,05 2,04 2,02 2,01 2,00 1,99 1,98 1,98 1,97 1,96
0,01 2,77 2,76 2,76 2,75 2,70 2,68 2,66 2,64 2,63 2,62 2,60 2,59 .
Пример. 10 образцов (по 60 семян ячменя) были подвергнуты СВЧ-облучению. В результате проросло следующее количество Н семян в образцах: 47, 35, 40, 43, 35, 41, 46, 44, 54, 39 шт. Требуется рассчитать точечную оценку и доверительный интервал для математического ожидания. Вычислим среднее арифметическое Hср и оценку дисперсии s2 выборки: 47 + 35 + ... + 39 = 42,6 , Нср = 10 10
2 s 2 = (∑ H i2 − 10 H cp ) / 9 = 33,37 .
i =1
2
Отсюда s = s = 5,77 (шт.). Зададимся уровнем значимости q = 0,05. Это соответствует доверительной вероятности p = 1 – q = 0,95. Из табл. 1.1 по величи12
нам q = 0,05 и f = n – 1 = 9 найдем значение t = 2,26. Подставляя найденные значения для H, s, n и t в формулу (1.12), получим доверительный интервал для математического ожидания 42,4 − (2,26 ⋅ 5,77 ) 10 < M y < 42,4 + (2,26 ⋅ 5,77 ) 10 . (1.13) Не следует думать, что во всех случаях целесообразно задаваться как можно большей надежностью статистического вывода. Покажем на материале предыдущего примера, к чему это может привести. Зададимся теперь уровнем значимости q = 0,01. Доверительная вероятность будет теперь равна p = 1 – 0,01 = 0,99. Новое значение t, найденное из табл. 1.1, составит 3,25, а доверительная оценка примет вид 36,8 = < My = < 48,6. Как и следовало ожидать, с большей надежностью можно гарантировать только более широкий доверительный интервал для математического ожидания при тех же опытных данных. 1.4. Определение необходимого объема выборки
Пусть требуется найти минимальное число n повторений опытов, при котором среднее арифметическое уср, найденное по этой выборке, отличалось бы от математического ожидания не более чем на заданную величину ∆. По сути, это – задача, обратная предыдущей. Для ее решения необходимо знать оценку дисперсии s2. Здесь можно использовать, например, результаты проведенных ранее исследований. Искомое значение n определяется по формуле n = t 2 s2 Δ2 . (1.14) Величину t отыскивают по табл. 1.1 при уровне значимости q и числе степеней свободы f, связанном с оценкой дисперсии s2. Если эта дисперсия найдена по выборке объема, большего 120, то вместо величины t в формуле (1.14) можно пользоваться величиной T, зависящей только от уровня значимости q: q Τ
0,2 1,28
0,1 1,64
0,05 1,96
0,01 2,58
0,005 2,81
Формулу (1.14) можно преобразовать следующим образом. Поделим числитель и знаменатель на у2. Обозначим через ε величину 13
(∆/yср)·100 %. Это выражение представляет собой относительную допускаемую ошибку. Учитывая, что отношение (s/y) % – это, по определению, коэффициент вариации ν, получим n = T 2ν2 / ε2 . (1.15) Пример. На основе результатов измерений количества частиц на фильтрах, приведенных в табл. 1.2, найти необходимый объем выборки, при котором среднее отличалось бы от математического ожидания не более чем на Δ = 50 частиц с доверительной вероятностью p = 0,95. Таблица 1.2 Количество частиц на исследуемых фильтрах 1 760 760 460 461 430 651 668 602
2 940 1010 454 685 910 950 910 554
3 4 1110 766 850 790 847 795 844 893 942 1120 1236 835 545 830 852 900
Номер фильтра 5 6 7 8 615 502 708 618 535 517 629 618 500 720 605 535 740 730 725 510 758 619 775 734 785 623 780 741 802 510 880 717 1034 702 1117 740
9 560 428 485 652 675 602 610 523
10 552 560 860 864 560 565 495 456
11 960 1260 613 1070 412 1160 452 552
12 1210 825 825 860 952 1264 660 950
Для определения необходимого объема выборки воспользуемся формулой (1.15), причем вместо t можно подставить в нее значение T. Данной величине p соответствует уровень значимости q = 1 – p = = 0,05. Соответствующее значение T = 1,96. По данным табл. 1.2 вычислим среднее значение y и оценку дисперсии s2: уср = 750, s 2 = 41616. Тогда согласно формуле (1.16) имеем: n = (1,962·41616) / 502 ≈ 64. В изложенном далее материале широко используются процедуры проверки статистических гипотез. Статистическая гипотеза – это некоторое предположение относительно свойств генеральной совокупности, проверяемой по выборке. Например, гипотеза об однородности средних или дисперсии, о законе распределения и т.д. Проверка статистической гипотезы – это процедура, по результатам которой гипотеза принимается или отбрасывается. 14
Проверка статистических гипотез связана с такими распространенными задачами, как сравнительная оценка различных технологических процессов по их производительности, точности, экономичности или сравнение конструктивных особенностей машин и приборов. В планировании эксперимента проверка статистических гипотез позволяет правильно оценить преимущества одной модели перед другой, выявить наиболее значимые факторы, влияющие на данное явление, а также убедиться в пригодности (адекватности) полученного математического описания процесса. Выдвинутую гипотезу называют основной, или нулевой. Гипотезу, противоречащую нулевой, называют альтернативной. Для проверки нулевой гипотезы используют специально подобранную случайную величину, распределение которой известно. Ее называют статистическим критерием. Например, при проверке гипотезы об однородности дисперсий в качестве критерия используют отношение выборочных дисперсий, которое подчиняется статистическому распределению Фишера. Для проверки статистической гипотезы вычисляют значение критерия по имеющимся опытным данным. Если оно находится внутри некоторой заданной заранее области, называемой областью принятия гипотезы (областью допустимых значений), то нулевая гипотеза принимается. В противоположном случае значение критерия попадает в критическую область, и тогда гипотеза отвергается. Однако попадание критерия в область допустимых значений не дает права категорически утверждать, что гипотеза полностью подтвердилась. Можно только заключить, что по данным выборки значение критерия не противоречит гипотезе, поэтому, принимая решение о правильности гипотезы, можно допустить ошибку. Ошибка первого рода состоит в том, что отвергается гипотеза, которая на самом деле верна. Вероятность этой ошибки задается заранее выбором уровня значимости q (как указывалось ранее, типичные значения q: 0,01; 0,05, 0,1 или 1, 5 и 10 %). Ошибка второго рода состоит в том, что гипотеза принимается, а на самом деле она неверна. Уменьшение ошибки второго рода достигается увеличением уровня значимости. Таким образом, уменьшение уровня значимости приводит к уменьшению ошибки первого рода и при этом к 15
увеличению ошибки второго рода. Отметим, что единственный способ одновременного уменьшения вероятностей ошибок первого и второго рода состоит в увеличении объема выборок. 1.5. Отбрасывание сомнительных наблюдений
Грубые наблюдения (выбросы) подлежат исключению из выборки. Для их обнаружения можно вновь воспользоваться tкритерием Стьюдента. В этом случае сомнительный результат yi, временно исключают из выборки, а по оставшимся данным рассчитывают среднее арифметическое y и оценку дисперсии s2. Далее вычисляют величину tpaсч = yi − y s . Из таблиц распределения Стьюдента (см. табл. 1.1) по выбранному уровню значимости q и числу степеней свободы f, связанному с дисперсией s2, находят табличное значение t-критерия – tтaбл. Если tpaсч > tтaбл, то подозреваемый результат является промахом и должен быть исключен из выборки. Иногда сомнение вызывают одновременно два или даже три элемента выборки. Исследование начинают с того из сомнительных элементов, значение которого ближе к среднему арифметическому выборки, а остальные сомнительные элементы временно отбрасывают. Затем рассчитывают значения y и s выборки без исключенных элементов, а также значение tpaсч для оставшегося сомнительного элемента. Далее решают вопрос об исключении этого элемента с уровнем значимости q. Если tpaсч > tтaбл, то оставшийся элемент выборки отбрасывают как грубое измерение. Тем более грубыми будут и остальные, ранее исключенные элементы. Если наименее сомнительный элемент не оказался промахом (tpaсч < tтaбл), то его присоединяют к выборке и исследуют следующий сомнительный элемент и т. д. Пример. Проверим, не является ли промахом результат Н = 54 в примере из п. 1.3. Исключив это значение из выборки, найдем среднее и дисперсию по оставшимся данным: Нср = 41,1, s 2 = 18,86, s ≈ 4,34, tpaсч = (54 – 41,1) / 4,34 ≈ 2,97. 16
Зададимся уровнем значимости q = 0,01. Для этого q при f = = 9 – 1 = 8 из табл. 1.1 найдем tтaбл = 3,36. Полученное соотношение tpaсч < tтaбл не дает оснований считать результат Н = 54 промахом при выбранном уровне значимости. 1.6. Проверка гипотезы об однородности двух дисперсий
Результаты экспериментальных исследований часто используют, например, для сравнения условий функционирования объектов, оценки сравнительной эффективности различных технологий, разных способов измерения и т. д. Во многих случаях соответствующие выводы делают на основе анализа и сравнения нескольких выборок. Одна из простых задач такого типа возникает, когда надо сравнивать точность двух измерительных приборов. В этом случае, очевидно, следует сравнить оценки дисперсий соответствующих выборок. Пусть представлены две выборки объемом n1 и n2, по которым найдены выборочные дисперсии s12 и s22 . Они являются оценками для генеральных дисперсий соответственно σ12 и σ22 . Предположим, что s12 = s22 . Требуется выяснить, можно ли утверждать, что обе выборки взяты из одной и той же генеральной совокупности. Если это так, то σ12 = σ22 . В этом случае выборочные дисперсии s12 и s22 называются однородными, а различие между ними объясняется влиянием случайных ошибок. В противном случае генеральные дисперсии σ12 и σ22 не равны друг другу. Тогда говорят, что различие между выборочными дисперсиями значимо. Для проверки статистической гипотезы об однородности двух дисперсий используется критерий Фишера (F). Сначала вычисляется величина Fрасч, равная отношению большей из выборочных дисперсий к меньшей. Пусть для определенности s22 > s22 . Тогда Fрасч = s12 s22 . 17
(1.16)
Далее задаются уровнем значимости q и вычисляют числа степеней свободы дисперсии числителя и знаменателя по формуле (1.5): f1 = n1 – 1 и f2 = n2 – 1. По трем величинам q, f1 и f2 из таблиц распределения Фишера (см. приложение 2) отыскивают величину F = Fтабл. Если Fрасч > Fтабл, то выборочные дисперсии считаются неоднородными (различие между ними значимо) для выбранного уровня значимости q. Если Fрасч ≤ Fтабл, то можно принять гипотезу об однородности дисперсий. Пример. Для сравнения точности двух измерителей влажности воздуха каждым из них проведено 10 измерений. Результаты замеров влажности W, %, первым и вторым приборами следующие: Первый прибор Второй прибор
35 42
41 39
47 42
38 43
41 45
43 40
42 37
37 44
49 44
39 43
Вычисленные значения средних и выборочных дисперсий для каждого прибора соответственно равны: y1 = 41,2; y2 = 41,9; s12 = = 18,84; s22 = 6,32. Дисперсии существенно отличаются. Следует ли отсюда, что точность первого измерителя влажности меньше, чем второго? Вычислим Fрасч по формуле (1.16). В данном случае в числителе должна быть дисперсия s12 : Fрасч = s12 / s22 = 18,84 : 6,32 = 2,98. Зададимся уровнем значимости q = 0,05. Числа степеней свободы каждой из дисперсии равны f1 = f2 = 10 – 1 = 9. Из табл. 1.1 для q = 0,05, f1 = f2 = 9 найдем Fтабл = 3,18. Полученное соотношение Fрасч < Fтабл не дает основания сделать вывод о значимости расхождения в точности исследуемых влагомеров по результатам данного эксперимента. Для окончательного решения вопроса необходимо повторить эксперимент, существенно увеличив объем каждой выборки. 1.7. Проверка однородности нескольких дисперсий, найденных по выборкам одинакового объема
Для проверки однородности нескольких дисперсий при равных объемах всех рассматриваемых выборок n1 = n2 = n3, =...= n может быть использован критерий Кохрена G. 18
Пусть т – количество выборочных дисперсий, однородность которых проверяется. Обозначим эти дисперсии s12 , s22 ,..., sm2 . Вычисляется расчетное отношение G по формуле 2 G = smax ( s12 + s22 + ... + sm2 ) . (1.17) В числителе этой формулы стоит наибольшее значение из рассматриваемых дисперсий, а в знаменателе значение суммы всех дисперсий. Далее обращаются к таблицам распределения Кохрена (см. приложение 3). По выбранному уровню значимости q, числу степеней свободы каждой выборки f = n – 1 и по количеству выборок m из этой таблицы отыскивают величину G = Gтабл. Если G < Gтабл, то можно принять гипотезу об однородности дисперсий. В противном случае она отвергается. Пример. На лабораторном стенде при отработке методики определения концентрации частиц в воздухе шестью студентами обработано пять фильтров при одних условиях. Результаты измерений – количество частиц на фильтре приведены в табл. 1.3. Таблица 1.3 Количество частиц на фильтре Номер фильтра 1 2 3 4 5
1-й 49 43 58 47 52
2-й 50 48 53 49 55
Студент 3-й 4-й 48 53 49 42 52 56 48 45 57 54
Среднее 5-й 47 47 54 48 56
6-й 51 41 55 44 54
50 45 55 47 55
Дисперсия 4,8 11,6 4,8 3,8 3,2
Требуется выяснить, можно ли считать, что разброс значений частиц для всех фильтров одинаков. Для ответа на этот вопрос рассчитаем среднее значение уi, и оценку дисперсии si2 для каждого фильтра (они приведены в последних двух столбцах табл. 1.3). Проверим однородность дисперсий s12 − s52 по критерию Кохрена (объемы каждой из пяти выборок одинаковы и равны шести). Из табл. 1.3 находим наибольшую дисперсию, равную s32 = 0,324. Составим G-соотношеиие: 19
(
)
2 Gрасч smax s12 + s22 ... + sm2 = 11,6 28,2 = 0,41. Из приложения 3 для количества выборок n = 5 и числа степеней свободы f = n – 1 = 6 – 1 = 5 при уровне значимости q = 0,05 находим Gтабл = 0,5063. Поскольку Gрасч < Gтабл, гипотеза об одинаковом разбросе значений частиц принимается.
1.8. Проверка однородности нескольких дисперсий, найденных по выборкам различного объема
Экспериментаторы часто планируют получение выборок одинакового объема, однако, если в опытах обнаруживаются промахи, то после их исключения объемы выборок оказываются различными. Пусть, как и в предыдущем пункте, проверяется однородность некоторого числа m дисперсий: s12 , s22 ,..., sm2 . Теперь эти дисперсии найдены по выборкам различного объема – соответственно n1, n2, n3, ..., nm. В этом случае используют критерий Бартлетта-B. Предварительно вычисляют величину s 2y , представляющую собой среднее взвешенное значение дисперсий, взятое с учетом числа степеней свободы s 2y = ( f1s12 + f 2 s22 + ... + f m sm2 ) f , где f = f1 + f2 ...+fm; fm – это числа степеней свободы соответствующих дисперсий: fi = ni – 1. Далее рассчитывают величину B = V / C, где V и C соответственно равны [10]: m ⎛ ⎞ V = 2,303 ⎜ f lg s y2 − ∑ fi lg si2 ⎟ , i =1 ⎝ ⎠ m ⎛ ⎞ C = 1 + 1 ( 3 ( m − 1) ) ⎜ f lg s y2 − ∑ fi lg si2 ⎟ . i =1 ⎝ ⎠ Затем из приложения 4 при уровне значимости q и числе степеней свободы k = т – 1 отыскивают значение χ 2табл . Гипотеза об од-
нородности дисперсий принимается, если B ≤ χ 2табл . В данной проверке требуется, чтобы объем каждой выборки был не менее четы20
рех. Поскольку величина C заведомо больше единицы, то после вычисления значения V можно уже проверить выполнение неравенства V ≤ χ 2табл Если оно окажется справедливым, то гипотезу об однородности дисперсий можно принять. Если V > χ 2табл то следует вычислить C и довести проверку до конца. Применение критерия Бартлетта, как видно, является достаточно трудоемким. Кроме того, следует иметь в виду, что он весьма чувствителен к отклонениям от нормальности распределения. 1.9. Проверка однородности средних
Здесь исследуются две выборки, имеющие различные средние арифметические. Данная проверка позволяет установить, вызвано ли расхождение между средними случайными ошибками измерения или оно связано с влиянием каких-либо неслучайных факторов. Эта процедура находит широкое применение, например, в случаях, если требуется установить идентичность параметров одинаковых измерений, выполненных разными приборами. Проверка проводится с применением t-критерия Стьюдента. Пусть n1 и n2 – объемы выборок, измеряемой величины yi, у1 и у2 – соответствующие средние значения выборок, s12 и s22 – оценки дисперсий, найденные по этим выборкам. Предстоит рассмотреть два случая. 1. Дисперсии s12 и s22 однородны. Вычисляется расчетное tотношение по формуле | y1 − y2 | . (1.18) tрасч = 2 2 (1 / n1 + 1 / n2 ) ⋅ ( n1 − 1) s1 + ( n2 − 1) s2 / ( n1 + n2 − 2 )
(
((
)
))
Из таблиц распределения Стьюдента при уровне значимости q и числе степеней свободы f = n1 + n2 – 2 находят табличное значение tтабл (см. табл. 1.1). Если tрасч > tтабл, то расхождение между средними значимо. В противном случае можно принять гипотезу об однородности средних. Формула (1.18) упрощается, если обе выборки имеют одинаковый объем, т.е. n1 = n2 = n3 =...= n. В этом случае 21
tрасч = y1 − y 2
⎡ s12 + s22 ⎤ n . ⎣ ⎦
(1.19)
2. Дисперсии s12 и s22 неоднородны. Как и в предыдущем случае, здесь можно использовать t-критерий Стьюдента, но формула для tрасч имеет уже следующий вид [8]: s12 n1 + s22 n2 .
tрасч= y1 − y 2
(1.20)
Далее вычисляют величину f по формуле 2 2 ⎡⎛ s 2 ⎞ 2 ⎤ ⎛ s12 s22 ⎞ ⎛ s22 ⎞ 1 ⎢⎜ ⎟ ( n1 + 1) + ⎜ ⎟ ( n2 + 1) − 2 ⎥ . (1.21) f =⎜ + ⎟ ⎢⎝ n1 ⎠ ⎥ ⎝ n1 n2 ⎠ ⎝ n2 ⎠ ⎣ ⎦ Найденное значение f округляют до целого и принимают за число степеней свободы. По этой величине и по уровню значимости q из таблиц распределения Стьюдента отыскивается tтабл. Дальнейший ход проверки не отличается от предыдущего случая. 1.10. Проверка нормальности распределения
При рассмотрении всех предыдущих статистических процедур предполагалось, что выходная величина подчиняется нормальному закону распределения. Это предположение можно проверить разными способами. Наиболее строгим из них является применение критерия χ2 Пирсона. Для этого необходимо иметь выборку достаточно большого объема: n ≥ 50 – 150. Диапазон изменения выходной величины в этой выборке разбивается на l интервалов так, чтобы эти интервалы покрывали всю ось от –∞ до +∞, и в каждый интервал при этом попало не менее пяти значений выходной величины. Подсчитывают количество mi, наблюдений, попавших в каждый интервал. Затем вычисляют теоретические вероятности попадания случайной величины в каждый i-й интервал. Для этого используют формулу P = Ф(z2) – Ф(z1), где, yн − y yв − y z1 = i z2 = i , (1.22) s s 22
в которой y – среднее арифметическое выборки; s – среднее квадратическое отклонение выборки; yiн – нижняя граница i-го интервала; yiв – верхняя граница i-го интервала; Ф(z) – нормированная функция Лапласа: z 2 1 Ф (z) = e − x 2 dx . ∫ 2π 0 Значения ее для z = z1 и z = z2 определяют из таблиц [9]. При отыскании значений этой функции для отрицательных значений аргумента следует иметь в виду, что функция Ф(z) нечетная: Ф(–z) = – Ф(z). Следующим этапом является вычисление величины χ 2рас по формуле χ 2расч =
l
∑ (m
− pi n )
2
i
pi n .
(1.23)
i =1
По выбранному уровню значимости q и числу степеней свободы k = l – 3 из статистических таблиц приложения 4 отыскивают χ 2табл . Гипотезу о нормальности распределения можно принять, если χ 2расч < χ 2табл . 1.11. Коэффициент корреляции
Во многих случаях целью экспериментальных исследований является установление и изучение зависимости между некоторыми величинами. Если каждая из этих величин является случайной, то при этом используют методы корреляционного анализа. Так, методами корреляционного анализа можно оценить степень взаимосвязи между пределом влажности воздуха и количеством дисперсных загрязняющих частиц и т.д. Будем говорить, что между двумя случайными величинами имеется статистическая связь, если при изменении одной из них меняется распределение другой. Для оценки статистической связи по данным эксперимента широко используется выборочный коэффи23
циент корреляции. Пусть проведено n наблюдений и в каждом из них определялись значения двух параметров (признаков) x и y. Следовательно, имеются две одновременно получаемые выборки: x1 , x2 ,..., xn и y1 , y 2 ,..., y n . По каждой из них найдем среднее арифметическое x и y , а также выборочный стандарт sx и sy. Выборочный коэффициент корреляции r рассчитывается по формуле
((
)(
))
r = ∑ xi − x yi − y / ((n − 1)sx s y ) , n
i =1
(1.24)
которую можно переписать в виде, более удобном для вычислений: n ⎛ n ⎞ ⎜ n∑ xi yi − ∑ yi ⎟ i =1 ⎝ i =1 ⎠ . (1.25) r= 2 2 n n ⎛ n ⎞⎛ n ⎞ ⎛ ⎞ ⎛ ⎞ ⎜ n∑ xi2 − ⎜ ∑ xi ⎟ ⎟⎜ n∑ yi2 − ⎜ ∑ yi ⎟ ⎟ ⎜ i =1 ⎝ i =1 ⎠ ⎟⎜ ⎝ i =1 ⎠ ⎟⎠ ⎝ ⎠⎝ i =1 При расчетах полезно иметь в виду, что выборочный коэффициент корреляции не изменяется при изменении начала отсчета и масштаба измерения x и у. Коэффициент корреляции всегда лежит в пределах – 1 < r < 1. Он характеризует не всякую, а только линейную зависимость между случайными величинами. При положительном r можно предполагать, что с возрастанием одной из случайных величин другая в среднем тоже возрастает. При отрицательном r с ростом одной из них другая величина будет в среднем убывать. Чем ближе величина r к 1 или к (–1), тем больше степень линейной зависимости между рассматриваемыми случайными величинами. Значение r = 0 свидетельствует об отсутствии линейной статистической связи между ними. Такие случайные величины называются некоррелированными. Для выяснения, будут ли некоррелированными в этом случае признаки х и у, вычисляют величину [3] tрасч = r
( n − 2)
(1 − r ) . 2
(1.26)
Ее сравнивают с табличным значением t-критерия Стьюдента, найденным при выбранном уровне значимости q и числе степеней 24
свободы f = п – 2. Если tрасч < tтабл, принимается гипотеза о некоррелированности величин х и у. В противном случае коэффициент корреляции значимо отличается от нуля, т.е. между величинами x и y существует линейная статистическая связь. Пример. При исследовании влияния низко интенсивного ЭМИ (2–10 мкВт/см2, 9–10 ГГц) на прорастание семян ржи получено 16 замеров:
хi уi
5 2 5 10 7 2 1,5 3 3 3
7 3
7 3
7 3
5 3
5 15 14 12 8 10 11 2 8 5 5 4 4 5
где x – мощность потока, y – длина корешка проращиваемого зерна в мм. Требуется выяснить, имеется ли корреляционная связь между этими показателями. Предварительно вычислим суммы: ∑хi = 130; ∑хi2= 1250; ∑уi2 = 260,25; ∑хi уi = 564. ∑уi = 59,5; Далее вычисляем коэффициент корреляции (16 ⋅ 564 − 130 ⋅ 59,5) r= = 0,916 . 16 ⋅ 1250 − 1302 16 ⋅ 260, 25 − 57 2
(
)(
)
Результаты вычислений свидетельствуют о значительной корреляционной связи между рассматриваемыми параметрами. Оценим формально значимость коэффициента корреляции, для чего вычислим tрасч по формуле (1.26):
tрасч = 0,926 (16 − 2 ) (1 − 0,926 ) = 9,162 . 2
Для q = 0,05 найдем из табл. 1.1 при f = n – 2 = 14, tтабл = 2,14. Сравнивая tрасч с tтабл, получим: tрасч = 9,162 > tтабл = 2,14. Это подтверждает вывод о наличии корреляционной связи между исследуемыми показателями. Если требуется исследовать статистическую связь между тремя и более случайными величинами, то пользуются коэффициентом множественной корреляции. Так, для оценки степени статистической связи случайной величины z с величинами x и у рассчитывают выборочный совокупный коэффициент корреляции p по формуле 25
p=
(r
2 xz
− 2rxy rxz ryz + ryz2
) (1 − r ) , 2 xy
(1.27)
где rxy, rxz, ryz – корреляции соответственно между величинами x и у, у и z, x и z. Величина p лежит в пределах 0 < p < l и так же, как и обычный коэффициент корреляции, служит для оценки линейной статистической связи. 1.12. Ранговая корреляция
В экологическом мониторинге при формировании списков приоритетных веществ-загрязнителей требуется установить наличие взаимосвязи между двумя качественными признаками, т.е. признаками, которые не обязательно являются численно измеримыми. Например, качественными признаками являются фракционный состав, давление, температура атмосферного воздуха и комфортность рабочего места и т.д. Исследуемые объекты в этом случае можно проранжировать, т.е. пронумеровать в порядке возрастания или убывания признака. Этот номер, присвоенный объекту, будем называть рангом. Так как исследуются два признака, то каждому i-му объекту присваиваются два ранга: xi и yi в соответствии с признаками x и у. Таким образом, имеем две последовательности рангов, с количеством значений по каждому рангу n: по признаку x: x1, x2,... xn; по признаку y: y1, y2,... yn. Одним из способов оценки связи между двумя качественными признаками является вычисление коэффициента ранговой корреляции Спирмена R [6]. Формула для него имеет вид ⎛ n ⎞ (1.28) R = 1 − ⎜ 6∑ di2 n3 − n ⎟ , ⎝ i =1 ⎠ где di = xi – yi. (1.29) Как и коэффициент корреляции, коэффициент R изменяется в пределах от –1 до +1, а его абсолютная величина пропорциональна степени зависимости между признаками x и у. Оценка значимости этого коэффициента проводится точно так же, как и для обычного коэффициента корреляции r (см. п. 1.11).
(
26
)
Эта проверка корректна при n > 9. Коэффициент ранговой корреляции может использоваться и тогда, когда рассматриваемые признаки являются количественными, но для целей исследования достаточно проранжировать объекты по возрастанию или убыванию каждого из них. Пример. Требуется выяснить, есть ли взаимосвязь между уровнем – баллом по курсу «Механика жидкости и газов» студентов 4го курса по специальности «Экология» и оценкой по домашнему заданию (ДЗ) (определение санитарно-защитной зоны точечного источника при выбросе определенного числа различных ингредиентов). Допустим, что для каждого из 10 студентов был выбран совокупный показатель, учитывающий оценку по предмету, аккуратность при выполнении лабораторных работ и др., позволяющий провести ранжирование рассматриваемых студентов, аналогично выбран показатель и по выполнению ДЗ. Ранжирование студентов по уровню курса Ранги студента по выполнению ДЗ
1
2
3
4
5
6
7
8
9
10
5
3
4
2
7
1
0
9
6
8
В первой строке студенты пронумерованы в порядке возрастания этого показателя (большему номеру соответствует более высокий уровень специализации). Ранжирование по ДЗ приведено во второй строке, но значения рангов соответствует каждому студенту свое. Вычислим коэффициент ранговой корреляции Спирмена по формуле (1.30): 1 − 6[(1 − 5) 2 + (2 − 3) 2 + (3 − 1) 2 + (4 − 4) 2 + (5 − 2) 2 + ...] = 0,72 . 103 − 10 Значение коэффициента ранговой корреляции свидетельствует в данном случае о том, что с ростом уровня знаний по рассматриваемому курсу уровень выполнения ДЗ по мониторингу повышается. Для оценки значимости найденного значения R вычислим величину tpасч по формуле (1.28), получим tрасч = 2,93. Из табл. 1 для q = 0,05, f = 10 – 2 = 8 найдем tтабл = 2,31. Соотношение tрасч = 2,93 > tтабл = R=
27
= 2,31, позволяет сделать вывод о наличии ранговой корреляционной связи между рассматриваемыми показателями. 1.13. Обработка экспертных оценок при ранжировании
Задача ранжирования фактора усложняется при увеличении у него количества признаков m. Рассмотрим применительно к задаче пример оценки степени согласованности мнений экспертов при проведении экологической экспертизы. Признаками в данном примере служат оценки (мнения) экспертов. Подобная задача часто встречается, например, в планировании эксперимента и прогнозировании. Пример. Определены n факторов, влияющих на функционирование объекта x1, x2, x3,… xn. Требуется выявить важнейшие из этих факторов, для того чтобы подвергнуть их дальнейшему исследованию. Каждому из m экспериментов предлагается список факторов с указанием диапазонов их варьирования. Эксперту предлагают приписать ранги этим факторам – пронумеровать их в порядке степени их влияния на объект. В качестве примера в табл. 1.4 представлены результаты ранжирования, данные всеми экспертами. Таблица 1.4 Результаты ранжирования Эксперты 1-й 2-й ...... m –й
X1 A11 A12 ..... A1m
Факторы X2 X3 A21 A31 A22 A32 ..... ..... A2m A3m
Xn An1 An2 ..... Anm
Здесь Aij – ранг, присвоенный j-м экспертом i-му фактору. Степень согласованности мнений экспертов характеризуется коэффициентом конкордации W, который вычисляется по формуле 12 S W = 2 3− n , (1.30) m (n ) 28
где 2
⎡m ⎤ S = ∑ ⎢∑ aij − 0,5m(n − 1)⎥ . i =1 ⎣ j =1 ⎦ n
(1.31)
Величина W может принимать значения в пределах 0 < W < 1. Чем ближе к 1 значение W, тем больше согласие между экспертами. Для оценки значимости коэффициента конкордации используется распределение χ2 (при n > 7). Вычисляется χ 2расч = m(n – 1)W, которое сравнивается с величиной χ 2табл , найденной при уровне значимости q и числе степеней свободы f = n – 1 по приложению 4. Если χ 2pасч > χ 2табл , то фиксируется согласие экспертов при данном уровне значимости. Пример. При ранжировании входных факторов, определяющих экологическое состояние окружающей среды в зоне действия предприятия, проведен опрос авторитетных членов общественной экологической комиссии. Всем членам комиссии были выданы анкеты, в которых перечислялось 11 факторов, влияющих на рождаемость населения, с указанием диапазонов их варьирования. Экспертам предлагалось проранжировать эти факторы в соответствии со степенью влияния их на исследуемый показатель. В табл. 1.5 приведены результаты опроса, полученные от 14 экспертов. В последней строке таблицы приведены суммы рангов по всем экспертам для каждого фактора. Согласно этому суммарному ранжированию расположение факторов имеет следующий вид (в порядке убывания степени их влияния на рождаемость): количество выбрасываемой пыли (1), влажность воздуха (2), уровень напряженности магнитного поля (3), температура (4), радиоактивный уровень выбрасываемых радионуклидов (5, 6), концентрация окислов углерода (7, 8), азота (9), тяжелых металлов(10), диоксинов (11). 29
Таблица 1.5 Результаты опроса Эксперт 1 2 3 4 5 6 7 8 9 10 11 12 13 14 ∑j Aij
Факторы 1 5 3 1 4 1 4 2 1 2 3 4 6 2 3 41
2 1 1 5 1 4 5 4 2 2 2 2 1 3 2 35
3 6 4 7 5 6 3 6 4 6 7 6 4 4 4 72
4 9 10 9 11 11 10 7 11 11 10 11 9 11 11 141
5 2 5 6 2 3 6 4 5 2 6 2 3 5 5 56
6 9 7 9 8 7 10 1 10 9 9 8 11 10 9 117
7 7 8 9 7 10 8 8 9 9 8 8 8 6 8 113
8 4 6 4 6 9 2 8 6 5 4 4 5 7 6 76
9 9 11 9 10 8 10 10 8 8 11 8 9 8 10 129
10 3 2 2 3 2 1 3 3 2 1 1 2 1 1 27
11 9 9 3 9 5 7 11 7 7 5 8 6 9 7 102
S = (41 – 91)2 + (35 – 91)2 + (72 – 91)2 + (141 – 91)2 + (56 – 91)2 + ...= = 2500 + 3136 + 361 + 2500 + 1225 + 676 + 484 + 225 + 1444 + + 4096 + 121…=16768; W = 12 ⋅ 16768 (196 ⋅ (1331 − 11) ) = 0,77.
Для оценки значимости вычисленного значения коэффициента конкордации рассчитаем χ 2расч = m(n – 1)W = 108,8. Для уровня значимости q = 0,05 при числе степеней свободы f = n – 1 = 10 из Приложения 4 найдем χ 2табл = 18,3. Полученное соотношение
χ 2расч > χ 2табл позволяет принять гипотезу о наличии согласования между экспертами.
30
2. СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ МОНИТОРИНГА В СИСТЕМЕ ТАБЛИЧНОГО РЕДАКТОРА EXCEL 2.1. Проверка воспроизводимости (однозначности) наблюдаемых результатов
Представленные алгоритмы первичной обработки результатов мониторинга и их применение немыслимы без программных вычислительных средств, которых на данный момент огромное количество (Statistica, Statgraf, Mathlab, CI+,Excel и др.), и студенту зачастую приходится обращаться к указанным программным продуктам, не имея достаточных знаний по указанным программным средствам. С нашей точки зрения, Excel может быть эффективным программным продуктом для экологов и биологов при обработке экспериментальных данных и данных экологического мониторинга. Это мощный программный продукт, оснащенный множеством различных функций и возможностями их реализации. Кроме того, Excel позволяет легко создавать на его основе собственные программы. Для открытия Excel (данный программный продукт является сейчас обязательным компонентом операционной системы Windows) достаточно дважды щелкнуть левой кнопкой мыши на ярлычке Excel. После открытия Excel на экране монитора появится окно приложения (рис. 2.1): в первой строке – строка заголовка; во второй – меню; в третьей – панель инструментов Стандартная; в четвертой – панель Форматирование; в пятой – строка формул. Далее окно рабочей книги и полосы прокрутки, в нижней части экрана – строка состояния. Рабочая книга по умолчанию состоит из трех рабочих листов (их количество может быть увеличено до 255 с помощью команды меню Вставка – Лист). Рабочий лист состоит из 256 ячеек (столбцов) в ширину и 65536 в длину. Каждая ячейка однозначно идентифицирована номером строки и столбца, например: А2, В3 и т.д. Ячейки могут содержать текстовую, числовую и символьную информацию. 31
Рис. 2.1. Окно приложения Excel
Выбрав команду Формат – Ячейки, можно задать необходимый формат, например: дата, число, время, процентный и т.д. Число ячейки может содержать до 15 значащих цифр. Как было отмечено, Excel располагает возможностью создания формул и использование готовых функций для обработки массивов чисел. Для ввода формулы необходимо набрать в пустой ячейке «=», а затем записать формулу, аргументы которой к данному моменту определены численно. При вводе формул удобно использовать встроенные функции f (существует несколько сот встроенных функций, позволяющих обрабатывать численную информацию). Ячейки в Excel могут иметь абсолютную ($A$10) и относительные адресации ($A10: А – абсолютная ссылка, строка 10 – относительная; A$10: столбец А – относительная ссылка, строка 32
10 – абсолютная; А10: столбец А – относительная ссылка, строка 10 – относительная ссылка). Характер ссылки можно изменить, активизировав соответствующую ссылку на ячейку в формуле и последовательно нажимая клавишу F4. При копировании формул в другие ячейки абсолютные ссылки сохраняются, а относительные – изменяются. Эти свойства позволяют значительно облегчить табулирование функций (вычисление значений функций при известных значениях аргумента), обработку массивов и т.д. Одним из этапов мониторинга является процедура и результат представления и хранения результатов наблюдений пригодных для оперативной обработки. Согласно современным представлениям наиболее эффективным способом хранения, организации и поиска необходимой информации являются базы данных (БД). Создание базы данных упрощает обработку данных мониторинга и их анализ. Для этого в Excel в рабочей книге в верхнюю строку необходимо ввести заголовки столбцов, а под ними без пропусков в каждую ячейку – соответствующие данные. При большом их количестве для редактирования или отбора по некоторым критериям удобно воспользоваться командой Данные – Форма. Полученные таблицы данных мониторинга БД позволяют на первом этапе с помощью меню Вставка – Диаграмма оценить визуально на графике их «качество» и характер, сориентироваться на их статистическую обработку. Далее, необходимо воспользоваться меню Сервис – Анализ данных – Описательная статистика. При наличии сомнительных значений в массиве данных по представленному алгоритму в п. 1.5 провести анализ на промахи. Для этого необходимо из рассматриваемого массива данных «убрать» сомнительный результат и с помощью команды Описательная статистика получить необходимые параметры выборки и оценить значение на промах (рис. 2.2). В качестве примера рассмотрим результаты измерений прорастания семян ячменя после их низкоинтенсивного СВЧоблучения (частота 10 ГГц, мощность падающего потока около 10 мкВт/см2). 33
Рис. 2.2. Анализ данных. Описательная статистика
При анализе результатов измерений на графиках (рис. 2.3) к сомнительным показаниям можно отнести для первого графика значения 89, 77 и 69, для второго графика – 80, 75, 63, которые необходимо проверить на промах. Для этого формируем новые массивы данных без сомнительных значений и применяем к ним команду Описательная статистика. По полученным значениям дисперсии и среднего статистического определяем значение t-критерия Стьюдента: tрасч = |yсомн – yср|/s. Полученное значение сравниваем с табличным tтабл, которое находим по табл. 1.1 при значениях α = 0,05 и степени свободы f, равной количеству элементов массива минус один. Если tрасч > tтабл, то подозреваемый результат yсомн является промахом и должен быть исключен из массива (выборки). В нашем случае для первого мас34
сива без сомнительных значений: yср = 115,96, s2 = 74,39, а tрасч = = 3,12 (tтабл = 2,02 при α = 0,05 и f = 46), рассчитанных для значения yсомн = 89, результат показывает, что это значение – промах. Аналогично для второго массива: yср = 114,34, s2 = 117,14, а tрасч = 3,17 (tтабл = 2,02 при α = 0,05 и f = 46), рассчитанных для значения yсомн = 80, результат показывает, что это значение – промах.
Рис. 2.3 Графики результатов измерений
Убрав промахи из рассматриваемых массивов данных мониторинга (выборок), проверяем их на однородность – на принадлежность к одной генеральной выборке. Алгоритмы данной процедуры представлены в пп. 1.6–1.8. В качестве примера рассмотрим результаты того же эксперимента по исследованию влияния СВЧ-излучения на прорастание семян ячменя. Семена облучались в трех чашках Петри по 50 шт. в 35
каждой, три такие же чашки с семенами были контрольными (без облучения), после прорастания проводились замеры ростков. Результаты этих замеров для каждой чашки Петри представлены своим массивом данных (выборка) (рис. 2.4).
Рис. 2.4. Результат измерений прорастания семян ячменя после их низкоинтенсивного СВЧ-облучения
Для выполнения поставленной задачи воспользуемся командой Описательная статистика и проверим на однородность три массива значений облученных семян по одному из алгоритмов. Для определения статистически значимого отличия двух экспериментальных массивов СВЧ3 (облученные семена ячменя) и К1 (контрольный образец – необлученные семена ячменя) (рис. 2.5), воспользуемся критерием Стьюдента: tрасч. = |yср3 – yср4|/( s12 /n3+ s22 /n4)0,5, 36
где yср3, yср4 – средние значения выборок СВЧ3 и К1, их дисперсии s12 , s22 и объемы выборок n3, n4. Пример расчета критерия Стьюдента представлен на рис. 2.5. Результаты показали, что tрасч > > tтабл, следовательно, две выборки значительно отличаются.
Рис. 2.5. Проверка на статистически значимое отличие двух выборок по критерию Стьюдента
2.2. Дисперсионный анализ данных
При обработке данных мониторинга возникает необходимость оценить влияние различных факторов на те или иные показатели отклика наблюдаемого объекта. И здесь одним из эффективных методов, позволяющих установить существенное влияние рассматриваемых факторов (их удельный вес) на признак – отклик, является дисперсионный анализ. 37
В дисперсионном анализе используются следующие термины: фактор (Х) – причина, обусловливающая изменение наблюдаемого признака у; интервал варьирования фактора (его значения в этом интервале Хi , i = 1,2,…n); отклик (у) – значение измеряемого или наблюдаемого признака уi . Техника дисперсионного анализа меняется в зависимости от числа изучаемых независимых факторов. Если факторы, вызывающие изменчивость среднего значения признака, принадлежат одному источнику, то мы имеем простую группировку, или однофакторный дисперсионный анализ, и далее соответственно: двойная группировка – двухфакторный дисперсионный анализ, трехфакторный дисперсионный анализ, …, m-факторный. Задача дисперсионного анализа – исследование влияния тех или иных факторов (или уровней факторов) на изменчивость средних значений наблюдаемых параметров. Сущность дисперсионного анализа состоит в выделении и оценке отдельных факторов, вызывающих изменчивость наблюдаемого признака. Таблица 2.1 Результаты экспериментальных данных
1 2 3
Время, мин 0 1 3 5 0,56⋅108 0,11⋅108 2,1⋅106 2,4⋅104 0,56⋅108 0,113⋅108 2,13⋅106 2,89⋅104 0,56⋅108 0,111⋅108 2,41⋅106 3,2⋅104
10 4,9⋅102 5,6⋅102 5,9 ⋅102
15 0,2102 8 24
20 0 0 0
4
0,56⋅108 0,113⋅108 2,21⋅106
5,1 ⋅102
17
0
КОЕ
2,6⋅104
В качестве примера рассмотрим результаты экспериментальных данных по определению влияния времени прединкубации на КОЕ микроорганизма Staphilococcus aureus: разведение 1:10 при мощности лазерного излучения 30 Дж/см2 и концентрации ФС 0,1 % (табл. 2.1), т.е. проанализируем влияние временного фактора А, 38
рассматриваемого на 7 уровнях (А = 0, 1, 3, 5, 10, 15, 20 мин). На каждом уровне Аi проведены 4 наблюдения. Следовательно, на всех уровнях фактора А произведены 7⋅4 = 28 наблюдений. Результаты в табл. 2.1 и без статистического анализа хорошо представляют влияние временного фактора А, однако для наглядности применения дисперсионного анализа представленного в Excel мы воспользуемся его программным продуктом. Для этого откроем страничку и внесем исходные данные из табл. 2.1, далее с помощью меню Сервис – Анализ данных выберем программный пакет Однофакторный дисперсионный анализ и заполним параметры диалогового окна. После нажатия кнопки «ОК» получаем таблицу результата дисперсионного анализа представленных данных (рис. 2.6): Fрасч = 286353 намного больше Fкрит = 2,572 что свидетельствует о существенном влиянии временного фактора А.
Рис. 2.6. Анализ данных. Однофакторный дисперсионный анализ. Таблицы результатов 39
Двухфакторный дисперсионный анализ позволяет статистически обосновать существенность влияния факторных признаков А и В, и их взаимодействие на выходной параметр у. Рассмотрим пример двухфакторного дисперсионного анализа. Возьмем результаты эксперимента по определению влияния концентрации фотосенсибилизатора (ФС, %) (фактор А) и плотности потока лазерного излучения (Дж/см2) (фактор В) на количество выживших микроорганизмов (КОЕ) (фактор у). Процедура двухфакторного дисперсионного анализа указанных данных в Excel выполняется по ранее описанному алгоритму. В меню выбирается программа «Двухфакторный дисперсионный анализ без повторений». На рабочем поле листа набирается двухмерный массив, где каждый столбец представляет значения КОЕ при одной плотности потока в диапазоне исследуемых концентраций ФС, далее заполняется диалоговое окно и после нажатия кнопки «ОК» получаем итоговую таблицу (рис. 2.7).
Рис. 2.7. Анализ данных. Двухфакторный дисперсионный анализ без повторений 40
Данные дисперсионного анализа свидетельствуют о том, что факторы А и В существенно влияют на КОЕ микроорганизма Кандида: FA =7,46 > 3,28; FB = 7,46 > 2,9. 2.3. Корреляционный анализ данных
Следующим этапом обработки данных мониторинга является установление зависимости между изучаемыми (наблюдаемыми) факторами. И здесь важным показателем стохастической зависимости является корреляционная связь, которая определяется выборочным коэффициентом корреляции r, характеризующим степень линейной функциональной зависимости между причинным фактором Х и откликом у. В качестве примера рассмотрим результаты установления корреляционной зависимости между количеством выживших микроорганизмов КОЕ и процентным содержанием ФС. Для этого воспользуемся в меню программой «Корреляция». Представим данные мониторинга в табличном виде (табл. 2.2), где выходной параметр процесса у – значения КОЕ, а входной фактор Х – значения ФС. С помощью программы «Корреляция» получим значения коэффициента корреляции. Графическое представление табличных данных КОЕ от ФС при различных плотностях потока лазерного излучения показаны на рис. 2.8. Таблица 2.2 Значения КОЕ при различных значениях ФС и плотностях потока лазерного излучения ФС 1 0,1 2 0,01 3 0,001 4 0,0001
Плотность потока лазерного излучения W, Дж/см2 5 10 15 20 25 30 680000 310000 97000 66000 59000 48000 120000 81000 54000 39000 31000 23000 100000 91000 74000 48000 39000 29000 480000 110000 820000 410000 360000 200000
41
1000000
Ряд1
800000
Ряд2
600000
Ряд3
400000
Ряд4 Ряд5
200000
Ряд6
0 1
2
3
4
Рис. 2.8. Графики зависимости КОЕ от ФС
Полученные значения коэффициентов корреляции (табл. 2.3) для данных, представленных в виде кривых на графике, наглядно отражают зависимость КОЕ от ФС. Таблица 2.3 Корреляционная связь ФС и КОЕ для различных плотностей потока лазерного излучения , Показатель 5 Коэффициент коррелеляции
0,75
Плотность лазерного излучения 10 15 20 25 0,98
–0,34
–0,33
–0,32
30 –0,27 ,
Если коэффициент корреляции r < 0,2 – связи нет, если r < 0,5 – связь слабая, r < 0,75 – связь средняя, r < 0,9 – связь тесная.
42
3. ОСНОВНЫЕ ПОНЯТИЯ И ЗАДАЧИ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ В ЭКОЛОГИИ 3.1. Активные и пассивные, однофакторные и многофакторные эксперименты
Экспериментальные методы исследований в экологии могут быть объединены под названием «планирование эксперимента». Планирование эксперимента – это совокупность приемов, позволяющих исследователю оптимально поставить эксперимент, сообразуясь с целью исследования, стремлением получать максимальную информацию при ограниченном числе опытов (наблюдений), а также правильно обработать и интерпретировать результаты эксперимента (наблюдений) [5]. Как уже известно из гл. 1, варьируемые факторы – это те воздействия на объект исследования (наблюдения), влияние которых изучается в данном эксперименте. Факторы, действуя на объект, изменяют его состояние. Будем называть выходной величиной объекта (или откликом) такой параметр, по которому судят об изменении состояния объекта. Варьируемые факторы принято обозначать буквой Х с индексом, соответствующим номеру фактора, т.е. Х1, Х2, Х3,…, Хn. Аналогично выходные величины, которых, как и факторов, может быть несколько, будем обозначать у1, у2, у3,…,уn. На объект исследования, кроме того, воздействуют неуправляемые факторы. Одни из них (Z1, Z2, Z3,…,Zn) контролируются в процессе постановки опыта без целенаправленного их изменения и потому называются контролируемыми; другие (W1, W2, W3,…, Wn) являются неконтролируемыми и относятся к возмущающим воздействиям. К контролируемым факторам, например при исследовании влияния интенсивности и частоты электромагнитного излучения на прорастание семян ржи, можно отнести температуру и давление окружающей среды, если они контролируются (измеряются) в ходе проведения эксперимента. Схематически объект исследования часто представляют в виде так называемого «черного ящика» [8], т.е. объекта, в котором для наблюдения доступны только входные и выходные величины (рис. 43
3.1). Выходные величины изображены на этом рисунке выходящими стрелками, а факторы – варьируемые, контролируемые и неконтролируемые – входящими стрелками. Названием «черный ящик» подчеркивается полное или частичное отсутствие знаний о внутренней структуре объекта исследования. Zi
Xi
Объект исследования
yi
Wi Рис. 3.1. Факторы, действующие на объект исследования (i = 1, ..., n)
Факторы могут быть количественными и качественными. Количественные факторы можно оценивать количественно, т.е. измерять, взвешивать и т.д. При этом любое значение количественного фактора исчерпывающе и однозначно характеризуется некоторым единственным числом. Примерами количественных факторов являются концентрация вещества-загрязнителя, интенсивность и частота электромагнитного излучения, температура, давление, влажность окружающей среды и др. Однако между различными значениями одного и того же качественного фактора существует уже не количественное, а качественное отличие. Поэтому качественным фактором является исследуемая среда: жидкая, газообразная или твердая. Другими примерами качественных факторов являются виды исследуемых биологических систем, состав среды, виды окружающего ландшафта, способы воздействия, конструкция контролируемой аппаратуры, виды антропогенных источников и др. Каждый фактор принимает в эксперименте одно или несколько значений. Эти значения принято называть уровнями фактора. Областью значений фактора называют совокупность значений данного фактора, которые он принимает в эксперименте. 44
Диапазон варьирования фактора – это наименьший отрезок, внутри которого находятся все значения, принимаемые данным фактором в эксперименте. Это определение применимо только для количественных факторов. Пусть, например, в эксперименте интенсивность электромагнитного излучения при одной частоте 9 ГГц принимала значения 3; 5; 7; 7,5; 8 мкВт/см2. Тогда совокупность приведенных чисел образует область значений данного фактора, а диапазон его варьирования является отрезком 3–8 мкВт/см2. Важным является понятие управляемого фактора. Фактор называется управляемым, если экспериментатор имеет возможность задавать и поддерживать требуемое значение этого фактора в течение всего опыта. Эксперимент, в котором уровни факторов в каждом опыте задаются исследователем, в соответствии с определенным планом, называется активным экспериментом. Для проведения активного эксперимента факторы должны быть управляемыми. Активный эксперимент позволяет воспользоваться рекомендациями теории планирования эксперимента относительно оптимальных значений уровней варьирования факторов и их сочетаний в каждом из поставленных опытов. Например, изучается влияние антропогенного источника СВЧ-излучения на прорастание семян ржи. При этом исследуется влияние трех факторов: интенсивности облучения, времени облучения и частотного диапазона. Все эти факторы управляемы, поэтому в данном случае может быть поставлен активный эксперимент. Эксперимент, в котором уровни факторов в каждом опыте регистрируются исследователем, но не задаются, называют пассивным экспериментом. В пассивных экспериментах ограничена возможность оптимального выбора уровней варьирования факторов и оптимального сочетания этих уровней в поставленных опытах. Роль экспериментатора здесь отводится в основном в фиксации входных и выходных величин в ходе эксперимента. Примерами пассивного эксперимента являются исследования загрязнения окружающей среды. Здесь экологи только регистрируют значения варьируемых факторов (изменение концентрации ингредиентов, 45
поступающих от источников загрязнения, влажность воздуха, температура, давление и др.) и выходных факторов (здоровье населения, величина рисков). Из-за невозможности целенаправленно задавать уровни факторов эффективность пассивного эксперимента ниже, чем активного. По этой же причине обработка результатов пассивного эксперимента вызывает значительные трудности как методологические, так и материальные. Вопросы, связанные с обработкой результатов активного и пассивного экспериментов, а также некоторые рекомендации по проведению пассивного эксперимента для анализа загрязнения окружающей среды рассмотрены в гл. 4. К совокупности факторов эксперимента предъявляются требования независимости и совместимости. Факторы называются независимыми, если экспериментатор имеет возможность установить значение любого из них на нужном ему уровне независимо от уровней остальных факторов. Пусть, например, объектом исследования является некоторая масса газа в замкнутом сосуде. Можно ли в качестве варьируемых факторов выбрать объем газа V, его давление P и абсолютную температуру T Ответ на этот вопрос дает уравнение Клапейрона– Менделеева, объединяющее эти параметры (рV/T = const). Здесь все три параметра не могут быть одновременно независимыми, и в качестве варьируемых факторов можно включить в эксперимент только два из них. Требование совместимости, предъявляемое к факторам, означает возможность реализации в эксперименте любых комбинаций уровней факторов из области значений. В экологическом эксперименте это требование часто вступает в противоречие с условиями функционирования наблюдаемого объекта из-за наличия ограничений на управляемые факторы. Необходимость выполнить требование совместимости заставляет уменьшать диапазон варьирования фактора или корректировать план эксперимента. Если в эксперименте исследуется влияние на объект более одного фактора, существуют два разных способа организации эксперимента (стратегия постановки опытов). В первом случае влияние 46
факторов подвергается исследованию поочередно: сначала варьируется один из них, при этом стабилизируются уровни всех остальных факторов, потом аналогичным образом варьируется только второй фактор, затем третий и т.д. Такой эксперимент называют однофакторным. Однофакторный эксперимент является традиционным способом планирования. Он нагляден: результаты эксперимента зачастую можно прогнозировать, поэтому экспериментатор, хорошо «чувствующий» объект, легко заметит ошибку, вкравшуюся в экспериментальные данные, и примет необходимые меры. Стратегия многофакторного эксперимента в отличие от однофакторного состоит в том, что при переходе к каждому последующему опыту изменяют уровни не одного, а сразу нескольких факторов, т.е. в многофакторном эксперименте варьируются все или почти все факторы одновременно [8]. Однако главным критерием при выборе той или иной стратегии экспериментирования должна быть его эффективность. Пока, не конкретизируя, будем считать более эффективным тот эксперимент, который при прочих равных условиях (одинаковом количестве поставленных опытов) обеспечивает бóльшую точность результатов, например: более достоверное математическое описание объекта или лучшее приближение к точке оптимума. С этой позиции однофакторный эксперимент уступает многофакторному, и преимущества многофакторного эксперимента сказываются тем ощутимее, чем больше факторов варьируется в эксперименте. Например, экспериментатор хочет получить зависимость отклика от четырех варьируемых факторов в виде многочлена второго порядка, и каждый фактор предполагается варьировать на трех уровнях (влияние температуры, влажности, мощности СВЧ-излучения, частотного интервала на прорастание семян ржи). Тогда эксперимент, предусматривающий исследование всех комбинаций уровней варьирования факторов, должен содержать 34 = 81 опыт. Это трудоемкое исследование, тем более что каждый опыт придется, повидимому, повторять несколько раз. В то же время на интуитивном уровне совершенно неясно, за счет чего можно уменьшить количество опытов. Теория эксперимента для такой ситуации рекоменду47
ет, например, план, насчитывающий всего 24 опыта (без учета их повторения). Если при этом известно, как отличаются один от другого результаты опытов при их повторении, то можно оценить точность модели и, если она недостаточна, увеличить число повторений опытов. Из-за большой эффективности в теории планирования эксперимента рассматривают почти исключительно многофакторные эксперименты. 3.2. Основные задачи планирования эксперимента Задача 1. Планирование эксперимента с целью математического описания объекта. Целью экспериментального исследования здесь является получение эмпирической математической модели объекта, т.е. поиск зависимости каждой из выходных величин объекта от варьируемых факторов. Например, требуется поставить эксперимент для получения зависимости прорастания семян ржи (отклик) от варьируемых факторов (влияния температуры, влажности, мощности СВЧизлучения, частотного интервала) [7]. Во многих других отраслях задачи подобного типа встречаются наиболее часто. Задача 2. Планирование отсеивающих экспериментов. Число варьируемых факторов в задаче 1 не должно обычно превышать шести–восьми при детальном изучении объекта. В противном случае эксперимент становится трудоемким из-за непомерно большого числа опытов. Между тем протекание сложного физического процесса сопровождается воздействием на него десятков и даже сотен факторов. Так, на развитие планктона в океане влияет множество факторов: температура, наличие химических ингредиентов, интервал и мощность УФ-излучения и др. Следует иметь в виду, что только небольшое число факторов из общего их количества оказывает существенное воздействие на процесс развития исследуемого объекта. Влияние именно этих факторов и подлежит исследованию в первую очередь. Таким образом, мы приходим к идее двухэтапной постановки эксперимента. На первом этапе сле48
дует из большого числа варьируемых факторов выделить важнейшие факторы, определяющие протекание процесса. Для этого ставится специальный эксперимент, называемый отсеивающим. На втором этапе изучается влияние на объект выявленных важнейших факторов. Это можно сделать, решая первую задачу планирования эксперимента. Задача 3. Планирование эксперимента при поиске оптимальных условий. Целью этого эксперимента является отыскание таких значений варьируемых факторов, при которых выходная величина объекта принимает экстремальное, т.е. максимальное или минимальное значение. Например, изучается процесс влияние электромагнитного излучения на функционирование биологических объектов. Требуется определить, при какой плотности потока энергии электромагнитного излучения частотном интервале этого излучения происходит угнетение или интенсификация роста исследуемого биологического объекта. Или в ходе исследования процесса требуется выяснить, при каких варьируемых входных факторах обеспечивается наибольший эффект подавления развития биологического объекта. Методы планирования эксперимента, предназначенные для решения таких задач, позволяют рекомендовать особую процедуру последовательного проведения экспериментов, которая приводит в область оптимального (в указанном смысле) протекания процесса. Задача 4. Планирование экспериментов с качественными факторами. Эксперименты с качественными факторами выделены в отдельную группу, прежде всего, из-за того, что метод их обработки (дисперсионный анализ) отличается от распространенного метода обработки экспериментов с количественными факторами в задаче 1 (регрессионный анализ). Специфичны также методы, позволяющие планировать проведение таких экспериментов в условиях неоднородностей при ограниченном числе поставленных опытов. Задача 5. Планирование эксперимента при изучении свойств смесей. 49
Пусть объектом исследования является смесь некоторого числа компонентов, а варьируемыми факторами – процентное содержание каждого из них в смеси. Тогда в сумме величины всех этих факторов составляют 100 %, т.е. варьируемые факторы в данном случае независимыми не являются. Для решения подобных задач планирования эксперимента разработаны специальные методы, которые не рассматриваются в данной работе. Кроме перечисленных, следует отметить динамические задачи планирования эксперимента, выбор и уточнение констант теоретических моделей [8], выбор наиболее приемлемых из некоторого множества гипотез о механизме явлений.
50
4. ОБРАБОТКА РЕЗУЛЬТАТОВ ЭКСПЕРИМЕНТА ДЛЯ ПОЛУЧЕНИЯ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ ИССЛЕДУЕМЫХ ПРОЦЕССОВ 4.1. Основные виды математических моделей, применяемых при исследованиях
В основе обработки результатов активного и пассивного эксперимента с количественными факторами лежит регрессионный анализ [4]. Он включает метод отыскания параметров математической модели и статистическую обработку данных. Зависимость выходной величины (отклика) у от варьируемых факторов Х1, Х2,… Хk, полученная с применением регрессионного анализа, называется регрессионной моделью: y = f ( X 1 , X 2 ,... X k ) (4.1) – это обозначение некоторой функции от варьируемых факторов, называемой функцией отклика. Регрессионная модель, таким образом, является частным случаем математической модели объекта. Выходных величин может быть несколько. Например, в процессе моделирования воздействия внешней среды на биологический объект могут измеряться температура, габариты, концентрация контролируемого параметра. Тогда зависимость вида (4.1) строится для каждого отклика. При этом, если по результатам каждого опыта замеряются сразу все отклики, то по сравнению со случаем единственной выходной величины возрастают только затраты на измерение нескольких откликов и на обработку результатов эксперимента. Построенная регрессионная модель позволяет получить информацию о самом объекте и о способах управления им. С помощью регрессионной модели легко оценить степень и характер влияния каждого из факторов на выходную величину; модель может послужить основой для оптимизации процесса. Существенно, что вид регрессионной модели должен быть задан заранее, или до проведения эксперимента следует выбрать, к какому классу относится функция y = f (Х1, Х2,… Хk). Например, можно искать регрессионную модель в виде многочлена (полинома) определенного по51
рядка, либо в виде экспоненты, тригонометрического многочлена и т.д. Таким образом, при планировании эксперимента для математического описания объекта по результатам опытов рассчитываются только значения констант в регрессионной модели. Если, например имеется единственный варьируемый фактор Х1, а моделью является экспонента y = В0еxp(В1 Х1), то для построения модели в явном виде следует по результатам эксперимента вычислить значения коэффициентов В0 и В1. Возникает вопрос: как выбирается вид регрессионной модели? Здесь исследователю должны помочь знания об объекте, которыми он располагал до постановки эксперимента, – априорная информация (от латинского а рriоri – до опыта), т.е. все возможные исследования данного объекта, проведенные ранее экспериментаторами и теоретиками, сведения, накопленные технологами и производственниками. Поскольку вид регрессионной модели постулируется, задается до проведения эксперимента, остается пока открытым вопрос о достоверности такой модели. Чтобы оценить применимость построенной модели, соответствие ее исследуемому объекту, в планировании эксперимента предусмотрена специальная процедура, называемая проверкой адекватности регрессионной модели. По результатам этой проверки исследователь имеет возможность принять или отвергнуть гипотезу о том, соответствует ли построенная модель результатам эксперимента и, следовательно, пригодна ли она для описания объекта. Наибольшее применение нашли методы планирования эксперимента, в которых регрессионные модели объектов представляются в виде многочленов первого и второго порядка от варьируемых факторов. Модель в виде многочлена первого порядка сокращенно называют регрессионной моделью первого порядка, или линейной. В общем случае при наличии варьируемых факторов Xi линейная регрессионная модель объекта имеет вид y = B0 + B1 X 1 + B2 X 2 + .. + Bk X k , (4.2) где В0, В1, В2,…, Вk – коэффициенты, числовые значения которых определяются по результатам эксперимента. Их называют коэффициентами регрессии, а уравнение (4.2) или, в общем случае, (4.1) – уравнением регрессии. Коэффициенты В0, В1, В2,….Bk, стоящие пе52
ред обозначениями факторов Х1, Х2,…. Хk, называют линейными коэффициентами регрессии, а коэффициент В0 – свободным членом. Пример. Проведено экспериментальное исследование зависимости прорастания семян ржи (выходная величина) от изменения температуры Х1 = t, °С и влажности Х2 = W, %. Диапазоны варьирования факторов: 40 < t < 80 °С; 6 < W < 30 %. Условия и результаты опытов сведены в табл. 4.1. Таблица 4.1 Результаты экспериментального исследования № опыта 1 2 3
W, % 6 18 30
t, °С 40 40 40
y, мм 9,0 5,5 3,0
№ опыта 4 5 6
W, % 6 18 30
t, °С 80 80 80
y, мм 7,5 4,2 2,0
Не рассматривая пока способ обработки данных, приведем ее результаты – линейную регрессионную модель: y = 11, 4 − 0, 241 ⋅ W − 0,0315 ⋅ t . (4.3) Построенная модель позволяет перейти к графическому представлению зависимости выходной величины от факторов. Подставляя в (4.3) поочередно значения влажности W, например, 10, 20 и 30 %, получим семейство линейных зависимостей прорастания семян ржи только от температуры: y = 9,0 – 0,0315t; y = 6,6 – 0,0315t; y = 4,2 – 0,0315t. Графиками этих зависимостей являются параллельными прямыми (рис. 4.1). Рис. 4.1. Графики зависимости W = f(t) 53
Аналогично можно построить семейство зависимостей y= f(W). Таким образом, выбор регрессионной модели первого порядка для описания объекта равносилен предположению о линейной зависимости выходной величины от каждого из факторов, т.е. утверждению о том, что выходная величина изменяется пропорционально изменению варьируемого фактора. Кроме того, представление регрессионной модели в виде многочлена первого порядка предполагает отсутствие эффектов взаимодействия между факторами. Это означает, что степень и характер влияния каждого фактора на выходную величину не зависят от уровней варьирования остальных факторов. На приведенных графиках (см. рис. 4.1) отсутствие эффектов взаимодействия между факторами t и W проявляется в параллельности прямых семейства. Из сказанного следует, что линейная регрессионная модель дает, как правило, приближенное представление о влиянии факторов на объект. Применение таких моделей оправдано в следующих основных случаях: 1) на начальных этапах исследования объекта или в других ситуациях, когда экспериментатора удовлетворяет ограниченная точность линейного приближения; 2) при жестком ограничении на количество опытов, поскольку экспериментальные планы, позволяющие получить линейную модель, являются экономными; 3) в ситуации, когда экспериментатор уверен в достоверности линейной модели, например, по результатам теоретических исследований. Обратимся к рассмотрению моделей второго порядка, т.е. моделей в виде многочленов второго порядка от варьируемых факторов. Построим сначала модель второго порядка (иначе – квадратичную модель), например, для трех варьируемых факторов: y = B0 + B1 X 1 + B2 X 2 + B3 X 3 + B11 X 12 + B22 X 22 + (4.4) + B33 X 32 + B12 X 1 X 2 + B13 X 1 X 3 + B23 X 2 X 3 . Из уравнения (4.4) ясна общая структура квадратичной модели. Эта модель, рассматриваемая для произвольного числа k факторов, содержит, во-первых, все слагаемые линейной модели: свободный 54
член В0, линейные члены В1 Х1, В2 Х2,…, ВkХk. Дополнительно к этому модель второго порядка включает квадратичные члены, являющиеся произведениями коэффициентов регрессии на квадраты факторов: В11 Х1 Х1, В22 Х2 Х2 ,…Вkk Хk Хk , и члены с парными взаимодействиями, которые представляют собой коэффициенты регрессии, умноженные на произведения двух различных факторов, т.е. члены вида: В12 Х1 Х2, В13 Х1 Х3,…, В1k Х1 Хk, В23 Х2 Х3,…, В2kХ2Хk,…, Вk-1kХk-1Хk. Зависимость выходной величины от каждого из факторов, полученная на основе квадратичной модели, представляется на графике отрезком параболы, имеющей ветви, направленные либо вверх; либо вниз. Такое представление позволяет достаточно полно описать широкий круг реальных зависимостей (рис. 4.2).
Рис. 4.2. Пример зависимостей выходной величины y от фактора X
Графики зависимостей удовлетворительно описываемых моделями второго порядка представлены на рис. 4.3. y
y
y I
I
II
II а
I
II X
б
X
в
Рис. 4.3. Пример зависимостей выходной величины y от фактора X 55
X
Описание объекта квадратичной моделью дает заведомо плохие результаты, если: 1) истинная зависимость отклика от некоторого фактора Х, имеет более одного экстремума (рис. 4.4, а); 2) зависимость y = Т(Х) имеет точку перегиба (рис. 4.4, б); 3) при некотором значении Х1 значение отклика резко (скачком) изменяется (рис. 4.4, в). y
y
2
3
1
y
а)
X
y
X
б)
A
в)
г)
X
X
Рис. 4.4. Пример зависимостей выходной величины y от фактора X
В первых двух случаях можно рекомендовать для описания объекта многочлены третьего или более высокого порядка. Другим выходом из положения, пригодным для всех трех случаев, является деление диапазона варьирования факторов на более мелкие поддиапазоны и изучение объекта для каждой из полученных областей отдельно. Например, зависимость, показанная на рис. 4.4, а, будет удовлетворительно описана участками двух кривых: от точки 1 до точки 2 и от точки 2 до точки 3. Однако правильное выделение областей варьирования требует наличия априорной информации о характере исследуемой зависимости. Следует особо отметить случай, если графиком истинной зависимости является кривая, имеющая горизонтальную асимптоту 56
(рис. 4.4, г). Если такую зависимость описать квадратичной моделью, то соответствующая кривая может иметь экстремум, в данном случае – минимум в точке А, внутри диапазона варьирования фактора, который совершенно не соответствует физической картине явления. Поэтому следует уменьшить диапазон варьирования фактора, исключив его правую часть. 4.2. Метод наименьших квадратов для моделей с одной переменной
Рассмотрим случай варьирования единственного фактора Х1. Предположим, что эксперимент состоит в постановке N опытов, и в этих опытах фактор Х1 принимает значения Х11 , Х12 ,…, Х1N. Здесь Х1j – значение фактора Х1 в опыте за номером j ( j = 1, 2, …, N). Выходная величина у принимает в этих опытах значения у1, у2,… уN соответственно. Отложим по оси абсцисс значения фактора Х1, принимаемые им в опытах, а по оси ординат – соответствующие значения у, получим совокупность точек, которые графически представлены на рис. 4.5. у
Экспериментальные значения у
δ3= у3 – f(Х13 )
f(Х1)
δ3 δ1
0
у2
у4
у3
у6
δ2
у1 Х11
у5
X Х12
Х13
Х14
Х15
Х16
Рис. 4.5. Качество аппроксимации экспериментальных значений
Цель эксперимента – получение регрессионной зависимости y = f(Х1), которая с достаточной точностью описала бы результаты эксперимента. Пусть требуется исследовать зависимость влажности поверхностного слоя почвы от температуры окружающей сре57
ды. Влажность почвы определяют методом взвешивания при разных значениях температуры окружающей среды. Тогда точки у1, у2, у3,… у6 на рис. 4.5 – это значения влажности почвы, измеренные при соответствующих температурах Х1i. Закономерность изменения влажности в зависимости от изменения температуры окружающей среды получим на графике, если проведем сглаживающую кривую, лежащую возможно ближе к экспериментальным значениям у1. Однако на глаз такую кривую можно провести разными способами и, кроме того, помимо графика, для исследования и прогноза, необходима аналитическая зависимость исследуемых факторов. Все это заставляет обратиться к аналитическим методам построения регрессионной модели. Конкретизируем приведенное выше требование, чтобы экспериментальные точки лежали в совокупности как можно ближе к кривой, являющейся графиком искомой зависимости. Допустим, что аналитическое представление зависимости у от Х1 уже каким-то образом получено в виде уравнения регрессии у = f(Х1). График зависимости у = f(Х1) – это искомая кривая (см. рис. 4.5). Значениям фактора Х1, равным Х11, Х12,… Х1N, соответствуют точки на кривой ŷ1, ŷ2, ŷ3…, ŷN, рассчитанные по уравнению регрессии у = f(Х1).Эти точки являются значениями выходной величины исследуемого процесса: ŷ1 = f(Х11), ŷ2 = f(Х12), …………. ŷN = f(Х1N). (4.5) Найдем величину δ1 = у1 – ŷ1 (рис. 3.5), которая характеризует отклонение результата эксперимента у1 в точке Х11 от значения функции отклика ŷ1 = f(Х11) в этой же точке. Аналогично рассмотрим отклонения δ 2 = у2 – ŷ2,…, δN = уN – ŷN. Согласно методу наименьших квадратов (МНК), оценки для коэффициентов регрессии определяются из условия минимума суммы квадратов отклонений Ф, т.е. 2 Φ = δ12 + δ 22 + ... + δ 2N = ( y1 − y1 ) 2 + ( y2 − y2 ) + ... + 58
N 2 = ∑ ( y j − y j ) → min.
(4.6)
j
По сформулированному требованию найдем формулы для вычисления коэффициентов регрессии в простейшем случае линейной модели с единственным фактором Х1. Это модель вида y = B0 + B1 X 1. (4.7) Формулы (4.5) для данной модели примут соответствующий вид: ŷ1 = B0 + B1X11; ŷ2 = B0 + B1B12; ……………. ŷN = B0 + B1B1N. Подставим ŷ1, ŷ2, ŷ3…, ŷN в выражение (4.6) Ф = (y1 – B0 – B1X11)2 + (y2 – B0 – B1X12)2 +…+ (yN – B0 – B1X1N)2. Чтобы найти значения В0 и В1, при которых сумма Ф минимальна, возьмем производные от Ф по В0 и по В1 и приравняем их нулю: ∂Ф ∂В0 = 2 ( y1 − B0 − B1 X 11 ) ( −1) + ... + 2 ( yn − B0 − B1 X 1n ) ( −1) =0; ∂Ф ∂В1 = 2 ( y1 − B0 − B1 X 11 ) ( − X 11 ) + ... + 2 ( yn − B0 − B1 X 1n )( − X 1n ) =0.
После элементарных преобразований эти уравнения примут вид: NB0 + B1 ( X 11 + X 12 + ... + X 1N ) = y1 + y2 + ... + y N ; B0 ( X 11 + X 12 + ... + X 1N ) + B1 ( X 112 + X 122 + ... + X 12N ) + ... + y N X 1N
или короче n
n
i =1
i =1
n
n
n
i =1
i =1
i =1
NB0 + B1 ∑ X 1i = ∑ yi ,
(4.8)
B0 ∑ X 1i + B1 ∑ X 12i = ∑ yi X 1i .
Получена система из двух линейных уравнений с двумя неизвестными В0 и В1, n = N Она называется системой нормальных уравнений. Решая ее, придем к искомым формулам: 59
N N N ⎛ N ⎞ 2 ⎜⎜ ∑ y j ∑ X 1 j − ∑ X 1 j y j ∑ X 1 j ⎟⎟ j =1 j =1 j =1 j =1 ⎠, B0 = ⎝ 2 ⎛ N ⎛ N ⎞ ⎞ ⎜ N ∑ X 12j − ⎜ ∑ X 1 j ⎟ ⎟ ⎜ j =1 ⎟ ⎟ ⎜ j =1 ⎝ ⎠ ⎠ ⎝ (4.9) N N ⎛ N ⎞ ⎜⎜ N ∑ X 1 j y j − ∑ y j ∑ X 1 j ⎟⎟ j =1 j =1 j =1 ⎠. B1 = ⎝ 2 ⎛ N ⎞ N ⎛ ⎞ ⎜ N ∑ X 12j − ⎜ ∑ X 1 j ⎟ ⎟ ⎜ j =1 ⎟ ⎟ ⎜ j =1 ⎝ ⎠ ⎠ ⎝ Для придания системе (4.8) более симметричный вид введем фиктивный фактор Х0. Этот фактор не имеет физического смысла и в каждом опыте принимает одинаковые значения, равные +1:
Х01 = Х02 = … = Х0N = 1. Теперь регрессионную модель (4.7) можно представить следующим образом: у = В0 Х0+ В1Х1, а систему (4.8) с введенным фиктивным фактором можно переписать в виде N
N
N
j =1
j =1
B0 ∑ X 02 j + B1 ∑ X 01 j X 1 j = ∑ X 0 j y j , j =1
N
N
j =1
j =1
B0 ∑ X 0 j X 1 j + B1 ∑
X 12j
N
(4.10)
= ∑ X1 j y j . j =1
Из этой симметричной записи легко усвоить принцип составления системы нормальных уравнений (4.10). Разберемся, на какие суммы умножаются коэффициенты регрессии В0 и В1 в левых частях каждого уравнения. В первом из них они суммируются по всем опытам произведения значений фиктивного фактора Х0 поочередно на значения факторов Х0 и Х1. Во втором уравнении стоят суммы произведений значений фактора Х1 на те же факторы Х0 и Х1. В правых частях уравнений стоят суммы произведений значений факторов (Х0 – в первом уравнении и Х1 – во втором) на значения выходной величины у. Для проверки вычисле60
ний следует иметь в виду, что при подстановке в уравнение (4.7) среднего арифметического значений фактора Х1: ⎛ N ⎞ X = ⎜ ∑ Xi ⎟ N , ⎜ j =1 ⎟ ⎝ ⎠ значение y должно получиться равным среднему арифметическому значению уi: ⎛ N ⎞ y = ⎜∑ yj ⎟ N , ⎜ j =1 ⎟ ⎝ ⎠ т.е. справедливо равенство y = B0 + B1 X 1 . (4.11) Если это равенство не применяется для проверки вычислений, то им можно воспользоваться для их упрощения. В самом деле, вычитая почленно из уравнения (4.7) равенство (4.11), получим уравнение регрессии в следующем виде y − y = B1 X 1 − X 1 . (4.12) В это уравнение входит уже только один коэффициент регрессии В1, а также средние ⎛ N ⎞ X = ⎜∑ X j ⎟ N , ⎜ j =1 ⎟ ⎝ ⎠ ⎛ N ⎞ y =⎜ y ⎟ N. ⎜ ⎟ ⎝ j =1 j ⎠ Пример. При исследовании влияния низкоинтенсивного электромагнитного излучения (1–5 мкВт/см2 с 10 минутной экспозицией, 9–10 ГГц) на прорастание семян ржи определялась длина корешка проращиваемого зерна у см. Каждый опыт повторялся на трех образцах, один образец представлялся 15-ю семенами ржи. Результаты эксперимента сведены в табл. 4.2. В качестве отклика для каждого опыта рассмотрим среднее значение yi, полученное по трем образцам (при этом значение y для каждого образца определяется как среднее для 15 семян), которые приведены в пятом столбце табл. 4.2.
(
∑
61
)
Таблица 4.2 Результаты эксперимента Номер опыта
Номер образца
Длина корешка, см
yi, см
ŷ1, см
1
Интенсивность излучения, мкВт/см2 1,0
1 2 3
0,12 0,07 0,14
0,11
0,109
2
1,5
0,17
2,0
0,215
0,232
4
2,5
0,33
0,293
5
3,5
0,19 0,17 0,12 0,22 0,22 0,20 0,31 0,33 0,35 0,39 0,44 0,37
0,16
3
1 2 3 1 2 3 1 2 3 1 2 3
0,34
0,416
Регрессионную модель будем искать в виде линейного уравнения (4.7). Рассчитаем суммы, входящие в формулы (4.9), а также средние Х1ср и уср.: 5
∑X
1j
= 1 + 1,5 + 2 + 2,5 + 3,5 = 10,5 ;
j =1
⎛ ⎜ ⎜ ⎝ 5
∑X
2 1j
⎞ X 1 j ⎟ 5 = 2,1 ; ⎟ j =1 ⎠ 5
∑
= 12 + 1,5 2 + 2 2 + 2,5 2 + 3,5 2 = 25,75 ;
j =1
5
∑y
j
= 0,11 + 0,16 + 0,215 + 0,33 + 0,4 = 1,215 ;
j =1
62
⎛ y =⎜ ⎜ ⎝ 5
∑X j =1
1j
5
∑y j =1
j
⎞ ⎟ 5 = 0,243 ; ⎟ ⎠
y j = 1 ⋅ 0,11 + 1,5 ⋅ 0,16 + 2 ⋅ 0, 215 + 2,5 ⋅ 0,33 + 3,5 ⋅ 0, 4 = 3,005.
Воспользовавшись формулами (4.9), получим значения коэффициентов регрессии.
(
)
B0 = (1, 215 ⋅ 25,75 − 3,005 ⋅ 10,5 ) 5 ⋅ 25,75 − 10,52 = −0,014, B1 = ( 5 ⋅ 3,005 − 1, 215 ⋅ 10,5 ) 18,5 = 0,123.
Проверим, выполняется ли равенство (4.11): yср = 0,243 ≈ – 0,014 + 0,123⋅2,1. Это убеждает в правильности вычислений. Таким образом, результаты эксперимента описываются математической моделью у = –0,014 + 0,123 Х1. Всегда интересно знать, насколько точно полученная зависимость описывает результаты эксперимента. Простейшая проверка состоит в подстановке в уравнение регрессии значений фактора (факторов), соответствующих условиям каждого поставленного опыта. Вычисленные значения отклика ŷi сравниваются с экспериментальными значениями. Найденные из уравнения регрессии значения ŷi приведены в последнем столбце табл. 4.2. Сравнение их с результатами опытов свидетельствует об удовлетворительной точности регрессионной модели. Полная процедура статистического анализа уравнения регрессии будет приведена в п. 4.5. Вычисления по формулам (4.9) существенно упрощаются, если фактор Х1 принимает равноотстоящие значения, т.е. Х12 = Х11 + h, Х13 = Х12 + h и т.д., где h – константа, называемая шагом. При этом Х1ср = (Х11 + Х1N) /2 . Коэффициент В1 для модели (4.12) вычисляют в этом случае по одной из двух приведенных ниже формул в зависимости от того, является ли число поставленных опытов N четным или нечетным [5]. Если N нечетно, то B1 = (1 ( hH1 ) )[( yM +1 − yM −1 ) + 2 ( yM + 2 − yM − 2 ) + ... + (4.13) + ( M − 1)( yM +1 − yM −1 )]. 63
В формуле (4.13) М и H1 соответственно равны
(
)
M = ( N + 1) 2; H1 = N N 2 − 1 12.
(4.14)
Если N четно, то 1 B1 = [( yM +1 − yM −1 ) + 3 ( yM + 2 − yM − 2 ) + ... + 1hH1
(4.15)
+ ( N − 1) ( y N − y1 )],
2
где М =N/2; H1 = N(N – 1)/12. Обратимся теперь к вычислению коэффициентов квадратичной модели с единственным фактором Х1: у = В0 + В1Х1 + В11Х12. Для отыскания трех неизвестных коэффициентов регрессии В0, В1 и В11 надо решить следующую систему из трех линейных уравнений с тремя неизвестными: N
N
N
j =1
j =1
j =1
N
N
N
N
j =1
j =1
j =1
j =1
N
N
N
N
j =1
j =1
j =1
j =1
NB0 + B1 ∑ X 1 j + B11 ∑ X 12j = ∑ y j ; B0 ∑ X 1 j + B1 ∑ X 12j + B11 ∑ X 13j = ∑ y j X 1 j ; B0 ∑ X 12j + B1 ∑ X 13j + B11 ∑ X 14j = ∑ y j X 1 j ; Аналогично случаю линейной модели, вычисления коэффициентов регрессии значительно упростятся при равноотстоящих значениях факторов Х1. Математическую модель в этом случае удобно представить в виде ′ y = B11
(( X
1
− X1
) h)
2
((
+ B1′ X 1 − X 1
) h ) + B′ , 0
(4.16)
где h – по-прежнему шаг варьирования фактора Х1, а коэффициен′ вычисляются по следующим формулам [5]. ты B0′ , B1′ и B11 При нечетном N:
B0'' = y − ( H1 / N ) B11' ; B1' = 1 / H1 ( y1 (1 − M ) + y2 ( 2 − M ) + .. + y N ( N − M ) ) ; 64
⎧3 ⎡ y (1 − M )2 + y ( 2 − M )2 + .. + y ( N − M )2 ⎤ ⎫ N 2 ⎪ 1 ⎦⎪ = 1 / 3H ⎨ ⎣ ⎬ ⎪− N 2 − 1 / 4 ( y1 + y2 + .. + y N ) ⎪ ⎩ ⎭ 2 2 где H2 = N (N – 1)(N – 4)/180, а М и H1 вычисляют по формуле (4.14). При четном N: ' B−′ = y − ( H1 N ) B11 ; ' B11
2
(
)
B1′ = 1 2 H1 ⎣⎡ y1 ( 2 − N − 1) + y2 ( 4 − N − 1) = ... + y N ( 2 N − N − 1) ⎦⎤ ;
{
2 2 ′ = 1 12 H 2 3 ⎡ y1 ( 2 − N − 1) + y2 ( 4 − N − 1) ⎤ − B11 ⎣ ⎦
(
}
)
− N 2 − 1 ( y1 + y2 + ... + y N ) . М = N/2, а H1 и H2 вычисляют по тем же формулам. 4.3. Метод наименьших квадратов для многофакторных экспериментов Случай линейной регрессионной модели с k варьируемыми факторами. Регрессионная модель здесь имеет вид (4.2). Значения факторов, принимаемые в каждом опыте, можно свести в табл. 4.3. Таблица 4.3 Значения факторов Номер опыта 1 2 3 ... ... N
Х0
Х1
Х2
...
Хk
Х01 Х02 Х03
Х11 Х12 Х13
Х21 Х22 Х23
Хk1 Хk2 Хk3
...
...
...
...
...
...
Х0N
Х1N
Х2N
... ... ... ... ... ...
... ...
ХkN
Таблицы, составленные по представленному типу, в которых записаны условия опытов, называют матрицами планов. Прежде 65
чем проводить вычисления, запишем регрессионную модель (4.2) в более симметричном виде, введя фиктивный фактор Х0: y = B0 X 0 + B1 X 1 + B2 X 2 + ... + Bk X k . (4.17) В связи с этим дополним матрицу плана в табл. 4.3, введя в нее столбец значений фиктивного фактора Х0 и сформируем новую табл. 4.4 Таблица 4.4 Значения факторов Номер опыта 1 2 3 ... ... N
Х1
Х2
...
Хk
Х11 Х12 Х13
Х21 Х22 Х23
Хk1 Хk2 Хk3
...
...
...
...
... ... ... ... ... ...
Х1N
Х2N
... ...
ХkN
Теперь каждому слагаемому модели (4.17) соответствует определенный столбец этой матрицы: слагаемому В0Х0 – столбец Х0, слагаемому В1Х1 – столбец Х1 и т.д. Такая матрица называется матрицей базисных функций. В табл. 4.4, таким образом, построена матрица базисных функций модели (4.17) для плана в табл. 4.3. Для отыскания коэффициентов регрессии В0, В1, В2,…, Вk модели (4.17) необходимо проделать выкладки, аналогичные тем, которые были проведены выше для получения коэффициентов В0 и В1 линейной модели с единственным фактором. Опуская их, приведем промежуточный результат – систему нормальных уравнений: N
N
j =1
j =1
N
N
N
B0 ∑ X 02 j +B1 ∑ X 0 j X 1 j + B2 ∑ X 0 j X 2 j + ... + Bk ∑ X 0 j X kj = ∑ X 0 j y j , j =1
j =1
N
N
N
N
N
j =1
j =1
j =1
j =1
j =1
j =1
N
N
N
N
N
j =1
j =1
j =1
j =1
j =1
B0 ∑ X 0 j X 1 j +B1 ∑ X 12j + B2 ∑ X 1 j X 2 j + ... + Bk ∑ X 1 j X kj = ∑ X 1 j y j , B0 ∑ X 0 j X 2 j +B1 ∑ X 1 j X 2 j + B2 ∑ X 22 j + ... + Bk ∑ X 2 j X kj = ∑ X 2 j y j , 66
.............................................................................................................. N
N
N
N
N
j =1
j =1
j =1
j =1
j =1
B0 ∑ X 0 j X kj +B1 ∑ X 1 j X kj + B2 ∑ X 2 j X kj + ... + Bk ∑ X kj2 = ∑ X kj y j . (4.18) Система (4.18) построена по тому же принципу, что и система нормальных уравнений (4.10) для линейной однофакторной модели. Ее легко написать, имея матрицу базисных функций (табл. 4.4). Отметим, что число уравнений этой системы равно числу коэффициентов регрессии, подлежащих определению, т.е. в данном случае k + 1. Ясно также, что в случае применения метода наименьших квадратов число опытов N должно быть не меньше числа p оцениваемых коэффициентов регрессии N ≥ p. План, для которого p = N, называется насыщенным планом. Насыщенные планы не позволяют проверить адекватность математической модели. План, для которого p < N, называется ненасыщенным. Расчет коэффициентов регрессии и интерпретация результатов эксперимента существенно упрощаются, если преобразовать все факторы в безразмерные параметры, варьируемые в одинаковых диапазонах. Это можно сделать, введя нормализованные обозначения факторов. Пусть в эксперименте варьируются k факторов и Хi – любой из них: i = 1,2, …, k. Его диапазон варьирования Хimin ≤ Хi ≤ Хimax. Величина Хimax называется верхним уровнем фактора Хi, а величина Хimin – его нижним уровнем. Середину диапазона варьирования фактора Хi назовем его основным уровнем и обозначим X i0 , X i0 = (Хimin + Хimax)/2. Разность ∆i = Хimax – X i0 = X i0 – – Хimin называется интервалом варьирования фактора Хi. Сопоставим теперь произвольному фактору Хi его нормализованное обозначение xi , которое определяется по формуле xi = X i − X i(0 ) Δ i . (4.19) Введение нормализованных обозначений факторов по формуле (4.19) удобно по ряду причин. Можно заметить, что независимо от диапазона варьирования любого фактора его нижнему уровню соответствует (–1) в нормализованных обозначениях, верхнему уровню – (+1), основному – 0. Математическая модель объекта, записанная в нормализованных обозначениях факторов, позволяет об-
(
)
67
легчить интерпретацию результатов, поскольку диапазоны варьирования всех факторов оказываются одинаковыми и равными (–1), (+1), а все коэффициенты уравнения регрессии имеют одинаковую размерность. Это дает возможность, например, сравнивать степень влияния факторов непосредственно по абсолютным величинам коэффициентов регрессии линейной модели. Пример. Покажем, как были обработаны результаты эксперимента в п. 3.1 (в нем исследовалось влияние влажности W = X1 и температуры t = X2 на прорастание семян ржи l = y, мм). Построим матрицу базисных функций линейной модели, дополнив матрицу в табл. 3.1 столбцом X0 сформировав табл. 4.5 и 4.6. Таблица 4.5 Матрица плана Номер опыта 1 1 2 3 4 5 6
X0 2 1 1 1 1 1 1
X1, % 3 6 18 30 6 18 30
X2, с 4 40 40 40 80 80 80
у, мм 5 9,0 5,5 3,0 7,5 4,2 2,0
Таблица 4.6 Матрица плана с нормализованными факторами Номер опыта 1 1 2 3 4 5 6
х0 2 1 1 1 1 1 1
х1 3 –1 0 +1 –1 0 +1 68
х2 4 –1 –1 –1 +1 +1 +1
у, мм 5 9,0 5,5 3,0 7,5 4,2 2,0
ŷ1,мм 6 8,7 5,8 2,95 7,44 4,57 1,69
Согласно экспериментальному плану фактор X1 варьируется на верхнем, нижнем и основном уровне, а фактор X2 – только на верхнем и нижнем уровне. Перейдем к нормализованным факторам. Распишем сначала формулы (4.19) для каждого из варьируемых факторов: X1min = 6 %, X1max = 30 %, X10 = (6+30)/2 = 18 %, ∆1 = 18 – 6 = 12 %. В этом слуX − 18 чае формула (4.19) для первого фактора имеет вид x1 = 1 . 12 Аналогичным образом формула, связывающая нормализованные и натуральные обозначения для второго фактора, запишется в виде X − 60 x2 = 2 . 20 Перепишем матрицу базисных функций в нормализованных обозначениях факторов; она приведена в столбцах 2–4 табл. 4.6. Для составления системы нормальных уравнений необходимо вычислить суммы произведений элементов каждой пары столбцов (см. систему (4.18)): 6
∑x
2 0j
= 1 + 1 + ... + 1 = 6;
j =1 6
∑
x0 j x1 j =
j =1 6
∑ ∑
x0 j x 2 j = x12j = 4;
∑x j =1
= −1 + 0 + 1 − 1 + 0 + 1 = 0;
1j
6
∑
6
∑x
x2 j = 0;
j =1
j =1 6
∑x j =1
j =1 6
6
6
∑
x1 j y2 j = 0;
j =1
2 2j
= 6;
0jyj
= 31,2;
j =1
∑x
1j y j
= −11,5;
j =1
6
∑x
6
2 j y2 j
= −3,8.
j =1
Теперь система нормальных уравнений (4.18), записанная для нормализованных факторов, сводится к виду: 6b0 = 31,2; 4b1 = = –11,54; 6b2 = –3,8, откуда b0 = 5,2; b1 = –2,87; b2 = –0,63. Таким образом, получена следующая линейная модель для нормализованных факторов y = 5,2 – 2,87x1 – 0,63x2. 69
Для иллюстрации точности, с которой построенная модель предсказывает результаты эксперимента, в последнем столбце табл. 4.6 приведены значения отклика ŷ, рассчитанные по уравнению регрессии для каждого опыта. При переходе к натуральным факторам следует воспользоваться полученными выше формулами, связывающими нормализованные и натуральные обозначения факторов. Подставив в найденное уравнение регрессии значения X − 18 X − 60 x1 = 1 и x2 = 2 , получим: 12 20 2,87( X 1 − 18) 0,63( X 2 − 60) y = 5, 2 − − . 12 20 После преобразований будем иметь математическую модель в натуральных обозначениях факторов: y = 11,4 – 0,24Х1 – 0,0315 Х2 . Составление системы нормальных уравнений для регрессионных моделей в виде многочленов порядка выше первого. Идея обобщения метода наименьших квадратов на этот случай заключается в том, что любое произведение факторов, или их степень можно рассматривать в качестве нового фактора. Пусть, например, экспериментатор, исследуя влияние трех факторов на экологический объект, решил задаться моделью
у = B0 + B1 X 1 + B2 X 2 + B11 X 13 + B22 X 22 + B12 X 1 X 2 . Заменим члены второго и более высокого порядков новыми линейными членами X 13 = X 3 ; X 22 = X 4 ; X 1 X 2 = X 5. В результате исходная модель заменена линейной с пятью факторами. Таким образом, данный случай сводится к предыдущему. Для того чтобы выписать систему нормальных уравнений, аналогичным образом составляем матрицу базисных функций по типу табл. 4.4. Каждому слагаемому модели должен соответствовать определенный столбец матрицы. Поэтому она включает все степени и произведения факторов, которые фигурируют в модели (табл. 4.7). С помощью этой таблицы можно составить систему нормальных уравнений. 70
Таблица 4.7 Матрица базисных функций Номер опыта
Х0
Х1
X2
X 13
X 22
Х1 Х2
2 X 21
Х11, Х21
1
1
Х11
Х21
3 X 11
2
1
Х12
Х22
… .... ...
… … …
… … …
2 X 22 … … …
Х12, Х22
... ... ...
3 X 12 … … …
N
1
Х1N
Х2N
X 13N
X 22N
Х1N Х2N
… … …
Пример. На шести образцах разных размеров из хвойной древесины проверялась их усушка до конечной влажности 20 %. Необходимо установить зависимость величины усушки образца от его размера. Размер образца, мм 16 19 22 25 32 40 Величина усушки, мм 0,6 0,6 0,7 0,8 1,0 1,2 Опишем эту зависимость, с учетом априорной информации, уравнением параболы y = B0 + B1 X 1 + B11 X 12 , найдя коэффициенты В0, В1, В11 по методу наименьших квадратов. В табл. 4.8 построена матрица базисных функций этой модели, дополненная столбцом значений выходной величины. Таблица 4.8 Матрица базисных функций для моделей примера Номер опыта
Х0
Х1
1 2 3 4 5 6
1 1 1 1 1 1
16 19 22 25 32 40
X 12 256 361 484 625 1024 1600
y, мм
ŷ, мм
0,6 0,6 0,7 0,8 1,0 1,2
0,57 0,64 0,71 0,80 0,98 1,21
Для этого случая получим следующую систему нормальных уравнений: 71
6
6
6
6
j =1
j =1
j =1
j =1
B0 ∑ X 02 j + B1 ∑ X 0 j X 1 j + B11 ∑ X 0 j X 12j = ∑ X 0 j y j ; 6
6
6
6
j =1
j =1
j =1
j =1
6
6
6
6
j =1
j =1
j =1
j =1
B0 ∑ X 1 j X 0 j + B1 ∑ X 12j + B11 ∑ X 13j = ∑ X 1 j y j ; B0 ∑ X 12j X 0 j + B1 ∑ X 13j + B11 ∑ X 14j = ∑ X 12j y j . Решив систему, найдем значения коэффициентов регрессии: В0 = = 0,225; В1 = 0,0193; В3 = 0,000125. Отсюда искомая модель имеет вид: y = 0,225 + 0,0193Х 1+ 0,000125 X 12 . Для иллюстрации в последнем столбце табл. 4.8 приведены значения отклика ŷ, рассчитанные по уравнению регрессии для каждого опыта. Обобщение МНК на случай регрессионных моделей произвольного вида, линейных по параметрам. Рассмотренное выше обобщение МНК применимо и для регрессионных моделей произвольного вида при условии, что коэффициенты регрессии входят в них линейно. Так, модель y = B0 + B1e X 1 + B2 sin1 X 2 + B3 X 32 + 1 + B4 X 4 легко сводится к линейному случаю введением новых факторов X 1' = e X1 ; X 2' = sin1 X 2 ; X 3' = X 32 + 1; X 4' = 1 X 4 . В результате имеем линейную модель с четырьмя факторами y = B0 + B1 X 1 + B2 X 2 + B3 X 3 + B4 X 4 . Таким образом, сначала ставится эксперимент по некоторому плану. Далее по общему правилу составляют матрицу базисных функций, приведенную в табл. 4.9. На ее основе записывают и решают систему нормальных уравнений с четырьмя неизвестными В0, В1, В2, В3 . Рассмотрим некоторые примеры. Зависимость видового числа y от коэффициента формы Х и высоты ствола дерева h отыскивается в виде y = B0 + B1 X 2 + B2 ( Xh ) . Заменой X 1 = X 2 ; X 2 = 1 ( Xh ) эта
(
)
зависимость сводится к линейной зависимости вида y = B0 + B1 X 1 + B2 X 2 . 72
Таблица 4.9 Матрица базисных функций Номер опыта
X0
X 1' − e X1
X 2' = sin1 X 2
X 3' = X 32 + 1
X 4' = 1 X 4
1
Х01
e X11
sin1 X 21
2 X 31 +1
1 X 41
2
Х02
e X12
sin1 X 22
2 X 32 +1
1 X 42
...
…
...
N
X 0N
e X1N
... 1
sin X 2 N
... X 32N
+1
... 1 X 4N
Другой пример. Для вычисления объема ствола дерева V применяется формула V = B0 + B1 fd 2 h, где f – видовое число; d – диаметр дерева на высоте груди; h – высота ствола. Замена X 1 = fd 2 h сводит этот случай к линейной однофакторной модели. Расчет коэффициентов регрессии, как правило, осложняется, если они входят в уравнение регрессии нелинейно. Например, применение метода наименьших квадратов для модели вида y = B0 + B1 X 1 + B2 e B3 X 2 представляет сложную задачу. Следуя идее метода наименьших квадратов, нетрудно выписать функцию, минимизирующую сумму квадратов отклонений, взять от нее производные по Вi и приравнять их нулю. Но полученная система уравнений линейной уже не будет, а значит, для решения ее надо выбирать специальные методы. Однако в ряде случаев модели, нелинейные по параметрам, сводят к линейным с помощью простых преобразований. Так, в теории тепломассообмена широко применяются эмпирические формулы в виде произведения степенных функций y = B0 X 1B1 X 2B2 X 3B3 ... X kBk . 73
Применение ЭВМ для расчета коэффициентов регрессионной модели. Систему уравнений (4.18) можно решить вручную, без применения компьютерных программных средств, если число неизвестных в ней не более трех. В математическом обеспечении компьютера имеются стандартные программы регрессионного анализа и статистической обработки экспериментальных данных, которые позволяют получать уравнения регрессии, не вникая в алгоритм и его программной реализации, для многофакторных моделей. Однако для качественного анализа построения уравнения регрессии с целью применения его для прогнозирования, определения роли различных факторов, оптимизации процесса исследования объектов и т.д. целесообразно рассмотреть алгоритм численной реализации решения системы уравнений для многофакторной модели. Запишем систему нормальных уравнений в матричной форме [6]. Все выкладки справедливы для натуральных и нормализованных обозначений факторов. Пусть поставлен эксперимент согласно матрице плана в табл. 4.3. Поскольку применение МНК для моделей в виде многочленов любого порядка сводится к линейному случаю, обратимся к линейной модели (4.17) и матрице базисных функций в табл. 4.4. Перепишем данные из табл. 4.4 в виде матрицы. Термин «матрица» употребляется здесь уже в математическом смысле – как таблица из идентификаторов или цифр, содержащая в общем случае n строк и m столбцов: ⎛ X 01 ... X 01 ⎞ ⎜ ⎟ X = ⎜ ... ... ... ⎟. ⎜X ⎟ ⎝ 0 N ... X kN ⎠ Приведенная матрица базисных функций (см. табл. 4.4) имеет размер N×(k + 1). Результаты эксперимента также выпишем в от⎛ y1 ⎞ ⎜ ⎟ ⎜ y2 ⎟ дельный столбец: Y = ⎜ y3 ⎟ . ⎜ ⎟ ⎜ ... ⎟ ⎜y ⎟ ⎝ N⎠ 74
Аналогично можно выписать в отдельный столбец искомые ко⎛ B0 ⎞ ⎜ ⎟ ⎜ B1 ⎟ эффициенты регрессии: B = ⎜ B2 ⎟ . ⎜ ⎟ ⎜ ... ⎟ ⎜B ⎟ ⎝ k⎠ Столбец, а также строку можно считать частным случаем матрицы. Так, столбец Y можно рассматривать как матрицу размеров N × 1 а столбец B – как матрицу размеров ( k + 1) × 1 .
Оперируя введенными терминами, можно сказать, что определение коэффициентов регрессии по результатам эксперимента эквивалентно нахождению столбца В по известной матрице Х и столбцу Y. Согласно [6]
(
B = XT X
)
−1
X TY.
(4.20)
Таким образом, согласно формуле (4.20) для вычисления столбца коэффициентов регрессии B надо выполнить следующие операции: транспонировать матрицу Х; полученную в результате матрицу ХТ следует умножить на матрицу Х; от полученной матрицы ХТХ взять обратную; найденную матрицу (ХТХ)-1 надо умножить на ХТ, а результат – на столбец Y . 4.4. Об интервале съема данных и продолжительности пассивного эксперимента
При проведении пассивного эксперимента и, в частности, в процессе мониторинга окружающей среды (загрязнения атмосферы) возникает вопрос об интервале съема данных и необходимости продолжительности всего эксперимента. Обозначим через Δt временной интервал между последовательными измерениями выходной величины эксперимента. В предположении, что изменения исследуемой выходной величины y во времени представляют собой стационарный случайный процесс, интервал Δt съема данных можно определить из условия некоррелированности наблюдений. 75
Для расчета Δt надо иметь диаграмму изменений y за некоторое время t. По ней подсчитывают число F пересечений диаграммой линии среднего значения y за время t. Вычисляют среднее число пересечений за единицу времени по формуле f 0 = F t Тогда искомую величину интервала Δt съема данных отыскивают из условия [4]: Δt ≥ 2 f 0 . (4.21) Считается, что для определения f0 достаточно взять интервал времени t, в течение которого получено F = 40 – 70. Нецелесообразно выбирать величину Δt , превышающую значение 2/f0 из-за возможных изменений внешних условий, параметров объекта и т.п. При оценке времени наблюдения над выходной величиной, т.е. продолжительности пассивного эксперимента, предлагается руководствоваться требованием, чтобы за это время наблюдаемая переменная успела пройти весь диапазон своего изменения с некоторой заданной вероятностью P. Предположим, что весь диапазон Δу изменения выходной величины разбит на ряд одинаковых интервалов в соответствии с разрешающей способностью измерительного прибора, и известна вероятность ν попадания величины y в верхний и нижний интервал диапазона. Величину ν берут обычно из отчетных данных. Продолжительность эксперимента Т определяется по формуле T = λΔt ν , (4.22) где Δt – интервал съема данных; λ – параметр, определяемый в зависимости от заданной вероятности Р по формуле λ = − ln(1 − P ) . Укажем, что для типичных значений Р = 0,95, λ = 3,68 ; для Р = 0,99, λ = 5,3 . Пример. Контроль электромагнитного излучения антропогенного источника регистрируется самописцем графически на диаграммной бумаге. Диапазон изменения регистрируемой величины (напряженность поля, В/м) составляет от 20 до 100 В/м. Требуется определить время продолжительности наблюдения (эксперимента) и временного интервала измерения напряженности поля антропогенного источника. 76
Воспользуемся сначала формулой (4.21) для определения минимальной базовой длиной участка на диаграмме Δt f0 =F/l, l – длина временного участка на диаграмме, на котором подсчитано число F пересечений с линией среднего значения. Всего на длине l = 18 мин оказалось 48 пересечений: F = 48. Отсюда f0 = 48/18 = = 8/3; Δt > 2 : (8 / 3) = 0,75 мин. Используя формулу (4.22), вычислим необходимое время пассивного эксперимента (наблюдения). Величина ν выбрана 0,1 при условии попадания измерения в интервал от 20 до 100 В/м. Задавшись P = 0,95, получим Т = 3,68 · 0,75/0,1 = 27,6 мин. 4.5. Статистический анализ уравнения регрессии Дисперсия воспроизводимости. После того как уравнение получено, приступают к его статистическому анализу. При этом решают две основные задачи: оценивают значимость коэффициентов регрессии и проверяют адекватность математической модели. Для выполнения каждой из этих процедур необходимо иметь количественную оценку ошибок эксперимента в целом. Соответствующей характеристикой является дисперсия воспроизводимости, обозначаемая через s 2 { y} Рассмотрим способы ее вычисления в зависи-
мости от методики дублирования опытов. 1. Равномерное дублирование. Каждый из N запланированных опытов повторяется одинаковое число n раз, т.е. имеется N серий, в каждой из которых ставится n дублированных опытов. Обозначим результаты опытов первой серии через y11 , y12 ,..., y1n . По ним можно рассчитать дисперсию первого опыта s12 :
(
s12 = ⎡ y11 − y1∗ ⎢⎣
) +(y 2
12
n
− y1∗
)
2
(
= ∑ y1u − y1∗ u =1
(
)
2 + ... + y1n − y1∗ ⎤ ⎥⎦
)
2
( n − 1) =
( n − 1) ,
где y1∗ – среднее по серии дублированных опытов, равное 77
y1∗ = ( y11 + y12 + ... + y1n ) n =
n
∑y
1u
n.
u =1
Аналогично рассчитываются средние y ∗j и дисперсии s 2j всех остальных опытов:
n
y ∗j = ∑ y ju n;
(4.23)
u =1
n
(
s 2j = ∑ y ju − y ∗j u =1
)
( n − 1);
(4.24)
j = 1, 2, 3,..., N . Отметим, что числа степеней свободы всех дисперсий одинаковы и равны п –1: f j = f = n − 1 . В качестве дисперсии воспроизводимости s 2 { y} берется среднее арифметическое дисперсий опытов
(
s 2 { y} = s12 + s22 + ... + s N2
N
)
N = ∑ s 2j N .
(4.25)
j =1
Число степеней свободы fy этой дисперсии равно сумме чисел степеней свободы дисперсий опытов N
f y = ∑ f j = N ( n − 1) .
(4.26)
j =1
Необходимыми предпосылками статистического анализа являются нормальность распределения выходной величины и однородность дисперсии опытов. Проверка однородности дисперсий опытов при равномерном их дублировании проводится по критерию Кохрена (см. п. 1.7). 2. Неравномерное дублирование. Каждый j-й опыт повторяется в этом случае некоторое число пj раз. Как и в предыдущем случае, вычисляются дисперсии первого, второго, j-го опытов: s12 , s22 ,..., s N2 – по формулам, аналогичным формуле (4.26), только вместо n здесь будет стоять пj: nj
(
s 2j = ∑ y ju − y∗j u =i
78
)
2
( n − 1) .
(4.27)
Числа степени свободы дисперсий различны: fj = nj – 1. Дисперсия воспроизводимости для этого случая определяется по формуле
(
s 2 { y} = s12 f1 + s22 f 2 + ... + s N2 f N N
= ∑ s 2j f j j =1
)
( f1 + f 2 + ... + f N ) = (4.28)
N
∑ fj. j =1
Если число степеней свободы равно fу = n1 – 1, то N
N
j =1
j =1
(
)
f y = ∑ f j = ∑ nj −1 .
(4.29)
Для проверки однородности дисперсий в данном случае необходимо воспользоваться критерием Бартлетта (см. п. 2.8). 3. Частный случай неравномерного дублирования, когда из N поставленных опытов дублируется только один, для определенности – первый с числом повторений n1 раз. Дисперсия, рассчитанная по этой серии, принимается за оценку дисперсии воспроизводимости с числом степеней свободы fy = n1 – 1. 4. Отсутствие дублированных опытов. Для оценки дисперсии воспроизводимости в этом случае приходится ставить отдельную серию дублированных опытов, если это возможно. Как и в предыдущем случае, дисперсия опытов этой серии служит оценкой дисперсии воспроизводимости с числом степеней свободы, равным f y = n0 − 1 , где n0 – число дублированных опытов в отдельной серии. Оценка точности, значимости коэффициентов регрессии и интерпретации результатов. Статистическую обработку проводят обычно для модели, записанной в нормализованных обозначениях факторов. Для определенности будем иметь в виду линейную модель, содержащую k факторов. После того, как уравнение регрессии получено и рассчитана дисперсия воспроизводимости, следует оценить точность, с которой найдены коэффициенты регрессии. Поскольку они вычислены по результатам эксперимента, а эти результаты являются случайными величинами, то случайными величинами будут и коэффициенты регрессии Вi. Поэтому в качестве 79
показателя точности поиска коэффициентов удобно взять его дисперсию s 2 {Bi } . Изучим сначала случай отсутствия дублированных опытов в основном эксперименте. Для получения дисперсий коэффициентов регрессии используют матрицу базисных функций Х. Рассмотрим матрицу (ХТХ)-1, элементы которой обозначим через cij. Это – квадратная матрица размера ( k + 1) × ( k + 1) , называемая ковариационной матрицей: ⎛ c00 ... c0 k ⎞ ⎜ ⎟ X X = ⎜ ... ... ... ⎟ . ⎜c ⎟ ⎝ k 0 ... ckk ⎠ Умножим каждый ее элемент на оценку дисперсии воспроизводимости s 2 { y} . Можно показать, что полученная матрица имеет
(
T
)
−1
вид
(
⎛ s 2 {b0 } cov {b0b1} ⎜ −1 s 2 {b1} ⎜ cov {b1b0 } X T X s 2 { y} = ⎜ ... ... ⎜ ⎜ cov {b b } cov {b b } k 0 k 1 ⎝
)
... cov {b0 bk } ⎞ ⎟ ... cov {b1bk } ⎟ ⎟. ... ... ⎟ 2 ... s {bk } ⎟⎠
(4.30)
Следовательно, s 2 {bi } = cii s 2 { y} . По главной диагонали матрицы (4.30) стоят дисперсии коэффициентов регрессии, а недиагональные элементы – это ковариации между коэффициентами регрессии. Ковариация, так же как и коэффициент корреляции, является мерой линейной статистической связи между двумя случайными величинами. Оценка ковариации двух случайных величин x и y, принимающих в однородной серии из n опытов значения х1, у1, х2, у2, ..., хпуп, равна k
(
)(
cov { x, y} = ∑ xi − x yi − y i =1
)
( n − 1).
Легко заметить, что числитель формулы совпадает с числителем формулы для выборочного коэффициента корреляции (см. (1.26)). Поэтому аналогично коэффициенту корреляции ковариация между 80
независимыми случайными величинами равна нулю. Таким образом, для отыскания дисперсии коэффициентов регрессии требуется проделать сложные матричные преобразования. Перейдем к случаю дублирования опытов. Матрицу Х будем формировать, учитывая только основные опыты; тогда каждая ее строка будет содержать условия проведения серии дублированных опытов. Рассмотрим отдельно случай равномерного дублирования. Для получения оценок дисперсий и ковариаций коэффициентов регрессии следует каждый элемент матрицы
(X
T
PX
)
−1 2
s
{ y}
(см. фор-
мулу (4.30)) разделить на число n дублированных опытов. Если дублирование неравномерное, то оценки дисперсий и ковариаций коэффициентов регрессии являются элементами матрицы
(X
T
PX
)
−1 2
s
{ y} ,
где Р – матрица дублирования.
Для большинства планов, рекомендуемых теорией эксперимента, существуют простые формулы для отыскания дисперсий коэффициентов регрессии, их дисперсий и ковариаций между ними. Более того, ряд таких планов составлен исходя из требования равенства нулю ковариаций между коэффициентами регрессии. Это так называемые ортогональные планы, к которым относятся, в частности, полный и дробный факторные планы. При ортогональном планировании отбрасывание незначимых коэффициентов регрессии не приводит к изменению оценок остальных коэффициентов. После того как найдены дисперсии коэффициентов регрессии, следует выявить незначимые коэффициенты, т.е. те, которые в математической модели можно приравнять нулю. Для этого используется t-критерий Стьюдента. Для каждого коэффициента регрессии bi отыскивается t-отношение: ti = bi s {bi }. (4.31) Можно анализировать значимость коэффициентов регрессии по уравнению с натуральными факторами. В этом случае ti = Bi s { Bi }. В обеих формулах в числителе стоит абсолютная величина коэффициента регрессии, в знаменателе – его эмпирический стандарт – корень квадратный из дисперсии. Вычисленную 81
величину ti сравнивают с табличным значением tтабл t-критерия Стьюдента (см. табл. 1.1) для заданного уровня значимости q и числа степеней свободы fy, с которым определялась дисперсия воспроизводимости s 2 { y} . Если ti < t табл, то коэффициент регрессии bi незначим и соответствующий член в уравнении регрессии должен быть отброшен. С учетом (4.31) условие того, что коэффициент регрессии незначим, можно записать в более удобном виде: | bi |≤ s {bi } ⋅ tтабл .
(4.32)
При отбрасывании незначимых членов возникает определенное неудобство, связанное со статистической зависимостью коэффициентов регрессии. Эта зависимость проявляется в том, что после того как незначимые коэффициенты регрессии приравняли нулю, оценки остальных коэффициентов регрессии изменяются. Практический вывод: после отбрасывания незначимых коэффициентов регрессии желательно снова воспользоваться МНК для уточнения оставшихся значимых коэффициентов регрессии. С помощью t-критерия можно найти и доверительный интервал для произвольного коэффициента регрессии bi. Обозначим истинную величину этого коэффициента через βi. Тогда bi − tтабл s {bi } ≤ bi + tтабл s {bi } .
(4.33)
Даже простейшая линейная модель позволяет получить важную информацию об объекте исследования. Запишем ее в нормализованных обозначениях факторов
y = b0 + b1 x1 + b2 x2 + ... + bk xk .
(4.34)
Коэффициенты этой математической модели имеют четкий физический смысл. Коэффициент b0 равен значению выходной величины, рассчитанному по уравнению регрессии, если все факторы зафиксированы на основном уровне, т.е. в середине диапазона варьирования. Знак коэффициента bi свидетельствует о характере влияния соответствующего фактора. Если bi > 0, то с ростом значения фактора Хi выходная величина растет. Если bi < 0, то с ростом Хi выходная величина уменьшается. Величина bi равна приросту выходной величины, полученному при увеличении значения фак82
тора Хi на половину диапазона его варьирования, например, с ос-
(
)
(
)
новного уровня X i = X i0 до верхнего уровня X i = X i1 . Как уже указывалось, из вида модели (4.34) следует, что графиком зависимости величины y от любого фактора Хi является прямая. Рассмотрение зависимостей выходной величины y от этого фактора при разных фиксированных значениях других факторов позволит получить семейство прямых, причем все эти прямые будут параллельны. Это связано с тем, что представление регрессионной модели в линейном виде (4.34) предполагает отсутствие взаимодействий факторов (см. п. 3.1). Чем больше абсолютная величина линейного коэффициента регрессии в модели (4.34), тем сильнее влияние соответствующего фактора. Если, например, оказалось, что b3 > b1 , то можно сделать вывод о том, что изменение фактора Х3 в пределах его диапазона варьирования оказывает большее влияние на изменение отклика, чем варьирование фактора Х1 в его диапазоне. Таким образом, с помощью линейной регрессионной модели можно сравнить степень влияния факторов на выходную величину и выявить важнейшие факторы. Если уравнение регрессии отличается от линейного вида, то степень влияния фактора может изменяться от начала к концу диапазона варьирования и зависит от уровней варьирования других факторов. Проверка адекватности регрессионной модели. Регрессионная модель, построенная по результатам эксперимента, позволяет рассчитать значения отклика в разных точках области варьирования факторов. Для этого в уравнение регрессии подставляют соответствующие значения варьируемых факторов. Проверка адекватности математической модели дает возможность экспериментатору ответить на вопрос, будет ли построенная модель предсказывать значения выходной величины с той точностью, что и результаты эксперимента. Пусть N – число опытов экспериментального плана или число серий параллельных опытов, если опыты дублируются; p – число оцениваемых коэффициентов регрессии математической модели. 83
Проверка адекватности возможна только при N > p, т.е. если план эксперимента является ненасыщенным. Для проверки адекватности модели необходимо знать оценку дисперсии воспроизводимости s 2 { y} , которую можно вычислить в зависимости от методики дублирования опытов по одной из формул, приведенных в п. 3.5. Порядок проверки адекватности модели. 1. Определяют сумму квадратов, характеризующую адекватность модели Saд. При равномерном дублировании ее рассчитывают по формуле 2 2 Sад = n ⎡ y1 −1∗ + y 2 − y2∗ + ... + y N − y∗N ⎤ = ⎢⎣ ⎥⎦ (4.35) 2 N ∗ = n∑ yi − yi = n.
(
) (
j =1
)
(
(
)
)
Здесь n – число дублированных опытов в каждой серии; у j – среднее значение результатов эксперимента в j-й серии дублированных опытов, j = 1, 2, 3,..., N; y*j – значение выходной величины, рассчитанное по уравнению регрессии для j-го основного опыта. В случае неравномерного дублирования средняя дисперсия N
2 scр
=
∑( y j − y)
2
j =1
, N −1 где nj – число дублированных опытов в j-й серии. При отсутствии дублирования опытов N
(
)
2
Saд = ∑ y j − y ∗j , j =1
(4.36)
(4.37)
где yj – результат j-го опыта. 2. Вычисляют число степеней свободы fад дисперсии адекватности. При любой методике дублирования опытов оно равно fад = N – p. (4.38) 3. Вычисляют дисперсию адекватности 2 saд = saд f aд . (4.39) 84
4. С помощью критерия Фишера F проверяют однородность 2 и дисперсии воспроизводимости дисперсии адекватности sад s 2 { y} . При этом вычисляют значение критерия Фишера 2 Fрасч = saд s 2 { y} , (4.40) которое сравнивают с табличным значением критерия Фишера, найденным при выбранном уровне значимости q для чисел степеней свободы fад в числителе и fу в знаменателе. Если Fрасч < Fтабл, то модель считается адекватной и может быть использована для описания объекта. В противном случае модель неадекватна. Рассмотренный метод проверки адекватности модели имеет простой физический смысл. В основе этой процедуры лежит проверка гипотезы об однородности дисперсии адекватности и дисперсии, характеризующей ошибку эксперимента. Заметим, что дисперсия адекватности характеризует расхождение между результатами эксперимента yj и значениями выходной величины y*j , вычисленными по уравнению регрессии. Логично
принять, что модель удовлетворительно описывает объект исследования, т.е. является адекватной, если указанное расхождение вызвано только экспериментальными ошибками, а не связано, например, с неудачным выбором вида математической модели. Проверка гипотезы об однородности рассматриваемых дисперсий и выясняет «общность происхождения» экспериментальных ошибок и расхождения между yj и y*j . Кроме проверки адекватности модели можно оценить ее эффективность, информационную ценность. При отсутствии дублированных опытов эффективность регрессионной модели оценивают следующим образом. 1. Вычисляют дисперсию относительно среднего значения отклика N
(
2 scр = ∑ yj − y j =1
)
2
( N − 1),
(4.41) N
где y – среднее значение отклика по всем опытам: y = ∑ yi N . j =1
85
2. Рассчитывают остаточную дисперсию: N
(
2 sост = ∑ y j − y ∗j j =1
)
2
( N − p ).
(4.42)
3. Вычисляют отношение 2 Fu = sс2 / sост . (4.43) Величина Fu показывает, во сколько раз уравнение регрессии описывает результаты эксперимента точнее, чем простое среднее арифметическое, взятое по всем опытам. Регрессионная модель считается эффективной, если Fu > (3 – 5). Для экспериментов с дублированными опытами формула (4.43) 2 остается в силе, а выражения для дисперсий sс2 и sост примут вид: nj
N
(
sс2 = ∑∑ y ju − y j =1 u =1
2 sост
N
nj
)
(
= ∑∑ y ju − y ∗j j =1 u =1
⎛ N ⎞ ⎜⎜ ∑ n j − 1⎟⎟ ; ⎝ j =1 ⎠
2
)
2
⎛ N ⎞ ⎜⎜ ∑ n j − p ⎟⎟, ⎝ j =1 ⎠
где yju – значение отклика в u-м дублированном опыте j-й серии; N – число серий дублированных опытов; N
nj
y = ∑∑ y ju j =1 u =1
N
∑nj. j =1
Последовательность действий исследователя при проведении эксперимента с целью построения регрессионной модели объекта. 1. Выбор варьируемых и стабилизируемых факторов, а также выходных величин эксперимента. 2. Выбор регрессионной модели. 3. Определение диапазона варьируемых факторов. 4. Выбор плана эксперимента. 5. Составление методики проведения эксперимента. 6. Постановка разведывательных опытов. Проверка нормальности распределения выходной величины. Определение числа дублированных опытов. 86
7. Проведение основного эксперимента. 8. Отбрасывание грубых наблюдений. Проверка однородности дисперсий опытов. Расчет дисперсии воспроизводимости (при отсутствии дублированных опытов дисперсия воспроизводимости определяется по результатам отдельной серии опытов). 9. Расчет коэффициентов регрессии математической модели. 10. Оценка значимости коэффициентов регрессии. Отбрасывание незначимых членов и повторный расчет коэффициентов регрессии (последнее – для неортогональных планов). 11. Проверка адекватности и эффективности регрессионной модели. 12. Интерпретация результатов. Приведенный перечень этапов только приблизительно отражает реальную последовательность действий экспериментатора, поскольку многие этапы оказываются взаимосвязанными. Таковы, например, выбор математической модели и определение диапазона варьирования факторов. При выборе диапазона варьирования факторов существенны, прежде всего, соображения экспериментатора, связанные с возможностью применения полученных им результатов и рекомендаций в исследуемой сфере. Поэтому диапазоны варьирования факторов в эксперименте обычно соответствуют реально-возможным условиям. Кроме того, необходимо отметить, что диапазоны варьирования факторов следует выбирать тем больше, чем ниже точность фиксирования факторов и чем меньше диапазон изменения выходной величины [7]. 4.6. Пример обработки результатов экспериментальных исследований
Проиллюстрируем методику обработки экспериментальных данных на примере исследования влияния низкоинтенсивного высокочастотного излучения 9–10 ГГц и влажности на прорастание семян ржи. Были выбраны следующие диапазоны варьирования факторов: интенсивности излучения в зоне размещения семян 0 < I <10 мкВт/см2; изменение влажности 35 < W < 55 %. По техно87
логическим причинам были выбраны пять уровней варьирования для каждого из факторов и рассматривались всевозможные их комбинации. Один исследуемый образец представлялся 50 семенами ржи. В качестве функции отклика принимались значения размера корешка, проращиваемых семян ржи y. Матрица плана данного эксперимента в натуральных обозначениях факторов приведена во втором и третьем столбцах табл. 4.10. Таблица 4.10 Результаты эксперимента Номер ВлажИнтенсивопыта ность ность потока j семян W, I, мкВт/см2 % 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
50 40 50 40 50 40 50 40 55 35 55 35 45 45 45 45 50 40 55 35 45
7,5 7,5 2,5 2,5 10 10 0 0 7,5 2,5 10 0 7,5 2,5 10 0 5 5 5 5 5
Значение, Средний Диспер2 полученные размер сия s j по уравнению корешка проростка регрессии yˆ j семени, ×10 мм 475 290 468 364 475 375 498 300 485,5 389 320 392,5 475 527 459 365 234 366,3 501 327 494 393 399 401 534 334 534,8 371 337 366,2 516 632 526 383 332 374,9 417 217 414,8 417 385 432,3 409 309 406 441 370 441,9 479 254 476,8 384 296 383,7 535 235 543,6 359 367 357,5 418 431 423,5
88
В пятый столбец таблицы вписаны значения дисперсий опытов, вычисленные по формуле (4.24). По критерию Кохрена G проверена гипотеза об однородности этих дисперсий. Gрасч=
2 s11 632 = = 0,086 . 2 2 2 s1 + s1 + ... + s21 290 + 475 + ... + 431
Из таблиц критерия G (см. приложение 3) при уровне значимости q = 0,05 для числа степеней свободы каждой выборки f = n – 1 = = 50 – 1 = 49 и для числа выборок m = 21 получим Gтабл = 0,09. Это соотношение Gрасч < Gтабл позволяет принять гипотезу об однородности дисперсий опытов. Далее определяем дисперсию воспроизводимости опытов (эксперимента)
s {bi } = Cii s 2 { y} с числом степеней свободы f = N(n – 1) = 21⋅(50 – 1). Расчет коэффициентов регрессии проводился для математической модели в нормализованных обозначениях факторов. Значения нормализованных факторов вычисляются из выражений: W − 45 J −5 x1 = ; x2 = . 10 5 Для расчета коэффициентов регрессии необходимо построить матрицу базисных функций в нормализованных обозначениях факторов. Уравнение регрессии выбрано второго порядка, вида: y = b0 = b1 x1 + b2 x2 + b11 x12 + b22 x 22 +b12 x1 x2 , для которого матрица базисных функций этой модели должна содержать столбцы: x0 , x1 , x2 , x12 , x22 , x1 x2 . Матрица базисных функций в нормализованных обозначениях факторов приведена в табл. 4.11. Коэффициенты регрессионной модели рассчитываются по формуле (4.20). Полученные значения коэффициентов представлены в табл. 4.12. 89
Таблица 4.11 Матрица базисных функций в нормализованных обозначениях факторов Номер опыта 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
х0
х1
х2
x12
x22
х1х2
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0,5 –0,5 0,5 –0,5 0,5 –0,5 0,5 –0,5 1 –1 1 –1 0 0 0 0 0,5 –0,5 1 –1 0
0,5 0,5 –0,5 –0,5 1 1 –1 –1 0,5 –0,5 1 –1 0,5 –0,5 1 –1 0 0 0 0 0
0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 1 1 1 1 0 0 0 0 0,25 0,25 1 1 0
0,25 0,25 0,25 0,25 1 1 1 1 0,25 0,25 1 1 0,25 0,25 1 1 0 0 0 0 0
0,25 –0,25 –0,25 0,25 0,5 –0,5 –0,5 0,5 0,5 0,5 1 1 0 0 0 0 0 0 0 0 0 Таблица 4.12
Коэффициенты регрессионной модели Индекс коэффициента 0 1 2 11 22 12
bi
Cii
s{bi }
Tтаблs{bi}
bi′
421,5 93,05 – 17,46 27,94 3,8 –0,99
0,194 0,132 0,112 0,483 0,304 0,486
8,24 6,80 6,30 13,02 10,32 13,05
16,10 13,30 12,25 25,52 20,22 25,60
423,5 93,05 –17,46 27,04 -
90
Для оценки значимости найденных коэффициентов регрессии проверяем выполнение неравенства (4.32). Предварительно необходимо вычислить элементы Cii матрицы (ХТХ)–1, где Х – матрица базисных функций. Для выбранного уровня значимости q = 0,05 и числа степеней свободы f = N(n – 1) = 21⋅(50 – 1), связанного с дисперсией воспроизводимости, из таблицы 1 найдем значение tтабл = 1,96. Тогда значения дисперсии коэффициентов вычисляется по формуле s{bi } = Cii s 2 {y}. Сопоставляя элементы второго и пятого столбцов табл. 4.12, проверяем выполнение неравенства (4.32). Как видно, незначимыми оказались коэффициенты регрессии b22 и b12. Как отмечалось, после отбрасывания незначимых коэффициентов величины остальные коэффициенты регрессии изменяются. Это заставляет вторично проводить расчет оставшихся коэффициентов регрессии. Матрица базисных функций в данном случае содержит уже только столбцы х0, х1, х2, x22 . Вновь рассчитанные коэффициенты регрессии приведены в шестом столбце табл. 4.12. Таким образом, окончательно, регрессионная модель будет иметь вид y = 423,5 + 93,05 x1 − 17,5 x2 + 27,04 x12 . Проверим адекватность полученной модели согласно методике, изложенной в п. 3.5. Вначале определяют значения отклика ŷj, по полученной модели для каждого j опыта. С этой целью в уравнение регрессии подставляют значения факторов x1 и x2, соответствующие каждому из опытов плана. Результаты расчетов значений функции отклика приведены в шестом столбце табл. 4.10. Далее по формуле (4.35) вычисляем сумму квадратов, характеризующую адекватность модели N
(
Saд = n∑ y j − yˆ
(
j =1
)
2
=
= 50 ( 475 − 468,03) + ( 364 − 374,99 ) + ... + ( 418 − 423, 48 ) 2
2
= 50 ⋅ 1245,33 ≈ 6626,5. 91
2
)=
Затем рассчитываем: число степеней свободы fад = N – p = 17 (где p – количество коэффициентов уравнения регрессии); дисперсию адекватности по формуле s 66266,5 2 saд aд 38980, 29. faд 17 Расчетное значение критерия Фишера 2
Fрасч= saд
/ s 2 y =1,88.
Зададимся уровнем значимости q = 0,01. Из таблицы значений критерия Фишера для значений fад = 17 и fy = 168 Fрасч = 1,95. Полученное соотношение Fрасч
92
5. ПОСТРОЕНИЕ МНОГОФАКТОРНОЙ ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ В EXCEL
Представленный алгоритм построения регрессионной модели практично реализован программно в многофункциональной программе EXCEL. Для практического освоения этой программы построения многофакторного линейного уравнения регрессии рассмотрим пример. Построение линейной функции выполняется с помощью метода наименьших квадратов (МНК). Основные параметры диалогового окна: входной интервал y – массив анализируемых зависимых данных (массив должен состоять из одного столбца числовых значений); входной массив Х – числовые значения независимых данных (представленные соседними столбцами), подлежащих анализу, Excel располагает независимые переменные этого массива чисел слева направо в порядке возрастания. Программный продукт позволяет сформировать и нелинейную функцию. Например, для случая двух переменных у(X1, X2) = B0 + B1 X1 + B2 X2 + B3 X 12 + B4 X 22 + B5 X1, X2 формируется массив (столбцы), содержащий числовые значения X 12 , X 22 , X1, X2, рядом с массивом значений X1, X2. Пример. Необходимо построить уравнение регрессии между исходной концентрацией микроорганизмов X1, плотностью потока лазерного излучения X2, концентрацией фотосенсибилизатора X3 и количеством выживших микроорганизмов y (задача оптимизации режима фотодинамической терапии). Для решения этой задачи в меню Excel, в разделе «Регрессия» введем исходные данные, представленные графически на рис. 5.1. Проводимые в работе экспериментальные исследования влияния физико-химических факторов на гибель четырех видов микроорганизмов с различной исходной их концентрацией с целью выбора оптимального физиотерапевтического режима при фотодинамической терапии показали в интервале их варьирования ярко выраженную экспоненциальную кинетику, а также наличие экстремального значения концентрации ФС. 93
Кинетика гибели микроорганизмов синегнойной палочки от плотности потока лазерного излучения для трех значений исходной концентрации (С1,С2,С3) и четырех значений ФС
40000000
35000000
30000000 С1 С2
Значение КОЕ
25000000
С3
20000000
15000000
10000000
5000000
5 10 15 20 25 30 5 10 15 20 25 30 5 10 15 20 25 30 5 10 15 20 25 30
0 Плотность потока лазерного излучения, Дж/см2
Рис. 5.1. График изменения КОЕ от плотности лазерного излучения при различных значения ФС
Отмеченные особенности явились причиной поиска функциональной зависимости КОЕ от варьируемых факторов и исходной концентрации микроорганизмов с целью получения математического выражения для количественного определения фотодинамических параметров, обеспечивающие заданный режим терапии (безопасный). Применение факторного анализа – построение трехфакторной регрессионной – модели показали недостаточно высо94
кую ее адекватность. Потребовалась априорная информация о кинетике протекающих процессов. Кинетика гибели микроорганизмов при воздействии на них внешних физико-химических факторов в общем виде может быть представлена экспоненциальным законом: N = N0exp(–Kτ), где N – количество микроорганизмов в момент времени τ; K – удельная скорость гибели микроорганизмов; N0 – исходное значение количества микроорганизмов. Особенности вида микроорганизмов и влияния различных факторов на характер их гибели должны быть «возложены» на параметр-функцию K. Предварительный анализ экспериментальных значений КОЕпредставления их в графическом виде КОЕ с аппроксимацией экспонентой (линия тренда) подтвердил экспоненциальный характер кинетического процесса гибели микроорганизмов от мощности лазерного потока: КОЕ = С0exp(–FW), где С0 – исходная концентрация микроорганизма; мощность лазерного потка; Е – облученность Дж/м-2, F – кинетический параметр, учитывающий природу микроорганизма и концентрацию фотосенсибилизатора в среде микроорганизма. Проведенный численный анализ данного выражения для КОЕ применительно к полученным экспериментальным данным показал, что характерные особенности микроорганизма и концентрация фотосенсибилизатора должны функционально входить в критерии F и С0, т.е. данные параметры здесь приобретают роль функционалов и являются функциями исходной концентрации микроорганизма и фотосенсибилизатора. Построение кинетических уравнений для исследуемых микроорганизмов проводилось с группированием экспериментальных данных для одного вида микроорганизма при трех исходных концентраций для одной концентрации фотосенсибилизатора. Здесь применялся двухфакторный анализ и строилась двухфакторная регрессионная модель вида ln KOE = B0 + B1lnC0 – B2W, (5.1) 95
где B0, B1, B2 – коэффициенты уравнения регрессии; С0 – исходная концентрация микроорганизма; W – плотность лазерного потока; KOE – количество выживших микроорганизмов. Данная регрессионная модель строилась для одной концентрации фотосенсибилизатора и трех значений исходной концентрации рассматриваемого микроорганизма. Согласно экспериментальным данным, на каждый микроорганизм получали четыре регрессионные уравнения, коэффициенты которых отражали роль концентрации фотосенсибилизатора. Графический анализ численных значений КОЕ в зависимости от концентрации фотосенсибилизатора показал параболическую их зависимость с наличием экстремальной точки КОЕ. Роль изменения концентрации фотосенсибилизатора была включена в коэффициенты B0, B1, B2 как Bi= A0 + A1lnFS + A2(ln FS)2 + A3(lnFS)3, где A0, A1, A2, A3 – коэффициенты аппроксимации; FS – концентрация фотосенсибилизатора. Обобщенные коэффициенты B0, B1, B2, подставленные в уравнение (5.1), и представляли кинетическую зависимость исследуемого микроорганизма от исходной их концентрации, мощности лазерного потока и концентрации фотосенсибилизатора в исследуемых интервалах варьирования факторов. Кинетические уравнения для исследуемых микроорганизмов: ln KOE = B0 + B1lnC0 – B2W, для которого B0 = A1 (lnFS)3 + A2(lnFS)2 + A3(lnFS) + A4; B1 = K1(lnFS)3 + K2(lnFS)2 + K3(lnFs) + K4; B2 = D1(lnFS)3 + D2(lnFS)2 + D3(lnFs) + D4.
96
6. КУЛЬТУРА ПРЕДСТАВЛЕНИЯ ЧИСЛОВЫХ ЗНАЧЕНИЙ ИЗМЕРЕНИЙ И ВЫЧИСЛЕНИЙ
Основой всего естествознания являются наблюдения и эксперименты. Особое значение имеют наблюдения и эксперименты, дающие числа – результаты измерений. Все результаты измерений содержат ошибки различного происхождения. Поэтому результаты вычислений с числами, результаты измерений, также содержат ошибки. Очень существенно для практики уметь оценивать как ошибки самих результатов измерений, так и результатов действий над ними, ибо только в этом случае можно с достаточной уверенностью пользоваться выводами из наблюдений. Не менее важна такая организация вычислений и наблюдений, которая обеспечивает по возможности малую ошибку результата. Из этих замечаний ясно, что обработка результатов наблюдений не может выполняться любым способом. Чтобы результаты содержали как можно меньшие ошибки, должны быть применены оптимальные методы оценок ошибок, методы вычислительных работ, обеспечивающие возможно более точные результаты. Обычные результаты измерений всегда являются приближенными и, прежде всего, вследствие ограниченной точности измерительных приборов. Точное числовое значение измеряемой величины существует как объективная реальность, не зависящая от нас, а измерение дает какое-то другое значение с ограниченной ошибкой (модуль ошибки). Типичные составляющие погрешности измерений:
А.1. Методические составляющие погрешности измерений. А.1.1. Неадекватность контролируемому объекту модели, параметры которой принимаются в качестве измеряемых величин. А.1.2. Отклонения от принятых значений аргументов функции, связывающей измеряемую величину с величиной на «входе» средства измерений (первичного измерительного преобразователя). 97
А.1.3. Отклонения от принятых значений разницы между значениями измеряемой величины на входе средства измерений и в точке отбора. А.1.4. Погрешность из-за эффектов квантования. А.1.5. Отличие алгоритма вычислений от функции, строго связывающей результаты наблюдений с измеряемой величиной. А.1.6. Погрешности, возникающие при отборе и приготовлении проб. А.1.7. Погрешности, вызываемые мешающим влиянием факторов пробы (мешающие компоненты пробы, дисперсность, пористость и т.п.). А.2. Инструментальные составляющие погрешности измерений. А.2.1. Основные погрешности и дополнительные статические погрешности средств измерений, вызываемые медленно меняющимися внешними влияющими величинами. А.2.2. Погрешности, вызываемые ограниченной разрешающей способностью средств измерений. А.2.3. Динамические погрешности средств измерений (погрешности, вызываемые инерционными свойствами средств измерений). А.2.4. Погрешности, вызываемые взаимодействием средства измерений с объектом измерений и подключаемыми на его вход или выход средствами измерений. А.2.5. Погрешности передачи измерительной информации. А.3. Погрешности, вносимые оператором (субъективные погрешности). А.3.1. Погрешности считывания значений измеряемой величины со шкал и диаграмм. А.3.2. Погрешности обработки диаграмм без применения технических средств (при усреднении, суммировании измеренных значений и т.п.). А.3.3. Погрешности, вызванные воздействием оператора на объект и средства измерений (искажения температурного поля, механические воздействия и т.п.). 98
Анализ составляющих погрешности измерений может быть выполнен по рекомендациям (МИ 1967-89 ГСИ). Рассчитывая перечисленные погрешности измерений по формулам, их значения можно получать с огромным «хвостом» числа знаков. Однако исходными данными для расчета являются нормируемые значения погрешности средств измерения, которые указываются всего с одной или двумя значащими цифрами. Вследствие этого и в окончательном значении рассчитанной погрешности должны быть оставлены только первые одна–две значащие цифры. При этом приходится учитывать, что если полученное число начинается с цифр 1 или 2, то отбрасывание второго знака приводит к очень большой ошибке (до 30–50 %), что недопустимо. Если же полученное число начинается, например, с цифры 9, то сохранение второго знака, т.е. указание погрешности, например 0,94 вместо 0,9, является дезинформацией, так как исходные данные не обеспечивают такой точности. Исходя из этого на практике установилось следующее правило: если полученное число начинается с цифры, равной или большей, чем 10 ~ 3, то в нем сохраняется лишь один знак; если же оно начинается с цифр, меньших 3, т.е. с цифр 1 и 2, то в нем сохраняют два знака. В соответствии с этим правилом установлены и нормируемые значения погрешностей средств измерений: в числах 1,5 и 2,5 % указываются два знака, но в числах 0,5; 4; 6 % указывается лишь один знак. В итоге можно сформулировать следующие три правила округления рассчитанного значения погрешности и полученного экспериментального результата измерения. 1. Погрешность результата измерения указывается двумя значащими цифрами, если первая из них равна 1 или 2, и одной – если первая есть 3 и более. 2. Результат измерения округляется до того же десятичного разряда, которым оканчивается округленное значение абсолютной погрешности. 3. Округление производится лишь в окончательном ответе, а все предварительные вычисления проводят с одним – двумя лишними знаками. 99
7. КОНТРОЛЬНОЕ ЗАДАНИЕ
Для закрепления представленного в пособии материала и приобретения практического навыка применения программного обеспечения Excel для обработки данных мониторинга предлагаются варианты самостоятельной работы. Работа выполняется письменно с обоснованием всех ответов на поставленные вопросы в задании. Задание. По экспериментальным данным исследуемого процесса построить его математическую модель, позволяющую оптимизировать процесс наблюдений, прогнозировать результаты, оценивать вес факторов процесса. Для этого необходимо проверить исходные данные на промахи и принадлежность их одной выборки, определить корреляционную зависимость значений отклика от факторов исследуемого процесса. Выбрать вид уравнения регрессии. Провести преобразование факторов (ввести нормализованные факторы). Построить матрицу планирования и найти значения коэффициентов уравнения регрессии. Провести статистический анализ уравнения регрессии (определить дисперсию воспроизводимости, значимость коэффициентов уравнения регрессии, проверить адекватность регрессионной модели). В качестве объекта исследования рассматривается химикотехнологический процесс, обеспечивающий выход целевого продукта у с различными технологическими факторами: Х1 , Х2 и Х3. Результаты мониторинга процесса для построения регрессионной модели по 4 вариантам с дублированием выходного параметра у представлены в табл. 7.1–7.2.
100
Таблица 7.1 Варианты результатов фактора х в эксперименте
Х1 для вариантов 1 2 3 4 235 15 6 0,1 265 21 18 0,2 235 15 30 0,1 265 21 6 0,2 235 18 0,1 265 15 30 0,2 235 21 0,1 265 0,2
Номер опыта 1 2 3 4 5 6 7 8
Х2 для вариантов 1 2 3 4 0,25 2 40 2 0,25 2 40 2 0,35 8 40 4 0,35 8 80 4 0,25 2 80 2 0,25 2 80 2 0,35 8 4 0,35 8 4
Х3 для вариантов 1 2 3 4 0,40 0,04 10 0,40 0,04 10 0,40 0,04 10 0,40 0,04 10 0,60 0,1 20 0,60 0,1 20 0,60 0,1 20 0,60 0,1 20
Таблица 7.2 Варианты результатов выходного параметра у в эксперименте Номер опыта 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
у1i 14,6 44,8 12,6 51,3 7,6 27,6 8,2 26,2
13,9 45,3 11,9 52,1 6,9 26,9 7,9 26,0
8,5 5,6 2,5 7,5 4,0 2,0
7,5 5,2 3,0 7,1 4,2 1,9
14,1 46,1 12,2 55,3 8,1 27,1 8,1 27,1 у3i 9,5 5,1 3,5 7,0 4,1 2,1
у2i 15,6 45,0 12,8 49,3 7,4 26,6 8,4 26,6
15,6 45,1 13,1 51,4 7,8 28,2 8,0 26,2
0,9 2,3 1,3 4,3 0,8 0,2 1,8 7,4
1,0 2,1 1,2 4,9 0,7 0,1 1,9 6,9
9,5 5,5 2,5 6,9 4,5 2,2
8,5 5,8 3,5 7,8 4,3 1,8
13 14 20 22 15 16 23 25
12 15 22 24 14 14 24 24
101
0,8 2,0 1,1 4,2 0,8 0,2 1,7 7,2 у4i 11 13 21 25 16 17 22 23
1,0 2,4 1,3 4,1 0,7 0,2 1,8 7,1
0,9 2,3 1,4 4,8 0,9 0,1 1,7 6,8
14 14 20 26 14 16 26 26
13 14 19 23 17 15 22 24
ПРИЛОЖЕНИЯ
1. МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПРИ ОЦЕНКЕ СОСТОЯНИЯ ЗАГРЯЗНЕНИЯ АТМОСФЕРЫ НАСЕЛЕННЫХ МЕСТ
Данные наблюдений за концентрациями примесей (qi) на стационарных и маршрутных постах, а также под факелами промышленных предприятий рассматриваются как совокупность случайных величин – единичных разовых показателей загрязнения атмосферы. Для систематизации и оценки уровня загрязнения атмосферы за рассматриваемый период обычно применяются следующие статистические характеристики: среднее арифметическое значение концентрации примеси q ; среднее квадратичное отклонение σ результатов измерений от среднего арифметического; максимальное значение концентрации примеси qм; коэффициент вариации V = σ / q , показывающий долю изменчивости от среднего арифметического значения. Среднее арифметическое значение концентрации примеси является единичным осредненным (основным) показателем загрязнения атмосферы. Результаты многих исследований показали, что данные измерений концентраций примесей в приземном слое атмосферы городов с достаточной точностью соответствуют логарифмически нормальному распределению. По ряду наблюдений проверяют гипотезу о том, что результаты наблюдений относятся к логарифмически нормальному распределению, и вычисляют показатели логнормального распределения, а также значения максимальной концентрации с заданной вероятностью превышения. В соответствии с объемом данных наблюдений и необходимостью расчета фоновой 102
концентрации примеси рассчитывают максимальные концентрации
( q , q , q ) с вероятностью превышения в 1,5 и 0,1 %. 1 м
5 м
0,1 м
Все статистические характеристики рассчитываются для различного осреднения по времени и пространству по ниже представленному алгоритму в таблице П.1. Основным критерием качества атмосферного воздуха являются предельно допустимые концентрации (ПДК), утвержденные Минздравом России. Поэтому для оценки состояния или степени загрязнения атмосферы используются единичные осредненные показатели загрязнения атмосферы, нормированные на ПДК соответствующего периода осреднения. Устанавливают, выполняется ли соотношение qi / ПДК М . Р < 1. Поскольку ПДКС.С (среднесуточные) устанавливались за продолжительный период, проверяют выполнение соотношения qi / ПДК С .С < 1. Нормированные на ПДК единичные осредненные и разовые показатели загрязнения атмосферы называются единичными индексами загрязнения атмосферы (ИЗА). На основании проверки указанного соотношения рассчитывают число случаев (m) (или повторяемость g) концентраций, превышающих ПДК и другие величины, кратные ПДК (например, g1) . Все статистические характеристики и единичные ИЗА рассчитываются по данным наблюдений за концентрацией каждого контролируемого вещества отдельно. Для сравнения степени загрязнения атмосферы в различных городах используется комплексный ИЗА – безразмерная функция характеристик степени загрязнения атмосферы несколькими веществами. Комплексный ИЗА, учитывающий l веществ, присутствующих в атмосфере, рассчитываются по формуле l
(
I ( l ) = ∑ I i = ∑ q / ПДК С .С i =1
)
Ri
, i
где q – осредненная по времени (месяц и год), рассчитанная для поста, города или группы городов концентрация i-й примеси; Ri– 103
безразмерная константа, позволяющая привести степень вредности i-го вещества к вредности диоксида серы. Расчет индекса загрязнения атмосферы основан на предположении, что на уровне ПДК все вредные вещества характеризуются одинаковым влиянием на человека, а при дальнейшем увеличении концентрации степень их вредности возрастает с различной скоростью, которая зависит от класса опасности вещества. Для сравнения степени ИЗА для каждого i-го вещества Ii. Значения индексов Ii рассчитываются на ЭВМ. Затем составляется убывающий вариационный ряд величины Ii. Для каждого города рассчитывается комплексный ИЗА – I(l), учитывающий l первых веществ в этом ряду. Таблица П.1 Статистические характеристики загрязнения атмосферы (ЗА) ОбоМетод знаОпределение Использование черасчета ние 1. Основной единичный показатель ЗА отдельной примесью qi (мг/м3, мкг/м3) Разовая Концентрация qi Определяется путем 20– Для сравнения с концентра- примеси, изме30-минутного отбора санитарнопроб по программе на- гигиеническими ция примеси ренная за 20–30 блюдений, установлен- нормативами; (ГОСТ мин ной в ГОСТ 17.2.3.01-86 для дальнейших 17.2.1.03-84) расчетов Характеристика
2. Осредненные показатели ЗА отдельной примесью 2.1. Единичные показатели ЗА в точке отбора проб q (мг/м3, мкг/м3) 1) Среднесуточная концентрация примеси (ГОСТ 17.2.1.03-84)
Среднее арифметическое значение разовых концентраций, полученных через равные промежутки времени, включая обязательные сроки 1; 7; 13; 19 ч, а также значение концентрации,
qc
Для сравнения с санитарноqc = i =1 , гигиеническими n нормативами; где n – число разовых для дальнейших концентраций, измерен- расчетов ных за одни сутки n
∑ qi
104
Продолжение табл. П.1 Характеристика
Определение
полученное по данным непрерывной регистрации в течение суток (ГОСТ 17.2.3.01-86) 2) Средне- Среднее арифмемесячная тическое значеконцентра- ние разовых или ция приме- среднесуточных си (ГОСТ концентраций, 17.2.1.03измеренных в 84) течение месяца (ГОСТ 17.2.3.0186)
Обозначение
qмес
3) Среднегодовая концентрация примеси (ГОСТ 17.2.1.0384)
Среднее арифметическое значение разовых или среднесуточных концентраций, измеренных в течение года (ГОСТ 17.2.3.01-86)
qг
4) Средняя многолетняя концентрация примеси (ГОСТ 17.2.1.0384)
Среднее арифметическое значение разовых или среднесуточных концентраций, полученных за ряд лет
qi
Метод расчета
Использование
1 L ∑ ql L l =1 где n – число разовых или среднесуточных концентраций, полученных в течение i-го месяца (n ≥ 20 в месяц для разовых) qм =
t
n
qг =
(q j n j ) ∑ qi ∑ j =1 i =1
n
=
t
∑nj
,
j =1
где n – число разовых или среднесуточных концентраций за год (n ≥ 200 в год для разовых); qi – среднемесячная концентрация за j-й месяц; nj – число разовых или среднесуточных концентраций за месяц
При составлении справок о состоянии ЗА в течение месяца в районе наблюдений; для оценки однородности рядов наблюдений анализа годового хода изменений концентраций примеси; для дальнейших расчетов При составлении справок и обзоров состояния ЗА в течение года в районе наблюдений; для сравнения с санитарногигиеническими нормативами; для дальнейших расчетов
При составлении территориальi =1 ных комплексгде n – число разовых ных схем, расчеили среднесуточных тах фоновых концентраций за М лет; концентраций в районе наблю105 n
qi = ∑ qi / n
Продолжение табл. П.1 Характеристика
Определение
Обозначение
Метод расчета
Использование
M
n = ∑ N , N – число
дений
m =1
разовых или среднесуточных концентраций за год 5) Среднегодовая концентрация примеси по данным подфакельных наблюдений
Расчетная вели- q под чина, полученная исходя из предположения логнормального распределения концентраций qi, по данным подфакельных наблюдений
q под = 1, 2 П z Pd qм ,
где Пz – ПЗА; qм – максимальная концентрация, отмеченная при dм направлении ветра; Рd – повторяемость d-го направления ветра
Для обобщения данных наблюдений за содержанием специфических примесей в воздухе с целью определения зоны влияния отдельного источника выбросов и разработки территориально-комплексных схем
2.2. Единичные показатели ЗА по совокупности точек отбора проб Q (мг/м3, мкг/м3) K 1) Средне- Среднее арифме- Qc При составлении ∑ (qcn) справок о сосуточная тическое значеконцентра- ние среднесуточстоянии ЗА за Qc = k =1K , ция приме- ных концентрамесяц n ∑ си для го- ций примеси по k =1 рода (рай- данным K стагде n – число наблюдеона города) ционарных и ний на k-м посту за 1 маршрутных посутки, k = 1, 2,…, K стов K 2) Средне- Среднее арифме- Qмес То же ∑ q месnk месячная тическое значение концентра- концентраций Qмес = k =1 K ция приме- примеси, полу∑ nk си для го- ченное из среднеk =1 рода (рай- месячных конценгде nk – число наблюона города) траций на стациодений на k-м посту за нарных и мар1 месяц, k = 1, 2,…, K шрутных постах
(
106
)
Продолжение табл. П.1 Характеристика 3) Среднегодовая концентрация примеси для города (района города)
Определение
Обозначение
Среднее арифме- Qг тическое значение среднегодовых концентраций примеси, полученных по K постам в городе
Метод расчета
Использование
K
Qг =
∑ (qг n) k =1 K
∑n
=
k =1
K
J
∑∑ (q j n j ) =
k =1 j =1 K t
∑∑ n j
,
k =1 j =1
где n – количество наблюдений на k-м посту за год; nj – количество наблюдений на k-м посту за j-й месяц, k = 1, 2, …, K; J – число месяцев за год с наблюдениями за уровнем ЗА 4) Средняя многолетняя концентрация примеси для города (района города)
Среднее арифме- Qмн тическое значение среднегодовых концентраций примеси, полученных из однородного ряда наблюдений за несколько лет по К постам в городе
При составлении справок и обзоров состояния ЗА; для сравнения с санитарногигиеническими нормативами, со средним уровнем ЗА по городам; для дальнейших расчетов комплексных показателей ЗА; для изучения тенденции изменения уровня ЗА в городе
При разработке методик и составления кратQмн = k =1 K косрочных и ∑ nk долгосрочных k =1 ЗА где n – количество на- прогнозов города, территоблюдений на k-м посту за рассматриваемый риальных комплексных схем; период, k = 1, 2,…, K в теоретических исследованиях; как критерий оценки достоверности информации в АСОИЗА K
∑ ( q мн n )
2.3. Единичный показатель состояния ЗА для группы городов Q (мг/м3, мкг/м3) Среднего- Среднее арифме- Q Для сравнитель1 L г Qг = ∑ Q довая кон- тическое значеной оценки ЗА L l =1 центрация ние отдельных горо107
Продолжение табл. П1 Характеристика
Определение
Обозначение
Метод расчета
примеси для среднегодовых городов, концентраций объединен- примеси, полуных в груп- ченных по L горопы по раз- дам рассматриличным ваемой группы признакам (численности населения, ведомственной принадлежности основных источников ЗА в городе, республиканской принадлежности) и в целом для городов России
Использование дов
3. Среднее квадратичное отклонение
1) Среднее квадратичное отклонение разовых (среднесуточных) концентраций от среднемесячных
3.1. Среднее квадратичное отклонение ряда qi, полученного на отдельных постах σ (мг/м3, мкг/м3) Статистическая Для получения σi n характеристика ∑ (qi − qмес ) информации об ряда случайных изменчивости σi = i =1 , n −1 величин: разовых среднего; для или среднесуточгде n – число наблюде- статистического ных концентраанализа распрений ций, полученных деления конценна стационарном траций или маршрутном посту, позволяющая оценить разброс концентраций относительно среднемесячного значения 108
Продолжение табл. П.1 ОбоХарактеризнаОпределение честика ние 2) Среднее То же относи- σ квадратич- тельно среднегоное откло- дового значения нение разовых концентраций от среднегодовой
Метод расчета
Использование То же
n
σ=
∑ (qi − q‹ )2 i =1
n −1
,
J
σ=
∑ σi 2 (n j − 1) j =1 J
∑ (n j − 1)
,
j =1
nj – число наблюдений за год, за j-й месяц 3) Среднее квадратичное отклонение среднемесячной концентрации от среднегодовой
Статистическая σj характеристика ряда величин, позволяющая оценить разброс среднемесячных концентраций, полученных на стационарном или маршрутном постах, относительно среднегодового значения
Для описания изменчивости j =1 среднемесячных σj = , J −1 концентраций j – число месяцев за относительно год с наблюдениями за среднегодового значения ЗА
4) Среднее квадратичное отклонение среднемесячных концентраций от средней многолетней
Статистическая σjм характеристика ряда величин, позволяющая оценить разброс среднемесячных концентраций, полученных на стационарном или маршрутном постах, относительно среднего многолетнего значения
Для различных статистических j =1 σ jм = , разработок, соJ −1 ставления проJ – число месяцев за M гнозов, создания лет с наблюдениями за территориальЗА; q мн – среднегодовая ных комплексных схем концентрация i-го года
J
∑ (q j − qг )2
J
∑ (q j − qмн )2
109
Продолжение табл. П.1 Характеристика 5) Среднее квадратичное отклонение среднегодовых концентраций от средней многолетней на посту наблюдения
Определение Статистическая характеристика ряда, позволяющая оценить разброс среднегодовых концентраций относительно средней за M лет
Обозначение σмн
Метод расчета
∑( q М
σмн =
м
− qМ
м
Использование
)
2
То же
М −1
3.2. Среднее квадратичное отклонение ряда концентраций, полученных для группы точек отбора проб в городе S (мг/м3, мкг/м3) Sгр При статистиче1) Среднее Статистическая K 2 квадратич- характеристика, ( qk −Qa ) ском анализе ∑ ное откло- позволяющая изменчивости Sгр = k=1 , K −1 нение сред- оценить разброс поля концентранегодовых среднегодовых ции примеси где k = 1, 2, …, K концентра- концентраций qk ций на по- на постах относистах от сред- тельно среднегонегодовой дового значения концентрапо K постам гоции по города роду (району) 2) Среднее Статистическая То же Sмн K 2 квадратич- характеристика, ∑ qгк −Qмн ное откло- позволяющая , Sмн = k=1 K −1 нение сред- оценить разброс негодовых средне годовых концентра- концентраций на где k = 1, 2, …, K ций на по- постах от среднестах от го многолетнего средней значения конценмноголетней трации по K поконцентрастам города ции по городу (району)
(
110
)
Продолжение табл. П.1 Обозначение
Характеристика
Определение
3) Среднее квадратичное отклонение разовых концентраций от среднегодовой концентрации по городу (району)
Статистическая характеристика, позволяющая оценить разброс разовых концентраций, измеренных за год, относительно среднегодовог о значения по K постам города Статистическая характеристика, позволяющая оценить разброс среднегодовых концентраций для города от среднегодовой концентрации для группы городов L
Si
Статистическая характеристика, позволяющая оценить разброс максимальных концентраций qм в городе за
Sм
4) Среднее квадратичное отклонение среднегодовых концентраций для города от среднегодовой концентрации для группы городов, объединенных по различным признакам (численности населения, ведомственной принадлежности основных источников ЗА в городе, республиканской принадлежности) и в целом по городам РФ 5) Среднее квадратичное отклонение максимальных концентраций примеси для города за год от средней из максимальных
Метод расчета
∑(q K
Si =
k =1 K
− Qi
k
∑(n
k
k =1
Использование
)
2
В ежегодных обобщениях состояния ЗА
− 1)
где n — число наблюдений на k-м посту города за год, k = 1, 2, …, K
S
∑ (Q − Q ) L
S=
2
г
L −1
∑(q L
Sм =
111
l =1
l
l =1
l
− qм
L −1
)
2
То же
Продолжение табл. П.1 Характеристика
Определение
Обозначение
Метод расчета
год от средней из максимальных концентраций qм примеси за год по группе городов L 3.2 Коэффициент вариации V (безразмерный) СтатистичеV Коэффициент σ V= , вариации кон- ская характеq ристика ряда центраций где q — средняя конконцентраций центрация примеси за период
Использование
концентраций примеси за год по группе городов
Для оценки степени изменчивости концентраций примеси в ежегодных обобщениях
4. Максимальные показатели ЗА отдельной примесью 4.1. Максимальная концентрация примеси по данным наблюдений
1) Максимальная из разовых концентрация примеси (ГОСТ 17.2.1.03-84)
Максимальное значение из разовых концентраций примеси из всех данных измерений в отдельной точке или в различных точках города за рассматриваемый период: в течение суток, месяца, года, ряда лет
qм
Максимальное значение ряда концентраций выбирается как наибольшее значение из вариационного убывающего ряда за рассматриваемый период на отдельном посту или на ряде постов в городе по данным за сутки, месяц, все месяцы года, все годы
112
Для сравнения с санитарно-гигиеническими нормативами с целью характеристики наибольшего за рассматриваемый период времени (сутки, месяц, год, ряд лет) ЗА в реально наблюдавшихся метеорологических условиях распространения примеси от источников выбросов; как критерий максимального значения при критконтроле в АСОИЗА
Продолжение табл. П.1 Характеристика
Определение
Обозначение
2) Максимальная из среднесуточных концентрация
—
q см
3) Максимальная из разовых концентрация по данным подфакельных наблюдений
—
4) Максимальная из среднемесячных концентрация (ГОСТ 17.2.1.03-84)
—
qмк
5) Максимальная из среднегодовых концентрация примеси по группе городов
—
Q гм
qпод
Метод расчета
Выбирается как наибольшее значение из убывающего вариационного ряда среднесуточных концентраций по данным за рассматриваемый период Выбирается как наибольшее значение из убывающего вариационного ряда наблюдений за содержанием примеси под факелом выбросов в городе за год Выбирается как наибольшее значение из убывающего вариационного ряда среднемесячных концентраций по данным за год или ряд лет в городе
Выбирается как наибольшее значение из убывающего ряда среднегодовых концентраций в городах рассматриваемой группы
113
Использование
Для оценки состояния ЗА веществами, концентрации которых определяются при непрерывной регистрации в течение суток Для оценки вклада отдельного источника в уровень ЗА данной примесью
Для оценки состояния ЗА веществами, концентрации которых определяются за период не менее месяца, а также для оценки однородности рассматриваемого ряда наблюдений за концентрациями примесей В ежегодном обобщении информации о состоянии ЗА в городах и промышленных центрах для выбора городов с наибольшим максимальным уровнем ЗА
Продолжение табл. П.1 Обозначение
Характеристика
Определение
6) Средняя из максимальных за год по группе городов
Среднее арифметическое значение концентрации примеси, полученное из максимальных концентраций за год по отдельным L городам
7) Максимальная концентрация из малого числа наблюдений
Максимальная q* макс из разовых концентрация примеси, полученная из данных экспедиционных (эпизодических) обследований населенного пункта
Метод расчета
qм
qм =
1 L ∑ ql L l =1
Выбирается как наибольшее значение из убывающего вариационного ряда разовых концентраций, полученных в населенном пункте при общем количестве измерений не менее 50 за год
Использование
Для оценки изменений максимальной концентрации в городах различных групп
Для ориентировочной оценки уровня ЗА населенного пункта
4.2 Расчетная максимальная концентрация (мг/м3, мкг/м3) примеси
1) Максимальная концентрация примеси с заданной вероятностью P ее превышения
Максимальная концентрация, полученная из предположения логнормального распределения концентраций примеси в атмосфере для заданной вероятности ее превышения
q мР
qмР = =
q ⋅ exp z ln(1 + V 2 ) 1+V 2
при P = 0,1% z = 3,08; P = 1 % z = 2,33; P = 5 % z = 1,65. Здесь q — средняя концентрация
114
Используется для оценки вероятности появления концентраций, превышающих заданный уровень ЗА
Окончание табл. П.1 Характеристика
Определение
Обозначение
2) Фоновая концентрация (ГОСТ 17.2.1.0384)
Концентрация Сф примеси, создаваемая всеми источниками выбросов, исключая рассматриваемый
3) Приземная максимальная концентрация примеси
Расчетная концентрация в приземном слое воздуха, создаваемая отдельным источником выбросов
Метод расчета
Сф = qмн
(
1 1+V 2
Использование
×
×exp 1,65 1 + V 2
См
Рассчитывается [10]
)
При установлении ПДВ; при проектировании строительства новых и реконструкции действующих объектов промышленности по При установлении ПДВ; для характеристики степени ЗА, создаваемого выбросами промышленных предприятий на некотором расстоянии от источника при неблагоприятных метеоусловиях
5. Санитарно-гигиенический норматив (мг/м3, мкг/м3)
1) Предельно допустимая концентрация примесей для населенных мест: максимальная разовая и среднесуточная
Максимальная ПДКм Определяется орга- Для оценки концентрация ПДКс нами Минздрава для степени загрязпримеси в атмосферного возду- нения ха населенных мест атмосфере, при периодическом воздействии не оказывающая вредного влияния на человека и окружающую среду
115
Таблица П.2 Индексы загрязнения атмосферы
Характеристика
Определение
Обоз начение
Метод расчета
Использование
Единичные индексы ЗА одной примесью (безразмерные) 1. Коэффициент для выражения концентрации примеси в единицах ПДК
Значение максимальной или средней концентрации, приведенное к ПДК
а
2. Повторяемость концентраций примеси в воздухе выше заданного уровня по посту либо по K постам города за год
Повторяемость (%) случаев превышения заданного уровня разовыми значениями концентрации примеси
g, g1
m ⋅ 100, n m g1 = 1 ⋅ 100, n n – число наблюдений за рассматриваемый период; т, т1, т2 – число случаев превышения разовыми концентрациями на посту или на всех постах города уровня а·ПДК, где а равно соответственно 1, 5, 10
3. Индекс загрязнения атмосферы (ИЗА) отдельной примесью
Количественная характеристика уровня ЗА отдельной примесью,
Ii
⎛ Qг ⎞ i Ii = ⎜ ⎟ ⎝ ПДК с.с ⎠i или
а=
Концентрация ПДК
g=
C
С
⎛ qг ⎞ i I i = ⎜⎜ ⎟⎟ ⎝ ПДК с.с ⎠i 116
Используется как критерий качества атмосферного воздуха отдельными примесями (при необходимости могут использоваться ПДК для растительности, воздуха рабочей зоны предприятий и пр.) При составлении справок и обзоров состояния ЗА
Для характеристики вклада отдельных примесей в общий уровень ЗА за данный период времени на
Окончание табл. П.2 Обоз ХарактеристиОпределение нака чение учитывающая различие в скорости возрастания степени вредности веществ, приведенной к вредности диоксида серы, по мере увеличения превышения ПДК
Метод расчета
Использование
i – примесь; Сi – константа, принимающая значения 1,7; 1,3; 1,0; 0,9 для соответственно 1, 2, 3, 4-го классов опасности веществ, позволяющая привести степень вредности i-го вещества к степени вредности диоксида серы
данной территории или в точке измерения; для сравнения степени загрязнения атмосферы различными веществами
Комплексный показатель ЗА несколькими веществами (безразмерный) 1. Комплексный индекс загрязнения ат-мосферы городов (КИЗА)
Количественная характеристика уровня ЗА, создаваемого n веществами, присутствующими в атмосфере города (района города)
2. Комплексный индекс загрязнения атмосферы приоритетными веществами
Количественная характеристика уровня ЗА приоритетными l веществами, определяющими состояние загрязнения атмосферы в городе
n
I n = ∑ Ii
In
i =1
i – примесь; n – количество рассматриваемых примесей. Рассчитывается за рассматриваемый период по одному или K постам города как сумма всех ИЗА n
Il = ∑ Ii
Il
i =1
117
При составлении справок и обзоров состояния ЗА
Для сравнения уровней ЗА в различных городах или регионах и составления приоритетных списков городов с наибольшим уровнем ЗА
118
4,75
4,67
4,6
4,54
12
13
14
15
5,12
9
4,96
5,32
8
4,84
5,59
7
11
5,99
6
10
6,61
6,94
7,71
5
9,55
10,13
3 4
3,68
3,74
3,81
3,89
3,98
4,1
4,26
4,46
4,74
5,14
5,79
19
18,51
2
200
2
161
1
1
f1
3,29
3,34
3,41
3,49
3,59
3,71
3,86
4,07
4,35
4,76
5,41
6,59
9,28
19,16
216
3
3,06
3,11
3,18
3,26
3,36
3,48
3,63
3,84
4,12
4,53
5,19
6,39
9,12
19,25
225
4
2,9
2,96
3,03
3,11
3,2
3,33
3,48
3,69
3,97
4,39
5,05
6,26
9,01
19,3
230
5
2,79
2,85
2,92
3
3,09
3,22
3,37
3,58
3,87
4,28
2,71
2,76
2,83
2,91
3,01
3,14
3,29
3,5
3,79
4,21
4,88
6,09
4,95
8,89
6,16
19,35
237
7
8,94
19,33
234
6
f2
2,64
2,7
2,77
2,85
2,95
3,07
3,23
3,44
3,73
4,15
4,82
6,04
8,85
19,37
239
8
2,59
2,65
2,71
2,8
2,9
3,02
3,18
3,39
3,68
4,1
4,77
6
8,81
19,38
241
9
2,54
2,6
2,67
2,75
2,85
2,98
3,14
3,35
3,64
4,06
4,74
5,94
8,79
19,4
242
10
2,48
2,53
2,6
2,69
2,79
2,91
3,07
3,28
3,57
4
4,68
5,91
8,74
19,41
244
12
2,4
2,46
2,53
2,62
2,72
2,85
3,01
3,22
3,51
3,94
4,62
5,86
8,7
19,43
246
15
2,33
2,39
2,46
2,54
2,65
2,77
2,94
3,15
3,44
3,87
4,56
5,8
8,66
19,45
248
20
(f1 – число степеней свободы большей дисперсии, f2 – число степеней свободы меньшей дисперсии)
2. Значения критерия Фишера F при q = 0,05
2,25
2,31
2,38
2,47
2,57
2,7
2,86
3,08
3,38
3,81
4,5
5,75
8,62
19,46
250
30
119
4,49
4,45 4,41 4,38 4,35 4,32 4,3 4,28 4,26 4,24 4,23 4,21 4,2 4,18 4,17 4,08 4 3,92
16
17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
3,59 3,55 3,52 3,49 3,47 3,44 3,42 3,4 3,39 3,37 3,35 3,34 3,33 3,32 3,23 3,15 3,07
3,63 3,2 3,16 3,31 3,1 3,07 3,05 3,03 3,01 2,99 2,98 2,96 2,95 2,93 2,92 2,84 2,76 2,68
3,24 2,96 2,93 2,9 2,87 2,84 2,82 2,8 2,78 2,76 2,74 2,73 2,71 2,7 2,69 2,61 2,53 2,45
3,01 2,81 2,77 2,74 2,71 2,68 2,66 2,64 2,62 2,6 2,59 2,57 2,56 2,55 2,53 2,45 2,37 2,29
2,85
119
2,7 2,66 2,63 2,6 2,57 2,55 2,53 2,51 2,49 2,47 2,46 2,45 2,43 2,42 2,34 2,25 2,17
2,74 2,61 2,58 2,54 2,51 2,49 2,46 2,44 2,42 2,4 2,39 2,37 2,36 2,35 2,33 2,25 2,17 2,09
2,66 2,55 2,51 2,48 2,45 2,42 2,4 2,37 2,36 2,34 2,32 2,31 2,29 2,28 2,27 2,18 2,1 2,02
2,59 2,49 2,46 2,42 2,39 2,37 2,34 2,32 2,3 2,28 2,27 2,25 2,24 2,22 2,21 2,12 2,04 1,96
2,54 2,45 2,41 2,38 2,35 2,32 2,3 2,27 2,25 2,24 2,22 2,2 2,19 2,18 2,16 2,08 1,99 1,91
2,49 2,38 2,34 2,31 2,28 2,25 2,23 2,2 2,18 2,16 2,15 2,13 2,12 2,1 2,09 2 1,92 1,83
2,42 2,31 2,27 2,23 2,2 2,18 2,15 2,13 2,11 2,09 2,07 2,06 2,04 2,03 2,01 1,92 1,84 1,75
2,35 2,23 2,19 2,16 2,12 2,1 2,07 2,05 2,03 2,01 1,99 1,97 1,96 1,94 1,93 1,84 1,75 1,66
2,28
2,15 2,11 2,07 2,04 2,01 1,98 1,96 1,94 1,92 1,9 1,88 1,87 1,85 1,84 1,74 1,65 1,55
2,19
120
Число выборок, m 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120
2 0,98 0,87 0,77 0,68 0,62 0,56 0,52 0,48 0,45 0,39 0,33 0,27 0,24 0,2 0,16 0,11 0,06
1
0,99 0,97 0,91 0,84 0,78 0,73 0,68 0,64 0,6 0,54 0,47 0,39 0,34 0,29 0,24 0,17 0,1
0,94 0,8 0,68 0,6 0,53 0,48 0,44 0,4 0,37 0,33 0,28 0,22 0,19 0,16 0,13 0,09 0,05
3 0,91 0,75 0,63 0,54 0,48 0,43 0,39 0,36 0,33 0,29 0,24 0,19 0,17 0,14 0,11 0,09 0,04
4 0,88 0,71 0,59 0,51 0,44 0,4 0,36 0,33 0,3 0,26 0,22 0,17 0,15 0,12 0,1 0,07 0,04
0,85 0,68 0,56 0,48 0,42 0,37 0,34 0,31 0,28 0,24 0,2 0,16 0,14 0,11 0,09 0,06 0,03
0,83 0,65 0,54 0,46 0,4 0,35 0,32 0,29 0,27 0,23 0,19 0,15 0,13 0,11 0,08 0,06 0,03
0,82 0,63 0,52 0,44 0,38 0,34 0,3 0,28 0,25 0,22 0,18 0,14 0,12 0,1 0,08 0,06 0,03
0,8 0,62 0,5 0,42 0,37 0,33 0,29 0,27 0,24 0,21 0,17 0,13 0,12 0,1 0,07 0,05 0,03
Число степеней свободы выборки, f 5 6 7 8 9 0,79 0,6 0,49 0,41 0,36 0,32 0,28 0,26 0,23 0,2 0,16 0,12 0,11 0,09 0,07 0,05 0,03
10
3. Значения критерия Кохрена G при q = 0,05
0,73 0,55 0,44 0,36 0,31 0,28 0,25 0,22 0,2 0,17 0,14 0,11 0,09 0,08 0,06 0,04 0,02
16 0,66 0,47 0,37 0,31 0,26 0,23 0,2 0,18 0,17 0,14 0,11 0,09 0,07 0,06 0,05 0,03 0,02
36
0,58 0,4 0,31 0,25 0,21 0,18 0,16 0,14 0,13 0,11 0,09 0,07 0,06 0,05 0,03 0,02 0,01
144
Значения критерия χ 2
k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
χ2
0,05 3,84 5,99 7,81 9,49 11,1 12,6 14,1 15,5 16,9 18,3 19,7 21 22,4 23,7 25 26,3 27,6 28,9 30,1 31,4 32,7 33,9 35,2 36,4 37,7 38,9
0,01 6,63 9,21 11,3 13,3 15,1 16,8 18,5 20,1 21,7 23,2 24,7 26,2 27,7 29,1 30,6 32 33,4 34,8 36,2 37,6 38,9 40,3 41,6 43 44,3 45,6
121
k 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
χ2
0,05 40,1 41,3 42,6 43,8 45 46,2 47,4 48,6 49,8 51 52,2 53,4 54,6 55,8 56,9 58,1 59,3 60,5 61,7 62,8 64 65,2 66,3 67,5
0,01 47 48,3 49,6 50,9 52,2 53,5 54,8 56,1 57,3 58,6 59,9 61,2 62,4 63,7 65 66,2 67,5 68,7 70 71,2 72,4 73,7 74,9 76,2
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 1. Зайдель А.Н. Погрешности измерений физических величин. Л.: Наука, 1985. 2. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшая школа, 2003. 3. Лавренчик В.Н. Постановка физического эксперимента и статистическая обработка его результатов. М.: Энергоатомиздат, 1986. 4. Львовский Е.Н. Статистические методы построения эмпирических формул. Учебное пособие для вузов. М.: Высшая школа, 1988. 5. Асатурян В.И. Теория планирования эксперимента: Учебное пособие для вузов. М.: Радио и связь, 1983. 6. Амосов А.А. и др. Вычислительные методы для инженеров. М.: Высшая школа, 1994. 544с. 7. Гринин А.С. и др. Математическое моделирование в экологии: Учебное пособие для вузов М.: ООО «Издательство ЮНИТИ – ДАНА», 2003. 8. Антонов А.В. Системный анализ: Учебник для вузов/ А.В. Антонов. М.: Высшая школа, 2004. 9. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1983. 10. Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников. М.: Физматлит, 2006.
122
Георгий Константинович Игнатенко, Ирина Александровна Сдельникова
СТАТИСТИЧЕСКАЯ ОЦЕНКА ДАННЫХ ЭКОЛОГИЧЕСКОГО МОНИТОРИНГА С ПРИМЕНЕНИЕМ EXCEL
Учебное пособие
Редактор Е.Н. Кочубей Макет подготовлен Е.Н. Кочубей Подписано в печать 10.12.2009. Формат 6084 1/16 Объем 7,75 п.л. Уч. изд. л. 7,75. Тираж 100 экз. Изд. № 2/3/45 Заказ № 21 Национальный исследовательский ядерный университет «МИФИ». 115409, Москва, Каширское шоссе, 31. ООО «Полиграфический комплекс «Курчатовский». 144000, Московская область, г. Электросталь, ул. Красная, д. 42