УДК 378(075): ББК 40.3я73 М55
Рекомендовано Учебно-Методическим Советом по почвоведению при УМО классических университ...
249 downloads
215 Views
3MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
УДК 378(075): ББК 40.3я73 М55
Рекомендовано Учебно-Методическим Советом по почвоведению при УМО классических университетов Российской Федерации в качестве учебного пособия для студентов высших учебных заведений, обучающихся по направлению 020700 – «почвоведение»
Рецензенты: Е.В. Шеин – доктор биологических наук Ю.Н. Благовещенский – доктор физико-математических наук
Ю.Л. Мешалкина, В.П. Самсонова. М55
Математическая статистика в почвоведении: Практикум.- М.: МАКС Пресс, 2008. – 84с. ISBN 978-5-317-02231-0 В пособии представлены задачи, выполняемые студентами ф-та почвоведения МГУ им. М.В.Ломоносова в ходе компьютерных практических занятий по курсу «Математическая статистика». Базовый статистический пакет – STATISTICA 6. Рассматриваются описательные статистики, проверка гипотез о типе распределения, сравнение средних, двухфакторный дисперсионный анализ, регрессионный анализ, кластерный анализ, метод главных компонент, дискриминантный анализ. Включены определения статистических терминов и пояснения выполняемых процедур. Приведены ход решения задач и примеры оформления отчетов, ответы на вопросы семинарских занятий. Для студентов, аспирантов и научных работников, занимающихся вопросами почвоведения, агрохимии и экологии. УДК 378(075): ББК 40.3я73
ISBN 978-5-317-02231-0
© Мешалкина ЮЛ., Самсонова В.П., 2008 2
Занятие 1. Ввод данных. Описательная статистика (анализ единичной выборки). Анализ распределений. Гистограммы ЦЕЛЬ занятия - рассчитать статистические характеристики и исследовать распределения для одного из почвенных свойств (в зависимости от варианта - мощности пахотного горизонта, его влажности, гидрологической кислотности, содержания гумуса, глубины нижней границы горизонта Е), полученных на двух участках дерново-подзолистой (серой лесной, черноземной или др.) почвы, расположенных на разных элементах рельефа. НАЧАЛО. Получите у преподавателя свой вариант данных, внимательно ознакомьтесь с ним. Войдите в систему, под именем кафедры. Имя группы и пароль спросите у преподавателя. Запомните их или запишите. Создайте свой каталог на диске Y в каталоге своей кафедры (biol4, geogr4 и т.д.). Назовите каталог своей фамилией латинскими буквами. В своем каталоге с помощью программы EXCEL создайте файл для записи результатов анализа. Назовите его RES1.…..(вместо точек поставьте начальные буквы фамилии, не более 4). Для записи результатов последующих занятий необходимо будет создать аналогичные по названию файлы, отличающиеся только номером занятия. ЗАПУСК ПРОГРАММЫ СТАТИСТИКА. Современный статистический пакет STATISTICA позволяет всесторонне анализировать статистические данные. Его интерфейс соответствует среде Windows. Программа запускается щелчком по значку на рабочем столе или из меню ПУСК – ПРОГРАММЫ – STATISTICA. После запуска программы STATISTICA появляется пустая таблица или появятся последние данные, с которыми работала программа. Для открытия нового файла выберите в меню File, затем пункт New. В появившемся окошке нажмите OK. ВВОД ДАННЫХ. По умолчанию строится пустая таблица с десятью пе-
Переменные Номера наблюдений
3
ременными и десятью наблюдениями. После активизации переменной (или ячейки) можно добавлять, удалять (и т.п.) переменные, щелкнув по кнопке Переменные (Variables, сокращенно VARS).
После щелчка открывается меню, выбрав в котором, например, Удалить (DELETE) и щелкнув по соответствующей кнопке, получим следующее меню, в котором надо указать, с какой и по какую переменную нужно удалить. Аналогичным образом осуществляется и добавление переменных.
4
Результат удаления переменных:
Потренируйтесь добавлять и удалять переменные. Изменение числа Наблюдений (Case) производится аналогичным образом:
Добавьте необходимое количество наблюдений. Результат добавления наблюдений
5
РАБОТА С ПЕРЕМЕННЫМИ. Назвать переменную, изменить ее тип, ввести текстовые метки или формулы можно, дважды щелкнув левой кнопкой по имени переменной (например, по VAR1). В результате появляется новое окно. Щелкнув два раза левой кнопкой в окошке Имя (Var), можно вести новое имя, например, Pole1_Ivanov. Назовите переменные. Во избежание всяких недоразумений имена переменных лучше задавать латинскими буквами. Появившееся окно дает возможность изменить тип переменной, число десятичных знаков, ввести коды пропущенных значений и т.п. Убедитесь, что для ваших переменных указан Тип Двойной (Double).
После того, как введены имена переменных и определены их свойства, можно заполнять таблицу данными. Сохранить ее можно стандартным способом, щелкнув Файл – Сохранить и указав папку и имя своего нового файла латинскими буквами. Имя файла должно быть не более 8 знаков, должно легко запоминаться и ассоциироваться с данными. Лучше всего выберите свои инициалы или сокращение от фамилии. Запомните или запишите это имя! Файлы данных STATISTICA имеют расширение .sta. Сохраните свои данные на диске в СВОЕЙ ДИРЕКТОРИИ (будьте внимательны!). Выйдите из программы STATISTICA. Вновь запустите программу. 6
ПРЕДУПРЕЖДЕНИЕ!!! После запуска программы STATISTICA появятся последние данные, с которыми работала программа. Для открытия собственного файла выберите в меню Файл (File), затем пункт Открыть (Open Data). Далее стандартным образом указывается, откуда будут взяты данные. ПЕРВИЧНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ. Для выполнения различных видов статистического анализа нужно щелкнуть по кнопке Анализ (Analyses).
7
Щелчок по кнопке Переменные (Variables) открывает список переменных, для которых мы хотим провести анализ. Выделение необходимых переменных производится обычным для Windows способом. Кроме того, можно просто ввести номера переменных в окошке, причем, если они идут подряд, то просто вводят номер начальной и конечной переменной через дефис. В противном случае номера вводятся через запятую или щелчками по имени переменной при нажатой кнопке Ctrl. Для задания необходимых статистик нужно щелкнуть по кнопке Дополнительно (Advanced) и поставить галочки в окошках требуемых показателей. Затем нажать ОК.
Отметьте следующие статистики: объем выборки (Valid N), среднее (Mean), доверительный интервал для среднего (Conf. limits for means), медиана (Median), минимум (Minimum), максимум (Maximum), нижний квартиль (Lower Quartile), верхний квартиль (Upper Quartile), дисперсия (Variance), стандартное отклонение (Std.Dev.), ошибка среднего (Standard Error), асимметрия (Skewness), ошибка асимметрии (Std.Err. Skewness), эксцесс (Kurtosis), ошибка эксцесса (Std.Err. Kurtosis). Для нормального распределения характерно совпадение характеристик центра распределения: среднего арифметического, моды и медианы. Если медиана больше среднего, то для распределения случайной величины характерна правосторонняя асимметрия. Доверительный интервал для среднего может быть рассчитан для любой вероятности. Чем меньше значение вероятности, тем доверительный интервал будет уже. 8
Нажмите ОК. Результаты вычислений размещаются в рабочую книгу (Workbook):
В нижнем левом углу экрана находится значок текущего анализа. Для продолжения щелкните левой кнопкой по этому значку.
ДИАГРАММА РАЗМАХА. Нажав кнопку Быстрый (Quick), можно получить доступ к Диаграмме размаха (Box&Wiskers Plot) для всех переменных. Такие диаграммы называются также «Коробочки с усиками».
Закладка Опции (Options)позволяет задать тип диаграмм размаха. Выберите 2 опции: 1) Медиана/Квартиль/Размах (Median-Quart-Range) и 2) Среднее/Стандартное отклонение/95% доверительные интервалы для значений случайной величины, исходя из предположения о ее нормальности (Mean/SD/1.96*SD).
9
Так выглядит диаграмма размаха. На диаграмме размаха в виде точки показан центр распределения (медиана или среднее) и характеристики варьирования (квартили, стандартные ошибки или стандартные отклонения). Также могут быть изображены крайние точки (минимум и максимум) или выбросы (исходя из идеи нормального распределения). В правом нижнем углу дана легенда, где показано, что обозначено символами на графике.
Содержимое рабочей книги
ГИСТОГРАММЫ. Аналогичным образом постройте Гистограммы (Histograms).
10
Гистограмма - это графическое представление распределения сгруппированной переменной, на котором для каждого класса рисуется столбец. Его высота пропорциональна наблюдаемой частоте для данного класса. Линией показано ожидаемое нормальное распределение, имеющее то же среднее и дисперсию, что и изучаемая переменная.
НОРМАЛЬНЫЙ ВЕРОЯТНОСТНЫЙ ГРАФИК. Для качественной проверки нормальности распределения можно нажать кнопку Диаграммы (Prob. &Scatter plots) и затем Нормальные вероятностные графики (Normal Probability plot):
11
Ниже приведен результат работы модуля Нормальные вероятностные графики (Normal Probability plot):
Нормальный вероятностный график называют еще Графиком на нормальной вероятностной бумаге. Он может быть использован для визуальной оценки близости распределения к нормальному. Нормальный вероятностный график строится следующим образом. Сначала все значения переменной упорядочиваются. Каждому значению присваивается ранг. Берется стандартизованное нормальное распределение. По этому распределению для рангов рассчитываются значения z, которые затем откладываются по оси Y графика. Если наблюдаемые значения (откладываемые по оси X) распределены нормально, то все значения на графике должны попасть на прямую линию. Если значения не являются нормально распределенными, они будут отклоняться от линии. На этом графике можно легко обнаружить выбросы. В программе Statistica реализованы еще два типа графиков. Полунормальные вероятностные графики используют в анализе только положительную часть нормальной кривой, а нормальные вероятностные графики с исключенным трендом удаляют из данных линейный тренд. На графике, на предыдущей странице, точки на концах и в центре распределения не лежат на прямой и, следовательно, распределение отличается от нормального распределения. СОЗДАНИЕ ОТЧЕТА. Скопируйте необходимые результаты из рабочей книги (Workbook) в предварительно открытый файл Excel, где будут храниться результаты первого занятия. Копирование графиков производится стандартным способом: правая кнопка мыши – Копировать график (Copy 12
graf). Переходите в окно программы Excel, правая кнопка Вставить (в файле Excel). Еще лучше вставить график через Специальную вставку и выбрать Метафайл или Рисунок, тогда связи между программой Excel и Statistica сохранены не будут и график будет занимать существенно меньше места. Пользуйтесь последним способом для вставки рисунов в отчет. Таблицы предпочтительнее копировать через меню Правка (выделить таблицу (Select all) – Правка (Edit)- Копировать с заголовками (Copy With Headers) – Вставить (в файле Excel). Для того, чтобы удобно разместить таблицу статистик, ее нужно еще раз скопировать уже в программе Excel и вставить через Специальную вставку, поставив галочку в окошке транспонирование. Отчет отредактировать в соответствии с формой отчета. Показать отчет преподавателю и с его разрешения распечатать. Подписать отчет у преподавателя. 1. 2.
3.
4. 5.
6. 7. 8.
Вопросы к занятию 1 Что характеризуют данные? В чем отличие первой переменной от второй переменной? Насколько близки различные характеристики центра распределений для показателей? О чем может свидетельствовать их совпадение? О чем может свидетельствовать их значительное расхождение? Сравните представление Median-Quart-Range (Медиана- Квартили- Размах) и Mean/SE/1,96*SE (Среднее- Стандартное отклонение – 1,96 * на стандартное отклонение.). Какую информацию можно получить, используя каждое из этих представлений? Какие отличия для исследуемых переменных выявили диаграммы размаха (Box&Wiskers Plot)? В каких случаях можно использовать "Нормальные вероятностные графики" (Normal probability plot)? Какие из показателей имеют распределения, близкие к нормальному? Что характеризует гистограмма? Что на рисунке гистограммы обозначено тонкой непрерывной линией? Отличаются ли гистограммы для каждого из свойств? Используя данные из таблицы статистических характеристик, покажите, как рассчитывается доверительный интервал для среднего.
13
Занятие 2. Проверка гипотез о типе распределения. Сравнение средних ЦЕЛЬ занятия – проверить, можно ли каждую из изучаемых переменных аппроксимировать нормальным, логнормальным, равномерным и гамма распределениями. Провести сравнение средних двух участков. ПРОВЕРКА ТИПА РАСПРЕДЕЛЕНИЯ. Войдите в пакет STATISTICA, загрузите свои данные (см. занятие №1). Щелкните по кнопке Анализ (Statistics) и выберите Подгонка распределений (Distribution Fitting).
Открывается новое окно, в котором можно выбрать разные Непрерывные распределения (Continuous Distributions) и Дискретные (Discrete Distributions) распределения. Выберите непрерывные распределения (Continuous Distributions).
14
Щелкнув по кнопке ОК, переходим к новому окну, где нужно выбрать переменную. Пока она не выбрана, параметры (заставка Параметры (Parameters)) распределения обнулены.
Выбрав переменную и снова щелкнув по кнопке ОК, увидим, что в окошках появились параметры распределения переменной. Они указаны по умолчанию и их можно при желании изменить.
15
Перейдите на вкладку Быстрый (Quick). Здесь можно построить таблицу подгонки распределения с помощью клавиши Наблюдаемые и ожидаемые частоты (Summary: Observed and Expected distribution).
Появится результирующая таблица подгонки распределения:
Обратите внимание, что для критерия хи-квадрат и уровня значимости указаны прочерки. В этом случае, измените, например, уменьшите, число классов (заставка Parameters) так, чтобы прочерки заменились цифрами. ПРЕДУПРЕЖДЕНИЕ!!! В программе STATISTICA буквой p обозначается статистическая значимость (т.е. уровень значимости для проверки нулевой гипотезы). Как правило, если р≥0,05 => Но - принимается, если р<0,05 => Но - отвергается однако величину 0,05 можно заменять исходя из целей исследования Более низкий p-уровень соответствует более высокому уровню доверия к нулевой гипотезе. Если в качестве критического значения вместо 0,05 взять значение 0,01, то надежность результатов возрастает, то есть статистическая 16
значимость (p-уровень) находится в убывающей зависимости от надежности результата. Щелкнув по вкладке Опции (Options), можно добавить проверку по критерию Колмогорова – Смирнова (К.-С.): для сгруппированных данных (Categorized) и для данных без группировки (Continuous). Если для критерия хи-квадрат указать условие – составные интервалы (Combine Categories), тогда будут объединены классы, у которых ожидаемые частоты менее 5. Можно также выбрать вид графика: Гистограмма, т.е. распределение частот по классам (Frequency distribution) или кумулятивное распределение (Cumulative distribution). Также можно указать единицы оси ординат: абсолютные/ исходные частоты (Raw frequencies) или относительные частоты (Relative frequencies).
Поставьте опции как на рисунке выше: критерий КолмогороваСмирнова – нет, составные интервалы – отмечено, график распределения – гистограмма и график частот – исходные частоты.
17
Если критерий хи-квадрат не будет значимым при любом числе классов, то есть в шапке графика (гистограммы) будут стоять прочерки, – снимите значок с опции Составные интервалы (Combine Categories). Щелкнув по вкладке Быстрый (Quick), можно построить графики распределений. Напомним, что все результаты записываются в рабочую книгу (Workbook). Постройте одну таблицу подгонки нормального распределения для любой переменной. Для двух переменных постройте гистограммы, на которых указана проверка по критерию хи-квадрат, для Нормального (Normal), Логнормального (Lognormal), Равномерного (Rectangular) и Гамма (Gamma) распределений. Оформите страницу отчета. СРАВНЕНИЕ СРЕДНИХ. Щелкните по кнопке Анализ (Statistics) и выберите окно Основные статистики и таблицы (Basic Statistics / Tables).
В меню второго уровня выберите пункт t-тест для независимых переменных (t-test for independent variables).
Теоретически, t-критерий может применяться только в том случае, если переменные нормально распределены. Если это условия не выполнено, следу18
ет использовать непараметрические альтернативы t-критерия, например, критерий Вилкоксона. Укажите сравниваемые переменные. Нажмите ОК.
Перейдите на вкладку Опции (Options). Отметьте опции сравнения как сравнение при раздельном расчете дисперсий, т.е. когда дисперсии неоднородны, для этого отметьте галочкой строку t-критерий с разделенными оценками дисперсий (t-test with separate variance estimates).
Равенство дисперсий в двух группах можно проверить с помощью Fкритерия, он включен в таблицу вывода t-критерия. В качестве опций возможен расчет t-критерия как с объединением дисперсий (по умолчанию), так и с раздельным их расчетом (t-test with separate variance estimates). Первый из этих случаев возможен, когда дисперсии обеих выборок однородны, а второй – когда неоднородны. Так же опции позволяют отображать длинные имена переменных, задавать уровень значимости и использовать два критерия до19
полнительных критерия для сравнения дисперсий – Левена (Levene’s test) и Брауна – Форсайта (Brawn & Forsythe test). Щелкните по вкладке Быстрый (Quick), и проведите расчеты, нажав на клавишу T-критерий (Summary: t-test) . В результате расчетов появится таблица:
На этой таблице указано два варианта расчета числа степеней свободы и уровней значимости для проверки гипотезы о равенстве средних – для случая однородных (t-value, df, p) и неоднородных дисперсий (t sep.-value, df, p 2sided). В первом случае число степеней свободы равно сумме объемов двух выборок минус два, во втором число степеней свободы будет тем меньше, чем больше отличаются дисперсии. Если гипотеза о равенстве средних отвергается с заданным в опциях уровнем значимости, то цифры в таблице будут показаны красным цветом,. Уровень p-значимости для t-критерия равен вероятности ошибочно отвергнуть гипотезу о равенстве средних двух выборок, когда в действительности эта гипотеза имеет место. Скопируйте получившиеся результаты в файл Excel по образцу оформления отчета. На практике часто приходится сравнивать более двух выборок данных (например, например, сравнивать свойства нескольких опытных площадок). В таких случаях следует использовать дисперсионный анализ, который можно рассматривать как обобщение сравнения с помощью t-критерия.
1. 2. 3. 4. 5.
6.
7.
Вопросы к занятию 2 Какими распределениями можно (а какими нельзя) аппроксимировать распределения изучаемых показателей? (по своим данным) Какие из показателей имеют распределения, близкие к нормальному? (по данным всей группы). Как влияет выбор уровня значимости на результат принятия или отвержения гипотезы о типе распределения? Как влияет отличие распределений свойств от нормального на результаты сравнения средних? Можно ли считать дисперсии свойств однородными? Как влияет признание дисперсий неоднородными на конечные выводы проверки гипотезы о равенстве средних? Принимается или отвергается гипотеза о равенстве средних для двух участков? Как влияет уровень значимости на результаты проверки гипотезы о равенстве средних? Чему равно число степеней свободы для критерия сравнения средних при равенстве дисперсий? В случае неравенства дисперсий? 20
Занятие 3. Двухфакторный дисперсионный анализ ЦЕЛЬ занятия - оценить влияние разных доз удобрений и средств защиты растений на урожайность сельскохозяйственной культуры. Выявить оптимальные дозы удобрений и гербицидов. ВВОД ДАННЫХ. Войдите в пакет STATISTICA (см. занятие №1). После запуска программы STATISTICA появятся последние данные, с которыми работала программа. Закройте эти данные. Для этого просто закройте соответствующее окно, нажав крестик в верхнем правом углу. Создайте новый файл, для чего войдите в меню Файл (File) и выберите раздел Создать (New) на открывшейся панели. Появится следующее окно: Укажите количество переменных – 3, а количество объектов – 32. Нажмите OK. Вообще-то число рядов и строк может быть любым, главное, чтобы оно было не меньше, чем это требуется для задачи. Сохраните получившийся файл. Для этого выберите в меню Файл (File) Сохранить как (Save as). В появившемся диалоговом окне выберите свою директорию, введите имя своего нового файла латинскими буквами. Данные представляют собой результаты полевого эксперимента. Урожай сельскохозяйственной культуры (картофеля, свеклы, кукурузы, пшеницы, ячменя, сорго и т.п.) был собран на делянках, которые отличались дозой гербицида (4 варианта) и дозой удобрения (4 варианта). Получается двухфакторная модель дисперсионного анализа. Каждый из факторов имеет по 4 градации. Комплекс выполнен в двукратной повторности. Таким образом, общее число наблюдений – 32. Дайте имена переменным (например, 1-ю переменную можно назвать gerb или Herbicids или как-то еще, вторую – udobr или Fertilizer , последнюю – urozaj или yield). При этом первая и вторая переменные должны быть закодированы. Например, для переменной Herbicids дозам 21
гербицида 0, 10, 20, 30 г/га могут соответствовать значения 1, 2, 3, 4 или 0, 10, 20, 30. Вторая переменная также может принимать значения 1, 2, 3 и 4, что соответствует дозам удобрения 0, 30, 60, 90 кг д.в./га. В третью колонку занесите данные урожайности. Введенные данные могут, например, выглядеть так:
ХОД АНАЛИЗА. Щелкните по кнопке Анализ (Statistics) и выберите Дисперсионный анализ (ANOVA).
В открывшемся окне выберите вид анализа Факторный Дисперсионный Анализ (Factorial ANOVA) и раздел Диалог (Quick specs dialog). Нажмите OK. 22
Во вновь открывшемся окне щелкните по кнопке Переменные (Variables), в появившемся окне выберите Зависимые переменные (Dependent variable list). В качестве зависимой переменной укажите урожай. Также выберите Независимые предикторы (Categorical predictors- factors) – это факторы, в данном случае - удобрения и гербициды. Нажмите OK.
На этой же заставке укажите используемые в анализе градации факторов, для этого нажмите клавишу Коды факторов (Factor codes). Выберите все градации Все (All) для обоих факторов. Проверьте, что градации факторов указаны правильно. НЕ нажимайте ОК, а перейдите на закладку Дополнительно (Options).
23
В окне, соответствующем закладке Дополнительно (Options) можно выбрать разные модели дисперсионного анализа. В разделе Параметризация (Parameterization) поставьте галочку напротив надписи Без свободного члена (No intercept). Свободный член обычно включается в более сложные модели дисперсионного анализа. Снимите галочку с Сигма-ограниченная (Sigma-restricted) параметризация. Сигма - ограниченная модель предполагает, что для кодирования градаций фактора используются целые значения, сумма которых равна нулю. Например, наличие известкования участка можно было бы закодировать как +1, а в случае, если известкование не проводилось – как -1. Нажмите OK.
24
Откроется основная первая панель, где можно выбрать результаты анализа. Обратите внимание, что внизу этой панели можно задать доверительные пределы и уровень значимости для проверок гипотез. По умолчанию он составляет 0,05.
Щелчок по кнопке Все эффекты (All effects) открывает панель c основной таблицей дисперсионного анализа. В данной таблице для каждого фактора и для взаимодействия приведены результаты проверки гипотезы о равенстве средних (по градациям) фактора. Эта же гипотеза может быть сформулирована как равенство нулю всех отклонений средних по градациям фактора от генерального среднего. В данном примере проверяется три нулевых гипотезы: для различных доз удобрения, для доз гербицида и их взаимодействия. В следующей таблице для фактора – гербицид и для взаимодействия принимается нулевая гипотеза. Для фактора удобрения нулевая гипотеза отклоняется, а выполняется альтернативная гипотеза, то есть хотя бы один из средних урожаев для какой-либо дозы удобрения достоверно отличается от других средних.
Скопируйте таблицу вместе с заголовками в отчет в программе Excel.
25
Для того чтобы продолжить анализ, нужно нажать на клавишу Результаты анализа (Anova Results…), находящуюся в нижнем левом углу окна, в котором открыта программа Statistica.
Появится панель с предыдущей страницы. В левом нижнем углу этого диалогового окна нажмите клавишу Больше (More results), перейдя, таким образом, к развернутому представлению результатов. На открывшейся панели убедитесь, что выбран ярлычок Средние (Means) и стоит галочка в нижнем левом углу, напротив Показать стандартные ошибки (Show standard errors).
Выберите в окошке Показать средние эффекта: (Plot or show means for effect) – для сочетания факторов – гербицид и удобрение. И постройте рисунок, нажав на верхнюю кнопку с подписью рисунок График (Plot), расположенную в верхнем ряду, рядом с кнопкой Наблюдаемые, невзвешенные (Observed, unweighted). Появится панель выбора расположения факторов. Нажмите ОК. Появится следующий график, на котором показаны средние значения взаимодействия по сочетанию градаций факторов. Рамочками показаны 95% доверительные интервалы для средних. Скопируйте график в отчет. В общем 26
случае взаимодействие между факторами описывается в виде изменения одного эффекта под воздействием другого. В рассмотренном примере двухфакторное взаимодействие можно описать как изменение урожая, получаемого при разной дозе удобрений, под воздействием обработок гербицидом. На графике по оси абсцисс отложены коды, соответствующие градациям первого фактора (дозы удобрения), по оси ординат отложен урожай. Символами закодированы разные дозы гербицида. Всего имеется 16 средних урожаев, соответствующих сочетаниям взаимодействия. Они получены усреднением каждой из двух повторностей, соответствующих сочетанию дозы удобрения и гербицида.
Выберите в окошке Показать средние эффекта: (Plot or show means for effect) по очереди каждый из факторов. Постройте аналогичные графики для средних по градациям фактора удобрения и гербицида. Скопируйте графики в отчет. Для того чтобы построить таблицу, соответствующую графику, нажмите кнопку Наблюдаемые, невзвешенные (Observed, unweighted). Постройте таблицы, соответствующие действию гербицида и удобрения. Так как каждый из этих факторов имеет по 4 градации, то средние по градациям каждого из факторов получены путем усреднения 8 повторностей. В таблице приведены средние, ошибки среднего и 95% доверительные интервалы для средних. Скопируйте таблицы в отчет.
27
ПРОВЕРКА ОТЛИЧИЯ СРЕДНИХ ПО ГРАДАЦИЯМ ФАКТОРА. Перейдите на вкладку Апостериорные (Post-hoc). В окошке Эффект (Effect) укажите фактор – доза гербицида. Проверьте, что в качестве зависимой переменной указан урожай. Выберите опцию Значимые разности (Significant differences). Здесь также можно построить таблицы, где средние сгруппированы в однородные группы или построить для них доверительные интервалы.
Сравнение средних можно провести по 8 различным тестам. Выберите сначала Фишера НЗР- наименьшая значимая разность (Fisher LSD- less significance distance). В других источниках этот тест называется НСР – наименьшая существенная разница. С помощью НСР оценивается разность между средними. Если разность d между любыми двумя оценками среднего превышает или, по крайней мере, равна НСР, то средние значения различаются с вероятностью 1-α. НСР равна произведению ошибки среднего Sx на tα*√2. 28
Использование критерия НСР приводит к некоторому завышению различий между средними по сравнению с другими критериями. Нажмите соответствующую кнопку.
Появится следующая таблица, скопируйте ее в отчет. Цифрами 1, 2, 3, 4 обозначены средние значения урожая в зависимости от дозы гербицида. Эти средние приведены в шапке таблицы. В ячейке таблицы, на пересечении столбца и строки показан уровень значимости (p) для проверки гипотезы о равенстве двух средних, находящихся на пересечении столбца и строки. Нулевая гипотеза формулируется для двух средних и утверждает, что эти средни раны между собой. Красным показаны случаи, где нулевая гипотеза о равенстве средних отвергается. Аналогичным образом постройте таблицу, соответствующую тесту Ньюмана-Кеулса (Newman-Keuls). Постройте аналогичные таблицы для фактора – тип удобрения. ПРОВЕРКА ДОПУЩЕНИЙ. В программе Statistica можно проверить выполнение основных предположений, оправдывающих применение дисперсионного анализа. Наиболее важными из них являются два: 1) нормальность распределений по градациям факторов и 2) однородность (или гомогенность) дисперсий. Для проверки дисперсий на однородность перейдите к вкладке Предположения (Assumptions).
Проверьте, что в качестве зависимой переменной указана переменная урожая. В окошке Эффект (Effect) укажите фактор – доза гербицида. Нажми-
29
те на кнопку , где указан тест Кохрена С, Хартли, Бартлетта (Cohran C, Hartley, Bartlett). Появится следующая таблица. Скопируйте ее в отчет. Как видно из таблицы, проверка дисперсий на однородность осуществляется одновременно по 3 тестам.
Так как уровень значимости p больше 0,05, то принимается нулевая гипотеза, и дисперсии подвыборок, сформированных по градациям фактора (в данном случае – дозе гербицида) – однородны. Если дисперсии неоднородны, то дисперсионный анализ исходных данных проводить не стоит. В таких случаях применяются различные нелинейные преобразования исходных значений, например, извлечение квадратного корня или логарифмирование. Аналогичным образом проведите тест для фактора – вид удобрения и для взаимодействия факторов. Оформите отчет и подпишите его у преподавателя. 1.
2. 3. 4. 5. 6. 7. 8. 9.
10.
Вопросы к занятию 3 Опишите изменения средних по градациям факторов и по взаимодействию для своего случая. По таблице исходных данных приведите значения, по которым получены эти средние. Сформулируйте исходную гипотезу дисперсионного анализа для каждого из факторов и для взаимодействия. Соблюдаются ли эти гипотезы для ваших данных по урожайности? Влияет ли взаимодействие факторов на средние значения урожайности? Какой из факторов значимо влияет на урожай с/х культур? (по данным всей группы) Что такое НСР? Какой способ сравнения средних обнаруживает больше различий между средними? Какие группы средних можно признать однородными? Однородность каких дисперсий проверяется? Зачем это нужно? Что нужно делать в случае, если дисперсии неоднородны? Какие преобразования исходных данных допустимы, если распределения положительно асимметричны и условие однородности дисперсий не выполняется? Какие выводы о влиянии различных доз гербицида и удобрений можно сделать по результатам проведенного дисперсионного анализа? 30
Занятие 4. Регрессионный анализ ЦЕЛЬ занятия - провести множественный линейный регрессионный анализ данных зависимости урожайности от почвенных признаков; определить переменные, влияющие на урожайность; оценить степень влияния каждой из переменных; исследовать качество аппроксимации зависимости. Войдите в пакет STATISTICA (см. занятие №1). В программе STATISTICA создайте новый файл данных для своего варианта (см. занятие №3). Введите данные как показано на картинке ниже. Признаки – это столбцы, строки – это наблюдения.
Каждому наблюдению (точке на поле), соответствует урожай сельскохозяйственной культуры, указанный в пересчете на ц/га, (здесь переменная Yield) и почвенные свойства, измеренные в почвенном образце, в данном случае – это содержание гумуса, рН , содержание подвижного фосфора, калия и нитратов. Щелкнув на кнопке Анализ (Statistics) откройте меню и затем выберите раздел Множественная регрессия (Multiple Regression).
31
Назначение множественной регрессии состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) – в данном случае, почвенными свойствами и зависимой переменной – урожаем. Выберите закладку Дополнительно (Advanced).
Щелкните по кнопке Переменные (Variables), задайте зависимые и независимые переменные. В нашем случае зависимой переменной (Dependent) будет урожай сельскохозяйственной культуры (Yield), независимые переменные (Independent)- почвенные свойства (например, P2O5, hum, pH, K2O, NO3). Обратите внимание, что вообще Файл данных (Input file) может содержать данные как в исходном виде, так и в виде корреляционной матрицы. Нажмите ОК, запустив тем самым анализ. В результате работы программы появляется новая панель с расчетными характеристиками (см. стр. 33). На появившейся панели отображается множественный коэффициент корреляции (R), его квадрат (коэффициент детерминации), “скорректированный” коэффициент детерминации. Коэффициент множественной корреляции R определяет степень тесноты связи результирующего признака Y со всем набором независимых признаков X1,...,Xk. В случае парной регрессии (т.е. при наличии всего одного признака X1) R совпадает с коэффициентом корреляции Пирсона. По значению R-квадрат можно определить, насколько хорошо модель описывает данные, так как значение R рав32
но отношению дисперсии признака Y, объясненной регрессионной моделью, к общей дисперсии признака Y. Значение R-квадрат близкое к 1,0 показывает, что с помощью модели объясняется почти вся изменчивость Y. На панели также приведены результаты дисперсионного анализа для проверки гипотезы об адекватности модели: величина F-критерия, соответствующее число степеней свободы для уравнения и уровень значимости (р), стандартная ошибка оценки (Standart error estimate), оценка свободного члена (intercept) и значение t-критерия для него с соответствующим уровнем значимости (р). Значимые (отличные от нуля) оценки высвечиваются красным цветом. Для каждого признака приведены стандартизованные коэффициенты регрессии (см. далее), обозначенные бета (beta). Красным цветом обозначены значимые коэффициенты.
Результаты расчетов можно вывести в виде таблиц. На вкладке Дополнительно (Advanced) нажмите кнопку Дисперсионный анализ (ANOVAoverall goodness of fit). В появившейся таблице дисперсионного анализа уравнение регрессии выступает в качестве влияющего фактора. Скопируйте таблицу в отчет в программе Excel. 33
Для продолжения анализа в нижнем левом углу нажмите на свернутую панель Множественная регрессия (Multiple Regression). На вкладке Дополнительно (Advanced) нажмите кнопку Итоговая таблица регрессии (Summary: regression results). Появится таблица, где суммированы результаты регрессионного анализа для каждой из независимых переменных. Скопируйте шапку и таблицу в отчет. Оцените отличие обычного и скорректированного коэффициентов детерминации.
Аппроксимирующая модель подбирается в виде: Y=const+B1*X1+B2*X2 + …+ Bk*Xk, где В1, В2 … Bk служат оценками генеральных параметров β1, β2…βk . Величина Вj показывает, насколько в среднем изменяется урожай (признак Y) при увеличении соответствующего независимого признака Xj на единицу (шкалы его измерения) при фиксированных значениях других признаков, входящих в уравнение регрессии. Эти коэффициенты – величины размерные. В таблице для каждого коэффициента B приведены их стандартные ошибки (Std. Err. of B), а также значения критерия Стьюдента (в скобках указано число степеней свободы) и уровень значимости (обозначен как p-уровень) для проверки гипотезы о равенстве коэффициентов нулю. Проверьте по скопированной таблице, какие из коэффициентов равны нулю, а какие отличны от нуля. Исходя из этих данных, можно рассчитать доверительные интервалы для коэффициентов регрессии. B
Bi ± S Bi * tαν R , i = 1,2,...k Термином БЕТА (Beta) в таблице названы стандартизованные коэффициенты, связанные с обычными коэффициентами через соотношение:
Bi = Beta i * 34
σi σy
Как видно из уравнения коэффициенты бета - это безразмерные величины. По их значениям можно сравнивать вклады независимых переменных в урожай. Например, из таблицы видно, что наибольший вклад в урожай вносит фосфор, следующий по значению признак – гумус и т.п. Для значения рН уровень значимости для проверки гипотезы о равенстве коэффициента нулю больше значения 0,05, и, следовательно, нулевая гипотеза принимается. Коэффициент для значения рН неотличим от нуля. Вклад нитратов в данном случае практически тоже равен нулю. Проверьте по скопированной таблице, какие из коэффициентов отличны от нуля. Выпишите окончательное уравнение регрессии. Например, в данном случае: Yield [ц/га] = 4,29 [ц/га] + 0,91[ц/(га*%)] *Humus [%] + 0, 52 [(ц/га)/ мгэкв. / 100 г. почвы] * P2O5[мг-экв. / 100 г. почвы] + 0,31 [(ц/га)/ мг-экв. / 100 г. почвы] *K2O[мг-экв. / 100 г. почвы]. Рассчитайте 95% доверительные интервалы для коэффициентов полученного уравнения. Например, для 90% -доверительного интервала и числа степеней свободы, равного 16 (число наблюдений 20 минус число переменных 4), значение двухстороннего t- критерия будет равно 1,75. Коэффициент регрессии для гумуса будет с вероятностью 90% изменяться в следующих пределах: от 0,38 (0,91 – 0,30*1,75) до 1,44 (0,91 + 0,30*1,75), где точечная оценка коэффициента регрессии и его ошибки равны соответственно 0,91 и 0,30. АНАЛИЗ НАЛИЧИЯ МУЛЬТИКОЛЛИНЕАРНОСТИ. Под термином мультиколлинеарность понимают наличие взаимосвязей между так называемыми независимыми признаками, по которым строиться регрессионное уравнение. При ее наличии снижается точность оценок регрессионных коэффициентов. Кроме того добавление небольшого числа наблюдений может привести к сильным сдвигам в значениях регрессионных коэффициентов. Для продолжения работы перейдите на вкладку Остатки/ предсказанные/ наблюдаемые значения (Residuals/assumptions/ prediction). Для построения коэффициентов корреляции нажмите на кнопку Описательные статистики (Descriptive Statistics).
35
На появившейся панели перейдите на вкладку Дополнительно (Advanced) и выберите кнопку Корреляции (Correlations) для построения корреляционной таблицы между признаками. При построении таблицы корреляций выберите все признаки. Скопируйте таблицу в отчет. При анализе результатов нужно учесть, что при числе степеней свободы ν=19 значимыми (то есть отличными от нуля) можно считать коэффициенты, превышающие по модулю 0,45. А при ν=14 – 0,53. Если независимые переменные окажутся тесно связанными между собой (коэффициенты корреляции по модулю равны или более 0,85), то следует исключить коррелированные признаки, оставив один из них. Затем можно использовать алгоритмы пошаговой регрессии. Humus
P2O5
K2O
Yield
36
Другой вариантом при наличии большего числа коррелированных признаков является проведение факторного анализа (метод главных компонент) и переход к новому набору переменных, которые будут не связаны между собой. Множественная регрессия строиться для этих новых переменных (компонент). Для построения попарных графиков между переменными выберите кнопку Матричный график (Matrix plot of correlations). Сначала выберите все переменные и урожай. Рассмотрите график. Затем постройте график только для значимых переменных и для урожая. Для выделения нужных переменных используйте клавишу Ctrl. Скопируйте график в отчет. АНАЛИЗ ОСТАТКОВ. Отклонение отдельной точки от линии регрессии (от предсказанного значения) называется остатком. Анализ остатков важная составляющая регрессионного анализа, позволяющая проверить, насколько хорошо выполняются основные предположения множественной регрессии. Наличие выбросов (т.е. экстремальных наблюдений) может вызвать смещение оценок, "сдвинуть" линию регрессии и тем самым, вызывать смещение регрессионных коэффициентов. Часто исключение лишь одного экстремального наблюдения приводит к изменению результата. Для того чтобы выполнить анализ остатков, в нижнем левом углу нажмите на свернутую панель Множественная регрессия (Multiple Regression). Появится размещенная выше таблица Просмотра описательных статистик (Review Descriptive Statistics). Чтобы подняться в меню на более высокий уровень, нажмите кнопку Отмена (Cancel). Появится следующее меню. Выберите закладку Остатки/ предсказанные/ наблюдаемые значения (Residuals/assumptions/ prediction).
Нажмите кнопку Анализ остатков (Perform residual analysis). Появится меню:
37
Выберите закладку Остатки (Residuals) и нажмите кнопку Гистограмма остатков (Histogram of residuals). В множественной регрессии предполагается, что остатки распределены нормально. Оцените, насколько это допущение выполняется в Вашем случае. Появившийся график скопируйте в отчет.
Вернитесь к меню. Выберите закладку Диаграмма рассеяния (Scatterplots).
Для построения графика зависимости наблюдаемых значений урожая от предсказанных значений урожая используйте клавишу Предсказанные и наблюдаемые (Predicted vs. Observed). Скопируйте этот график в отчет. Чем лучше модель оценивает данные урожайности, тем ближе точки располагаются к прямой. 38
Для построения графика зависимости остатков от предсказанных значений используйте клавишу Предсказанные и остатки (Predicted vs. residuals). Скопируйте график в отчет. Чем меньше разброс значений вдоль линии, тем, очевидно, лучше прогноз. В случае хорошей аппроксимации остатки не должны зависеть от наблюдаемых и предсказанных величин.
39
Для построения нормального вероятностного графика остатков выберите закладку Вероятностные графики (Probability plots) и нажмите клавишу Нормальный (Normal plot of residuals). Скопируйте график в отчет. В случае хорошей аппроксимации остатки должны иметь нормальное распределение. ПОШАГОВАЯ РЕГРЕССИЯ. Существует две схемы пошаговой регрессии: «с исключением» признаков и «с включением». Первый алгоритм состоит в том, что после построения уравнения регрессии и оценки значимости всех коэффициентов из модели исключают тот признак, коэффициент при котором незначим и имеет наименьшее значение t . После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Если среди них опять окажутся незначимые, то опять исключают признак с наименьшим значением t -критерия. Процесс исключения признаков останавливается на том шаге, при котором все регрессионные коэффициенты значимы. При использовании этой схемы негативные последствия мультиколлинеарности могут сказаться. При реализации второго алгоритма первым в уравнение включается признак, наиболее тесно коррелирующий с Y, вторым в уравнение включается тот признак, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т.д. На каждом шаге получают новое значение множественного коэффициента корреляции (большее, чем на предыдущем шаге); тем самым определяется вклад каждого отобранного признака в объясненную дисперсию Y. Нажмите в нижнем левом углу на свернутую панель Множественная регрессия (Multiple Regression). Чтобы вернуться назад, несколько раз нажимайте Отмена (Cancel) до тех пор, пока не появится следующее меню:
40
Выберите закладку Дополнительно (Advanced). В появившемся окне поставите галочку в окне Пошаговая или гребневая регрессия (Advanced options- stepwise or ridge regression). Проверьте, правильно ли заданы зависимые и независимые переменные. Нажмите ОК. В появившемся меню перейдите на вкладку Пошаговый (Stepwise). Выберите процедуру Пошаговая с включением (Forward stepwise). В окне Отображение результатов (Display results) укажите пункт На каждом шаге (At each step). Нажмите ОК.
Появится панель, суммирующая результаты анализа. На нулевом шаге не будет выбрано ни одной переменной. Значения коэффициентов R и R2 будут равны нулю. Нажмите Далее (Next). Появиться новая итоговая таблица, соответствующая первому шагу, на которой, показаны данные для уравнения с одной переменной, выделенной красным цветом.
41
На той же вкладке Дополнительно (Advanced) выберите клавишу Итоговая таблица регрессии (Summary: regression results). Появится таблица, аналогичная таблице, полученной при проведении стандартной процедуры регрессионного анализа, но содержащая одну переменную (в данном случае – это фосфор) и свободный член.
Вернитесь к меню. На той же вкладке Дополнительно (Advanced) выберите клавишу Итоги по шагам (Stepwise regression summary). В результате будет построена таблица с итогами 1-го шага. Обратите внимание, что квадрат множественного коэффициента регрессии в данном случае много меньше полученного для стандартной процедуры. (см. стр.33-34).
Вернитесь к меню и нажмите Далее (Next). Появиться итоговая таблица для двух переменных (шаг 2). Постройте для уравнения, включающего две переменные, Итоговую таблицу регрессии (Summary: regression results) и Итоги по шагам (Stepwise regression summary). Скопируйте таблицы в отчет. Повторите процедуру несколько раз, следя за изменениями итоговой таблицы и итогов по шагам до тех пор, пока процедура пошаговой регрессии не закончиться. Копируйте таблицы в отчет. Убедитесь, что информация в таблицах дублируется. Оставьте таблицы, соответствующие последнему шагу.
42
Напишите новое уравнение регрессии. В данном случае оно будет выглядеть следующим образом: Yield [ц/га] = 3,93 [ц/га] + 0,86 [ц/га*%] *Humus [%] + 0, 51 [(ц/га)/ мгэкв. / 100 г. почвы] * P2O5[мг-экв. / 100 г. почвы] + 0,31 [(ц/га)/ мг-экв. / 100 г. почвы] *K2O[мг-экв. / 100 г. почвы] .
Из результирующей таблице итогов по шагам видно, что на первом этапе в уравнение регрессии был включен подвижный фосфор, на втором - калий, на третьем шаге – гумус. При включении признаков коэффициент множественной корреляции возрастает на втором шаге и практически не изменяется на третьем. Вопросы к занятию 4 1. Существует ли линейная зависимость между урожайностью и свойствами почвы? 2. Какие из почвенных свойств влияют на урожайность? 3. Что такое регрессия в стандартизованном (нормализованном) виде? Зачем используются стандартизированные коэффициенты? 4. Что такое коэффициент множественной корреляции? Чему он равен в вашем случае? 5. Чему равен коэффициент детерминации? Сильно ли он отличается от скорректированного коэффициента детерминации? 6. Что такое Intercept? Чему он равен в Вашем случае? 7. Каковы требования к качеству аппроксимации? Как соблюдаются эти требования в случае множественной линейной регрессии для исследуемых данных? 8. Что такое «остатки»? 9. Можно ли считать остатки нормально распределенными? 10. О чем свидетельствует корреляция между признаками? Что нужно в этом случае делать? 11. Наблюдается ли мультиколлинеарность для исследуемых данных? 12. Какова связь между дисперсионным и регрессионным анализами? 13. В чем задача пошаговой регрессии? 14. Оцените вклад каждой из независимых переменных в урожай. 15. Выпишите уравнение регрессии, полученное по стандартной процедуре. Укажите единицы для коэффициентов регрессии и переменных. Посчитайте доверительные интервалы для коэффициентов регрессии. 16. Выпишите уравнение регрессии, полученное при пошаговом анализе Можно ли считать, что получены разные уравнения? 43
Занятие 5. Кластерный анализ ЦЕЛИ данного занятия: провести иерархическую классификацию горизонтов методами одиночной связи и Варда, используя Евклидово расстояние; провести классификацию переменных этими же методами; выполнить два варианта классификации объектов методом k-средних, задав в первом случае 3 класса, во втором - 5 классов. Войдите в пакет STATISTICA (см. занятие №1). В программе STATISTICA создайте новый файл данных для своего варианта (см. занятие №3). Введите данные так же, как они даны в таблице данных. Данные представляют собой результаты анализов образцов горизонтов, отобранных из 5 разрезов дерново-подзолистых почв Московской области. Сохраните данные. Щелкнув на кнопке Анализ (Statistics), откройте меню и затем выберите раздел Многомерный разведочный анализ (Multivariate Exploratory Technique), затем перейдите в раздел Кластерный анализ (Cluster Analysis).
Кластерный анализ – это группа методов, используемых для классификации объектов в относительно однородные группы (кластеры). Эти методы не являются строгими со статистической точки зрения. Кластерный анализ используется обычно на начальной стадии исследования, когда не существует еще гипотез относительно классов, в которые объединяются объекты. Выделяют аггломеративные и итеративные дивизивные методы кластерного анализа. Аггломеративные методы кластеризации – это иерархические методы, при которых на начальном этапе каждый объект находится в отдельном кластере. 44
На следующих этапах происходит объединение объектов в более крупные кластеры на основании понижения некоторого порога, например, увеличения расстояния между объектами. Иными словами, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Итеративные дивизивные методы кластеризации состоят в том, что выполняется разбиение объектов, объединенных в один или несколько крупных кластеров, на фиксированное число кластеров, как правило, более мелких. При этом образуются новые кластеры так, чтобы они были настолько различны, насколько это возможно. Выберите пункт Иерархическая классификация (Joining –tree clustering) дендрограммы. Нажмите ОК. Для выполнения второй части задания нужно будет в этом же меню выбрать пункт Кластеризация методом - kсредних (K-means clustering)).
ИЕРАРХИЧЕСКАЯ КЛАССИФИКАЦИЯ. Выберите закладку Дополнительно (Advanced). Выберите переменные (Variables), по которым будет проводиться анализ (C, PHS, IL, G, V). Обратите внимание, что Файл данных (Input file) может содержать данные как в исходном виде, так и в виде матрицы расстояний (distance matrix). В поле Объекты (Cluster) выберите Наблюдения-строки (Cases -rows).
45
Выберите правило объединения (Amalgamation –linkage rule) и подходящую Меру близости между объектами (Distance measure).
В таблице приведены возможные варианты перевода названий методов объединения и мер расстояния. Joining ruleМетоды объединения Single linkage Метод одиночной связи (ближайшего соседа) Complite linkage Метод полной связи (дальнего соседа) Unweighted pair Невзвешенный group average метод “средней связи”, невзвешенное попарное среднее Weighted pair Взвешенный меgroup average тод средней связи Weighted centroid Взвешенный ценpair group (mетроидный метод dian)
Distance measure – Меры расстояния Squared Euclidean Квадрат Евклиdistances дова расстояния Euclidean distances
Евклидово расстояние
City (Manchattan)-block
Манхэттенское расстояние
Chebyshev distance metric Power Percent disagreement
Расстояние Чебышева Степенное Процент несовпадений (используется для качественных признаков) Коэффициент корреляции (1-r Пирсона)
Pearson r Ward method
Метод Уорда (Варда)
Проведите иерархический кластерный анализ Методом одиночной связи (Single Linkage) с использованием Евклидового расстояния (Euclidean distances). Задав начальные установки, нажмите ОК. 46
Евклидово расстояние – это геометрическое расстояние в многомерном пространстве, то есть аналог физического расстояния. Метод одиночной связи (ближайшего соседа) предполагает, что расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в сравниваемых кластерах. В результате формируются кластеры, представленные длинными "цепочками" объектов. Следующая панель дает информацию о выбранных ранее условиях (число случаев, число переменных, число пропусков, способ присоединения и мера близости).
Появляется возможность построить горизонтально (Horizontal hierarchical tree plot) или вертикально (Vertical icicle plot) расположенную дендрограмму. Нажмите соответствующую кнопку, чтобы построить каждую из дендрограмм. Посмотрите рисунки. Для продолжения анализа в нижнем левом углу нажмите на свернутую панель кластерного анализа (Joining results). По умолчанию дендрограмма строится с ветвями, соединяющимися под прямыми углами Прямоугольные ветви (Rectangular branches). Посмотрите, что получится, если значок выбора снять (дерево получится с острыми углами). Вторая галочка позволяет масштабировать ось расстояния на рисунке дендрограммы, то есть перейти к процентам от максимального расстояния (Scale tree to dlink/dmax *100%). Постройте вертикально расположенную дендрограмму с прямоугольными ветвями и с масштабированным расстоянием. 47
На графике по оси абсцисс отложены объекты (наблюдения). В данном случае – это 30 горизонтов, соответствующие 5 разрезам дерново- подзолистой почвы. По оси ординат отложено Евклидово расстояние между объектами и группами объектов, рассчитанное по свойствам объектов (наблюдений). В группы объединяются объекты (и/или их группы), находящиеся на самом близком расстоянии. Дважды щелкнув по графику можно перейти в режим оформления, где можно заменить номера объектов (наблюдений) на их имена. Для этого в появившемся меню выберите вкладку Единицы, заданные пользователем (Custom Units). Для сохранения имени горизонта в строке используйте клавишу Enter. Замените порядковые номера наблюдений названиями горизонтов. Нажмите OK. Сохраните график в файле результатов Excel.
48
Проведите иерархический кластерный анализ методом Варда с использованием Евклидового расстояния. Этот метод отличается от всех других методов, поскольку он использует методы дисперсионного анализа для оценки расстояний между кластерами. Метод Варда минимизирует сумму квадратов для любых двух кластеров, которые могут быть сформированы на каждом шаге. При использовании данного метода получаются кластеры малого размера. Результаты сохраните в файле Excel. На этой же панели меню, где строятся дендрограммы (см. стр. 47), можно сохранить в виде таблицы порядок объединения объектов - схема объединения (Amalgamation schedule), график схемы объединения (Graph of Amalgamation schedule), матрицу расстояний между объектами (Distance matrix), а также среднее и стандартное отклонение для полученных классов – Описательные статистики (Descriptive statistics). СРАВНЕНИЕ ПЕРЕМЕННЫХ. Кластерный анализ позволяет также оценивать близость переменных между собой. Для этого на первой панели в поле Объекты (Cluster) выберите Variables (Columns)..
Для 5 переменных проведите иерархический кластерный анализ методом одиночной связи и методом Варда с использованием Евклидового расстояния. Графики (2 шт.) сохраните в файле Excel.
49
МЕТОД K-СРЕДНИХ. Вернитесь в самое начало анализа и выберите Кластеризацию методом к-средних (K-means clustering). По методу K средних будет построено K кластеров, расположенных на возможно больших расстояниях друг от друга. Расчеты начинаются K кластеров, в которые объекты объединены случайным образом. Процедура состоит в изменении принадлежности объектов к кластерам так, чтобы: изменчивость внутри кластеров сделать минимальной, изменчивость между кластерами максимальной. Эта оценка производиться с помощью дисперсионного анализа. Выберите закладку Дополнительно (Advanced).
Необходимо произвести выбор переменных (Variables), по которым будет проводиться анализ (C, PHS, IL, G, V) и выбор типа анализа (для объектов или для самих переменных) в окошке Объекты (Cluster), - точно такой, как и при иерархической классификации. Укажите переменные: C, PHS, IL, G, V, и выберите анализ объектовнаблюдений (Cases (row)). Затем нужно задать Число кластеров (Number of clusters) и число итераций для расчетов (Number of iterations). Кроме этого, можно разным способом задать Начальные центры кластеров (Initial cluster centers). Для ваших данных проведите кластеризацию методом k-средних, задав 3 кластера. Число итераций возьмите по умолчанию, равное 10. Начальные центры классов задайте через одинаковые интервалы в ранжированном ряду расстояний Сортировать расстояния и выбрать наблюдения на постоянных интервалах (Sort distances and take observations at constant intervals). Нажмите ОК. 50
Результирующая панель содержит информацию о заданных ранее условиях кластерного анализа. Она позволяет оценить качество классификации с помощью таблицы Дисперсионного анализа (Analysis of variance), получить таблицу средних значений признаков для кластеров и таблицу расстояний между кластерами – Средние кластеров и Евклидовы расстояния (Cluster means & Euclidean distances), построить графики средних значений для кластеров – График средних (Graph of means), получить описательные статистики для каждого класса (Descriptive statistics for each cluster), получить таблицу принадлежности объектов к каждому классу Элементы кластеров и расстояния (Members of each cluster & distances).
Проанализируйте результаты, оценив качество классификации при помощи таблицы дисперсионного анализа (Analysis of variance). Метод K-средних 3 кластера Analysis of Variance (pc_kla.sta)- Дисперсионный анализ Признаки Between Within SS df SS df Число ст. Сумма кв. Число ст. Общая между свободы сумма кв. свободы классами внутри классов C 41,253422 2 89,541245 27 PHS 0,4869745 2 1,8676891 27 IL 2881,6445 2 291,72192 27 G 2422,0554 2 256,64453 27 V 0,5615084 2 0,5753129 27
51
F
6,219717 3,519941 133,3537 127,4048 13,17607
signif. p
Уровень значимости 0,0060027 0,0438099 1,015E-14 1,774E-14 0,0001016
Например, из данной таблицы видно, что для всех почвенных свойств уровень значимости меньше 0,05 и, следовательно, нулевая гипотеза о равенстве средних по выделенным кластерам отвергается. Варьирование между выделенными кластерами превышает внутриклассовое варьирование. Значения F-статистики, полученные для каждого признака, являются индикатором того, насколько хорошо соответствующий признак разделяет кластеры. Постройте график средних и таблицу принадлежности объектов к каждому классу. Результаты сохраните в файле Excel.
При копировании в отчет таблиц принадлежности объектов к кластерам их необходимо транспонировать и заменить порядковые номера объектов на названия горизонтов.
Повторите анализ, задав 5 классов. Результаты сохраните в файле Excel. Распечатайте отчет.
52
Вопросы к занятию 5 1. Что такое кластерный анализ? 2. Что такое аггломеративные методы кластеризации? Приведите примеры. 3. Что такое итеративные дивизивные методы кластеризации? Приведите примеры. 4. Что такое расстояние между объектами? Какие виды расстояния между объектами вы знаете? 5. Какие виды расстояний используются для качественных признаков? 6. Какие методы объединения реализованы в программе STATISTICA? 7. Что такое дендрограмма и как она строится? 8. Для каких случаев, на Ваш взгляд, удобнее вертикальная дендрограмма, а для каких горизонтальная дендрограмма? 9. На каждой из сохраненных в отчете дендрограмме проведите по 3 сечения. Опишите, как происходит процесс объединения горизонтов в классы. Какие горизонты попадают в один, а какие в разные кластеры? 10. Чем отличаются кластеры, выделенные методом одиночной связи и методом Варда? 11. Какие признаки оказались «ближе», а какие «дальше» для данного множества горизонтов? 12. В чем заключается принцип работы метода k-средних? К какому типу методов кластеризации он относится? 13. Как соотносятся результаты работы алгоритма по методу k-средних для 3 и 5 классов? 14. Одинаковое ли разбиение дают разные методы кластеризации для одних и тех же объектов? 15. Какой метод, на ваш взгляд, дает лучшее разбиение для ваших данных?
53
Занятие 6 . Метод главных компонент и дискриминантный анализ ЦЕЛЬ занятия: провести анализ данных методом главных компонент (МГК); выполнить дискриминантный анализ совокупности данных о горизонтах дерново-подзолистой почвы, оценить качество классификации; сравнить результаты анализов. МЕТОД ГЛАВНЫХ КОМПОНЕНТ осуществляет переход от исходных признаков Х1,...,Хp к новой системе координат Y1,...,Yр, называемых главными компонентами (ГК). ГК представляют собой линейные нормированные комбинации исходных признаков. Они выбираются таким образом, что среди всех возможных линейных нормированных комбинаций исходных признаков первая главная компонента Y1 обладала наибольшей дисперсией. Вторая главная компонента имеет наибольшую дисперсию среди всех оставшихся линейных преобразований, некоррелированных с первой главной компонентой и перпендикулярных первой главной компоненте. Следующие главные компоненты определяются по аналогичной схеме. Войдите в пакет STATISTICA (см. занятие №1). В программе STATISTICA откройте файл данных для 5-6 задания для своего варианта (см. занятие №3). Данные представляют собой результаты анализов образцов горизонтов, отобранных из 5 разрезов дерново-подзолистых почв Московской области. Щелкнув на кнопке Анализ (Statistics), откройте меню и затем выберите раздел Многомерный разведочный анализ (Multivariate Exploratory Technique), перейдите в раздел Анализ главных компонент и классификация (Principal Components& Classification Analysis).
На следующей появившейся панели щелкните по кнопке Переменные (Variables). В разделе Переменные анализа (Variable for analysis) задайте признаки, по которым будет производиться анализ МГК, - в нашем случае – 54
гумус, рН, содержание ила и глины, а также степень ненасыщенности. В качестве Группирующей переменной (Grouping variable) задайте переменную, где закодировано название горизонта (в данном случае Horizon).
Группирующая переменная (Grouping variable- labeling) используется для задания имен/ меток/обозначений для наблюдений. C помощью группирующей переменной можно также разделить все наблюдения на основные наблюдения, по которым проводится анализ, и на вспомогательные наблюдения, в анализе не участвующие. Для этого нужно одно из значений группирующей переменной использовать в качестве кода для задания основных наблюдений. Остальные наблюдения будут считаться вспомогательными наблюдениями. Здесь же можно задать Вспомогательные переменные (Supplementary variables), которые не будут участвовать в анализе, но их можно спроектировать на подпространство главных компонент (ГК), чтобы сделать какие-либо выводы об этих вспомогательных переменных. В нашем случае – таких переменных нет. Перейдите на закладку Дополнительно (Advanced).
55
После того, как переменные заданы, важно принять решение, будет ли анализ проводится на основе ковариаций, либо корреляций. При анализе, основанном на матрице ковариаций, на вычисляемые факторы будут влиять различия вариабельности (изменчивости) переменных, включенных в анализ. В большинстве случаев, эти различия связаны с различными единицами измерений. В нашем случае анализ будет проводиться на основе корреляционной матрицы. Поэтому выберите опцию Анализ основан на (Analysis based on) Корреляциях (Correlations). Нажмите кнопку OK. Появится новое меню. В информационном поле диалога представлена общая информация о текущем анализе.
В диалоговом окне установите Число факторов (Numbers of factors) равным 2. Если в результате, Качество представления (Quality of representation) получилось меньше 70%, то нужно увеличивать число факторов, пока качество представления не станет больше или равным 70%.
Перейдите на закладку Переменные (Variables). Выберите клавишу Факторные координаты (Factor coordinates of variables).
56
Появится таблица Факторных координат переменных на основе корреляций (Factor coordinates of the variables, based on correlations), в которой показаны координаты исходных переменных в пространстве главных компонент (факторов). Так как текущий анализ производится на основе корреляционной матрицы, выводимые результаты можно интерпретировать как корреляции соответствующих переменных с каждой ГК (с каждым фактором).
В данном случае, первая ГК (фактор 1) наиболее сильно коррелирует с переменными Humus, iL, Glina, V; а вторая - с pH. Нажмите клавишу Собственные значения (Eigenvalues), чтобы построить таблицу собственных значений (собственных чисел). Собственные значения – это доля от общей дисперсии, соответствующая каждой из компонент. В этой таблице для каждого собственного значения также представлен процент объясненной дисперсии, кумулятивное собственное значение и кумулятивный процент объясненной дисперсии. Собственные значения представлены в порядке убывания, отражая тем самым степень важности соответствующих выделенных факторов для объяснения вариации исходных данных. Когда анализируются корреляционные матрицы, сумма собственных значений равна числу переменных, для которых рассчитаны ГК (факторы), при этом "среднее ожидаемое" собственное значение равно 1. На практике применяется много критериев для правильного выбора количества ГК. Наиболее простой из них - оставить только те факторы, собственные значения которых больше или близки к 1. В данном примере, только первые два собственных значения близки 1 и они объясняют почти 75% общей дисперсии.
57
Нажмите кнопку График каменистой осыпи (Screeplot). Построенный график скопируйте в отчет.
Название графика произошло от геологического термина «осыпь», означающего каменные осколки (лом), лежащие у подножия скал. Этот график служит для определения числа ГК. На нем отображена последовательность собственных значений. Нужно определить на этом графике собственное значение, начиная с которого "горка" теряет свою кривизну и выходит на примерно постоянный уровень. Такое значение и будет искомым числом ГК. Нажмите кнопку 2М график факторов перем. (Plot var. Factor coordinates, 2D), чтобы построить проекцию переменных на плоскость 2 выбранных ГК. Скопируйте график в отчет. Так как текущий анализ основан на корреляциях, максимальное значение координаты исходной переменной в пространстве главных компонент (факторной координаты) не может превысить 1. Кроме того, квадраты всех факторных координат для всех переменных (т.е., квадраты корреляций между переменной и всеми факторами) не могут превысить значения 1. Таким образом, все факторные координаты должны попасть в единичный круг, выведенный на график. Этот круг является визуальным индикатором того, насколько хорошо каждая переменная воспроизводится текущим набором выбранных ГК (чем ближе переменная к единичной окружности, тем лучше она воспроизведена в найденной системе координат).
58
Перейдите на вкладку Наблюдения (Cases). Нажмите кнопку Факторные координаты наблюдений (Factor coordinates of cases).
Появится таблица, где указаны координаты наблюдений на ГК. Интерпретация факторных координат наблюдений делается с помощью их вкладов в дисперсию. Первым шагом выделяют наблюдения, которые имеют наибольшие значения вкладов для каждого выбранного фактора. Затем можно вы59
брать подмножество таких наблюдений, чей вклад больше среднего вклада и т.п. Скопируйте полученную таблицу в отчет.
В этой же вкладке выберите Метки групп (Grouping labels) в группе опций Опции графиков (Optio ns for plot of factor coord.). Затем нажмите кнопку 2М графики факторные наблюдения (Plot case factor coordinates, 2D) . Выберите 1-ую и 2-ю ГК. Нажмите ОК.
60
Появится график, на котором показаны все наблюдения (в данном случае горизонты) в пространстве первых двух ГК. При интерпретации результатов рассматриваются подмножества точек с отрицательными координатами и с положительными координатами по каждой из осей. Такое разбиение показывает различия, которые существуют между наблюдениями, следовательно, раскрывает скрытую структуру данных в наблюдениях. В данном случае видно, что первая ГК разделяет верхние и нижние горизонты. С помощью вкладки Описательные (Descriptive) можно оценить основные параметры распределения для наблюдений, построить корреляционную и ковариационную матрицы и обратные к ним, различные графики для основных и вспомогательных переменных.
61
ДИСКРИМИНАНТНЫЙ АНАЛИЗ. Щелкнув на кнопке Анализ (Statistics) откройте меню и выберите раздел Многомерный разведочный анализ (Multivariate Exploratory Technique), затем перейдите в раздел Дискриминантный анализ (Discriminant Analysis).
Целью анализа в данном примере является изучение дискриминации (различий) между основными горизонтами дерново-подзолистых почв, основываясь на имеющихся физико-химических свойств. На стандартной панели нажмите кнопку Переменные (Variables).
Отобразится стандартное диалоговое окно Выбрать группирующую и независимые переменные (Select one grouping var. and independent variable 62
list). В этом окне укажите группирующую переменную (переменная Horizon) и независимые переменные (гумус, рН, содержание ила и глины). Для идентификации того, к какой совокупности принадлежит каждый образец, необходимо указать коды, которые были использованы при группировке переменных. Нажмите на кнопку Коды для группирующей переменной (Codes for grouping variable), или нажмите на кнопку Все (All), или используйте звездочку (*), соответствующую отбору всех кодов.
Альтернативным образом, вы можете нажать кнопку OK на стартовой панели, и система STATISTICA автоматически просмотрит группирующую переменную(ые), и определит все коды для этих переменных.
Нажмите ОК. Появится панель, в верхней части которого отражены общие результаты дискриминантного анализа: Число переменных в модели и 63
статистика лямбда Уилкса (Wilk’s Lambda). Статистика Уилкса лямбда является статистикой, используемой для оценки мощности дискриминации в текущей модели. Ее значение меняется от 1,0 (нет никакой дискриминации) до 0,0 (полная дискриминация).
Статистика Уилкса лямбда может быть преобразована к стандартному F значению, для которого можно вычислить соответствующее p-значение. Нажмите на кнопку Переменные в модели (Summary: Variables in the model). Появится таблица результатов для текущих переменных в модели. В шапке таблицы повторены характеристики для модели в целом.
Каждое значение в первой колонке таблицы является значением статистики Уилкса лямбда для каждой переменной в модели. Чем меньше ее значении, тем сильнее вклад данной переменной в дискриминацию. Частная лямбда Уилкса - это статистика для одиночного вклада соответствующей переменной в дискриминацию между совокупностями за вычетом влияния других переменных. Это значение можно рассматривать как аналог частного коэффициента корреляции, отличие только в том, что лямбда с величиной 0,0 обозначает полную дискриминацию (т. е. соответствует коэффициенту корреляции, равному 1,0). Чем меньше ее значение в этом столбце, тем больше одиночный 64
вклад соответствующей переменной в дискриминацию. Видно, что «главными переменными» являются гумус и степень ненасыщенности. Значение толерантности определяется как 1 минус R-квадрат для соответствующей переменной со всеми другими переменными в модели. Оно дает представление об избыточности данной переменной. Если бы в модель входила каждая переменная по отдельности, то значение ее равнялось бы 1,0. Одна из целей анализа дискриминантной функции - дать исследователю возможность провести классификацию объектов. Посмотрим, насколько хорошо построенные дискриминирующие функции классифицируют горизонты. Для этого перейдите на вкладку Классификация (Classification).
Нажмите клавишу Функции классификации (Classification functions). Появится следующая таблица.
65
Функции классификации вычисляются для каждой совокупности и могут непосредственно применяться для классификации объектов. Наблюдение (горизонт в данном случае) будет попадать в ту совокупность, для которой вычислен наибольший классификационный вес. Скопируйте таблицу в отчет. Нажмите теперь на кнопку Матрица классификации (Classification Matrix). В таблице показан процент правильной классификации и дана расшифровка, к каким классам (горизонтам) были отнесены при классификации наблюдения. Вторая линия в заголовке каждой колонки приводит априорные вероятности классификации.
Можно вычислить вероятность того, что наблюдение принадлежит определенной совокупности (классу). Поскольку эта вероятность вычисляется по результатам классификации, она называется апостериорной вероятностью (т.е. вероятностью, полученной после проведенной обработки). Нажмите на кнопку Апостериорные вероятности (Posterior probabilities).
66
В таблице приведены вероятности отнесения каждого объекта к одной из групп. Строки, отмеченные звездочкой (*), указывают на неправильно классифицированные образцы. Скопируйте полученные таблицы в отчет. Оформите отчет в соответствии с образцом (см. стр. 79-81). Вопросы к занятию 6 1. Что такое собственные числа? 2. Какую долю общей дисперсии учитывает каждая компонента по отдельности? Какую долю общей дисперсии суммарно учитывают 1-ая и 2-ая компоненты? Какую долю – суммарно 1-ая, 2-ая и 3-я компоненты? 3. Какие признаки вносят наибольший вклад в каждую из компонент? 4. Зачем были построены проекции переменных на 1-ую и 2-ую ГК? 5. Что такое график «каменной осыпи»? 6. Какая информация может быть получена при проектировании объектов на 1-ую компоненту и на 2-ую компоненту? 7. Какие два объекта находятся на максимальном расстоянии при проекции объектов на 1-ую компоненту? 8. Каковы итоги анализа дискриминантных функций? 9. Что такое классифицирующая функция? 10. Выпишите классифицирующие функции для принятия решения об отнесении объекта к каждому из классов? 11. Укажите, в скольких случаях происходит ошибочная классификация? Какие объекты правильно, а какие неправильно классифицируются? 12. Выпишите объекты, которые классифицируются правильно с вероятностью более 95%, с вероятностью более 70%, с вероятностью менее 70%?
67
Пример оформления отчета
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ им. М.В.ЛОМОНОСОВА ФАКУЛЬТЕТ ПОЧВОВЕДЕНИЯ КАФЕДРА ГЕОГРАФИИ ПОЧВ
ОТЧЕТ ПО ПРАКТИЧЕСКИМ ЗАНЯТИЯМ ПО КУРСУ «МАТЕМАТИЧЕСКАЯ СТАТИСТИКА»
Работа выполнена студентом 4 курса Ивановым Иваном Ивановичем
Допускаю к сдаче зачета: Преподаватель.
Дата:
Москва 2008
68
Подпись.
69
7,41 3,30 6,72 3,32 6,52 12,83 4,98 6,78 5,18 12,60 12,07 10,49 12,35 7,62 10,10 7,53 10,44 15,90 15,54 8,13 4,64 8,25 16,55 9,03 6,34 7,93 12,03 11,93 5,72 7,47 среднее 8,99
8,79
8,83 12,42 11,57 5,55 4,95 3,17 7,83 25,01 19,08 6,04 5,45 9,00 10,22 7,70 4,65 1,89 14,89 10,18 14,83 4,27 10,22 6,63 10,74 10,61 7,36 9,87 5,04 4,22 4,94 6,64
участок участок 1 2
Занятие 1-2 Р2О5, мг/100 г
NPK60 1 2 196 171 185 183 226 204 188 196 193,6
Регрессионный анализ (занятие 4) Урожайность ячменя pH K2O, hum,% P2O5, NO3, урожай мг/100г мг/100г ц/га мг/100г 3,97 18,89 7,14 12,75 8,36 20,64 4,09 13,61 6,61 13,34 8,98 18,19 4,26 17,61 6,31 8,09 9,08 18,91 4,26 15,17 6,98 12,00 8,91 19,12 3,95 10,51 6,67 12,17 9,55 16,48 3,65 20,85 7,27 14,73 9,16 21,99 3,85 14,50 7,17 10,76 9,13 17,85 3,87 17,01 7,07 9,94 7,76 18,68 3,87 15,15 6,62 12,25 8,65 18,34 4,22 17,54 6,93 10,44 8,65 19,58 4,16 15,18 7,66 13,54 8,74 19,61 4,14 17,09 7,18 13,13 9,58 20,27 4,20 13,90 7,51 12,26 8,57 18,50 4,05 17,34 7,45 10,79 8,79 19,64 4,15 14,84 6,64 12,00 8,47 18,90 4,00 12,48 6,63 17,78 8,70 19,20 3,92 16,04 7,35 10,48 8,02 18,78 3,86 17,75 7,06 10,74 8,81 19,46 3,81 14,24 7,35 11,77 9,00 17,88 4,29 9,61 6,62 13,35 8,31 16,57 среднее 4,03 15,47 7,01 12,12 8,76 18,93
NPK30 1 2 162 190 192 161 173 191 177 154 175,0
Данные в заданиях 5-6 представляют собой результаты исследований на дерновоподзолистых почвах Московской области.
Данные в заданиях1-4 представляют собой результаты исследований на серых лесных почвах
NPK90 1 2 197 185 225 211 261 257 234 236 225,8 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 4 4 4 4 4 5 5 5 5 5 6 6 6 6 6
A1 A2 A2B B C A1 A2 A2B B C A1 A2 A2B B C A1 A2 A2B B C A1 A2 A2B B C A1 A2 A2B B C
№ Гори№ объек- разреза зонт та
Урожайность кукурузы, ц/га Гербицид г/га Контроль 1 2 0 136 185 10 135 141 20 132 109 30 134 113 среднее 135,6 4,0 1,5 0,3 0,6 0,1 3,4 0,7 0,8 0,3 0,2 1,9 0,9 0,4 0,4 0,3 5,0 0,5 0,4 0,3 0,4 5,9 2,4 0,2 0,1 0,1 9,5 1,5 0,6 0,1 0,1
4,0 4,1 4,5 4,0 4,2 4,0 4,2 4,7 4,1 4,1 3,5 4,4 4,4 4,7 3,8 3,8 4,2 4,1 4,0 5,6 3,9 3,9 3,8 4,8 4,8 4,0 4,1 3,5 3,1 4,5
9 14 23 39 36 11 7 17 14 28 10 12 9 25 38 19 8 16 36 30 12 10 26 31 31 26 8 34 38 33
35 27 56 45 70 36 28 44 43 72 30 27 30 46 59 40 33 41 57 58 36 36 45 54 63 34 27 42 56 57
21 33 8 7 0 68 46 31 21 6 29 42 10 6 4 45 46 26 21 13 56 62 29 12 0 15 53 39 23 5
Гумус, рН соле- Содерж Содер. Степень % ненавой ание физ. ила глины сыщ., %
Кластерный, дискриминантный анализы, МГК (занятия 5-6)
Подпись преподавателя
Дисперсионный анализ (занятие 3)
Практические занятия по курсу "Математическая статистика" Номер 19 Кафедра Студент
Отчет 1. Описательная статистика. Гистограммы. Студент Неизвестный Н.Н. Кафедра географии почв.
Вариант 120. Подпись преподавателя:
Дата проверки:
Таблица 1. Статистические характеристики для распределения гумуса на водоразделе (H1) и в нижней части склона (H2) Гистограмма Н1 H is togram: H 1 K-S d=,08650, p> .20; Lilliefors p> .20 Ex ted N ormal H pec is togram: H1
16
K-S d=,08650, p> .20; Lilliefors p> .20 Ex pec ted N ormal
14 16 12
14
10 12 8 6 4
10 8 6
2 4
0 3,5
2
4,0
4,5
5,0
5,5
6,0
6,5
X <= C ategory Boundary 0 3,5
4,0
4,5
5,0
5,5
Гистограмма Н2
6,0
6,5
H isXtogram: H 2 Boundary <= C ategory K-S d=,15579, p> .20; Lilliefors p<,10 Ex pec ted N ormal
9
His togram: H 2 K-S d=,15579, p> .20; Lilliefors p<,10 Ex pec ted N ormal
8 7 9 6 8 5 7 4 6 3 5 2
4
No. of obs .
30 3,99 3,93 4,05 3,99 3,71 4,21 3,86 4,15 0,02 0,16 0,03 -0,07 0,43 -1,38 0,83
No. of obs .
Valid N Mean Confid. -95.000% Confid. +95.000% Median Minimum Maximum Lower Quartile Upper Quartile Variance Std.Dev. Standard Error Skewness Std.Err. Skewness Kurtosis Std.Err. Kurtosis
H2
No. of obs . No. of obs .
Объем выборки Среднее Доверительный интервал для среднего Медиана Минимум Максимум Нижн. квартиль Верхний квартиль Дисперисия Стандартное отклонение Ошибка среднего Асимметрия Ошибка асимметрии Эксцесс Ошибка эксцесса
H1 30 5,10 4,93 5,26 5,06 4,09 6,05 4,78 5,34 0,19 0,44 0,08 0,06 0,43 0,27 0,83
1 0
3 2
3,6
3,7
3,8
3,9
4,0
4,1
4,2
4,3
X <= C ategory Boundary
1 0 3,6
Нормальные вероятностные графики 2,5
2,0
2,0
1,5
1,5
1,0
1,0
0,5
0,5 0,0
- 0,5
- 0,5
- 1,0
- 1,0
Exp ecte d No rma l Val ue
Exp ecte d No rmal Valu e
0,0
- 1,5 - 2,0
3,7
3,8
3 ,9
3,8
3,9
4,0
4,1
4,2
4,3
5, 6
5,8
6,0
X <= C ategory Boundary
N orma l P-P lot: H1
N orma l P- Plot: H2 2,5
- 2,5 3, 6
3,7
4 ,0
4, 1
4,2
4,3
Valu e
- 1,5 - 2,0 - 2,5 4,0
4,2
4,4
4 ,6
4,8
5,0 5,2 V alue
5 ,4
переменная H2 переменная H1 Диаграммы размаха (коробочки с усиками) Box & W hiske r Plo t
Bo x & W his ker P lot
6,2
6,2
6,0
6,0
5,8
5,8
5,6
5,6
5,4
5,4
5,2
5,2
5,0
5,0
4,8 4,8
4,6
4,6
4,4
4,4
4,2
4,2
4,0
4,0
3,8 3,6 3,4
H1
H2
Me an ±S D ±1 ,96* SD
3,8 3,6
точка- среднее, коробочка- ст. откл усики- 95% инт. для случ. вел.
H1
H2
Media n 25%- 75% Min-Max
точка - медиана, коробочка - квартили усики - минимум и максимум
70
6 ,2
Отчет 2. Проверка гипотез о типе распределения и о равенстве средних Студент Неизвестный Н.Н. Кафедра географии. Вариант 100. Дата проверки:
Подпись преподавателя:
Проверка гипотез о типе распределения 1. Ho: переменная Н1 подчиняется нормальному распределению Variable: Pole1, Distribution: Normal (Example_for_book.sta) Chi-Square = 0,56717, df = 3, p = 0,90391
Переменная Pole1 ; распределение: Нормальное Критерий хи-квадрат : 0,57, число ст.св. = 3, p = 0,90 Верхняя граница классов
% эмпир. накопл.эмп. частота част. Observed Cumulative
<= 4,23333 4,66667 5,10000 5,53333 5,96667 < Infinity (Бескон.)
накопл.%
Percent
ожид. частота
ожид. накоп. част.
Cumul. % Expected Cumulative
%
накопл. % разность (ожидэмп)
Percent
Cumul. % ObservedExpected 2,5 0,3 16,4 -0,2 50,2 0,8 83,9 -0,1 97,6 -1,1
1 4 11 10 3
1 5 16 26 29
3,3 13,3 36,7 33,3 10,0
3,3 16,7 53,3 86,7 96,7
0,7 4,2 10,2 10,1 4,1
0,7 4,9 15,1 25,2 29,3
2,5 13,9 33,8 33,7 13,7
1
30
3,3
100,0
0,7
30,0
2,4
100,0
0,3
p =0,90 > 0,05 => принимается Ho Вывод: распределение перем. Pole1 можно аппроксимировать нормальным распределением Участок 1 2. Проверка на нормальность
Участок 2 Variable: H2, Distribution: Normal Chi-Square test = 5,47515, df = 1 (adjusted) , p = 0,01929 9
8
8
7
7
6
6
No. of observations
No. of observations
Variable: H1, Distribution: Normal Chi-Square test = 0,48530, df = 1 (adjusted) , p = 0,48603 9
5 4
5 4
3
3
2
2
1
1 0
0 3,90
4,16
4,42
4,68
4,94
5,20
5,46
5,72
5,98
6,24
3,6562
6,50
3,7375
3,8187
3,9000
3,9812
4,0625
4,1437
4,2250
4,3062
Category (upper limits)
Category (upper limits)
p =0,48 > 0,05 => принимается Ho
p =0,01< 0,05 => Ho отвергается
3. Проверка на логнормальность Variable: H2, Distribution: Log-normal Chi-Square test = 5,44993, df = 1 (adjusted) , p = 0,01957
Variable: H1, Distribution: Log-normal Chi-Square test = 0,23387, df = 1 (adjusted) , p = 0,62867 10
9
9
8
8
7 No. of observations
No. of observations
7 6 5 4
6 5 4 3
3 2
2
1
1
0
0 3,7813
4,1250
4,4688
4,8125
5,1563
5,5000
5,8438
6,1875
3,6562
6,5313
p =0,63 > 0,05 => принимается Ho
3,7375
3,8187
3,9000
3,9812
4,0625
4,1437
Category (upper limits)
Category (upper limits)
p =0,02< 0,05 => Ho отвергается
71
4,2250
4,3062
Отчет 2. (продолжение) Проверка гипотез о типе распределения и о равенстве средних Студент Неизвестный Н.Н. Кафедра географии. Вариант 100. Дата проверки:
Подпись преподавателя:
Участок 1 Участок 2 4. Проверка на возможность аппроксимации равномерным распределением Va riable: H1, Distribution: Rectangu lar Chi- Squar e test = 10,15408, df = 1 ( adjus ted) , p = 0,00 144
Var iable: H2, Distr ibution: Rectangular Chi- Square test = 1,12596, df = 1 (adjusted) , p = 0,28864
9
10
8
9 8
7
7
6
6
5
5 4 4 No. of observations
N o. of obs erv ations
3 2 1
3 2 1
0 3, 90
4,1 6
4,42
4,68
4,94
5 ,20
5, 46
5,72
5,98
6,24
0
6,50
3,8125
3,8750
3,9375
Catego ry ( up per limits)
4,0000
4,0625
4,1250
4,1875
4,2500
4,3125
Category ( upper limits)
p =0,00 < 0,05 => Ho отвергается
p =0,28 > 0,05 => принимается Ho
5. Проверка на возможность аппроксимации гамма распределением Var iab le: H1 , Distribution: Gamma Chi- Squar e test = 0,34286, d f = 1 (adjust ed) , p = 0,558 18
Variable: H2, Distribution: Gamma Chi- Square test = 1,51017, df = 1 ( adjusted) , p = 0,21911
9
8
8
7
7
6
6
5
5 4 4 3 No. of observations
N o. of obs erv ations
3
2
2
1
1
0
0 3, 90
4,1 6
4,42
4,68
4,94
5 ,20
5, 46
5,72
5,98
6,24
6,50
3,80
3,85
3,90
3,95
p =0,56 > 0,05 => принимается Ho
Сравнение средних Переменные
H1 vs. H2
Сред- Среднее нее Н1 Н2 Mean 5,10
Mean 3,99
4,00
4,05
Valid N 30
Std.Dev. 0,44
4,15
4,20
4,25
4,30
p =0,22 > 0,05 => принимается Ho
Ho: генеральное среднее для Н1 = генер-му среднему для Н2 t-значение
число ст. св.
ур. значимости
t-value 13,01
df 58,00
p 0,00
t separ.
df
p
13,01
36,11
0,00
если дисперсии однородны если дисперсии неоднородны p =0,00 < 0,05 => Ho отвергается Среднее Н1 не равно Среднему Н2
Проверка дисперсий на однородность Но: дисперсии однородны Объем Объем Ст. откл. Ст. откл. F- отно- ур. знавыборки выборк Н1 Н2 шение чимоН1 и Н2 сти Valid N 30
4,10
Category ( upper limits)
Catego ry ( up per limits)
Std.Dev. 0,16
p =0,00 < 0,05 => Ho отвергается =>
F-ratio 8,03
p 0,00
дисперсии неоднородны
72
Отчет 3. Дисперсионный анализ
Студент Неизвестный Н.Н. Кафедра географии.
Вариант 100. Подпись преподавателя:
Дата проверки:
Результаты дисперсионного анализа Нулевая гипотеза: Средние по градациям фактора равны Составля Сумма Число ст. Средний Уровень ющие квадратов свободы квадрат F-критерий значимости SS Degr. of MS F p freedom Фактор 1 Herbicids 4246 3 1415 3,146 0,064199 33039 3 11013 24,475 Фактор 2 Fertilizer 0,000003 Взаимо- Herbicids*F 4186 9 465 1,034 0,455866 действие ertilizer Случ. Error 7200 16 450 составл. Выводы: На урожай влияет доза удобрения Доза гербицида
Herb icids ; Unw eight ed Me ans Cu rrent effec t: F(3, 16)= 3,145 5, p= ,0542 0 Effec tive h ypoth esis decom pos ition Ve rtical bars deno te 0,9 5 co nfiden ce in terva ls 2 40
Herbicids
2 30
2 10 2 00
Но: Н1: Но:
Ошибка 95% Доверительный интервал для среднего среднего
Maize yeilds Maize yeilds Maize yeilds Maize yeilds
0 10 20 30
2 20
Средний урожай кукурузы
Принимается:
181,5 186,8 211,9 190,6
7,5 7,5 7,5 7,5
165,6 170,9 196,0 174,7
197,4 202,7 227,8 206,5
1 90 Ma ize ye ilds
1 80 1 70 1 60 1 50
0
10
20
30
H erbic ids
Доза удобрения
Fertil izer; U nwe ighted Mea ns Cur rent e ffect : F(3, 16)=2 4,475 , p=, 00000 E ffect ive hypothe sis d ecom posi tion Ve rtical bars denot e 0,9 5 con fiden ce in terval s 28 0
Fertilizer
26 0
22 0 20 0
Ошибка 95% Доверительный среднего интервал для среднего
Maize yeilds Maize yeilds Maize yeilds Maize yeilds
0 1 2 3
24 0
Средний урожай кукурузы 147,7 182,6 204,6 235,9
7,5 7,5 7,5 7,5
131,8 166,7 188,7 220,0
163,6 198,5 220,5 251,8
18 0 Maiz e ye ilds
16 0 14 0 12 0 10 0
0
1
2
3
Fert ilizer
Сравнение средних по градациям Herbicids Но: среднее по градации 0 и среднее по градации фактора гербицид 10 - равны LSD test -НЗР Herbicids {1} {2} {3} {4} отличаются средние 1 и 3, 1 0 0,628631 0,011394 0,404136 Выводы: 2 10 0,628631 2 и 3, 3 и 4 0,031016 0,720759 0,062661 3 20 0,011394 0,031016 4 30 0,404136 0,720759 0,062661 Newman-Keuls test -Критерий Ньюмена-Койлса Herbicids
1 2 3 4
0 10 20 30
{1}
{2} {3} 0,628774 0,050390 0,628774 0,075298 0,050390 0,075298 0,674219 0,720889 0,062788
{4} 0,674219 0,720889 0,062788
73
Выводы:
отличаются средние 1 и 3, 3и4
Отчет 3 (продолжение). Дисперсионный анализ
Студент Неизвестный Н.Н. Кафедра географии.
Вариант 100. Подпись преподавателя:
Дата проверки:
Но: среднее по градации 0 и среднее по градации Сравнение средних по градациям Fertilizer LSD test -НЗР фактора удобрение 1 равны {1} {2} {3} {4} 0 1 2 3 147,7 182,6 204,6 235,9 1 0 отличаются средние 1 и 2, 0,004592 0,000063 0,000000 Выводы: 2 1 0,004592 0,054756 0,000126 1 и 3, 1 и 4, 2 и 4, 3 и 4 0,009488 3 2 0,000063 0,054756 4 3 0,000000 0,000126 0,009488 Newman-Keuls test -Критерий Ньюмена-Койлса Fertilizer {1} {2} {3} 0 1 2 147,7 182,6 204,6 1 0 0,004733 0,000319 2 1 0,004733 0,054889 3 2 0,000319 0,054889 4 3 0,000186 0,000484 0,009645
{4} 3 235,9 0,000186 0,000484 0,009645
Выводы:
отличаются средние 1 и 2, 1 и 3, 1 и 4, 2 и 4, 3 и 4
Изменение средних значений по взаимодействию градаций факторов Her bicids *Fer tilizer ; LS Means Current effect: F( 9, 16)=1,0337, p=,45587 Eff ectiv e hypothes is decomposition V ertical bars denote 0,95 confidence intervals 320 300 280 260 240 220 200 180 Maize yeilds
160 140 120 100 80
0
10
20
30
Her bicids
Fertiliz er 0 Fertiliz er 1 Fertiliz er 2 Fertiliz er 3
Условия применимости дисперсионного анализа: Проверка однородности дисперсий Но: дисперсии однородны по градациям фактора … Харлета Кохрена Бартлетт Число ст. Уровень а свободы значимости Hartley Cochran Bartlett df Effect: "Herbicids" - фактор гербициды Maize yeilds 2,849967 0,387237 3,045968 Effect: "Fertilizer" - фактор удобрение Maize yeilds 2,502890 0,380452 1,862968 Effect: "Herbicids"*"Fertilizer" - взаимодействие Maize yeilds 43261,21 0,428664 23,54733
p 3
0,384592 Но:
3
0,601329 Но:
15
0,073190 Но:
74
Отчет 4. Регрессионный анализ Студент Неизвестный Н.Н. Кафедра географии. Вариант 100. Дата проверки: Подпись преподавателя: Результаты дисперсионного анализа. Регрессия как фактор. Источник варьироСумма числ.ст. средний F-критерий уровень Но: предсказание Y по регресвания значим. квадр. свободы. квадрат сионной модели не лучше Sums of df Mean F p-level Squares Squares предсказания Y по его среднему 145,76 0,000 42,541 5 8,50816 Регрессия Regress. Residual 0,817 14 0,05837 Остатки Total 43,358 Сумма Вывод: Но - отвергается, модель можно считать адекватной и использовать для предсказания Y Результаты расчета регрессии для переменной : Yield (Example_for_n4) R= ,99468326 RІ(коэф. детерминации)= ,98939479 скорректированный RІ= ,98740631 F(3,16)=497,56 p<,00000 Стандартная ошибка: 0,18699 стандартизир. перем. обычные перем. коэфф. станд.ош. коэфф. станд.ош. Intercpt Св.член Humus P2O5 pH K2O NO3
Humus P2O5 pH K2O NO3 Yield
BETA
BETA
t-крит.
уровень
B
коэфф-тов В t(16) 4,298 1,676 2,564 0,122 0,0399 0,906 0,297 3,048 1,140 0,0437 0,517 0,020 26,099 -0,020 0,0396 -0,077 0,155 -0,493 0,580 0,0445 0,308 0,024 13,055 -0,001 0,0395 -0,002 0,139 -0,016 Yield= 4,29+0,91 * Humus + 0,52 * P2O5 + 0,31*K2O Коэффициенты корреляции между переменными Humus P2O5 pH K2O NO3 1,00 -0,08 0,31 0,06 0,23 -0,08 -0,16 0,11 1,00 -0,50 1,00 0,31 -0,16 0,21 0,01 0,06 0,21 0,17 -0,50 1,00 1,00 0,23 0,11 0,01 0,17 0,06 -0,04 0,02 0,25 0,84
значим. 0,022 0,009 0,000 0,629 0,000 0,987
Но: bo=0 b1=0 b2=0 b3=0 b4=0 b5=0
Ho Ho Ho Ho Ho Ho
Yield 0,06 0,84 -0,04 0,02 0,25 1,00
Correlations (data_zan_4_a.sta 6v*20c)
Hu m u s
P 2O5
K2 O
Yield
75
-> H1 -> H1 -> H1 -> H1
Отчет 4 (продолжение). Регрессионный анализ Студент Неизвестный Н.Н. Кафедра географии. Вариант 100. Дата проверки: Гистограмма для остатков
Подпись преподавателя: Остатки на нормальном вероятностном графике
Distr ibu tion of Raw r esiduals Ex pecte d Nor ma l
Nor mal Pr obability Plot of Re siduals 2,0
7 1,5 6 1,0 5
0,5
4
0,0
Expe cted Normal Valu e
No of obs
- 0,5
3
2
1
0 -0 ,4
- 0,3
-0 ,2
- 0,1
0,0
0, 1
0,2
0 ,3
- 1,0 - 1,5
- 2,0 - 0,3
- 0,2
- 0,1
0,0
0,1
0, 2
0,3
0,4
Re siduals
0,4
График зависимости наблюдаемых значений урожая (ось y) от предсказанных значений (ось x)
График зависимости остатков (ось у) от предсказанных значений (ось x)
Pr edic ted v s. O bser ve d V alue s
Pr edic ted vs. Residual Sc or es Depend ent var iab le: Y ield
Depen dent var iab le: Yield 19
0,4
18
0,3
17 0,2 16 0,1 15 R esidu als
O bserved Valu es
14 13
0,0
- 0,1
- 0,2
12
- 0,3
11 11
12
13
14
15
16
17
18
11
19
12
13
14
15 Pred icted V alues
95 % conf idenc e
Pr ed icte d V alue s
Результаты пошаговой регрессии с включением (Forward) БЕТА Св.член P2O5 K2O Humus
P2O5 K2O Humus
1,141 0,577 0,116
Стд.Ош. БЕТА
B
Стд.Ош. B
t(17)
p-уров.
3,937 1,153 3,413 0,004 0,000 0,040 0,517 0,018 28,550 0,040 0,306 0,021 14,459 0,000 0,004 0,035 0,863 0,259 3,332 Yield= 3,94 + 0,52 * P2O5 + 0,31* K2O + 0,86 * Humus
Шаг +в /- Множест. ис R 1 0,8450 2 0,9836 3 0,9904
Итоги по шагам R-квадр. Множест. измен. R-квадр. 0,7140 0,7140 0,9675 0,2536 0,9808 0,0133
Fвкл/искл 44,9294 132,7081 11,0999
76
p-уров. 0,0000 0,0000 0,0042
Перем. включ. 1 2 3
16
17
18 95% c onf idence
19
Дата проверки: Подпись преподавателя: Отчет 5. Кластерный анализ Студент Неизвестный Н.Н. Кафедра географии. Вариант 100. 1. Иерархическая классификация Tree Diagram for 30 Cas es Single Link age Euclidean dist ances 10
8
6
4 L in k a g e D is ta n c e
2
0
C
C B
C C
C B
C B
C
A2B B B A2B A1 A2 A2 A2 A1 A1 A2B A2B A2B A1 A1 A2 A2 A2B A2 A1
Tree Diagram for 30 Cases Ward`s method Euclidean distances 250
200
150
100 Lin ka ge D is tan ce
50
0
C
C
C
C
B
C
B
B
C
A2B B
A2B B A2B A2 A2 A2B A2 A1 A1 B A2B A2B A2 A2 A2 A1 A1 A1 A1
Tree Diagram for 5 Variables Single Linkage Euclidean distances
Tree Diagram for 5 Variables Ward`s method Euclidean distances
120
350
100
300 250
80
200 60 150
20
0
G
IL
PHS
V
C
Linkage D ista nce
L in ka ge D ista nce
40
77
100 50 0
G
IL
PHS
V
C
Дата проверки: Отчет 5 (продолжение). Кластерный анализ Студент Неизвестный Н.Н. Кафедра географии. Вариант 100. Метод K-средних
3 кластера
Analysis of Variance (pc_kla.sta)- Дисперсионный анализ Признаки Between Within SS df SS df F Сумма кв. Число ст. Сумма кв. Число ст. между свободы между свободы классами классами C PHS IL G V
41,253422 0,4869745 2881,6445 2422,0554 0,5615084
2 2 2 2 2
89,541245 1,8676891 291,72192 256,64453 0,5753129
Объекты 1-го кластера N=8 C_4 B раз.1 C_5 C раз.1 C_19 B раз.4 C_20 C раз.4 C_24 B раз.5 C_25 C раз.5 C_29 B раз.6 C_30 C раз.6
27 27 27 27 27
signif. p
6,219717 3,519941 133,3537 127,4048 13,17607
70
60
60
50
50
40
40
30
30
20
20
10
IL
G
V
0 -10
Variables
5 кластеров Analysis of Variance (pc_kla.sta) Between SS df C 122,03867 PHS 0,5546677 IL 2947,4778 G 2455,95 V 0,5645458 Cluster 1 N=9 A2B раз.1 A2B раз.2 B раз.2 C раз.2 B раз.3 C раз.3 A2B раз.4 A2B раз.5 A2B раз.6
C_3 C_8 C_9 C_10 C_14 C_15 C_18 C_23 C_28
Cluster No. 1 Cluster No. 2 Cluster No. 3 Cluster No. 4
10
Cluster No. 1 Cluster No. 2 Cluster No. 3
0
PHS
Members of Cluster 3 N=13 A1 раз.1 C_1 A2 раз.1 C_2 A1 раз.2 C_6 A2 раз.2 C_7 A1 раз.3 C_11 A2 раз.3 C_12 A2B раз.3C_13 A1 раз.4 C_16 A2 раз.4 C_17 A1 раз.5 C_21 A2 раз.5 C_22 A1 раз.6 C_26 A2 раз.6 C_27
Plot of Means for Each C lust er
Plot of Means for E ach Cluster
C
Уровень значимости 0,0060027 0,0438099 1,015E-14 1,774E-14 0,0001016
Members of Cluster 2 N=9 A2B раз.1 C_3 A2B раз.2 C_8 C_9 B раз.2 C_10 C раз.2 C_14 B раз.3 C_15 C раз.3 A2B раз.4 C_18 A2B раз.5 C_23 A2B раз.6 C_28
70
-10
Подпись преподавателя:
C
P HS
IL
G
V
Variables
4 4 4 4 4
Cluster 2 N=8 B раз.1 C раз.1 B раз.4 C раз.4 B раз.5 C раз.5 B раз.6 C раз.6
Within SS df 8,7559967 1,7999959 225,88867 222,75 0,5722755
C_4 C_5 C_19 C_20 C_24 C_25 C_29 C_30
25 25 25 25 25
Cluster 3 N=3 A1 раз.1 A1 раз.2 A1 раз.4
signif. F p 87,11078 2,655E-14 1,925934 0,1373336 81,55228 5,694E-14 68,90993 3,928E-13 6,165581 0,0013542
C_1 C_6 C_16
78
Cluster 4 N=2 A1 раз.5 A1 раз.6
C_21 C_26
Cluster 5 N=8 A2 раз.1 C_2 A2 раз.2 C_7 A1 раз.3 C_11 A2 раз.3 C_12 A2B раз.3C_13 A2 раз.4 C_17 A2 раз.5 C_22 A2 раз.6 C_27
Cluster No. 5
Отчет 6. Метод главных компонент Дата проверки: Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
1 2 3 4 5
Кумулятивые Собствен. % общей Собствен. % общей значения дисперсии значения дисперсии Eigenvalue % Total Cumulati- Cumulative % ve eigenv. 2,804818 56,09637 2,804818 56,0964 0,930753 18,61505 3,735571 74,7114 0,728369 14,56737 4,463940 89,2788 0,420163 8,40325 4,884102 97,6820 0,115898 2,31795 5,000000 100,0000
Проекция переменных на 1-у и 2-ю ГК
Projection of the variables on the factor-plane ( 1 x
Факторные координаты переменных на основе корреляций Factor 1 Factor 2 ГК1 ГК2 Humus 0,621709 -0,144134 pH -0,377633 0,904197 iL -0,927706 -0,245346 Glina -0,870322 -0,162209 V 0,810919 0,076803
1,0
2)
pH
0,5
V 0,0
Humus
Glina iL Factor 2 : 18,62%
-0,5
-1,0 -1,0
-0,5
0,0
0,5
1,0
Factor 1 : 56,10%
График каменной осыпи
Eigenvalues of correlation matrix Active variables only 3,5 3,0
56,10%
2,5 2,0 1,5 Eigenvalue
Координаты наблюдений при проекции на ГК ГК1 ГК2 Горизонт Horizon Factor 1 Factor 2 1 1,02216 -0,47805 A1 2 0,82514 0,88702 A2 3 -0,22044 -0,46713 A2B 4 -1,29634 -0,85073 B 5 -2,08427 -0,19385 C 6 2,03219 0,30616 A1 7 1,30108 0,14997 A2 8 0,62423 1,76254 A2B 9 -0,19439 -0,81788 B 10 -0,34215 -0,58350 C 11 1,59913 -0,15137 A1 12 1,21859 1,19874 A2 13 -0,17538 1,26837 A2B 14 -2,35219 1,30557 B 15 -2,53471 -0,59746 C 16 1,14668 -0,35424 A1 17 2,36850 -0,40942 A2 18 0,44697 -0,51262 A2B 19 -1,43035 -1,37522 B 20 -1,67325 2,15893 C 21 2,87122 -0,98677 A1 22 1,79848 1,32774 A2 23 -0,66253 -0,32805 A2B 24 -1,40778 -1,28481 B 25 -2,18431 0,17789 C 26 2,22900 -0,41996 A1 27 1,89510 -0,08779 A2 28 -0,29709 0,24098 A2B 29 -1,36040 -1,73988 B 30 -3,16288 0,85479 C
Подпись преподавателя:
18,62%
1,0
14,57% 8,40%
0,5
2,32% 0,0 -0,5 0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
Eigenvalue number
79
4,0
4,5
5,0
5,5
6,0
Отчет 6 (продолжение). МГК и Дискриминантный анализ Студент Неизвестный Н.Н. Кафедра географии. Вариант 100. Дата проверки:
Подпись преподавателя:
Проекция наблюдений на ГК1 И ГК2 Projection of the cases on the factor-plane ( 1 x 2) Cases with sum of cosine square >= 0,00 Labelling variable:Horizon 4 3 C A2B
2 B
A2B A2
C
1
C Factor 2: 18,62%
B B B
-1
A1 A2 A1A2 A2BA2B A1 A2 A1 A1 A2B C B A2B
C C
0
A2 A2
A1
B -2 -3 -4 -5
-4
-3
-2
-1
0
1
2
Factor 1: 56,10%
Результаты дискриминантного анализа Итоги анализа дискриминантной функции Число переменных в моделе: 5; Группирующая Horizon (5 grps) Лямбда Уилкса: ,03214 прибл.. F (20,70)=6,4221 p< ,0002 Уилкса лямбда Wilks' Lambda Humus 0,104428 pH 0,038698 iL 0,043655 Glina 0,040627 V 0,049667
Частная Уровень Толерантност 1-Толер. лямбда F-исключ. значимости ь (R-кв.) Partial F-remove p-level Toler. 1-Toler. Lambda -4,21 (R-Sqr.) 0,307773 11,80802 0,000035 0,83096 0,16904 0,830533 1,07124 0,395549 0,925299 0,074701 0,736232 1,88091 0,151337 0,617279 0,382721 0,791097 1,38635 0,272695 0,608977 0,391023 0,647108 2,86302 0,048736 0,837269 0,162731
80
3
4
5
Отчет 6 (продолжение). Дискриминантный анализ Студент Неизвестный Н.Н. Кафедра географии. Вариант 100. Дата проверки: Классификационная функция Classification Functions; grouping: VAR2 (pc_kla.sta) B A1 A2 A2B p=,20000 p=,20000 p=,20000 p=,20000 C 0,7 4,0 1,9 1,1 PHS 89,8 85,3 87,2 91,4 IL 1,4 -0,6 -1,0 0,4 G 2,1 2,3 2,3 2,1 V 41,7 72,5 76,9 55,7 Consta -265,3 -232,1 -232,1 -254,0
Подпись преподавателя:
C p=,20000 0,6 95,0 1,8 2,1 35,2 -301,8
Классификационная матрица Classification Matrix (pc_kla.sta) Rows: Observed classifications - строки : Наблюдаемая классификация Columns: Predicted classifications - предсказания Percent B A1 A2 A2B C Correct p=,20000 p=,20000 p=,20000 p=,20000 p=,20000 Процент правильной классификации B 66,7 4 0 0 1 1 A1 66,7 0 4 2 0 0 A2 100,0 0 0 6 0 0 A2B 100,0 0 0 0 6 0 C 83,3 1 0 0 0 5 Total 83,3 5 4 8 7 6 Апостеририорные вероятности Posterior Probabilities (data_zan_5_6) Incorrect classifications are marked with * Observed A1 A2 A2B B C 1 A1 0,999084 0,000666 0,000247 0,000003 0,000000 2 A2 0,006776 0,930802 0,062290 0,000106 0,000025 3 A2B 0,000001 0,001540 0,583571 0,313252 0,101636 4 B 0,000000 0,000001 0,025817 0,721818 0,252364 5 C 0,000000 0,000000 0,006276 0,335943 0,657782 6 A1 0,646745 0,353186 0,000069 0,000000 0,000000 7 A2 0,000120 0,991941 0,007922 0,000015 0,000001 8 A2B 0,000203 0,381981 0,617606 0,000115 0,000096 * 9 B 0,000002 0,002368 0,484000 0,453401 0,060229 * 10 C 0,000000 0,000240 0,568432 0,335546 0,095782 * 11 A1 0,310134 0,294119 0,395648 0,000095 0,000004 12 A2 0,000487 0,949403 0,050101 0,000007 0,000001 13 A2B 0,000002 0,005073 0,971755 0,007574 0,015596 * 14 B 0,000000 0,000000 0,008140 0,062747 0,929113 15 C 0,000000 0,000000 0,000348 0,402088 0,597565 16 A1 0,774727 0,196370 0,028784 0,000116 0,000003 17 A2 0,000224 0,989558 0,010217 0,000001 0,000000 18 A2B 0,000070 0,004454 0,976331 0,017791 0,001354 19 B 0,000000 0,000001 0,006878 0,887244 0,105877 20 C 0,000000 0,000107 0,097017 0,041255 0,861621 21 A1 0,999998 0,000002 0,000000 0,000000 0,000000 22 A2 0,002868 0,995681 0,001452 0,000000 0,000000 * 23 A2B 0,000005 0,001086 0,438781 0,470973 0,089154 24 B 0,000000 0,000000 0,005690 0,821646 0,172664 25 C 0,000000 0,000000 0,000971 0,216701 0,782328 26 A1 1,000000 0,000000 0,000000 0,000000 0,000000 27 A2 0,063304 0,931947 0,004747 0,000001 0,000000 28 A2B 0,000242 0,019863 0,883921 0,079929 0,016046 29 B 0,000000 0,000000 0,004779 0,924543 0,070678 30 C 0,000000 0,000000 0,000444 0,076238 0,923319
81
Вопросы к теоретическому курсу 1. Понятие об испытании в многомерном статистическом анализе. 2. Многомерные случайные величины. Представление данных в формальном виде. 3. Этапы анализа исследуемой реальной системы. 4. План сбора исходной информации в почвоведении. 5. Первичная обработка данных. 6. Случайный вектор. Понятие ковариации. 7. Классификация типов данных и выбор способа анализа зависимостей. 8. Исследование зависимостей в случае многомерных данных. 9. Обобщение одномерных дисперсионных моделей на многомерный случай. 10. Разложение дисперсий при многомерном дисперсионном анализе. 11. Обобщение одномерных регрессионных моделей на многомерный случай. 12. Пошаговая регрессия 13. Статистическая значимость параметров регрессии и ее оценка. 14. Множественный и частный коэффициент корреляции. 15. Сходство и различие почвенных объектов. 16. Понятие расстояния между объектами. Виды расстояний. 17. Кластерный анализ. Иерархические схемы классификации. 18. Понятие о дискриминантном анализе. 19. Метод главных компонент. 20. Визуализация многомерных наблюдений.
82
ОГЛАВЛЕНИЕ: Занятие 1. Ввод данных. Описательная статистика (анализ единичной выборки). Анализ распределений. Гистограммы
3
Вопросы к занятию 1
13
Занятие 2. Проверка гипотез о типе распределения. Сравнение средних
14
Вопросы к занятию 2
20
Занятие 3. Двухфакторный дисперсионный анализ
21
Вопросы к занятию 3
30
Занятие 4. Регрессионный анализ
31
Вопросы к занятию 4
43
Занятие 5. Кластерный анализ
44
Вопросы к занятию 5
53
Занятие 6 . Метод главных компонент и дискриминантный анализ
54
Вопросы к занятию 6
67
Пример оформления отчета
68
Вопросы к теоретическому курсу
82
83
Юлия Львовна Мешалкина, Вера Петровна Самсонова
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА В ПОЧВОВЕДЕНИИ Практикум
84