АСТРАХАНСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
А.Е. МАРТЬЯНОВА
МАТЕМАТИЧЕСКИЕ МЕТОДЫ МОДЕЛИРОВАНИЯ В ГЕОЛОГИИ Ча...
7 downloads
207 Views
2MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
АСТРАХАНСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
А.Е. МАРТЬЯНОВА
МАТЕМАТИЧЕСКИЕ МЕТОДЫ МОДЕЛИРОВАНИЯ В ГЕОЛОГИИ Часть II
Учебное пособие для студентов очной и заочной форм обучения специальности 130304.65 «Геология нефти и газа»
Астрахань 2008
Мартьянова А.Е. Математические методы моделирования в геологии
2
УДК 518 : 55 ББК 26.3 Рецензент: зав. каф. ГНГ АГТУ, д.г.-м.н., проф. Н.Н. Гольчикова
Учебное пособие рассмотрено и рекомендовано к печати на заседании методического совета специальности 130304.65 «Геология нефти и газа» (протокол № 6 от 02.09.08 г.)
Мартьянова А.Е. Математические методы моделирования в геологии. Часть II: Учебное пособие для студентов очной и заочной форм обучения специальности 130304.65 «Геология нефти и газа». – Астрахань: АГТУ, 2008. – 190 с.
Настоящее учебное пособие подготовлено по материалам учебного курса, посвященного математическим методам в геологии, который читался автором для направления 650100 «Прикладная геология». В пособии рассмотрены сущность и условия применения одномерных, двумерных и многомерных статистических моделей, методы математического описания пространственных геологических закономерностей.
В
процессе
освоения
материала
пособия
предполагается
выполнение рассматриваемых примеров и задач на компьютере в двух популярных программных
пакетах:
электронных
таблицах
статистическом пакете STATISTICA фирмы StatSoft.
2
Excel
корпорации
Microsoft
и
Мартьянова А.Е. Математические методы моделирования в геологии
3
СОДЕРЖАНИЕ Предисловие ............................................................................................................ 4 Введение ......................................................Ошибка! Закладка не определена. Лабораторная работа № VI. Многомерные статистические модели. Многомерный корреляционный анализ. Множественная регрессия..................... 6 Лабораторная работа № VII. Многомерные статистические модели. Кластерный анализ. Факторный анализ................................................................ 299 Лабораторная работа № VIII. Многомерные статистические модели. Задачи распознавания образов в геологии .......................................................................... 95 Лабораторная работа № IX. Моделирование пространственных переменных. Аппроксимация поверхностей тренда полиномами ............................................ 105 Лабораторная работа № X. Оптимизация ........................................................ 126 Контрольные вопросы ........................................................................................ 136 Литература........................................................................................................... 138 Приложения......................................................................................................... 140
Мартьянова А.Е. Математические методы моделирования в геологии
4
ПРЕДИСЛОВИЕ Настоящее учебное пособие подготовлено по материалам учебного курса, который читался автором для студентов направления 650100 «Прикладная геология»
по
дисциплине
«Математические
методы
моделирования
в
геологии». Пособие является уже вторым изданием и в значительной мере расширено и дополнено. Пособие состоит из введения, списка литературы, приложений и десяти разделов: Лабораторная работа № I. «Одномерные статистические модели. Сущность и условия применения. Простейшие преобразования количественной геологической информации». Лабораторная работа № II. «Одномерные статистические модели. Статистические характеристики, используемые в геологии. Законы распределения. Интервальные оценки свойств геологических объектов». Лабораторная работа № III. «Одномерные статистические модели. Статистическая проверка геологических гипотез». Лабораторная работа № IV. «Одномерные статистические модели. Однофакторный и двухфакторный дисперсионный анализ в геологии». Лабораторная работа № V. «Двумерные статистические модели. Корреляционный анализ. Регрессионный анализ». Лабораторная Многомерный Лабораторная
работа
№
VI.
корреляционный работа
№
VII.
«Многомерные анализ.
статистические
Множественная
«Многомерные
модели.
регрессия».
статистические
модели.
Кластерный анализ. Факторный анализ». Лабораторная работа № VIII. «Многомерные статистические модели. Задачи распознавания образов в геологии». Лабораторная работа № IX. «Моделирование пространственных переменных. Аппроксимация поверхностей тренда полиномами». Лабораторная работа № X. «Оптимизация». Каждый раздел содержит примеры, решение которых подробно рассматривается в пособии и задачи, для решения которых, как правило, приводятся необходимые указания и теоретические сведения. В основу учебного пособия положены материалы, подобранные из источников [1, 4
Мартьянова А.Е. Математические методы моделирования в геологии
5
9 – 11, 17]. Обращение этим к источникам определяет круг используемых в пособии примеров и задач, решение которых рассматривается на основе использования современного программного обеспечения: электронных таблиц Excel корпорации Microsoft и статистического пакета STATISTICA 6.0 фирмы StatSoft,
Inc.
При
рассмотрении
теоретических
вопросов
широко
использовались источники [4 – 6, 10 – 12, 19]. Для
дополнительного
изучения
возможностей
рассматриваемого
программного обеспечения по обработке статистических данных можно порекомендовать обращение к источникам [2, 3, 7, 8, 16, 18, 20]. В конце пособия приводится список контрольных вопросов. Из источника [3] в приложении XIII приводится англо-русский словарь терминов пакета STATISTICA и статистических терминов. В приложении XIV приводится краткий справочник по основным функциям Excel, используемым в вычислениях, составленный по справочным материалам программы. В приложении XV приводится краткий справочник по использованию пакета анализа Excel. Учебное
пособие
адресовано
студентам-геологам,
изучающим
математические методы моделирования в геологии, но также может быть полезно преподавателям и специалистам. Хочу
поблагодарить
студентов
потока
ДХГ-III
Астраханского
государственного технического университета, во многом благодаря которым состоялось данное учебное пособие.
Мартьянова А.Е. Математические методы моделирования в геологии
6
ЛАБОРАТОРНАЯ РАБОТА № VI. МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МОДЕЛИ. МНОГОМЕРНЫЙ КОРРЕЛЯЦИОННЫЙ АНАЛИЗ. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ Любое геологическое явление может быть охарактеризовано множеством признаков, поддающихся наблюдению и измерению. Геологические объекты должны рассматриваться как системы, зависящие от большого числа факторов и требующие для своего описания многомерного признакового пространства. Так, например, магматические породы сходного минерального и химического составов могут обладать некоторыми петрохимическими особенностями, определяющими их специфическую рудоносность. Эти особенности не поддаются выявлению с первого взгляда, однако они могут быть установлены путем целенаправленной статистической обработки результатов химических анализов пород. При решении подобных задач необходимо совместное рассмотрение комплекса изучаемых признаков, то есть создание многомерной статистической модели. В качестве математической модели значений комплекса признаков рассматривается многомерная случайная величина, которая часто называется случайным вектором. Многомерные модели подразумевают вероятность нормального статистического распределения рассматриваемых случайных величин или хотя бы возможности их нормализации. Однако статистические критерии для большинства процедур многомерного анализа разработаны при очень сильных ограничениях или основываются на логических соображениях. Некоторые многомерные модели и методы (например, метод главных компонент и многие методы распознавания образов) вообще не имеют статистического обоснования, а критерии значимости для них еще не созданы. Вследствие сложных стохастических взаимосвязей между изучаемыми признаками (переменными) часто не удается принять правильного решения относительно каждой из них. В таких случаях очень эффективно всестороннее исследование
системы
с
выделением 6
наиболее
важных
факторов,
Мартьянова А.Е. Математические методы моделирования в геологии
7
объединяющих влияние нескольких переменных. Многомерные методы статистических исследований сложны как с теоретических, так и с методологических позиций. В большинстве многомерных геологических задач приходится иметь дело со сложными сочетаниями действующих факторов, которые не удается выделить в чистом виде и изучить изолированно. Тем не менее, многомерные методы являются весьма перспективными и многообещающими средствами геологических исследований, поскольку они позволяют геологу одновременно работать с большим числом переменных, чем он может осознать сам. Совместное изучение комплексов взаимосвязанных переменных (признаков) способствует
выявлению
дополнительной,
часто
весьма
существенной,
информации об изменчивости свойств изучаемых объектов и обеспечивает возможность прогнозирования их неизвестных свойств. МНОГОМЕРНЫЙ КОРРЕЛЯЦИОННЫЙ АНАЛИЗ Многомерный корреляционный анализ применяется для выявления зависимостей между наблюденными значениями различных геологических характеристик и разделения множества признаков по характеру их внутренних связей. КОРРЕЛЯЦИОННАЯ МАТРИЦА При большом числе наблюдений, когда коэффициенты корреляции необходимо последовательно вычислять из нескольких рядов числовых данных, для удобства получаемые коэффициенты сводят
в таблицы,
называемые корреляционными матрицами. Корреляционная матрица – это квадратная
(или
прямоугольная)
таблица,
в
которой
на
пересечении
соответствующих строки и столбца находится коэффициент корреляции между соответствующими параметрами. В Excel для вычисления корреляционных матриц используется процедура Корреляция. Процедура позволяет получить корреляционную матрицу, содержащую коэффициенты корреляции между
Мартьянова А.Е. Математические методы моделирования в геологии
8
различными параметрами. Реализация этой процедуры подробно рассмотрена в ЛАБОРАТОРНОЙ РАБОТЕ № V. ПРИМЕР VI.1 В рудах полиметаллического месторождения, кроме основных полезных компонентов – цинка, свинца и меди, содержатся попутные полезные компоненты – золото, серебро, кадмий, сурьма, барий, извлекаемые из руд в процессе
переработки.
При
наличии
корреляционной
связи
между
концентрациями основных и одного из попутных компонентов содержания последнего по отдельным участкам месторождения могут оцениваться по присутствию основных компонентов, что позволяет существенно уменьшить затраты на анализы. Для решения вопроса о возможности применения корреляционного метода подсчета запасов попутного компонента и расчета уравнения регрессии используются результаты анализов на основные и попутный компоненты по пробам (табл. VI.1 – VI.5).
Требуется 1) проверить гипотезу о наличии корреляционной связи между основными и одним из попутных компонентов; 2) определить, с каким из основных компонентов наиболее тесно связан попутный компонент; 3) получить корреляционную матрицу. Выделить значимые коэффициенты корреляции.
8
Мартьянова А.Е. Математические методы моделирования в геологии
9
Таблица VI.1. Содержание основных и попутного полезных компонентов в рудах полиметаллического месторождения № п/п
Cu, %
Pb, %
Zn, %
Au, г/т
№ п/п
Cu, %
Pb, %
Zn, %
Au, г/т
1
0,26
1,73
8,67
0,2
26
0,02
0,39
1,18
0,1
2
0,20
1,66
4,47
0,1
27
0,15
0,08
2,90
0,1
3
1,26
3,29
2,02
0,6
28
0,25
0,06
2,90
0,1
4
0,34
3,08
8,46
0,4
29
1,17
0,12
9,25
0,1
5
0,06
0,21
0,42
0,2
30
0,06
0,06
1,00
0,1
6
0,11
1,50
3,20
0,4
31
0,05
0,02
1,58
0,1
7
0,14
1,60
3,49
0,1
32
0,23
0,09
3,12
0,1
8
0,09
0,65
1,70
0,2
33
0,09
0,05
0,63
0,1
9
0,26
2,05
3,82
0,2
34
0,15
0,12
0,90
0,1
10
0,29
2,05
4,66
0,1
35
0,06
0,75
1,71
0,1
11
0,12
1,43
3,30
0,1
36
0,10
0,10
3,20
0,1
12
0,02
0,55
1,85
0,1
37
0,44
2,32
8,20
0,1
13
0,12
0,25
2,60
0,1
38
0,08
0,49
1,05
0,1
14
0,38
0,08
5,53
0,4
39
0,02
0,22
0,65
0,4
15
0,30
0,14
8,41
0,4
40
0,02
0,46
1,30
0,1
16
0,02
0,46
1,76
0,2
41
0,02
0,47
0,94
0,1
17
0,34
3,08
8,46
0,4
42
1,06
5,61
29,30
0,8
18
1,26
3,29
22,82
0,6
43
0,58
4,51
18,28
2,2
19
2,22
0,66
15,88
0,1
44
0,54
3,41
6,15
0,4
20
0,75
0,78
4,20
0,1
45
0,11
0,83
1,92
0,1
21
4,64
0,37
13,48
0,4
46
0,08
3,21
7,44
0,4
22
3,64
0,85
35,97
0,8
47
0,52
1,69
3,30
0,2
23
0,95
0,56
8,02
0,2
48
0,30
7,02
24,37
0,2
24
0,09
0,66
1,47
0,1
49
0,26
1,69
2,60
0,4
25
0,02
0,46
0,85
0,1
50
0,37
5,61
11,34
0,4
Мартьянова А.Е. Математические методы моделирования в геологии
10
Таблица VI.2. Содержание основных и попутного полезных компонентов в рудах полиметаллического месторождения № п/п
Cu, %
Pb, %
Zn, %
Ag, г/т
№ п/п
Cu, %
Pb, %
Zn, %
Ag, г/т
1
0,26
1,73
8,67
32,8
26
0,02
0,39
1,18
5,0
2
0,20
1,66
4,47
28,8
27
0,15
0,08
2,90
10,0
3
1,26
3,29
2,02
126,8
28
0,25
0,06
2,90
12,4
4
0,34
3,08
8,46
28,8
29
1,17
0,12
9,25
112,8
5
0,06
0,21
0,42
16,8
30
0,06
0,06
1,00
7,0
6
0,11
1,50
3,20
39,6
31
0,05
0,02
1,58
8,4
7
0,14
1,60
3,49
19,6
32
0,23
0,09
3,12
26,0
8
0,09
0,65
1,70
35,2
33
0,09
0,05
0,63
11,0
9
0,26
2,05
3,82
35,7
34
0,15
0,12
0,90
12,8
10
0,29
2,05
4,66
12,4
35
0,06
0,75
1,71
16,8
11
0,12
1,43
3,30
24,8
36
0,10
0,10
3,20
4,2
12
0,02
0,55
1,85
11,6
37
0,44
2,32
8,20
68,8
13
0,12
0,25
2,60
11,6
38
0,08
0,49
1,05
27,0
14
0,38
0,08
5,53
52,8
39
0,02
0,22
0,65
10,2
15
0,30
0,14
8,41
18,4
40
0,02
0,46
1,30
7,2
16
0,02
0,46
1,76
19,6
41
0,02
0,47
0,94
21,0
17
0,34
3,08
8,46
20,8
42
1,06
5,61
29,30
97,6
18
1,26
3,29
22,82
131,4
43
0,58
4,51
18,28
119,2
19
2,22
0,66
15,88
106,6
44
0,54
3,41
6,15
141,2
20
0,75
0,78
4,20
91,2
45
0,11
0,83
1,92
23,6
21
4,64
0,37
13,48
63,2
46
0,08
3,21
7,44
38,0
22
3,64
0,85
35,97
94,4
47
0,52
1,69
3,30
64,2
23
0,95
0,56
8,02
122,0
48
0,30
7,02
24,37
160,0
24
0,09
0,66
1,47
10,0
49
0,26
1,69
2,60
33,0
25
0,02
0,46
0,85
3,8
50
0,37
5,61
11,34
90,4
10
Мартьянова А.Е. Математические методы моделирования в геологии
11
Таблица VI.3. Содержание основных и попутного полезных компонентов в рудах полиметаллического месторождения № п/п
Cu, %
Pb, %
Zn, % Cd, 10-4% № п/п
Cu, %
Pb, %
Zn, % Cd, 10-4%
1
0,26
1,73
8,67
32
26
0,02
0,39
1,18
4
2
0,20
1,66
4,47
19
27
0,15
0,08
2,90
40
3
1,26
3,29
2,02
4
28
0,25
0,06
2,90
10
4
0,34
3,08
8,46
33
29
1,17
0,12
9,25
37
5
0,06
0,21
0,42
2
30
0,06
0,06
1,00
3
6
0,11
1,50
3,20
7
31
0,05
0,02
1,58
6
7
0,14
1,60
3,49
9
32
0,23
0,09
3,12
14
8
0,09
0,65
1,70
4
33
0,09
0,05
0,63
3
9
0,26
2,05
3,82
15
34
0,15
0,12
0,90
3
10
0,29
2,05
4,66
13
35
0,06
0,75
1,71
6
11
0,12
1,43
3,30
10
36
0,10
0,10
3,20
12
12
0,02
0,55
1,85
7
37
0,44
2,32
8,20
31
13
0,12
0,25
2,60
9
38
0,08
0,49
1,05
3
14
0,38
0,08
5,53
22
39
0,02
0,22
0,65
2
15
0,30
0,14
8,41
34
40
0,02
0,46
1,30
4
16
0,02
0,46
1,76
7
41
0,02
0,47
0,94
2
17
0,34
3,08
8,46
32
42
1,06
5,61
29,30
101
18
1,26
3,29
22,82
84
43
0,58
4,51
18,28
62
19
2,22
0,66
15,88
62
44
0,54
3,41
6,15
26
20
0,75
0,78
4,20
16
45
0,11
0,83
1,92
6
21
4,64
0,37
13,48
51
46
0,08
3,21
7,44
28
22
3,64
0,85
35,97
160
47
0,52
1,69
3,30
13
23
0,95
0,56
8,02
35
48
0,30
7,02
24,37
96
24
0,09
0,66
1,47
5
49
0,26
1,69
2,60
10
25
0,02
0,46
0,85
3
50
0,37
5,61
11,34
38
Мартьянова А.Е. Математические методы моделирования в геологии
12
Таблица VI.4. Содержание основных и попутного полезных компонентов в рудах полиметаллического месторождения № п/п
Cu, %
Pb, %
Zn, % Sb, 10-4% № п/п
Cu, %
Pb, %
Zn, % Sb, 10-4%
1
0,26
1,73
8,67
560
26
0,02
0,39
1,18
15
2
0,20
1,66
4,47
108
27
0,15
0,08
2,90
31
3
1,26
3,29
2,02
40
28
0,25
0,06
2,90
50
4
0,34
3,08
8,46
660
29
1,17
0,12
9,25
408
5
0,06
0,21
0,42
73
30
0,06
0,06
1,00
26
6
0,11
1,50
3,20
223
31
0,05
0,02
1,58
71
7
0,14
1,60
3,49
118
32
0,23
0,09
3,12
71
8
0,09
0,65
1,70
60
33
0,09
0,05
0,63
35
9
0,26
2,05
3,82
103
34
0,15
0,12
0,90
105
10
0,29
2,05
4,66
229
35
0,06
0,75
1,71
93
11
0,12
1,43
3,30
96
36
0,10
0,10
3,20
133
12
0,02
0,55
1,85
49
37
0,44
2,32
8,20
317
13
0,12
0,25
2,60
31
38
0,08
0,49
1,05
100
14
0,38
0,08
5,53
220
39
0,02
0,22
0,65
33
15
0,30
0,14
8,41
434
40
0,02
0,46
1,30
55
16
0,02
0,46
1,76
15
41
0,02
0,47
0,94
144
17
0,34
3,08
8,46
410
42
1,06
5,61
29,30
3100
18
1,26
3,29
22,82
2200
43
0,58
4,51
18,28
2310
19
2,22
0,66
15,88
464
44
0,54
3,41
6,15
920
20
0,75
0,78
4,20
55
45
0,11
0,83
1,92
220
21
4,64
0,37
13,48
684
46
0,08
3,21
7,44
164
22
3,64
0,85
35,97
3160
47
0,52
1,69
3,30
56
23
0,95
0,56
8,02
272
48
0,30
7,02
24,37
1980
24
0,09
0,66
1,47
57
49
0,26
1,69
2,60
164
25
0,02
0,46
0,85
9
50
0,37
5,61
11,34
638
12
Мартьянова А.Е. Математические методы моделирования в геологии
13
Таблица VI.5. Содержание основных и попутного полезных компонентов в рудах полиметаллического месторождения № п/п
Cu, %
Pb, %
Zn, %
Ba, %
№ п/п
Cu, %
Pb, %
Zn, %
Ba, %
1
0,26
1,73
8,67
9,92
26
0,02
0,39
1,18
2,21
2
0,20
1,66
4,47
5,07
27
0,15
0,08
2,90
4,19
3
1,26
3,29
2,02
19,95
28
0,25
0,06
2,90
3,12
4
0,34
3,08
8,46
9,41
29
1,17
0,12
9,25
2,52
5
0,06
0,21
0,42
2,54
30
0,06
0,06
1,00
1,94
6
0,11
1,50
3,20
7,63
31
0,05
0,02
1,58
2,45
7
0,14
1,60
3,49
6,87
32
0,23
0,09
3,12
4,84
8
0,09
0,65
1,70
2,18
33
0,09
0,05
0,63
4,10
9
0,26
2,05
3,82
7,34
34
0,15
0,12
0,90
4,81
10
0,29
2,05
4,66
8,01
35
0,06
0,75
1,71
4,21
11
0,12
1,43
3,30
10,15
36
0,10
0,10
3,20
3,41
12
0,02
0,55
1,85
2,19
37
0,44
2,32
8,20
27,78
13
0,12
0,25
2,60
3,06
38
0,08
0,49
1,05
1,73
14
0,38
0,08
5,53
4,00
39
0,02
0,22
0,65
1,73
15
0,30
0,14
8,41
3,36
40
0,02
0,46
1,30
1,89
16
0,02
0,46
1,76
2,24
41
0,02
0,47
0,94
1,88
17
0,34
3,08
8,46
9,41
42
1,06
5,61
29,30
23,82
18
1,26
3,29
22,82
10,95
43
0,58
4,51
18,28
18,53
19
2,22
0,66
15,88
0,92
44
0,54
3,41
6,15
35,00
20
0,75
0,78
4,20
2,56
45
0,11
0,83
1,92
2,00
21
4,64
0,37
13,48
6,29
46
0,08
3,21
7,44
9,98
22
3,64
0,85
35,97
5,58
47
0,52
1,69
3,30
6,65
23
0,95
0,56
8,02
3,25
48
0,30
7,02
24,37
19,92
24
0,09
0,66
1,47
3,01
49
0,26
1,69
2,60
7,76
25
0,02
0,46
0,85
1,66
50
0,37
5,61
11,34
9,00
Решение Введите в диапазон A1:E1 листа 1 рабочей книги Excel: в ячейку A1 заголовок «№ п/п», в ячейку B1 – заголовок «Cu», в ячейку C1 – заголовок
Мартьянова А.Е. Математические методы моделирования в геологии
14
«Pb», в ячейку D1 – заголовок «Zn», в ячейку E1 – заголовок «Au». Для выполнения корреляционного анализа введите в диапазон A2:E51 введите исходные данные из табл. VI.1 по столбцам: A – № п/п, B – Cu, %, C – Pb, %, D – Zn, %, E – Au, г/т. Затем в меню Сервис выберите пункт Анализ данных и далее укажите строку Корреляция. В появившемся диалоговом окне укажите Входной интервал В1:E51. Укажите, что данные рассматриваются по столбцам. Установите флажок в поле Метки в первой строке. Укажите выходной диапазон. Для этого поставьте флажок в левое поле Выходной интервал и в правое поле ввода Выходной интервал введите G2. Нажмите кнопку OK. Результаты анализа. В выходном диапазоне получаем корреляционную матрицу. Интерпретация результатов. Из таблицы видно, что корреляция между содержанием Cu и Au – 0,28 – линейную связь между содержанием меди и золота выявить не удалось, Pb и Au – 0,49 – можно говорить о наличии корреляционной связи между свинцом и золотом, Zn и Au – 0,545 – можно говорить о наличии корреляционной связи между цинком и золотом. Коэффициент парной корреляции между Zn и Pb, равный 0,572 показывает, что можно говорить также о наличии корреляционной связи между цинком и свинцом. Подразумевается, что в пустых клетках в правой верхней половине таблицы находятся те же коэффициенты корреляции, что и в нижней левой (симметрично расположенные относительно диагонали). Введите в диапазон A1:E1 листа 2 рабочей книги Excel: в ячейку A1 заголовок «№ п/п», в ячейку B1 – заголовок «Cu», в ячейку C1 – заголовок «Pb», в ячейку D1 – заголовок «Zn», в ячейку E1 – заголовок «Au». Для продолжения корреляционного анализа введите в диапазон A2:E51 листа 2 рабочей книги Excel исходные данные из табл. VI.2 по столбцам: A – № п/п, B – Cu, %, C – Pb, %, D – Zn, %, E – Ag, г/т. Аналогично получите корреляционную 14
Мартьянова А.Е. Математические методы моделирования в геологии
15
матрицу. Интерпретация результатов. Из таблицы видно, что корреляция между содержанием Cu и Ag – 0,48 – можно говорить о наличии корреляционной связи между содержанием меди и серебра, Pb и Ag – 0,62 – можно говорить о наличии линейной корреляционной связи между свинцом и серебром, Zn и Ag – 0,675 – можно говорить о наличии линейной корреляционной связи между цинком и серебром. Коэффициент парной корреляции между Zn и Pb, равный 0,572 показывает, что можно говорить также о наличии корреляционной связи между цинком и свинцом. Введите в диапазон A1:E1 листа 3 рабочей книги Excel: в ячейку A1 заголовок «№ п/п», в ячейку B1 – заголовок «Cu», в ячейку C1 – заголовок «Pb», в ячейку D1 – заголовок «Zn», в ячейку E1 – заголовок «Au». Далее введите в диапазон A2:E51 листа 3 рабочей книги Excel исходные данные из табл. VI.3 по столбцам: A – № п/п, B – Cu, %, C – Pb, %, D – Zn, %, E – Cd, 10-4 %. Получите корреляционную матрицу. Интерпретация результатов. Из таблицы видно, что корреляция между содержанием Cu и Cd – 0,64 – можно говорить о наличии линейной корреляционной связи между содержанием меди и кадмия, Pb и Cd – 0,48 – можно говорить о наличии корреляционной связи между свинцом и кадмием, Zn и Cd – 0,981 – между параметрами существует практически линейная зависимость между цинком и кадмием. Коэффициент парной корреляции между Zn и Cu, равный 0,628 показывает, что можно говорить также о наличии линейной корреляционной связи между цинком и медью. Введите в диапазон A1:E1 листа 4 рабочей книги Excel: в ячейку A1 заголовок «№ п/п», в ячейку B1 – заголовок «Cu», в ячейку C1 – заголовок «Pb», в ячейку D1 – заголовок «Zn», в ячейку E1 – заголовок «Au». Введите в диапазон A2:E51 листа 4 рабочей книги Excel исходные данные из табл. VI.4 по столбцам: A – № п/п, B – Cu, %, C – Pb, %, D – Zn, %, E – Sb, 10-4 %. Получите корреляционную матрицу.
Мартьянова А.Е. Математические методы моделирования в геологии
16
Интерпретация результатов. Из таблицы видно, что корреляция между содержанием Cu и Sb – 0,49 – можно говорить о наличии корреляционной связи между содержанием меди и сурьмы, Pb и Sb – 0,60 – можно говорить о наличии линейной корреляционной связи между свинцом и сурьмой, Zn и Sb – 0,944 – можно говорить о наличии сильной линейной корреляционной связи между цинком и сурьмой. Коэффициент парной корреляции между Zn и Pb, равный 0,572 показывает, что можно говорить также о наличии корреляционной связи между цинком и свинцом. Введите в диапазон A1:E1 листа 5 рабочей книги Excel: в ячейку A1 заголовок «№ п/п», в ячейку B1 – заголовок «Cu», в ячейку C1 – заголовок «Pb», в ячейку D1 – заголовок «Zn», в ячейку E1 – заголовок «Au». Введите в диапазон A2:E51 листа 5 рабочей книги Excel исходные данные из табл. VI.5 по столбцам: A – № п/п, B – Cu, %, C – Pb, %, D – Zn, %, E – Ba, %. Получите корреляционную матрицу. Интерпретация результатов. Из таблицы видно, что корреляция между содержанием Cu и Ba – 0,10 – можно говорить о том, что корреляционную связь между содержанием меди и бария выявить не удалось, Pb и Ba – 0,74 – можно говорить о наличии линейной корреляционной связи между свинцом и барием, Zn и Ba – 0,41 – можно говорить о наличии корреляционной связи между цинком и барием. Коэффициент парной корреляции между Zn и Pb, равный
0,572
показывает,
что
можно
говорить
также
о
наличии
корреляционной связи между цинком и свинцом. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И ЕЕ ИСПОЛЬЗОВАНИЕ ДЛЯ ПРЕДСКАЗАНИЯ СВОЙСТВ ГЕОЛОГИЧЕСКИХ ОБЪЕКТОВ В отличие от двумерной регрессии в методах множественной регрессии зависимая переменная Y рассматривается как функция не одной, а нескольких независимых переменных X1, X2 , ..., Xm. Уравнение
множественной
регрессии
16
зависимой
переменной
Y
Мартьянова А.Е. Математические методы моделирования в геологии
относительно
т
независимых
17
переменных
X1,2,…,m
записывается
как
линеаризированная функция вида m
y = a0 + a1 x1 + a2 x2 + ... + a m xm = a0 + ∑ ai xi ,
(VI.1)
i =1
где a0, a1, a2, …, am – требующие определения коэффициенты регрессии. Оно наилучшим способом (в смысле наименьших квадратов) описывает тенденцию расположения наблюденных точек в m-мерном пространстве и позволяет оценить совместное влияние всех изучаемых параметров на зависимую переменную. Множественная регрессия строится на основе учета всех возможных взаимодействий между переменными и их сочетаниями. В ее задачи входит оценка общего вклада всех переменных (R2) в изменчивость Y, а также определение
относительного
влияния
каждой
из
них
с
помощью
коэффициентов ai,. Таким образом, множественный регрессионный анализ сводится к вычислению значений коэффициентов регрессионной модели a0, a1, a2, …, am по совокупности п наблюдений над переменными X1, X2 , ..., Xm и Y, оценке влияния каждой переменной и их общего вклада в оценку зависимой переменной Y. В матричной форме уравнение (VI.1) записывается как: [ΣY] = [ΣX] [a], где [ΣY] – вектор-столбец, состоящий из сумм квадратов и смешанных произведений переменной Y с переменными X1, X2 , ..., Xm; [ΣX] – матрица сумм квадратов и смешанных произведений X1, X2 , ..., Xm; [a] – вектор-столбец неизвестных
коэффициентов
регрессии.
Коэффициенты
регрессии
ai
рассчитываются как частные коэффициенты регрессии, характеризующие изменения данной независимой переменной при условии, что влияние всех остальных переменных устранено. Для сравнительной оценки вклада каждой зависимой переменной
Мартьянова А.Е. Математические методы моделирования в геологии
18
коэффициент R2 сначала рассчитывается для пары Y и Xk с максимальным коэффициентом корреляции, а затем последовательно с тремя и более переменными (до т переменных). Модели множественной регрессии используются для предсказаний значений зависимой переменной (например, содержаний ценного элемента, объемной массы руды и глубины формирования минерала и др.) по набору независимых
переменных
(например,
содержаний
породообразующих
элементов, объемных масс тяжелых минералов в рудах, содержаний элементовиндикаторов в минералах и др.). ПРИМЕР VI.2 Требуется Используя результаты предыдущего ПРИМЕРА VI.1, при наличии корреляционных связей между основными и попутным компонентом, провести регрессионный анализ с учетом связей между основными и попутным компонентами. Рассчитать уравнение регрессии для оценки содержания попутного компонента по основным компонентам.
Решение 1. Откройте лист 1 рабочей книги Excel, созданной при работе над ПРИМЕРОМ VI.1. 2. В пункте меню Сервис выберите строку Анализ данных и далее укажите курсором мыши на строку Регрессия. Нажмите кнопку OK. 3. В появившемся диалоговом окне задаем Входной интервал Y. Для этого наведите указатель мыши на верхнюю ячейку столбца зависимых данных (E1), нажмите левую кнопку мыши и, не отпуская ее, протяните указатель мыши к нижней ячейке (E51), затем отпустите левую кнопку мыши. (Обратите внимание, что зависимые данные – это те данные, которые предполагается 18
Мартьянова А.Е. Математические методы моделирования в геологии
19
вычислять). 4. Так же укажите Входной интервал X, то есть введите ссылку на диапазон независимых данных B1:D51. (Независимые данные – это те данные, которые будут измеряться или наблюдаться). 5. Установите флажок в поле Метки в первой строке. Установите флажок в поле График подбора. 6. Далее укажите выходной диапазон. Для этого поставьте переключатель в положение Выходной интервал (наведите указатель мыши и щелкните левой кнопкой), затем наведите указатель мыши на правое поле ввода Выходной интервал и, щелкнув левой кнопкой мыши, указатель мыши наведите на левую верхнюю ячейку выходного диапазона (G10). Щелкните левой кнопкой мыши. Нажмите кнопку OK. 7. В выходном диапазоне появятся результаты регрессионного анализа и графики предсказанных точек. Интерпретация
результатов.
В
таблице
Дисперсионный
анализ
оценивается достоверность полученной модели по уровню значимости критерия Фишера (строка Регрессия, столбец Значимость F, в примере – 0,000191, то есть p << 0,05 – заданный уровень значимости, гипотеза о незначимости регрессии отвергается и считается, что регрессия значима) и степень описания моделью процесса – R-квадрат (вторая строка сверху в таблице Регрессионная статистика, в примере R-квадрат = 0,346). Так как Rквадрат < 0,6, то точность аппроксимации недостаточна и модель требует улучшения. Далее необходимо определить значения коэффициентов модели. Они определяются из таблицы в столбце Коэффициенты – в строке Y-пересечение приводится свободный член 0,083; в строках соответствующих переменных приводятся значения коэффициентов при этих переменных Cu = 0,016, Pb = 0,058 и Zn = 0,015. В столбце p-значение приводится достоверность отличия соответствующих коэффициентов от нуля. Все коэффициенты незначимы
Мартьянова А.Е. Математические методы моделирования в геологии
20
(0,146, 0,804, 0,093, 0,104), то есть для всех коэффициентов p > 0,05, и коэффициенты могут считаться равными нулю. 8. Поэтому в модель следует включить только те независимые переменные, которые коррелируют с зависимой переменной. Выполните регрессионный анализ с помощью меню Сервис/Анализ данных, установив Входной интервал X как C1:D51, то есть взяв в качестве независимых переменных – содержания Pb и Zn. Интерпретация
результатов.
В
таблице
Дисперсионный
анализ
оценивается достоверность полученной модели по уровню значимости критерия Фишера (строка Регрессия, столбец Значимость F, в примере – 4,75E-05, то есть p << 0,05 и модель значима) и степень описания моделью процесса – R-квадрат (вторая строка сверху в таблице Регрессионная статистика, в примере R-квадрат = 0,345). Так как R-квадрат < 0,6, то точность аппроксимации недостаточна. Значения коэффициентов модели определяются из таблицы в столбце Коэффициенты – в строке Y-пересечение приводится свободный член 0,086; в строках соответствующих переменных приводятся значения коэффициентов при этих переменных: Pb = 0,053 и Zn = 0,017. В столбце p-значение приводится достоверность отличия соответствующих коэффициентов от нуля. Свободный член и коэффициент при Pb незначимы, то есть p > 0,05, и коэффициенты могут считаться равными нулю, а коэффициент при Zn значим, так как соответствующее p-значение – 0,0087. 9. Улучшим модель, взяв в качестве независимых переменных только содержание Zn. Отбросить фактор влияния Pb следует еще и потому, что между Zn и Pb, существует корреляционная связь, о чем свидетельствует коэффициент парной корреляции равный 0,572, который даже несколько выше коэффициента парной корреляции между Au и Zn, равного 0,545. Выполним регрессионный анализ с помощью меню Сервис/Анализ данных, установив Входной интервал X как D1:D51. 20
Мартьянова А.Е. Математические методы моделирования в геологии
Интерпретация
результатов.
В
таблице
21
Дисперсионный
анализ
оценивается достоверность полученной модели по уровню значимости критерия Фишера (строка Регрессия, столбец Значимость F, в примере – 4,15E-05, то есть p << 0,05 и модель значима) и степень описания моделью процесса – R-квадрат (вторая строка сверху в таблице Регрессионная статистика, в примере R-квадрат = 0,297). Так как R-квадрат < 0,6, то точность аппроксимации недостаточна. Значения коэффициентов модели определяются из таблицы в столбце Коэффициенты – в строке Y-пересечение приводится свободный член 0,120; в строке переменной Zn значение коэффициента при переменной Zn = 0,023. В столбце p-значение приводится достоверность отличия соответствующих коэффициентов от нуля. Свободный член значим, то есть p < 0,05, и коэффициент при Zn значим, так как соответствующее p-значение – 4,15E-05. График подбора – см. рис. VI.1. Получено уравнение регрессии Au(Zn)=0,0236*Zn+0,1204. Поскольку точность аппроксимации недостаточна, на следующем этапе можно попытаться подобрать нелинейную модель зависимости Zn – Au, например, Au(Zn)=–0,00045*Zn^2+0,03682*Zn+0,08112, для которой R-квадрат равен 0,309 (см. рис. VI.2).
Мартьянова А.Е. Математические методы моделирования в геологии
22
Zn, % График подбора 2,5
Au, г/т
2
Au, г/т
1,5
Предсказанное Au, г/т
1 0,5 0 0
20
40
Zn, %
Рис. VI.1. График подбора модели с помощью процедуры Регрессия
Zn, % 2,5 Au, г/т
Au, г/т
2 Предсказанное линейное Au, г/т Предсказанное квадратическое Au, г/т
1,5 1 0,5 0 0
10
20
30
40
Zn, %
Рис. VI.2. График линейной и квадратической регрессии 10. Аналогично, для всех значимых независимых переменных произведите регрессионный анализ для данных, представленных в табл. VI.2 – VI.5. Откройте лист 2 рабочей книги Excel, созданной при работе над ПРИМЕРОМ
VI.1.
Рассмотрите
в
качестве
22
независимых
переменных
Мартьянова А.Е. Математические методы моделирования в геологии
переменные
Pb
и
Zn.
Регрессионная
23
модель
будет
выглядеть
как
Ag(Pb,Zn)=9,300*Pb+2,670*Zn+15,426. Откройте лист 3 рабочей книги Excel, созданной при работе над ПРИМЕРОМ
VI.1.
Рассмотрите
переменную
Zn.
Регрессионная
в
качестве
независимой
модель
будет
переменной
выглядеть
как
Cd(Zn)=3,930*Zn–0,511. Откройте лист 4 рабочей книги Excel, созданной при работе над ПРИМЕРОМ
VI.1.
Рассмотрите
переменную
Zn.
Регрессионная
в
качестве
независимой
модель
будет
переменной
выглядеть
как
Sb(Zn)=92,459*Zn–161,693. Откройте лист 5 рабочей книги Excel, созданной при работе над ПРИМЕРОМ
VI.1.
Рассмотрите
переменную
Pb.
Регрессионная
в
качестве
независимой
модель
будет
переменной
выглядеть
как
Ba(Pb)=3,251*Pb+2,455. ПРИМЕР VI.3 Требуется По условию ПРИМЕРА VI.1: 1) проверить гипотезу о наличии корреляционной связи между основными и одним из попутных компонентов; 2) определить, с каким из основных компонентов наиболее тесно связан попутный компонент; 3) получить корреляционную матрицу, дать ее графическое изображение. Выделить значимые коэффициенты корреляции; 4) при наличии корреляционных связей между основными и попутным компонентом провести регрессионный анализ с учетом связей между основными и попутным компонентами. Рассчитать уравнение регрессии для оценки содержания попутного компонента по основным.
Мартьянова А.Е. Математические методы моделирования в геологии
24
Решение 1. Создать файл данных в программе STATISTICA по табл. VI.1. 2. Провести корреляционный анализ всей выборки. Для этого в меню с основными процедурами Statistics выбрать Basic Statistics/Tables, а в появившемся его меню – Correlation matrices. В
появившемся
диалоговом
окне
Product-Moment
and
Partial
Correlations: нажать на вкладке Quick кнопку Summary: Correlation Matrix и в диалоговом окне Select one or two variable lists указать для First variable list: 1–3, а для Second variable list (optional): 4 (см. рис. VI.3). Далее нажать OK. Результатом будет расчет коэффициентов корреляции – рис. VI.4. Вернувшись в диалоговое окно Product-Moment and Partial, нажать на вкладке Advanced/Plot кнопку 2D scatterplot и результатом будет – расчет scatterplot (доверительный интервал) для переменной Au зависимостей от Cu, Pb, Zn. На рис. VI.5 приведен доверительный интервал для зависимости Au(Zn). Сравните уравнение, находящееся в верхней части графика, с уравнением, полученным в электронных таблицах Excel (см. ПРИМЕР VI.2).
Рис. VI.3. Выбор переменных для корреляционного анализа
24
Мартьянова А.Е. Математические методы моделирования в геологии
Рис. VI.4. Расчет коэффициентов корреляции
Рис. VI.5. Зависимость Au от Zn и ее доверительный интервал
25
26
Мартьянова А.Е. Математические методы моделирования в геологии
3. Так как существует корреляция между концентрациями Au и Zn, то следует произвести регрессионный анализ. Для этого в начальном меню STATISTICS выбираем Multiple Regression. В открывшемся диалоговом окне Multiple Linear Regression нажимаем кнопку Variables и устанавливаем, как показано на рис. VI.6 в открывшемся диалоговом окне Select depended and independed variables lists:, зависимую и независимую переменные. Далее нажимаем OK. Вернувшись в диалоговое окне Multiple Linear Regression, нажать OK. Результатом будет Multiple Regression Results: – см. рис. VI.7.
Рис. VI.6. Установка зависимой и независимой переменных для регрессионного анализа
26
Мартьянова А.Е. Математические методы моделирования в геологии
27
Рис. VI.7. Multiple Regression Results:
Далее, в этом диалоговом окне Multiple Regression Results:, нажать кнопку Summary: Regresion Results и получим таблицу статистик – см. рис. VI.8, где в столбце В указаны коэффициенты регрессии: 0,023571 – коэффициент при Zn и 0,120804 – свободный член; p-level – уровень значимости для каждого коэффициентов; beta – коэффициент корреляции. Сравните уравнение с уравнением, полученным в электронных таблицах Excel – см. ПРИМЕР VI.2.
28
Мартьянова А.Е. Математические методы моделирования в геологии
Рис. VI.8. Таблица результатов Regresion Results 4. Аналогично, для всех значимых независимых переменных произведите регрессионный анализ для данных, представленных в табл. VI.2 – VI.5.
28
Мартьянова А.Е. Математические методы моделирования в геологии
29
ЛАБОРАТОРНАЯ РАБОТА № VII. МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МОДЕЛИ. КЛАСТЕРНЫЙ АНАЛИЗ. ФАКТОРНЫЙ АНАЛИЗ СТАТИСТИЧЕСКИЕ МЕТОДЫ ВЫДЕЛЕНИЯ АССОЦИАЦИЙ ХИМИЧЕСКИХ ЭЛЕМЕНТОВ Методы выделения парагенетических химических элементов сводятся к разделению исходных совокупностей на несколько классов по степени сходства, составляющих их объектов. При этом предполагается, что степень сходства объектов, объединяемых в один класс, должна быть существенно больше степени сходства между объектами из разных классов. Основой классификации исходных совокупностей химических элементов служат корреляционные матрицы их содержаний в изучаемых объемах (минералах, породах или рудах), а мерой сходства – оценки парных коэффициентов их корреляции. Выделение парагенетических ассоциаций элементов сводится к выявлению внутри корреляционной матрицы [R] однородных совокупностям
блоков
(подматриц
элементов,
типа
[Ri]),
содержания
соответствующих
которых
связаны
таким
линейной
положительной зависимостью. Строгое математическое решение задачи классификации исходных совокупностей по корреляционным характеристикам практически невозможно, поскольку коэффициенты парной корреляции элементов имеют стохастическую природу, в связи с чем во многих конкретных случаях возникают возможности многовариантного группирования объектов. РАСПОЗНАВАНИЕ ОБРАЗОВ БЕЗ ОБУЧЕНИЯ Классическими методами распознавания образов без обучения являются методы кластерного анализа (кластер-анализа). Номера, получаемые в результате расчета кластеров, смыслового значения не имеют. Эти номера нужны только для того, чтобы отличить один кластер от другого, поэтому при использовании результатов кластерного анализа в других
Мартьянова А.Е. Математические методы моделирования в геологии
30
методах, например в распознавании образов с обучением, порядок следования кластеров может быть любым удобным для исследователя. Все рассмотренные далее методы могут быть использованы как для классификации объектов, так и для классификации признаков. МЕРЫ РАЗЛИЧИЯ И МЕРЫ СХОДСТВА Виды используемых в кластерном анализе мер сходства и различия перекликаются с философской дилеммой: «ищите сходство» или «ищите различие». Меры сходства для кластерного анализа могут быть следующих видов: • Мера сходства типа расстояния (функции расстояния), называемая также мерой различия. В этом случае объекты считаются тем более похожими, чем меньше расстояние между ними, поэтому некоторые авторы называют меры сходства типа расстояния мерами различия. • Мера сходства типа корреляции, называемая связью, является мерой, определяющей похожесть объектов. В этом случае объекты считаются тем более похожими, чем больше связь между ними. Меры могут быть легко приведены к предыдущему типу. • Информационная статистика. Меры различия и информационная статистика Используемые при этом метрики – евклидово расстояние, манхеттенское расстояние, сюпремум-норма, расстояние Махалонобиса – они отражают все многообразие подходов к решению проблемы. Первая метрика используется традиционно, вторая метрика является наиболее известным представителем класса метрик Минковского. Расстояние Махаланобиса, по определению метрикой не являющееся, связано с помощью дисперсионно-ковариационной матрицы с корреляциями переменных (параметров), и широко применяется как в кластерном, так и в других методах анализа данных. Меры сходства используются для методов: • ближней связи (этот метод имеет вариант и для мер сходства); 30
Мартьянова А.Е. Математические методы моделирования в геологии
31
• средней связи Кинга; • Уорда; • средних Мак-Куина. Меры сходства Связями
могут
быть:
коэффициент
корреляции,
коэффициент
ассоциативности (ассоциации) и т.д. Из этих связей для количественных признаков предназначены: коэффициент корреляционного отношения Пирсона, дисперсия-ковариация. Для порядковых признаков предназначены: показатель ранговой корреляции Спирмена, коэффициент ранговой корреляции Кендалла. Перечисленные меры сходства используют методы: • ближней связи (этот метод имеет вариант и для мер различия); • корреляционных плеяд; • максимального корреляционного пути. По умолчанию в последних двух методах обычно классифицируются параметры (в первом классифицируются объекты), что обусловлено их традиционной авторской реализацией и назначением, однако путем простого транспонирования матрицы исходных данных и перемены местами чисел строк и столбцов можно легко изменить тип классификации на противоположный. В комбинации с различными метриками, связями и мерами сходства других типов, перечисленные алгоритмы дают большое число вариантов решения задачи классификации без обучения. Результаты классификации разными методами, как правило, принципиально не различаются, и выбор того или иного метода является делом вкуса исследователя и традиции школы. КЛАСТЕРНЫЙ АНАЛИЗ Методами
кластерного
анализа
решается
задача
разбиения
(классификации, кластеризации) множества объектов таким образом, чтобы все объекты, принадлежащие одному кластеру (классу, группе) были более похожи друг на друга, чем на объекты других кластеров. В отечественной литературе синонимом термина «кластерный анализ» является термин «таксономия». В
Мартьянова А.Е. Математические методы моделирования в геологии
32
иностранной
литературе
под
таксономией
традиционно
понимается
классификация видов животных и растений. Рассматриваются следующие методы кластерного анализа: • Иерархические методы: o метод ближней связи, o метод средней связи Кинга, o метод Уорда. • Итеративные методы группировки: o метод k-средних Мак-Куина. • Алгоритмы типа разрезания графа: o метод корреляционных плеяд Терентьева, o вроцлавская таксономия. Классифицируемы могут быть как параметры, так и объекты. 1) МЕТОД БЛИЖНЕЙ СВЯЗИ Этот метод является самым простым для понимания из иерархических агломеративных методов кластерного анализа. Метод и начинает процесс классификации с поиска и объединения двух наиболее похожих объектов в матрице сходства. На следующем этапе находятся два очередных наиболее похожих объекта, и процесс повторяется до полного исчерпания матрицы сходства. В процессе кластеризации методом ближней связи явно прослеживается образование цепочек объектов. Таким образом, для выделения кластеров после окончания процесса кластеризации требуется задаться некоторым пороговым уровнем сходства, на котором выделяется число кластеров, большее единицы. Процедура не всегда обнаруживает такое свойство, как образование одного большого кластера на последнем этапе кластеризации, и часто заканчивается явным разделением всех предъявленных объектов на кластеры. 2) МЕТОД СРЕДНЕЙ СВЯЗИ КИНГА Метод средней связи подобен методу ближней связи. Разница в том, что на 32
Мартьянова А.Е. Математические методы моделирования в геологии
33
каком-либо этапе ранее объединенные в один кластер объекты считаются одним объектом с усредненными по кластеру параметрами. 3) МЕТОД УОРДА Данный метод напоминает метод средней связи Кинга. Особенностей состоит в том, что основанием для помещения объекта в кластер является не близость двух объектов в каком-либо смысле, в зависимости от меры сходства, а минимум дисперсии внутри кластера при помещении в него текущего классифицируемого объекта. 4) МЕТОД K-СРЕДНИХ МАК-КУИНА Теоретическое
обоснование
метода
k-средних
(k
внутригрупповых
средних) сравнительно просто, логично и может быть найдено во многих источниках. Принцип классификации сводится к некоторому, возможно, случайному, исходному разбиению множества объектов на заданное число кластеров (классов, групп, популяций), последующему отнесению остальных объектов к ближайшим кластерам, пересчету новых «центров тяжести» кластеров и продолжению описанной процедуры, пока не будет получено некоторое оптимальное разбиение. Кластеризация обычно продолжается, пока новые «центры тяжести» кластеров не перестанут отличаться от старых «центров тяжести». Особенностью метода является то, что выделенные в результате расчетов кластеры не будут пересекаться – гарантируется, что каждый классифицированный объект будет отнесен только к одному кластеру. В визуализации результатов кластеризации методом k-средних нет необходимости, хотя может оказаться наглядным и красивым изображение пространственных эллипсоидов (только для размерности не более 3, для большей
размерности
используются
двумерные
срезы
пространства),
coдержащих классифицированные объекты. 5) МЕТОД КОРРЕЛЯЦИОННЫХ ПЛЕЯД Терентьевым был изобретен метод корреляционных плеяд. Суть метода такова. Визуально результаты классификации можно представить в виде
Мартьянова А.Е. Математические методы моделирования в геологии
34
цилиндра, рассеченного плоскостями, перпендикулярными его оси. Плоскости соответствуют его уровням (от 0 до 1 с шагом 0,1), на которых объединяются параметры
или
напоминает
объекты,
метод
подлежащие
ближней
связи,
но
классификации, с
поэтому
фиксированными
метод
уровнями
объединения. Графически результаты классификации изображают в виде окружностей – срезов (плеяд) упомянутого выше корреляционного цилиндра. На
окружностях
отмечают
классифицируемые
объекты.
Связи
между
классифицированными объектами указывают путем соединения хордами точек окружности, соответствующих объектам. 6) ВРОЦЛАВСКАЯ ТАКСОНОМИЯ Результатом работы программы, использующей метод максимального корреляционного
пути,
являются
пары
чисел,
указывающие
порядок
«соединения» подлежащих классификации параметров или объектов, наиболее близких попарно. Получающийся кратчайший замкнутый путь можно отобразить графически в виде оптимального дерева (дендрита), как это описано в следующем разделе. Классифицируемы могут быть параметры либо объекты. Метод похож на метод ближайшей связи, однако относится к алгоритмам типа разрезания графа и напоминает методы вроцлавской таксономии. Если в качестве меры сходства применяется коэффициент корреляции, получается метод максимального корреляционного пути. Методы иерархической группировки (численной таксономии) исходных множеств получили название кластер-анализа, то есть анализа групп. Первоначально они применялись в биологии и палеонтологии, а в настоящее время широко используются в различных отраслях геолого-минералогических наук, в частности, при классификации парагенетических ассоциаций элементов земной коры. Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности 34
Мартьянова А.Е. Математические методы моделирования в геологии
35
включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, то есть развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (то есть с обезьянами), чем с «отдаленными» членами семейства
млекопитающих
(например,
собаками)
и
т.д.
Фактически,
кластерный анализ является не столько обычным статистическим методом, сколько «набором» различных алгоритмов «распределения объектов по кластерам». Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Следует понимать, что кластерный анализ определяет «наиболее возможно значимое решение». Поэтому проверка статистической значимости в действительности здесь неприменима, даже в случаях, когда известны p-уровни (как, например, в методе K-средних). Задача кластер-анализа сводится к разбиению множества элементов корреляционной матрицы признаков [R] на группы таким образом, чтобы в них объединялись объекты с наивысшими значениями характеристик сходства, а разобщенные группы оставались бы при этом максимально изолированными по данному
признаку.
В
качестве
меры
сходства
могут
использоваться
непосредственно парные коэффициенты корреляции, m-мерное эвклидово расстояние или другие дистанционные коэффициенты.
Мартьянова А.Е. Математические методы моделирования в геологии
36
МЕТРИКИ Мера сходства между элементами множеств (типа расстояния) называется метрикой, если она удовлетворяет определенным условиям: симметрии, неравенству
треугольника,
различимости
нетождественных
объектов
и
неразличимости тождественных объектов. Метрика Минковского Наиболее общей метрикой является метрика Минковского. Степень разности значений можно выбрать в пределах от 1 до 4. Если эту степень взять равной 2, то получим евклидово расстояние. Расстояние Минковского равно корню r-ой степени из суммы абсолютных разностей пар значений взятых в rой степени: distance(x,y) = {Σi (xi - yi)r }1/r Евклидова метрика Это
наиболее
часто
выбираемый
тип
расстояния.
Это
просто
геометрическое расстояние в многомерном пространстве. Евклидова дистанция между двумя точками х и у – это наименьшее расстояние между ними. В двухили трёхмерном случае – это прямая, соединяющая данные точки. Если в метрике Минковского положить r=2, мы получим стандартное евклидово расстояние (евклидову метрику) distance(x,y) = {Σi (xi - yi)2 }½ Квадратная евклидова метрика (квадрат евклидова расстояния) Дает больший по сравнению с евклидовой метрикой вес объектов, которые размещаются более обособленно. Благодаря возведению в квадрат при расчёте лучше учитываются большие разности distance(x,y) = Σi (xi - yi)2
36
Мартьянова А.Е. Математические методы моделирования в геологии
37
Манхеттенское расстояние Это расстояние просто среднее различие поперечных измерений. При r=1 метрика Минковского дает манхеттенское расстояние (метрику города, city block, Manhattan distance). Эта дистанционная мера, называемая также дистанцией Манхэттена или в шутку – дистанцией таксиста, определяется суммой абсолютных разностей пар значений. Для двумерного пространства это не прямолинейное евклидова расстояние между двумя точками, а путь, который должен преодолеть Манхэттенский таксист, чтобы проехать от одного дома к другому по улицам, пересекающимся под прямым углом distance(x,y) = Σi |xi - yi| Чебышевское расстояние Эта мера расстояния может быть соответствующая в случаях, когда каждый хочет определить два объекта как «различные», если они различны на любом из измерений. Разностью двух наблюдений является абсолютное значение
максимальной
разности
последовательных
пар
переменных,
соответствующих этим наблюдениям. distance(x,y) = Maximum|xi - yi| Пользовательская метрика (степенное расстояние) Это обобщенный вариант расстояния Минковского. Это расстояние, называемое также степенным расстоянием, равно корню r-ой степени из суммы абсолютных разностей пар значений взятой в р-ой степени: distance(x,y) = (Σi |xi - yi|p)1/r, где r и p - определяемые пользователем параметры. Здесь как для корня, так и для степени суммы можно выбирать значения от 1 до 4. Параметр p ответственен
за
постепенное
взвешивание
разностей
по
отдельным
координатам, параметр r ответственен за прогрессивное взвешивание больших
Мартьянова А.Е. Математические методы моделирования в геологии
38
расстояний между объектами. Если r и p равны 2, то это расстояние равно евклидовому расстоянию. Процент различия (несогласия) Эта
мера
используется
в
тех
случаях,
когда
данные
являются
категориальными. Это расстояние вычисляется как: distance(x,y) = (Number of xi ≠ yi)/i ПРАВИЛА ОБЪЕДИНЕНИЯ ИЛИ СВЯЗИ На первом шаге, когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Однако когда связываются вместе несколько объектов, возникает вопрос, как следует определить расстояния между кластерами? Другими словами, необходимо правило объединения или связи для двух кластеров. Здесь имеются различные возможности: например, вы можете связать два кластера вместе, когда любые два объекта в двух кластерах ближе друг к другу, чем соответствующее расстояние связи. Другими словами, вы используете «правило ближайшего соседа» для определения расстояния между кластерами; этот метод называется методом одиночной связи. Это правило строит «волокнистые» кластеры, то есть кластеры, «сцепленные вместе» только отдельными элементами, случайно оказавшимися ближе остальных друг к другу. Как альтернативу вы можете использовать соседей в кластерах, которые находятся дальше всех остальных пар объектов друг от друга. Этот метод называется метод полной связи. Существует также множество других методов объединения кластеров, подобных тем, что были рассмотрены. Одиночная связь (метод ближайшего соседа). Как было описано выше, в этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Это правило должно, в известном смысле, нанизывать
38
Мартьянова А.Е. Математические методы моделирования в геологии
39
объекты вместе для формирования кластеров, и результирующие кластеры имеют тенденцию быть представленными длинными «цепочками». Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (то есть «наиболее удаленными соседями»). Этот метод обычно работает очень хорошо, когда объекты происходят на самом деле из реально различных «рощ». Если же кластеры имеют в некотором роде удлиненную форму или их естественный тип является «цепочечным», то этот метод непригоден. Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них. Метод эффективен, когда объекты в действительности формируют различные «рощи», однако он работает одинаково хорошо и в случаях протяженных («цепочного» типа) кластеров. Отметим, что в своей книге Снит и Сокэл (Sneath, Sokal, 1973) вводят аббревиатуру UPGMA для ссылки
на
этот
метод,
как
на
метод
невзвешенного
попарного
арифметического среднего - unweighted pair-group method using arithmetic averages. Взвешенное попарное среднее. Метод идентичен методу невзвешенного попарного среднего, за исключением того, что при вычислениях размер соответствующих кластеров (то есть число объектов, содержащихся в них) используется в качестве весового коэффициента. Поэтому предлагаемый метод должен
быть
использован
(скорее
даже,
чем
предыдущий),
когда
предполагаются неравные размеры кластеров. В книге Снита и Сокэла (Sneath, Sokal, 1973) вводится аббревиатура WPGMA для ссылки на этот метод, как на метод взвешенного попарного арифметического среднего - weighted pair-group method using arithmetic averages. Невзвешенный центроидный метод. В этом методе расстояние между двумя кластерами определяется как расстояние между их центрами тяжести.
Мартьянова А.Е. Математические методы моделирования в геологии
40
Снит и Сокэл (Sneath and Sokal (1973)) используют аббревиатуру UPGMC для ссылки на этот метод, как на метод невзвешенного попарного центроидного усреднения - unweighted pair-group method using the centroid average. Взвешенный центроидный метод (медиана). Этот метод идентичен предыдущему, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (то есть числами объектов в них). Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего. Снит и Сокэл (Sneath, Sokal 1973) использовали аббревиатуру WPGMC для ссылок на него, как на метод невзвешенного попарного центроидного усреднения - weighted pair-group method using the centroid average. Метод Варда. Этот метод отличается от всех других методов, поскольку он использует методы дисперсионного анализа для оценки расстояний между кластерами. Метод минимизирует сумму квадратов (SS) для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге. Подробности можно найти в работе Варда (Ward, 1963). В целом метод представляется очень эффективным, однако он стремится создавать кластеры малого размера. ВИЗУАЛИЗАЦИЯ РЕЗУЛЬТАТОВ КЛАСТЕРНОГО АНАЛИЗА После
проведения
классификации
рекомендуется
визуализировать
результаты кластеризации путем построения дендрограммы (дендограммы). Для большого числа объектов такая визуализация является единственным способом получить представление об общей конфигурации объектов. Хотя от графического представления данных во многих методах можно отказаться, иерархические методы кластерного анализа становятся более наглядными, если результаты расчета представить в виде специального графика, называемого дендрограммой (дендограммой). Предположим, после применения одного из иерархических методов 40
Мартьянова А.Е. Математические методы моделирования в геологии
41
получены результаты классификации в виде величин связи для пар объектов. Идея построения дендрограммы очевидна – пары объектов соединяются в соответствии с уровнем связи, отложенным по оси ординат (рис. VII.1).
Рис. VII.1. Дендрограмма иерархического метода
Диаграмма начинается с каждого объекта в классе (в нижней части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) вы «ослабляете» ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер. В результате, вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете) все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе. На этих диаграммах вертикальные оси представляют расстояние
объединения
(в
горизонтальных
древовидных
диаграммах
Мартьянова А.Е. Математические методы моделирования в геологии
42
горизонтальные оси представляют расстояние объединения). Так, для каждого узла в графе (там, где формируется новый кластер) вы можете видеть величину расстояния, для которого соответствующие элементы связываются в новый единственный кластер. Когда данные имеют ясную «структуру» в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их. По оси абсцисс располагаются символические обозначения объектов исследования (векторов матрицы), а по оси ординат – минимальные значения дистанционных
коэффициентов,
соответствующих
каждому
шагу
классифицирующей процедуры. Таким образом, ось ординат используется для масштабного представления иерархических уровней группирования. Наглядность и содержательная ценность древовидных графов существенно повышаются, если в них отражена информация не только о тесноте внутригрупповых связей, но и о межгрупповых расстояниях h. Такой дендровидный граф, учитывающий не только внутригрупповые расстояния, но и средние расстояния между группами, называется дендрографом. Рудные тела редкометалльного месторождения приурочены к зонам натровых метасоматитов (альбититов). В результате детального изучения минерального состава метасоматитов было установлено, что на месторождении развиты
альбититы
двух
типов.
Причем
редкометалльное
оруденение
характерно лишь для одного из них. По химическому составу рудные и безрудные альбититы весьма близки, поэтому различить их по содержанию отдельных химических элементов не удается. Однако некоторые различия в минеральном составе проявляются в особенностях корреляционных связей между элементами. Наглядно эти различия отражаются на графах (рис. VII.2, а, б) и дендрограммах (рис. VII.2, в, г). В качестве меры близости элементов при построении дендрограмм в данном случае используются непосредственно 42
Мартьянова А.Е. Математические методы моделирования в геологии
43
парные коэффициенты корреляции, рассчитанные по 50 пробам, отобранным из рудных и безрудных альбититов, тип которых однозначно определен минералогическими исследованиями. Предельное значение коэффициента корреляции для доверительной вероятности 0,95 при объеме выборок в 50 проб равен 0,28. Поэтому для целей классификации целесообразно сравнивать лишь те группы, для которых коэффициенты корреляции, отражающие тесноту внутригрупповой связи, превышают эту величину. Для обеих дендрограмм характерна группа, объединяющая фосфор и редкоземельные элементы, что, по-видимому, обусловлено присутствием в альбититах обоих типов апатита, в составе которого отмечены повышенные концентрации этих элементов. Основной отличительной особенностью безрудных альбититов является тесная ассоциация сидерофильных элементов (Ni—Cr—Ti—Со), которая в рудных альбититах распадается. Для рудных альбититов характерна ассоциация халькофильных элементов (Pb—Zn), в то время как в безрудных альбититах корреляционная связь между этими элементами отрицательная. Таким образом кластер-анализ позволяет оперативно и достаточно надежно определить тип альбититов по результатам спектральных анализов, не прибегая к детальному изучению шлифов.
44
Мартьянова А.Е. Математические методы моделирования в геологии
Рис VII.2. Характеристики корреляционных связей между содержаниями химических элементов в альбититах: а—граф по безрудным альбититам; б—граф по рудным альбититам; в— дендрограмма по безрудным альбититам; г—дендрограмма по рудным 44
Мартьянова А.Е. Математические методы моделирования в геологии
45
альбититам МЕТОД K-СРЕДНИХ Этот
метод
кластеризации
существенно
отличается
от
таких
агломеративных методов, как древовидная кластеризация. Предположим, вы уже имеете гипотезы относительно числа кластеров (по наблюдениям или по переменным). Вы можете указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода K-средних. В общем случае метод K-средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга. С вычислительной точки зрения вы можете рассматривать этот метод, как дисперсионный анализ «наоборот». Программа начинает с K случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы: (1) - минимизировать изменчивость внутри кластеров, и (2) максимизировать изменчивость между кластерами. Данный способ аналогичен методу «дисперсионный анализ наоборот» в том смысле, что критерий значимости в дисперсионном анализе сравнивает межгрупповую изменчивость с внутригрупповой при проверке гипотезы о том, что средние в группах отличаются друг от друга. В кластеризации методом K-средних программа перемещает объекты (то есть наблюдения) из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый результат при проведении дисперсионного анализа Обычно, когда результаты кластерного анализа методом K-средних получены, можно рассчитать средние для каждого кластера по каждому измерению, чтобы оценить, насколько кластеры различаются друг от друга. В идеале вы должны получить сильно различающиеся средние для большинства, если не для всех измерений, используемых в анализе. Значения F-статистики,
Мартьянова А.Е. Математические методы моделирования в геологии
46
полученные для каждого измерения, являются другим индикатором того, насколько хорошо соответствующее измерение дискриминирует кластеры. ФАКТОРНЫЙ АНАЛИЗ Основным объектом исследования методами факторного анализа является корреляционная матрица, построенная с использованием коэффициента корреляционного отношения Пирсона (для количественных признаков). Предлагается также использование других коэффициентов типа корреляции, предназначенных для порядковых, качественных и смешанных признаков, но опыта в этой области пока недостаточно. Основным требованием к построенной
матрице
является
ее
положительная
полуопределенность.
Эрмитова матрица называется положительно полуопределенной, если все ее главные миноры неотрицательны. Из данного свойства как раз и следует неотрицательность всех собственных значений. Методами факторного анализа решаются три основных вида задач: • отыскание скрытых, но предполагаемых закономерностей, которые определяются воздействием внутренних или внешних причин на изучаемый процесс; • выявление и изучение статистической связи признаков с факторами или главными компонентами; • сжатие информации путем описания процесса при помощи общих факторов или главных компонент, число которых меньше количества первоначально взятых признаков (параметров), однако с той или иной степенью точности обеспечивающих воспроизведение корреляционной матрицы. Следует пояснить, что в факторном анализе понимается под сжатием информации. Дело в том, что корреляционная матрица получается путем обработки исходного массива данных. Предполагался, что та же самая корреляционная матрица может быть получена с использованием тех же 46
Мартьянова А.Е. Математические методы моделирования в геологии
47
объектов, но описанных меньшим числом параметров. Таким образом, якобы происходит уменьшение размерности задачи, хотя на самом деле это не так. Это не сжатие информации и в общепринятом смысле – восстановить исходные данные по корреляционной матрице нельзя. Коэффициенты корреляции, составляющие корреляционную матрицу, по умолчанию вычисляются между параметрами (признаками, тестами), а не между
объектами
(индивидуумами,
лицами),
поэтому
размерность
корреляционной матрицы равна числу параметров. Это так называемая техника R. Однако может быть, например, изучена корреляция между объектами (точнее, их состояниями, описываемыми векторами параметров). Эта методика называется техникой Q. Проведение факторного анализа техникой Q обосновано тем, что состояния объектов могут иметь общую побудительную причину (причины), которая (которые) как раз и может быть выявлена с помощью факторного анализа. Существует также техника Р, предполагающая анализ исследований, выполненных на одном и том же индивидууме в различные промежутки времени («объекты» – один и тот же индивидуум в различные промежутки времени), причем изучаются корреляции между состояниями индивидуума. Аналог техники Q для последнего случая составляет предмет исследования техники O. В основе всех методов факторного анализа лежит предположение, что изучаемая зависимость носит линейный характер. Основное требование к исходным данным – это то, что они должны подчиняться многомерному нормальному распределению. По крайней мере, должно быть сделано допущение о многомерном нормальном распределении совокупности. Редуцированием корреляционной матрицы называется процесс замены единиц
на
главной
диагонали
корреляционной
матрицы
некоторыми
величинами, называемыми общностями. Общность – сумма квадратов факторных нагрузок. Общность данной переменной – та часть ее дисперсии, которая обусловлена общими факторами. Это вытекает из предположения что
Мартьянова А.Е. Математические методы моделирования в геологии
48
полная дисперсия складывается из общей дисперсии, обусловленной общими для
всех
переменных
факторами,
а
также
специфичной
дисперсии,
обусловленной факторами, специфичными только для данной переменной, и дисперсии, обусловленной ошибкой. Получение матрицы факторного отображения в принципе является целью факторного анализа. Ее строки представляют собой координаты концов векторов,
соответствующих
т
переменным
в
r-мерном
факторном
пространстве. Близость концов этих векторов дает представление о взаимной зависимости переменных. Каждый вектор в сжатой, концентрированной форме несет информацию о процессе. Близость этих векторов дает представление о взаимной зависимости переменных. Дополнительно, если число выделенных факторов
больше
единицы,
обычно
производится
вращение
матрицы
факторного отображения с целью получения так называемой простой структуры. Для наглядности результаты можно изобразить графически, что, однако, проблематично для трех и более выделенных факторов. Поэтому обычно дают изображение r -мерного факторного пространства в двумерных срезах. В процессе решения задачи факторного анализа нужно быть готовы к тому, что иногда решение получить не удается. Это вызвано сложностью решаемой
проблемы
собственных
значений
корреляционной
матрицы.
Например, корреляционная матрица может оказаться вырожденной, что может быть вызвано совпадением или полной линейной корреляцией параметров. Для матриц высоко порядка может произойти потеря значимости в процессе вычислений. Поэтому теоретически нельзя исключить ситуацию, когда методы факторного анализа, к сожалению, окажутся неприменимы, по крайней мере до тех пор, пока исходные данные не удастся «исправить». Исправлены данные могут быть следующим образом. Выявите линейно зависимые параметры с помощью, например, метода и корреляционных плеяд (возможно применение и других методов) и оставьте в исходных данных только один из группы линейно 48
Мартьянова А.Е. Математические методы моделирования в геологии
49
зависимых параметров.
МЕТОД ГЛАВНЫХ КОМПОНЕНТ С увеличением размерности признакового пространства возрастают трудности изучения геологических объектов, и возникает проблема замены многочисленных существенной
наблюдаемых потери
признаков
полезной
меньшим
информации.
их
Одним
числом, из
без
наиболее
распространенных методов решения этой задачи является метод главных компонент. Основой метода главных компонент является линейное преобразование т исходных переменных (признаков) в т новых переменных, где каждая новая переменная представляет собой линейное сочетание исходных. В процессе преобразования векторы наблюдаемых переменных заменяются новыми векторами (главными компонентами), которые вносят резко различные вклады в суммарную дисперсию многомерных признаков. Сокращение пространства признаков достигается путем отбора нескольких наиболее информативных компонент, обеспечивающих основную долю суммарной дисперсии, что приводит к заметному уменьшению их общего числа за счет наименее информативных компонент, отражающих малые доли суммарной дисперсии. Главные компоненты – это собственные векторы ковариационных матриц исходных признаков. Число собственных векторов ковариационной матрицы определяется числом изучаемых признаков, то есть равно числу ее столбцов (или
строк).
Каждый
собственный
вектор
(главная
компонента)
характеризуется собственным значением и координатами. Собственные значения ковариационной матрицы (λj) – это длины ее собственных векторов, то есть их дисперсии. Суммы собственных значений ковариационной матрицы равны ее следу, то есть сумме ее диагональных элементов.
Мартьянова А.Е. Математические методы моделирования в геологии
50
Координаты собственного вектора ковариационной матрицы (ωij) – это числовые коэффициенты, характеризующие его положение в т мерном признаковом пространстве. Число точечных координат каждого собственного вектора (ωij) – ω1, ω2, ..., ωm определяется размерностью пространства, а их численные значения – это коэффициенты линейных уравнений данного собственного вектора. Собственные
значения
ковариационной
матрицы
находятся
как
характеристические корни полиномиальных уравнений путем их решения. Однако осуществить это для больших значений т очень сложно. Поэтому в вычислительной практике их определяют методами матричных преобразований (путем последовательных приближений к собственным значениям), которые могут быть реализованы только с помощью ЭВМ. Методы отыскания координат собственных векторов симметричных матриц также сложны и требуют применения ЭВМ. Поскольку ковариационные матрицы исходных признаков симметричны, их собственные векторы всегда ортогональны, а составляющие их переменные взаимонезависимы, то есть не коррелированы между собой. В
методе
главных
компонент
координаты
собственных
векторов
рассматриваются как нагрузки соответствующих переменных на тот или иной фактор.
Они
используются
для
расчета
матриц
нового
(множества
совокупностей путем проектирования векторов исходных данных (признаков х1, х2, …, хm) на оси собственных векторов (γ1, γ2, …, γm): m
γ j = ∑ ω ji xi ,
(VII.1)
j =1
где ω ji – нагрузки j-й компоненты в i-й переменной признака. С помощью формулы (VII.1) исходная матрица наблюденных признаков размерности п x т пересчитывается в матрицу новых переменных (той же размерности), учитывающих
собственные
значения 50
каждой
из
компонент.
Если
Мартьянова А.Е. Математические методы моделирования в геологии
51
статистические (корреляционные) связи между наблюденными признаками многомерного пространства проявляются достаточно отчетливо, то разложение исходной матрицы наблюдений на т новых компонент приводит к заметному возрастанию контрастности распределения дисперсий по новым компонентам, в сравнении с исходными векторами. Как правило, дисперсия одной из главных компонент достигает половины и более от суммарной дисперсии признаков, а в совокупности с дисперсиями еще одной-двух последующих компонент, их общий вклад в суммарную дисперсию превышает 90%. Таким образом, без существенной потери информации об изменчивости наблюденных признаков можно заметно сократить размерность пространства наблюденных признаков (до p≤m), ограничившись данными по двум-трем наиболее информативным главным компонентам. Это позволяет считать, что вместо исходной матрицы размерностью п x m, для целей геологического анализа может использоваться матрица главных компонент размерностью п x p (где p, как правило не превышает 2 – 3). Поскольку новые переменные в этой матрице представлены некоррелированными величинами, метод главных компонент
может
рассматриваться
как
мощное
средство
определения
истинного числа линейно независимых векторов, содержащихся в исходной матрице. Рассмотрим подробнее метод главных компонент – вариант метода главных факторов. Основная модель метода главных компонент записывается в матричном виде следующим образом: Z = A P, где Z – матрица стандартизованных исходных данных, A – факторное отображение, P – матрица значений факторов. Матрица Z имеет размер т х п, матрица A имеет размер т х r, матрица P имеет размер r х п,
Мартьянова А.Е. Математические методы моделирования в геологии
52
где т – количество переменных (векторов данных), n – количество индивидуумов (элементов одного вектора), r – количество выделенных факторов. Как видно из приведенного выше выражения, модель компонентного анализа содержит только общие для имеющихся векторов факторы. Матрица стандартизованных исходных данных определяется из матрицы исходных данных Y (ее размер т х п) по формуле zij =
yij − yij si
, i = 1, 2, …, m, j = 1, 2, …, n,
где yij – элемент матрицы исходных данных,
yij – среднее значение,
si – стандартное отклонение. Для
вычисления
корреляционной
матрицы
–
основного
элемента
факторного анализа – имеет место простое соотношение
1 ZZ ' = R , n −1 где R – корреляционная матрица; она имеет размер т х т, ' – символ транспонирования. На главной диагонали матрицы R стоят значения, равные 1. Эти значения называются общностями и обозначаются как hi2 , являясь мерой полной дисперсии переменной. Неизвестными являются матрицы A и P. Матрица A может быть найдена из основной теоремы факторного анализа R = A C A' где C – корреляционная матрица, отражающая связь между факторами. Если C = I, то говорят об ортогональных факторах, если С ≠ I, говорят о 52
Мартьянова А.Е. Математические методы моделирования в геологии
53
косоугольных факторах. Здесь I – единичная матрица. Для матрицы C справедливо соотношение 1 PP' = C . n −1 Нами рассматривается только случай ортогональных факторов, для которых R = A A' Модель классического факторного анализа содержит ряд общих факторов и по одному характерному фактору на каждую переменную. Первая из приведенных в разделе формул является основной моделью факторного анализа для метода главных компонент. Число главных компонент всегда меньше либо равно числу переменных. ПРОБЛЕМА ВРАЩЕНИЯ Оси координат, соответствующие выделенным факторам, ортогональны, и их направления устанавливаются последовательно, по максимуму оставшейся дисперсии. Но полученные таким образом координатные оси большей частью содержательно
не
интерпретируются.
Поэтому
получают
более
предпочтительное положение системы координат путем вращения этой системы вокруг ее начала. Пространственная конфигурация векторов в результате применения этой процедуры остается неизменной. Целью вращения является нахождение одной из возможных систем координат для получения так называемой простой факторной структуры. Применяется популярный метод вращения VARIMAX. КРИТЕРИИ МАКСИМАЛЬНОГО ЧИСЛА ФАКТОРОВ Существует
несколько
критериев
оценки
максимального
числа
удерживаемых факторов. Критерии, основанные на анализе определителей
Мартьянова А.Е. Математические методы моделирования в геологии
54
(детерминантов) исходной и воспроизведенной корреляционной матриц, не показывают стабильности. Критерии, основанные на величине собственных значений корреляционной матрицы, в конечном счете приводят к анализу процента дисперсии, выделенной факторами. Все общие факторы, число которых равно числу параметров, выделяют 100% дисперсии. Если сумма процентов дисперсии превышает величину 100%, то это означает: при вычислении собственных значений корреляционной матрицы были получены отрицательные
собственные
значения
и,
как
следствие,
комплексные
собственные вектора, что может означать некорректную редукцию исходной корреляционной матрицы. ВИЗУАЛИЗАЦИЯ РЕЗУЛЬТАТОВ ФАКТОРНОГО АНАЛИЗА Пусть
в
эксперименте
получены
некоторые
опытные
данные,
представляющие собой измерения трех параметров, обозначенных цифрами 1, 2 и 3. В результате проведенных расчетов были выделены два фактора (две главные компоненты), обозначенные буквами A и B. Из рис. VII.3 видно, что вектора данных четко распадаются на две группы: одну группу, включающую в себя параметр 1 и параметр 2 и другую группу, включающую в себя параметр 3. Таким образом, по результатам расчета можно выдвинуть гипотезы: 1. Параметр 1 и параметр 2 имеют сильную взаимную линейную корреляцию. 2. Параметр 3 слабо зависит от параметров 1 и 2 в рассматриваемых сериях эксперимента. Указание
В эксперименте достаточно измерять не три параметра, а только два: параметр 1 (или 2) и параметр 3. Это послужит снижению стоимости 54
Мартьянова А.Е. Математические методы моделирования в геологии
55
эксперимента практически без потери точности выводов.
Рис. VII.3. Изученные параметры 1, 2 и 3 в пространстве главных компонент,
которым соответствуют фактор A и фактор B
ПРИМЕР VII.1
В одном из районов выявлено месторождение золота, приуроченное к зоне развития калиевых метасоматитов, а также ряд непромышленных по масштабу проявлений золоторудной и полиметаллической минерализации. В рудах месторождения и окружающих их ореолах рассеяния золото ассоциирует с оловом и мышьяком, а на верхних горизонтах также с серебром, свинцом и сурьмой. Для окружающих неизмененных пород характерна положительная корреляционная связь между калием, ураном и торием. Непосредственно вблизи рудных тел в результате калиевого метасоматоза эта связь нарушается. Данные особенности месторождения могут быть использованы для разбраковки многочисленных геохимических аномалий, выявленных в этом районе при проведении металлометрической съемки. К перспективным объектам должны быть отнесены в первую очередь комплексные аномалии с характерными для месторождения ассоциациями
Мартьянова А.Е. Математические методы моделирования в геологии
56
элементов, пространственно совпадающие с участками проявления калиевого метасоматоза. В табл. VII.1 приведены содержания химических элементов в пробах метасоматитов по одному из аномальных участков района. Таблица VII.1. Содержание типоморфных элементов в метасоматитах № проб 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
Ag 0,1 13 0,2 0,5 0,6 3,5 0,5 25 0,3 0,2 3 0,1 1 21 47 0,5 2 0,7 0,4 0,1 5 0,2 0,1 5 0,1 0,2 0,1 4 0,2 0,6 0,3 0,1 4 0,6 0,2 10
Pb 0,8 17 0,8 1 0,5 4,8 0,2 53 1 5 6 0,5 3 45 65 3 4 1 2 0,5 12 0,1 0,3 10 0,5 0,3 0,6 5 0,1 0,1 1 0,1 7 0,2 1 20
Sn 1 2 10 45 40 1 0,8 0,1 0,5 0,1 110 5 0,1 3 0,5 0,5 145 0,3 0,5 3 0,5 0,8 0,6 63 0,5 0,1 0,1 0,3 3 1 4 2 15 1 3 5
As 5 1 0,5 25 40 0,3 2 0,5 0,1 0,3 60 0,5 0,7 2 0,1 0,2 90 0,1 0,1 1 0,1 0,2 0,3 45 2 0,5 0,6 0,1 0,1 0,2 1 3 5 3 0,5 3
Sb 3 0,2 2 0,1 0,1 0,4 0,3 14 0,5 0,1 0,2 0,8 1 15 23 1 0,1 0,2 0,1 0,5 0,1 0,4 0,02 0,1 0,01 0,1 0,02 0,2 1 0,2 0,1 0,3 0,1 0,5 0,2 0,7
Требуется 56
Au 0,01 2 0,1 3 4 0,1 0,2 6 0,1 0,01 10 0,2 0,1 4 10 0,1 12 0,01 0,1 0,3 1 0,01 0,03 5 0,01 0,1 0,02 1 1 0,5 0,01 0,1 1 0,5 0,1 3
K 20 120 43 320 175 55 66 350 82 48 270 35 92 225 280 83 280 45 63 15 58 36 53 80 60 45 38 125 52 30 42 60 160 70 55 180
U 30 35 55 77 85 65 60 13 64 45 100 30 75 80 15 63 50 40 55 21 75 45 40 25 53 30 25 10 45 25 35 53 10 62 43 50
Th 5 15 10 35 42 17 21 6 26 16 35 11 28 38 5 25 25 15 19 3 27 12 15 17 18 10 12 3 15 8 13 16 15 20 18 25
Мартьянова А.Е. Математические методы моделирования в геологии
57
1) выявить геохимические ассоциации элементов; 2) определить, относятся ли данные метасоматиты к рудоносным; 3) оценить уровень эрозионного среза рудной зоны; 4) на поисковом профиле определить наиболее перспективные участки для первоочередного бурения. Решение
1. Для выполнения корреляционного анализа введите в диапазон A1:I37 рабочей книги Excel названия столбцов и исходные данные из табл. VII.1 по столбцам: A – Ag, B – Pb, C – Sn, D – As, E – Sb, F – Au, G – K, H – U, I – Th. Затем в меню Сервис выберите пункт Анализ данных и далее укажите строку Корреляция. В появившемся диалоговом окне укажите Входной интервал A1:I37. Укажите, что данные рассматриваются по столбцам.
Установите флажок в поле Метки в первой строке. Укажите выходной диапазон. Для этого поставьте флажок в левое поле Выходной интервал и в правое поле ввода Выходной интервал введите K2. Нажмите кнопку OK. Результаты анализа. В выходном диапазоне получаем корреляционную матрицу. Подразумевается, что в пустых клетках в правой верхней половине таблицы находятся те же коэффициенты корреляции, что и в нижней левой (симметрично расположенные относительно диагонали). Интерпретация результатов. По данным расчета матрицы видно, что максимальная корреляция между содержанием Sn и As – 0.9837, то есть существует практически линейная связь между их содержанием. Для более удобной интерпретации корреляционной матрицы скопируйте из каждого столбца данные друг за другом в столбец O, начиная с O14, в столбец N поместите соответствующие обозначения элементов из крайнего левого столбца матрицы, а в столбец M поместите обозначение соответствующего элемента из верхней строки матрицы. Отсортируйте диапазон M14:O58 по столбцу O в порядке убывания. Коэффициенты корреляции с 0,983719 по
58
Мартьянова А.Е. Математические методы моделирования в геологии
0,754787 – высокие, с 0,640942 по 0,501725 – средние, с 0,485918 по 0,381287 – низкие, с 0,298283 и ниже – незначимые (см. табл. VII.2). Таблица VII.2. Коэффициенты корреляции между элементами месторождения золота в порядке убывания Ag Pb Sn As Sb Au K U Th Sn Ag Pb Ag U Au Sn As Pb Ag Ag Pb Sb Sn As Sb As Sn K As Sn Au K Au Pb Pb Ag Pb Ag Sb Ag Sn As
Ag Pb Sn As Sb Au K U Th As Pb Sb Sb Th K Au Au K K Au Au K K K Au Th Th Th U U Th U U Th Sn Sn As As Th Th Sb Sb
1 1 1 1 1 1 1 1 1 0,983719 Высокие 0,970995 0,932534 0,928558 0,873059 0,815275 0,764751 0,754787 0,640942 Средние 0,602096 0,571473 0,558501 0,54045 0,520355 0,501725 0,485918 Низкие 0,444563 0,41351 0,381287 0,298283 Незначимые 0,291818 0,26272 0,161386 0,102603 -0,05304 -0,06861 -0,07128 -0,07188 -0,07419 -0,11928 -0,11955 -0,1316 -0,13211 58
Мартьянова А.Е. Математические методы моделирования в геологии
U U U
Sb Pb Ag
59
-0,18041 -0,18825 -0,23653
Связь между золотом (Au) и оловом (Sn) – 0,7647 – высокий коэффициент корреляции, связь между золотом (Au) и мышьяком (As) – 0,7547 – высокий коэффициент корреляции; связь между золотом (Au) и серебром (Ag) – 0,5714 – средний коэффициент корреляции, связь между золотом (Au) и свинцом (Pb) – 0,5585 – средний коэффициент корреляции, связь между золотом (Au) и сурьмой (Sb) – 0,4859 – низкий коэффициент корреляции. Связь между калием (K) и ураном (U) – 0,1613 – незначимый коэффициент корреляции, между калием (K) и торием (Th) – 0,3812 – низкий коэффициент корреляции, между ураном (U) и торием (Th) – 0,8730 – высокий коэффициент корреляции. Таким
образом,
можно
заключить,
что
месторождение
является
рудоносным и рассматриваемый срез относится к верхним горизонтам; для определения на поисковом профиле наиболее перспективных участков для первоочередного бурения следует рассмотреть связь между калием, ураном и торием, так как к перспективным объектам должны быть отнесены в первую очередь
комплексные
ассоциациями
аномалии
элементов,
с
характерными
пространственно
для
совпадающие
месторождения с
участками
проявления калиевого метасоматоза. 2. Скопируйте диапазон A1:B37 в диапазон A41:B77. В столбце C рассчитайте квадраты разностей для значений в столбцах A и B по формуле =(A42-B42)^2
для
строки
42.
Скопируйте
эту
формулу
методом
автозаполнения в диапазон С42:С77. В ячейке С78 найдите через автосумму для диапазона С42:С77 общую сумму. В ячейке С79 найдите квадратный корень из этой суммы по формуле =КОРЕНЬ(C78). Это евклидова метрика для пары Ag–Pb. Аналогично можно рассчитать евклидовы метрики для всех остальных пар и расположить их в общую матрицу наподобие корреляционной – матрицу евклидовых метрик. На основании этой матрицы евклидовых метрик
Мартьянова А.Е. Математические методы моделирования в геологии
60
можно позднее вручную построить дендрограмму по результатам расчета, а также выделить заданное число кластеров по построенной дендрограмме. Эту процедуру удобнее осуществить в пакете STATISTICA. 3. Создать в программе STATISTICA файл данных, используя табл. VII.1. 4. Провести корреляционный анализ всей выборки. Для этого в меню с основными процедурами Statistics выбрать Basic Statistics/Tables, а в появившемся его меню – Correlation matrices. В
появившемся
диалоговом
окне
Product-Moment
and
Partial
Correlations: нажать на вкладке Quick кнопку Summary: Correlation Matrix и
в диалоговом окне Select one or two variable lists указать для First variable list: 1–9. Далее нажать OK. Результатом будет расчет коэффициентов корреляции – рис. VII.4. Коэффициенты, указывающие на наличие связи между элементами – выделены красным цветом.
Рис. VII.4. Расчет коэффициентов корреляции
5. Провести кластерный анализ для выделения ассоциаций химических элементов, используя графическую и табличную формы. Для этого в меню с основными
процедурами
Statistics
выбрать
Multivariate
Techniques, а в появившемся его меню – Cluster Analysis. 60
Exploratory
Мартьянова А.Е. Математические методы моделирования в геологии
61
В появившемся диалоговом окне Clustering Method (см. рис. VII.5) выбрать Joining (tree clustering).
Рис. VII.5. Выбор метода кластеризации
В появившемся диалоговом окне Cluster Analysis: Joining (Tree Clustering): на вкладке Quick нажать кнопку Variables (рис. VII.6) и
появившемся диалоговом окне Select variables for the analysis нажать кнопку Select All (рис. VII.7). Вернуться в диалоговое окно Cluster Analysis: Joining (Tree Clustering): и на вкладке Advanced, используя установленные по
умолчанию Variables (columns) из раздела Cluster, Complete Linkage (одиночная связь (метод ближайшего соседа)) в разделе Amalgamation (linkage) rule и Euclidean distance (евклидова метрика) в разделе Distance measures, далее нажать кнопку OK (рис. VII.8). В появившемся диалоговом
окне Joining Results: установлен по умолчанию флажок Rectangular branches (прямоугольные ветви), нажать кнопку Vertical icicle plot (рис. VII.9). На рис. VII.10 представлена получившаяся в результате дендрограмма. При очищенном переключателе Rectangular branches результатом будет дендрограмма, представленная на рис. VII.11.
62
Мартьянова А.Е. Математические методы моделирования в геологии
Рис. VII.6. Диалоговое окно Cluster Analysis: Joining (Tree Clustering):
Рис. VII.7. Выбор переменных для кластерного анализа
62
Мартьянова А.Е. Математические методы моделирования в геологии
Рис. VII.8. Выбор метода объединения и метрики
Рис. VII.9. Диалоговое окно Joining Results:
63
64
Мартьянова А.Е. Математические методы моделирования в геологии
Рис. VII.10. Прямоугольная дендрограмма ассоциаций элементов
Рис. VII.11. Дендрограмма ассоциаций элементов
64
Мартьянова А.Е. Математические методы моделирования в геологии
65
Вы можете масштабировать дендрограмму к стандартизированному масштабу
dlink/dmax*100
переключателем.
Когда
выбираете
этот
переключатель, горизонтальная ось (или вертикальная ось для вертикальных графиков)
будет
масштабироваться
в
процентах,
определенных,
как
dlink/dmax*100. Таким образом, это процент от диапазона от максимального до минимального расстояния в данных. Если этот переключатель очищен, то масштаб будет основан на предварительно выбранной мере расстояния. Полученная дендрограмма позволяет выделить следующие ассоциации элементов: Au–Sb, Au–Sb–Ag, As–Sn, Au–Sb–Ag–As–Sn, Au–Sb–Ag–As–Sn–Th, Au–Sb–Ag–As–Sn–Th–U, Au–Sb–Ag–As–Sn–Th–U–K. Вернуться
в
диалоговое
окно
Joining
Results:,
нажать
кнопку
Amalgamation schedule на вкладке Advanced. На рис. VII.12 представлена
получившаяся в результате электронная таблица результатов. Amalgamation schedule перечисляет по строкам объекты (элементы), которые соединены
вместе
на
соответствующих
расстояниях
(в
крайнем
левом
столбце
электронной таблицы).
Рис. VII.12. Результат выполнения Amalgamation schedule
Вернуться в диалоговое окно Joining Results:, нажать кнопку Graph of amalgamation schedule. На рис. VII.13 представлен получившийся в результате
график. Этот график может быть очень полезен, предлагая сокращение
66
Мартьянова А.Е. Математические методы моделирования в геологии
дендрограммы. В дендрограмме все большие и большие кластеры формируются из большего и большего разнообразия в пределах кластера. Этот же график показывает ровное плато, и это означает, что кластеры были сформированы по существу на одном и том же расстоянии. Это расстояние может быть оптимально сокращено при решении вопроса о том, сколько оставить кластеров, чтобы интерпретировать результаты.
Рис. VII.13. Результат выполнения Graph of amalgamation schedule.
В диалоговом окне Joining Results: нажать кнопку Distance matrix. На рис. VII.14 представлена матрица дистанционных расстояний, рассчитанная на основе евклидовой метрики. Кнопка Descriptive Statistic диалогового окна Joining Results: выводит дескриптивную статистику – средние и стандартные
отклонения для изменений (рис. VII.15). Кнопка Matrix диалогового окна Joining Results: выводит дистанционную матрицу и дескриптивную статистику
(рис. VII.16). Сравните результат расчета коэффициентов дистанционной матрицы с получившимися в электронных таблицах Excel евклидовыми метриками для соответствующих пар элементов. 66
Мартьянова А.Е. Математические методы моделирования в геологии
Рис. VII.14. Матрица дистанционных расстояний
Рис. VII.15. Дескриптивная статистика
Рис. VII.16. Результат выполнения Matrix
67
Мартьянова А.Е. Математические методы моделирования в геологии
68
Итак, имеем 3 кластера: (Au–Sb–Ag–Pb), (As–Sn–Th–U) и (K). 6. Провести кластерный анализ для выделения ассоциаций химических элементов методом K-средних. Для этого в меню с основными процедурами Statistics выбрать Multivariate Exploratory Techniques, а в появившемся его
меню – Cluster Analysis. В появившемся диалоговом окне Clustering Method (см. рис. VII.17) выбрать K-means clustering.
Рис. VII.17. Выбор метода кластеризации
В появившемся диалоговом окне Cluster Analysis: K-means clustering: на вкладке Quick нажать кнопку Variables и появившемся диалоговом окне Select variables for the analysis нажать кнопку Select All. Вернуться в диалоговое
окно Cluster Analysis: K-means clustering: и на вкладке Advanced, используя установленную по умолчанию в списке Cluster: строку Variables (columns), установить в разделе Number of clusters количество кластеров – 3 (рис. VII.18).
68
Мартьянова А.Е. Математические методы моделирования в геологии
69
Рис. VII.18. Установка параметров Cluster Analysis: K-means clustering:
Раздел Initial cluster centers – выборы в этой группе управляют способом, которым вычисляются начальные центры кластера. По умолчанию в этом разделе установлен переключатель Sort distances and take observations at constant intervals. Если Вы выбираете этот переключатель, расстояния между
всеми объектами будут сначала сортироваться и затем, выраженные в постоянных величинах, будет выбраны как начальные центры кластера. Переключатель Choose observations to maximize initial between-cluster distances. Если Вы выбираете этот переключатель, наблюдения или объекты
будут установлены как начальные центры кластера. (1) программа выберет первые номера кластеров случаев, чтобы быть соответствующими центрами кластера; (2) последующие случаи заменят предыдущие центры кластера, если их самое маленькое расстояние к любому из центров кластера больше, чем самое маленькое расстояние между кластерами; если дело обстоит не так, то (3) последующие случаи заменят начальные центры кластера, если их самое маленькое расстояние от центра кластера большее расстояние того центра
Мартьянова А.Е. Математические методы моделирования в геологии
70
кластера от любого другого центра кластера. Эффект этой процедуры выбора должен развернуть начальные расстояния между кластерами. Обратите внимание, что эта процедура может выдавать кластеры с единственными (отдельными) наблюдениями, если есть ясный outliers в данных. Переключатель Choose the first N (Number of clusters) observations. Если Вы выбираете этот переключатель, первые номера кластеров наблюдений будут начальными центрами кластера. Таким образом, эта опция обеспечивает Вас полным контролем над выбором начальной конфигурации. Это часто полезно, если Вы приносите априорные ожидания относительно характера (природы) кластеров к анализу. В этом случае, переместите случаи, которые Вы хотите выбрать как начальные центры кластера, к началу файла. Переключатели Casewise deletion of missing data или Mean substitution в разделе MD deletion, первый следует использовать, если в анализ следует включать только случаи, которые имеют для всех переменных все данные, второй следует использовать, когда отсутствующие данные будут заменены средствами для соответствующих переменных (для этого анализа только, но не для файла данных). По умолчанию стоит переключатель Casewise deletion of missing data.
Оставить установленные по умолчанию переключатели и далее, в диалоговом окне Cluster Analysis: K-means clustering: следует нажать кнопку OK.
В появившемся диалоговом окне K-Means clustering Results: нажать кнопку Summary: Clusters means & Euclidean distances (рис. VII.19). В результате расчета получим матрицу дистанционных коэффициентов между кластерами рассчитанных по евклидовым метрикам (см. рис. VII.20). Здесь же рассчитываются средние по всем измерениям для каждого кластера.
70
Мартьянова А.Е. Математические методы моделирования в геологии
71
Рис. VII.19. Анализ в K-Means clustering Results:
Рис. VII.20. Матрица евклидовых метрик между кластерами
Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Analysis of variance. Анализ вариант следует использовать, если следует
сравнивать
изменчивость
в
пределах
группы
(within)
(малая,
если
классификация хорошая) с изменчивостью между группами (between) (большая,
Мартьянова А.Е. Математические методы моделирования в геологии
72
если классификация хорошая), то есть выполнить дисперсионный анализ между группами для каждого измерения (рис. VII.21). Можно просмотреть результаты дисперсионного анализа, сравнивая для каждого измерения результаты между группами.
Рис. VII.21. Результат дисперсионного анализа Analysis of variance
Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Graph of means. Результатом будет график средних по кластерам (рис. VII.22).
72
Мартьянова А.Е. Математические методы моделирования в геологии
73
Рис. VII.22. График средних по кластерам
Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Descriptive statistics for each cluster на вкладке Advanced. Результатом будет
вывод крупноформатных таблиц описательной статистики для каждого измерения по кластерам (рис. VII.23).
Рис. VII.23. Дескриптивная статистика для третьего кластера
Мартьянова А.Е. Математические методы моделирования в геологии
74
Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Members of each cluster & distances. Результатом будет расчет евклидовых
расстояний от центров кластеров для каждого элемента входящего в кластер (рис. VII.24). Это позволяет идентифицировать потенциальных «плохих» членов кластера.
Рис. VII.24. Евклидовы расстояния для каждого кластера
Вернуться в диалоговое окно K-Means clustering Results: и нажать кнопку Save classifications and distances. Результатом будет краткая электронная
таблица содержащая: порядковые номера элементов (1 столбец), номер кластера, в который входит элемент (2 столбец) и евклидовы метрики для каждого элемента от соответствующего центра кластера (3 столбец) – рис. VII.25.
Рис. VII.25. Результат выполнения Save classifications and distances 74
Мартьянова А.Е. Математические методы моделирования в геологии
75
7. Провести факторный анализ для выделения ассоциаций химических элементов. Для этого в меню с основными процедурами Statistics выбрать Multivariate Exploratory Techniques, а в появившемся его меню – Factor Analysis.
В появившемся диалоговом окне Factor Analysis: (см. рис. VII.26) на вкладке Quick нажать кнопку Variables и появившемся диалоговом окне Select the variables for the factor analysis нажать кнопку Select All (рис. VII.27).
Вернуться в диалоговое окно Factor Analysis: и нажать кнопку OK (рис. VII.28).
Рис. VII.26. Диалоговое окно Factor Analysis:
76
Мартьянова А.Е. Математические методы моделирования в геологии
Рис. VII.27. Выбор переменных для факторного анализа
Рис. VII.28. Диалоговое окно Factor Analysis: с выбранными переменными
Появится окно Define Method of Factor Extraction:, где выбираем на вкладке Descriptives (рис. VII.29) кнопку Review correlations, means, standard deviations. В диалоговом окне Review descriptive statistics (рис. VII.30)
нажимаем кнопку Correlations. Результатом расчета будет корреляционная
76
Мартьянова А.Е. Математические методы моделирования в геологии
77
матрица (рис. VII.31). Она аналогична матрице, полученной в разделе корреляционного анализа и представленной на рис. VII.4.
Рис. VII.29. Диалоговое окно Define Method of Factor Extraction:
Рис. VII.30. Диалоговое окно Review descriptive statistics
78
Мартьянова А.Е. Математические методы моделирования в геологии
Рис. VII.31. Корреляционная матрица
В диалоговом окне Review descriptive statistics нажимаем кнопку Cancel и возвращаемся в диалоговое окно Define Method of Factor Extraction:, где выбираем на вкладке Advanced в разделе Extraction method установленный по умолчанию метод Principal Components (метод главных компонент или факторов). В разделе Max no. of factors установить число 9 – максимальное число факторов в нашем случае, в разделе Mini. eigenvalue: 0 – минимальное значение для этой опции (рис. VII.32). Нажать кнопку OK. Открывается диалоговое окно Factor Analysis Results:, в котором выбирается вкладка Quick, где нажимается кнопка Eigenvalues (собственные значения) (рис. VII.33). Результатом расчета будет таблица Eigenvalues (частей от общего числа факторов, в данном случае – части от девяти), которая содержит следующие столбцы: собственные значения (Eigenvalues), проценты от полной величины (% Total variance), кумулятивных собственных значений (Cumulative Eigenvalues), и кумулятивного процента (Cumulative %) (рис. VII.34). Первые
три фактора дают наибольший вклад в процентном отношении. Основываясь на таблице Eigenvalues, можно предложить рассматривать только эти три фактора.
78
Мартьянова А.Е. Математические методы моделирования в геологии
Рис. VII.32. Выбор параметров в диалоговом окне Define Method of Factor Extraction:
Рис. VII.33. Расчет Explained variance в диалоговом окне Factor Analysis Results:
79
Мартьянова А.Е. Математические методы моделирования в геологии
80
Рис. VII.34. Расчетная таблица Eigenvalues
В диалоговом окне Factor Analysis Results: выбрать вкладку Explained variance, где нажать кнопку Scree plot. Результатом будет график, основанный
на тесте Каттелла (рис. VII.35), иллюстрирующий первый столбец таблицы Eigenvalues. Основанный на методе Монте-Карло, Cattell's scree test предлагает,
что в точке, где непрерывное падение Eigenvalues выравнивается, предлагается сокращение остальных дополнительных факторов, так как только случайный «шум» добавляется дополнительными факторами. В нашем примере, эта точка может быть для фактора 3 или фактора 4. Поэтому нужно попробовать оба решения
и
рассмотреть
тот,
который выдаст
наиболее
поддающееся
толкованию решение. Теперь исследуем факторные нагрузки. Сначала следует рассмотреть невращаемые факторные нагрузки для всех 9 факторов. В диалоговом окне Factor Analysis Results: выбрать вкладку Loadings и в разделе Factor rotation:
выбрать установленное по умолчанию – Unrotated. Обратите внимание, что считается, что факторы со значением нагрузки более 0,70 – факторы с высокой нагрузкой. Затем нажать на кнопку Summary (рис. VII.36). Результатом расчета будет таблица факторных нагрузок отсортированных так, чтобы последующие факторы составляли все меньшее и меньшее количество разницы (рис. VII.37). 80
Мартьянова А.Е. Математические методы моделирования в геологии
81
Не удивительно видеть, что первый фактор показывает большинство самых высоких нагрузок.
Рис. VII.35. График Scree plot
Рис. VII.36. Выбор Unrotated в диалоговом окне Factor Analysis Results: на
вкладке Loadings в разделе Factor rotation:
Мартьянова А.Е. Математические методы моделирования в геологии
82
Рис. VII.37. Таблица факторных нагрузок по методу Unrotated для 10 факторов
Фактическая ориентация факторов в пространстве факториала произвольна и все вращения факторов в пространстве воспроизведут корреляции одинаково хорошо. Поэтому предложено вращать факторы таким образом, чтобы выдать такую структуру фактора, что ее проще интерпретировать. Такая простая структура и была определена Thurstone (1947), чтобы в основном описать состояние, когда факторы отмечены высокими нагрузками для некоторых переменных, низкими нагрузками для других, и когда есть немного высоких перекрестных нагрузок, то есть немного переменных с существенными нагрузками
на
больше,
чем
один
фактор.
Популярный
стандартный
вычислительный метода вращения, чтобы получить простую структуру – VARIMAX вращение (Kaiser, 1958); Другие, которые были предложены QUARTIMAX, BIQUARTIMAX, и EQUAMAX (см. Harman, 1967) – все они осуществлены в STATISTICA. Сначала рассмотрим число факторов, которое хотим вращать. Было предварительно решено, что три фактора являются наиболее влиятельными, но по
результатам
рассмотрения
графика
на
рис.
VII.35
было
решено
рассматривать четыре фактора. Нажать кнопку Cancel, чтобы возвратиться в окно Define Method of Factor Extraction:, где выбрать вкладку Quick. 82
Мартьянова А.Е. Математические методы моделирования в геологии
83
Установить в разделе Max no. of factors число 4 – число факторов в рассматриваемом случае, в разделе Mini. eigenvalue: 0 – минимальное значение для этой опции (рис. VII.38).
Рис. VII.38. Установка нового числа факторов в Max no. of factors
Нажать кнопку OK. Открывается диалоговое окно Factor Analysis Results:, в котором выбрать вкладку Loadings, и в списке Factor rotation:
выбрать Varimax raw (рис. VII.39). Затем нажать на кнопку Summary. Результатом расчета будет таблица Factor Loadings (факторных нагрузок) – см. рис. VII.40. Получится вращаемое решение с четырьмя факторами. Четвертый фактор не дает больших нагрузок. Повторить решение для трех факторов. Результатом расчета будет таблица Factor Loadings (факторных нагрузок) – см. рис. VII.41. Первый фактор показывает большинство самых высоких нагрузок. Для золота (Au) большую нагрузку показывает второй фактор – около 0,82 и достаточно большую – первый фактор – около 0,55. Фактор 1 связан с Ag, Pb и
84
Мартьянова А.Е. Математические методы моделирования в геологии
Sb, фактор 2 – с Sn, As и Au, фактор 3 – с U и Th. С K, кажется, связан и фактор 1 и фактор 2: фактор 1 – нагрузка 0,66, фактор 2 – 0,57.
Рис. VII.39. Выбор Varimax raw в диалоговом окне Factor Analysis Results: на
вкладке Loadings в разделе Factor rotation:
Рис. VII.40. Таблица факторных нагрузок по методу Varimax для 4 факторов 84
Мартьянова А.Е. Математические методы моделирования в геологии
85
Рис. VII.41. Таблица факторных нагрузок по методу Varimax для 3 факторов
Щелкнуть в диалоговом окне Factor Analysis Results: на вкладке Loadings кнопкой Plot of loadings, 2D. Откроется диалоговое окно Select two factors for the plot, в котором выберем Factor 1 и Factor 2 (рис. VII.42). Нажать OK.
Результатом будет плоский график нагрузок (рис. VII.43). Аналогично построить график нагрузок для Factor 1 и Factor 3 (рис. VII.44). В диалоговом окне Factor Analysis Results: на вкладке Loadings щелкнем кнопкой Plot of loadings, 3D. Результатом будет трехмерный график нагрузок (рис. VII.45).
Рис. VII.42. Диалоговое окно Select two factors for the plot
86
Мартьянова А.Е. Математические методы моделирования в геологии
Рис. VII.43. График нагрузок Plot of loadings, 2D для факторов 1 и 2
Рис. VII.44. График нагрузок Plot of loadings, 2D для факторов 1 и 3 86
Мартьянова А.Е. Математические методы моделирования в геологии
87
Рис. VII.45. График нагрузок Plot of loadings, 3D для факторов 1, 2 и 3
Графики (рис. VII.43 – VII.45) просто показывают нагрузки для каждой переменной и хорошо иллюстрируют корреляционную матрицу, например, по рис. VII.43 видно, что ассоциированы мышьяк (As) и олово (Sn); серебро (Ag), сурьма (Sb) и свинец (Pb); уран (U) и торий (Th). Фактор 2 – фактор с высокими нагрузками на Au – «рудный» и фактор 3 связан с околорудным метасоматозом. Обратите внимание на нагрузки факторов, для того, чтобы определить, в какой мере данная закономерность характеризует изучаемый объект. Щелкнуть в диалоговом окне Factor Analysis Results: на вкладке Explained variance кнопкой Reproduced/residual corrs. (рис. VII.46), чтобы
получить две матрицы – корреляции и остаточной корреляции (рис. VII.47).
Мартьянова А.Е. Математические методы моделирования в геологии
88
Рис. VII.46. Диалоговое окно Factor Analysis Results: вкладке Explained
Таблица
остаточных
корреляций
может
интерпретироваться
как
«количество» корреляции, которое не может быть объяснено решением с тремя факторами.
Диагональные
элементы
в
матрице
содержат
стандартное
отклонение, которое является равным квадратному корню из единицы минус соответствующие общности для двух факторов (общности переменной – разница, которую можно объяснять соответствующим числом факторов). Если рассмотреть тщательно эту матрицу, можно видеть, что нет фактически никаких остаточных корреляций, которые являются большими, чем 0,1, или меньше чем –0,1. Добавить к этому факт, что первые три фактора объясняли почти 95 % полной разницы (см. совокупный % Eigenvalues показанный в таблице Eigenvalues на рис. VII.34). Очень низкие общности для одной или двух переменных (из всех в анализе) могут указывать, что эти переменные плохо объясняются соответствующей моделью фактора.
88
Мартьянова А.Е. Математические методы моделирования в геологии
89
Рис. VII.47. Таблица остаточных корреляций
Щелкнуть в диалоговом окне Factor Analysis Results: на вкладке Explained variance кнопкой Communalities (рис. VII.46), чтобы получить
таблицу общностей для текущего решения, то есть текущего числа факторов (рис. VII.48).
Рис. VII.48. Таблица общностей
Мартьянова А.Е. Математические методы моделирования в геологии
90
Щелкнуть в диалогом окне Factor Analysis Results: на вкладке Scores кнопкой Factor scores coefficients, чтобы получить таблицу со значениями каждого фактора элементов (рис. VII.49). Эти коэффициенты представляют веса, которые используются когда вычисляется зависимость фактора от переменных. Щелкнуть в диалогом окне Factor Analysis Results: на вкладке Scores кнопкой Factor scores, чтобы получить таблицу со значениями каждого фактора в точках наблюдения (рис. VII.50). Обратите внимание, в каких точках наблюдения значения рудного фактора наибольшие: 4 – 6, 11, 17, 19, 21, 24. Фактор околорудного метасоматоза – 1, 4, 8, 13 – 15, 20, 21, 24, 26 – 28, 31, 33 – 34, 36. Общие: 4, 21, 24.
Рис. VII.49. Таблица Factor scores coefficients
90
Мартьянова А.Е. Математические методы моделирования в геологии
91
Рис. VII.50. Таблица Factor scores
В таблице Factor scores выделить «рудный» фактор» – 2 и фактор околорудного метасоматоза – 3. Затем выбрать процедуру графического анализа в контекстном меню Graphs of Block Data\Line Plots: Entire Columns. На полученном графике указать места, где максимально проявлены факторы рудного метасоматоза (рис. VII.51).
Мартьянова А.Е. Математические методы моделирования в геологии
92
Рис. VII.51. Результат выполнения процедуры в контекстном меню Graphs of Block Data\Line Plots: Entire Columns.
8.
Сделать
окончательные
выводы
о
геохимических
ассоциациях
элементов и прогнозной значимости объекта. Сравнить
результаты
корреляционного,
кластерного
и
факторного
анализов, их отличия, связанные с возможностями каждого анализа, и общие черты, позволяющие дать взвешенное заключение о закономерных связях между изучаемыми признаками. ОБЛАСТЬ ПРИМЕНЕНИЯ МНОГОМЕРНЫХ СТАТИСТИЧЕСКИХ МОДЕЛЕЙ В ГЕОЛОГИИ Возможности применения многомерных статистических моделей для изучения взаимозависимостей комплексов самых различных геологических признаков практически не ограничены для любой отрасли геологии. В
92
Мартьянова А.Е. Математические методы моделирования в геологии
палеонтологии
они
используются
93
для
статистического
описания
морфологических признаков ископаемых форм организмов и сопоставления их групп с литолого-фациальными разрезами осадочных пород, с целью оценки достоверности их стратиграфического положения (или установления групп руководящих
ископаемых).
Корреляционные
методы
парагенетического
анализа химических элементов и минералов находят широкое применение в геохимии и минералогии. Различные методы многомерного описания самых различных
физических
свойств,
химического
и
минерального
состава
осадочных и магматических пород используются в литологии и петрографии для разделения их по фациальным или формационным признакам или для оценок их перспектив на выявление самых различных полезных ископаемых. С каждым годом все шире используются методы «распознавания образов» рудоносных
территорий
или
месторождении
полезных
ископаемых,
основанные на статистических описаниях сочетаний благоприятных элементов геологического строения, влияющих на концентрации полезных ископаемых. В настоящее время алгоритмы «распознавания образов», использующие самые различные статистические, логические и эвристические многомерные модели, реализуются
в
человеко-машинных
информационно-прогнозирующих
системах, на шедших широкое применение в геологоразведочной отрасли. Многомерные статистические описания связей геологических переменных с последующими оценками степени их взаимозависимостей используются в геологической
практике
с
целью
идентификации
(отождествления),
дискриминации (разделения), классификации (группирования) изучаемых объектов или в поисках наиболее информативных комбинаций признаков для решения прогнозных задач. Задачи
идентификации
геологических
объектов,
например,
оценки
коллекторских свойств или газоносности пород по совокупности скважинногеофизических характеристик, обычно выполняются с помощью моделей множественной регрессии.
Мартьянова А.Е. Математические методы моделирования в геологии
94
В целях дискриминации геологических объектов на два заранее заданных класса, например, разделение кимберлитовых пород на алмазоносный и неалмазоносный типы, по данным их силикатных анализов может быть использована модель линейной дискриминантной функции. Классификация
геологических
объектов,
например,
иерархическое
группирование парагенетических ассоциаций элементов метасоматически измененных пород или руд по данным их полных химических анализов производится с помощью кластер-анализа, других методов многомерного корреляционного анализа или метода факторного анализа. Конечной целью большинства многомерных статистических методов является предсказание (прогнозирование) тех или иных свойств изучаемых геологических объектов. Прогнозирование свойств геологических объектов, чаще всего выявление перспектив их рудоносности или оценка вероятных масштабов оруденения проводится с помощью алгоритмов «распознавания образов». В зависимости от характера исходных данных и целей геологических исследований для составления этих алгоритмов используются самые различные многомерные модели. При этом, как правило, возникает проблема поиска наиболее информативных сочетаний признаков и сокращения размерности их пространства, что достигается с помощью метода главных компонент, R-метода факторного анализа или других логических и эвристических методов. Возможности использования многомерных статистических моделей для целей решения геологических задач изучены в настоящее время далеко не полностью и несомненно имеют большое будущее.
94
Мартьянова А.Е. Математические методы моделирования в геологии
95
ЛАБОРАТОРНАЯ РАБОТА № VIII. МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МОДЕЛИ. ЗАДАЧИ РАСПОЗНАВАНИЯ ОБРАЗОВ В ГЕОЛОГИИ Многие
прогнозные
и
интерпретационные
задачи
решаются
в
практической геологии путем сопоставления комплекса признаков изучаемого объекта с комплексом тех же признаков эталонного объекта. Совокупность подобных методов, основанных на принципе аналогии, получила название методов распознавания образов. Модели
распознавания
образов
геологических
объектов
весьма
разнообразны. При решении конкретных геологических задач их выбор зависит от природы геологических объектов, числа, полноты описания эталонных объектов, типов и информативности их признаков. В зависимости от типов исходных
признаков
выделяют
две
группы
моделей:
дискретные
и
непрерывные. Дискретные модели применяются в тех случаях, когда измеряемые признаки
рассматриваются
как
независимые
или
частично
зависимые
детерминированные величины. Непрерывные модели используются для распознавания образов таких объектов, измеряемые признаки которых могут рассматриваться как случайные величины и поддаются статистическому описанию многомерными функциями плотностей вероятности. В
качестве
критериев
оптимальности
распознавания
используются
решающие правила, определяющие пороговые значения решающих функций. Они могут определяться статистическими, логическими или эвристическими методами. При использовании любых алгоритмов распознавания следует стремиться к построениям решающих функций как можно более простых видов, поскольку они легче поддаются реализации и обеспечивают более устойчивые решения, особенно при малых выборках обучения.
Мартьянова А.Е. Математические методы моделирования в геологии
96
Линейная дискриминантная функция для трех переменных имеет вид
D = a1 x + a2 y + a3 z .
(VIII.1)
Коэффициенты a1, a2 и a3 находятся из системы уравнений
s11a1 + s12 a2 + s13a3 = d1 ; s21a1 + s22 a2 + s23a3 = d 2 ; s31a1 + s32 a2 + s33a3 = d 3 .
(VIII.2)
Величины d1, d2 и d3 представляют собой разности оценок средних значений признаков по выборкам A и B.
d1 = x A − x B ; d1 = y A − y B ; d1 = z A − z B .
(VIII.3)
Если обозначить номер строки как i, а столбца как j, то величины sij можно записать в форме матрицы: s11
s12
s13
S = s21
s22
s23 .
s31
s32
s33
(VIII.4)
Значения sij соответствуют элементам ковариационной матрицы признаков X, Y, Z и вычисляются, как суммы квадратов отклонений или суммы смешанных произведений отклонений: nA
nB
s11 = ∑ ( x Ai − x A ) + ∑ ( x Bi − x B ) ; 2
1 nA
2
1 nB
s22 = ∑ ( y Ai − y A ) + ∑ ( y Bi − y B ) ; 2
1
2
1
.................................................... nA
nB
1 nA
1 nB
1
1
s12( 21) = ∑ ( x Ai − x A )( y Ai − y A ) + ∑ ( x Bi − x B )( y Bi − y B ); s13( 31) = ∑ ( x Ai − x A )(z Ai − z A ) + ∑ ( x Bi − x B )(z Bi − z B ); ......................................................................................... 96
Мартьянова А.Е. Математические методы моделирования в геологии
97
Приведенные выше выражения для удобства расчетов могут быть заменены на эквивалентные выражения для сумм квадратов вида 2 (∑ xiB )2 ⎤ , ⎛ n A 2 nB 2 ⎞ ⎡ (∑ xiA ) s11 = ⎜ ∑ xiA + + ∑ xiB ⎟ − ⎢ ⎥ nB ⎦ 1 ⎠ ⎣ nA ⎝1
(VIII.5)
и для сумм смешанных произведения вида
s12 ( 21)
nB nB ⎤ ⎡ nA nA x у x ∑ iA ∑ iA ∑ iB ∑ уiB ⎥ nA nB ⎢ ⎛ ⎞ 1 1 = ⎜ ∑ xiA yiA + ∑ xiB yiB ⎟ − ⎢ 1 + 1 ⎥, n n 1 1 ⎝ ⎠ ⎢ A B ⎥ ⎦ ⎣
(VIII.6)
где nA и nB – объем выборки для объекта A и B. После вычисления коэффициентов a1, a2 и a3, необходимо вычислить значение дискриминантной функции D0, относительно которого можно сделать вывод о принадлежности нового неизвестного объекта к тому или иному классу D0 =
1 [a1 (x A + x B ) + a2 ( y A + y B ) + a3 (z A + z B )]. 2
(VIII.6)
В Excel для вычисления ковариации используется процедура Ковариация. Процедура позволяет получить ковариационную матрицу, содержащую коэффициенты ковариации между различными параметрами. Для реализации процедуры необходимо: • выполнить команду Сервис/Анализ данных; • в появившемся списке Инструменты анализа выбрать строку Ковариация и нажать кнопку OK;
• в появившемся диалоговом окне указать Входной интервал, то есть ввести ссылку на ячейки, содержащие анализируемые данные. Для этого следует навести указатель мыши на левую верхнюю ячейку данных, нажать левую кнопку мыши и, не отпуская ее, протянуть
Мартьянова А.Е. Математические методы моделирования в геологии
98
указатель
мыши
к
правой
нижней
ячейке,
содержащей
анализируемые данные, затем отпустить левую кнопку мыши. Входной интервал должен содержать не менее двух столбцов. • в разделе Группировка переключатель установить в соответствии с введенными данными; • указать выходной диапазон, то есть ввести ссылку на ячейки, в которые будут выведены результаты анализа. Для этого следует поставить флажок в левое поле Выходной интервал (навести указатель мыши и щелкнуть левой кнопкой), далее навести указатель мыши на правое поле ввода Выходной интервал и щелкнуть левой кнопкой мыши, затем указатель мыши навести на левую верхнюю ячейку выходного диапазона и щелкнуть левой кнопкой мыши. Размер выходного диапазона будет определен автоматически, и на экран будет выведено сообщение в случае возможного наложения выходного диапазона на исходные данные. • нажать кнопку OK. Результаты
анализа.
В
выходной
диапазон
будет
выведена
ковариационная матрица, в которой на пересечении каждых строки и столбца находится коэффициент ковариации между соответствующими параметрами. Отметим, что хотя в результате будет получена треугольная матрица, ковариационная матрица симметрична, и коэффициенты ковариации sij = sji. ПРИМЕР VIII.1
При геологическом картировании района, в строении которого принимают участие вулканогенно-осадочные породы, выделены две свиты близкого петрографического состава, но занимающие различное стратиграфическое положение. Взаимоотношение свит надежно устанавливается в отдельных «ключевых» участках; в остальной части района обнаружение пород данного состава и облика не позволяет однозначно отнести их к той или иной свите. 98
Мартьянова А.Е. Математические методы моделирования в геологии
99
Предполагается, что, несмотря на свое визуальное сходство, породы данных
свит
несколько
различаются
по
содержаниям
отдельных
породообразующих оксидов и характеру их взаимосвязи. Для установления этих отличий в ключевых участках проведено определение концентраций оксидов в отдельных пробах. В табл. VIII.1 данные опробования верхней свиты обозначены индексом A, а данные нижней свиты – индексом B. Кроме ключевых участков определение содержаний породообразующих оксидов в сходных породах выполнено по отдельным искусственным обнажениям и скальным выходам в различных частях района, отделенных друг от друга тектоническими нарушениями, площадями с мощным покровом рыхлых отложений, в связи с чем определение их стратиграфического положения затруднено. Данные их изучения приведены в табл. VIII.2. Требуется
На основе данных о составе свит вычислить уравнение дискриминантной функции и определить принадлежность к каждой из свит пород аналогичного состава. Указание
Дискриминантную функцию предлагается рассчитать по сочетанию трех признаков из табл. VIII.1 (Na2O, K2O, TiO2), используя данные первых пятнадцати строк. Содержание породообразующих оксидов в сходных породах из табл. VIII.2 предлагается взять также для сочетания трех признаков (Na2O, K2O, TiO2), используя данные первой строки. Решение
В ячейках A1, B1, C1, F1, G1 и H1 следует разместить обозначения породообразующих оксидов Na2O, K2O, TiO2 так как это показано на рис. VIII.1. Соответственно в столбцах A, B, C, F, G и H – разместить данные первых пятнадцати строк табл. VIII.1 для этих породообразующих оксидов Na2O, K2O, TiO2. В ячейках A17, B17, C17, F17, G17 и H17 следует рассчитать средние значения по каждому породообразующему оксиду. В ячейку A18
Мартьянова А.Е. Математические методы моделирования в геологии
100
ввести формулу =СЧЁТ(A2:A16), а в ячейку F18 – формулу =СЧЁТ(F2:F16) для определения числа измерений концентраций по каждой из свит. Таблица VIII.1 Данные анализов вулканогенно-осадочных пород верхней (А) и нижней (В) свит – содержания (в %) породообразующих оксидов №
Na2O
K2O
TiO2 MgO
CaO
FeO
Na2O
K2O
TiO2 MgO
A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
2,37 4,44 3,20 3,71 5,02 4,40 4,72 3,81 2,22 3,58 3,75 3,84 3,80 3,80 3,48 3,42 3,38 3,56 4,12 4,58 4,20 4,38 3,87 3,28 2,87 2,84 3,23 3,72 4,39 3,71
3,39 2,64 2,50 3,68 3,00 3,47 2,81 3,07 3,42 3,05 2,73 3,14 3,80 3,15 3,09 3,13 3,58 2,67 4,12 3,27 3,11 2,16 2,70 3,20 3,21 3,39 2,86 3,35 3,76 2,92
1,45 1,10 1,14 1,22 0,98 0,83 1,15 1,09 1,22 1,38 1,33 1,48 1,11 1,22 1,34 1,45 1,63 1,72 1,22 0,75 0,72 0,81 1,06 1,10 1,55 1,22 1,77 1,14 0,63 0,58
CaO
FeO
6,68 6,20 5,55 4,72 3,20 3,81 4,82 4,31 4,01 5,02 4,95 5,92 4,45 3,14 5,82 6,92 6,40 6,08 5,01 6,12 4,20 2,92 2,70 3,10 4,05 5,40 4,70 6,03 6,52 5,90
5,22 5,60 4,52 3,81 3,31 2,62 3,95 3,37 3,00 4,51 4,04 5,07 3,32 2,27 4,78 4,90 5,51 4,63 4,12 4,72 3,00 2,93 1,65 3,40 3,12 4,65 3,30 5,10 4,50 5,30
B 3,72 3,14 2,83 4,15 3,32 4,06 3,22 3,45 3,97 3,49 3,04 3,32 4,95 3,73 3,58 3,48 4,22 3,12 4,31 3,52 3,58 2,38 3,52 3,66 3,83 3,72 3,02 4,21 3,98 3,01
5,82 4,68 4,83 5,62 4,75 4,83 4,55 5,31 5,86 5,49 5,12 5,30 5,92 5,32 5,58 5,43 5,80 5,13 5,75 5,40 5,03 4,48 5,02 5,61 5,72 5,79 5,22 5,39 5,90 5,24
4,18 3,56 3,50 3,59 2,97 3,00 3,60 3,21 3,62 4,02 4,38 4,31 3,60 4,00 4,11 4,40 5,35 4,50 3,91 3,10 2,62 3,30 3,57 3,65 4,73 4,21 5,54 4,18 3,32 3,38
100
4,49 4,13 4,00 3,48 3,15 2,79 3,08 3,37 3,65 3,84 3,61 3,96 3,78 3,36 4,01 4,40 4,82 4,21 4,16 3,17 3,56 2,97 2,62 2,37 2,90 3,00 3,61 4,12 4,88 4,31
3,72 3,55 3,21 2,93 2,32 2,28 2,47 2,96 2,79 3,34 2,52 2,24 3,07 2,49 2,52 4,14 3,87 3,42 3,18 3,41 2,75 2,16 2,33 1,75 2,04 2,61 2,97 3,31 3,82 3,22
1,68 1,56 1,37 1,22 0,87 0,92 1,10 1,15 1,03 1,32 1,17 1,45 1,31 0,73 1,53 1,82 1,55 1,48 1,30 1,52 1,12 0,64 0,68 0,85 0,93 1,25 1,34 1,50 1,72 1,41
3,95 4,38 3,34 3,94 3,87 4,18 5,17 4,21 3,20 3,92 3,81 4,09 3,23 3,80 3,84 2,38 3,27 4,00 3,50 4,08 3,79 3,38 4,89 4,22 4,17 3,52 3,98 3,40 3,06 3,38
Мартьянова А.Е. Математические методы моделирования в геологии
101
Таблица VIII.2 Содержания (в %) породообразующих оксидов № 1 2 3 4 5 6 7 8 9 10
Na2O 3,60 3,62 3,20 3,98 3,54 3,00 4,31 4,43 3,31 3,09
K2O 2,92 3,10 3,51 3,16 2,95 3,71 3,00 3,30 2,42 2,27
TiO2 1,26 1,20 1,46 1,38 1,32 1,52 0,87 0,73 1,01 0,96
MgO 4,51 3,12 3,75 3,56 4,40 4,21 3,36 3,72 3,85 4,53
CaO 5,15 4,83 5,66 5,60 5,03 6,02 5,16 5,21 4,12 3,61
FeO 4,26 3,75 4,31 4,30 4,10 4,72 3,56 3,52 3,20 2,01
Для построения ковариационной матрицы верхней свиты A в меню Сервис выберите пункт Анализ данных и далее укажите строку Ковариация. В появившемся диалоговом окне укажите Входной интервал A1:C16. Укажите, что данные рассматриваются по столбцам. Установите флажок в поле Метки в первой строке. Укажите выходной диапазон. Для этого поставьте флажок в
левое поле Выходной интервал и в правое поле ввода Выходной интервал введите А20. Нажмите кнопку OK. Для построения ковариационной матрицы верхней свиты B в меню Сервис выберите пункт Анализ данных и далее укажите строку Ковариация. В появившемся диалоговом окне укажите Входной интервал F1:H16. Укажите, что данные рассматриваются по столбцам. Установите флажок в поле Метки в первой строке. Укажите выходной диапазон. Для этого поставьте флажок в
левое поле Выходной интервал и в правое поле ввода Выходной интервал введите F20. Нажмите кнопку OK. В
выходных
диапазонах
получаем
ковариационные
матрицы.
Подразумевается, что в пустых клетках в правой верхней половине таблицы находятся те же коэффициенты ковариации, что и в нижней левой (симметрично расположенные относительно диагонали). Заполните пустые ячейки верхних половин таблицы так, как показано на рис. VIII.1.
Мартьянова А.Е. Математические методы моделирования в геологии
102
Рис. VIII.1. Расчет дискриминантной функции в документе Excel
В
диапазон
B25:D27
введите
табличную
формулу
{=B21:D23*A18+G21:I23*F18} для расчета выборочной матрицы.
В ячейку F25 введите формулу =A17-F17, в ячейку F26 – формулу =B17G17, в ячейку F27 – формулу =C17-H17 для вычисления разностей оценок
средних d1, d2 и d3 каждого признака по форм. (VIII.3) В
диапазон
I25:I27
введите
{=МУМНОЖ(МОБР(B25:D27);F25:F27)}
табличную
формулу
расчета
значений
для
коэффициентов a1, a2 и a3 по форм. (VIII.2) Таким образом, уравнение линейной дискриминантной функции в этом случае будет иметь вид D = 0,005 x + 0,074 y – 0,073 z – по форм. (VIII.1) Далее необходимо вычислить по форм. (VIII.6) значение функции D0, относительно которого можно сделать вывод о принадлежности нового неизвестного объекта к тому или иному классу (свите).
102
Мартьянова А.Е. Математические методы моделирования в геологии
В
I28
ячейку
103
введите
формулу
=1/2*(I25*(A17+F17)+I26*(B17+G17)+I27*(C17+H17)), результат равен 0,149.
Породы сходного облика, данные опробования которых приведены в табл. VIII.2, могут быть отнесены к верхней свите (объект класса A), если вычисленное для них значение дискриминантной функции D больше D0, в противном случае они должны относиться к нижней свите. В диапазоне B30:D30 (рис. VIII.1) следует разместить данные первой строки табл. VIII.2 для сочетания трех признаков (Na2O, K2O, TiO2). В ячейке I30 – ввести формулу =I25*B30+I26*C30+I27*D30. Результат равен 0,141 и,
следовательно, он может быть отнесен к нижней свите (объект класса В).
ЗАДАЧА VIII.1 Требуется
Используя условия предыдущего ПРИМЕРА VIII.1, рассчитать по форм. (VIII.5) и (VIII.6) элементы матрицы (VIII.4). Указание
Сначала вычислите следующие данные: ∑ xiA = 56,14; x A = 3,74;
∑ yiA = 46,94; ∑ ziA = 18,04; y A = 3,13; z A = 1,20;
∑ xiB = 54,70; ∑ yiB = 42,41; ∑ ziB = 18,41; x B = 3,65; y B = 2,83; z B = 1,23; 2
2
∑ xiA = 218,23; ∑ yiA = 148,84; ∑ xiA yiA = 174,67; ∑ xiA ziA = 66,48; 2 2 ∑ xiB = 202,32; ∑ yiB = 123,06; ∑ xiB yiB = 156,71; ∑ xiB ziB = 68,62;
2
∑ ziA = 22,13; ∑ yiA ziA = 56,42; 2
∑ ziB = 23,62; ∑ yiB ziB = 53,17.
Затем по форм. (VIII.5) и (VIII.6) вычислите элементы матрицы:
Мартьянова А.Е. Математические методы моделирования в геологии
104
⎡ (56,14 )2 (54,70)2 ⎤ s11 = (218,23 + 202,32 ) − ⎢ + ⎥ = 10,96 ; 15 15 ⎣ ⎦ s22
⎡ (46,94 )2 (42,41)2 ⎤ = (148,84 + 123,06) − ⎢ + ⎥ = 5,10 ; 15 15 ⎣ ⎦
⎡ (18,04 )2 (18,41)2 ⎤ s33 = (22,13 + 23,62 ) − ⎢ + ⎥ = 1,46 ; 15 15 ⎣ ⎦ ⎡ 56,14 * 46,94 54,70 * 42,41⎤ s12( 21) = (174,67 + 156,71) − ⎢ + ⎥⎦ = 1,04 ; 15 15 ⎣ ⎡ 56,14 * 18,04 54,70 * 18,41⎤ s13( 31) = (66,48 + 68,62 ) − ⎢ + ⎥⎦ = 0,45 ; 15 15 ⎣ ⎡ 46,94 * 18,04 42,41 * 18,41⎤ s23( 32 ) = (56,42 + 53,17 ) − ⎢ + ⎥⎦ = 1,08 . 15 15 ⎣ В результате получите выборочную матрицу ⎡10,96 1,04 0,45⎤ ⎢ 1,04 5,10 1,08 ⎥ . ⎢ ⎥ ⎢⎣ 0,45 1,08 1,46 ⎥⎦ ЗАДАЧА VIII.2
Дискриминантную функцию предлагается рассчитывать по сочетанию любых трех признаков из табл. VIII.1. Расчеты могут проводиться по выборкам сокращенного объема (15 – 20 значений).
104
Мартьянова А.Е. Математические методы моделирования в геологии
105
ЛАБОРАТОРНАЯ РАБОТА № IX. МОДЕЛИРОВАНИЕ ПРОСТРАНСТВЕННЫХ ПЕРЕМЕННЫХ. АППРОКСИМАЦИЯ ПОВЕРХНОСТЕЙ ТРЕНДА ПОЛИНОМАМИ При изучении строения земной коры геолога интересуют не только средние характеристики изменчивости и взаимосвязи наблюдаемых значений свойств горных пород, минеральных ассоциаций или полезных ископаемых, но также закономерности их пространственных изменений в исследуемых объемах недр. Статистические модели для этих целей непригодны, поскольку любой статистический показатель отражает лишь средний уровень изменчивости изучаемого свойства, независимо от пространственного размещения точек наблюдений, в то время, как закономерности их пространственного размещения могут оказаться принципиально различными. К тому же, статистические характеристики обеспечивают объективные оценки уровня наблюдаемой изменчивости признака только в тех случаях, когда выборочные данные представляют собой совокупность независимых случайных величин. Для оценок реальных погрешностей изменчивости корреляционно связанных исходных данных требуется введение поправок за связь. Для
целей
математического
моделирования
закономерностей
пространственного размещения изучаемых свойств геологических образований их
признаки
рассматриваются
пространственные характеристик:
переменные,
мерностью,
не
как
случайные
обладающие
областями
величины,
рядом
существования
а
как
специфических и
воздействия
(определения). Их совокупности образуют поля пространственных переменных, в пределах которых положение каждой переменной определяется координатами пространства. Геометрические и аналитические методы моделирования геологических, геохимических, геофизических и других полей пространственных переменных
Мартьянова А.Е. Математические методы моделирования в геологии
106
способствуют
объективному
выделению
и
количественному
описанию
тенденций, наблюдаемых в изменении свойств исследуемых объектов, а в ряде случаев позволяют выявлять новые, ранее неизвестные закономерности. Для целей моделирования при этом используются результаты геологического картирования, геохимических и шлиховых съемок, геофизических наблюдений, геологоразведочных работ и т.д. Пространственные закономерности изменения гранулометрического и минерального
составов
терригенных
сноса
обломочного
направление
отложений
позволяют
материала
и
yстановить восстановить
палеогеографическую обстановку периода формирования толщ осадочных пород. По изменениям концентрации различных минералов выявляется зональность интрузивных массивов и месторождений полезных ископаемых. Пространственные закономерности изменения геофизических полей широко используются
при
геологическом
картировании
и
поисках
полезных
ископаемых. Выявление закономерностей в изменении параметров рудных тел на ранних стадиях изучения позволяет более обоснованно оценивать не затронутые
геологической
разведкой
фланги
и
глубокие
горизонты
месторождений, а также способствует правильному выбору размеров сети наблюдений при продолжении геологоразведочных работ. Математическое моделировавшие геохимических и геофизических полей позволяет более надежно выявлять аномалии, перспективные на обнаружение месторождений полезных ископаемых. С
помощью
устанавливаются
моделирования закономерности
дискретных расположения
геологических
полей
месторождений
и
рудопроявлений определенного генетического типа относительно интрузий, тектонических нарушений или других элементов геологического строения.
106
Мартьянова А.Е. Математические методы моделирования в геологии
107
ГЕОЛОГИЧЕСКИЕ ОБЪЕКТЫ, КАК ПОЛЯ ПРОСТРАНСТВЕННЫХ ПЕРЕМЕННЫХ Полем пространственной переменной называется область пространства, каждой точке которого поставлено в соответствие некоторое значение изучаемой переменной. В качестве геологического поля может рассматриваться область пространства, при этом каждому элементу последнего соответствует определенное значение изучаемого геологического признака. В
зависимости
от
природы
моделируемых
признаков
различают
геофизические, геохимические, минералогические, морфометрические и другие геологические поля, которые по размерности изучаемого пространства подразделяются на одномерные, двумерные, трехмерные и многомерные. Непрерывные и дискретные геологические пространственные переменные. По характеру распространения (областям существования) и земной коре геологические пространственные переменные разделяются на непрерывные и дискретные. Непрерывные пространственные переменные выражают свойства горных пород, минеральных ассоциаций или полезных ископаемых, проявленные в любой точке поля, то есть на всей площади (во всем объеме) исследуемого блока земной коры или геологического тела. К числу этих переменных относятся концентрации химических элементов в горных породах, их физические свойства, мощность изучаемых геологических тел и многие другие свойства пород и руд. К
числу
пространственно
дискретных
пространственных
ограниченные
геологические
переменных
относятся
образования,
области
существования (размеры) которых пренебрежимо малы по сравнению с исследуемыми
площадями
или
объемами
недр.
Они
представлены
геологическими телами специфического состава (например, отдельными разновидностями
пород),
месторождениями
полезных
ископаемых,
вкрапленниками отдельных минералов или минеральных агрегатов в породах и
Мартьянова А.Е. Математические методы моделирования в геологии
108
др. Скалярные и векторные поля. По признакам мерности пространственных переменных
различают
скалярные
и
векторные
геологические
поля.
Большинство обычно изучаемых геологических переменных относится к скалярным величинам, для задания которых достаточно знать их модуль и знак. Совокупности этих переменных образуют скалярные геологические поля. Реже
в
геологической
практике
используются
векторные
пространственные переменные, для задания которых в каждой точке пространства необходимо знать не только модуль, но и направление переменной. Векторные случайные поля могут моделироваться как векторы, ориентированные в реальном дву- или трехмерном пространстве (например, магнитные поля) или как комплексы различных скалярных переменных (например, по содержанию нескольких химических элементов в каждой точке). Многие скалярные поля могут быть преобразованы в векторные, если изучать не исходные величины, а их производные, то есть градиенты геологических полей. ФОН, АНОМАЛИИ И ПОВЕРХНОСТЬ ТРЕНДА Наиболее
распространенной
моделью
непрерывного
скалярного
геологического поля является модель аддитивного случайного поля, когда на плоскости с координатами x и y задаются значения непрерывной скалярной переменной
uˆ = f ( x, y ) , значения которой используются для описания
аддитивного скалярного поля u = f ( x, y ) + ε , где
f ( x, y ) = uˆ – функция
координат; ε – случайная переменная. В задачу моделирования поля входит оценка функции f(x,y) в известных предположениях относительно ε и описание случайной части ε при некоторых предположениях пространственных
относительно
f(x,y).
закономерностей
Главной
является
задачей
описание
изучения неслучайной
(закономерной) компоненты поля, отражающей уровень его значений, 108
Мартьянова А.Е. Математические методы моделирования в геологии
109
характерный для отдельных частей изучаемой территории. Неслучайная
компонента,
характеризующая
основную
часть
моделируемого геологического поля, называется его фоном. Фоновая часть поля выявляет область относительно повышенных или пониженных значений изучаемого признака и несет в себе полезную геологическую информацию о природе изучаемого геологического объекта. Для выделения фона необходима генерализация основных свойств поля с подавлением более или менее существенных частных отклонений. В каждом конкретном случае отклонения от фона рассматриваются как аномальные. Методы выделения фоновой части геологического поля с разделением неслучайной
и
случайной
составляющих
изучаемых
признаков
по
эмпирическим данным получили название анализа поверхностей тренда. В геологической практике для целей тренд-анализа используют два разных методических подхода: 1) сглаживание исходных данных скользящими статистическими
окнами;
2)
аппроксимация
полей
единой
функцией
пространственных координат (ортогональными полиномами и др.). Методы скользящих средних более универсальны и обеспечивают лучшие оценки средних параметров пространственно ограниченных участков геологических полей по сравнению с методам полиномиального тренд-анализа исходных данных, которые используются преимущественно для выявления региональных геологических закономерностей. Относительный характер закономерной и случайной составляющих наблюдаемой изменчивости признаков оказывает заметное влияние на результаты тренд-анализа геологических полей. В связи с этим в зависимости от масштабов, целей, задач и условий исследований под их фонами могут подразумеваться поверхности тренда различной степени плавности, а под аномалиями – любые отклонения от фона, превышающие заданный условный уровень.
Мартьянова А.Е. Математические методы моделирования в геологии
110
Выделение
региональных
закономерностей
путем
аппроксимации
эмпирических данных функцией координат пространства связано с довольно сложными вычислениями, обычно требующими применения ЭВМ. В качестве аппроксимирующих
функций
используются
ортогональные
полиномы
различных степеней, уравнение Лапласа, тригонометрические полиномы и др. Ортогональные полиномы обычно применяются в случае равномерной прямоугольной сети наблюдений. При этом тренд определяется как линейная функция географических координат, построенная по совокупности наблюдений таким образом, что сумма квадратов отклонений значений признака от плоскости тренда минимальна. Такая модель представляет собой вариант статистического метода множественной регрессии, в котором функция Φ ( x, y ) = uˆ ,
описывающая
поверхность
тренда,
рассматривается
как
uˆ = β 0 + β1 x + β 2 y (где x и y – координаты пространства; β0, β1 и β2 – полиномиальные коэффициенты). Для оценки трех указанных коэффициентов используются уравнения
∑ u = β 0 n + β1 ∑ x + β 2 ∑ y ; ∑ xu = β 0 ∑ x + β1 ∑ x 2 + β 2 ∑ xy ;
(IX.1)
∑ yu = β 0 ∑ y + β1 ∑ xy + β 2 ∑ y 2 ; где п – число точек наблюдения; u – значения признака в точках наблюдений; x и y – координаты точек наблюдений. Для решения уравнений они записываются в матричной форме:
⎡ n ⎢ ⎢∑ x ⎢∑ y ⎣
∑ x ∑ y ⎤ ⎡β0 ⎤ ⎡ ∑ u ⎤ 2 ⎥ ∑ x ∑ x y ⎥ × ⎢⎢ β1 ⎥⎥ = ⎢⎢ ∑ xu ⎥⎥ ∑ x y ∑ y 2 ⎥⎦ ⎢⎣ β 2 ⎥⎦ ⎢⎣∑ yu⎥⎦
(IX.2)
и решаются относительно β0, β1 и β2. Такой метод нахождения оценок биномодальных коэффициентов называется методом наименьших квадратов. 110
Мартьянова А.Е. Математические методы моделирования в геологии
111
ПРИМЕР IX.1
В качестве примера рассмотрим определение плоскости тренда отметок подошвы меловых отложений, экранирующих нефтяную толщу (по Дж. Дэвису). Условные координаты площади и абсолютные отметки подошвы меловых отложений приведены в табл. IX.1. Требуется
Произвести аппроксимацию поверхностей тренда полиномами и анализ остатков.
Таблица IX.1. Координаты скважин, абсолютные отметки подошвы меловых отложений № п/п 1 2 3 4 5 6 7 8 9 10
Координаты x, км 10 21 33 35 47 60 65 82 89 97
y, км 17 89 38 20 58 18 74 93 60 15
Абс. отметка u, м –665 –613 –586 –440 –544 –343 –455 –437 –354 –142
Решение
В ячейку A1 ввести обозначение x, в ячейку B1 ввести обозначение x^2, в ячейку C1 – обозначение y, в ячейку D1 – обозначение y^2, в ячейку E1 – обозначение x*y, в ячейку F1 – обозначение u, в ячейку G1 – обозначение x*u, в ячейку H1 – обозначение y*u. Диапазон A2:A11 заполнить значениями координат скважин x из табл. IX.1, диапазон C2:C11 заполнить значениями координат скважин y из табл. IX.1, диапазон F2:F11 заполнить значениями
112
Мартьянова А.Е. Математические методы моделирования в геологии
абсолютных отметок подошвы меловых отложений u из табл. IX.1. В диапазоне B2:B11 рассчитать соответствующие квадраты координат скважин x, в
диапазоне D2:D11 рассчитать соответствующие квадраты координат скважин y, в диапазоне E2:E11 рассчитать соответствующие произведения координат x и y, в диапазоне G2:G11 рассчитать соответствующие произведения координаты x и значения абсолютных отметок подошвы меловых отложений u, в диапазоне H2:H11 рассчитать соответствующие произведения координаты y и значения абсолютных отметок подошвы меловых отложений u. В строке 12, используя кнопку Автосумма на панели инструментов Стандартная, рассчитать суммы по столбцам =СУММ(A2:A11) – Σx, =СУММ(B2:B11) – Σx2, =СУММ(C2:C11) – Σy, =СУММ(D2:D11) – Σy2, =СУММ(E2:E11) – Σ(x*y), =СУММ(F2:F11) – Σu, =СУММ(G2:G11) – Σ(x*u), =СУММ(H2:H11) – Σ(y*u).
В ячейке A13 рассчитать по формуле =СЧЁТ(A2:A11) число точек наблюдения n. Таким образом, для построения плоскости тренда вычисляются:
∑ x = 539; ∑ y = 482; ∑ u = −4579; 2 2 ∑ x = 36934; ∑ y = 31692; ∑ xu = −211098; ∑ xy = 27030; ∑ yu = −232342; В диапазоне B16:D18 составить матрицу системы уравнений (IX.1): в ячейку B16 записать формулу =A13, в ячейку C16 – формулу =A12, в ячейку D16 – формулу =C12, в ячейку B17 – формулу =A12, в ячейку C17 – формулу =B12, в ячейку D17 – формулу =E12, в ячейку B18 – формулу =C12, в ячейку C18 – формулу =E12, в ячейку D18 – формулу =D12. В диапазоне F16:F18
составить вектор свободных членов системы уравнений (IX.1): в ячейку F16 записать формулу =F12, в ячейку F17 – формулу =G12, в ячейку F18 – формулу =H12. Эти значения записывают систему уравнений (IX.1) в матричной форме (IX.2):
112
Мартьянова А.Е. Математические методы моделирования в геологии
113
539 482 ⎤ ⎡ β 0 ⎤ ⎡ − 4579 ⎤ ⎡ 10 ⎢539 36934 27030⎥ × ⎢ β ⎥ = ⎢ − 211098⎥ , ⎢ ⎥ ⎢ 1⎥ ⎢ ⎥ ⎢⎣482 27030 31692⎥⎦ ⎢⎣ β 2 ⎥⎦ ⎢⎣ − 232342⎥⎦ Для матричных операций в Excel предусмотрены функции, входящие в категорию «Математические»: МОПРЕД – вычисление определителя матрицы; МОБР – вычисление обратной матрицы; МУМНОЖ – перемножение матриц.
Первая из этих функций возвращает число, поэтому вводится как обычная формула. Остальные функции возвращают блок ячеек, поэтому они должны вводиться как табличные формулы. Первая буква «М» в названии трех функций – сокращение от слова «матрица». В
ячейке
A17
вычисляется
определитель
матрицы
системы
=МОПРЕД(B16:D18), который отличен от нуля и равен 656509376.
В блок B20:D22 ввести формулу для вычисления обратной матрицы. Для этого выделить блок B20:D22 (он имеет три строки и три столбца, как и исходная матрица). Ввести формулу {=МОБР(B16:D18)}. Даже если Вы используете Мастер функций, нужно завершить ввод нажатием комбинации клавиш Ctrl+Shift+Enter (вместо щелчка по кнопке OK). Если Вы забыли предварительно выделить блок B16:D18, а ввели формулу в ячейку B20 как обычную формулу Excel (закончив ввод нажатием Enter), то не нужно вводить ее заново: выделите B16:D18, нажмите клавишу F2 (редактирование), но не изменяйте формулу, просто нажмите Ctrl+Shift+Enter. В блок F20:F22 ввести для вычисления коэффициентов β0, β1 и β2 формулу {=МУМНОЖ(B20:D22;F16:F18)},
то
есть
после
решения
матричного
уравнения получить: β0= –621,04; β1 = 4,78; β2 = –1,96. Подставляя эти значения в уравнение uˆ = β 0 + β1 x + β 2 y , можно вычислить значения отметок плоскости тренда ( uˆ ) для каждой скважины и разности (u − uˆ ) , характеризующие
Мартьянова А.Е. Математические методы моделирования в геологии
114
составляющие случайной изменчивости гипсометрической поверхности. Уравнение uˆ ( x, y ) = β 0 + β1 x + β 2 y функция от двух координат (условных координат площади) описывает поверхность отметки подошвы меловых отложений. Пусть необходимо построить эту поверхность, лежащую в диапазонах: x ∈ [0; 100], y ∈ [0; 100] с шагом ∆ = 10 для обеих переменных. Ввести значения переменной х в столбец A. Для этого в ячейку А26 ввести символ х. В ячейку А27 вводится первое значение аргумента – левая граница диапазона (0). В ячейку A28 вводится второе значение аргумента – левая граница диапазона плюс шаг построения (10). Затем, выделив блок ячеек А27:А28, автозаполнением получить все значения аргумента (за правый
нижний угол блока протянуть до ячейки А37). Значения переменной y вводим в строку 26. Для этого в ячейку В26 вводится первое значение переменной – левая граница диапазона (0). В ячейку С26 вводится второе значение переменной – левая граница диапазона плюс шаг
построения (10). Затем, выделив блок ячеек В26:С26, автозаполнением получить все значения аргумента (за правый нижний угол блока протягиваем до ячейки L26). Далее ввести значения переменной uˆ ( x, y ) . Для этого табличный курсор необходимо
поместить
в
ячейку
В27
и
записать
формулу
=$F$20+$F$21*$A27+$F$22*B$26. Обращаем внимание, что символы $
предназначены для фиксации адреса столбца А – переменной х и строки 26 – переменной у. Кроме того, символы $ предназначены для фиксации адресов коэффициентов β0 – $F$20, β1 – $F$21 и β2 – $F$22. Нажать кнопку ОK. Теперь необходимо скопировать функцию из ячейки В27. Для этого автозаполнением (протягиванием вправо) эту формула копируется вначале в диапазон B27:L27, после чего (протягиванием вниз) – в диапазон B28:L37. Для построения диаграммы необходимо выделить диапазон A26:L37 и на панели инструментов Стандартная необходимо нажать кнопку Мастер
114
Мартьянова А.Е. Математические методы моделирования в геологии
115
диаграмм. В появившемся диалоговом окне Мастер диаграмм (шаг 1 из 4): тип диаграммы указать тип диаграммы – Поверхность, и вид – Контурная диаграмма (левую нижнюю диаграмму в правом окне). После чего нажимаем
кнопку Далее в диалоговом окне. В появившемся диалоговом окне Мастер диаграмм (шаг 2 из 4): источник данных диаграммы необходимо выбрать вкладку Диапазон данных и убедиться, что в поле Диапазон указан правильно интервал данных
$A$26:$L$37. Далее необходимо указать в строках или столбцах расположены ряды данных. Это определит ориентацию осей х и у. В примере переключатель Ряды в с помощью указателя мыши установить положение в столбцах.
Выбрать вкладку Ряд и в поле Подписи оси Х проверить диапазон подписей оси х – $A$27:$A$37. Проверить также значения подписей оси у. Для этого в рабочем поле Ряд указать первую запись 0 и в рабочее поле Имя, активизировав его указателем мыши, проверить первое значение переменной у – $B$26. Затем в поле Ряд указать вторую запись 10 и в рабочем поле Имя увидим второе значение переменной у – $С$26, в поле Подписи оси Х проверить диапазон подписей оси х – $A$27:$A$37 Повторить, таким образом, до последней записи – 100. После необходимо нажать кнопку Далее. В третьем окне требуется ввести заголовок диаграммы и названия осей. Для этого необходимо выбрать вкладку Заголовки, щелкнув на ней указателем мыши. Щелкнув в рабочем поле Название диаграммы указателем мыши, ввести с клавиатуры в поле название: Карта отметок подошвы меловых отложений. Затем аналогичным образом ввести в рабочие поля Ось Х (категорий), Ось Y (рядов данных) и Ось Z (значений) соответствующие
названия X, км, Y, км, Абсолютные отметки, м. Далее следует нажать кнопку Готово, и после небольшого редактирования будет получена диаграмма (см.
рис. IX.1) изолиний плоскости тренда.
Мартьянова А.Е. Математические методы моделирования в геологии
116
Оценка
степени
приближения
плотности
тренда
к
наблюденным
результатам, то есть средняя изменчивость их отклонений может быть охарактеризована величиной SSDD = SST – SSR, где SST = ∑ u − 2
(∑ u) 2 n
; S R = ∑ uˆ − 2
( ∑ uˆ ) 2 n
.
Процент учета общей изменчивости плоскостью тренда осуществляется по формуле K 2 =
SS R ⋅ 100% . SST
В ячейку I1 ввести обозначение u', в ячейку J1 ввести обозначение u^2, в ячейку K1 – обозначение u'^2. Диапазон I2:I11 заполнить значениями отметок подошвы меловых отложений, рассчитанными по формуле тренда: в ячейку I2 ввести формулу =$F$20+$F$21*A2+$F$22*C2, которую скопировать во весь диапазон I2:I11. В ячейку J2 ввести формулу =F2^2, которую скопировать во весь диапазон J2:J11. В ячейку K2 ввести формулу =I2^2, которую скопировать во весь диапазон K2:K11. В ячейках диапазона I12:K12 рассчитать с
помощью
кнопки
Автосумма
панели
инструментов
Стандартная
соответствующие суммы по столбцам. В ячейку J14 ввести обозначение SST, в ячейку J15 ввести обозначение SSR, ячейку J16 ввести обозначение SSDD, ячейку J17 ввести обозначение K^2. В ячейку K14 ввести формулу =J12-(F12^2/A13), в ячейку K15 ввести формулу =K12-(I12^2/A13), в ячейку K16 ввести формулу =K14-K15, в ячейку K17 ввести формулу =K15/K14 и
установить формат числа в процентах (кнопка Процентный формат на панели инструментов Форматирование). Таким образом, плоскость тренда учитывает 90% общей изменчивости: K2 =
SS R ⋅ 100% = 90% . SST
116
Мартьянова А.Е. Математические методы моделирования в геологии
117
Карта отметок подошвы меловых отложений 100 90 80 70 60 50
Y, км
40 30 20 10
Абсолютные отметки, м
0
10
20
30
40
50
60
70
80
90
0 100
-50-0 -100--50 -150--100 -200--150 -250--200 -300--250 -350--300 -400--350 -450--400 -500--450 -550--500 -600--550 -650--600 -700--650 -750--700 -800--750 -850--800
X, км
Рис. IX.1. Карта отметок подошвы меловых отложений в северо-восточной
Африке: поверхность тренда первого порядка Примечание
В приведенном ПРИМЕРЕ IX.1 задача аппроксимации поверхности тренда удовлетворительно решается с применением ортогональных полиномов первой степени. В случаях, когда доля случайной изменчивости остается все же достаточно большей после аппроксимации линейными функциями, для выявления закономерной изменчивости более высокого порядка применяются полиномы второй, третьей и реже – более высоких степеней. Поверхность тренда второго порядка будет описываться уравнением
uˆ = β 0 + β1 x + β 2 y + β 3 x 2 + β 4 y 2 + β 5 xy , а число неизвестных полиномиальных коэффициентов увеличится до пяти. Для перехода к уравнению следующего более высокого порядка каждая географическая координата возводится в заданную степень и добавляются соответствующие смешанные произведения.
Мартьянова А.Е. Математические методы моделирования в геологии
118
Выбор степени аппроксимирующего полинома и оценка значимости выявленных
закономерностей
могут
осуществляться
с
помощью
дисперсионного анализа. Для этого подсчитываются средние квадраты отклонений эмпирических значений исследуемого признака в точках замера от среднего арифметического и от аппроксимирующих поверхностей разного порядка, а также средние квадраты отклонений от среднего арифметического самих
аппроксимирующих
поверхностей.
Значимость
закономерностей,
описываемых полиномами определенного порядка, проверяется с помощью критерия Фишера. В
геологической
практике
региональные
закономерности
обычно
удовлетворительно описываются полиномами не выше третьей степени. Аппроксимация тригонометрическими полиномами позволяет описывать закономерные периодические колебания свойств геологических объектов. Из всех возможных аппроксимирующих функций выбирается та, которая точнее описывает имеющиеся данные и содержит наименьшее число параметров. Однако вид такой функции нельзя предсказать заранее, что существенно
затрудняет
Аппроксимирующие
практическое
функции
использование
координат
данных
пространства
моделей.
как
модели
геологических объектов имеют и некоторые другие недостатки: • допускают существование нереальных значений изучаемых переменных, например, отрицательных значений содержания химических элементов в породах или мощностей рудных тел; • не учитывают резких, скачкообразных изменений значений изучаемого свойства
по
геологическим
границам,
вследствие
чего
при
моделировании рудных тел высокие содержания полезного компонента иногда распространяются на заведомо безрудные породы, например, на пострудные дайки; • непригодны при использовании их для описания прерывистых объектов (например, рудных тел с прерывистым характером оруденения), так как 118
Мартьянова А.Е. Математические методы моделирования в геологии
119
происходит сглаживание исходных данных и искажается представление о степени прерывистости (увеличивается коэффициент рудоносности). Выделение аномальных значений изучаемого свойства имеет в геологии большое практическое значение, так как с «аномалиями» часто связаны тела полезных ископаемых и другие наиболее интересные геологические объекты. ЗАДАЧА IX.1 Требуется
Построить схему расположения пробуренных скважин – рис. VIII.2. Указание
Использовать
кнопку
Мастер
диаграмм
панели
инструментов
Стандартная, выбрав тип диаграммы – Точечная. Карта отметок 100 90 80
Y, км
70 60 50 40 30 20 10 0 0
10
20
30
40
50
60
70
80
90 100
X, км
Рис. IX.2. Карта отметок подошвы меловых отложений в северо-восточной
Африке: расположение скважин с замерами абсолютных отметок подошвы меловых отложений
Мартьянова А.Е. Математические методы моделирования в геологии
120
ПРИМЕР IX.2 Требуется
По исходным данным ПРИМЕРА IX.1 и табл. IX.1. произвести аппроксимацию поверхностей тренда полиномом uˆ ( x, y ) = β 0 + β1 x + β 2 y в пакете Excel с помощью функции ЛИНЕЙН или с помощью процедуры Регрессия из пакета анализа данных. Решение
Задача нахождения полиномиальных коэффициентов функции Φ ( x, y ) = uˆ , описывающей поверхность тренда, может быть решена проще с помощью функции Excel ЛИНЕЙН или с помощью процедуры Регрессия из пакета анализа данных. В ячейку A1 ввести обозначение x, в ячейку B1 ввести обозначение y, в ячейку C1 – обозначение u. Диапазон A2:A11 заполнить значениями координат скважин x, диапазон B2:B11 заполнить значениями координат скважин y, диапазон C2:C11 заполнить значениями абсолютных отметок подошвы меловых отложений u из табл. IX.1. При использовании функции ЛИНЕЙН в свободный диапазон G2:I6 ввести табличную формулу {=ЛИНЕЙН(C2:C11;A2:B11;1;1)}. Первая строка полученного массива данных – это и есть соответствующие полиномиальные коэффициенты: в ячейке I2 – β0, в ячейке H2 – β1 и в ячейке G2 – β2. Ячейка G4 полученного массива данных содержит коэффициент детерминации R2, который равен 0,900. Следовательно, модель в целом адекватна описываемому явлению. Построение
диаграммы
поверхности
тренда
можно
осуществить
аналогично тому, как это сделано в ПРИМЕРЕ IX.1. При использовании процедуры Регрессия из пакета анализа данных в пункте меню Сервис выберите строку Анализ данных и далее укажите курсором мыши на строку Регрессия. В появившемся диалоговом окне задайте Входной интервал Y. Для этого 120
Мартьянова А.Е. Математические методы моделирования в геологии
121
наведите указатель мыши на верхнюю ячейку столбца зависимых данных (C1), нажмите левую кнопку мыши и, не отпуская ее, протяните указатель мыши к нижней ячейке (C11), затем отпустите левую кнопку мыши. (Обратите внимание, что зависимые данные – это те данные, которые предполагается вычислять). Так же укажите Входной интервал X, то есть введите ссылку на диапазон независимых данных A1:B11. (Независимые данные – это те данные, которые будут измеряться или наблюдаться). Установите флажок в поле Метки в первой строке. Установите флажок в поле График подбора. Далее укажите выходной диапазон. Для этого поставьте переключатель в положение Выходной интервал (наведите указатель мыши и щелкните левой кнопкой), затем наведите указатель мыши на правое поле ввода Выходной интервал и, щелкнув левой кнопкой мыши, указатель мыши
наведите на левую верхнюю ячейку выходного диапазона (A31). Щелкните левой кнопкой мыши. Нажмите кнопку OK. Результаты анализа. В выходном диапазоне появятся результаты и графики подбора и остатков. Интерпретация
результатов.
В
таблице
Дисперсионный
анализ
оценивается общее качество полученной модели ее достоверность по уровню значимости критерия Фишера – р, который должен быть меньше, чем 0,05 (строка Регрессия, столбец Значимость F, в примере 0,0003, то есть p =0,0003 – модель значима, и степень точности описания моделью процесса – R-квадрат (вторая строка сверху в таблице Регрессионная статистика, в примере Rквадрат = 0,900. Следовательно, модель в целом адекватна описываемому
явлению. Далее необходимо определить значения коэффициентов модели. Они определяются из таблицы в столбце Коэффициенты – в строке Y-пересечение приводится свободный член, в строках соответствующих переменных приводятся значения коэффициентов при этих переменных. В столбце pзначение приводится достоверность отличия соответствующих коэффициентов
Мартьянова А.Е. Математические методы моделирования в геологии
122
от нуля. В случаях, когда р > 0,05, коэффициент может считаться нулевым. Это означает, что соответствующая независимая переменная практически не влияет на зависимую переменную и коэффициент может быть убран из уравнения. Все рассчитанные коэффициенты значимы. Таким образом, функция Φ ( x, y ) = uˆ , описывающая поверхность тренда, может быть записана как uˆ = −621,04 + 4,78 x − 1,96 y . ЗАДАЧА IX.2 Требуется
По исходным данным ПРИМЕРА IX.1 и табл. IX.1. произвести аппроксимацию
поверхностей
тренда
полиномом
uˆ = β 0 + β1 x + β 2 y + β 3 x 2 + β 4 y 2 + β 5 xy в пакете Excel с помощью функции ЛИНЕЙН или с помощью процедуры Регрессия из пакета анализа данных. Указание
Поверхность тренда второго порядка будет описываться уравнением
uˆ = β 0 + β1 x + β 2 y + β 3 x 2 + β 4 y 2 + β 5 xy , а число неизвестных полиномиальных коэффициентов увеличится до пяти. Диапазон A2:A11 заполнить значениями координат скважин x, диапазон B2:B11 заполнить значениями квадратов координат скважин x2, диапазон C2:C11 заполнить значениями координат скважин y, диапазон D2:D11
заполнить значениями координат скважин y2, диапазон E2:E11 заполнить произведениями значений координат скважин xy, диапазон F2:F11 заполнить значениями абсолютных отметок подошвы меловых отложений u из табл. IX.1. Диаграмма изолиний плоскости тренда второго порядка – см. рис. IX.3. Исходные данные для построения этой диаграммы можно разместить следующим образом – рис. IX.4.
122
Мартьянова А.Е. Математические методы моделирования в геологии
123
Карта отметок подошвы меловых отложений 100
-150--100
80
-200--150
70
-250--200 -350--300 -400--350
40
-450--400 -500--450 -550--500
20
-600--550
10
-650--600
0
-700--650
100
90
80
70
60
50
40
30
20
-300--250
50 Y, км
30
10
-100--50
90
60
0
-50-0
X, км
-750--700 -800--750 -850--800
Рис. IX.3. Карта отметок подошвы меловых отложений в северо-восточной
Африке: поверхность тренда второго порядка
Рис. IX.4. Размещение исходных на рабочем листе для построения диаграммы
рисунка IX.3
Мартьянова А.Е. Математические методы моделирования в геологии
124
ОБЛАСТИ ПРИМЕНЕНИЯ ГОРНО-ГЕОМЕТРИЧЕСКИХ В МОДЕЛЕЙ И ТРЕНД-АНАЛИЗА В ГЕОЛОГИИ Большинство геологических задач относится к числу пространственных исследований и имеет цель выявить особенности размещения изучаемых геологических объектов в структурах земной коры или элементов ее строения. Поэтому методы количественного описания и математического моделирования пространственных геологических закономерностей являются ведущими во всех отраслях геологических наук. В
геологической
практике
издавна
исключительно
широко
распространены методы горно-геометрического моделирования геологических тел и свойств горных пород и полезных ископаемых. Графические модели различных свойств природных геологических тел широко используются в структурной геологии, геологии полезных ископаемых, рудничной геологии и методике поисков и разведки полезных ископаемых. Методы
горно-геометрического
моделирования
изучаются
в
курсе
геометризации недр. На принципах П.К. Соболевского были разработаны различные аналитические методы описания изменчивости, использующие для этих целей первые или вторые последовательные разности значений показателей изменчивости по смежным пунктам наблюдений. С помощью горно-геометрических моделей можно выразить особенности пространственной
изменчивости
свойств
геологических
образований,
установить значение изучаемого свойства в любой точке исследуемого объекта, получить представление об его морфологии и внутреннем строении. Гипсометрические планы поверхностей контактов, не выходящих на поверхность интрузивных тел и
рудных залежей, графики
изолиний
содержаний полезных компонентов в рудных телах, карты геохимических и геофизических полей широко используются в геологической практике, так как они обеспечивают наглядность изображения и улучшают пространственное восприятие изучаемых закономерностей. Однако требование непрерывности и
124
Мартьянова А.Е. Математические методы моделирования в геологии
плавности
изменения
изучаемого
свойства
125
ограничивает
область
их
практического применения объектами с весьма выдержанными в пространстве свойствами. К таким объектам относятся пласты осадочных пород, границы интрузивных образований, рудные тела с простой морфологией и относительно равномерным характером оруденения и т.п.
Мартьянова А.Е. Математические методы моделирования в геологии
126
ЛАБОРАТОРНАЯ РАБОТА № X. ОПТИМИЗАЦИЯ ОСНОВНЫЕ ПОНЯТИЯ Под оптимизацией понимают процесс выбора наилучшего варианта из всех возможных. С точки зрения инженерных расчетов методы оптимизации позволяют
выбрать
наилучший
вариант
конструкции,
наилучшее
распределение ресурсов и т.п. В процессе решения задачи оптимизации обычно необходимо найти оптимальные значения некоторых параметров, определяющих данную задачу. При
решении
инженерных
задач
их
принято
называть
проектными
параметрами, а в экономических задачах их обычно называют параметрами плана. В качестве проектных параметров могут быть, в частности, значения линейных размеров объекта, массы, температуры и т.п. Число п проектных параметров x1, x2, ..., xn характеризует размерность (и степень сложности) задачи оптимизации. Выбор оптимального решения или сравнение двух альтернативных решений проводится с помощью некоторой зависимой величины (функции), определяемой проектными параметрами. Эта величина называется целевой функцией (или критерием качества). В процессе решения задачи оптимизации должны быть найдены такие значения проектных параметров, при которых целевая функция имеет минимум (или максимум). Таким образом, целевая функция – это глобальный критерий оптимальности в математических моделях, с помощью которых описываются инженерные или экономические задачи. Целевую функцию можно записать в виде u = f(x1, x2, ..., xn). Примерами
целевой
функции,
встречающимися
(X.1) в
инженерных
и
экономических расчетах, являются прочность или масса конструкции, мощность установки, объем выпуска продукции, стоимость перевозок грузов, прибыль и т.п. 126
Мартьянова А.Е. Математические методы моделирования в геологии
127
В случае одного проектною параметра (n = 1) целевая, функция (X.1) является функцией одной переменной, и ее график – некоторая кривая на плоскости. При п = 2 целевая функция является функцией двух переменных, и ее графиком является поверхность. Следует отметить, что целевая функция не всегда может быть представлена в виде формулы. Иногда она может принимать только некоторые дискретные значения, задаваться в виде таблицы и т.п. Во всех случаях она должна быть однозначной функцией проектных параметров. Целевых функций может быть несколько. Например, при проектировании изделий машиностроения одновременно требуется обеспечить максимальную надежность, минимальную материалоемкость, максимальный полезный объем (пли грузоподъемность). Некоторые целевые функции могут оказаться несовместимыми. В таких случаях необходимо вводить приоритет той или иной целевой функции. ЗАДАЧИ ОПТИМИЗАЦИИ Можно выделить два типа задач оптимизации – безусловные и условные. Безусловная задача оптимизации состоит в отыскании максимума или минимума действительной функции (X.1) от п действительных переменных и определении соответствующих значений аргументов на некотором множестве σ n-мерного пространства. Обычно рассматриваются задачи минимизации; к ним легко сводятся и задачи на поиск максимума путем замены знака целевой функции на противоположный. Условные задачи оптимизации, или задачи с ограничениями, – это такие, при формулировке которых задаются некоторые условия (ограничения) на множестве σ. Эти ограничения задаются совокупностью некоторых функций, удовлетворяющих уравнениям или неравенствам. Ограничения-равенства
выражают
зависимость
между
проектными
параметрами, которая должна учитываться при нахождении решения. Эти
Мартьянова А.Е. Математические методы моделирования в геологии
128
ограничения отражают законы природы, наличие ресурсов, финансовые требования и т.п. В результате ограничений область проектирования σ, определяемая всеми п
проектными
параметрами,
может
быть
существенно
уменьшена
в
соответствии с физической сущностью задачи. Число m ограничений-равенств может быть произвольным. Их можно записать в виде g1(x1, x2, ..., xn) = 0, g2(x1, x2, ..., xn) = 0,
(X.2)
…………………… gm(x1, x2, ..., xn) = 0. В ряде случаев из этих соотношений можно выразить одни проектные параметры через другие. Это позволяет исключить некоторые параметры из процесса оптимизации, что приводит к уменьшению размерности задачи и облегчает ее решение. Аналогично могут вводиться также ограничениянеравенства имеющие вид a1 ≤ φ1(x1, x2, ..., xn) ≤ b1, a2 ≤ φ2(x1, x2, ..., xn) ≤ b2,
(X.3)
………………………… ak ≤ φk(x1, x2, ..., xn) ≤ bk. Следует отметить особенность в отыскании решения при наличии ограничений. Оптимальное решение здесь может соответствовать либо локальному
экстремуму
(максимуму
или
минимуму)
внутри
области
проектирования, либо значению целевой функции на границе области. Если же ограничения отсутствуют, то ищется оптимальное решение на всей области проектирования, то есть глобальный экстремум. 128
Мартьянова А.Е. Математические методы моделирования в геологии
129
Теория и методы решения задач оптимизации при наличии ограничений составляют предмет исследования одного из важных разделов прикладной математики — математического программирования. ОДНОМЕРНАЯ ОПТИМИЗАЦИЯ. ЗАДАЧИ НА ЭКСТРЕМУМ Одномерная задача оптимизации в общем случае формулируется следующим образом. Найти наименьшее (пли наибольшее) значение целевой функции y = f(x), заданной на множестве σ, и определить значение проектного параметра x ∈ σ , при котором целевая функция принимает экстремальное значение.
Существование
решения
поставленной
задачи
вытекает
из
следующей теоремы. Теорема Вейерштрасса. Всякая функция f(x), непрерывная на отрезке [a, b], принимает на этом отрезке наименьшее и наибольшее значения, то есть на отрезке [a, b] существуют такие точки x1 и x2, что для любого x ∈ [a, b] имеют место неравенства f(x1) ≤ f(x) ≤ f(x2). Эта теорема не доказывает единственности решения. Не исключена возможность, когда равные экстремальные значения достигаются сразу в нескольких точках данного отрезка. В частности, такая ситуация имеет место для периодической функции, рассматриваемой на отрезке, содержащем несколько периодов. Будем рассматривать методы оптимизации для разных классов целевых функций. Простейшим из них является случай дифференцируемой функции f(x) на отрезке [a, b], причем функция задана в виде аналитической зависимости y=f(x), и может быть найдено явное выражение для ее производной f'(x). Нахождение экстремумов таких функций можно проводить известными из курса
высшей
математики
методами
дифференциального
исчисления.
Напомним вкратце этот путь. Функция f(x) может достигать своего наименьшего и наибольшего
Мартьянова А.Е. Математические методы моделирования в геологии
130
значений либо в граничных точках отрезка [a, b], либо в точках минимума и максимума. Последние точки обязательно должны быть критическими, то есть производная f'(x) в этих точках обращается в нуль, — это необходимое условие экстремума. Следовательно, для определения наименьшего или наибольшего значений функции f(x) на отрезке [a, b] нужно вычислить ее значения во всех критических точках данного отрезка и в его граничных точках и сравнить полученные значения; наименьшее или наибольшее из них и будет искомым значением. МНОГОМЕРНЫЕ ЗАДАЧИ ОПТИМИЗАЦИИ Выше мы рассмотрели одномерные задачи оптимизации, в которых целевая функция зависит лишь от одного аргумента. Однако в большинстве реальных задач оптимизации, представляющих практический интерес, целевая функция зависит от многих проектных параметров. Например, минимум дифференцируемой функции многих переменных u = f(x1, x2, ..., xn) можно найти, исследуя ее значения в критических точках, которые определяются из решения системы дифференциальных уравнений ∂f ∂f ∂f = 0, = 0, ..., = 0. ∂x1 ∂x2 ∂xn
ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ В случае, когда оптимизируемая целевая функция и ограничения линейны, задача оптимизации решается методами линейного программирования и обычно называется задачей линейного программирования. Процесс решения задачи линейного программирования обычно состоит из ряда этапов: • 1-й этап: осмысление задачи, выделение наиболее важных качеств, свойств, величин, параметров. Это можно делать, составляя схемы, 130
Мартьянова А.Е. Математические методы моделирования в геологии
131
таблицы, графики и т.п.; • 2-й
этап:
введение
обозначений
(неизвестных).
Желательно
ограничиваться как можно меньшим количеством неизвестных, выражая по возможности одни величины через другие; • 3-й этап: создание целевой функции. Обычно в качестве цели могут выступать
максимальная
стоимость
всего
объема
продукции,
максимальная прибыль, минимальные затраты и т.п. Целевая функция записывается в виде(X.1); • 4-й
этап:
составление
системы
ограничений,
которым
должны
удовлетворять введенные величины (X.2) или (X.3); • 5-й этап: решение задачи на компьютере. Инструментом для поиска решений задач оптимизации в Excel служит процедура Поиск решения (Сервис/Поиск решения). При этом открывается диалоговое окно Поиск решения. Оно содержит следующие рабочие поля: • Установить целевую ячейку – служит для указания целевой ячейки, значение которой необходимо максимизировать, минимизировать или установить равным заданному числу. Эта ячейка должна содержать формулу; • Равной – служит для выбора варианта оптимизации значения целевой ячейки (максимизация, минимизация или подбор заданного числа). Чтобы установить число, необходимо ввести его в поле; • Изменяя ячейки – служит для указания ячеек, значения которых изменяются в процессе поиска решения до тех пор, пока не будут выполнены наложенные ограничения и условие оптимизации значения ячейки, указанной в поле Установить целевую ячейку; • Предположить – используется для автоматического поиска ячеек, влияющих на формулу, ссылка на которую дана в поле Установить
Мартьянова А.Е. Математические методы моделирования в геологии
132
целевую ячейку. Результат поиска отображается в поле Изменяя ячейки;
• Ограничения – служит для отображения списка граничных условий поставленной задачи; • Добавить – используется для отображения диалогового окна Добавить ограничение;
• Изменить – применяется для отображения диалогового окна Изменить ограничение;
• Удалить – служит для снятия указанного ограничения; • Выполнить – используется для запуска поиска решения поставленной задачи; • Закрыть – служит для выхода из окна диалога без запуска поиска решения поставленной задачи. При этом сохраняются установки, сделанные в окнах диалога, появлявшихся после нажатий на кнопки Параметры, Добавить, Изменить или Удалить;
• Параметры
–
применяется
для
отображения
диалогового
окна
Параметры поиска решения, в котором можно загрузить или сохранить
оптимизируемую модель и указать предусмотренные варианты поиска решения; • Восстановить
–
служит
для
очистки
полей
окна
диалога
и
восстановления значений параметров поиска решения, используемых по умолчанию. ПРИМЕР X.1 Требуется
На нефтяных месторождениях 1 и 2 поисково-разведочными работами готовятся запасы промышленных категорий X1 и X2 (в млн. т.). Необходимо отыскать значения запасов, приводящие к максимуму стоимости сырья (в тыс.
132
Мартьянова А.Е. Математические методы моделирования в геологии
долларов),
которое
возможно
получить
на
133
двух
месторождениях.
В
математическом виде – найти максимум прикладной линейной функции Z
Z = 50 ⋅ X 1 + 40 ⋅ X 2 при ограничениях:
2 ⋅ X 1 + 5 ⋅ X 2 ≤ 20 – объемы работ по экологической реабилитации площади работ; 8 ⋅ X 1 + 5 ⋅ X 2 ≤ 40 – стоимость геофизических работ; 5 ⋅ X 1 + 6 ⋅ X 2 ≤ 30 – стоимость геохимических работ; X 1 ≥ 0, X 2 ≥ 0 . Указание
Обозначим: X1 – запасы месторождения 1, X2 – запасы месторождения 2. Значения запасов, приводящие к максимуму стоимости сырья (в тыс. долларов), которое возможно получить на двух месторождениях значения запасов, приводящие к максимуму стоимость сырья (в тыс. долларов), которое возможно получить на двух месторождениях Z = 50 ⋅ X 1 + 40 ⋅ X 2 . Функция, для которой ищется экстремум (максимум или минимум), носит название целевой функции. Беспредельному увеличению запасов препятствуют ограничения:
2 ⋅ X 1 + 5 ⋅ X 2 ≤ 20 – объемы работ по экологической реабилитации площади работ; 8 ⋅ X 1 + 5 ⋅ X 2 ≤ 40 – стоимость геофизических работ; 5 ⋅ X 1 + 6 ⋅ X 2 ≤ 30 – стоимость геохимических работ. Кроме того, запасы – неотрицательное число, поэтому X 1 ≥ 0, X 2 ≥ 0 . Формально задача оптимизации записывается так: ⎧50 X 1 + 40 X 2 → max ⎪ 2 X + 5 X ≤ 20 1 2 ⎪⎪ ⎨ 8 X 1 + 5 X 2 ≤ 40 ⎪ 5 X + 6 X ≤ 30 1 2 ⎪ ⎪⎩ X 1 ≥ 0, X 2 ≥ 0
Мартьянова А.Е. Математические методы моделирования в геологии
134
Решение
Решим эту задачу в Excel. Введите в ячейки A1, A2, A4:A8 рабочего листа текст. В ячейки B1, B2, A4:A8 введите нули (рис. X.1).
Рис. X.1. Размещение исходных данных задачи в документе Excel
В ячейку B4 введите формулу =50*B1+40*B2. Это целевая функция. В ячейку B6 введите формулу =2*B1+5*B2. В ячейку B7 введите формулу =8*B1+5*B2. В ячейку B8 введите формулу =5*B1+6*B2. Это ограничения.
Выделим ячейку B4, в которой вычисляется целевая функция, и вызовем Решатель (Сервис/Поиск решения). В диалоговом окне в поле ввода Установить целевую ячейку: уже содержится адрес ячейки с целевой
функцией
$B$4.
Установим
переключатель:
Равной
максимальному
значению. Перейдем к полю ввода Изменяя ячейки:. В нашем случае
достаточно щелкнуть кнопку Предположить и в поле ввода появится адрес блока $B$1:$B$2. Перейдем к вводу ограничений. Щелкнем кнопку Добавить. Появится диалоговое окно Добавление ограничения. В поле ввода Ссылка на ячейку: укажите $B$6. Правее расположен выпадающий список с условными операторами (раскройте его и посмотрите). Выберем условие <=. В поле ввода Ограничение: введите число 20. У нас есть еще два ограничения, поэтому, не
выходя из этого диалогового окна, щелкните кнопку Добавить и введите ограничение $B$7<=40. Аналогично добавить ограничение $B$8<=30. Ввод 134
Мартьянова А.Е. Математические методы моделирования в геологии
135
ограничений закончен, поэтому нажмите OK. Вы вновь окажитесь в диалоговом окне Поиск решения. Вы увидите введенные ограничения $B$6<=20, $B$7<=40 и $B$8<=30. Справа имеются кнопки Изменить и Удалить. С их помощью Вы можете изменить ограничение или стереть его.
(Если Вы используете Excel 5.0/7.0, то Вы должны ввести еще одно ограничение $B$1:$B$2>=0). Щелкните кнопку Параметры. Вы окажитесь в диалоговом окне Параметры поиска решения. Чтобы узнать назначение полей ввода этого
окна, щелкните кнопку Справка. Менять ничего не будем, только установим два флажка: Линейная модель (так как наши ограничения и целевая функция являются линейными по переменным X1 и X2) и Неотрицательные значения (для переменных X1 и X2). В Excel 5.0/7.0 этот последний флажок отсутствует, поэтому и нужно было вводить ограничение $B$1:$B$2>=0. Щелкнем OK и окажемся в исходном окне. Задача
оптимизации
полностью
подготовлена.
Нажимаем
кнопку
Выполнить. Появляется диалоговое окно Результаты поиска решения. В нем
мы читаем сообщение: Решение найдено. Все ограничения и условия оптимальности выполнены. На выбор предлагаются варианты: Сохранить найденное решение или Восстановить исходные значения. Выбираем
первое. Можно также вывести отчеты: по результатам, по устойчивости, по пределам. После нажатия OK вид таблицы меняется: в ячейках X1 и X2 появляются оптимальные значения: X1 – 3,913043 и X2 – 1,73913. Соответственно пересчитываются все формулы. Целевая функция достигает значения 265,2174.
Мартьянова А.Е. Математические методы моделирования в геологии
136
КОНТРОЛЬНЫЕ ВОПРОСЫ 1.
Геологические
образования
и
процессы
как
объекты
изучения.
«Выборочная», «геологическая» и «опробуемая» совокупности. Схемы опробования. 2.
Погрешности измерений и погрешности аналогий. Шкалы измерений в геологии.
3.
Виды
геолого-математических
моделей.
Этапы
процесса
решения
геологических задач математическими методами. 4.
Одномерные
статистические
модели.
Простейшие
преобразования
количественной геологической информации. 5.
Статистические характеристики. Решение геологических задач с помощью построения эмпирических графиков функций плотности распределения и распределения.
6.
Статистические законы распределения, используемые в геологии.
7.
Специфика случайных угловых величин. Круговое среднее направление, круговая мода и круговая медиана.
8.
Точечные и интервальные оценки свойств геологических объектов. Свойства точечных оценок.
9.
Построение доверительных интервалов оценок средних значений.
10. Статистическая проверка гипотез. Ошибки первого и второго рода при статистической проверке гипотез. 11. Параметрические и непараметрические критерии согласия. 12. Проверка гипотезы о типе статистического распределения. 13. Решение геологических задач путем проверки гипотез о равенстве средних. 14. Решение геологических задач путем проверки гипотез о равенстве дисперсий. 15. Решение геологических задач путем проверки гипотезы об однородности выборки. 16. Решение
геологических
задач
с
двухфакторного дисперсионного анализа. 136
помощью
однофакторного
и
Мартьянова А.Е. Математические методы моделирования в геологии
137
17. Геологические объекты как двумерная статистическая совокупность. Простейшие преобразования двумерных случайных величин. 18. Решение геологических задач путем проверки гипотезы о наличии корреляционной связи. 19. Оценка силы корреляционной связи. 20. Описание
характера
корреляционной
связи
свойств
геологических
объектов уравнениями. 21. Проверка гипотезы о линейном характере корреляционной связи. 22. Применение в геологии регрессионного анализа. 23. Применение многомерных статистических моделей в геологии. 24. Понятия парного, частного и множественного коэффициентов корреляции. 25. Множественные регрессионные модели и их применение. 26. Методы выделения ассоциаций. Метод графов. 27. Принципы и области применения кластер-анализа. 28. Задачи распознавания образов в геологии. 29. Факторный
анализ
и
метод
главных
компонент
при
решении
геологических задач. 30. Моделирование пространственных переменных. 31. Непрерывные и дискретные геологические пространственные переменные, скалярные и векторные поля. 32. Фон и аномалия. Решение геологических задач с помощью тренд-анализа. 33. Способы «сглаживания» случайных полей. 34. Статистические методы проверки гипотез о наличии тренда. 35. Метод аппроксимации поверхностей тренда полиномами в геологии. 36. Моделирование дискретных случайных полей. 37. Моделирование с помощью случайных функций. 38. Полигармонические случайные функции. 39. Факторы,
определяющие
выбор
математических методов в геологии. 40. Применение ЭВМ в геологии.
и
эффективность
использования
Мартьянова А.Е. Математические методы моделирования в геологии
138
ЛИТЕРАТУРА 1. Аветисов А.Г., Булатов А.И., Шаманов Методы прикладной математики в инженерном деле при строительстве нефтяных и газовых скважин. – М.: ООО «Недра-Бизнесцентр», 2003. – 239 с. 2. Андронов А.М., Копытов Е.А., Гринглаз Л.Я. Теория вероятностей и математическая статистика: Учебник для вузов. – СПб.: Питер, 2004. – 461 с. 3. Вуколов
Э.А.
Основы
статистического
анализа.
Практикум
по
статистическим методам и исследованию операций с использованием пакетов STATISTICA и EXCEL: Учебное пособие. – М.: ФОРУМ: ИНФРА-М, 2004. – 464 с. 4. Гайдышев И. Анализ и обработка данных: специальный справочник. – СПб.: Питер, 2001. – 752 с. 5. Гельман
В.Я.
Решение
математических
задач
средствами
Excel:
Практикум – СПб: Питер, 2003. – 240 с. 6. Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для вузов. – 10-е изд., стер. – М.: Высш. шк. , 2004. – 479 с. 7. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике: Учеб. пособие для студентов вузов. – 9-е изд. стер. – М.: Высш. шк., 2004. – 404 с. 8. Горелова Г.В., Кацко И.А. Теория вероятностей и математическая статистика в примерах и задачах с применением EXCEL. – Ростов н/Д: Феникс, 2005. – 480 с. 9. Грановская Н.В., Наставкин А.В. Сборник задач для лабораторных и самостоятельных занятий по дисциплине «Математические методы моделирования
в
геологии».
Для
студентов
геологических
специальностей геолого-географического факультета. – Ростов н/Дону: 2002. – 40 с. 10. Гуськов О.И., Кушнарев П. И. Таранов С.М.. Математические методы в геологии. Сборник задач. М.: Недра,1991. 138
Мартьянова А.Е. Математические методы моделирования в геологии
139
11. Каждан А.Б., Гуськов О.И. Математические методы в геологии. Учебник для вузов. – М.: Недра, 1990. 12. Лавренов С.М. Excel: Сборник примеров и задач. – М.: Финансы и статистика, 2002. – 336 с. 13. Мартьянова А.Е. Сборник примеров и задач. Лабораторный практикум по дисциплине
«Статистическое
моделирование
на
ЭВМ».
/Учебно-
методическое пособие для студентов специальности 250400 «Химическая технология природных энергоносителей и углеродных материалов». – Астрахань, 2007, 136 с. 14. Мартьянова А.Е. Сборник примеров и задач. Лабораторный практикум по дисциплине «Математические методы моделирования в геологии». /Учебное пособие для студентов направления 650100 «Прикладная геология» (электронный вариант). – Астрахань, 2005, 263 с. 15. Мартьянова А.Е. Математические методы моделирования в геологии. Сборник примеров и задач: Учебное пособие для студентов направления 650100 «Прикладная геология». – Астрахань, 2005, 268 с. 16. Минько А.А. Статистический анализ в MS EXCEL. – М.: Издательский дом «Вильямс», 2004. – 448 с. 17. Прозорова Г.Н. Методические указания к выполнению лабораторных работ по курсу «Методы математического моделирования в геологии» (для студентов очной и заочной форм обучения по специальности 08.05.00) – Ростов-на-Дону: Ростовский госуниверситет, 2004. – с. 34. 18. Теория вероятностей и математическая статистика: Учеб. пособие /Под ред. В.И. Ермакова – М.: ИНФРА-М, 2004. – 287 с. 19. Турчак Л. И. Основы численных методов: Учеб. пособие. – М.: Наука, 1987. – 320 с. 20. Microsoft Excel 2000: справочник /Под ред. Ю.В. Колесникова – СПб: Изд-во «Питер», 1999. – 480 с. 21. www.exponenta.ru 22. www.statsoft.com
140
Мартьянова А.Е. Математические методы моделирования в геологии
ПРИЛОЖЕНИЯ
140
Мартьянова А.Е. Математические методы моделирования в геологии
141
Приложение I. Значения функции нормального распределения с параметрами 0 и 1 (для отрицательных значений Z) Z -0,0 -0,1 -0,2 -0,3 -0,4 -0,5 -0,6 -0,7 -0,8 -0,9 -1,0 -1,1 -1,2 -1,3 -1,4 -1,5 -1,6 -1,7 -1,8 -1,9 -2,0 -2,1 -2,2 -2,3 -2,4 -2,5 -2,6 -2,7 -2,8 -2,9 -3,0 -3,1 -3,3 -3,4 -3,5 -3,6 -3,7 -3,8
0,00 0,5000 0,4602 0,4207 0,3821 0,3446 0,3085 0,2743 0,2420 0,2119 0,1841 0,1587 0,1357 0,1151 0,0968 0,0808 0,0668 0,0548 0,04046 0,0359 0,0287 0,0227 0,0179 0,0139 0,0107 0,0082 0,0062 0,0047 0,0035 0,0026 0,0019 0,0013 0,0010 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001
0,01 0,4920 0,4562 0,4168 0,3783 0,3409 0,3050 0,2709 0,2398 0,2090 0,1814 0,1562 0,1335 0,1131 0,0951 0,0793 0,0655 0,0537 0,0436 0,0351 0,0281 0,0222 0,0174 0,0135 0,104 0,0080 0,0060 0,0045 0,0034 0,0025 0,0018 0,0013 0,0009 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001
0,02 0,4929 0,4522 0,4129 0,3745 0,3372 0,3015 0,2676 0,2358 0,2061 0,1788 0,1539 0,1314 0,1112 0,0934 0,0778 0,0643 0,0526 0,0427 0,0344 0,0274 0,0217 0,0170 0,0132 0,0102 0,0078 0,0059 0,0044 0,0033 0,0024 0,0017 0012 0,0009 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001
0,03 0,4880 0,4483 0,4090 0,3707 0,3336 0,2981 0,2643 0,2327 0,2033 0,1762 0,1515 0,1292 0,1093 0,0918 0,0764 0,0630 0,0515 0,0418 0,0336 0,0268 0,0212 0,0166 0,0219 0,0099 0,0075 0,0057 0,0043 0,0032 0,0023 0,0017 0012 0,0009 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001
0,04 0,4840 0,4443 0,4052 0,3669 0,3300 0,2946 0,2611 0,2297 0,2005 0,1736 0,1492 0,1271 0,1075 0,0901 0,0749 0,0618 0,0505 0,0409 0,0329 0,0262 0,0207 0,0162 0,0125 0,0096 0,0073 0,0055 0,0041 0,0030 0,0023 0,0016 0012 0,0008 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001
0,05 0,4801 0,4404 0,4013 0,3632 0,3264 0,2912 0,2578 0,2266 0,1977 0,1711 0,1469 0,1251 0,1056 0,0885 0,0735 0,0606 0,0495 0,0401 0,0322 0,0256 0,0202 0,0158 0,0122 0,0094 0,0071 0,0054 0,0040 0,0030 0,0022 0,0016 0011 0,0008 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001
0,06 0,4761 0,4364 0,3974 0,3594 0,3228 0,2877 0,2546 0,2236 0,1949 0,1685 0,1446 0,1230 0,1038 0,0869 0,0721 0,594 0,0485 0,0392 0,0314 0,0250 0,0197 0,0154 0,0119 0,0091 0,0069 0,0052 0,0039 0,0029 0,0021 0,0015 0,0011 0,0008 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001
0,07 0,4721 0,4325 0,3936 0,3557 0,3192 0,2843 0,2514 0,2206 0,1922 0,1660 0,1423 0,1210 0,1020 0,0853 0,0708 0,0582 0,0475 0,0384 0,0307 0,0244 0,0192 0,0150 0,0116 0,0089 0,0068 0,0051 0,0038 0,0028 0,0020 0,0015 0,0011 0,0008 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001
0,08 0,4681 0,4286 0,3897 0,3520 0,3156 0,2810 0,2483 0,2177 0,1894 0,1635 0,1401 0,1190 0,1003 0,0838 0,0694 0,0570 0,0465 0,0375 0,0300 0,0238 0,0188 0,0146 0,0113 0,0087 0,0066 0,0049 0,0037 0,0027 0,0020 0,0014 0,0010 0,0007 0,0004 0,0002 0,0002 0,0001 0,0001 0,0000
0,09 0,4641 0,4247 0,3859 0,3483 0,3121 0,2776 0,2451 0,2148 0,1867 0,1611 0,1379 0,1170 0,0985 0,0823 0,0681 0,0559 0,0455 0,0367 0,0294 0,0233 0,0183 0,0143 0,0110 0,0084 0,0064 0,0047 0,0036 0,0026 0,0019 0,0014 0,0010 0,0007 0,0003 0,0002 0,0002 0,0001 0,0001 0,0000
Примечание
Значения функции для положительных Z находятся вычитанием из 1 значений функции для (-Z). Пример: для Z = 0,72 P= 1-0,2358 =0,7642.
142
Мартьянова А.Е. Математические методы моделирования в геологии
Приложение II. Допустимые значения критерия Стьюдента при данном объеме выборки N и уровне значимости α
N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 N
Двусторонняя критическая область α= α= α= α= α= 0,1 0,05 0,02 0,01 0,001 6,31 12,71 31,82 63,66 636,62 2,92 4,30 6,97 9,93 31,60 2,35 3,18 4,54 5,84 12,94 2,13 2,78 3,75 4,60 8,61 2,02 2,57 3,37 4,03 6,86 1,94 2,45 3,14 3,71 5,96 1,90 2,37 3,00 3,50 5,41 1,86 2,31 2,90 3,36 5,04 1,83 2,26 2,82 3,25 4,78 1,81 2,23 2,76 3,17 4,59 1,80 2,20 2,72 3,11 4,44 1,78 2,18 2,68 3,06 4,32 1,77 2,16 2,65 3,01 4,22 1,76 2,15 2,62 2,98 4,14 1,75 2,13 2,60 2,95 4,07 1,75 2,12 2,58 2,92 4,02 1,74 2,11 2,57 2,90 3,97 α= α= α= α= α= 0,05 0,025 0,01 0,005 0,0005 Односторонняя критическая область
N 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞ N
142
Двусторонняя критическая область α= α= α= α= α= 0,1 0,05 0,02 0,01 0,001 1,73 2,10 2,55 2,88 3,92 1,73 2,09 2,54 2,86 3,88 1,73 2,09 2,53 2,85 3,85 1,72 2,08 2,52 2,83 3,82 1,72 2,07 2,51 2,82 3,79 1,71 2,07 2,50 2,81 3,77 1,71 2,06 2,49 2,80 3,75 1,71 2,06 2,49 2,79 3,73 1,71 2,06 2,48 2,78 3,71 1,70 2,05 2,47 2,77 3,69 1,70 2,05 2,47 2,76 3,67 1,70 2,05 2,46 2,76 3,66 1,70 2,04 2,46 2,75 3,65 1,68 2,02 2,42 2,70 3,55 1,67 2,00 2,39 2,66 3,46 1,66 1,98 2,36 2,62 3,37 1,65 1,96 2,33 2,58 3,29 α= α= α= α= α= 0,05 0,025 0,01 0,005 0,0005 Односторонняя критическая область
Мартьянова А.Е. Математические методы моделирования в геологии
143
Приложение III. Критические точки распределения χ2 Число степеней свободы 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
α 0,01 6,6 9,2 11,3 13,3 15,1 16,8 18,5 20,1 21,7 23,2 24,7 26,2 27,7 29,1 30,6 32,0 33,4 34,8 36,2 37,6 38,9 40,3 41,6 43,0 44,3 45,6 47,0 48,3 49,6 50,9
0,025 5,0 7,4 9,4 11,1 12,8 14,4 16,0 17,5 19,0 20,5 21,9 23,3 24,7 26,1 27,5 28,8 30,2 31,5 32,9 34,2 35,5 36,8 38,1 39,4 40,6 41,9 43,2 44,5 45,7 47,0
0,05 3,8 6,0 7,8 9,5 11,1 12,6 14,1 15,5 16,9 18,3 19,7 21,0 22,4 23,7 25,0 26,3 27,6 28,9 30,1 31,4 32,7 33,9 35,2 36,4 37,7 38,9 40,1 41,3 42,6 43,8
0,95 0,0039 0,103 0,352 0,711 1,15 1,64 2,17 2,73 3,33 3,94 4,57 5,23 5,89 6,57 7,26 7,96 8,67 9,39 10,1 10,9 11,6 12,3 13,1 13,8 14,6 15,4 16,2 16,9 17,7 18,5
0,975 0,00098 0,051 0,216 0,484 0,831 1,24 1,69 2,18 2,70 3,25 3,82 4,40 5,01 5,63 6,26 6,91 7,56 8,23 8,91 9,59 10,3 11,0 11,7 12,4 13,1 13,8 14,6 15,3 16,0 16,8
0,99 0,00016 0,020 0,115 0,297 0,554 0,872 1,24 1,65 2,09 2,56 3,05 3,57 4,11 4,66 5,23 5,81 6,41 7,01 7,63 8,26 8,90 9,54 10,2 10,9 11,5 12,2 12,9 13,6 14,3 15,0
Мартьянова А.Е. Математические методы моделирования в геологии
144
Приложение IV. Критические значения статистики R критерия равномерности Релея n 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 30 35 40 45 50 100
2nR ≅ 100χ 22
α 0,1 0,677 0,618 0,572 0,535 0,504 0,478 0,456 0,437 0,42 0,405 0,391 0,379 0,367 0,357 0,348 0,339 0,331 0,323 0,316 0,309 0,303 0,277 0,256 0,24 0,226 0,214 0,15 4,605
0,05 0,754 0,69 0,642 0,602 0,569 0,54 0,516 0,494 0,475 0,458 0,443 0,429 0,417 0,405 0,394 0,385 0,375 0,367 0,359 0,351 0,344 0,315 0,292 0,273 0,257 0,244 0,17 5,991
0,025 0,816 0,753 0,702 0,66 0,624 0,594 0,567 0,544 0,524 0,505 0,489 0,474 0,46 0,447 0,436 0,425 0,415 0,405 0,397 0,389 0,381 0,348 0,323 0,302 0,285 0,27 0,19 7,378
144
0,01 0,879 0,825 0,771 0,725 0,687 0,655 0,627 0,602 0,58 0,56 0,542 0,525 0,51 0,496 0,484 0,472 0,461 0,451 0,441 0,432 0,423 0,387 0,359 0,336 0,318 0,301 0,21 9,21
0,001 0,991 0,94 0,891 0,847 0,808 0,775 0,743 0,716 0,692 0,669 0,649 0,63 0,613 0,597 0,583 0,569 0,556 0,544 0,533 0,522 0,512 0,47 0,436 0,409 0,386 0,367 0,26 13,816
Мартьянова А.Е. Математические методы моделирования в геологии
145
Приложение V. Параметр концентрации k распределения Мизеса
R 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10 0,11 0,12 0,13 0,14 0,15 0,16 0,17 0,18 0,19 0,20 0,21 0,22 0,23 0,24
k 0,00000 0,02000 0,04001 0,06003 0,08006 0,10013 0,12022 0,14034 0,16051 0,18073 0,20101 0,22134 0,24175 0,26223 0,28279 0,30344 0,32419 0,34503 0,36599 0,38707 0,40828 0,42962 0,45110 0,47273 0,49453
R 0,25 0,26 0,27 0,28 0,29 0,30 0,31 0,32 0,33 0,34 0,35 0,36 0,37 0,38 0,39 0,40 0,41 0,42 0,43 0,44 0,45 0,46 0,47 0,48 0,49
k 0,51649 0,53863 0,56097 0,58350 0,60625 0,62922 0,65242 0,67587 0,69958 0,72356 0,74783 0,77241 0,79730 0,82253 0,84812 0,87408 0,90043 0,92720 0,95440 0,98207 1,01022 1,03889 1,06810 1,09788 1,12828
R 0,50 0,51 0,52 0,53 0,54 0,55 0,56 0,57 0,58 0,59 0,60 0,61 0,62 0,63 0,64 0,65 0,66 0,67 0,68 0,69 0,70 0,71 0,72 0,73 0,74
k 1,15932 1,19105 1,22350 1,25672 1,29077 1,32570 1,36156 1,39842 1,43635 1,47543 1,51574 1,55738 1,60044 1,64506 1,69134 1,73945 1,78953 1,84177 1,89637 1,95357 2,01363 2,07685 2,14359 2,21425 2,28930
R 0,76 0,77 0,78 0,79 0,80 0,81 0,82 0,83 0,84 0,85 0,86 0,87 0,88 0,89 0,90 0,91 0,92 0,93 0,94 0,95 0,96 0,97 0,98 0,99 1,00
k 2,45490 2,54686 2,64613 2,75382 2,87129 3,00020 3,14262 3,30114 3,47901 3,68041 3,91072 4,17703 4,48876 4,85871 5,3047 5,8522 6,5394 7,4257 8,6104 10,2716 12,7661 16,9266 25,2522 50,2421 ∞
Мартьянова А.Е. Математические методы моделирования в геологии
146
Приложение VI. Функция распределения Мизеса F (θ/180°, k) с круговым средним направлением µ=180° θ 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 125 130 135 140 145 150 155 160 170 175 180
k=0 0,00000 0,01389 0,02778 0,04167 0,05556 0,06944 0,08333 0,09722 0,11111 0,12500 0,13889 0,15278 0,16667 0,18056 0,19444 0,20833 0,22222 0,23611 0,25000 0,26389 0,27778 0,29167 0,30556 0,31944 0,33333 0,34722 0,36111 0,37500 0,38889 0,40278 0,41667 0,43056 0,44444 0,47222 0,48611 0,50000
k = 0,2 0,00000 0,01126 0,02254 0,03385 0,04522 0,05665 0,06816 0,07978 0,09152 0,10338 0,11540 0,12757 0,13992 0,15246 0,16520 0,17815 0,19132 0,20471 0,21834 0,23222 0,24633 0,26069 0,27529 0,29014 0,30522 0,32053 0,33606 0,35180 0,36774 0,38385 0,40013 0,41655 0,43309 0,46644 0,48321 0,50000
k = 0,4 0,00000 0,00895 0,01793 0,02697 0,03608 0,04531 0,054467 0,06420 0,07392 0,08386 0,09405 0,10452 0,11529 0,12639 0,13784 0,14968 0,16192 0,17460 0,18772 0,20130 0,21537 0,22992 0,24498 0,26054 0,27659 0,29314 0,31017 0,32766 0,34559 0,36392 0,38263 0,40166 0,42098 0,46025 0,49009 0,50000
F (θ) k = 0,6 k = 0,8 0,00000 0,00000 0,00699 0,00536 0,01400 0,01074 0,02108 0,01620 0,02826 0,02175 0,03557 0,02744 0,04304 0,03329 0,05071 0,03936 0,05861 0,04567 0,06679 0,05228 0,07527 0,05921 0,08409 0,06653 0,09331 0,07428 0,10295 0,08251 0,11306 0,09128 0,12368 0,10064 0,13485 0,11066 0,14662 0,12139 0,15901 0,13289 0,17206 0,14522 0,18582 0,15844 0,20030 0,17260 0,21554 0,18774 0,23154 0,20392 0,24832 0,22114 0,26587 0,23944 0,28420 0,25882 0,30327 0,27926 0,32306 0,30073 0,34353 0,32319 0,36463 0,34656 0,38628 0,37077 0,40841 0,30570 0,45379 0,44722 0,47684 0,47353 0,50000 0,50000
146
k = 1,0 0,00000 0,00404 0,00811 0,01225 0,01647 0,02083 0,02535 0,03007 0,03504 0,04029 0,04587 0,05184 0,05825 0,06517 0,07265 0,08078 0,08962 0,09925 0,10975 0,12122 0,13372 0,14734 0,16217 0,17825 0,19566 0,21444 0,23460 0,256165 0,27909 0,30334 0,32883 0,35546 0,38309 0,44066 0,47022 0,50000
k = 1,2 0,00000 0,00301 0,00604 0,00913 0,01230 0,01559 0,01903 0,02266 0,02650 0,03062 0,03505 0,03985 0,04509 0,05082 0,05711 0,06407 0,07176 0,08028 0,08974 0,10025 0,11191 0,12483 0,13913 0,15491 0,17226 0,19125 0,21194 0,23435 0,25849 0,28431 0,31172 0,34060 0,37079 0,43423 0,46696 0,50000
k = 1,4 0,00000 0,00221 0,00444 0,00672 0,00907 0,01153 0,01411 0,01686 0,01981 0,02299 0,02647 0,03028 0,03450 0,03919 0,04442 0,05030 0,05690 0,06436 0,07277 0,08228 0,09302 0,10514 0,11876 0,13405 0,15112 0,17009 0,19106 0,21408 0,23918 0,26633 0,29544 0,32638 0,35897 0,42800 0,46381 0,50000
Мартьянова А.Е. Математические методы моделирования в геологии
147
Приложение VII. Критические значения статистики X-критерия Ван-дер-Вардена для односторонних границ
N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
α = 0,025 m=0 m=2 m=4 m=1 m=3 m=5 2 3 4 – – – – – – – – – – – – – – – – – – 2,40 2,30 – 2,38 2,20 – 2,60 2,49 2,30 2,72 2,58 2,40 2,86 2,79 2,68 2,96 2,91 2,78 3,11 3,06 3,00 3,24 3,19 3,06 3,39 3,36 3,28 3,49 3,44 3,36 3,63 3,60 3,53 3,73 3,69 3,61 3,86 3,84 3,78 3,96 3,92 3,85 4,08 4,06 4,01 4,18 4,15 4,08 4,29 4,27 4,23 4,39 4,36 4,30 4,50 4,48 4,44 4,59 4,56 4,51 4,69 4,68 4,64 4,78 4,76 4,72 4,88 4,87 4,84 4,97 4,95 4,91 5,07 5,06 5,03 5,15 5,13 5,10 5,25 5,24 5,21 5,33 5,31 5,28 5,42 5,41 5,38 5,50 5,48 5,45 5,59 5,58 5,55 5,67 5,65 5,62 5,75 5,74 5,72
α = 0,001 m=0 m=2 m=4 m=1 m=3 m=5 5 6 7 – – – – – – – – – – – – – – – – – – 1,42 1,37 1,23 1,56 1,48 1,30 1,71 1,67 1,57 1,83 1,77 1,64 1,98 1,94 1,87 2,09 2,03 1,93 2,22 2,19 2,12 2,33 2,28 2,20 2,44 2,42 2,36 2,54 2,51 2,44 2,65 2,64 2,59 2,76 2,72 2,66 2,85 2,84 2,80 2,95 2,92 2,87 3,05 3,04 3,00 3,14 3,12 3,06 3,23 3,22 3,19 3,33 3,29 3,26 3,41 3,39 3,37 3,49 3,47 3,43 3,57 3,57 3,54 3,66 3,64 3,60 3,74 3,73 3,70 3,82 3,80 3,76 3,89 3,88 3,86 3,96 3,95 3,92 4,05 4,05 4,02 4,12 4,11 4,08 4,19 4,19 4,16 4,26 4,25 4,24 4,33 4,33 4,32 4,40 4,39 4,38 4,48 4,48 4,46
m=0 m=1 8 0,10 0,50 0,73 0,90 1,10 1,25 1,42 1,56 1,71 1,83 1,98 2,09 2,22 2,33 2,44 2,54 2,65 2,76 2,85 2,95 3,05 3,14 3,23 3,33 3,41 3,49 3,57 3,66 3,74 3,82 3,88 3,96 4,05 4,12 4,19 4,26 4,33 4,40 4,48
α = 0,1 m=2 m=3 9 – – 0,64 0,74 1,04 1,14 1,37 1,48 1,67 1,77 1,94 2,03 2,19 2,28 2,42 2,51 2,64 2,72 2,84 2,92 3,04 3,12 3,22 3,29 3,39 3,47 3,57 3,64 3,73 3,80 3,89 3,95 4,05 4,11 4,19 4,25 4,33 4,33 4,39
m=4 m=5 10 – – – – 0,82 0,89 1,23 1,30 1,57 1,64 1,87 1,93 2,12 2,20 2,36 2,44 2,59 2,66 2,80 2,87 3,00 3,06 3,19 3,26 3,37 3,43 3,54 3,60 3,70 3,76 3,86 3,92 4,02 4,08 4,16 4,24 4,32 4,38 4,46
Мартьянова А.Е. Математические методы моделирования в геологии
148
Продолжение приложения VII 1
2 41 42 43 44 45 46 47 48 49 50
3 5,83 5,91 5,99 6,06 6,14 6,21 6,29 6,36 6,43 6,50
4 5,81 5,90 5,97 6,06 6,12 6,21 6,27 6,35 6,42 6,50
5 5,79 5,88 5,95 6,04 6,10 6,19 6,25 6,34 6,39 6,48
6 4,54 4,62 4,68 4,76 4,81 4,88 4,93 5,00 5,07 5,14
7 4,53 4,62 4,67 4,74 4,80 4,86 4,93 5,00 5,05 5,13
148
8 4,50 4,59 4,66 4,73 4,78 4,86 4,90 4,99 5,04 5,11
9 4,45 4,62 4,68 4,76 4,81 4,88 4,93 5,00 5,07 5,14
4,53 4,62 4,67 4,74 4,80 4,86 4,93 5,00 5,05 5,13
10 4,50 4,59 4,66 4,73 4,78 4,86 4,90 4,99 5,04 5,11
Мартьянова А.Е. Математические методы моделирования в геологии
149
Приложение VIII. Критические значения статистик W1 и 2MW критерия Вилкоксона для односторонних границ
10
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
2MW W1 α = α = 0,025 0,10 3 4 5 78 87 210 81 91 220 84 94 230 88 98 240 91 102 250 94 106 260 97 109 270 100 113 280 103 117 290 107 121 300 110 125 310 113 128 320 116 132 330 119 136 340 122 140 350 126 144 360
12
12 13 14 15 16 17 18 19 20 21 22 23 24 25
115 119 123 127 131 135 139 143 147 151 155 159 163 167
N1
N2 1
2
127 131 136 141 145 150 155 159 164 169 173 178 183 187
300 312 314 336 348 360 372 384 396 400 420 432 444 456
N1
11
11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
2MW W1 α = α = 0,025 0,10 8 9 10 96 106 253 99 110 264 103 114 275 106 118 286 110 123 297 113 127 308 117 131 319 121 135 330 124 139 341 128 144 352 131 148 363 135 152 374 139 156 385 142 161 396 146 165 407
13
13 14 15 16 17 18 19 20 21 22 23 24 25
136 141 145 150 154 158 163 167 171 176 180 185 189
N2 6
7
149 154 159 165 170 175 180 185 190 195 200 205 211
351 364 377 390 403 416 429 442 455 468 481 494 507
Мартьянова А.Е. Математические методы моделирования в геологии
150
Продолжение приложения VIII 1 14
16
18
20
22
2
3
4
5
14 15 16 17 18 19 20 21 22 23 24 25 16 17 18 19 20 21 22 23 24 25
160 164 169 174 179 183 188 193 198 203 207 212 211 217 222 228 234 239 245 251 256 262
174 179 185 190 196 202 207 213 218 224 229 235 229 235 242 248 255 261 267 274 280 287
406 420 434 448 462 476 490 504 518 532 543 560 528 544 560 576 592 608 624 640 656 672
18 19 20 21 22 23 24 25
270 277 283 290 296 303 309 316
291 299 306 313 321 328 335 343
666 684 702 720 738 756 774 792
20 21 22 23 24 25
337 344 351 359 366 373
361 370 378 386 394 403
820 840 860 880 900 920
22 23
411 419
439 448
990 1012
6 15
15 16 17 18 19 20 21 22 23 24 25
8 184 190 195 200 205 210 216 221 226 231 237
17
17 18 19 20 21 22 23 24 25
240 246 252 258 264 270 276 282 288
259 266 273 280 287 294 300 307 314
595 612 629 646 663 680 697 714 731
19
19 20 21 22 23 24 25
303 309 316 323 330 337 344
325 333 341 349 357 364 372
741 760 779 798 817 836 855
21
21 22 23 24 25
373 381 388 396 404
399 408 417 425 434
903 924 945 966 987
23
23 24 25
451 459 468
481 491 500
1081 1104 1127
24
24
492
525
1176
150
7
9 200 206 212 218 224 230 236 242 248 254 260
10 465 480 495 510 525 540 555 570 585 600 615
Мартьянова А.Е. Математические методы моделирования в геологии
24 25
427 435
457 467
1034 1056
25
151
25 25
501 536
535 570
1200 1275
Приложение IX. Критические значения критерия Ватсона-Вильямса при n1=n2 (а) и n2=2n1 (б)
Мартьянова А.Е. Математические методы моделирования в геологии
152
Приложение X. Значения F-критерия Фишера для 5%-ного уровня значимости f1 f2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 22 24 26 28 30 40 60 120 ∞
1 164,4 18,5 10,1 7,7 6,6 6,0 5,6 5,3 5,1 2,0 4,8 4,8 4,7 4,6 4,5 4,5 4,5 4,4 4,4 4,4 4,4 4,3 4,2 4,2 4,2 4,1 4,0 3,9 3,8
2 199,5 19,2 9,6 6,9 5,8 5,1 4,7 4,5 4,3 4,1 4,0 3,9 3,8 3,7 3,7 3,6 3,6 3,6 3,5 3,5 3,4 3,4 3,4 3,3 3,3 3,2 3,2 3,1 3,0
3 215,7 19,3 9,3 6,6 5,4 4,8 4,4 4,1 3,9 3,7 3,6 3,5 3,4 3,3 3,3 3,2 3,2 3,2 3,1 3,1 3,0 3,0 3,0 3,0 2,9 2,9 2,8 2,7 2,6
4 224,6 19,3 9,1 6,4 5,2 4,5 4,1 3,8 3,6 3,5 3,4 3,3 3,2 3,1 3,1 3,0 3,0 2,9 2,9 2,9 2,8 2,8 2,7 2,7 2,7 2,6 2,5 2,5 2,4
5 230,2 19,3 9,0 6,3 5,1 4,4 4,0 3,7 3,5 3,3 3,2 3,1 3,0 3,0 2,9 2,9 2,8 2,8 2,7 2,7 2,7 2,6 2,6 2,6 2,5 2,5 2,4 2,3 2,2
6 234,0 19,3 8,9 6,2 5,0 4,3 3,9 3,6 3,4 3,2 3,1 3,0 2,9 2,9 2,8 2,7 2,7 2,7 2,6 2,6 2,6 2,5 2,5 2,4 2,4 2,3 2,3 2,2 2,1
12
24
∞
244,9 19,4 8,7 5,9 4,7 4,0 3,6 3,3 3,1 2,9 2,8 2,7 2,6 2,5 2,5 2,4 2,4 2,3 2,3 2,3 2,2 2,2 2,2 2,1 2,1 2,0 1,9 1,8 1,8
249,0 19,5 8,6 5,8 4,5 3,8 3,4 3,1 2,9 2,7 2,6 2,5 2,4 2,3 2,3 2,2 2,2 2,1 2,1 2,1 2,0 2,0 2,0 1,9 1,9 1,8 1,7 1,6 1,5
254,3 19,5 8,5 5,6 4,4 3,7 3,2 2,9 2,7 2,5 2,4 2,3 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,8 1,8 1,7 1,7 1,7 1,6 1,5 1,4 1,3 1,0
Примечание
f1 = n1 – 1 – число степеней свободы для большей дисперсии; f2 = n2 – 1 – число степеней свободы для меньшей дисперсии.
152
Мартьянова А.Е. Математические методы моделирования в геологии
153
Приложение XI. Критические значения критерия Краскала-Уоллиса
N1
N2
N3
2 3 3 3 4 4 4 4 4 4 4 5
2 2 3 3 2 3 3 4 4 4 4 2
2 2 2 3 2 2 3 1 2 3 4 2
Уровень значимости α= α= 0,10 0,05 4,57 – 4,50 4,71 4,55 5,36 4,62 5,60 4,37 5,33 4,51 5,44 4,70 5,72 4,16 4,96 4,55 5,45 4,54 5,59 4,65 5,69 4,37 5,16
α= 0,01 – – – 7,20 – 6,44 6,74 6,66 7,03 7,14 7,65 6,53
N1
N2
N3
5 5 5 5 5 5 5 5 5 5 5 5
3 3 3 4 4 4 4 5 5 5 5 5
1 2 3 1 2 3 4 1 2 3 4 5
Уровень значимости α= α= 0,10 0,05 4,01 4,96 4,65 5,25 4,53 5,34 3,98 4,98 4,54 5,27 4,54 5,63 4,61 5,61 4,10 5,12 4,50 5,33 4,54 5,70 4,52 5,66 4,56 5,78
α= 0,01 – 6,82 6,98 6,95 7,11 7,44 7,76 7,30 7,33 7,57 7,82 7,98
Мартьянова А.Е. Математические методы моделирования в геологии
154
Приложение XII. Критические значения критерия Фридмана
Q 3 3 3 3 3 3 3 4 4 4
Уровень значимости
P 3 4 5 6 7 8 9 2 3 4
α = 0,05
α = 0,02
α = 0,01
α = 0,005
6,000 6,500 6,400 7,000 7,143 6,250 6,222 6,000 7,400 7,800
– 8,000 6,400 8,333 8,000 7,750 8,000 – 8,200 8,400
– 8,000 8,400 9,000 8,857 9,000 8,667 – 9,000 9,600
– 8,000 10,000 10,333 10,286 9,750 10,667 – 9,000 10,200
154
Мартьянова А.Е. Математические методы моделирования в геологии
155
Приложение XIII. Англо-русский словарь терминов пакета STATISTICA и статистических терминов Термин
Перевод 1
Accept Action Add Cases Add Variables Adjust Advisor Alert Always ANOVA, analysis of variance Appearance Apply Area Under Curve Assigned Cases Assignment Assign Rank 1 to Associate Attempt Automatic update on Exit Auxiliary Background Bands Banner Banners Bar Baseline Errors Basic Batch Baund rate Beyond Bias Biases Bivariate Distribution Blank Bookmark Boot Border Branch Breakdown Browse Brushing
2 Принять Действие Добавить наблюдения Добавить переменные Корректировка Советник Сообщать всегда Однофакторный дисперсионный анализ Представление Применить Площадь под кривой Связанные наблюдения Назначение, задание, новые данные Установить значение ранга 1 для Связать Попытка Автоматически обновлять при выходе Дополнительно Фон Полосы Заголовок Флажки Линейка Исходные ошибки Основной Пакетный Скорость передачи (бит в секунду) За, вне, свыше Смещение Склонность, предубеждение Двумерное распределение Пустой Закладка Запуск системы Рамка Ветвь Разбиение Просмотр Окраска
156
Buttons Canonical Analyses Canonical Reduction Case Name 1 Case Selection Conditions Cauchy distribution Centering (of the data) Character Chat Check Chi- Squared Distribution Clicking Clipboard Clip Book-Viewer Coefficient of multiple determination Collapse Collapse Branch Comparison Compatibility Complexity Condition Expectation Confidence interval Confidence Limit Connect Content Contiguous Continuity Correction Continuous Distribution Control Box Convert Correlation Analysis Correlation Coefficient Correlation Matrix Covariance Create Data Set Critical Value Cumulative Probability Cumulative Probability Distribution Currency Current Current Spec...
Мартьянова А.Е. Математические методы моделирования в геологии
Кнопки Канонический анализ Каноническое преобразование Имена случаев (наблюдений) 2 Условия выбора случаев (наблюдений) Распределение Коши Центрирование (данных) Литера (опция, в которой выбираются гарнитура, начертание и размер (кегль) шрифта) Электронный телефон Контроль Распределение хи-квадрат Нажатие на кнопку мыши Буфер промежуточного хранения Программа просматривает содержимое буфера Clipboard, сохраняет его или удаляет Множественный коэффициент детерминации: квадрат коэффициента множественной корреляции Свернуть Свернуть ветвь Сравнение Совместимость Сложность Условное матем. ожидание Доверительный интервал Доверительный предел Присоединять Содержание Смежный Поправка на непрерывность Непрерывное распределение Кнопка управления Преобразовывать Корреляционный анализ Коэффициент корреляции Матрица (коэффициентов) корреляции, корреляционная матрица Ковариация Создать набор данных Критическое значение Интегральная (накопленная) вероятность Кумулятивное (накопленное) распределение вероятностей Денежный формат (данных) Текущий Текущая спецификация 156
Мартьянова А.Е. Математические методы моделирования в геологии
Custom Colors Custom Graphs Cut Data Management 1 Data Matrix Data Set Datasheet Data Set Editor Data Set Shuffle Data Values Decimals Default Define Definition Degrees of freedom (d.f.) Delete Cases Delimiter Density Function Dependent variable Discrepancy Discrete distribution Descriptive Statistics Detail Shown Detrended Data Deviation Dial Deletion Destination Variables Direct Discard Distribution of Error Division Division of Cases Double Precision Arithmetic Download Draft Dragging Drop-down Durbin–Watson test Edit Case Names Eigenvalues Embedding Enlarge Set Enough Ensure Envelopes Error
157
Пользовательские цвета Пользовательский график Урезание Управление данными 2 Матрица данных Таблица данных Редактор данных Переметать данные Значение данных, данные Десятичные знаки По умолчанию Определять Определение Степени свободы; число степеней свободы Удалить случаи (наблюдения) Разделитель Функция плотности распределения вероятностей Зависимая переменная; отклик Расхождение (разность) Дискретное распределение Описательные статистики Степень подробности Данные с исключенным трендом Отклонение Способ Вычеркивание; стирание; удаление; исключение; ликвидация; уничтожение Создаваемые переменные Прямой Отвергнуть Распределение ошибок Деление Разбиение наблюдений Вычисления с удвоенной точностью Загрузить Чертеж Протягивание (мыши) «Выпадающий» Критерии Дарбина–Уотсона Редактировать имена наблюдений Собственные значения Встраивание (объектов) Увеличить набор Достаточно Гарантировать Конверты Ошибка
Мартьянова А.Е. Математические методы моделирования в геологии
158
Error Function Error Mean Estimate 1 Estimation Except Exclude if... Expect Expectation Expected value Exponential distribution Extreme Value Facile Feature Selection Field Fill Block Fill Random Values
Fit the Model Flash Flow Control Fonts Forward Selection Procedure Fractional Frequency Frequency Function General Glossary Graduation Grate Handshake Header Hidden Hidden Units Highlight Counts Hypothesis Hypothesis Testing Icon Imaginary Inactive Include if Incorrelated Independent Samples Independent Variable Index
Функция ошибки Среднее ошибки Оценка, оценивать; приблизительно подсчитывать 2 Оценивание (подсчет, вычисление) Исключать Удалить, если... Ждать; предполагаемый Математическое ожидание Математическое ожидание, среднее значение Экспоненциальное распределение Экстремальное значение Легкий Отбор признаков Поле Заполнить блок Заполнить значения переменных случайными величинами – числами, имеющими равномерное распределение от 0 до 1 Подбор модели, подгонка модели Мерить Протокол Шрифт Метод включения (в регрессионном анализе) Дробный (ранг от 0 до 1) Частота Функция частот Общие Специальный толковый словарь Сглаживание, нанесение кривой по точкам Решетка Подтверждение Заголовок Скрытый Скрытые элементы Выделить числа Гипотеза Проверка гипотезы Пиктограмма Мнимая часть Неактивный Включить, если Некоррелированный Независимые выборки Независимая переменная, фактор Оглавление 158
Мартьянова А.Е. Математические методы моделирования в геологии
Input Data Matrix Inputs Datasheet Input Variable Insertion 1 Insert Object Insufficient Integer Interaction Intercept Interrupted Inverse of Matrix Involve Item Iterations Jittering Joining Kurtosis Kurtosis of Frequency Lag-1 Serial Correlation Latent Variable Layout Least Least Squares Method Least Squares Method Equation Least Squares Method Estimate Level of Factor Linear Regression (Model) Relationship Trend Links Lock Logistic Logistic Regression Log-normal Variable Loss Coefficient Loss Matrix Lower-Tailer Manuel Margin Match Case Max/SD Maximum Likelihood Mean Square Mean Square Error
159
Матрица исходных данных Таблица входных значений Входная переменная Выделение 2 Вставка объекта Недостаточный, неподходящий Целый Взаимодействие Свободный член (в уравнении регрессии) Прерванный Обращение матрицы Включить, вовлекать Элемент данных Число итераций Разгонка (точек) Соединение Эксцесс Эксцесс кривой плотности распределения Сериальная корреляция с единичным сдвигом Латентная (скрытая) переменная Расположение, разметка Наименьший Метод наименьших квадратов МНК уравнение МНК оценка Уровень фактора Линейная регрессия (модель) Линейная зависимость Тренд (временного ряда) Связи Защитить, блокировать Логистический Логистическая регрессия (Случайная) величина, распределенная по логарифмически нормальному закону Коэффициент потерь Матрица потерь Односторонний критерий для нижнего «хвоста» распределения Руководство, инструкция Край, граница, поле (печатной страницы) Учет регистра Максимальное/(стандартное отклонение) Максимальное правдоподобие Средний квадрат Средний квадрат ошибки
160
Мартьянова А.Е. Математические методы моделирования в геологии
Mean Square About Regression
Средний квадрат отклонений относительно регрессии квадрат, обусловленный Mean Square About Regression Due to Lack of Средний неадекватностью Fit 1 2 Mean Square About Regression Due to Средний квадрат обусловленный регрессией Regression Mean Square About Regression Due to Остаточный средний квадрат (средний Residual Variation квадрат, обусловленный остаточной вариацией) Mean Square About Regression For Pure Error Средний квадрат, характеризующий «чистую» ошибку Mean/SD Среднее/стандартное отклонение) Means Среднее Measure Мера Median Медиана Medium Средняя (длительность поиска) Merge Объединить Message Сообщение, поручение Method for Discriminating Метод дискриминации (моделей) Method for Discriminating of Least Squares Метод наименьших квадратов (МНК) Min Proportion Минимальная доля Mini max Минимаксное Missing Observations Пропущенные наблюдения Model Validation Technique Метод обоснования модели Modes Режимы Missing Data Пропущенные значения Momentum Инерция Mouse Pointer Курсор мыши Multiple Regression Calculation Correlation Множественный коэффициент корреляции Coefficient Multiple Regression Множественная регрессия Multiplicative Model Мультипликативная модель Multivariate Многомерный Move Cases Перемещение случаев (наблюдений) N-dimensional Multivariate Normal N-мерное нормальное распределение Distribution Negative Serial Correlation Between Successive Отрицательная сериальная корреляция Residuals между последовательными (соседними) остатками Neighborhood Окрестность Newton–Raphson Technique Метод Ньютона–Рафсона Nonlinear Нелинейный Nonlinear Estimation Нелинейное оценивание Nonlinear Growth Model Нелинейная модель роста Nonsingular Matrix Невырожденная матрица Normal Deviate Нормальное отклонение Normal Deviate Distribution Random Variable Нормально распределенная случайная 160
Мартьянова А.Е. Математические методы моделирования в геологии
Normal Deviate Equations Normal Deviate Plot of Residuals Normal Distribution Normalization 1 Observations One–sided Test One–Way One-way Classification Optimum Threshold Order of the Model Original Data Orthogonal Column Outlier Output Output Variable Outputs Datasheet Outputs Shown Overview Packager Padding Page Layout Partial Correlation Paste Special Percentage Percentage Point of the Distribution Performance Plot Power Precision Predict Predictability Predicted (mean) Value Predictive Discrepancy Sum of Squares Predictive Equation (model) Principal Components Analysis Principal Component Regression Prior probabilities Probability Calculator Probability Level Prompt Properties Prune Pure Error
161
величина Нормальные уравнения (МНК) График остатков Нормальное распределение Нормировка, стандартизация (данных) 2 Наблюдения Односторонний критерий Односторонний; однонаправленный Односторонняя классификация, классификация по одному признаку Оптимальный порог Порядок модели Исходные данные Ортогональные столбцы (матрицы) Выброс; резко выделяющееся значение Выходные данные; результат вычислений Выходная переменная Таблица выходных значений Показывать при выводе Общее представление (о каком-либо предмете); обзор Упаковщик (объектов) Добавление нулей (например, в ряд) Просмотр пакета Частная корреляция Специальная вставка Проценты (представление данных в процентах); относительная (ошибка) Процентная точка распределения Качество График; кривая; диаграмма Степень Точность Прогнозировать, предсказывать Предсказуемость Предсказанное (среднее) значение Сумма квадратов предсказанных расхождений Предсказывающее уравнение (модель) Анализ главных компонент Регрессия на главных компонентах Априорные вероятности Вероятностный калькулятор Уровень вероятности Подсказывать Свойство, собственность, характеристики Удалить «Чистая ошибка» (ошибка опыта)
Мартьянова А.Е. Математические методы моделирования в геологии
162
Pure Error Mean Square Pure Error Sum of Squares Raise 1 Random Random Arrangement of Signs Random Deviation Random Search Random Variation Range selection Ranks For Ties Rank Variables Rate Ratio Raw Real number fields Recalculate Variables Receive Recede Variables Redundance Redial Refresh Regression Regression Curve Regression Equation Regression Estimate Regression Mean Squares Regular Reject Reyleigh distribution Remove Repeatability Replace existing Representation Reset Residual Residual Mean Squares Residual Sum of Squares Resolution Response Restore Resume Retrieve Defaults Ribbon Ridge Regression Rounding Error Row vector
Средний квадрат, связанный с «чистой» ошибкой Сумма квадратов, связанная с «чистой» ошибкой (обусловленная «чистой» ошибкой) Увеличение 2 Случайный Случайное расположение знаков Случайное отклонение Случайный поиск Случайный разброс Выделение диапазона ячеек Ранги для совпадающих значений Присвоение рангов значениям переменной Цена, расценка Отношение Исходный Поля для вещественных чисел Пересчитать значения переменных Получать Перекодировать переменные ; Чрезмерность, избыточность Повторить Обновлять Регрессия, зависимость Регрессионная кривая Уравнение регрессии Регрессионная оценка Средний квадрат, обусловленный регрессией Регулярный (ранг от 0 до 1) Отвергнуть Релеевское распределение Удалить Воспроизводимость Заменить существующий Представление Восстановить Остаток Остаточный средний квадрат Остаточная сумма квадратов Разрешение – количество точек на дюйм Отклик Восстановить в прежнем размере Возобновить, продолжить Применить установки по умолчанию Линейка форматирования Гребневая регрессия, ридж-регрессия Ошибка округления Вектор-строка 162
Мартьянова А.Е. Математические методы моделирования в геологии
Ruler Run Run All Cases Running 1 Runs Test Sample Sample Coefficient Sample Estimate Sample Size Save Defaults Scalable Scaled Scatter Diagramm (SD) Scientific Scroll Bars S.D. (Standard Deviation) Ratio Selecting Send Set Sequential Set Cake Types Screen Catcher Serial Correlation of Residuals Settings Setup Shared Shift (Lag) Variables Shuffle Cases Significance Level Significance of Regression Significance Test Single Case Skewness of Distribution Skip Slope Smoothing Constant Sort Ascending Son Descending Source Source Variables Split Spread Square of Multiple Correlation Coefficient
163
Координатная линейка Запустить Прогнать все наблюдения Бегущий 2 Критерий знаков Выборка Выборочный коэффициент, оценка коэффициента Выборочная оценка Объем (размер) выборки Сохранить по умолчанию Масштабируемый Нормированный Диаграмма рассеяния Научная нотация (представление чисел в научной нотации, например, 5.0314 Е-02) Линейка просмотра Отношение стандартных отклонений Выбор Передать Множество; совокупность; семейство; ряд; последовательность Последовательное (приписывание рангов) Задать типы наблюдений Команда захвата экрана (Alt + F3) Сериальная корреляция остатков Установки Установка Разделяемая Сдвиг переменной Перемешать наблюдения Уровень значимости Значимость регрессии Критерий значимости Одно наблюдение Асимметрия распределения Пропустить Угловой коэффициент (наклон) (регрессии) Константа сглаживания Сортировать но возрастанию Сортировать по убыванию Подача (бумаги), источник Исходные переменные Разделение Распахнуть; разброс, вариация Квадрат множественного коэффициента корреляции (множественный коэффициент детерминации)
164
Stagewise Standard Deviation (SD) Standardize Columns 1 Startup Panel Statistically Valid Stats Graphs Status Bar Stepwise Stepwise Regression Procedure Stopping Conditions Subset Sum of Squares (SS) Swap file Sweep Switch to T-distribution T-test Target Error Template Test Test of Hypothesis Test of Significance Test Statistic for Ho Text Transfer Text Value Labels Tile Time Sequence Time Series Title Bar Tolerance Toolbar Total Transformation Transformation on the Observations Transpose Block Transpose Data File Transpose of Matrix Trial True Model Truncate Turn-key Two-State Conversion Two-tailed (-side) Test
Мартьянова А.Е. Математические методы моделирования в геологии
Ступенчатый Стандартное отклонение (среднее квадратическое отклонение) Команда стандартизации столбцов 2 Стартовая панель модуля Статистически обоснованный Статистические графики Строка состояния Шаговый Шаговый регрессионный метод Условия остановки Подмножество Сумма квадратов Файл подкачки Размах, кругозор Переход к другой программе T –распределение T –критерий Целевая ошибка Шаблон Критерии, тест, проверка Проверка гипотезы Проверка значимости Статистика для проверки гипотезы Но Режим подачи текста Метки текстовых значений Элемент мозаичного изображения Временная последовательность Временной ряд Линейка заголовка Допустимое отклонение Панель (инструментов) Всего; общий Преобразование Преобразование наблюдений Команда для транспонирования выделенного блока (контекстное меню при нажатии правой кнопки мыши) Команда для транспонирования файла данных (переменные становятся случаями, а случаи – переменными) Транспонирование матрицы Испытание, проба «Истинная» модель Урезать Под ключ Преобразование в два значения Двусторонний критерий 164
Мартьянова А.Е. Математические методы моделирования в геологии
Two-way Table Unadjusted Unexplained Variation 1 Undo Uniform Distribution Unit Number Unknown Unknown Parameters Unlisted Unlock Untitled Update Updated Upper–tailed Test Valid Validation Validation Technique Value Label Variable (dependent) Variable (independent) Variance about the Regression Variance about Covariance Matrix Variation Vector of Error Vector of Observation Vector of Parameters to be Estimated Verbose Variable Definition Verify View Weibull distribution Weighted Least Squares Win Frequencies Datasheet Workbook Wrap
165
Таблица сопряженности, таблица с двумя входами Нескорректированный, без поправок Необъясненная вариация 2 Отмена Равномерное распределение Номер элемента Неизвестно Неизвестные параметры Неизвестный Разблокировать Неопределенный, неизвестный Актуализация (выбор режима) Модернизированный, усовершенствованный Односторонний критерий для верхнего «хвоста»распределения Действительный Обоснованность Метод перепроверки (проверки) состоятельности Значение меток Отклик, зависимая переменная Фактор, независимая переменная Дисперсия относительно регрессии Матрица дисперсий-ковариаций Вариация, разброс Вектор ошибок (остатков) Вектор наблюдений Вектор оцениваемых параметров Подробно Определение переменной Проверка Вид Распределение Вейбулла Взвешенный метод наименьших квадратов Таблица частот выигрышей Рабочая тетрадь, рабочий журнал Верстка, оболочка
Мартьянова А.Е. Математические методы моделирования в геологии
166
Приложение XIV. Краткий справочник по функциям Excel
ABS (ABS) Возвращает модуль (абсолютную величину) числа. Абсолютная величина числа - это число без знака. Синтаксис: ABS(число) Число – это действительное число, модуль которого требуется найти. FРАСПОБР (FINV) Возвращает обратное значение для F-распределения вероятностей. Если p = FРАСП(x;...), то FРАСПОБР(p;...) = x. Синтаксис: FРАСПОБР(вероятность;степени_свободы1;степени_свободы2) •
Вероятность – это вероятность, связанная с F-распределением.
•
Степени_свободы1 – это числитель степеней свободы.
•
Степени_свободы2 – это знаменатель степеней свободы.
ВПР (VLOOKUP) Ищет значение в крайнем левом столбце таблицы и возвращает значение в той же строке из указанного столбца таблицы. Функция ВПР используется вместо функции ГПР, когда сравниваемые значения расположены в столбце слева от искомых данных. Буква «В» в имени функции ВПР означает «вертикальный». Синтаксис: ВПР(искомое_значение;таблица;номер_столбца;интервальный_просмотр) •
Искомое_значение – это значение, которое должно быть найдено в первом столбце массива. Искомое_значение может быть значением, ссылкой или текстовой строкой.
•
Таблица – таблица с информацией, в которой ищутся данные. Можно использовать ссылку на интервал или имя интервала, например БазаДанных или Список.
166
Мартьянова А.Е. Математические методы моделирования в геологии
•
167
Номер_столбца – это номер столбца в массиве «таблица», в котором должно быть найдено соответствующее значение. Если «номер_столбца» равен 1, то возвращается значение из первого столбца аргумента «таблица»; если «номер_столбца» равен 2, то возвращается значение из второго столбца аргумента «таблица» и так далее. Если «номер_столбца» меньше 1, то функция ВПР возвращает значение ошибки #ЗНАЧ!; если «номер_столбца» больше, чем количество столбцов в аргументе «таблица», то функция ВПР возвращает значение ошибки #ССЫЛ!.
•
Интервальный_просмотр – это логическое значение, которое определяет, нужно ли, чтобы ВПР искала точное или приближенное соответствие. Если этот аргумент имеет значение ИСТИНА или опущен, то возвращается приблизительно соответствующее значение; другими словами, если точное соответствие не найдено, то возвращается наибольшее значение, которое меньше, чем искомое_значение. Если этот аргумент имеет значение ЛОЖЬ, то функция ВПР ищет точное соответствие. Если таковое не найдено, то возвращается значение ошибки #Н/Д.
ГРАДУСЫ (DEGREES) Преобразует радианы в градусы. Синтаксис: ГРАДУСЫ(угол) Угол – это угол в радианах, преобразуемый в градусы. ГПР (HLOOKUP) Ищет значение в верхней строке таблицы или массива значений и возвращает значение в том же столбце из заданной строки таблицы или массива. Функция ГПР используется, когда сравниваемые значения расположены в верхней строке таблицы данных, а возвращаемые значения расположены на несколько срок ниже. Если сравниваемые значения расположены в столбце слева от искомых данных, то следует использовать функцию ВПР. Буква Г в ГПР означает «горизонтальный». Синтаксис: ГПР(искомое_значение;таблица;номер_строки;интервальный_просмотр) •
Искомое_значение – это значение, которое требуется найти в первой строке таблицы. Искомое_значение может быть значением, ссылкой или текстовой строкой.
Мартьянова А.Е. Математические методы моделирования в геологии
168
•
Таблица – это таблица с информацией, в которой ищутся данные. Можно использовать ссылку на интервал или имя интервала.
•
Номер_строки – это номер строки в массиве «таблица», из которой будет возвращено сопоставляемое значение. Если «номер_строки» равен 1, то возвращается значение из первой строки аргумента «таблица», если «номер_строки» равен 2, то возвращается значение из второй строки аргумента «таблица», и так далее. Если «номер_строки» меньше 1, то функция ГПР возвращает значение
ошибки #ЗНАЧ!; если
«номер_строки» больше, чем количество строк в аргументе «таблица», то функция ГПР возвращает значение ошибки #ССЫЛ!. •
Интервальный_просмотр – это логическое значение, которое определяет, нужно ли, чтобы функция ГПР искала точное или приближенное соответствие. Если этот аргумент имеет значение ИСТИНА или опущен, то возвращается приблизительно соответствующее значение; другими словами, если точное соответствие не найдено, то возвращается наибольшее значение, которое меньше, чем искомое_значение. Если этот аргумент имеет значение ЛОЖЬ, то функция ГПР ищет точное соответствие. Если таковое не найдено, то возвращается значение ошибки #Н/Д.
ДИСП (VAR) Оценивает дисперсию по выборке. Синтаксис: ДИСП(число1;число2; ...) Число1, число2, ... – это от 1 до 30 числовых аргументов, соответствующих выборке из генеральной совокупности. ДИСПА (VARA) Оценивает дисперсию по выборке. В расчете помимо численных значений учитываются также текстовые и логические значения, такие как ИСТИНА или ЛОЖЬ. Синтаксис: ДИСПА(значение1;значение2;...) Значение1, значение2, ... – это от 1 до 30 числовых аргументов, соответствующих выборке из генеральной совокупности. ДИСПР (VARP) Вычисляет дисперсию для генеральной совокупности. 168
Мартьянова А.Е. Математические методы моделирования в геологии
169
Синтаксис: ДИСПР(число1;число2; ...) Число1, число2, ... – это от 1 до 30 числовых аргументов, соответствующих генеральной совокупности. ДИСПРА (VARPА) Вычисляет дисперсию для генеральной совокупности. В расчете помимо численных значений учитываются также текстовые и логические значения, такие как ИСТИНА или ЛОЖЬ. Синтаксис: ДИСПРА(значение1;значение2;...) Значение1,значение2,... – это от 1 до 30 числовых аргументов, соответствующих генеральной совокупности. ДОВЕРИТ (CONFIDENCE) Возвращает
доверительный
интервал
для
среднего
генеральной
совокупности.
Доверительный интервал – это интервал с обеих сторон от среднего выборки. Синтаксис: ДОВЕРИТ(альфа;станд_откл;размер) •
Альфа – это уровень значимости используемый для вычисления уровня надежности. Уровень надежности равняется 100*(1 - альфа) процентам, или, другими словами, альфа равное 0,05 означает 95-процентный уровень надежности.
•
Станд_откл – это стандартное отклонение генеральной совокупности для интервала данных, предполагается известным.
•
Размер – это размер выборки.
ЕСЛИ (IF) Возвращает одно значение, если заданное условие при вычислении дает значение ИСТИНА, и другое значение, если ЛОЖЬ. Функция ЕСЛИ используется при проверке условий для значений и формул. Синтаксис: ЕСЛИ(лог_выражение;значение_если_истина;значение_если_ложь)
Мартьянова А.Е. Математические методы моделирования в геологии
170
•
Лог_выражение – это любое значение или выражение, принимающее значения ИСТИНА или ЛОЖЬ.
•
Значение_если_истина – это значение, которое возвращается, если лог_выражение равно ИСТИНА.
•
Значение_если_ложь – это значение, которое возвращается, если лог_выражение равно ЛОЖЬ.
КОВАР (COVAR) Возвращает ковариацию, то есть среднее произведений отклонений для каждой пары точек данных. Ковариация используется для определения связи между двумя множествами данных. Например, можно проверить, соответствует ли более высокому уровню доходов более высокий уровень образования. Синтаксис: КОВАР(массив1; массив2) •
Массив1 – это первый массив или интервал данных.
•
Массив2 – это второй массив или интервал данных.
КОРРЕЛ (CORREL) Возвращает коэффициент корреляции меду интервалами ячеек массив1 и массив2. Коэффициент корреляции используется для определения наличия взаимосвязи между двумя свойствами. Синтаксис: КОРРЕЛ(массив1;массив2) •
Массив1 – это ячейка интервала значений.
•
Массив2 – это второй интервал ячеек со значениями.
КОРЕНЬ (SQRT) Возвращает положительное значение квадратного корня. Синтаксис: КОРЕНЬ(число) Число – число, для которого вычисляется квадратный корень. ЛИНЕЙН (LINEST)
170
Мартьянова А.Е. Математические методы моделирования в геологии
171
Рассчитывает статистику для ряда с применением метода наименьших квадратов, чтобы вычислить прямую линию, которая наилучшим образом аппроксимирует имеющиеся данные. Функция возвращает массив, который описывает полученную прямую. Поскольку возвращается массив значений, функция должна задаваться в виде формулы массива. Уравнение для прямой линии имеет следующий вид: y = mx + b или y = m1x1 + m2x2 + ... + b (в случае нескольких диапазонов значений x), где зависимое значение y – функция независимого значения x, значения m – коэффициенты, соответствующие каждой независимой переменной x, а b – постоянная. y, x и m могут быть векторами. Функция ЛИНЕЙН возвращает массив {mn;mn-1;...;m1;b}. ЛИНЕЙН может также возвращать дополнительную регрессионную статистику. Синтаксис: ЛИНЕЙН(известные_значения_y;известные_значения_x;конст;статистика) •
Известные_значения_y – множество значений y, которые уже известны для соотношения y = mx + b.
Если массив известные_значения_y имеет один столбец, то каждый столбец массива известные_значения_x интерпретируется как отдельная переменная. Если массив известные_значения_y имеет одну строку, то каждая строка массива известные_значения_x интерпретируется как отдельная переменная. •
Известные_значения_x – необязательное множество значений x, которые уже известны для соотношения y = mx + b.
Массив известные_значения_x может содержать одно или несколько множеств переменных. Если
используется
только
одна
переменная,
то
известные_значения_y
и
известные_значения_x могут иметь любую форму, при условии, что они имеют одинаковую размерность. Если используется более одной переменной, то известные_значения_y должны быть вектором (то есть интервалом высотой в одну строку или шириной в один столбец). Если известные_значения_x опущены, то предполагается, что это массив {1;2;3;...} такого же размера, как и известные_значения_y. •
Конст – логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0.
Если конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом. Если аргумент конст имеет значение ЛОЖЬ, то b полагается равным 0 и значения m подбираются так, чтобы выполнялось соотношение y = mx.
Мартьянова А.Е. Математические методы моделирования в геологии
172
•
Статистика – логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии.
Если аргумент статистика имеет значение ИСТИНА, то функция ЛИНЕЙН возвращает дополнительную регрессионную статистику, так что возвращаемый массив будет иметь вид: {mn;mn-1;...;m1;b:sen;sen-1;...;se1;seb:r2;sey:F;df:ssreg;ssresid}. Если аргумент статистика имеет значение ЛОЖЬ или опущен, то функция ЛИНЕЙН возвращает только коэффициенты m и постоянную b. Дополнительная регрессионная статистика: Величина
Описание
se1,se2,...,sen
Стандартные значения ошибок для коэффициентов m1,m2,...,mn.
seb
Стандартное значение ошибки для постоянной b (seb = #Н/Д, если конст имеет значение ЛОЖЬ).
r2
Коэффициент детерминированности. Сравниваются фактические значения y и значения, получаемые из уравнения прямой; по результатам сравнения вычисляется коэффициент детерминированности, нормированный от 0 до 1. Если он равен 1, то имеет место полная корреляция с моделью, т. е. нет различия между фактическим и оценочным значениями y. В противоположном случае, если коэффициент детерминированности равен 0, то уравнение регрессии неудачно для предсказания значений y. Для получения информации о том, как вычисляется r2, см. «Заметки» в конце данного раздела.
sey
Стандартная ошибка для оценки y.
F
F-статистика, или F-наблюдаемое значение. F-статистика используется для определения того, является ли наблюдаемая взаимосвязь между зависимой и независимой переменными случайной или нет.
df
Степени свободы. Степени свободы полезны для нахождения Fкритических значений в статистической таблице. Для определения уровня надежности модели нужно сравнить значения в таблице с F-статистикой, возвращаемой функцией ЛИНЕЙН.
ssreg
Регрессионная сумма квадратов.
ssresid
Остаточная сумма квадратов.
ЛГРФПРИБЛ (LOGEST) В регрессионном анализе вычисляется экспоненциальная кривая, аппроксимирующая данные и возвращается массив значений, описывающий эту кривую. Поскольку данная функция возвращает массив значений, она должна вводиться как формула массива. Уравнение кривой имеет вид y = b*m^x или 172
Мартьянова А.Е. Математические методы моделирования в геологии
173
y = (b*(m1^x1)*(m2^x2)*_) (в случае нескольких значений x), где зависимые значения y являются функцией независимых значений x. Значения m являются основанием, возводимым в степень x, а значения b постоянны. y, x и m могут быть векторами. Функция ЛГРФПРИБЛ возвращает массив {mn;mn-1;...;m1;b}. Синтаксис: ЛГРФПРИБЛ(известные_значения_y;известные_значения_x;конст;статистика) •
Известные_значения_y – множество значений y, которые уже известны в соотношении y = b*m^x.
Если массив известные_значения_y имеет один столбец, то каждый столбец массива известные_значения_x интерпретируется как отдельная переменная. Если массив известные_значения_y имеет одну строку, то каждая строка массива известные_значения_x интерпретируется как отдельная переменная. •
Известные_значения_x – необязательное множество значений x, которые уже известны для соотношения y = b*m^x.
Массив известные_значения_x может включать одно или более множеств переменных. Если используется только одна переменная, то известные_значения_y и известные_значения_x могут быть диапазонами любой формы, если только они имеют одинаковые размерности. Если используется более одной переменной, то аргумент известные_значения_y должен быть диапазоном ячеек высотой в одну строку или шириной в один столбец (так называемым вектором). Если известные_значения_x опущены, то предполагается, что это массив {1;2;3;...} такого же размера, как и известные_значения_y. •
Конст – логическое значение, которое указывает, требуется ли, чтобы константа b была равна 1.
Если конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом. Если конст имеет значение ЛОЖЬ, то b полагается равным 1 и значения m подбираются так, чтобы удовлетворить соотношению y = m^x. •
Статистика – логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии.
Если статистика имеет значение ИСТИНА, то функция ЛГРФПРИБЛ возвращает дополнительную
статистику
по
регрессии,
то
1;...;m1;b:sen;sen-1;...;se1;seb:r 2;sey;F;df:ssreg;ssresid}.
есть
возвращает
массив
{mn;mn-
174
Мартьянова А.Е. Математические методы моделирования в геологии
Если статистика имеет значение ЛОЖЬ или опущено, то функция ЛГРФПРИБЛ возвращает только коэффициенты m и константу b. Для получения более подробной информации о дополнительной статистике по регрессии, см. справку по функции ЛИНЕЙН. МАКС (MAX) Возвращает наибольшее значение из набора значений. Синтаксис: МАКС(число1;число2; ...) Число1, число2, ... – от 1 до 30 чисел, среди которых требуется найти наибольшее. МАКСА (MAXA) Возвращает наибольшее значение в списке аргументов. Наряду с числовыми значениями выполняется также сравнение текстовых и логических (таких как ИСТИНА и ЛОЖЬ) значений. Функция МАКСА родственна функции МИНА. Синтаксис: МАКСА(значение1;значение2;...) Значение1, значение2,... – от 1 до 30 значений, среди которых требуется найти наибольшее. МЕДИАНА (MEDIAN) Возвращает медиану заданных чисел. Медиана – это число, которое является серединой множества чисел, то есть половина чисел имеют значения большие, чем медиана, а половина чисел имеют значения меньшие, чем медиана. Синтаксис: МЕДИАНА(число1;число2;...) Число1, число2, ... – от 1 до 30 чисел, для которых определяется медиана. МИН (MIN) Возвращает наименьшее значение в списке аргументов. Синтаксис: МИН(число1;число2; ...) Число1, число2, ... – от 1 до 30 чисел, среди которых требуется найти наименьшее.
174
Мартьянова А.Е. Математические методы моделирования в геологии
175
МИНА (MINA) Возвращает наименьшее значение в списке аргументов. Наряду с числовыми значениями выполняется также сравнение текстовых и логических, таких как ИСТИНА и ЛОЖЬ, значений. Синтаксис: МИНА (значение1;значение2;...) Значение1, значение2,... – от 1 до 30 значений, среди которых требуется найти наименьшее. МОБР (MINVERSE) Возвращает обратную матрицу для матрицы, хранящейся в массиве. Синтаксис: МОБР(массив) Массив – числовой массив с равным количеством строк и столбцов. МОДА (MODE) Возвращает наиболее часто встречающееся или повторяющееся значение в массиве или интервале данных. Как и функция МЕДИАНА, функция МОДА является мерой взаимного расположения значений. Синтаксис: МОДА(число1;число2; ...) Число1, число2, ... – от 1 до 30 аргументов, для которых вычисляется мода. Можно использовать один массив или одну ссылку на массив вместо аргументов, разделяемых точкой с запятой. МОПРЕД (MDETERM) Возвращает определитель матрицы (матрица хранится в массиве). Синтаксис: МОПРЕД(массив) Массив – числовой массив с равным количеством строк и столбцов. МУМНОЖ (MMULT) Возвращает произведение матриц (матрицы хранятся в массивах). Результатом является массив с таким же числом строк, как массив1 и с таким же числом столбцов, как массив2. Синтаксис: МУМНОЖ(массив1;массив2)
Мартьянова А.Е. Математические методы моделирования в геологии
176
Массив1, массив2 – перемножаемые массивы. НАИБОЛЬШИЙ (LARGE) Возвращает k-ое по величине значение из множества данных. Эта функция позволяет выбрать значение по его относительному местоположению. Синтаксис: НАИБОЛЬШИЙ(массив;k) •
Массив – массив или интервал данных, для которых определяется k-ое наибольшее значение.
•
k – позиция (начиная с наибольшей) в массиве или интервале ячеек данных.
НАИМЕНЬШИЙ (SMALL) Возвращает k-ое наименьшее значение в множестве данных. Эта функция используется для определения значения, занимающего определенное относительное положение в множестве данных. Синтаксис: НАИМЕНЬШИЙ(массив;k) •
Массив – массив или диапазон числовых данных, для которого определяется k-ое наименьшее значение.
•
k – позиция (начиная с наименьшей) в массиве или интервале ячеек данных.
НАКЛОН (SLOPE) Возвращает наклон линии линейной регрессии для точек данных в аргументах известные_значения_y и известные_значения_x. Наклон определяется как частное от деления расстояния по вертикали на расстояние по горизонтали между двумя любыми точками прямой, то есть наклон – это скорость изменения значений вдоль прямой. Синтаксис: НАКЛОН(известные_значения_y;известные_значения_x) •
Известные_значения_y – массив или интервал ячеек, содержащих числовые зависимые точки данных.
•
Известные_значения_x – множество независимых точек данных.
НОРМРАСП (NORMDIST)
176
Мартьянова А.Е. Математические методы моделирования в геологии
177
Возвращает нормальную функцию распределения для указанного среднего и стандартного отклонения. Эта функция имеет очень широкий круг приложений в статистике, включая проверку гипотез. Синтаксис: НОРМРАСП(x;среднее;стандартное_откл;интегральная) •
x – значение, для которого строится распределение.
•
Среднее – среднее арифметическое распределения.
•
Стандартное_откл – стандартное отклонение распределения.
•
Интегральная – логическое значение, определяющее форму функции. Если интегральная имеет значение ИСТИНА, то функция НОРМРАСП возвращает интегральную функцию распределения; если это аргумент имеет значение ЛОЖЬ, то возвращается функция плотности распределения.
НОРМСТОБР (NORMSINV) Возвращает обратное значение стандартного нормального распределения. Это распределение имеет среднее равное нулю и стандартное отклонение равное единице. Синтаксис: НОРМСТОБР(вероятность) Вероятность – вероятность, соответствующая нормальному распределению. НОРМСТРАСП (NORMSDIST) Возвращает стандартное нормальное интегральное распределение. Это распределение имеет среднее, равное нулю, и стандартное отклонение, равное единице. Эта функция используется вместо таблицы для стандартной нормальной кривой. Синтаксис: НОРМСТРАСП(z) z – значение, для которого строится распределение. ОТРЕЗОК (INTERCEPT) Вычисляет точку пересечения линии с осью y, используя известные_значения_x и известные_значения_y. Точка пересечения находится на оптимальной линии регрессии, проведенной через известные_значения_x и известные_значения_y. Функция ОТРЕЗОК
Мартьянова А.Е. Математические методы моделирования в геологии
178
используется, когда нужно определить значение зависимой переменной при значении независимой переменной, равном 0 (нулю). Синтаксис: ОТРЕЗОК(известные_значения_x;известные_значения_y) •
Известные_значения_y – это зависимое множество наблюдений или данных.
•
Известные_значения_x – это независимое множество наблюдений или данных.
ПИ (PI) Возвращает число 3,14159265358979, математическую константу «пи» с точностью до 15 цифр. Синтаксис: ПИ( ) ПРЕДСКАЗ (FORECAST) Вычисляет
или
предсказывает
будущее
значение
по
существующим
значениям.
Предсказываемое значение – это y-значение, соответствующее заданному x-значению. Известные значения – это x- и y-значения, а новое значение предсказывается с использованием линейной регрессии. Эту функцию можно использовать для предсказания будущих продаж, потребностей в оборудовании или тенденций потребления. Синтаксис: ПРЕДСКАЗ(x;известные_значения_y;известные_значения_x) •
x – это точка данных, для которой предсказывается значение.
•
Известные_значения_y – это зависимый массив или интервал данных.
•
Известные_значения_x – это независимый массив или интервал данных.
ПУАССОН (POISSON) Возвращает распределение Пуассона. Обычное применение распределения Пуассона состоит в предсказании количества событий, происходящих за определенное время. Синтаксис: ПУАССОН(x;среднее;интегральная) •
x – количество событий.
•
Среднее – ожидаемое численное значение.
178
Мартьянова А.Е. Математические методы моделирования в геологии
•
Интегральная
–
логическое
значение,
179
определяющее
форму
возвращаемого
распределения вероятностей. Если аргумент «интегральная» имеет значение ИСТИНА, то функция ПУАССОН возвращает интегральное распределение Пуассона, то есть вероятность того, что число случайных событий будет от 0 до x включительно. Если этот аргумент имеет значение ЛОЖЬ, то возвращается функция плотности распределения Пуассона, то есть вероятность того, что событий будет в точности x.
РАДИАНЫ (RADIANS) Преобразует градусы в радианы. Синтаксис: РАДИАНЫ(угол) Угол – величина угла в градусах, которую требуется преобразовать. РОСТ (GROWTH) Рассчитывает прогнозируемый экспоненциальный рост на основании имеющихся данных. Функция РОСТ возвращает значения y для последовательности новых значений x, задаваемых с помощью существующих x- и y-значений. Функция рабочего листа РОСТ может применяться также для для аппроксимации существующих x- и y-значений экспоненциальной кривой. Синтаксис: РОСТ(известные_значения_y;известные_значения_x;новые_значения_x;конст) •
Известные_значения_y – это множество значений y, которые уже известны в соотношении y = b*m^x.
Если массив известные_значения_y имеет один столбец, то каждый столбец массива известные_значения_x интерпретируется как отдельная переменная. Если массив известные_значения_y имеет одну строку, то каждая строка массива известные_значения_x интерпретируется как отдельная переменная. Если какие-либо числа в массиве известные_значения_y равны 0 или отрицательны, то функция РОСТ возвращает значение ошибки #ЧИСЛО!. •
Известные_значения_x – это необязательное множество значений x, которые уже известны для соотношения y = b*m^x.
Массив известные_значения_x может содержать одно или несколько множеств переменных. Если
используется
только
одна
переменная,
то
известные_значения_y
и
Мартьянова А.Е. Математические методы моделирования в геологии
180
известные_значения_x могут иметь любую форму, при условии, что они имеют одинаковую размерность. Если используется более одной переменной, то известные_значения_y должны быть вектором (то есть интервалом высотой в одну строку или шириной в один столбец). Если известные_значения_x опущены, то предполагается, что это массив {1;2;3;...} такого же размера, как и известные_значения_y. •
Новые_значения_x – это новые значения x, для которых РОСТ возвращает соответствующие значения y.
Новые_значения_x должны содержать столбец (или строку) для каждой независимой переменной, как и известные_значения_x. Таким образом, если известные_значения_y — это один столбец, то известные_значения_x и новые_значения_x должны иметь такое же количество
столбцов.
Если
известные_значения_y
—
это
одна
строка,
то
известные_значения_x и новые_значения_x должны иметь такое же количество строк. Если аргумент новые_значения_x опущен, то предполагается, что он совпадает с аргументом известные_значения_x. Если оба аргумента известные_значения_x и новые_значения_x опущены, то предполагается, что это массив {1;2;3;...} такого же размера, как и известные_значения_y. •
Конст – это логическое значение, которое указывает, требуется ли, чтобы константа b была равна 1.
Если конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом. Если конст имеет значение ЛОЖЬ, то b полагается равным 1, а значения m подбираются так, чтобы y = m^x. СКОС (SKEW) Возвращает
асимметрию
распределения.
Асимметрия
характеризует
степень
несимметричности распределения относительно его среднего. Положительная асимметрия указывает на отклонение распределения в сторону положительных значений. Отрицательная асимметрия указывает на отклонение распределения в сторону отрицательных значений. Синтаксис: СКОС(число1;число2; ...) Число1, число2, ... – от 1 до 30 аргументов, для которых вычисляется асимметрия. Можно использовать один массив или одну ссылку на массив вместо аргументов, разделяемых точкой с запятой. СРЗНАЧ (AVERAGE) 180
Мартьянова А.Е. Математические методы моделирования в геологии
181
Возвращает среднее (арифметическое) своих аргументов. Синтаксис: СРЗНАЧ(число1; число2; ...) Число1, число2, ... – это от 1 до 30 аргументов, для которых вычисляется среднее.
СРЗНАЧА (AVERAGEA) Вычисляет среднее арифметическое значений, заданных в списке аргументов. Помимо чисел в расчете могут участвовать текст и логические значения, такие как ИСТИНА и ЛОЖЬ. Синтаксис: СРЗНАЧА(значение1; значение2;...) Значение1, значение2,... – это от 1 до 30 ячеек, интервалов ячеек или значений, для которых вычисляется среднее. СРОТКЛ (AVEDEV) Возвращает среднее абсолютных значений отклонений точек данных от среднего. СРОТКЛ является мерой разброса множества данных. Синтаксис: СРОТКЛ(число1; число2; ...) Число1, число2, ... – это от 1 до 30 аргументов, для которых определяется среднее абсолютных отклонений. Можно использовать массив или ссылку на массив вместо аргументов, разделяемых точкой с запятой. СТАНДОТКЛОН (STDEV) Оценивает стандартное отклонение по выборке. Стандартное отклонение – это мера того, насколько широко разбросаны точки данных относительно их среднего. Синтаксис: СТАНДОТКЛОН(число1; число2; ...) Число1, число2, ... – от 1 до 30 числовых аргументов, соответствующих выборке из генеральной совокупности. Вместо аргументов, разделенных точкой с запятой, можно также использовать массив или ссылку на массив. СТАНДОТКЛОНА (STDEVA)
182
Мартьянова А.Е. Математические методы моделирования в геологии
Оценивает стандартное отклонение по выборке. Стандартное отклонение – это мера того, насколько широко разбросаны точки данных относительно их среднего. В расчете также учитываются текстовые и логические значения, такие как ИСТИНА или ЛОЖЬ. Синтаксис: СТАНДОТКЛОНА(значение1;значение2,...) Значение1, значение2, ... – от 1 до 30 значений, соответствующих выборке из генеральной совокупности. Вместо аргументов, разделяемых точкой с запятой, можно также использовать массив или ссылку на массив. СТАНДОТКЛОНП (STDEVP) Вычисляет стандартное отклонение по генеральной совокупности. Стандартное отклонение – это мера того, насколько широко разбросаны точки данных относительно их среднего. Синтаксис: СТАНДОТКЛОНП(число1; число2; ...) Число1, число2, ... – от 1 до 30 числовых аргументов, соответствующих генеральной совокупности. Вместо аргументов, разделяемых точкой с запятой, также можно использовать массив или ссылку на массив. Текст и логические значения, такие как ИСТИНА или ЛОЖЬ игнорируются. Если текст и логические значения игнорироваться не должны, следует использовать функцию рабочего листа СТАНДОТКЛОНА. СТАНДОТКЛОНПА (STDEVPA) Вычисляет стандартное отклонение по генеральной совокупности, заданной аргументами, которые могут включать текст и логические значения. Стандартное отклонение – это мера того, насколько широко разбросаны точки данных относительно их среднего. В расчете также учитываются текстовые и логические значения, такие как ИСТИНА или ЛОЖЬ. Синтаксис: СТАНДОТКЛОНПА(значение1;значение2;...) Значение1, значение2, ... – от 1 до 30 значений, соответствующих генеральной совокупности. Вместо аргументов, разделяемых точкой с запятой, можно также использовать массив или ссылку на массив. СТЬЮДРАСПОБР (TINV) 182
Мартьянова А.Е. Математические методы моделирования в геологии
183
Возвращает t-значение распределения Стьюдента как функцию вероятности и числа степеней свободы. Синтаксис: СТЬЮДРАСПОБР(вероятность;степени_свободы) •
Вероятность
–
вероятность,
соответствующая
двустороннему
распределению
Стьюдента. •
Степени_свободы – число степеней свободы, характеризующее распределение.
СУММ (SUM) Суммирует все числа в интервале ячеек. Синтаксис: СУММ(число1;число2; ...) Число1, число2, ... – от 1 до 30 аргументов, для которых требуется определить итог или сумму. СЧЕТ (COUNT) Подсчитывает количество чисел в списке аргументов. Функция СЧЁТ используется для получения количества числовых ячеек в интервалах или массивах ячеек. Синтаксис: СЧЁТ(значение1; значение2; ...) Значение1, значение2, ... – это от 1 до 30 аргументов, которые могут содержать или ссылаться на данные различных типов, но в подсчете участвуют только числа. СЧЕТЗ (COUNTA) Подсчитывает количество непустых значений в списке аргументов. Функция СЧЁТЗ используется для подсчета количества ячеек с данными в интервале или массиве. Синтаксис: СЧЁТЗ(значение1; значение2; ...) Значение1, значение2, ... – это от 1 до 30 аргументов, количество которых требуется сосчитать. В данном случае значением считается значение любого типа, включая пустую строку (""), но не включая пустые ячейки. Если аргументом является массив или ссылка, то пустые ячейки в массиве или ссылке игнорируются. ТЕНДЕНЦИЯ (TREND)
Мартьянова А.Е. Математические методы моделирования в геологии
184
Возвращает значения в соответствии с линейным трендом. Аппроксимирует прямой линией (по методу наименьших квадратов) массивы известные_значения_y и известные_значения_x. Возвращает значения y, в соответствии с этой прямой для заданного массива новые_значения_x. Синтаксис: ТЕНДЕНЦИЯ(известные_значения_y;известные_значения_x;новые_значения_x;конст) •
Известные_значения_y – множество значений y, которые уже известны для соотношения y = mx + b.
Если массив известные_значения_y имеет один столбец, то каждый столбец массива известные_значения_x интерпретируется как отдельная переменная. Если массив известные_значения_y имеет одну строку, то каждая строка массива известные_значения_x интерпретируется как отдельная переменная. •
Известные_значения_x – необязательное множество значений x, которые уже известны для соотношения y = mx + b.
Массив известные_значения_x может содержать одно или несколько множеств переменных. Если
используется
только
одна
переменная,
то
известные_значения_y
и
известные_значения_x могут иметь любую форму, при условии, что они имеют одинаковую размерность. Если используется более одной переменной, то известные_значения_y должны быть вектором (то есть интервалом высотой в одну строку или шириной в один столбец). Если известные_значения_x опущены, то предполагается, что это массив {1;2;3;...} такого же размера, как и известные_значения_y. •
Новые_значения_x – новые значения x, для которых ТЕНДЕНЦИЯ возвращает соответствующие значения y.
Новые_значения_x должны содержать столбец (или строку) для каждой независимой переменной, как и известные_значения_x. Таким образом, если известные_значения_y — это один столбец, то известные_значения_x и новые_значения_x должны иметь такое же количество
столбцов.
Если
известные_значения_y
—
это
одна
строка,
то
известные_значения_x и новые_значения_x должны иметь такое же количество строк. Если
новые_значения_x
опущены,
то
предполагается,
что
они
совпадают
с
известные_значения_x. Если опущены оба массива известные_значения_x и новые_значения_x, то предполагается, что это массив {1;2;3;...} такого же размера, что и известные_значения_y.
184
Мартьянова А.Е. Математические методы моделирования в геологии
•
185
Конст – логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0.
Если конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом. Если конст имеет значение ЛОЖЬ, то b полагается равным 0, и значения m подбираются таким образом, чтобы выполнялось соотношение y = mx. ТТЕСТ (TTEST) Возвращает вероятность, соответствующую критерию Стьюдента. Функция ТТЕСТ используется, чтобы определить, насколько вероятно, что две выборки взяты из генеральных совокупностей, которые имеют одно и то же среднее. Синтаксис: ТТЕСТ(массив1;массив2;хвосты;тип) •
Массив1 – первое множество данных.
•
Массив2 – второе множество данных.
•
Хвосты – число хвостов распределения. Если хвосты = 1, то функция ТТЕСТ использует одностороннее распределение. Если хвосты = 2, то функция ТТЕСТ использует двустороннее распределение.
Тип – вид исполняемого t-теста. Тип
Выполняемый тест
1
Парный
2
Двухвыборочный с равными дисперсиями (гомоскедастический)
3
Двухвыборочный с неравными дисперсиями (гетероскедастический)
ФАКТР (FACT) Возвращает факториал числа. Факториал числа — это значение, равное 1*2*3*...* число. Синтаксис: ФАКТР(число) Число – это неотрицательное число, факториал которого вычисляется. Если число не целое, то производится усечение. ФТЕСТ (FTEST)
Мартьянова А.Е. Математические методы моделирования в геологии
186
Возвращает результат F-теста. F-тест возвращает одностороннюю вероятность того, что дисперсии аргументов массив1 и массив2 различаются несущественно. Эта функция используется для того, чтобы определить, имеют ли две выборки различные дисперсии. Синтаксис: ФТЕСТ(массив1;массив2) •
Массив1 – это первый массив или интервал данных.
•
Массив2 – это второй массив или интервал данных.
ХИ2ОБР (CHIINV) Возвращает значение, обратное к односторонней вероятности распределения γ2 (хи-квадрат). Если вероятность = ХИ2РАСП(x;...), то ХИ2ОБР(вероятность;...) = x. функция используется для сравнения наблюдаемых результатов с ожидаемыми, для того, чтобы решить была ли исходная гипотеза обоснованной. Синтаксис: ХИ2ОБР(вероятность;степени_свободы) •
Вероятность – это вероятность, связанная с распределением c2 (хи-квадрат).
•
Степени_свободы – это число степеней свободы.
ХИ2ТЕСТ (CHITEST) Возвращает тест на независимость. ХИ2ТЕСТ возвращает значение для распределения хиквадрат (γ2). Критерий γ2 используется для определения того, подтверждается ли гипотеза экспериментом. Синтаксис: ХИ2ТЕСТ(фактический_интервал;ожидаемый_интервал) •
Фактический_интервал – это интервал данных, которые содержат наблюдения, подлежащие сравнению с ожидаемыми значениями.
•
Ожидаемый_интервал – это интервал данных, который содержит отношение произведений итогов по строкам и столбцам к общему итогу.
ЧАСТОТА (FREQUENCY) Вычисляет частоту появления значений в интервале значений и возвращает массив цифр. Поскольку данная функция возвращает массив, она должна задаваться в качестве формулы массива. Синтаксис:
186
Мартьянова А.Е. Математические методы моделирования в геологии
187
ЧАСТОТА(массив_данных;массив_интервалов) •
Массив_данных – массив или ссылка на множество данных, для которых вычисляются частоты. Если массив_данных не содержит значений, то функция ЧАСТОТА возвращает массив нулей.
•
Массив_интервалов – массив или ссылка на множество интервалов, в которые группируются значения аргумента массив_данных. Если массив_интервалов не содержит значений, то функция ЧАСТОТА возвращает количество элементов в аргументе массив_данных.
ЭКСЦЕСС (KURT) Возвращает
эксцесс
множества
остроконечность
или
распределением.
Положительный
данных.
сглаженность
Эксцесс
распределения
эксцесс
характеризует по
обозначает
сравнению относительно
относительную с
нормальным остроконечное
распределение. Отрицательный эксцесс обозначает относительно сглаженное распределение. Синтаксис: ЭКСЦЕСС(число1;число2; ...) Число1, число2, ... – от 1 до 30 аргументов, для которых вычисляется мода. Можно использовать один массив или одну ссылку на массив вместо аргументов, разделяемых точкой с запятой.
188
Мартьянова А.Е. Математические методы моделирования в геологии
Приложение XV. Средства статистического анализа данных в Excel В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Для анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет выполнен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде. Обращение к средствам анализа данных. Средства, которые включены в пакет анализа данных доступны через команду Анализ данных меню Сервис. Если этой команды нет в меню, необходимо загрузить надстройку Пакет анализа (Надстройки меню Сервис). Дисперсионный анализ Существует несколько видов дисперсионного анализа. Требуемый вариант выбирается с учетом числа факторов и имеющихся выборок из генеральной совокупности. Однофакторный дисперсионный анализ. Однофакторный дисперсионный анализ используется для проверки гипотезы о сходстве средних значений двух или более выборок, принадлежащих одной и той же генеральной совокупности. Этот метод распространяется также на тесты для двух средних (к которым относится, например, t-критерий). Двухфакторный дисперсионный анализ с повторениями. Представляет собой более сложный вариант однофакторного анализа с несколькими выборками для каждой группы данных. Двухфакторный дисперсионный анализ без повторения. Представляет собой двухфакторный анализ дисперсии, не включающий более одной выборки на группу. Используется для проверки гипотезы о том, что средние значения двух или нескольких выборок одинаковы (выборки принадлежат одной и той же генеральной совокупности). Этот метод распространяется также на тесты для двух средних, такие как t-критерий. Корреляционный анализ Корреляционный анализ применяется для количественной оценки взаимосвязи двух наборов данных, представленных в безразмерном виде. Коэффициент корреляции выборки представляет отношение ковариации двух наборов данных к произведению их стандартных отклонений и рассчитывается по следующим формулам. Корреляционный анализ дает возможность установить, ассоциированы ли наборы данных по величине, то есть, большие значения из одного набора данных связаны с большими значениями другого набора (положительная корреляция), или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная корреляция), или данные двух диапазонов никак не связаны (нулевая корреляция). Примечание. Для вычисления коэффициента корреляции между двумя наборами данных на листе используется статистическая функция КОРРЕЛ.
188
Мартьянова А.Е. Математические методы моделирования в геологии
189
Ковариационный анализ Ковариация является мерой связи между двумя диапазонами данных. Используется для вычисления среднего произведения отклонений точек данных от относительных средних по следующей формуле. Ковариационный анализ дает возможность установить, ассоциированы ли наборы данных по величине, то есть, большие значения из одного набора данных связаны с большими значениями другого набора (положительная ковариация), или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная ковариация), или данные двух диапазонов никак не связаны (ковариация близка к нулю). Примечание. Вычисления ковариации для отдельной пары данных производятся с помощью статистической функции КОВАР. Описательная статистика Это средство анализа служит для создания одномерного статистического отчета, содержащего информацию о центральной тенденции и изменчивости входных данных. Экспоненциальное сглаживание Применяется для предсказания значения на основе прогноза для предыдущего периода, скорректированного с учетом погрешностей в этом прогнозе. При анализе используется константа сглаживания a, по величине которой определяется степень влияния на прогнозы погрешностей в предыдущем прогнозе. Двухвыборочный F-тест для дисперсии Двухвыборочный F-тест применяется для сравнения дисперсий двух генеральных совокупностей. Например, F-тест можно использовать для выявления различия в дисперсиях временных характеристик, вычисленных по двум выборкам. Анализ Фурье Предназначается для решения задач в линейных системах и анализа периодических данных на основе метода быстрого преобразования Фурье (БПФ). Эта процедура поддерживает также обратные преобразования, при этом, инвертирование преобразованных данных возвращает исходные данные. Гистограмма Используется для вычисления выборочных и интегральных частот попадания данных в указанные интервалы значений. При этом рассчитываются числа попаданий для заданного диапазона ячеек. Например, необходимо выявить тип распределения успеваемости в группе из 20 студентов. Таблица гистограммы состоит из границ шкалы оценок и количеств студентов, уровень успеваемости которых находится между самой нижней границей и текущей границей. Наиболее часто повторяемый уровень является модой интервала данных. Скользящее среднее Скользящее среднее используется для расчета значений в прогнозируемом периоде на основе среднего значения переменной для указанного числа предшествующих периодов. Скользящее среднее, в отличие от простого среднего для всей выборки, содержит сведения о тенденциях изменения данных. Этот метод может использоваться для прогноза сбыта, запасов и других процессов.
190
Мартьянова А.Е. Математические методы моделирования в геологии
Генерация случайных чисел Используется для заполнения диапазона случайными числами, извлеченными из одного или нескольких распределений. С помощью данной процедуры можно моделировать объекты, имеющие случайную природу, по известному распределению вероятностей. Ранг и персентиль Используется для вывода таблицы, содержащей порядковый и процентный ранги для каждого значения в наборе данных. Данная процедура может быть применена для анализа относительного взаиморасположения данных в наборе. Регрессия Линейный регрессионный анализ заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных. Выборка Создает выборку из генеральной совокупности, рассматривая входной диапазон как генеральную совокупность. Если совокупность слишком велика для обработки или построения диаграммы, можно использовать представительную выборку. Кроме того, если предполагается периодичность входных данных, то можно создать выборку, содержащую значения только из отдельной части цикла. T-тест Этот вид анализа используется для проверки средних для различных типов генеральных совокупностей. Двухвыборочный t-тест с одинаковыми дисперсиями. Двухвыборочный t-тест Стьюдента служит для проверки гипотезы о равенстве средних для двух выборок. Эта форма t-теста предполагает совпадение дисперсий генеральных совокупностей и обычно называется гомоскедастическим t-тестом. Двухвыборочный t-тест с разными дисперсиями. Двухвыборочный t-тест Стьюдента используется для проверки гипотезы о равенстве средних для двух выборок данных из разных генеральных совокупностей. Эта форма t-теста предполагает несовпадение дисперсий генеральных совокупностей и обычно называется гетероскедастическим t-тестом. Если тестируется одна и та же генеральная совокупность, используйте парный тест. Парный двухвыборочный t-тест для средних. Парный двухвыборочный t-тест Стьюдента используется для проверки гипотезы о различии средних для двух выборок данных. В нем не предполагается равенство дисперсий генеральных совокупностей, из которых выбраны данные. Парный тест используется, когда имеется естественная парность наблюдений в выборках, например, когда генеральная совокупность тестируется дважды – до и после эксперимента. Z-тест Двухвыборочный z-тест для средних с известными дисперсиями. Используется для проверки гипотезы о различии между средними двух генеральных совокупностей.
190
Мартьянова А.Е. Математические методы моделирования в геологии
191