МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ Оренбургский государственный университет Кафедра математических методов и ...
139 downloads
289 Views
964KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ Оренбургский государственный университет Кафедра математических методов и моделей в экономике
А.Г. РЕННЕР, Г.Г. АРАЛБАЕВА, О.А. ЗИНОВЬЕВА
КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ МЕТОДИЧЕСКИЕ УКАЗАНИЯ К ЛАБОРАТОРНОМУ ПРАКТИКУМУ
Рекомендовано к изданию Редакционно-издательским советом Оренбургского государственного университета
Оренбург 2002
ББК 22.172я7 Р-39 УДК 519.233.5(076.5)
Введение Корреляционный анализ определяется как совокупность методов оценки корреляционных характеристик и проверки статистических гипотез о них по n выборочным данным, выбранным из k – мерной генеральной совокупности, распределенной по нормальному закону распределения. Дополнительной задачей корреляционного анализа является оценка уравнения регрессии. Предположим, что исследуется генеральная совокупность, каждый элемент которой характеризуется количественными признаками Х = (x1, x2,…,xk)т с плотностью распределения: 1 exp(− 1 ( х − µ )T ∑ − 1 ( х − µ )) , fX (x1, x2,…, xk) = 2 (2π ) k ∑
где |∑| - определитель ковариационной матрицы размерности (k*k); ∑-1- матрица, обратная ковариационной матрице; µ - k мерный вектор математических ожиданий.
2
1 Описание лабораторной работы №4 Лабораторная работа №4 включает следующие этапы: - постановку задачи; - ознакомление с порядком выполнения работы в пакетах STADIA., STATISTICA; - выполнение расчетов индивидуальных задач на компьютере и анализ результатов; - подготовку письменного отчета с выводами по работе; - защиту лабораторной работы.
3
2 Постановка задачи Ставится задача оценки параметров нормального закона распределения и других характеристик корреляционной связи, а также исследования статистических свойств оценок: 1. На основе наблюдений над n объектами, каждый из которых (описывается) характеризуется значениями k – признаков, представленных в виде матрицы Х = {хij} типа "объект – свойство" размерности (n*k), n = 50, k = 3, (n = 20, k = 3) оценить числовые характеристики вектора признаков Х = (x1, x2,…,xk)т , включая характеристики линейной связи между признаками, частные и множественные коэффициенты корреляции. 2. Исходя из предположения о нормальном характере распределения Х исследовать полученные оценки. 3. Оценить уравнение регрессии и исследовать его.
4
3 Порядок выполнения работы и анализ результатов в системе STADIA Запустить диалоговую систему STADIA. Подготовка данных. Ввести матрицу исходных данных Х (экран редактора базы данных с частью введенных данных приведен на рисунке 1). Они находятся в столбцах соответствующих переменных Х1, Х2, Х3.
Рисунок 1 Выбор процедуры. Для оценки коэффициентов парной корреляции, входящих в корреляционную матрицу следует выбрать в меню Статистические методы пункт 3 = Корреляция. Корреляционный анализ начинается с оценки R€ корреляционной матрицы R, для получения которого в появившемся окне (Рисунок 2) Анализ переменных надо выбрать переменные для анализа. Для этого выделяют мышью в поле Переменные переменные Х1, Х2 и Х3, и, нажав кнопку со стрелкой вправо, перенести их в поле Для анализа. Затем нажать кнопку запроса Утвердить.
5
Рисунок 2
Результаты анализа представлены на рисунке 3.
Рисунок 3 Результаты включают следующие характеристики: переменные, между которыми рассчитывается оценка коэффициента корреляции; расчетное значение оценки коэффициента корреляции; значение t-статистики распределения Стьюдента, значимость проверяемой нулевой гипотезы о равенстве коэффициента корреляции нулю; степень свободы; результат проверки гипотезы и корреляционную матрицу R. 0,199 0,0654 1 Оценка для R: R€ = 0,199 1 0,808 . 0,0654 0,808 1 Для проверки значимости парных коэффициентов корреляции проверяем гипотезу: Н0: ρ12=0 против Н1: ρ12≠0. Значимость нулевой гипотезы Р(|ρ12 |<(|ρ12 набл|) = 0.163 больше заданного уровня 0,05, в результате чего следует принять гипотезу Н0. 6
Проверим гипотезу: Н0: ρ13=0 против Н1: ρ13≠0. Значимость нулевой гипотезы Р(|ρ13 |<(|ρ13 набл|) = 0.656 больше заданного уровня 0,05, в результате чего следует также принять гипотезу Н0. Проверим гипотезу: Н0: ρ23=0 против Н1: ρ23≠0. Значимость нулевой гипотезы Р(|ρ23 |<(|ρ23 набл|) = 0. меньше заданного уровня 0,05, в результате чего следует принять гипотезу Н1 о значимости линейной корреляционной связи между переменными Х2Х3.
7
4 Порядок выполнения работы и анализ результатов в системе STATISTICA Существенно больше возможностей в проведении корреляционного анализа дает пакет STATISTICA, позволяющий оценивать корреляционную матрицу. Произведем оценку корреляционной матрицы в пакете STATISTICA, которая состоит из программ-модулей (блоков), в каждой из которых реализованы определенные статистические методы. Оценка корреляционной матрицы, проверка значимости производится в модуле Basic Statistics and Tables – Основные статистики и таблицы, оценка частных и множественных коэффициентов корреляции, коэффициента детерминации, проверка значимости этих коэффициентов производится в модуле Multiple Regression – Множественная регрессия. 1. Щелкнув мышью, можно вызвать меню модулей. 2. Откроется меню. 3. Выбрать необходимый модуль.
Рисунок 4
Для обработки данных необходимо должным образом перенести их в пакет STATISTICA. 1. Данные находятся в окне системы STADIA. Скопируем данные в буфер из окна, предварительно выделив их; загрузить пакет STATISTICA; открыть модуль Data Management; закрыть появившееся дополнительное окно нажатием на "х" в правом верхнем углу. Затем в меню File выбрать команду Export Data → More, высвечивается окошко с предложением ввести имя файла с расширением .MFM, появится рабочее окно, где 8
рядом с именем переменной VAR1…VAR10 написано Real, т.е. в формате Real. Курсор поместить в верхний левый угол, нажатием кнопки Paste, ввести данные в окно программы STATISTICA. Затем данные вновь выделить и скопировать в буфер, загрузить модуль Basic Statistics and Tables, кнопкой Paste вставить данные. Теперь данные готовы для обработки. Их необходимо вновь сохранить в памяти машины теперь уже с расширением .Sta. 2. Данные находятся в базе данных программы Excel. Преобразовывать их нет необходимости, импортируем данные из программы Excel, предварительно выделив их и скопировав в буфер. Кнопкой Paste вставим данные из буфера в окно пакета STATISTICA. Стандартный вид исходной таблицы с данными пакета STATISTICA содержит 10 строк (cases) и 10 столбцов (variables). Так как исходная информация представлена матрицей размерности (n*k), n=50, k=3, то необходимо ввести еще 40 строк. Открыв меню Cases (рисунок 5), выбираем позицию Add (добавить), переходим к следующему окну (рисунок 6).
Рисунок 5
Рисунок 6 Окно с частью исходных данных представлено на рисунке 7.
9
Рисунок 7 Оценки парных коэффициентов корреляции производится в блоке Basic Statistics and Tables. При запуске этого блока на экране появляется меню (рисунок 8):
Рисунок 8
Выбираем позицию Сorrelation matrices. После вызова данного пункта появляется окно корреляционного анализа (рисунок 9).
10
Рисунок 9 Корреляционный анализ начинается с выбора переменных, между которыми будут оцениваться парные коэффициенты корреляции. Вызов режима выбора осуществим с помощью кнопки One variable list. Далее появляется следующий экран (рисунок 10), в котором производится выбор необходимых переменных. Если при анализе используются все переменные, то проще нажать кнопку Select All. Если надо выбрать только часть переменных, то можно выделить с помощью мыши. Если необходимо выделить отдельные переменные, то используется комбинация клавиш [Ctrl] и левая клавиша мыши.
Рисунок 10
После выбора переменных для анализа можно уточнить, в какой форме пользователь желает получить информацию. Имеются три варианта вывода информации: Corr.Matrix (highlight p) – наиболее краткий вид, показываются только парные коэффициенты корреляции, красным выделяются те, гипотеза о незначимости которых отвергается. Corr.Matrix (display p&N) – аналогична предыдущей, но кроме значения коэффициента показывается вероятность принятия гипотезы о незначимости коэффициента, в таблице данная вероятность обозначается символом р. 11
Detailed table of results – наиболее подробная таблица. Переменные сгруппированы в пары, для каждой переменной выводится ее среднее, дисперсия, а также парный коэффициент корреляции, как и в предыдущем случае: вероятность принятия гипотезы о незначимости коэффициента (р), а также коэффициенты для линейного уравнения регрессии. Для проведения корреляционного анализа достаточно Corr.Matrix (display p&N). Результаты расчетов приведены на рисунке 11.
Рисунок 11 Корреляционная матрица аналогична предыдущей, рассчитанной в системе Stadia. В данном примере красным подсвечены оценки парных коэффициентов корреляции r23=0.8079, для которого гипотеза о незначимости отвергается. Оценки частных и множественных коэффициентов корреляции производится в модуле Multiple Regression. При вызове этого модуля на экране появляется окно (рисунок 12):
Рисунок 12 Иногда для начала статистического анализа возникает необходимость вызова стартовой панели модуля. Если стартовая панель закрыта, то для ее открытия 12
надо войти в меню Analysis – Анализ и выбрать команду Startup Panel – Стартовая панель (рисунок 13). В результате появится окно (рисунок 12)
Рисунок 13
Прежде всего необходимо выбрать переменные для анализа. Делается это трехмерной нормально после нажатия кнопки Variables. Для распределенной случайной величины множественные коэффициенты корреляции служат мерой связи между одной случайной величиной и двумя остальными. Частные коэффициенты корреляции между двумя случайными величинами при фиксированной третьей характеризуют тесноту линейной связи между этими двумя величинами, очищенной от влияния третьей. В рассматриваемом примере приведем оценку множественных коэффициентов корреляции R2/13 (т.е. между переменной Х2 и Х1 ,Х3), детерминации и результат их исследования на значимость. На рисунке 14 представлено окно выбора переменных для рассматриваемого случая.
Рисунок 14
После подтверждения выбора данного режима, на экран выводятся результаты анализа (рисунке 15).
13
Рисунок 15
Для получения коэффициентов частной корреляции надо нажать на кнопку Partial correlations. Появится окно с результатами (рисунок 16).
Рисунок 16
Рассмотрим информационную часть окна рисунков 15 и 16: Dep. Var – имя зависимой переменной (VAR2); No of cases – объем выборки, n = 50; Multiple R – оценка коэффициента множественной корреляции; R2 – оценка коэффициента детерминации; Adjusted R2 – cкорректированный коэффициент детерминации; F – значение F – критерия расчетный; df – число степеней свободы F – критерия; р – вероятность принятия гипотезы Но; Partial correlations - оценки частных коэффициентов корреляции. Std. Error of estimate – стандартная ошибка оценки, оценивает меру рассеяния наблюдаемых значений относительно регрессионной прямой; 14
Intercept – оценка свободного члена, значение коэффициента b0 в уравнении регрессии; Std.Error – стандартная ошибка коэффициента b0 в уравнении регрессии; t(df) and p-value – значение t- критерия и уровня р. В рассмотренном примере оценка множественного коэффициента корреляции между случайной величиной Х2 и двумя остальными составила 0.821. Вероятность принятия гипотезы Н0: ρ2/13 =0 о незначимости множественного коэффициента составила р=0.0, следовательно, гипотеза Но отвергается и множественный коэффициент корреляции значимо отличен от нуля. Коэффициент детерминации составил 0.674. Частные коэффициенты корреляции между двумя случайными величинами при фиксированной третьей характеризуют тесноту связи между этими двумя величинами, очищенной от влияния третьей величины. Поэтому, если парный коэффициент корреляции между теми же двумя случайными величинами оказался больше соответствующего частного коэффициента, то делается вывод о том, что третья фиксированная величина усиливает взаимосвязь между изучаемыми величинами, т.е. более высокое значение парного коэффициента обусловлено присутствием третьей величины. Более низкое значение парного коэффициента корреляции в сравнении с соответствующими частными свидетельствует об ослаблении связи между изучаемыми величинами вследствие действия фиксируемой величины. Оценки частных коэффициентов корреляции получены для следующих значений: r12/3 = 0.248 и r23/1 = 0.813. Так в наших расчетах оценки частных коэффициентов корреляции больше соответствующих парных т.е. r12=0.199, r23=0.808 следовательно делаем вывод об усилении корреляционных связей между соответствующими парами при фиксированной третьей. Значимость частного коэффициента определяется пользователем в зависимости от выбранного уровня значимости. Если указанное значение р в окне частных корреляций меньше выбранного уровня значимости, то Но: ρ23/1=0 отвергается. В нашем случае r23/1 = 0.813 является значимым, т.к. р = 0.0, а r12/3 = 0.248 не значим. Дополнительной задачей корреляционного анализа является получение оценок bji/(…) для коэффициентов βji уравнения регрессии. Оценки коэффициентов уравнения регрессии (рисунок 17) могут быть получены нажатием на кнопку Regression summary в окне рисунка 15.
Рисунок 17 15
В столбце В рисунка 17 получены оценки уравнения регрессии: β0=38.43, β21 =0.977, β23=2.006.
16
5 Интервальные оценки параметров связи Для значимых параметров связи определяют с надежностью γ доверительные интервалы. Для этого используют z-преобразование Фишера. 1 1+ r Преобразование производится по формуле z = ln , z ∈ N(0,1). 2 1− r Доверительный интервал для z:
z , − tγ
1 n −l −3
≤ z ≤ z , + tγ
1 n −l −3
,
В системе STADIA и пакете STATISTICA не предусмотрены расчеты доверительных интервалов для коэффициентов корреляции. Поэтому эти простые расчеты произведем в программе Excel. Запустим программу Excel. На рисунке 17 представлено окно программы Excel с рассчитанным доверительным интервалом для коэффициента корреляции r23=0.808.
Рисунок 17 Для расчета доверительного интервала введем в ячейку В1 значимое значение оценки коэффициента корреляции r23 = 0.808. В ячейке В3 получим преобразованное с помощью z – преобразования Фишера значение, соответствующее коэффициенту корреляции. Для преобразования обратимся к мастеру функций fx из меню Статистические, выберем категорию ФИШЕР, введем адрес ячейки со значением коэффициента корреляции. В ячейке В5 находится значение tγ для γ = 0.95. В ячейках В8 и В9 получены соответственно верхняя и нижняя границы значений z. Произведем обратное преобразование z в r. Для этого опять обратимся к мастеру функций fx и из меню Статистические, выберем категорию ФИШЕРОБР, введем адрес ячейки со значением zmin, затем zmax. В ячейках В10 и В11 получены 17
искомые доверительные границы коэффициента корреляции, т.е. 0.682≤ r23≤0.888.
18
6 Содержание письменного отчета Отчет должен быть оформлен на листах формата А4 с титульным листом, оформленным соответствующим образом и содержать следующее: 1) постановку задачи с вариантом выборок; 2) краткое изложение теории корреляционного анализа; 3) результаты компьютерной обработки данных; 4) анализ полученных результатов; 5) выводы по полученным результатам.
19
7 Вопросы к защите 7.1 Что изучает корреляционно-регрессионный анализ? 7.2 Определение парного, частного, множественного коэффициентов корреляции. 7.3 Как рассчитывается частный коэффициент корреляции? 7.4 Как рассчитывается множественный коэффициент корреляции? 7.5 Как проверяется значимость оценки коэффициента парной корреляции? 7.6 Как проверяется значимость частного коэффициента корреляции? 7.7 Как проверяется значимость множественного коэффициента корреляции? 7.8 Для чего используется коэффициент детерминации? 7.9 Как строится корреляционная матрица? 7.10 Как строятся доверительные интервалы для коэффициентов корреляции? 7.11Как оцениваются коэффициенты регрессии? 7.12 Как проверяется значимость уравнения регрессии? 7.13 Как проверяется значимость коэффициентов регрессии? 7.14 Как строятся интервальные оценки коэффициентов уравнения регрессии?
20
Список использованных источников 1. Айвазян А.М., Мхитарян В.С. Прикладная статистика и основы эконометрики: Учебник для вузов. –М.: ЮНИТИ, 1998. –1022с. 2. Боровиков В.П., Боровиков И.П. STATISTICA – Статистический анализ и обработка данных в среде Windows. –М.: Инф.изд. Дом "Филин", 1998. -608с. 3. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы: Учебник. –М.: Финансы и статистика, 1998, 352с
21
Приложение А (обязательное) Таблица А1 - Варианты индивидуальных заданий Номера вариантов 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Переменные 1,2,3 1,2,4 1,2,5 1,2,6 1,2,7 1,3,4 1,3,5 1,3,6 1,3,7 1,4,5 1,4,6 1,4,7 1,5,6 1,5,7 1,6,7
Номера вариантов 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Переменные 2,3,4 2,3,5 2,3,6 2,3,7 2,4,5 2,4,6 2,4,7 2,5,6 2,5,7 2,6,7 3,4,5 3,4,6 3,4,7 3,5,6 3,5,7
Таблица А2 - Значения переменных №п/п 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 22
Х1 2 73 69 72 72 65 67 56 70 63 64 70 67 60 63 80 71
Х2 3 48 40 52 50 39 49 38 47 41 50 52 36 55 43 45 56
Х3 4 99 83 106 107 79 100 80 96 98 97 92 90 108 107 96 86
Х4 5 31 28 30 23 25 25 25 27 31 25 28 25 30 28 28 31
Х5 6 284 265 298 264 232 272 292 245 274 256 291 290 257 258 309 257
Х6 7 68 47 40 35 60 37 41 46 46 53 43 53 54 50 45 50
Х7 8 279 245 354 212 323 285 240 361 236 246 357 361 343 390 208 301
17 74 45 18 68 55 Продолжение таблицы А2 1 2 3 19 65 63 20 73 47 21 57 48 22 71 55 23 66 37 24 76 38 25 70 46 26 68 41 27 74 42 28 69 53 29 68 57 30 71 39 31 60 46 32 56 56 33 71 47 34 68 51 35 66 52 36 60 50 37 70 47 38 69 48 39 72 54 40 70 52 41 61 47 42 62 57 43 63 53 44 71 48 45 65 46 46 70 43 47 70 49 48 68 31 49 78 40 50 66 49
98 97
23 28
316 251
25 44
306 334
4 128 88 117 110 94 82 97 91 118 87 104 89 71 86 97 89 101 93 112 67 97 82 81 92 90 110 96 110 97 102 101 112
5 26 26 28 27 25 26 27 28 27 29 24 23 27 27 28 26 29 26 23 27 29 24 27 25 29 29 25 24 30 25 31 27
6 278 268 273 280 244 243 269 255 229 272 263 249 252 229 284 265 298 264 232 249 292 245 274 256 291 290 257 258 309 257 231 288
7 54 56 48 44 49 50 46 46 47 39 49 44 49 53 44 47 51 56 39 46 57 45 55 46 52 45 43 48 50 44 38 68
8 342 274 336 277 320 278 266 294 308 271 228 414 324 348 211 356 350 350 301 338 297 268 294 309 284 276 289 234 298 264 302 323
23
Таблица А3 – Варианты индивидуальных заданий № варианта 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
24
Номера факторных признаков Х 11,5,1 11,5,2 11,5,3 11,5,4 11,5,6 11,5,7 11,5,8 11,5,9 11,5,10 11,6,1 11,6,2 11,6,3 11,6,4 11,6,7 11,6,10 11,7,1
№ варианта 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
Номера факторных признаков Х 11,7,2 11,7,3 11,7,4 11,7,8 11,7,9 11,7,10 11,10,1 11,10,2 11,10,3 11,10,4 11,10,6 11,10,8 11,10,9 10,6,7 10,8,9 7,5,6
Таблица А4 - Показатели уровня жизни населения в 1994г. Расходы УрожайПотребление продуктов на душу населения Число Смерт- ВВП ность на по Страны врачей ность Мясо Масло Сахар Алко- Фрукты Хлебона ППС здравоохр. зернов. на животн. голь продукты 10000ч. 100000 в% в% ц/га кг кг кг л Кг кг насел. к США к ВВП х1 х2 х3 х4 х8 х9 х5 х11 х6 х7 х10 Россия 55 3.9 30 5 28 124 44.5 84.98 20.4 3.2 14.4 Австралия 100 2.6 47 8.2 121 87 32.5 30.58 71.4 8.5 11.6 Австрия 93 5.3 37 12 146 74 33.9 38.42 78.7 9.2 56.1 Азербайджан 20 4.1 12.4 7.9 52 141 38.8 60.34 12.1 3.3 16.4 Армения 20 3.7 4.3 6.5 72 134 34.4 60.22 10.9 3.2 13.5 Белоруссия 72 3.6 28 5.4 38 120 43.6 60.79 20.4 5.4 22.4 Бельгия 85 6.9 48 11 83 72 41 29.82 79.7 8.3 65.5 Болгария 65 3 18 9.5 92 156 36.4 70.57 17.3 5.4 27.8 Великобритания 67 3.5 39 8.8 91 91 17.9 34.51 69.7 7.1 62.3 Венгрия 73 1.7 40 10.9 73 106 32.1 64.73 24.5 6 39.8 Германия 88 6.8 35 8.1 138 73 38.1 36.63 76.2 8.6 56.9 Греция 83 1 24 8.8 99 108 41.5 32.84 44.4 5.7 37.4 Грузия 21 3.8 36 9.8 55 140 55 62.64 11.3 3.5 18.6 Дания 98 5 38 10.3 89 77 36.7 34.07 79.2 6.7 54.4 Ирландия 99 3.3 31 9.6 87 102 15.8 39.27 57 6.7 64.2 Испания 89 0.4 26 8.95 103 72 40.9 28.46 54.8 7.3 22.6 Италия 84 2.2 27 9.6 169 118 49.4 30.27 72.1 8.5 46 Казахстан 61 4.2 19.2 7.2 10 191 38.1 69.04 13.4 3.3 7.9 Канада 98 3.1 44 7.4 123 77 27.6 25.42 79.9 10.2 25.4 Киргизия 46 4.1 23.5 6.7 20 134 33.2 53.13 11.2 3.4 17 25
26