Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования
С...
46 downloads
283 Views
3MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования
Северо-Западный государственный заочный технический университет
ЭКОНОМЕТРИКА Методические указания к выполнению практических работ
Институт экономико-гуманитарный Специальность 080105.65 – финансы и кредит Направление подготовки бакалавра 080100.62 - экономика
Санкт-Петербург 2006
Практическая работа 3 КОРРЕЛЯЦИОННЫЙ АНАЛИЗ 1. Цель работы Выработка практических навыков проведения корреляционного анализа. 2. Основные теоретические положения При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Мультиколлинеарностью называется линейная взаимосвязь двух или нескольких объясняющих переменных, которая может проявляться в функциональной (явной) или стохастической (скрытой) форме. Выявление связи между отобранными признаками и количественная оценка тесноты связи осуществляются с использованием методов корреляционного анализа. Для решения этих задач сначала оценивается матрица парных коэффициентов корреляции, затем на ее основе определяются частные и множественные коэффициенты корреляции и детерминации, проверяется их значимость. Конечной целью корреляционного анализа является отбор факторных признаков x1 , x2 , K, x m для дальнейшего построения уравнения регрессии. 2.1.
Парные (линейные) коэффициенты корреляции
Тесноту связи, например, между переменными x и y по выборке значений
(xi , y i ) , i = 1, n оценивает линейный коэффициент парной корреляции:
(
r = rxy =
)(
1 n ∑ xi − x y i − y n i =1
(
1 n ∑ xi − x n i =1
)
2
(
)
1 n ⋅ ∑ yi − y n i =1
∑ (xi − x )(y i − y ) n
)
2
= i =1
nS x S y
,
(1)
где x и y - средние значения, S x и S y - стандартные отклонения соответствующих выборок. Часто используют следующую модификацию формулы (1): rxy =
xy − x ⋅ y . SxSy
Парный коэффициент корреляции изменяется в пределах от –1 до +1. Чем ближе он по абсолютной величине к единице, тем ближе статистическая зависимость между x и y к линейной функциональной. Положительное значение коэффициента свидетельствует о том, что связь между признаками прямая (с ростом x увеличивается значение y ), отрицательное значение – связь обратная (с ростом x значение y уменьшается). 24
Можно дать следующую качественную интерпретацию возможных значений коэффициента корреляции: если r < 0,3 - связь практически отсутствует; 0,3 ≤ r < 0,7 - связь средняя; 0,7 ≤ r < 0,9 - связь сильная; 0,9 ≤ r < 0,99 - связь весьма сильная. Для оценки мультиколлинеарности факторов используют матрицу парных коэффициентов корреляции зависимого (результативного) признака y с факторными признаками x1 , x 2 , K x m , которая позволяет оценить степень влияния каждого показателя-фактора x j на зависимую переменную y , а также тесноту взаимосвязей факторов между собой. Корреляционная матрица в общем случае имеет вид r yx2 K r yxm ⎛1 r yx1 ⎜ ⎜ rx1 y 1 rx1x2 K rx1xm ⎜ ⎜K K K K K ⎜r ⎝ xm y rxm x1 rxm x2 K 1
⎞ ⎟ ⎟ ⎟. ⎟ ⎟ ⎠
Матрица симметрична, на ее диагонали стоят единицы. Если в матрице есть межфакторный коэффициент корреляции rx j xi > 0,7 , то в данной модели множественной регрессии существует мультиколлинеарность. Поскольку исходные данные, по которым устанавливается взаимосвязь признаков, являются выборкой из некой генеральной совокупности, вычисленные по этим данным коэффициенты корреляции будут выборочными, т. е. они лишь оценивают связь. Необходима проверка значимости, которая отвечает на вопрос: случайны или нет полученные результаты расчетов. Значимость парных коэффициентов корреляции проверяют по t–критерию Стьюдента. Выдвигается гипотеза о равенстве нулю генерального коэффициента корреляции: H 0 : ρ = 0 . Затем задаются параметры: уровень значимости α и число степеней свободы ν = n − 2 . Используя эти параметры по таблице критических точек распределения Стьюдента, находят t кр , а по имеющимся данным вычисляют наблюдаемое значение критерия: t набл =
r 1− r 2
n−2,
(2)
где r - парный коэффициент корреляции, рассчитанный по отобранным для исследования данным. Парный коэффициент корреляции считается значимым (гипотеза о равенстве коэффициента нулю отвергается) с доверительной вероятностью γ = 1 − α , если t набл по модулю будет больше, чем t кр .
25
2.2.
Частные коэффициенты корреляции
Если переменные коррелируют друг с другом, то на значении коэффициента корреляции частично сказывается влияние других переменных. Частный коэффициент корреляции характеризует тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Если вычисляется, например, ryx1 x2 (частный коэффициент корреляции между y и x1 при фиксированном влиянии x2 ), это означает, что определяется количественная мера линейной зависимости между y и x1 , которая будет иметь место, если устранить влияние x 2 на эти признаки. Если исключают влияние только одного фактора, получают частный коэффициент корреляции первого порядка. Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции ryx x получится меньше, чем соответствующий 1 2
парный коэффициент ryx , значит взаимосвязь признаков y и x1 в некоторой 1 степени обусловлена воздействием на них фиксируемой переменной x2 . И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная x 2 ослабляет своим воздействием связь y и x1 . Частный коэффициент корреляции между двумя переменными ( y и x 2 ) при исключении влияния одного фактора ( x1 ) можно вычислить по следующей формуле:
ryx2 − ryx1 rx2 x1
ryx2 x1 =
(1 − r )(1 − r ) yx1
2
x1x2
2
.
(3)
Для других переменных формулы строятся аналогичным образом. При фиксированном x 2 r yx1 − r yx2 rx2 x1 r yx x = ; 1 2 2 2 1 − r yx2 1 − rx1x2
(
при фиксированном x3
r yx x = 1 3
)(
)
r yx1 − r yx3 rx3 x1
(1 − ryx )(1 − rx x ) 2
3
2
.
1 3
Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным ν = n − l − 2 , где l число фиксируемых факторов. 26
На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели. 2.3.
Множественный коэффициент корреляции и коэффициент детерминации
Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной и совокупностью других рассматриваемых переменных. Особое значение имеет расчет множественного коэффициента корреляции результативного признака y с факторными x1 , x 2 , K , x m , формула для определения которого в общем случае имеет вид
R y x1x2 Kxm = 1 −
∆r , ∆ 11
(4)
∆ r - определитель корреляционной матрицы; дополнение элемента ryy корреляционной матрицы.
∆ 11 - алгебраическое
где
Если рассматриваются лишь два факторных признака, то для вычисления множественного коэффициента корреляции можно использовать следующую формулу: R y x1x2 =
rx1 y 2 + rx2 y 2 − 2rx1x2 rx1 y rx2 y 1 − rx1x2 2
.
(5)
Построение множественного коэффициента корреляции целесообразно только в том случае, когда частные коэффициенты корреляции оказались значимыми, и связь между результативным признаком и факторами, включенными в модель, действительно существует. Квадрат множественного коэффициента корреляции R 2 y x1x2Kxm ≡ R 2 называется множественным коэффициентом детерминации; он показывает, какая доля дисперсии результативного признака y объясняется влиянием факторных признаков x1 , x 2 , K , x m . Заметим, что формула (13) лабораторной работы 1 для вычисления коэффициента детерминации через соотношение остаточной и общей дисперсии результативного признака даст тот же результат. Множественный коэффициент корреляции и коэффициент детерминации изменяются в пределах от 0 до 1. Чем ближе к 1, тем связь сильнее и соответственно тем точнее уравнение регрессии, построенное в дальнейшем, будет описывать зависимость y от x1 , x 2 , K , x m . Если значение множественного коэффициента корреляции невелико (меньше 0,3), это означает, что выбранный 27
набор факторных признаков в недостаточной мере описывает вариацию результативного признака либо связь между факторными и результативной переменными является нелинейной. Вопрос о проверке значимости коэффициента детерминации рассмотрен выше (см. п. 2.3 лабораторной работы 1). 2.4.
Пошаговая регрессия
Отбор факторов x1 , x 2 , K , x m , включаемых в модель множественной регрессии, является одним из важнейших этапов эконометрического моделирования. Метод последовательного (пошагового) включения (или исключения) факторов в модель позволяет выбрать из возможного набора переменных именно те, которые усилят качество модели. При реализации метода на первом шаге рассчитывается корреляционная матрица. На основе парных коэффициентов корреляции выявляется наличие коллинеарных факторов. Факторы xi и x j признаются коллинеарными, если rx j xi > 0,7 . В модель включают лишь один из взаимосвязанных факторов. Если среди факторов отсутствуют коллинеарные, то в модель могут быть включены любые факторы, оказывающие существенное влияние на y. На втором шаге строится уравнение регрессии с одной переменной, имеющей максимальный по абсолютной величине парный коэффициент корреляции с результативным признаком. На третьем шаге в модель вводится новая переменная, имеющая наибольшее по абсолютной величине значение частного коэффициента корреляции с зависимой переменной при фиксированном влиянии ранее введенной переменной. При введении в модель дополнительного фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит, т. е. коэффициент множественной детерминации увеличивается незначительно, то ввод нового фактора признается нецелесообразным. 3. Порядок выполнения практической работы Задание 1. Для выборочных данных по 20 коммерческим банкам, приведенных в табл. 8, исследовать зависимость показателя прибыли банка ( y ,
млн д. е.) от размера собственного капитала ( x1 , млн д. е.), объема чистых активов ( x 2 , млн д. е.), а также объема вложений в ценные бумаги ( x3 , млн д. е.): 1) рассчитать парные коэффициенты корреляции, оценить их значимость на уровне α = 0,05 и пояснить их экономический смысл; 2) рассчитать частные коэффициенты корреляции и с их помощью оценить целесообразность включения факторов в уравнение регрессии; 3) найти коэффициент множественной корреляции, множественный коэффициент детерминации, скорректированный коэффициент корреляции и охарактеризовать степень совместного влияния факторов на результативный признак. 28
4) используя пошаговую процедуру отбора факторов, построить подходящую регрессионную модель показателя прибыли банка, исключив при этом мультиколлинеарность. Таблица 8 Номер Балансовая Собственный Чистые активы Вложения в банка прибыль капитал ценные бумаги 754 1369,7 531,2 30,7 1 720,3 1167 50,5 30,3 2 610,5 1253,6 410,1 29,2 3 712,8 1247,5 163,1 28,6 4 411,3 1336 317,4 25,9 5 610,5 1232,7 105,9 21,6 6 603,8 1220,1 193,5 13,1 7 669,5 1299,1 70,2 12,5 8 710,3 1195,6 233,9 12,1 9 510 1086,3 29,1 9,3 10 469,7 1283,3 179,8 8,6 11 510,5 1169,3 802,6 8,2 12 558,4 1056 135,9 7,7 13 547,1 1155,7 124,6 4,1 14 646,1 1051,7 114,2 3,7 15 228,1 1142,7 113,6 3,4 16 605 1034,8 107,4 1,8 17 445,1 929,7 106,1 1,8 18 529,5 1086,9 50,5 1,6 19 18,5 986,4 50,3 1,5 20 Задание 2. В табл. 9 приведены данные по 15 торговым предприятиям о зависимости величины валового дохода ( y , млн руб.) от стоимости основных фондов
( x1 , млн руб.), стоимости оборотных средств ( x 2 , млн руб.), а также величины торговых площадей ( x3 , тыс. м2). Требуется: 1) рассчитать парные коэффициенты корреляции, оценить их значимость на уровне α = 0,05 и пояснить их экономический смысл; 2) рассчитать частные коэффициенты корреляции и с их помощью оценить целесообразность включения факторов в уравнение регрессии; 3) найти коэффициент множественной корреляции, множественный коэффициент детерминации, скорректированный коэффициент корреляции и охарактеризовать степень совместного влияния факторов на результативный признак; 4) используя пошаговую процедуру отбора факторов, построить подходящую регрессионную модель показателя прибыли банка, исключив при этом мультиколлинеарность. 29
Утверждено редакционно-издательским советом университета УДК 519.2.06(07) Эконометрика: Методические указания к выполнению практических работ. –СПб.: Изд-во СЗТУ, 2006. –35 с.
Методические указания разработаны на основании государственных образовательных стандартов высшего профессионального образования по специальности подготовки дипломированных специалистов “Финансы и кредит”. Приведены методические указания к выполнению трех практических работ, охватывающих важнейшие вопросы множественного регрессионного анализа. Комплекс практических работ ориентирован на пакет программ Microsoft Excel. Рассмотрено на заседании кафедры информатики 14.09.2006 г., одобрено мето-дической комиссией факультета информационных технологий и систем управления 16.10.2006 г.
Рецензенты: канд.
кафедра информатики СЗТУ (зав. кафедрой Г. Г. Ткаченко, физ.-мат. наук, доц.) С. И. Никитин, канд. физ.-мат. наук, проф., зав. каф. математики и математических методов в экономике СПбГАСЭ
Составитель
М. Б. Шабаева, канд. физ.-мат. наук, доц.
1
© Северо-Западный государственный заочный технический университет, 2006
ОБЩИЕ УКАЗАНИЯ Целью методических указаний к выполнению практических работ является освоение студентами методики эконометрического моделирования, приобретение ими практических навыков использования инструментов корреляционно-регрес-сионного анализа MS Excel для обработки и анализа экономико-финансовой инфор-мации. В практических работах рассмотрены основные вопросы множественной регрессии: метод наименьших квадратов, отбор факторных переменных модели регрессии на основе корреляционного анализа данных, анализ статистической значимости параметров модели и уравнения, в целом, коэффициенты мно-жественной и частной корреляции и детерминации, доверительные интервалы, обнаружение автокорреляции и мультиколлинеарности, нелинейные связи, производственные функции. В каждой практической работе излагаются необходимые для ее выполнения теоретические сведения и порядок выполнения работы, приводится решение типовой задачи и варианты индивидуальных заданий для самостоятельной работы. Нумерация рисунков и таблиц сквозная, а формулы нумеруются в каждой работе автономно. Студенты выполняют две практические работы по указанию преподавателя. К выполнению работ допускаются студенты, изучившие основные теоретические положения и ознакомившиеся с порядком выполнения работ. Отчет по практической работе должен содержать: - наименование работы; - текст индивидуального задания, записанный без сокращений; - краткое изложение теоретического материала; - результаты расчетов с необходимыми пояснениями; - выводы. БИБЛИОГРАФИЧЕСКИЙ СПИСОК Основной: 1. Кремер, Н. Ш. Эконометрика / Н. Ш. Кремер, Б. А. Путко. - М.: ЮНИТИ-ДАНА, 2005. Дополнительный: 2. Доугерти, К. Введение в эконометрику / К. Доугерти; пер. с англ. – М.: ИНФРА-М, 2004. 2
3. Эконометрика / Под ред. И. И. Елисеевой. – М.: Финансы и статистика, 2005. 4. Практикум по эконометрике / Под ред. И. И. Елисеевой. – М.: Финансы и статистика, 2005.
3
Утверждено редакционно-издательским советом университета УДК 519.2.06(07) Эконометрика: Методические указания к выполнению практических работ. – СПб.: Изд-во СЗТУ, 2006. –35 с.
Методические указания разработаны на основании государственных образовательных стандартов высшего профессионального образования по специальности подготовки дипломированных специалистов “Финансы и кредит”. Приведены методические указания к выполнению трех практических работ, охватывающих важнейшие вопросы множественного регрессионного анализа. Комплекс практических работ ориентирован на пакет программ Microsoft Excel. Рассмотрено на заседании кафедры информатики 14.09.2006 г., одобрено методической комиссией факультета информационных технологий и систем управления 16.10.2006 г.
Рецензенты: кафедра информатики СЗТУ (зав. кафедрой Г. Г. Ткаченко, канд. физ.-мат. наук, доц.) С. И. Никитин, канд. физ.-мат. наук, проф., зав. каф. математики и математических методов в экономике СПбГАСЭ Составитель
М. Б. Шабаева, канд. физ.-мат. наук, доц.
© Северо-Западный государственный заочный технический университет, 2006
ОБЩИЕ УКАЗАНИЯ Целью методических указаний к выполнению практических работ является освоение студентами методики эконометрического моделирования, приобретение ими практических навыков использования инструментов корреляционно-регрессионного анализа MS Excel для обработки и анализа экономико-финансовой информации. В практических работах рассмотрены основные вопросы множественной регрессии: метод наименьших квадратов, отбор факторных переменных модели регрессии на основе корреляционного анализа данных, анализ статистической значимости параметров модели и уравнения, в целом, коэффициенты множественной и частной корреляции и детерминации, доверительные интервалы, обнаружение автокорреляции и мультиколлинеарности, нелинейные связи, производственные функции. В каждой практической работе излагаются необходимые для ее выполнения теоретические сведения и порядок выполнения работы, приводится решение типовой задачи и варианты индивидуальных заданий для самостоятельной работы. Нумерация рисунков и таблиц сквозная, а формулы нумеруются в каждой работе автономно. Студенты выполняют две практические работы по указанию преподавателя. К выполнению работ допускаются студенты, изучившие основные теоретические положения и ознакомившиеся с порядком выполнения работ. Отчет по практической работе должен содержать: - наименование работы; - текст индивидуального задания, записанный без сокращений; - краткое изложение теоретического материала; - результаты расчетов с необходимыми пояснениями; - выводы. БИБЛИОГРАФИЧЕСКИЙ СПИСОК Основной: 1. Кремер, Н. Ш. Эконометрика / Н. Ш. Кремер, Б. А. Путко. - М.: ЮНИТИДАНА, 2005. Дополнительный: 2. Доугерти, К. Введение в эконометрику / К. Доугерти; пер. с англ. – М.: ИНФРА-М, 2004. 3. Эконометрика / Под ред. И. И. Елисеевой. – М.: Финансы и статистика, 2005. 4. Практикум по эконометрике / Под ред. И. И. Елисеевой. – М.: Финансы и статистика, 2005.
3
Практическая работа 1 МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ 1. Цель работы Освоение методики эконометрического моделирования с использованием инструментов регрессионного анализа MS Excel. 2. Основные теоретические положения 2.1. Линейная модель множественной регрессии Значения экономических показателей определяются, как правило, влиянием нескольких факторов. В этом случае возникает задача исследования зависимости одной зависимой переменной (результативного признака) y от нескольких независимых переменных (объясняющих факторов) x1 , x 2 , …, xm , т. е. задача множественной регрессии. Наиболее простой и самой употребляемой является модель множественной линейной регрессии:
y = a 0 + a1 x1 + a 2 x 2 + K + a m x m + u ,
(1)
или для конкретных наблюдений i, i = 1, n ,
y i = a 0 + a1 x i1 + a 2 x i 2 + K + a m x im + u i , где ( xi1 , xi 2 ,..., xim , y i ) - выборка объема n , a 0 , a1 , K a m - неизвестные параметры модели, подлежащие оцениванию, u - случайная ошибка (отклонение). Предполагается, что ошибки в отдельных наблюдениях u i являются независимыми, нормально распределенными случайными величинами с нулевым матема-
(
)
тическим ожиданием и постоянной дисперсией: u i ~ N 0, σ 2 . Поскольку истинные значения параметров по выборке получить невозможно, то задача состоит в нахождении оценок (приближенных значений) b0 , b1 , ..., bm неизвестных параметров модели a 0 , a1 , ..., a m по исходным данным
( xi1 , xi 2 ,..., xim , y i ) , i = 1, n . Это означает построение уравнения ) y = b0 + b1 x1 + b2 x 2 + K + bm x m ,
(2)
которое называется уравнением линейной регрессии. При подстановке в это уравнение значений факторных переменных i-го наблюдения получим величину yˆ i : ) yi = b0 + b1 xi1 + b2 xi 2 + K + bm xim , (3) которая не будет совпадать с наблюдаемым значением y i . Разность между наблюдаемым значением yi и значением, рассчитанным по уравнению регрессии, называется остатком в наблюдении i и обозначается ei :
ei = y i − yˆ i . 4
(4)
Используя соотношение (4), наблюдаемые значения yi можно представить как y i = yˆ i + ei = b0 + b1 x i1 + b2 x i 2 + K + bm x im + ei .
(5)
Представим выборочные данные в виде матрицы-столбца Y значений зависимой переменной и матрицы X значений объясняющих переменных (первый столбец является единичным, так как в уравнении регрессии параметр b0 умножается на 1), коэффициенты уравнения регрессии - в виде матрицы-столбца B , а остатки наблюдений – в виде матрицы-столбца E: ⎡ y1 ⎤ ⎢y ⎥ Y = ⎢ 2⎥, ⎢K ⎥ ⎢ ⎥ ⎣ yn ⎦
⎡1 x11 x12 K x1m ⎤ ⎢1 x x K x ⎥ 2m ⎥ X = ⎢ 21 22 , ⎢K K K K ⎥ ⎢ ⎥ ⎣1 x n1 x n 2 K x nm ⎦
⎡b0 ⎤ ⎢b ⎥ B = ⎢ 2 ⎥, ⎢K ⎥ ⎢ ⎥ ⎣bm ⎦
⎡e1 ⎤ ⎢e ⎥ E = ⎢ 2⎥. ⎢K ⎥ ⎢ ⎥ ⎣e n ⎦
Используя введенные обозначения, соотношение (5) можно записать в матричном виде: Y = XB + E . (6) Для определения коэффициентов регрессии b0 , b1, ..., bm используется метод наименьших квадратов (МНК). В соответствии с МНК минимизируется сумма квадратов остатков: 2
m ⎛ ⎛ ⎞⎞ Q = ∑ ei = ∑ ( y i − yˆ i ) = ∑ ⎜ y i − ⎜⎜ b0 + ∑ b j x ij ⎟⎟ ⎟ . (7) ⎜ ⎟ i =1 i =1 i =1 ⎝ j = 1 ⎝ ⎠⎠ Необходимым условием минимума функции Q является равенство нулю всех ее частных производных по b0 , b1 , ..., bm . Приравняв частные производные к нулю, получим систему нормальных уравнений, матричная запись которой имеет вид n
2
2
n
n
X т XB = X тY .
(8)
Решением уравнения (8) является вектор МНК-оценок коэффициентов регрессии
(
B = X тX
)
−1
X тY .
(9)
Несмещенная оценка S 2 дисперсии σ 2 случайного члена u (или остаточная дисперсия) определяется по формуле n
S2 =
∑ ei
2
i =1
n − m −1
.
(10)
Выборочные дисперсии коэффициентов регрессии вычисляют по формуле
(
S b2j = S 2 X т X 5
)
−1 jj .
(11)
(
Здесь X т X
)
S = S2
−1 jj
(
- диагональный элемент матрицы X т X
)
−1
.
называется стандартным отклонением регрессии, S b j = S b2j
называется средним квадратическим отклонением (стандартной ошибкой) коэффициента регрессии b j . 2.2.
Оценка значимости коэффициентов регрессии
Поскольку уравнение регрессии определяется на основе выборочных данных, то коэффициенты этого уравнения являются точечными оценками (случайными величинами), значения которых изменяются от выборки к выборке. А значит, необходима проверка значимости этих коэффициентов. Для оценки статистической значимости коэффициентов регрессии рассчитывают доверительные интервалы и t – критерии. 2.2.1.
Проверка гипотез о параметрах регрессии
Анализ статистической значимости коэффициента регрессии b j осуществляется по схеме статистической проверки гипотез. Проверяют гипотезу H 0 : a j = 0 (j-я независимая переменная не влияет на результат) при альтернативной гипотезе H 1 : a j ≠ 0 (j-я независимая переменная влияет на результат). Для проверки гипотезы используется t-статистика t=
bj Sb j
,
которая при справедливости H 0 имеет распределение Стьюдента с числом степеней свободы ν = n − m − 1 . При требуемом уровне значимости α наблюдаемое значение t -статистики сравнивается с критической точкой t кр = tα ,n − m −1 распределения Стьюдента. Если t набл > t кр , то коэффициент b j считается статистически значимым, т. е. гипотеза H 0 : a j = 0 отклоняется. В противном случае ( t набл ≤ t кр ) коэффициент b j считается статистически незначимым (статистически близким к нулю). Это означает, что фактор x j линейно не связан с зависимой переменной y . Поэтому после установления того факта, что коэффициент b j статистически незначим, рекомендуется исключить из уравнения регрессии переменную x j .
6
2.2.2. Интервальные оценки параметров регрессии
После определения точечных оценок b j коэффициентов a j теоретического уравнения регрессии могут быть рассчитаны интервальные оценки коэффиbj − a j циентов. Если a j ≠ 0 , то статистика t = имеет распределение Стьюдента Sb j с ν = n − m − 1 степенью свободы. По таблице критических точек распределения Стьюдента по требуемому уровню значимости α и числу степеней свободы ν можно найти критическую точку t кр = tα ,n − m −1 , удовлетворяющую условию
(
) (
)
P t < t кр = P − t кр < t < t кр = β = 1 − α . Подставив в это соотношение вместо t статистику t =
bj − a j Sb j
, после преобразова-
ний получим
(
)
P b j − t кр S b j < a j < b j + t кр S b j = 1 − α . Таким образом, доверительный интервал, накрывающий с доверительной вероятностью β = 1 − α неизвестное значение параметра a j , определяется неравенством b j − t кр S b j < a j < b j + t кр S b j . (12) Если в границы доверительного интервала попадает ноль, т. е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый коэффициент принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения. 2.3.
Проверка общего качества уравнения регрессии
Наиболее часто в практических расчетах для оценки качества всего уравнения, в целом, применяется коэффициент детерминации R 2 , который рассчитывается по формуле ei2 ∑ 2 , (13) R =1− 2 ∑ yi − y
(
)
1 n где y = ∑ yi . Коэффициент детерминации характеризует долю общего n i =1 разброса значений зависимой переменной y , объясненного уравнением регрессии. Считается, что, чем больше эта доля, тем лучше уравнение регрессии описывает исследуемую зависимость. В общем случае 0 ≤ R 2 ≤ 1. 7
Коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Это значит, что при добавлении новых объясняющих переменных значение коэффициента детерминации будет расти, хотя это и не обязательно означает улучшение качества регрессионной модели. Поэтому предпочти2
тельнее использовать скорректированный коэффициент детерминации R , определяемый по формуле ei2 /( n − m − 1) 2 ∑ R =1− . (14) 2 ∑ y i − y /(n − 1) Соотношение (14) может быть представлено в следующем виде: 2 n −1 R =1− 1− R2 . (15) n − m −1
(
(
)
)
2
2
Обычно приводятся данные как по R 2 , так и по R . Доказано, что R увеличивается при добавлении новой объясняющей переменной тогда и только тогда, когда t – статистика для этой переменной по модулю больше единицы. Оценка значимости уравнения множественной регрессии осуществляется путем проверки гипотезы о статистической значимости коэффициента детерминации: H0 : R2 = 0,
H1 : R 2 > 0 . Для проверки гипотезы используется следующая F – статистика: n − m −1 R2 . (16) F= ⋅ m 1− R2 Проверка данной гипотезы равносильна проверке гипотезы о статистической незначимости уравнения регрессии:
H 0 : a1 = a 2 = K = a m = 0 (все коэффициенты линейной регрессии, за исключением свободного члена, равны нулю). Ведь если коэффициенты равны нулю для генеральной совокупности, то уравнение регрессии должно иметь вид yˆ = y , а коэффициент детерминации R 2 и F- статистика Фишера также равны нулю. При этом их оценки для случайной выборки, конечно, отличаются от нуля. Величина F при выполнении предпосылок МНК и при справедливости H 0 имеет распределение Фишера. При заданном уровне значимости α по таблицам критических точек распределения Фишера находится критическое значение Fкр = Fα ; m; n − m −1 . Если Fнабл > Fкр , то основную гипотезу отвергают и принимают альтернативную гипотезу о статистической значимости уравнения регрессии. Если Fнабл < Fкр , то основную гипотезу о незначимости уравнения регрессии не отвергают (уравнение модели признается незначимым). 8
2.4.
Обнаружение автокорреляции
Статистическая значимость коэффициентов регрессии и близкое к единице значение коэффициента детерминации R 2 не гарантируют высокое качество уравнения регрессии. Нарушение необходимых предпосылок МНК делает неточным анализ значимости оценок. Одной из предпосылок регрессионного анализа является независимость случайного члена в любом наблюдении от его значений во всех других наблюдениях. Если данное условие не выполняется, то говорят, что случайный член подвержен автокорреляции. Заметим, что необходимым условием независимости является некоррелированность случайных членов для каждых двух соседних значений, т. е. cov u i u j = 0 (i ≠ j ) . Поскольку значения случайных членов u i неизвестны, то проверяется статистическая некоррелированность остатков ei и ei −1 . Оценкой коэффициента корреляции ρ является коэффициент автокорреляции остатков первого порядка, который при достаточно большом числе наблюдений имеет вид ∑ ei ei −1 . r≈ ∑ ei2 Проверяется нулевая гипотеза об отсутствии корреляции первого порядка, т. е .
(
)
H0 : ρ = 0, H1 : ρ > 0 . Для проверки нулевой гипотезы используют статистику Дарбина-Уотсона, рассчитываемую по формуле 2 ∑ (ei − ei −1 ) DW = ≈ 2(1 − r ) , 0 ≤ DW ≤ 4 . (17) ∑ ei2 Если автокорреляция остатков отсутствует (r=0), то DW = 2 . При положительной автокорреляции (r>0) имеем 0≤DW<2, а при отрицательной (r<0) – 2
DW 0
dн
dв
Область Зона отклонения H0 неопределенности
2 Область принятия гипотезы
9
4-dв
4-dн
Зона неопределенности
4 Область отклонения H0
Если DW4-dн, то гипотеза о независимости остатков отвергается и модель признается неадекватной по критерию независимости остатков; если dв
dн 0,88 0,93 0,97 1,01 1,05 1,08 1,11 1,13 1,16 1,18 1,20
dв 1,32 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,40 1,41
m=2 dн 0,697 0,658 0,812 0,861 0,905 0,946 0,982 1,015 1,046 1,074 1,100
m=3
dв 1,641 1,604 1,579 1,562 1,551 1,543 1,539 1,536 1,535 1,536 1,537
dн 0,53 0,60 0,66 0,72 0,77 0,81 0,86 0,90 0,93 0,97 1,00
dв 2,02 1,93 1,86 1,82 1,78 1,75 1,73 1,71 1,70 1,69 1,68
m=4 dн 0,38 0,44 0,51 0,57 0,63 0,69 0,73 0,78 0,82 0,86 0,89
dв 2,41 2,28 2,18 2,09 2,03 1,98 1,94 1,90 1,87 1,85 1,83
3. Порядок выполнения практической работы Задание 1. В табл. 2 приведены данные за 11 дней о курсе доллара ( x1 , руб.), фондовом индексе ( x 2 ) и котировке акций ( y , ден. ед.). Таблица 2
x1 x2 y
27,8 4 73,4
27,85 28,7 4,2 4,8 75,4 79,3
28 4,3 76,2
28,25 28,3 4,5 4,6 77,1 77,4
28,5 4,8 78,2
28,1 4,1 75,2
28,8 4,7 79
28,75 28,7 4,9 5,1 79,5 79,3
Требуется: 1) построить уравнение множественной линейной регрессии и дать экономическую интерпретацию коэффициентов уравнения; 2) оценить стандартную ошибку регрессии и стандартные ошибки коэффициентов; 3) построить доверительные интервалы для коэффициентов регрессии, соответствующие доверительной вероятности β = 0,95 ; 4) оценить статистическую значимость коэффициентов регрессии с помощью t-критерия при уровне значимости α = 0,05 ; 10
5) оценить на уровне 0,05 полученное уравнение на основе коэффициента детерминации и F- критерия Фишера; 6) вычислить статистику DW Дарбина-Уотсона и оценить наличие автокорреляции; 7) сделать выводы по качеству построенной модели. Задание 2. В табл. 3 приведены данные за 15 лет по темпам прироста заработной платы y (%), производительности труда x1 (%), а также уровню инфляции x 2 (%). Таблица 3
N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
k=0, 5 k=1, 6 k=2, 7 x1 x2 y x1 x2 y x1 x2 3,5 4,5 9,1 1,5 7,1 8,5 1,7 6,9 2,8 3 6,1 2,8 3,1 6 2,6 4 6,3 3,1 8,9 6 3,1 5,9 5,9 3,3 4,5 3,8 9,2 4,7 3,8 9 4,7 3,8 3,1 3,8 7,1 2,9 3,7 6,8 2,9 3,7 1,5 1,1 3,2 1,5 1,1 3,4 6,4 3,3 7,6 2,3 6,5 2,8 3,9 5,6 2,8 3,9 6,7 3,6 9,1 6,7 3,8 9,1 6,7 3,8 4,2 7,5 14,6 2,6 4 4,8 2,6 4 2,7 8 11,9 2,5 8 12 2,5 8 4,5 3,9 9,2 4,4 4 8,9 5,1 5,3 3,5 4,7 8,8 3,7 4,6 8,8 3,7 4,6 5 6,1 12 5,2 6,2 13 5,2 6,2 2,3 6,9 12,5 2,3 7,1 12 2,3 7,1 2,8 3,5 6,7 3 4,2 7,1 2,2 6,5
y 8,8 4,9 6 9 6,8 9 5,6 9,1 4,8 12 11 8,8 13 12 12
k=3, 8 x1 x2 y 1,5 7,1 8,5 2,8 3,1 6 6 3,1 5,9 4,7 3,8 9 2,9 3,7 6,8 1,5 1,1 3,4 2,8 3,9 5,6 6,7 3,8 9,1 2,6 4 4,8 2,5 8 12 4,4 4 8,9 3,7 4,6 8,8 5,2 6,2 13 2,3 7,1 12 3 4,2 7,1
k=4, 9 x1 x2 y 2,7 3,5 6,6 7,5 2,5 6,4 3,2 4 8,5 4 3,8 7,4 2,9 3 6,3 1,5 1,2 3,4 2,8 3,9 5,6 6,7 3,8 9,1 2,6 4 5,8 2,5 7,1 12 4,4 3,8 9 3,7 4,6 8,8 5,2 6,2 13 2,3 7,1 12 3,5 5,7 8,5
Требуется: 1) оценить уравнение множественной линейной регрессии и дать экономическую интерпретацию коэффициентов уравнения; 2) оценить статистическую значимость каждого из коэффициентов регрессии с помощью t-статистики Стьюдента при уровне значимости α = 0,05 и путем расчета доверительного интервала; 3) оценить на уровне 0,05 полученное уравнение на основе коэффициента детерминации и F- критерия Фишера; 4) вычислить значение статистики DW Дарбина-Уотсона и на ее основе определить наличие автокорреляции; 5) сделать выводы по качеству построенной модели. Данные для анализа из табл. 3 следует выбрать в соответствии с последней цифрой шифра k , а объем выборки n уточнить у преподавателя. 11
Выполнение задания 1. Для выполнения задания воспользуемся пакетом MS Excel. 1. Введем исходные данные: матрицу X значений независимых переменных введем в ячейки A3:C13, а вектор-столбец Y значений зависимой переменной - в ячейки D3:D13 (см. табл. 4) . Объем выборки, равный в нашем примере 11, укажем в ячейке B1. Коэффициенты регрессии рассчитаем по формуле (9) как результат перемно-
(
)
(
−1
)
−1
жения матриц X т X и X т Y . Для вычисления матрицы X т X необходимо: • выделить ячейки A18:C20 для размещения матрицы; • набрать формулу =МОБР(МУМНОЖ(ТРАНСП(А3:C13);А3:C13)); • нажать клавиши CTRL+SHIFT+ENTER. Чтобы вычислить матрицу X т Y , необходимо: • выделить ячейки D18:D20 для размещения матрицы; • набрать формулу =МУМНОЖ(ТРАНСП(А3:C13);D3:D13); • нажать клавиши CTRL+SHIFT+ENTER. Для определения вектора коэффициентов регрессии необходимо: • выделить ячейки F18:F20 для размещения вектора; • набрать формулу =МУМНОЖ(А18:C20;D18:D20); • нажать клавиши CTRL+SHIFT+ENTER. По результатам вычислений (см. ячейки F18:F20 табл. 4) составим уравнение регрессии: yˆ = −13,6 + 2,75 ⋅ x1 + 2,82 ⋅ x 2 . (18) Оценка коэффициента b1 = 2,75 показывает, что при прочих равных условиях с увеличением курса доллара на 1 руб. стоимость акций увеличится в среднем на 2,75 ден. ед. Оценка коэффициента b2 = 2,82 показывает, что при прочих равных условиях с увеличением фондового индекса на единицу стоимость акций увеличится в среднем на 2,82 ден. ед. Заметим, что при множественной регрессии из-за наличия связи между факторами трактовка параметров регрессии не является такой же четкой и ясной, как в случае парной регрессии. 2. Остаточную дисперсию S 2 вычислим по формуле (10). 1) Найденное уравнение (18) позволяет рассчитать теоретические значения yˆ i . В ячейку E3 введем формулу =$F$18+$F$19*B3+$F$20*C3 и скопируем эту формулу в ячейки E4:E13. 2) Остатки ei = y i − yˆ i рассчитаем в ячейках F3:F13, а ei2 - в ячейках G3:G13: в F3 введем формулу =D3-E3 и скопируем ее в ячейки F4:F13, а в G3 – формулу =F3^2 и копируем в G4:G13. 3) Для вычисления суммы квадратов остатков в ячейку G14 введем формулу =СУММ(G3:G13), для вычисления остаточной дисперсии в ячейку G15 введем формулу =G14/(B1-2-1). Значение стандартной ошибки регрессии найдем в ячейке G16 по формуле =КОРЕНЬ(G15). 12
A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
B
n=
C
D
E
F
G
H
I
J
11 1 1 1 1 1 1 1 1 1 1 1
x1_i x2_i 27,8 27,85 28,1 28 28,25 28,3 28,5 28,7 28,8 28,75 28,7
y_i 4 4,2 4,1 4,3 4,5 4,6 4,8 4,8 4,7 4,9 5,1
yср=
73,4 75,4 75,2 76,2 77,1 77,4 78,2 79,3 79 79,5 79,3 77,27273
Мат. (X'X)_1 Мат. X'Y 2480,4 -102,6 93,9137 850 -102,6 4,2704 -4,059063 24096,97 93,914 -4,059 4,647244 3870,53
Анализ ур. регрессии R^2= 0,9574 R^2скор 0,9468 Пров. знач. ур. регрессии F= 89,958 Fкр= 4,459
(y_i-yср(e_i-e_i-1)^2 e_i e_i^2 -0,843762829 0,71193571 15 ---------0,454100419 0,20620719 3,507 1,684 -0,152132157 0,02314419 4,296 0,368 0,558804337 0,31226229 1,151 0,505 0,205903256 0,04239615 0,03 0,125 0,085989339 0,00739417 0,016 0,014 -0,22922066 0,05254211 0,86 0,099 0,32001501 0,10240961 4,11 0,302 0,026855681 0,00072123 2,983 0,086 0,100101093 0,01002023 4,961 0,005 -0,526653494 0,2773639 4,11 0,393 Сумма 1,74639678 41,02 3,581 S^2= 0,2182996 S= 0,46722542 Коэффициенты Проверка значимости коэффиц. b0= -13,60139233 S_b0= 23,27 t(b0)= -0,5845 b1= 2,753821646 S_b1= 0,966 t(b1)= 2,8522 b2= 2,822228349 S_b2= 1,007 t(b2)= 2,802 Дов. интервалы для коэфф. t_кр= 2,306 ниж. гран. вер. гран. b0 -67,26056833 40,0577837 b1 0,527320603 4,98032269 b2 0,499575485 5,14488121 Статистика Дарбина-Уотсона DW= 2,051 y^_i 74,2438 74,9459 75,3521 75,6412 76,8941 77,314 78,4292 78,98 78,9731 79,3999 79,8267
ВЫВОД ИТОГОВ Регрессионная статистика Множес 0,9785 R-квадр 0,9574 Нормир 0,9468 Стандар 0,4672 11 Наблюд Дисперсионный анализ df SS MS F Значимость F Регресс 2 39,27542 19,63771 89,9576 3,28482E-06 8 1,746397 0,2183 Остаток Итого 10 41,02182 Коэффициенты Стан. ош. t-стат. Y-перес -13,6 23,26933 -0,58452 x1_i 2,7538 0,965523 2,852154 x2_i 2,8222 1,00722 2,801999
P-Знач. 0,57498 0,02141 0,02313
Нижние 95% Верхние 95% Нижн. Верх. -67,26060308 40,0578184 -67,3 40,06 0,527319162 4,98032413 0,527 4,98 0,499573981 5,14488272 0,5 5,145
Для определения стандартных ошибок коэффициентов регрессии с использованием соотношения (11) введем формулы в следующие ячейки: H18: =КОРЕНЬ(A18*G15), H19: =КОРЕНЬ(B19*G15), H18: =КОРЕНЬ(C20*G15). В результате вычислений получены следующие значения (см. табл. 4): S = 0,4672 , S b0 = 23,27 , S b1 = 0,9655 , S b2 = 1,007 .
3. Доверительные интервалы параметров регрессии определяются соотношением (12). t кр определим в ячейке J21: =СТЬЮДРАСПОБР(1-0,05; B1-2-1). Введем в ячейки F23:G25 формулы для нахождения границ доверительных интервалов параметров. Вычислим нижнюю границу доверительного интервала для b0 в ячейке F23: =F18-J21*H18, верхнюю границу – в G23: =F18+J21*H18, для b1 нижняя граница в F24: =F19-J21*H19, верхняя – в G24: =F19+J21*H19, для b2 нижняя граница в F25: =F20-J21*H20, верхняя –в G25: =F20+J21*H20. Получены следующие доверительные интервалы (см. ячейки F23:G25 табл. 4): − 67,3 < b0 < 40,1 , 0,53 < b1 < 4,98 , 0,50 < b2 < 5,15 . Анализ верхней и нижней границ доверительных интервалов позволяет сделать вывод о статистической значимости коэффициентов b1 и b2 (коэффициенты существенно отличны от нуля) и статистической незначимости коэффициента b0 .
4. Анализ значимости коэффициентов регрессии выполним путем проверки нулевой гипотезы H 0 : a j = 0 . С целью проверки этой гипотезы для каждого из параметров a j рассчитаем t - статистику по формуле t набл =
bj Sb j
. Введем в ячейку
J18 формулу =F18/H18 и скопируем ее в ячейки J19:J20. В нашем примере (см. ячейки J18:J21 табл. 4) t b0 = −0,58 , t b1 = 2,85 , t b2 = 2,80 , t кр = 2,31.
Так как t b1 > t кр , t b2 > t кр , то оба коэффициента статистически значимы, а значит, переменные x1 и x 2 существенно влияют на y . Для свободного члена
t b0 < t кр , то есть он статистически незначим. Однако присутствие свободного члена в уравнении лишь уточняет вид зависимости, а в экономическом смысле он отражает воздействие “внешней среды”. Поэтому, если нет других причин, свободный член в модели лучше сохранить. Заметим, что выводы о значимости коэффициентов уравнения регрессии, сделанные на основании t-статистики и на основании доверительных интервалов, одинаковы. 5. Для нахождения коэффициента детерминации по формуле (13) прежде рассчитаем сумму в знаменателе формулы. Значение y вычислим в ячейке D15:
(
=СРЗНАЧ(D3:D13). Слагаемые y i − y
)2
рассчитаем в ячейках H3:H13: введем в
14
H3 формулу =(D3-$D$15)^2 и скопируем ее в H4:H13. Значение суммы найдем в H14 по формуле =СУММ(H3:H13). Коэффициент детерминации вычислим по формуле (13) в ячейке B24: =1G14/H14, а скорректированный коэффициент детерминации – по формуле (15) в ячейке B25: =1-(1-B24)*(B1-1)/(B1-3). Полученные значения коэффициента детерминации R 2 = 0,957 и скорректи2
рованного коэффициента детерминации R = 0,947 (см. табл. 4) близки к 1, что свидетельствует о тесной зависимости между факторами и результатом. Построенное уравнение регрессии объясняет 95,7 % разброса зависимой переменной. Для определения статистической значимости коэффициента детерминации R 2 проверяется нулевая гипотеза для F – статистики, вычисляемой по формуле (16). Наблюдаемое значение F-статистики вычислим в ячейке B27: =B24*(B13)/(2*(1-B24)), критическое значение – в ячейке B28: = FРАСПОБР(1-0,95;2;B12-1). Так как Fнабл = 89,96 > Fкр = 4,46 , то коэффициент детерминации R 2 статистически значим. Можно сделать вывод, что совокупное влияние переменных x1 и x 2 на переменную y существенно. 6. Статистику Дарбина-Уотсона вычислим по формуле (17). Рассчитаем элементы суммы, стоящей в числителе: введем в ячейку I4 формулу = (F4-F3)^2 и скопируем ее в ячейки I5:I13. Значение самой суммы вычислим в I14 по формуле =СУММ(I4:I13), а значение статистики Дарбина-Уотсона - в ячейке I27: = I14/G14. При заданном уровне значимости α = 0,05 и числе наблюдений n = 11 значения критических точек Дарбина-Уотсона равны d н = 0,658 , d в = 1,604 . Так как 1,604
Диалоговое окно ввода параметров инструмента Регрессия Уровень надежности – флажок, указывающий на значение доверительной вероятности, отличное от 95 % (отсутствие флажка означает, что доверительная вероятность по умолчанию предполагается равной 95 %); Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона; Новый рабочий лист – можно задать произвольное имя нового листа. Результаты регрессионного анализа для данных нашего примера представлены в ячейках A30:I48 табл. 4. Значения коэффициентов регрессии приведены в столбце Коэффициенты (см. ячейки B46:B48): в строке Y-пересечение находится значение b0 = −13,6 , в строке Переменная x1- значение b1 = 2,75 , в строке Переменная x2 - значение b2 = 2,82 . В соседних столбцах приведены стандартные ошибки (см. ячейки C46:C48) и t-статистики (см. ячейки D46:D48) коэффициентов регрессии. В столбцах Нижние 95 % и Верхние 95 % приведены границы доверительных интервалов для параметров регрессии (см. ячейки F46:G48). Последние два столбца дублируют границы доверительных интервалов в тех случаях, когда по умолчанию принимается значение доверительной вероятности, равное 95 %. Значение коэффициента детерминации находится в ячейке B34, значение скорректированного коэффициента детерминации – в ячейке B35, значение F – статистики – в ячейке E41, стандартное отклонение регрессии – в ячейке B36. Как видим, результаты вычислений по формулам и с помощью инструмента Регрессия совпадают. Литература: [1], с. 108-115; [2], с. 132-143 16
Практическая работа 2 НЕЛИНЕЙНАЯ РЕГРЕССИЯ 1. Цель работы Навыки построения нелинейной регрессии по экспериментальным данным. 2. Основные теоретические положения 2.1. Виды нелинейной регрессии Наиболее привлекательными с точки зрения простоты построения и экономической интерпретации являются линейные регрессионные модели. Однако для некоторых зависимостей представление их в линейной форме приводит к большим ошибкам. В этом случае при моделировании используют нелинейные регрессионные функции. Различают два класса нелинейных моделей: модели, нелинейные по факторным переменным (но линейные по оцениваемым параметрам), и модели, нелинейные по оцениваемым параметрам. К моделям регрессии, нелинейным по факторным переменным, относятся, например, полиномиальная y = a 0 + a1 x + a 2 x 2 ... + a m x m + u , a a a гиперболическая y = a 0 + 1 + 2 + ... + m + u . x1 x 2 xm К моделям регрессии, нелинейным по параметрам, относятся степенная y = a 0 x1a1 ⋅ x 2a2 ⋅ ... ⋅ x mam ⋅ u ,
показательная y = a 0 a1x1 ⋅ a 2x2 ⋅ ... ⋅ a mxm ⋅ u , экспоненциальная y = e a0 + a1x1 +...+ am xm ⋅ u и другие. Большинство нелинейных моделей можно в результате математических преобразований (путем перехода к новым переменным или посредством логарифмирования) привести к линейному виду. Параметры таких моделей оцениваются на основе метода наименьших квадратов, который применяется не к исходным, а к преобразованным данным. 2.2. Показатели качества уравнения регрессии
Показатель корреляции оценивает тесноту связи всего набора факторов с результативным признаком. Для нелинейных моделей регрессии показатель корреляции называется индексом множественной корреляции и рассчитывается по формуле n
n
R = 1−
S2 S y2
2 ∑ ( y i − yˆ i )
= 1 − i =n1
∑ ( yi − y )
i =1
2
= 1−
∑ ei2
i =1 n
∑ ( yi − y )
, 2
i =1
где S 2 , S y2 - остаточная и общая дисперсии результативной переменной. 17
(1)
Значение индекса множественной корреляции лежит в пределах от 0 до 1. Чем ближе его значение к 1, тем теснее связь результативного признака со всем набором исследуемых факторов. Качество построенной модели, в целом, оценивает индекс детерминации. Индекс множественной детерминации рассчитывается как квадрат индекса множественной корреляции: R 2 . Значимость уравнения множественной регрессии, в целом, оценивается с помощью F – критерия Фишера аналогично случаю линейной регрессии (см. п. 2.3 лабораторной работы 1). Качество построенной модели определяет также средняя ошибка аппроксимации – средняя арифметическая относительных отклонений по каждому наблюдению, которая рассчитывается по следующей формуле: 1 n y − yˆ i ⋅ 100 % . (2) A= ∑ i n i =1 y i Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше средняя ошибка аппроксимации. Для того чтобы модель можно было считать адекватной реальным данным, средняя ошибка аппроксимации не должна превышать 10-12 %. Эластичностью экономического показателя называется его способность реагировать в большей или меньшей степени на изменение другого показателя. Показателем силы связи факторной переменной x и результативной переменной y является коэффициент эластичности, который рассчитывается как относительное dy dx dy x изменение y на единицу относительного изменения x : E = : = ⋅ . y x dx y Только для степенной функции ( y = a ⋅ x b ) коэффициент эластичности представляет собой постоянную, не зависящую от x величину, равную параметру b. Поскольку для других функций коэффициент эластичности зависит от x , то обычно рассчитывают средние и точечные коэффициенты эластичности. Средний коэффициент эластичности рассчитывается для среднего значения dy x dy x0 x: E x = ⋅ , точечный–для конкретного значения x = x0 : E ( x0 ) = . ⋅ dx y x dx y ( x0 ) При рассмотрении множественной регрессии вводится понятие частной эластичности. Частные коэффициенты эластичности рассчитываются по формуле ∂y x j Ej = ⋅ , j = 1, m . (3) ∂x j y Частный коэффициент эластичности показывает, на сколько процентов в среднем изменяется результативный признак y при увеличении факторного признака x j на 1 % от своего среднего уровня при фиксированном положении других факторов модели.
()
()
18
2.3. Производственные функции
Нелинейные регрессии широко используются при эконометрическом анализе производства. Производственная функция – это функция, независимые переменные x1 ,..., x m которой принимают значения объемов используемых ресурсов (число переменных m равно числу ресурсов), а зависимая переменная – значения объемов выпускаемой продукции. Конкретное толкование переменных, выбор единиц их измерения, число включенных факторов зависят от характера производственной системы. Рассмотрим в качестве примера производственную двухфакторную функцию Кобба-Дугласа, которая записывается в следующем виде, часто используемом в литературе: Y = AK α Lβ u , (4) где Y - объем выпуска, K - затраты капитала, L - затраты труда, A, α , β параметры функции, причем A > 0, 0 < α < 1, 0 < β < 1 . Для производственной функции Кобба-Дугласа эластичность выпуска продукции по капиталу и труду равна соответственно α и β . Действительно, частный коэффициент эластичности по факторной переменной K : K ∂Y K E K (Y ) = ⋅ = αAK α −1 Lβ =α; ∂K Y AK α Lβ частный коэффициент эластичности по факторной переменной L : L ∂Y L E L (Y ) = ⋅ = βAK α Lβ −1 =β. (5) ∂L Y AK α Lβ Это означает, что увеличение затрат капитала на 1 % приведет к росту выпуска продукции на α %, а увеличение затрат труда на 1 % приведет к росту выпуска на β %. Линеаризация модели достигается путем логарифмирования обеих частей равенства (4): ln Y = ln A + α ln K + β ln L + ln u . (6) После замен переменных ln Y = y , ln A = b0 , ln K = x1 , ln L = x2 , ln u = e (7) соотношение (6) примет вид y = b0 + α ⋅ x1 + β ⋅ x 2 + e . (8) Для определения неизвестных коэффициентов b0 , α , β можно применить МНК. Заметим, что в данном случае минимизируется сумма квадратов отклонений логарифмов: )2 Q = ∑ (ln Y − ln Y ) → min .
Поскольку при логарифмировании правой части меняются свойства ошибок, для простоты будем считать, что ошибки ln u обладают свойствами, необходимыми для оценивания линейной регрессионной модели. 19
3. Порядок выполнения практической работы Задание 1. В табл. 5 приведены данные по 15 предприятиям отрасли для анализа зависимости объема выпуска продукции Y (млн руб.) от численности занятых на предприятии L (тыс. чел.) и среднегодовой стоимости производственного оборудования K (млн руб.). Требуется:
Таблица 5 Y 5,3 6,8 9 11,2 7,2 9,1 12,6 10,4 10,7 9,1 9,3 10 9,8 12,1 12,3 K 6,8 7 8,6 9,4 7,5 8,5 10,8 9 9,3 8,8 9 8,8 9,2 10,5 11 L 0,9 1,2 1,8 2,6 1,4 1,6 2,6 2,3 2,4 1,6 1,8 2 2,4 2,8 2,8 1) оценить производственную функцию Кобба-Дугласа и дать интерпретацию параметров уравнения; 2) найти множественный индекс корреляции; 3) дать оценку полученного уравнения на основе коэффициента детерминации и F-критерия Фишера на уровне 0,05; 4) оценить качество модели через среднюю ошибку аппроксимации. Задание 2. В табл. 6 приведены данные (усл. ед.) по объемам выпуска Y , затратам капитала K и труда L на предприятиях некоторой отрасли. Требуется:
Таблица 6 N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
k=0, 5 Y K 10,1 10 11,2 11,4 12,4 13,1 14,3 14,9 15,1 17,6 15,5 19,8 15,3 21,6 18,4 23,6 18,9 26,6 22,7 33,5 21,8 39,7 17,9 41,7 10,5 10,7 17,3 38,6 20,2 29,5
k=1, 6 L 10,2 11 12,3 12,5 13,8 14 13,8 15,4 15,4 18,6 18,3 13,7 9,9 16,1 17,1
Y K 20,8 31,5 16,1 22 12,3 13 14,1 14,8 16,5 22,2 15,5 19,8 17,2 38,5 18,3 23,5 14,3 15 17,8 42,1 11,1 11,3 22,7 33,3 10 10 15,2 21,4 20,5 29,8
k=2, 7 L 18,2 14,8 12,1 12,2 15 14 16,1 15,5 13,1 13,8 10,8 18,5 10,1 13,5 17,5
Y K 14,3 15 11,5 11,4 13,1 14,2 21,8 40 18,9 26,8 11,1 11,3 15,4 21,8 19,1 24,3 15,2 17,7 23,1 33,5 14,3 14,9 20,8 31,5 10,3 10,7 18,3 39,9 19,1 28,5
k=3, 8 L 13,1 11,2 13,6 18,4 15,5 10,8 13,9 16,3 13,5 18,7 12,2 18,2 10,1 17,2 16,5
Y K 10,6 10,8 11,2 11,4 12,5 13 13,9 14,6 14,9 17,1 15,2 19,5 15 21,6 18 22,9 14,3 15 22,7 33,5 21,6 38,9 16,5 22,2 20,8 31,5 16,1 22 19,9 27,9
k=4, 9 L 10,2 11 12,6 12,1 13,3 13,7 13,6 15,4 13,1 18,6 17,8 15 18,2 14,8 16,6
Y 12,4 14,3 16,1 14,3 21,8 15,3 18,2 11,1 22,7 15,3 17,7 10,2 18,8 17,4 10,1
K 13,1 14,9 22,1 15 39,7 21,6 23,5 11,3 33,5 17,6 40,7 10,5 26,5 38,6 10
L 12,3 12,5 14,9 13,1 18,3 13,8 15,6 10,8 18,6 13,7 13,8 10 15,3 16,3 10,2
1) оценить производственную функцию Кобба-Дугласа и дать интерпретацию параметров уравнения; 2) найти множественный индекс корреляции; 3) дать оценку полученного уравнения на основе коэффициента детерминации и F-критерия Фишера на уровне 0,05; 20
4) оценить качество модели через среднюю ошибку аппроксимации. Данные для анализа из табл. 6 следует выбрать в соответствии с последней цифрой шифра k, а объем выборки n – в соответствии с указаниями преподавателя. Выполнение задания 1. Для выполнения задания воспользуемся пакетом MS Excel. 1. Введем исходные данные в ячейки B3:D17 (см. табл. 7). Объем выборки, равный в нашем примере 15, укажем в ячейке A1. Поскольку предполагается регрессионная зависимость в форме функции Кобба-Дугласа, то воспользуемся соотношениями (6) - (7) для линеаризации модели. Рассчитаем преобразованные по формулам (7) выборочные значения. Для определения значений ln Yi введем в ячейку E3 формулу =LN(B3) и скопируем ее в ячейки E4:E17. Аналогично вычисляем значения ln K i в ячейках F3:F17 и значения ln Li в ячейках G3:G17. Коэффициенты линейной регрессии (8) рассчитаем с помощью инструмента анализа данных Регрессия. Для этого выполним команды Сервис-Анализ данныхРегрессия-OK. Введем необходимые параметры в диалоговое окно Регрессия:
Входной интервал Y Входной интервал X Метки Выходной интервал OK
E2:E17 F2:G17 флажок A26
По результатам вычислений (см. ячейки B36:B38 табл. 7) составим линейное уравнение yˆ = 0,3152 + 0,7681 ⋅ x1 + 0,3868 ⋅ x 2 . Выполнив его потенцирование и вычислив параметр А по формуле A = e b0 в ячейке B34: =EXP(B36), получим искомое регрессионное уравнение Yˆ = 1,3705 ⋅ K 0,7681 ⋅ L0,3868 . Оценка коэффициента α = 0,7681 показывает, что увеличение затрат капитала на 1 % приведет к росту выпуска продукции на 0,77 %. Оценка коэффициента β = 0,3868 показывает, что увеличение затрат труда на 1 % приведет к росту выпуска продукции на 0,39 %. 2. Индекс множественной корреляции рассчитаем по формуле (1). Подставляя в найденное уравнение регрессии фактические значения x , определим расчетные значения Yˆ и необходимые суммы. Для этого введем формулы в следующие ячейки: H3 I3 B18 J3
=1,3705*C3^0,7681*D3^0,3868 и копируем в H4:H17; =(B3-H3)^2 и копируем в I4:I17; =СРЗНАЧ(B3:B17); = (B3-B18)^2 и копируем в J4:J17; 21
A
B
C
D
E
F
G
H
1 15 Исходные данные Преобразованные данные 2 Y K L lnY lnK lnL ^Y 3 1 5,3 6,8 0,9 1,6677 1,917 -0,1054 5,7363 4 2 6,8 7 1,2 1,9169 1,946 0,1823 6,5558 5 3 9 8,6 1,8 2,1972 2,152 0,5878 8,9827 6 4 11,2 9,4 2,6 2,4159 2,241 0,9555 11,088 7 5 7,2 7,5 1,4 1,9741 2,015 0,3365 7,3373 8 6 9,1 8,5 1,6 2,2083 2,14 0,47 8,5059 9 7 12,6 10,8 2,6 2,5337 2,38 0,9555 12,336 10 8 10,4 9 2,3 2,3418 2,197 0,8329 10,227 11 9 10,7 9,3 2,4 2,3702 2,23 0,8755 10,662 12 10 9,1 8,8 1,6 2,2083 2,175 0,47 8,7355 13 11 9,3 9 1,8 2,23 2,197 0,5878 9,3019 14 12 10 8,8 2 2,3026 2,175 0,6931 9,523 15 13 9,8 9,2 2,4 2,2824 2,219 0,8755 10,574 16 14 12,1 10,5 2,8 2,4932 2,351 1,0296 12,423 17 15 12,3 11 2,8 2,5096 2,398 1,0296 12,875 18 Yср= 9,66 Сумма 19 20 R= 0,982 21 R^2= 0,965 22 Fнабл= 163,5 23 Fкр= 3,885 24 Аош= 0,033 25 26 ВЫВОД ИТОГОВ Дисперсионный анализ 27 Регрессионная статистика df SS MS F 28 Множест 0,983 Регрес 2 0,767 0,3837 177,31 29 R-квадра 0,967 Остат 12 0,026 0,0022 30 Нормиро 0,962 Итого 14 0,793 31 Стандар 0,047 32 Наблюде 15 33 34 A= 1,37 35 КоэффициентыСт. ош. t-ст. P-Зн. Нижн. Верхн. Нижн. 36 Y-пересе 0,315 0,4806 0,66 0,5244 -0,73 1,3624 -0,732 37 lnK 0,768 0,2492 3,08 0,0095 0,225 1,3111 0,2251 38 lnL 0,387 0,1049 3,69 0,0031 0,158 0,6154 0,1582 39 40 41 42 43
I
J
(Y-^Y)^2 (Y-Yср)^2 0,19034 19,0096 0,05963 8,1796 0,0003 0,4356 0,01256 2,3716 0,01885 6,0516 0,35298 0,3136 0,06986 8,6436 0,02992 0,5476 0,00145 1,0816 0,13283 0,3136 3,6E-06 0,1296 0,22751 0,1156 0,59873 0,0196 0,10412 5,9536 0,33016 6,9696 2,12924 60,136
Значимость F 1,2E-09
Верхн. 1,36237 1,31114 0,61541
K 1 2 (Y-^Y)/Y 3 0,0823 4 0,0359 5 0,0019 6 0,01 7 0,0191 8 0,0653 9 0,021 10 0,0166 11 0,0036 12 0,0401 13 0,0002 14 0,0477 15 0,079 16 0,0267 17 0,0467 18 0,496 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43
I18 =CУММ(I3:I17); J18 =СУММ(J3:J17); B20 =КОРЕНЬ(1-I18/J18). Полученное значение индекса множественной корреляции R=0,9821 достаточно близко к 1 и свидетельствует о тесной связи Y c K и L. 3. Множественный коэффициент детерминации вычислим в ячейке B21 по формуле =B20^2. Значение R2=0,9646 означает, что включенные в регрессию факторы объясняют 96,5 % вариации Y. Проверим значимость модели регрессии. Фактическое значение F- критерия вычислим по формуле (16) п. 2.3 лабораторной работы 1 в ячейке B22: =B21/(1B21)*(A1-2-1)/2. Критическое значение F-критерия для уровня значимости 0,05 при m = 2 и n − m − 1 = 15 − 2 − 1 = 12 степенях свободы определим в ячейке B23: =FРАСПОБР(0,05;2; А1-2-1). Поскольку Fнабл = 163,5 > Fкр = 3,9 , то можно сделать вывод о том, что
модель регрессии значима. 4. Рассчитаем среднюю ошибку аппроксимации по формуле (2). Введем формулы в следующие ячейки: K3 K18 B24
= (B3-H3)/B3 и копируем в K4:K17; =CУММ(K3:K17); =K18/A1.
Для нашего примера A = 0,03306 (3 %), что свидетельствует о незначительной погрешности модели. Заметим, что значения показателей качества модели, рассчитанные по формулам, отличаются от значений, полученных с помощью инструмента анализа данных. Расхождение объясняется тем, что в основе показателей лежит величина остатка ei = y i − yˆ i . Именно это выражение мы использовали в расчетах показателей с помощью формул. Инструмент анализа был применен к линеаризованному уравнению, т. е. остатки вычислялись по формуле ei = ln y i − ln yˆ i . Литература: [1], с. 124-128; [2], с. 153-174
23
A
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
B Балансо вая прибыль y 1 30,7 2 30,3 3 29,2 4 28,6 5 25,9 6 21,6 7 13,1 8 12,5 9 12,1 10 9,3 11 8,6 12 8,2 13 7,7 14 4,1 15 3,7 16 3,4 17 1,8 18 1,8 19 1,6 20 1,5 Регресс. Стат. Множест 0,73035 R-квадра 0,53342 Нормиро 0,5075 Стандар 7,57565 20 Наблюде Коэффициенты Y-пересе -64,541 x2 0,06636 Регресс. стат. Множест 0,76302 R-квадра 0,58219 Нормиро 0,53304 Стандар 7,37658 20 Наблюде Коэффициенты Y-пересе -61,7364 x2 0,05696 x3 0,015 Регресс. стат. Множест 0,76322 R-квадра 0,5825 Нормиро 0,50422 Стандар 7,6008 Наблюде 20 Коэффициенты Y-пересе -61,0613 X1 0,0011 x2 0,05618 x3 0,01502
C
D
E Вложение в ценные бумаги x3 754 720,3 610,5 712,8 411,3 610,5 603,8 669,5 710,3 510 469,7 510,5 558,4 547,1 646,1 228,1 605 445,1 529,5 18,5
Собственный Чистые капитал активы x1 x2 531,2 1369,7 50,5 1167 410,1 1253,6 163,1 1247,5 317,4 1336 105,9 1232,7 193,5 1220,1 70,2 1299,1 233,9 1195,6 29,1 1086,3 179,8 1283,3 802,6 1169,3 135,9 1056 124,6 1155,7 114,2 1051,7 113,6 1142,7 107,4 1034,8 106,1 929,7 50,5 1086,9 50,3 986,4 Дисперсионный анализ df SS Регрессия 1 1180,9976 Остаток 18 1033,0279 Итого 19 2214,0255
F
G
H
I
y
x1 x2 x3 1 0,32582 1 0,73035 0,4293 1 0,50993 0,1675 0,4244 1 tнабл n= 20 t(r(y_x1))= 1,46215 t(r(y_x2))= 4,53633 t(r(y_x3))= 2,51501 t(r(x1_x2))= 2,01668 t(r(x1_x3))= 0,72082 t(r(x2_x3))= 1,98847 tкр= 2,10092 Частные коэффициенты корреляции r(yx1|x2)= 0,01991 tнабл= 0,0821 r(yx3|x2)= 0,32332 tнабл= 1,4088 R(y|x2x3)= 0,76302 tкр= 2,1098 Ry^2= 0,58219 R^2скор= 0,53304 Fнабл= 11,8443 Fкр= 3,59153 y x1 x2 x3
MS F Значимость 1180,998 20,5783 0,0003 57,39044
Станд. ош. t-стат. 17,12989623 -3,76774 0,014629128 4,536331 Дисперсионный анализ df Регрессия 2 Остаток 17 Итого 19
P-Знач. Нижн. 95%Верх. 95% Нижн. Верхн. 0,0014091 -100,5296 -28,552 -100,5 -28,552 0,0002557 0,035628 0,0971 0,0356 0,0971
Станд. ош. t-стат. 16,79816487 -3,675187 0,015731665 3,620547 0,010649347 1,408759 Дисперсионный анализ df Регрессия 3 Остаток 16 Итого 19
P-Знач. Ниж. 95% Верх. 95% Нижн. 0,0018762 -97,17747 -26,295 -97,18 0,0021126 0,023766 0,09015 0,0238 0,1769343 -0,007466 0,03747 -0,007
Станд. ош. 18,38799559 0,010081074 0,017697202 0,010974811
t-стат. -3,320717 0,108761 3,174788 1,368936
SS 1288,9877 925,03779 2214,0255
SS 1289,6711 924,35441 2214,0255 P-Знач. 0,0043263 0,9147447 0,0058811 0,1899322
J
MS F Значимость 644,4939 11,8443 0,0006 54,41399
Верхн. -26,295 0,0901 0,0375
MS F Значимость 429,8904 7,44113 0,0024 57,77215 Ниж. 95% Верх. 95% Нижн. -100,0421 -22,081 -100 -0,020274 0,02247 -0,02 0,018668 0,0937 0,0187 -0,008242 0,03829 -0,008
Верхн. -22,081 0,0225 0,0937 0,0383
Таблица 9 k=0, 5
k=1, 6
k=2, 7
k=3, 8
k=4, 9
y x1 x2 x3 203 118 105 0,3 63 28 56 0,3 45 17 54 0,1 113 50 63 0,8 121 56 28 0,6 88 102 50 1 110 116 54 1 56 124 42 1,6 80 114 36 1,4 237 154 106 1,7 160 115 88 0,9 75 98 46 1,3 61 23 55 0,4 115 53 55 0,5 220 150 99 1,3
y x1 x2 x3 88 102 50 1 110 116 54 1 56 124 42 1,6 80 114 36 1,4 237 154 106 1,7 160 115 88 0,9 75 98 46 1,3 61 23 55 0,4 115 53 55 0,5 220 150 99 1,3 90 125 44 0,6 91 130 40 0,9 65 27 54 0,2 44 20 54 0,1 170 125 90 1
y x1 x2 x3 63 28 56 0,3 45 17 54 0,1 113 50 63 0,8 121 56 28 0,6 88 102 50 1 56 124 42 1,6 80 113 36 1,4 237 154 106 1,8 160 115 88 0,9 75 98 46 1,3 116 52 55 0,4 91 130 40 0,9 65 27 54 0,2 44 20 54 0,1 168 125 88 1,1
y x1 x2 x3 162 115 90 0,9 64 29 56 0,4 113 52 55 0,5 92 124 43 0,6 123 56 29 0,7 88 105 52 1 108 118 56 1 66 30 53 0,3 82 112 37 1,4 90 133 42 0,9 168 124 88 1 77 101 48 1,4 63 25 54 0,4 45 21 55 0,1 215 145 98 1,3
y x1 x2 x3 199 115 102 0,3 88 102 50 1 47 16 53 0,1 111 51 62 0,8 120 56 27 0,6 80 114 36 1,4 110 116 54 1 56 124 42 1,6 75 98 46 1,3 235 155 105 1,6 160 115 88 0,9 44 20 54 0,1 61 23 55 0,4 115 53 55 0,5 220 150 99 1,3
Данные для анализа из табл. 9 следует выбрать в соответствии с последней цифрой шифра k, а объем выборки n – в соответствии с указаниями преподавателя. Выполнение задания 1. Задание выполним с использованием пакета MS Excel. 1. Матрицу парных коэффициентов корреляции переменных можно рассчитать с использованием пакета анализа. Для этого необходимо выполнить следующие действия: • создать электронную таблицу с исходными данными (см. ячейки A1:E22 табл. 10); • выполнить команду Сервис-Анализ данных-Корреляция-ОК; • заполнить открывшееся диалоговое окно: Входной интервал B2:E22 Группирование по столбцам Метки флажок Выходной интервал F2 OK Результаты вычислений – матрица парных коэффициентов корреляции – представлены в табл. 10 (ячейки F2:J6). Проверим значимость полученных парных коэффициентов корреляции с помощью t – критерия Стьюдента. Для этого рассчитаем наблюдаемые значения tстатистики по формуле (2) в ячейках G8:G13. Объем выборки, равный 20, укажем в ячейке I7. Введем формулу в ячейку G8: =G4*SQRT(($I$7-2)/(1-G4*G4)) и скопируем ее в ячейки G9:G10. Введем в G11: = H5*SQRT(($I$7-2)/(1-H5*H5)) и скопируем в G12. Введем в G13: = I6*SQRT(($I$7-2)/(1-I6*I6)). t кр найдем в ячейке G15: =СТЬЮДРАСПОБР(0,05; 20-2). Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми. В нашем примере 31
лишь для r yx1 t набл = 1,46 < t кр = 2,10 (см. табл. 10). Таким образом, связь между y и x 2 , а также между y и x3 является существенной. Можно сделать вывод, что размер получаемой банком прибыли практически не зависит от величины собственного капитала банка, но зависит от величины чистых активов и объема вложений в ценные бумаги. При этом связь между указанными показателями прямая (положительная): увеличение обоих факторов приводит к росту зависимой величины – прибыли. Большое значение для исследования имеют также коэффициенты, рассчитанные между факторными признаками. В нашем случае rx1x2 = 0,43 , rx1x3 = 0,17 , rx2 x3 = 0,42 , т. е. их величины незначимы (несущественны), а значит,
можно надеяться, что полученное в дальнейшем уравнение регрессии будет адекватно отражать взаимосвязь признаков. Большие значения парных коэффициентов корреляции ( r > 0,7 ) говорят о мультиколлинеарности факторов и о необходимости исключения одного из них из дальнейшего анализа. 2. Наибольшее влияние на результативный признак оказывает фактор x2 ( ryx2 = 0,730 ), значит, при построении модели он войдет в регрессионное уравнение первым. Рассчитаем частные коэффициенты корреляции, чтобы посмотреть, как данный факт повлияет на взаимосвязь y с другими факторами. Вычислим r yx1 x2 =
r yx1 − r yx2 rx1x2
(1 − r )(1 − r yx2
r yx3 x2 =
2
x1x2
2
r yx3 − r yx2 rx2 x3
(1 − r )(1 − r yx2
2
x2 x3
2
)
в ячейке G16: =(G4-G5*H5)/КОРЕНЬ(((1-G5^2)*(1-H5^2)),
)
в ячейке G17: = (G6-G5*I6)/КОРЕНЬ((1-G5^2)*(1-I6^2)).
Наблюдаемые значения t – статистики вычислим для r yx1 x2 в I16: =G16*КОРЕНЬ(($I$7-3)/(1-G16^2)); для r yx3 x2 в I17: =G17*КОРЕНЬ(($I$7-3)/(1-G17^2)); t кр - в I18: =СТЬЮДРАСПОБР(0,05;I17-3).
Как видим (см. табл. 10), связь y и x1 при условии, что x2 войдет в модель, значительно снизилась (связи практически нет). Отсюда можно сделать вывод, что ввод в регрессионное уравнение x1 остается нецелесообразным, его влияние на зависимую переменную не подтвердилось. Изменилась ситуация с фактором x3 : введение в модель x2 сделало связь с у несущественной ( t набл = 1,407 < t кр = 2,110 ). Поэтому становится возможным исключение его из числа факторов, входящих в регрессионное уравнение. Можно сделать вывод, что при построении регрессионного уравнения следует отобрать факторы x2 и x3 (или только x 2 ). 32
3. R y x2 x3 =
Вычислим
множественный
rx2 y 2 + rx3 y 2 − 2rx2 x3 rx2 y rx3 y
1 − rx2 x3
2
коэффициент в
ячейке
корреляции G18:
по
формуле
=SQRT((G5^2+G6^2-
2*I6*G5*G6)/(1-I6^2)), коэффициент детерминации R 2 = R y2 x2 x3 в ячейке G19: =G18^2
и
скорректированный коэффициент детерминации по формуле 2 n −1 R = 1 − (1 − R 2 ) в ячейке G20: =G19/(1-G19)*(I7-3)/2. n − m −1 Для проверки значимости рассчитаем наблюдаемое значение F – статистики n − m −1 R2 ⋅ в ячейке G21: =G19/(G19-1)*(I7-3)/2 и по формуле F = m 1− R2 критическое значение в G22: =FРАСПОБР(0,05;2;I7-3). Скорректированное значение коэффициента детерминации равно 0,533. Следовательно, размер получаемой банком прибыли на 53,3 % определяется величиной его чистых активов и объемом вложений в ценные бумаги, тогда на долю неучтенных факторов приходится 46,7 % всей вариации результативного признака. 4. Выше на основе анализа матрицы корреляции и значений частных коэффициентов корреляции был сделан вывод о том, что мультиколлинеарность факторов отсутствует, и в модель, в первую очередь, должен быть включен фактор x 2 . Построим регрессионную модель показателя прибыли банка с помощью инструмента Регрессия, включив в качестве факторной только переменную x 2 . Описание работы с инструментом анализа данных Регрессия можно найти в лабораторной работе 1. Результаты моделирования следующие (см. ячейки A23:I31 табл. 10): yˆ = −64,54 + 0,06636 x 2 , t b2 = 4,54 , R = 0,730 , R 2 = 0,533 , 2
R = 0,508 , Fнабл = 20,58 . Коэффициент регрессии значим ( t b2 = 4,54 > t кр = 2,10 ), расчетное значение F- критерия Фишера (Fнабл=20,58) также больше критического (Fкр=4,41). Построенная модель достаточно полно отражает вариацию балансовой прибыли. Попытаемся улучшить модель, введя в модель фактор x3 . Результаты моделирования будут следующие (см. ячейки A32:I41 табл. 10): t b3 = 1,41 , R = 0,763 , R 2 = 0,582 , yˆ = −61,74 + 0,05706 x 2 + 0,015 x3 , t b2 = 3,62 , 2
R = 0,533 , Fнабл = 11,84 . Коэффициент регрессии значим ( t b2 = 3,62 > t кр = 2,11), расчетное значение F- критерия Фишера (F=11,84) также больше табличного (Fтабл=3,59). Построенная модель, как видим, также является приемлемой. Однако увеличение коэффициента детерминации на величину 0,05 (или уменьшение значения остаточной дисперсии на 5 %) нельзя считать существенным улучшением качества модели. 33
При включении в модель всех переменных получим yˆ = −61,06 + 0,0011x1 + 0,0562 x 2 + 0,01502 x3 , t b1 = 0,109 , t b2 = 3,17 , t b3 = 1,37 , 2
R = 0,763 , R 2 = 0,583 , R = 0,504 , Fнабл = 7,44 (см. табл. 10). Наиболее приемлемой в нашем примере является модель регрессии с одной факторной переменной x 2 . Только в этом случае значимы коэффициенты регрессии и коэффициент детерминации, хотя прогнозные качества модели недостаточно высоки. Литература: [1], с. 108-115; [2], с. 132-14
34
СОДЕРЖАНИЕ
ОБЩИЕ УКАЗАНИЯ БИБЛИОГРАФИЧЕСКИЙ СПИСОК Практическая работа 1. Множественная линейная регрессия Практическая работа 2. Нелинейная регрессия Практическая работа 3. Корреляционный анализ
3 3 4 17 24
Редактор И. Н. Садчикова Сводный темплан 2006 г. Лицензия ЛР № 020308 от 14.02.97 Санитарно-эпидемиологическое заключение № 78.01.07.953.П.005641.11.03 от 21.11.2003 г. Подписано в печать Б. кн.-журн. П.л. Тираж
Формат 60х84 1/16 Б.л. Изд-во СЗТУ Заказ
Северо-Западный государственный заочный технический университет Издательство СЗТУ, член Издательско-полиграфической ассоциации
35
K 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52