М И Н И СТ Е РСТ В О О БРА ЗО В А Н И Я РО ССИ Й СК О Й Ф Е Д Е РА Ц И И В О РО Н Е Ж СК И Й ГО СУ Д А РСТ В Е Н Н Ы Й У...
36 downloads
357 Views
555KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
М И Н И СТ Е РСТ В О О БРА ЗО В А Н И Я РО ССИ Й СК О Й Ф Е Д Е РА Ц И И В О РО Н Е Ж СК И Й ГО СУ Д А РСТ В Е Н Н Ы Й У Н И В Е РСИ Т Е Т М А Т Е М А Т И ЧЕ СК И Й Ф А К У ЛЬТ Е Т
К А Ф Е ДР А У Р А В Н Е Н И Й В Ч А С ТН Ы Х П Р О И ЗВ О ДН Ы Х И ТЕ О Р И И В Е Р О ЯТН О С ТЕ Й
Р Е Г Р Е ССИ О Н Н Ы Й А Н А Л И З ДА ННЫ Х НА
ПК
В П Р И М Е Р А Х И ЗА Д А Ч А Х (С И С Т ЕМ А
STATISTICA)
Для ст уден т ов 3-4 курсов мат емат ического факульт ет а дн евн ого от делен ия
Состав итель: В .П . Богатова
В оронеж – 2001
Р абота № 2. Л и н е йн ая м оде ль . М н ож е ст ве н н ая ре гре сси я. 2.1. М ногомернаярегрессионнаямодель М ногомернаярегрессионнаямодель(или модельмножественной регрессии) является об об щ ением линейной регрессионной модели с дву мя переменны ми. П у сть n - число измерений значенияф акторов X1, X2 ,… , Xk и соотв етству ю щ их значений переменной Y. П редполагается, что yi = β 0 + β1 xi1 + ... + β k xik + ε i , i = 1,..., n ,
( 12 )
(первы й индекс значения xik относитсяк номеру наб лю денияв торой - к номеру ф актора); здесь ε i (i = 1,… ,n) – н екоррелирован н ы е, н ормальн о распределен н ы е слу чайны е в еличины , такие, что
M ε i = 0 , M ε i2 = σ 2 .
( 13)
В матричной ф орме соотнош ения(12) имею твид: Y = X β +ε ,
( 14 )
где
1 X = M 1
x11 M
K K
xn1
K
x1k y β ε M , Y = M , β = M , ε = M . y β ε xnk n k n
О ц ен ка коэффиц иен т ов регрессии и дисперсии σ 2 ош ибок.
) В качестве оценки β дляв ектор-столб ца неизв естны х коэ ф ф ициентов регрессии β
в озьмем
) −1 β = ( X T X ) X TY .
( 15 )
В предположениях модели оценка (15) являетсянесмещ енной и э ф ф ективной, если ранг матрицы
X равен k + 1 (теоремаГау сса-М аркова[5]). Более то-
) ) го, в ектор оценок Y = X β зависимой переменной минимально (в смы сле квадратанормы разности) отличаетсяотвектора Y заданны х значений: )2 )2 ) Y − Y = Y − X β → min по β . К ов ариационная(дисперсионная) матрицаравна ) ) ) T −1 Dβ = β − β β − β = σ 2 ( X T X ) = σ 2 Z ,
(
(
где Z = X T X
)
)(
)
( 16 )
−1
Д алее об означим вектор остатков (или невязок) ) ) e = Y − Y = Y − X β = I − X X T X
(
(
здесь B = I − X X T X
)
−1
XT
остаточной су ммы квадратов
)
−1
X T Y = BY
– матрица; можно проверить, что
e
2
( 17 )
B 2 = B . Д ля
справедлив о соотнош ение n
M e = M ∑ ei2 = (n − k − 1)σ 2 , 2
i =1
отку даследу ет, что несмещ енной оценкой для σ 2
s =
e
2
2
n − k −1
=
является
Y T BY . n − k −1
( 18 )
В предположениях модели справ едливы следу ю щ ие свойстваоценок:
s2 1) ( n − k − 1) 2 σ
с n − k − 1 степенями
имеетраспределение хи-квадрат
своб оды ( χ n2−k −1 ); ) 2) оценки β и s 2 незав исимы . К ак и в слу чае простой регрессии, справедлив о соотнош ение
∑( y
i
i
−y
)
)
) = ∑( y − y ) + ∑( y 2
i
i
2
i
i
i
− yi
)
2
или SST = SSE + SSR .
( 19 )
Значение коэ ф ф ициента детерминации R 2 , возрастает с ростом числапеременны х в регрессии, что не означаету лу чш ениякачествапредсказания. П отому дляоценки качеств а подгонки регрессионной модели к наб лю даемы м значениям
yi , в водится скоррект ирован н ы й (adjusted) коэффиц иен т дет ермин ац ии 2 Radj = 1 − (1 − R 2 )
(n − 1) . ( n − k − 1)
(20 )
Различны е регрессии (с различны м наб ором переменны х) можно сравнивать по скорректиров анному коэ ф ф ициенту детерминации (20) и принять тот в ариант 2 регрессии, длякоторого Radj максимален.
Доверит ельн ы еин т ервалы и проверка гипот езы о н улевы х зн ачен иях коэффиц иен т ов регрессии. ) Стандартной ош иб кой оценки β j являетсяв еличина σ z jj ,
оценка
длякоторой является s j = s z jj ,
j = 0,1,..., k ,
где z jj – диагональны й э лемент матрицы
( 21 )
Z = ( X T X ) . В предположениях мо−1
дели, приведенны х вы ш е, статистика
! β ( t=
j
− βj
)σ
sσ
z jj
=
! −β β j j sj
( 22 )
распределенапо закону Стью дентас ( n − k − 1) степенями своб оды . П оэ тому неравенство
) β j − β j ≤ tps j
( 23 )
задает дов ерительны й интервал для β j с у ров нем дов ерия γ , если t p – квантильу ров ня p = (1 + γ ) 2 распределенияСтью дента. Д ляпроверки гипотезы H 0 : β1 = β 2 = ... = β k = 0 то ни б ы ло линейной связи между статистика
( об отсу тствии какой б ы
y и совоку пностью ф акторов) использу ется
F=
R2 k
(1 − R ) ( n − k − 1) 2
=
SS R ( n − k − 1) ⋅ , SS E k
( 24 )
распределенная, если гипотеза H 0 верна, по закону Ф иш ерас k и n − k − 1 степенями своб оды . Гипотеза H 0 отклоняется, если
F > Fα ( k , n − k − 1) ,
( 25 )
где Fα – квантильу ровня 1 − α . О тб ор наиб олее су щ ественны х об ъясняю щ их переменны х осу щ ествляется по скорректиров анному коэ ф ф ициенту детерминации (21). П ринимается тот ва2 риант регрессии, длякоторого Radj максимален. П одроб ности разоб раны в при-
мере 2. 2.2. М ножест веннаярегрессияв системе STATISTICA 2.2.1. При м е р 4. [6] Н а рис. 22 изображ ен а элект рон н ая т аблиц а сдан н ы ми об ат омн ы х элект рост ан ц иях н а реакт орах сводян ы м охлаж ден ием (Р В О ). П о эт им дан н ы м т ребует ся предсказат ь величин укапит альн ы х зат рат , н еобходимы х для ст роит ельст ва последую щ их элект рост ан ц ий . Раб отаем в моду ле Multiple Regression. Создадим ф айл ELECTRO.STA размером 10v×35c и введем данны е. И менапеременны х и их содержание приведены на рис.27. П остроим ряд статистических граф иков дляпредварительной визу альной оценки имею щ ихсяданны х. Д ляэ того можно, как в раб оте № 7, воспользов атьсяцепочкой команд: -
Graphs
-
Stats 2D Graphs
- либ о нажатькнопку : граф и к и )
- Scatterplots…
Quick Stats Graphs (Быст рые ст ат и ст и че ск и е
и сделать в ы б ор в спу стив ш емсяменю (см. рис. 22).
Р исун ок22. М ен ю вы бора графиков
Р исун ок23. Таблиц а сисходн ы ми дан н ы ми. .
Р исун ок24. Г рафики диапазон а зн ачен ий для С и ln (C) т ипа «ящ иксусами»
Р исун ок25. Диаграмма рассеян ия перемен н ы х D и ln (С )
Р исун ок26. Г рафикост ат ков н а н ормальн ой вероят н ост н ой бумаге
А нализиру язначенияпеременны х и построенны е граф ики, у б еждаемсяв необ ходимости логариф мического преоб разованиярядапеременны х длястаб илизации дисперсии. К акие переменны е преоб разованы видно из окнаспециф икаций в сех переменны х (рис.27), откры того при помощ и кнопки
..
Р исун ок27.О кн о спец ификац ий всех перемен н ы х фай ла Значения доб ав ленны х переменны х LOG_C, LOG_N, LOG_S, LOG_T1, LOG_T2 в ы числены системой по ф орму лам, записанны м в поле Long Name (см. рис.27). Бу дем считать у слов ия(13) вы полненны ми. Реш им задачу построения линейной регрессии (12) между переменной LOG_C и переменны ми D, PR, NE, CT, BW, PT, LOG_N, LOG_S, LOG_T1, LOG_T2, т.е. модели в ида: lnC = β 0+β 1D+β 2PR+β 3NE+β 4CT+β 5BW+β 6PT+β 7lnN+β 8lnS+β 9lnT1+β 10lnT2+ε. П ору чим системе оценить неизвестны е коэ ф ф ициенты и адекватность построенной модели. В ы зов ем Startup Panel .
С т арт овую пан ель моду ля:
Н аС т арт овой пан ели кнопкой
- Analysis
-
в ы зовем окно
в ы б орапеременны х (рис.28). В ы делим независиму ю переменну ю в левом списке, щ елкну в по ней мы ш ью . Д лявы б ора н ескольких зависимы х переменны х ну жно, у держив аяклав иш у Ctrl, кликну ть накаждом из вы б ранны х имен. П ометив переменны е, нажмем
OK - OK.
Р исун ок28. О кн о вы бора перемен н ы х Н аэ кране у в идим диалоговое окно О пределен ия мет ода ан ализа Model definition (рис. 29).
Р исун ок29. О кн о вы бора мет ода ан ализа П рокру чив аясписок регрессионны х методов в поле Method, в ы б ираем Forward stepwise(П ош аговы й мет од вклю чен ия перемен н ы х). Н ажимаем ОК - ОК. П роведявы числения, системавы водитнаэ кран окно резу льтатов (рис.30) с у казанием числаш агов и перечислением переменны х, вклю ченны х в модель.
В идим, что из предложенны х десяти переменны х в модельвклю чены лиш ьш есть.
Р исун ок30. О кн о результ ат ов пош аговой регрессии Снов а нажимаем ОК - система откры в ает основное окно резу льтатов анализа
. Щ елкнем на нем кнопку
- К рат киерезульт ат ы ан ализа и у видим наэ кране э лектронну ю таб лицу Regression Summary for Dependent Variable LOG_C (рис.31).
Р исун ок31. К рат кие результ ат ы пош аговой регрессии В столб це с заголовком
В
(третьем столб це таб лицы )
находятся
оценки неизвестны х коэ ф ф ициентов βi , вы численны е по ф орму ле (15). Т аким об разом, построенаоценкаф у нкции регрессии:
f€ = -13.26 + .23 PT + .72 LOG_S + .21 D + .25 NE + .14 ST - .09 LOG_N Cтандартны е ош иб ки sj оценок коэ ф ф ициентов, вы численны е по ф орму ле (21), у казаны в столб це Std. Err. of B таб лицы (рис.31). К ак видим, они не так у ж малы по сравнению с коэ ф ф ициентами. В столб це t(25) у казаны значениястатистики Стью дента (23) дляпроверки гипотезы H 0 о рав енстве ну лю соотв етств у ю щ его коэ ф ф ициента. В столб це p-level -у ровень значимости отклонениягипотезы H0 дляэ того коэ ф ф ициента. Заметим, что только длякоэ ф ф ициентов при переменны х LOG_S и D у ровень значимости являетсядостаточно малы м (меньш е 0.01). В се вы ш есказанное об оценках у казы вает на их недостаточну ю статистическу ю надежность. О днако значение скорректированного коэ ф ф ициентадетерминации Adjusted R1 здесь 0,823. Т аким об разом, 82.3% разб росазначений относительно среднего об ъясняет построеннаярегрессия. Д ляпроверки гипотезы H0 о равенстве ну лю в сех коэ ф ф ициентов слу жит значение статистики (25) F и у ровень его значимости р. Гипотезаотвергается, так как р < 10-5. Регрессияпризнаетсязначимой. О ц ен ка адекват н ост и модели спомощ ью ост ат ков В левом в ерхнем у глу э лектронной таб лицы
Dependent Variable LOG_C
имеетсякнопка
Regression Summary
for
. Н ажав ее или кнопку
, мы вернемсяв О кн о А н ализа ост ат ков - Multiple Regression Results.
Щ елкнем в э том окне кнопку
.. В откры в ш емсяокне
с помощ ью кнопок
,
и кнопки
,
полу чим следу ю щ ие граф ики,
изоб раженны е нарис. 32 – 34.
Р исун ок32 .О ст ат ки н а
Р исун ок33. О ст ат ки какфун кц ия от D
н ормальн ой вероят н ост н ой бумаге
Р исун ок34.Г ист ограмма ост ат ков В идно, что остатки достаточно хорош о ложатсяна нормальну ю пряму ю и гистограмма неплохо описы в аетсянормальной кривой. П редположение о нор-
мальности остатков можно считать вы полненны м. Н арис. 33 нетрезко вы деляю щ ихсяостатков и нет закономерности в поведении остатков. Заклю чаем, что модельдостаточно адекватно описы в аетданны е. 2.2.2. При м е р 5.[2] И спользуя дан н ы еэлект рон н ой т аблиц ы н а рис35, исследоват ь зависимост ь урож ай н ост и
Y зерн овы х культ ур (ц /га) от ряда
факт оров производст ва, а имен н о: x1 x2
– число т ракт оров н а 100 га; – число зерн оуборочн ы х комбай н ов н а 100 га;
x3 – число орудий поверхн ост н ой обработ ки почвы н а 100 га; x4 x5
– количест во удобрен ий , расходуемы х н а гект ар (т /га); – количест во химических средст в защ ит ы раст ен ий н агект ар (ц /га). П редварительны й анализ технологии сб ора исходны х данны х показал,
что допу щ ения(13) могу т б ы ть приняты в качеств е раб очей гипотезы . П оэ тому у рав нение статистической связи можно строитьв виде
yi = β 0 + β1 x1i + ... + β 5 x5i + ε i , i = 1,..., 20 . П ору чим системе STATISTICA оценитьнеизвестны е коэ ф ф ициенты и адекв атность построенной модели. В моду ле Multiple Regression (М н ож ест вен н ая регрессия) создадим ф айл Harvest.sta (У рож ай ) размером
6v× 20c.
данны е в таб лицу с 6 столб цами и 20 строками. Столб цы назовем
В в едем
y, x1, x2, … ,
x5. П редварительно оценим визу ально исходны е данны е, построив диаграммы рассеяниянезависимой переменной с кажды м из ф акторов с целью у в идеть основну ю зависимость: Graphs – Stats 2D Graphs – Scatter plots – Variables – X: x1, Y: y, Graph Type: Regular, Fit (подбор): Linear – OK. П овторим построение ещ е 4 раза, заменяя x1 ф акторами: x2,x3,… ,x5. О сновнаязависимость не просматрив ается, продолжаем раб оту .
Р исун ок35. И сходн ы едан н ы епо 20 рай он ам област и В ы б ираем последовательно команды : Analysis – Startup Panel – кнопка –
переменну ю
Dependent var: y и
независимы е переменны е Independent var: x1, … ,x5
(при нажатой клавиш е
Ctrl)
отб ираем зависиму ю
– OK – Input file (В ходн ой фай л): Raw Data (Н еобработ ан н ы ефай лы ) –
ОК. В окне Model Definition (О пределен иемодели) у станавлив аем: Method (М ет од):
Standard (С т ан дарт н ы й ),
Intercept(С вободн ы й член ): Include in model
(В клю чит ь в модель) – ОК. В окне
видим основны е резу льтаты : скорректи-
рованны й коэ ф ф ициентдетерминации adj R2 =0.345, значит, построеннаярегрессияоб ъясняеттолько 34.5% в ариации переменной у. Значение статистикаФ иш ера
дляпроверки гипотезы H 0 об отсу тствии линейной св язи между переменной y и совоку пностью ф акторов F = 3.00 . соответству ету ровню значимости p = 0.048 . Т ак как
p < 0.05,
гипотеза H 0 все-таки отклоняется.
Н ажатием кнопки
вы ведем на э кран таб лицу ре-
зу льтатов :
Рису нок 36. К раткие резу льтаты регрессии В столб це B у казаны оценки неизв естны х коэ ф ф ициентов βj по (14). Т аким об разом, имеем оценку !f ( x) неизвестной ф у нкции регрессии f ( x ) :
!f ( x) = 3.51 − 0.06 x1 + 15.5 x 2 + 0.11x3 + 4.47 x 4 − 2.93 x5 .
(26)
В столб це St. Err. of B у казаны стандартны е ош иб ки s j оценок коэ ф ф ициентов (по (21)). О б ратим внимание, что стандартны е ош иб ки в оценках прев ы ш аю тзначениясамих оценок (кроме b4). Э то свидетельств о статистической ненадежности оценок. Н аб лю даем значениястатистик Стью дента(22) дляпроверки гипотезы о ну левом значении соответству ю щ их коэ ф ф ициентов в столб це t (14) и у ров ень значимости отклоненияэ той гипотезы в столб це p-level. (0.01) В идно, что только переменная x4 – количеств о у доб рений, имеет право на в клю чение в модель (р=0.01). В то же в ремя, согласно значению статистики Ф иш ера(24) и ее у ровнязначимости, гипотезаоб отсу тствии какой б ы то ни б ы ло линейной связи
отвергается. Следов ательно, изу чение линейной связи между у и х1. … ,х5 следу етпродолжить. В озв ратимся в окно Multi.Regr.Results кнопки:
и нажмем последовательно
Correlations and desc. Stats – Correlations. П роанализиру ем матрицу
парны х корреляций (рис 37):
Р исун ок37. М ат риц а корреляц ий В идим, что парны е коэ ф ф ициенты корреляции переменны х
х1 , х2 и х3
б лизки к 1, налицо сильнаякорреляц ия. П опроб у ем перейти к меньш ему числу ф акторов. I способ. Будем вручн ую осущ ест влят ь последоват ельн ое вклю чен иеперемен н ы х и сравн иват ь различн ы ерегрессии. 1-й ш аг. П ри k = 1 (k – число незав исимы х переменны х) величина R 2 совпадаетс кв адратом об ы чного (парного) коэ ф ф ициентакорреляции
R 2 = r 2 (Y , X ) , из матрицы корреляций находим:
max r 2 (Y , xj ) = r 2 (Y , x4 ) = ( 0.577 ) = 0.333 , 2
1≤ j ≤ 5
т.е. в классе одноф акторны х регрессионны х моделей наиб олее инф ормативны м предиктором (предсказателем) является x4 – количеств о у доб рений. Д лявы числения скорректиров анного (adjusted) коэ ф ф ициента детерминации по (20) в озв ратимсяв окно Select dep. And indep. Var. Lists: Dep. Var: y, Indep. Var.: x4 – OK – OK. 2 (1) = 0.296 . П олу чаем значение Radj
2-й ш аг. У величим число переменны х до дву х ( k = 2) . Среди возможны х пар ( x4, xj ) ,
j = 1, 2, 3, 5 , б у дем вы б ирать даю щ у ю наиб ольш ее значение R 2
2 ). В озв ратимсяв окно Select dep. and indep. Var. и вы (или, что то же самое, Radj
числим последов ательно: 2 Radj ( x 4, x1) = 0.406 , Radj2 ( x 4, x2 ) = 0.399 , Radj2 ( x4, x3) = 0.421 , Radj2 ( x 4, x5 ) = 0.255 .
О тку дазаклю чаем, что наиб олее инф ормативной парой является(x4, x3). О ценка у равнениярегрессии у рожайности по ф акторам
x3 и x4
имеет
в ид:
!f ( x , x ) = 7.29 + 0.28 x + 3.47 x . 3 4 3 4 (0.66)
(0.13)
( 27 )
(1.07)
В низу в скоб ках у казаны стандартны е ош иб ки, взяты е из столб ца Std.Err. of B таб лицы Regression Results дляварианта незав исимы х переменны х (x4, x3). И з столб ца p-level той же таб лицы в идно, что все три коэ ф ф ициента статистически значимо отличаю тсяотну ляпри у ров не значимости α = 0.05 . 3-й ш аг. У величим число переменны х до трех ( k = 3) . Среди возможны х троек
( x4, x3, xj ) ,
тивну ю :
j = 1, 2, 5
( x4, x3, x5) .
вы б ираем аналогичны м об разом наиб олее инф орма-
Д ля э той тройки
2 Radj (3) = 0.404 .
И меем
2 2 Radj (3) < Radj (2) , следовательно, третью переменну ю в модельвклю чатьнецелесо2 об разно, так как онане повы ш аетзначение Radj . И так, резу льтатом анализаявля-
етсяф у нкция(27). II способ. П ору чим системе вы полнитьпош аговы й отб ор переменны х. Д ля э того после запу скапроцеду ры регрессионного анализа: Analysis – Startup Panel - Independent var: x1, … ,x5
– кнопка
–
Dependent var: y
(при нажатой клавиш е Ctrl) – OK – Input file :
Raw Data – ОК. В окне Model Definition у станавлив аем (рис.38):
Method:
Forward stepwise (П ош аговы й мет од вклю чен ия),
Include in model –
Intercept:
ОК – ОК.
Р исун ок38. О кн о вы бора мет ода ан ализа
В
окне
нажатием вы ведем
кнопки
на э кран таб лицу резу льтатов (рис.38):
Рису нок 39. К раткие резу льтаты регрессии И з таб лицы видим, что построеннаясистемой оценка ф у нкции регрессии совпадаетс (27) и имеет в точности такое же качество предсказания.
Р абот а № 3. Л и н е йн ая м оде ль .
Н е ли н е йн ая зави си м ост ь 3.1. О бщ ие положения Слов о « линейны й» в названии « линейны й регрессионны й анализ» означает линейность ф у нкции регрессии относительно параметров θ , но не относительно ф акторов Х . П у сть X и Y – одномерны е величины ; об означим их x и y. Связьмежду ф актором x и откликом y может б ы ть нелинейной. Ш ироко использу ется следу ю щ ие модели: 1) полиномиальная: где Pk ( x) = β 0 + β1 x + ... + β k x k ;
y = Pk ( x ) , 2) тригонометрическая:
y = β 0 + β1 sin ω x + β 2 cos ω x ;
y = a0 x a1 ; после логариф мированияполу чаем
3) показательная:
ln y = ln a0 + a1 ln x = β 0 + β1 ln x ; 4) логариф мическая: y = β 0 + β1 ln x и пр.
Рассмотрим полиномиальну ю зав исимость
y = Pk ( x) + ε .
( 28 )
где, как и прежде, ε – слу чайнаясоставляю щ ая, M ε = 0 ,
Dε = σ 2 .
Соотнош ение (28) дляимею щ ихсяданны х ( xi , yi ) , i = 1,..., n
б у детиметь
yi = β 0 + β1 xi + β 2 xi2 + ... + β k xik + ε i , i = 1,..., n .
( 29 )
в ид:
1 x1 1 x2 Е сли положить X = K K 1 xn
x12 K x1k x22 K x2k , то модель(29) можно представитьв K K K xn2 K xnk
матричной ф орме: Y = Xβ +ε . П олу чили задачу (14) и потому все ф орму лы (12) – (25) оказы ваю тсясправедлив ы ми дляслу чая(28). 3.2. Л инейнаярегрессияснелинейнойзависимостью в системе STATISTICA 3.2.1. При м е р 6. [9] П о имею щ ей ся корреляц ион н ой т аблиц е(т абл.4) т емперат уры Т ( °С ) и ударн ой вязкост и А (кгм/см 2) углеродист ой ст али с0.40% углерода пост роит ь регрессию А н а Т. Т аб лица4. A
1
3
5
7
9
11
13
15
Σ
T -40
1
-20
1
-
1
1
0
1
-
-
2
1
2
3
20
1 3 4 3
8
40
5
4
60
4
4
3
11
80
2
6
-
8
100
1
4
3
8
120
-
3
-
3
140
1
-
-
1
1
1
1
-
1
22
7
58
160 180 Σ
3
-
1
В вод данны х .
В
5
4
моду ле
Steel.sta(ст аль) размером 4v×58c.
16
Multiple Regression
создадим ф айл
В первы й столб ец Т поместим значенияпе-
ременной Т из перв ого столб ца таб л.3, согласно распределению частотв столб це Σ. Т о есть, значение – 40 наб ирается1 раз, значение – 20 наб ирается3 раза, значение 0 наб ирается4 раза, +20 наб ирается 8 раз и т.д. В о второй столб ец поместим значения переменной А
из перв ой строки в соответствии с таб лицей корре-
ляций. В третьем столб це
Т 2
поместим
значения нового ф актора - квадратов температу р ( long
name:
столб ец
=
t^2 ),
в
T3 – значенияку б ов
температу р ( long name: = t^3 ) (см. рис.40).
Р исун ок40. Ф рагмен т элект рон н ой т аблиц ы Steel.sta
О ценим имею щ иесяданны е визу ально, с помощ ью процеду ры
Scatterplot
(диаграммарассеяния) рис.41.
Р исун ок41. Диаграмма рассеян ия т емперат уры и ударн ой вязкост и углеродист ой ст али В идим, что зависимость, скорее всего, нелинейная. П остроим несколько регрессий (использу ятехнологию раб оты № 8). 1) Регрессияпервой степени:
a = β 0 + β1t (indep. Var.: t) построена(см.
рис.42 ) в виде : a = 8.05 + 0.05t, В се коэ ф ф ициенты вы сокозначимы .
R2adj = 0.52,
s = 2.30
Р исун ок42. К рат кие результ ат ы лин ей н ой регрессии 2) Регрессию второй степени a = β 0 + β1 t + β 2 t 2 (indep. Var.: t, t2
систе-
мастроит в виде (см. рис.43 ): a = 7 + 0.12t − 0.0005t 2 , R2adj = 0.73,
s = 1.74
Значение коэ ф ф ициента детерминации у величилось. О ш иб ка прогноза у меньш илась. В се коэ ф ф ициенты
вы сокозначимы . К в адратичная регрессия
сущ ест вен н о лу чш е описы ваетэ мпирические данны е.
Р исун ок43. К рат кие результ ат ы квадрат ичн ой регрессии
3) Регрессию третьей степени: (indep. Var.: t, t2, t3)
a = β 0 + β1t + β 2 t 2 + β 3 t 3
системастроит в в иде (см. рис.44 ):
a = 7.2 + 0.14t − 0.001t 2 + 0.000002t 3 ,
R2adj = 0.74,
s = 1.69.
Х отязначение коэ ф ф ициентадетерминации у величилось, аош иб капрогноза у меньш илась (незначительно), гипотеза о равенстве 0 коэ ф ф ициента β 2 не отвергается на 5%-ом у ровне значимости (α=0,07). П оскольку су щ еств енного у лу чш енияпреды ду щ ей модели не наб лю дается, апотери налицо, нетоснований отдать предпочтение у сложненной модели. И з всех рассмотренны х лу чш ей следу етпризнатьквадратичну ю модель:
A = 7.0202 + 0.1206 T - 0.0005 T 2.
Р исун ок44. К рат кие результ ат ы кубической регрессии 3.2.2. При м е р 7. [5] И мею т ся эмпирическиедан н ы ео бан ковских вкладах Z и уровн едоходов - V по 20 т еррит ориям государст ва; дан н ы еприведен ы в т абл.5 в условн ы х един иц ах. П ост роит ь регрессию
Z н а V.
Раб отаем по-прежнему в моду ле Multiple Regression. Создадим ф айл Bank.sta
4v × 20c .
В перв ы е 2 столб цапоместим исходны е данны е Z и U.
В третьем столб це
U2 поместим значениякв адратов доходов
u^2), в четвертом – U3 – ку б ов доходов
(long name: =
(long name: = u^3). О ценим имею щ ие-
сяданны е в изу ально, с помощ ью процеду ры
Scatterplot. В идим, что естьсмы сл
построить несколько регрессий: Т аб лица5 V Z
5.80 11.8
6.14 12.2
6.64
6.85
8.11
8.47
9.09
9.23
9.59
9.96
13.1
14.4
17.5
18.6
19.1
19.3
19.8
18.4
V
1.01
1.15
1.91
2.47
2.66
2.74
2.93
4.04
4.50
4.64
Z
11.8
12.2
13.1
14.4
17.5
18.6
19.1
19.3
19.8
18.4
1) первой степени: z = β 0 + β1u ;
полу чим (см. рис.47):
z = 4.75 + 1.43 u, R2adj = 0.86,
s = 1.70.
Р исун ок47. К рат кие результ ат ы лин ей н ой регрессии 2) в торой степени: z = β0 + β1 u + β2 u2 (indep. Var.: u, u2); полу чим (см. рис.48): z = 8.85 – 0.62 u + 0.19 u2,
R2adj = 0.94,
s = 1.10.
2 Э та регрессиялу чш е преды ду щ ей в смы сле Radj и s , однако, коэ ф ф ици-
ент β1 =-0.62 незначимо отличаетсяот0. В озможно, регрессиятретьей степени окажетсялу чш е.
Р исун ок48. К рат кие результ ат ы квадрат ичн ой регрессии 3) построим регрессию третьей степени: z = β0 + β1 u + β2 u 2 + β3 u3 (indep. Var.: u, u2, u3);
полу чим (см.рис.49) все значимы е коэ ф ф ициенты и у лу чш ение
2 регрессии в смы сле Radj и s . П опроб у ем закрепитьу спех.
4) П остроим регрессию четвертой степени: z = β0 + β1 u + β2 u 2 + β3 u 3 + β4 u 4
(indep. Var.: u, u2, u3,u4);
полу чим (см. рис.50) су щ ественное у меньш ение ош иб ки прогноза s (в 4 раза!) и 2 у величение Radj . П ожалу й, стоитнаэ том останов иться, хотязначимость коэ ф ф и-
циента β2 невелика (6.1%). О кончательно z =7.956 + 2.166г– 1.409г2 + 0.285г3 – 0.016г4 .
Р исун ок50. К рат кие результ ат ы регрессии 4-ой ст епен и 3.2.3. При м е р 8. [10] И меет ся 5 измерен ий показан ий влагомера при разн ой т олщ ин еобразц а древесин ы бука (дан н ы ев т абл.6). О ц ен ит ь коэффиц иен т ы модели ст епен н ого т ипа :
y = a0 x a1 . Т аб лица6
№
1
2
3
4
5
x
1
3
5
7
9
y
56
28
20
16
14
П осле логариф мированиястепенной модели б у дем иметь: ln y = ln a0 + a1 ln x = β 0 + β1 ln x . Следовательно, ф айл данны х должен содержать 5 строк и четы ре столб ца: x, y, ln x, ln y. Зависимой переменной б у дет ln y, независимой - ln x (см. специф икации переменны х нарис. 51).
Р исун ок51. С пец ификац ии перемен н ы х в примере3. И сполняязаказ, системапостроитрегрессию чем
ln y = 4.0 − 0.6ln x , при-
2 Radj = 0.9995, s =0.01 с в ы соким у ров нем значимости коэ ф ф ициентов
(рис. 52).
Р исун ок52. Р егрессия ст епен н ого т ипа 3.2.4. При м е р 9. [9] И меет ся 12 измерен ий предела прочн ост и z (кг/см 2) при сж ат ии от объемн ого веса x (г/см 3) извест н яка т абл.7. О ц ен ит ь коэффиц иен т ы модели показат ельн ого т ипа :
y = a ⋅ bx . Т аб лица7.
x
1.65
1.75
1.85
1.95
2.05
2.15
2.25
2.35
2.45
2.55
2.65
2.75
y
122.7 157.7 181.2 188.1 284.3 295.9 415.7 480.8 603.3 812.3 1093.6 1201.2
П осле логариф мированияпоказательной модели б у дем иметь: ln y = ln a + x ln b = β 0 + β1 x . Следовательно, ф айл данны х должен содержать 12 строк и 3 столб ца: x, y, ln y. Зависимой переменной б у дет ln y, независимой - x. Системапостроитрегрессию
ln y = 1.245 + 2.125 x, причем тов
s = 0.087 с вы соким у ровнем значимости коэ ф ф ициен-
2 Radj = 0.988,
(рис. 53).
Р исун ок53. Р егрессия ст епен н ого т ипа
3.3. О бобщ ение нелинейнойзависимости П редполагается, что связь между ф акторами
( x ,..., x ) 1
p
и y вы ражается
следу ю щ им об разом:
y = β 0 + β1ϕ1 ( x1 ,..., x p ) + β 2ϕ 2 ( x1 ,..., x p ) + ... + β k ϕ k ( x1,..., x p ) + ε , где ϕ j (
),
(30)
j = 1,..., k – система некоторы х ф у нкций. И меется n наб лю дений
при различны х значениях x ≡ ( x1 ,..., x p ) : x1 , x 2 , ... , x n ; тогда
yi = β 0 + ∑ β jϕ j ( xi ) + ε i , i = 1,..., n , k
j =1
y = X β +ε .
или в матричной ф орме
Здесь X – матрица n × ( k + 1) , i -я строка которой имеетв ид
(1,ϕ ( x ) ,ϕ ( x ) ,...,ϕ ( x ) ) . i
1
ф орму лы
i
2
i
k
Т аким об разом, имеем задачу (14), и потому
(15) – (25) остаю тся справ едливы ми в слу чае (30).
3.3.1. При м е р 10. [8] И меет ся 16 измерен ий предела прочн ост и при сж ат ии вдоль волокон z (кг/см 2), объемн ого веса x (мг/см3) и ударн ой т вердост и y (гмм/мм2) древесин ы березы . П о дан н ы м, приведен н ы м н а рис.54, оц ен ит ь парамет ры модели вида
z = β 0 + β1 x + β 2 y + β 3 x 2 + β 4 xy + β 5 y 2 + ε . и пост роит ь т рехмерн ы й графикоц ен очн ой фун кц ии. Создадим ф айл данны х Regresb.sta размером 6v×16c. П ервы е три столб цатаб лицы заполним значениями z, x, y, апоследу ю щ ие три столб ца– значениями x2, y2, xy. Затем с помощ ью последовательности команд Graphs - 3DXYZ Graphs - Surface Plot откроем окно заказа и сделаем в ы б ор поверхности второго порядка, как на рис.55.
- ОК и системамгнов енно построитзаказанну ю пов ерхность(рис.56).
Р исун ок54.
Ф рагмен т фай ла дан н ы х Regresb.sta срезульт ат ами измерен ий
А налогично преды ду щ им примерам построим регрессионну ю таб лицу (рис.57).
Р исун ок55. О кн о заказа н а пост роен ие поверхн ост и
Р исун ок56. Г рафикподобран н ой поверхн ост и с оц ен кой
фун кц ии регрессии
Р исун ок57. К рат кие результ ат ы мн ож ест вен н ой регрессии П роанализиру ем резу льтаты подгонки на рис.57. П остроеннаярегрессия об ъясняет 96% вариации зависимой переменной z. Э то великолепны й резу льтат. О ш иб капрогнозасовсем нев еликапо сравнению с наб лю даемы ми значениями z. О днако мы откажемсяотпостроенной модели по той причине, что онане содержитни одного значимого коэ ф ф ициента(см. последний столб ец таб лицы и столб ец стандартны х ош иб ок).
Д об авим в таб лицу Regresb.sta три столб ца LOGX, LOGY, LOGZ заполнив их соответственно значениями ln x, ln y, ln z и построим трехмерну ю диаграмму рассеянияэ тих переменны х:
Graphs - 3DXYZ Graphs - Scatterplots -… Х арактер диаграммы нарис 58 позволяетпредположитьналичие линейной зав исимости вида ln z = β 0 + β1 ln x + β 2 ln y .
Р исун ок58. Диаграмма рассеян ия
(31)
Р исун ок59. П одогн ан н ая плоскост ь
перемен н ы х LOGX, LOGY, LOGZ П ору чим системе построитьграф ическу ю оценку линейной ф у нкции: Graphs - 3DXYZ Graphs - Surface Plot – Linear Smooth Система вы даст граф ик построенной оценки линейной ф у нкции регрессии (рис. 59). Д алее в ы зовем стартову ю панель моду ляи иницииру ем построение регрессионной таб лицы (рис. 60).
Р исун ок60. К рат кие результ ат ы мн ож ест вен н ой регрессии по модели (31) И з таб лицы видим, что скорректированны й коэ ф ф ициент детерминации у величилсяб олее чем на 1%, зато ош иб ка прогноза у меньш илась б олее чем в 500(!) раз и в се коэ ф ф ициенты значимы . О тличнаямодель:
ln z = 1.17 + 0.31ln x + 0.48 ln y. И в се-таки вопреки пословице « О тдоб радоб ране ищ у т» построим полиномиальну ю относительно логариф мов переменны х регрессию :
ln z = β 0 + β1 ln x + β 2 ln y + β 3 ln 2 x + β 4 ln 2 y + β 5 ln x ⋅ ln y
(32)
Д об авим в таб лицу Regresb.sta ещ е три столб ца LQX, LQY, LOGXY, заполним их значениями квадратов логариф мов и произведением логариф мов незав исимы х переменны х. Д алее хорош о изв естны м алгоритмом: Analysis – Startup Panel
-
,
отб ираем переменны е в соотв етств ии с моделью (32) и рис.61 - щ елкаем кнопку
– ОК – ОК,
и видим наэ кране таб лицу (рис.61):
Р исун ок61. К рат кие результ ат ы мн ож ест вен н ой регрессии по модели (32)
Блестящ ий резу льтат!
2 Radj = 0.999993,
s =0.0002, все коэ ф ф ициенты
значимы , стандартны е ош иб ки коэ ф ф ициентов невелики и остатки веду т себ я б езу коризненно (рис. 62).
Р исун ок62. Диаграмма рассеян ия ост ат ков перемен н ой LOGZ вокруглин ии регрессии сизображ ен ием доверит ельн ой т рубки для средн его от клика П о всем показателям лу чш ей среди рассмотренны х в примере оценок неизв естной ф у нкции регрессии f(x) следу етпризнатьф у нкцию
! f ( x ) = 0.8533 + 0.5340 ln x − 0.1118 ln 2 x + 0.1663ln y − 0.126 ln 2 y + 0.1502 ln x ln y ln ЗА Д А Н И Я К Р А Б О Т А М Задан иекработ е№ 1 1. В ы полнитьпримеры 1 - 3. 2. И спользу яиндивидуальны й вариант двумерной вы б орки построить и исследовать простую линейну ю регрессионную модель.
О т чет долж ен содерж ат ь • • • • • • •
П остановку задачи и краткое изложение сущ ности регрессионного анализа(простаялинейнаямодель). В ы числительны е ф орму лы и свойства оценок коэ ф ф ициентов простой линейной модели, полученны х методом наименьш их квадратов. Т аб лицу данны х. И оговую таб лицу регрессионного анализа. П остроенну ю модель, граф ики. Т аб лицу дисперсионного анализа. Статистические вы воды .
Задан иекработ е№ 2 3. В ы полнитьпримеры 4-5. 4. И спользу явариант наб ораданны х построитьи исследоватьлинейну ю модельмножественной регрессии.
О т чет долж ен содерж ат ь • • • • •
П остановку задачи. В ы числительны е ф ормулы и свойства оценок коэ ф ф ициентов модели и дисперсии σ2 ош иб ок. Т аб лицу данны х. И тогову ю таб лицу регрессионного анализа. П остроенну ю модельс анализом ее качества.
Задан иекработ е№ 3 5. В ы полнитьпримеры 6-10. О ценитьв изу ально адекв атностьмоделей
ис-
ходны м данны м. 6. И спользу явариант наб ораданны х построитьи исследоватьлинейну ю модельмножественной регрессии.
О т чет долж ен содерж ат ь • • • •
П остановку задачи. Т аб лицу данны х. И тогову ю таб лицу регрессионного анализас комментариями П остроенну ю модельс анализом ее качества.
Составитель: БогатоваВ ераП авловна Редактор: Бу нинаТ .Д .