Вступ Можна з упевненістю стверджувати, що практично кожне наукове дослідження пов'язане з вивченням результатів обстеже...
159 downloads
1045 Views
5MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Вступ Можна з упевненістю стверджувати, що практично кожне наукове дослідження пов'язане з вивченням результатів обстежень, спостережень, експериментів чи вимірювань. Дослідження даних займають вагоме місце як у соціальних, так і в природничих науках. В аналізі емпіричних даних одним із основних інструментів є статистичні методи. Важливим аспектом застосування статистичних методів є їх комп'ютерна реалізація. Сучасна статистична обробка даних практично неможлива без відповідних комп'ютерних програм, таких, наприклад, як пакети STATISTICA, SPSS, SAS, S-Plus. Тому найбільш ефективне навчання студентів має включати поряд з вивченням теоретичних засад і методів також паралельне оволодіння навичками застосування статистичного комп'ютерного забезпечення. Цей посібник присвячено найчастіше вживаним методам прикладної статистики. У посібнику описано статистичний аналіз різних типів даних з допомогою пакету STATISTICA. Зауважимо, що цей пакет має стандартний інтерфейс та використовує традиційну термінологію, тому можна легко адаптувати практичну частину і для інших комп'ютерних статистичних пакетів. Посібник має чотирнадцять розділів. Перший розділ носить технічний характер і присвячений знайомству читачів з інтерфейсом пакету STATISTICA 7 та основними методами подачі та перетворення даних. Кожен з наступних розділів відповідає певному типу статистичного аналізу, містить короткий опис одного чи кількох файлів з даними і прикладної задачі пов’язаної з цими даними. Показано послідовність детального дослідження емпіричних даних за допомогою пакету STATISTICA. Оскільки посібник призначений для лабораторних робіт в комп’ютерному класі або самостійного опанування навичками аналізу даних на комп’ютері, то теоретичний матеріал у нього не включено. Студент отримує відповідні теоретичні знання під час лекцій. Для глибшого оволодіння теоретичним і практичним матеріалом читачам слід звернутись до рекомендованого списку літератури. Зазначимо також, що це видання є продовженням посібника Мамчич Т.І., Оленко А.Я., Осипчук М.М., Шпортюк В.Г. Статистичний аналіз даних з пакетом Statistica [2], який містить необхідний теоретичний матеріал і посилання на літературу для самостійного поглибленого опрацювання. Оскільки видання має навчальне призначення, то велика увага приділена детальному покроковому описові алгоритмів розв'язання конкретних задач статистичними методами. Для домашніх завдань, або самостійного опрацювання можна використовувати реальні дані зібрані з 3
різних джерел і згруповані згідно розділів посібника. Ці дані, а також інша корисна інформація містяться на Internet сайті курсу ``Комп’ютерна статистика'': http://www.mechmat.univ.kiev.ua/probability/Olenko/comp_statistics/ Посібник розрахований на студентів кваліфікаційного рівня ''бакалавр'' із природничих наук та ''магістр'' із соціальних наук. Може бути також корисним для аспірантів, викладачів та науковців, які використовують статистичні методи аналізу. Варто рекомендувати використовувати посібник при підготовці до здачі кваліфікаційних іспитів з курсів CT3 та CT6 британського факультету та інституту актуаріїв. Посібник створено на основі багаторічного досвіду викладання відповідних дисциплін у Київському національному університеті ім. Т. Шевченка, Національному університеті "Києво-Могилянська академія" та Навчальному Центрі для Актуаріїв та Фінансових Аналітиків у Київському національному університеті. Посібника підготований і виданий за підтримки грантом TEMPUS PROJECT IB-JEP-25054-2004.
4
Заняття 1 Дані в пакеті STATISTICA Розпочнемо роботу з запуску пакету STATISTICA. Виконаємо Start Æ Programs Æ Statistica Æ Statistica 7 (послідовність команд може бути трохи іншою, якщо при установці пакету були вибрані інші опції). Після завантаження програми перед нами з’явиться вікно з контекстною панеллю для роботи з даними, а також відкриється таблиця нового або одного із стандартних, вже існуючих файлів. Головне правило користувача: нічого не змінювати у файлах-прикладах пакету, або файлах інших користувачів. Тому, натиснувши на Х у правому верхньому куті відкритої таблиці даних, закриємо її. Виберемо на верхній панелі Statistics. У меню, що з’явилося (див. рис. 1.1), нам пропонують обрати один з модулів для подальшої роботи. Модуль – це набір статистичних засобів для роботи з певною специфічною інформацією. Отже, кожен з модулів полегшує нам вирішення певних статистичних задач.
Рис. 1.1 5
Дамо короткий опис модулів, які розглядатимемо в курсі: Basic Statistics
Описова статистика (способи зображення (візуалізації) даних, оцінка параметрів, деякі параметричні тести)
Nonparametrics
Непараметричні тести
Distribution fitting
Можливість візуально підбирати криву розподілу до існуючої гістограми
Multiple Regression
Багатофакторна (множинна) регресія. (використовують, коли один показник залежить від багатьох інших)
Advanced Linear/ Nonlinear Models Æ Nonlinear estimation
Нестандартні типи регресій
Advanced Linear/ Nonlinear Models Æ Time Series
Аналіз часових рядів: визначення законів циклічності, періодичності, тренду, дослідження стохастичної компоненти.
Multivariate Exploratory Techniques Æ Discriminant Analysis
Дискримінантний аналіз: знаходження визначальних показників для класифікації об’єктів у задані групи
Multivariate Exploratory Techniques Æ Cluster Analysis
Кластерний аналіз: поділ даних на групи за певними ознаками (наприклад, поділ країн на групи за показником ВВП)
Multivariate Exploratory Techniques Æ Factor Analysis
Факторний аналіз: проблеми класифікації і вибору показників, які є головними для опису даного явища
Виберемо File Æ New. У діалоговому вікні, що відкрилося (див. рис. 1.2), можемо вибрати кількість змінних і випадків, а також розміщення таблиці даних, яку ми створюємо.
6
Рис. 1.2 Стандартна таблиця даних має розмір 10х10, де стовпці відповідають змінним (VAR1, VAR2,…,VAR10), а рядки – випадкам зі значеннями, які змінні набувають. Опція In a new Workbook розмістить новостворену таблицю у робочій книзі, в яку також будуть записуватися всі графіки, діаграми і таблиці, отримані у процесі роботи з даними. Опція As a standalone window створить таблицю в окремому вікні так, що дані можна буде зберегти окремо виконавши File Æ Save при активізованій таблиці. Слід зазначити, що STATISTICA 7 оперує з „робочими книгами” – спеціальними файлами, в яких зберігається, залежно від обраних користувачами опцій, та чи інша інформація і результати роботи. Коли Ви починаєте виконувати певні дії в пакеті, автоматично буде створено файл звіту. На закладці Report можна вибрати розміщення даних звіту (опції аналогічні згаданим раніше). Натискаємо OK внизу вікна Create new document. З’явиться нова порожня таблиця. 7
Якщо ми хочемо змінити кількість змінних, то натиснемо на верхній панелі кнопку VARS Æ Add. У вікні, що з’явилося (див. рис. 1.3), вказуємо скільки змінних ми хочемо додати і після якої змінної вставити нові змінні. Також можна обрати ім’я змінної за замовчуванням, тип даних і довге ім’я.
Рис. 1.3 Перемістити змінні можна таким чином: натиснути на верхній панелі кнопку VARS Æ Move (або виділити змінну і натиснути праву кнопку миші для отримання контекстного меню в якому вибираємо Move Variables). Вказуємо, з якої по яку змінну ми хочемо перемістити, і після якої змінної їх вставити (див. рис. 1.4). Аналогічно, операції VARS Æ Copy, VARS Æ Delete (або Copy Variables і Delete Variables в контекстному меню) дають змогу скопіювати певні змінні, вставивши їх після вказаної нами змінної, та видалити вказані користавачем змінні. Аналогічно всі згадані операції виконуються з випадками за допомогою меню Cases верхньої панелі. 8
Рис. 1.4 Виділимо якусь змінну, натиснувши на її ім’я лівою кнопкою миші (LC), далі натиснемо праву кнопку миші (RC) та виберемо Variable Specs. На екрані з’явиться вікно опису даної змінної (див. рис. 1.5).
Рис. 1.5 Дамо короткий опис полів для заповнення: 9
A
Опції для вибору різних характеристик шрифтів
Name
Ім’я змінної
Type
Вибрати тип даних – число подвійної точності, байти, ціле число, текст
Length
Ширина колонки даної змінної (для тексту)
Excluded
Виключити змінну з подальшого аналізу
Label
Використовувати значення змінної як тексові мітки, наприклад для точок на графіку
MD Code
(missing data code) – значення, яке за замовчування присвоюється змінній, якщо її справжнє значення відсутнє з якихось причин. (Наприклад, у нас немає спостережень даного показника у роки війни)
Display format
Вибір формату відображення числа (як дата, тощо) – дуже багато різних опцій – досліджуйте!
Long name
Поле, в якому можна задавати формулу для обчислення значення даної змінної.
Кнопки мають такі функції: << , >> для переходу до попередньої і наступної змінної, яку відображає даний діалог; All specs відкриває таблицю з усіма специфікаціями змінних; Values/Stats дає змогу дізнатися „швидку статистику” – значення окремих випадків, середнє арифметичне, стандартне відхилення та інше (див. рис. 1.6). Кнопка Functions відкриває вікно вибору функцій для формули, яка визначатиме значення змінної. Проілюструємо це на прикладі. Для цього заповнимо колонки перших двох змінних довільними значеннями. Далі виділимо третю змінну, натиснемо RC Æ Variable Specs. У полі Long Name напишемо: =v1+v2. Далі двічі натиснемо OK. Бачимо, що тепер змінна VAR3 є сумою VAR1 та VAR2. Зауваження: імена v1, v2,… за замовчуванням присвоюються по порядку першій, другій, і т.д. змінним. Якщо ім’я першої змінної буде VAR10, то v1 буде відповідати саме змінній VAR10.
10
Якщо змінюються значення незалежних змінних, то перерахувати залежну змінну можна натиснувши на верхній панелі кнопку VARS Æ Recalculate або кнопку x=?.
Рис. 1.6 Інколи бувають потрібні не точні значення змінних, а їх порівняння з іншими значеннями цієї ж змінної, тобто треба замінити значення змінної на їх відносне місце у варіаційному ряді за зростанням чи спаданням. Для цього натискаємо VARS Æ Rank. У вікні, що з’явиться (див. рис. 1.7), вибираємо: найбільшому чи найменшому значенню присвоїти ранг 1 (тобто за спаданням чи за зростанням будуть впорядковані значення), а також обираємо опцію Mean (якщо хочемо, щоб однакові значення мали однаковий усереднений ранг) або Sequential (якщо хочемо, що однакові значення мали послідовні значення рангу). Інколи буває потрібно розбити значення змінних на групи (наприклад, якщо певний показник більший за певну величину або менший за цю величину). Виділяємо, наприклад, першу змінну, далі натискаємо VARS Æ Recode. У першому полі Include If пишемо умову для потрапляння значення змінної у групу: v1<5. У другому полі Include If пишемо: v1>=5. У полях 11
New Value 1 та New Value 2 вибираємо 1 та 2 відповідно (див. рис. 1.8). Натискаємо ОК і зберігаємо змінені значення. Бачимо, що всі значення, що були менші за 5, отримали нове значення 1, а ті, що були не менші за 5 отримали значення 2.
Рис. 1.7
Рис. 1.8 12
Оскільки візуально краще працювати з текстом, який би вказував назви груп, на які ми щойно розбили значення змінної, то виконаємо Data Æ Text Labels Editor і для значень 1 та 2 введемо назви груп, наприклад male та female і натиснемо Enter. Натискаючи кнопку Show/Hide Text Labels на верхній панелі бачимо, що у всіх клітинках замість числових значень з’явились назви груп. Для заповнення значень змінної можемо використовувати послідовність команд RC Æ Fill/Standartize Block Æ Fill Random Values. У результаті змінна буде заповнена випадковими значеннями. Якщо хочемо заповнити весь стовпчик або весь рядок одним й тим самим значенням, то набираємо це значення в першій клітинці. Далі починаючи з цієї ж клітинки виділяємо вниз або вправо стовпчик чи рядок відповідно і натискаємо RC Æ Fill/Standartize Block Æ Fill/Copy Down або RC Æ Fill/Standartize Block Æ Fill/Copy Right відповідно. Якщо ми хочемо заповнити стовпчик арифметичною прогресією, то в перших двох клітинках вводимо два перші члени арифметичної прогресії, виділяємо ці клітинки, переміщуємо курсор у правий нижній кут виділеної області, доки він не змінить форму хрестика і тягнемо вниз з натиснутою лівою кнопкою миші до тієї клітинки, до якої потрібно заповнити стовпчик. Для зміщення всіх даних у змінній, як одне ціле, на кілька позицій використовуємо на верхній панелі кнопку VARS Æ Shift (Lag). Для стандартизації змінних використовуємо на верхній панелі кнопку VARS Æ Standardize. Створені нами дані ми можемо зберігати в різних форматах. Для цього при виділеному окремому вікні з даними натиснемо File Æ Save as. Далі маємо можливість вибрати формат, в якому хочемо зберегти інформацію. Якщо дані містяться в робочій книзі, клацаємо правою клавішею миші на назві таблиці в дереві документів (зліва) і вибираємо Save item as. Потрібну таблицю, графік можна виокремити з робочої книги за допомогою команди Extract as a standalone, якщо відмітити їх у робочій книзі і натиснути праву клавішу миші (див. рис. 1.9). Якщо у нас є дані в Excel і ми хочемо частину з цих даних скопіювати у файл в Statistica, то існує два способи це зробити: 1.
за допомогою звичайних операцій Copy в Excel і Paste в Statistica,
2.
або знову ж таки Copy в Excel та Edit Æ Paste special Æ Paste Link в Statistica.
Другий спосіб має ту перевагу над першим, що при зміні даних в таблиці Excel, дані в файлі Statistica теж будуть відповідно змінюватися, а при першому способі цього не відбудеться. Якщо після внесення даних в файл з допомогою Paste Link подивитися на Edit Æ Link, то побачимо там 13
запис про те з яким файлом встановлено динамічний зв'язок – в нашому випадку на файл Excel.
Рис. 1.9 Для створення звіту – тобто файлу, в якому будуть записані результати всіх дій, що ми проводимо, як-от: таблиці, графіки тощо, – натискаємо File Æ Output Manager (див. рис. 1.10). Вибираємо опцію, щоб інформація автоматично відсилалась до файлу звіту, потім визначаємо, чи створюватиметься окремий звіт для кожного графіку/аналізу, чи в одному вікні зливатиметься вся звітність, чи створиться файл звіту із вказаним іменем. Аналогічно у верхній частині вікна можна вибрати опції щодо використання робочих книг.
14
Рис. 1.10 Розглянемо з якими файлами ми матимемо справу, працюючи у пакеті Statistica. Про інформацію, що міститься у файлах, свідчить розширення файлу: .sta
Файли з даними у вигляді таблиць
.stw
Файли робочих книг
.stg
Файли з графіками
.str
Файли звіту
.svb, .svx
Файли STATISTICA Visual Basic чи макроси
.stm
Файли матриць
.snn
Файли нейронних мереж 15
.sdm
Файли проектів модулю Data Miner
.sti
Файли на віддалених серверах
Для роботи з усіма змінними таблиці даних або кількома файлами даних використовуємо меню Data. Наприклад, щоб транспонувати таблицю даних виконуємо Data Æ Transpose Æ File. Часом виникає потреба об’єднати дані з двох файлів в один. Наприклад, потрібно додати спостереження з показниками підприємств за нові роки, або додати нові показники діяльності підприємств до тих, що вже спостерігають протягом певного часу. Для цього виконуємо Data Æ Merge. У вікні, що з’явиться (див. рис. 1.11), вказуємо імена файлів з якими будуть здійснюватися операції і вибираємо опції об’єднання на закладках Variables чи Cases.
Рис. 1.11 Розглянемо як створювати макроси, які дають змогу автоматизувати виконання деякої послідовності команд. Натиснемо Tools Æ Macro Æ Start Recording Log of Analyses (Master Macro) (див. рис. 1.12). 16
Рис. 1.12 Індикатором того, що запис команд почався і триває, слугує віконце з кнопками управління записом. Наприклад, виберемо на верхній панелі Graphs Æ Histograms потім натиснемо Variables Æ Select all Æ Ok ще раз натиснемо Ok. Отримаємо гістограми усіх змінних. Після цього перейдемо в верхнє меню Statistics Æ Basic statistics/Tables Æ Descriptive statistics Æ OK. Знову оберемо змінну: Variables Æ Select all Æ Ok. Натиснемо кнопку Summary. З’явиться таблиця з описовою статистикою всіх змінних. Для закінчення запису макросу натиснемо кнопку зупинки макросу. У вікні, яке з’явиться (див. рис. 1.13), натискаємо Ok. Бачимо текст STATISTICA Visual Basic програми, яка з послідовністю виконаних операцій (див. рис. 1.14).
Рис. 1.13 17
Рис. 1.14 Натискаємо File Æ Save as Global Macro і зберігаємо макрос в головну директорію, в якій встановлено пакет Statistica. Щоб виконати макрос вибираємо на верхній панелі Tools Æ Macro Æ Macros. Відмічаємо потрібний макрос у вікні, що з’явилось, і натискаємо Run (див. рис. 1.15). Потім оберемо Tools Æ Customize. Відмітимо на закладці Toolbars категорію Macro – з’явиться нова панель інструментів. На закладці Command/Macros виберемо категорію Macros (див. рис. 1.16), і потім перетягнемо створений раніше макрос в панель інструментів. Тепер після натискання кнопки з назвою макросу будуть автоматично побудовані гістограми і проведена описова статистика змінних. Аналогічно можна записувати макрос, що відтворює послідовність дій з клавіатури (Tools Æ Macro Æ Start Recording Keyboard Macros). У цьому випадку команди, що будуть записані в макрос, повинні бути введені тільки за допомогою клавіатури.
18
Рис. 1.15
Рис. 1.16 19
Заняття 2 Описова статистика Якщо потрібно знайти значення теоретичної функції розподілу в певній точці, або, вказавши значення функції розподілу, знайти квантиль, то для цього можна скористатися імовірнісним калькулятором: Statistics Æ Probability Calculator Æ Distribution (див. рис. 2.1).
Рис. 2.1 Панель Probability Distribution Calculator (див.рис. 2.2) дає змогу подивитися, як виглядає один із даних нам розподілів. Змінюючи значення параметрів розподілу, будемо бачити автоматичну зміну щільності розподілу (Density Function) та функції розподілу (Distribution Function). Задавши значення в полі X після натискання Compute в полі р з’явиться значення функції розподілу F(x). Аналогічно в полі р можна задати ймовірність від 0 до 1, тоді після натискання Compute в полі X з’явиться значення квантилі рівня p. Якщо відмітити Create Graph та Send to Report і натиснути 20
Compute, то в окремих вікнах отримаємо, відповідно, графік та звіт (див. рис. 2.2).
Рис. 2.2 Розглянемо модуль Basic Statistics/Tables. Натиснемо Statistics Æ Basic Statistics/Tables (див. рис. 2.3) і зайдемо в розділ Descriptive Statistics. Відкриємо файл Adstudy.sta (…\STATISTICA 7\Examples\ Datasets\), у якому зібрані дані про оцінки чоловіками та жінками реклами напоїв Pepsi та Coke. Кожен опитуваний оцінював рекламу по різних показниках, виставляючи 21
оцінку від 0 до 9 (див. рис. 2.4).
Рис. 2.3
22
Рис. 2.4 Активізуємо вікно Descriptive Statistics з нижньої панелі. В полі Variables вкажемо 3-Measure01. В закладці Quick знаходяться найбільш вживані описові статистики, таблиця частот, гістограма, а також „коробка з вусами” (див. рис. 2.5). Для того щоб побачити описові статистики натиснемо Summary. В інших закладках ми можемо налаштувати і подивитись детальніші характеристики.
Рис. 2.5 Так, якщо вибрати закладку Advanced, а потім натиснути Select all stats та Summary то отримаємо інші характеристики даних (див. рис. 2.6). Зокрема, значення Skewness показує коефіцієнт асиметрії, тобто наскільки розподіл "скособочений". А значення Kurtosis показує наскільки розподіл "пікоподібний". Для стандартного нормального розподілу Skewness та Kurtosis дорівнюють нулеві. Повернемось до закладки Quick. Натиснувши кнопку Frequency Tables отримаємо таблицю частот для нашої вибірки. Натиснувши кнопку Histograms отримаємо гістограму, на якій червоною лінією зображено підігнану криву нормального розподілу (див. рис. 2.7). В закладці Options ми можемо обрати тип "коробки з вусами". Оберемо перший тип Median/Quart/Range. Повернемось у закладку Quick і натиснемо Box & whisker plot for all variables – з’явиться вікно з рисунком коробки з вусами, в якій маленький прямокутник відповідає значенню медіани, великий 23
прямокутник – нижній та верхній квартилі, а вуса – найменшому та найбільшому значенню вибірки (див. рис. 2.8).
Рис. 2.6
24
Рис. 2.7
25
Рис. 2.8 В закладці Categorized Plots натиснемо Categorized box & whisker plots (див. рис. 2.9). Далі оберемо 1-GENDER, як першу змінну, 2-ADVERT, як другу. Третю змінну вказувати не будемо і натиснемо ОК. З’явиться вікно Select Codes for the grouping variables. Для Gender, і для Advert виберемо ALL (див. рис. 2.10). Натиснемо ОК. У вікні, що з’явиться (див. рис. 2.11), отримуємо коробки з вусами окремо для Pepsi і Coke, і окремо для чоловіків і жінок. Бачимо, що реклама Pepsi подобається чоловікам більше, ніж жінкам, а реклама Coke навпаки. При цьому у жінок розкид уподобань більший. Зауважимо, що отримані дані стосуються першої вибірки. Для того, щоб візуально побачити, наскільки наша вибірка відповідає нормальному закону розподілу у вікні Descriptive Statistics в закладці Prob. & Scatterplots натиснемо Normal Probability Plots (див. рис. 2.12).
26
Рис. 2.9
Рис. 2.10
Рис. 2.11 27
Рис. 2.12 Чим ближче точки розміщені до прямої, на графіку який з’явився, тим краще гаусів закон описує розподіл наших даних ( див. рис. 2.13). Якщо ми хочемо вибирати той тип розподілу з яким візуально найкраще узгоджується наша вибірка, то виконуємо Graphs Æ 2D Graphs Æ Quantile-Quantile Plots (див. рис. 2.14). Перейдемо на закладку Advanced. За допомогою кнопки Variables задаємо потрібну змінну. У полі Distribution вибираємо розподіл, на відповідність якому хочемо перевірити нашу вибірку (див. рис. 2.15) і натискаємо ОК. У результаті отримуємо QQ графік, точки якого тим ближче розміщені до прямої, чим краще заданий тип розподілу описує наші даних. Наприклад, з рисунка 2.16 видно, що експоненційний розподіл візуально не підходить до наших даних.
28
Рис. 2.13
Рис. 2.14 29
Рис. 2.15
Рис. 2.16 30
Заняття 3 Описова статистика (графічна візуалізація) Відкриємо файл adstudy.sta (…\STATISTICA 7\Examples\ Datasets\). Натиснемо Statistics Æ Basic Statistics/Tables, зайдемо в розділ Descriptive Statistics і в закладці Prob. & Scatterplots натиснемо Half-Normal Probability Plot. Або ж відкриємо Graphs Æ 2D Graphs Æ Normal Probability Plots і натиснемо у вікні, що з’явиться, Quick Æ Graph Type: Half-Normal (див. рис. 3.1).
Рис. 3.1 Вибираємо як змінну для аналізу 4-MEASURE02 і натискаємо OK. Отримуємо графік (див. рис. 3.2), на якому побачимо, наскільки дані вибірки узгоджуються з напівнормальним розподілом, щільність якого визначається, як
30
⎧2 pN ( x ), x ≥ 0 , p( x − xmin ) = ⎨ ⎩ 0 ,x<0 де pN ( x ) – щільність нормального розподілу N(0,1), а xmin – найменше спостереження у вибірці. Якщо наша вибірка має тренд, то вибравши Detrended Normal Probability Plot (відповідно Graph Type: Detrended), отримаємо графік, на якому можна побачити, як розподілені залишки, якщо виділено тренд (див. рис. 3.3).
Рис. 3.2 Припустимо, ми хочемо отримати гістограму вибірки, категоризовану за певним значенням. Наприклад, для даних з файлу adstudy.sta потрібно отримати гістограму окремо для чоловіків і окремо для жінок. Вибираємо Statistics Æ Basic Statistics/Tables Æ Descriptive Statistics і натискаємо у закладці Categ.plots кнопку Categorized Histograms (див. рис. 3.4). У вікні Select one or two grouping (categorization) variables вибираємо Gender як first variable, як second variable не вибираємо нічого. Натискаємо ОК. У вікні Select code for grouping variables натискаємо All, ОК. Отримуємо в одному вікні 2 гістограми (див. рис. 3.5). 31
Рис. 3.3
32
Рис. 3.4 Переходимо на закладку Prob. & Scatterplots. Як змінні Variables виберемо MEASURE01 та MEASURE02. Натиснемо кнопку 2D Scatterplot. У вікні Select two var. lists (horizontal and vertical vars in plots) як First (horizontal) variable list вибираємо 3-MEASURE01, як Second (vertical) variable list вибираємо 4-MEASURE02. Натиснемо ОК. Отримаємо графік (див. рис. 3.6), на якому зображено синіми кружечками сумісні значення вибірок MEASURE01 та MEASURE02, а червоною лінією - пряму лінійної регресії для цих даних. Штриховими лініями позначено 95% довірчу область, у якій мали б знаходитись сумісні значення вибірок для даної регресійної моделі.
Рис. 3.5 Перейшовши до закладки Normality, натиснувши на кнопку 3D histograms, bivariate distributions (див. рис. 3.7) і вибравши у вікні Select two variable lists 3-MEASURE01 як First variable list і 4-MEASURE02 як Second variable list, отримаємо діаграму, в якій висота кожного стовпчика дорівнює кількості однакових відповідних пар з вибірок MEASURE01 та MEASURE02 (див. рис. 3.8). 33
Рис. 3.6
Рис. 3.7 34
Рис. 3.8 Якщо ми хочемо подивитися на даний рисунок з іншої точки, то натиснемо кнопку 3D Rotation control під головним меню. У вікні, що з’явиться (див. рис. 3.9), ми можемо змінити розміщення нашої діаграми так, щоб найкраще відображались ті особливості даних, що нас цікавлять. Якщо натиснути кнопку Analytic exploratory spin options, то наша діаграма почне обертатись. Коли вона буде перебувати у потрібному нам положенні натиснемо Stop. Виконаємо Graphs Æ Histograms, закладка Advanced (див. рис. 3.10). Виберемо опцію Showing type: Cumulative – це означає, що гістограма буде накопичувальною. Звичайна гістограма дає уявлення про графік щільності, а накопичувальна – про графік функції розподілу. Як variables виберемо MEASURE01. У полі Graph type виберемо Regular. З розподілів можемо вибрати той, який ми хочемо підібрати до даної гістограми. Натиснемо ОК. Отримаємо накопичувальну гістограму з червоною лінією графіка обраної теоретичної функції розподілу (див. рис. 3.11).
35
Рис. 3.9
Рис. 3.10 36
Рис. 3.11 Якщо потрібно на одному графіку намалювати гістограми для двох вибірок, то як Graph Type виберемо Multiple. Наприклад, як Variables виберемо MEASURE01 та MEASURE02, а розподіл Normal. Отримаємо дві накопичені гістограми на одному графіку (див. рис. 3.12). Якщо хочемо в одному вікні виводити різні методи опису вибірок (коробки з вусами, гістограми тощо), то вибираємо, наприклад, Graphs Æ 2D Graphs Æ Scatterplots w/Box plots (див. рис. 3.13). Оберемо дві змінні MEASURE01 та MEASURE02. Натиснемо ОК. Отримаємо діаграму розсіювання разом з коробкою з вусами для обох змінних (див. рис. 3.14). Виконаємо Graphs Æ Stats 3D XYZ Æ Surface plots. У вікні, що з’явиться (див. рис. 3.15), оберемо метод підгонки Fit: Quadratic, за допомогою якого отримаємо квадратичну поверхню за трійками спостережень X, Y, Z. У Variables виберемо як змінні відповідно вибірки MEASURE01, MEASURE02, MEASURE03. Натиснувши ОК отримуємо потрібну поверхню (див. рис. 3.16).
37
Рис. 3.12
Рис. 3.13 38
Рис. 3.14
Рис. 3.15 39
Рис. 3.16 Виконаємо Statistics Æ Basic Statistics/Tables Æ Correlation matrix. Вибираємо One variable list та Select All, натискаємо ОК, Summary (див. рис. 3.17). З’явиться кореляційна матриця (див. рис. 3.18), у якій червоним кольором виділено значення кореляцій, які значимі з рівнем p=0.05.
Рис. 3.17 40
Рис. 3.18 Щоб змінити стандартний рівень значимості p=0.05, перейдемо в закладку Options і введемо нове значення у віконці p-level for highlighting (див. рис. 3.19).
Рис. 3.19 41
Якщо виділити клітину в кореляційній матриці, наприклад 0.30 на перетині MEASURE15 та MEASURE3, і натиснути праву кнопку миші Right Click Æ Graphs of Input Data Æ Scatteplot by MEASURE15 Æ Regretion, 95% conf., то побачимо графік, на якому зображені сумісні значення двох змінних MEASURE15 і MEASURE3, відображено їх кореляцію, та рівняння і графік відповідної лінійної регресійної прямої (див. рис. 3.20).
Рис. 3.20 Перейдемо в панель аналізу Nonparametric: Statistics Æ Nonparametrics
Æ Correlations (Spearman etc.) Æ ОК (див. рис. 3.21).
Виберемо як Variables MEASURE01 та MEASURE02 і підрахуємо для них кореляцію Спірмена. Для цього виберемо Compute:Detailed report і натиснемо кнопку Spearman R (див. рис. 3.22).
42
Рис. 3.21
Рис. 3.22 Побачимо, що значення кореляції Спірмена (див. рис. 3.23) відрізняється від підрахованої раніше кореляції Пірсона. Насправді кореляція Спірмена – це кореляція між ранжованими значеннями змінних MEASURE01 та MEASURE02. Тобто якби в модулі Basic Statistics ми проранжували значення змінних MEASURE01 та MEASURE02 і підрахували 43
для них кореляцію, то побачили б, що вона збігається з кореляцію Спірмена.
Рис. 3.23 Натиснемо Graphs Æ Icon Plots. У вікні, що з’явиться (див. рис. 3.24), у Variables виберемо для графічного аналізу всі змінні. У полі Graph Type можемо вибрати тип діаграми. Оберемо тип діаграми Chernoff Faces, тоді кожна змінна буде відповідати за певний параметр обличчя – висоту вух, ширину обличчя тощо (див. рис. 3.25).
Рис. 3.24
44
Рис. 3.25 Якщо вибрати тип Stars, то значення всіх змінних будуть відкладені на променях послідовно за годинниковою стрілкою (див. рис. 3.26). Якщо обрати тип Pies, то значення кожної змінної буде відповідним кольором зображене у секторі круга (див. рис. 3.27). Отже, за даними діаграмами можна візуально отримати уявлення про дані. Натиснемо Statistics Æ Basic statistics/Tabels Æ Frequency TablesÆ ОК. У Variables оберемо змінну MEASURE01 (див. рис. 3.28). Натиснувши Summary отримуємо таблиці частот – звичайну, відсоткову і накопичену (див. рис. 3.29).
45
Рис. 3.26
Рис. 3.27 46
Рис. 3.28
Рис. 3.29 У закладці Advanced (див. рис. 3.30) ми можемо більш точно налаштувати параметри таблиці частот до наших вимог. 47
Рис. 3.30 Наведемо короткий опис опцій для вибору різних параметрів таблиць частот у пакеті Statistica: No. of exact intervals
Вказуємо точну кількість інтервалів
“Neat” intervals approximate no.
Границі інтервалів будуть “гарними” числами, але їх кількість може трохи відрізнятись від вказаного числа
Step size
Можемо вказувати розмір інтервалів
Integer categories
Використовують, коли значення змінної є цілими числами
User-specified
Використовуємо, коли користувач бажає точно вказати розміри всіх інтервалів
Для того, щоб самостійно вказати розміри всіх інтервалів, натискаємо кнопку, що міститься внизу поряд з написом User-specified categories. У вікні Define Categories, що з’явилося, вказуємо умови для внесення значень в інтервал, наприклад, v3<2, v3<=5, v3<=9, v3>=5 (див. рис. 3.31). Натискаємо ОК, Summary. Отримуємо нову таблицю частот з вказаними 48
інтервалами (див. рис. 3.32). Значення спостережень враховуються лише в одній групі. Підрахунок у таблиці проводиться послідовно зверху вниз.
Рис. 3.31
Рис. 3.32
49
Заняття 4 Перевірка гіпотез Для того, щоб перевірити гіпотезу про залежність двох показників виконаємо Statistics Æ Nonparametrics Æ 2x2 Table Æ ОK (див. рис. 4.1).
Рис. 4.1 Таблицю, яка з’явилась використовують, коли є потреба в перевірці зв’язку між двома змінними. Наприклад ми хочемо перевірити, чи пов’язані між собою такі два показники як колір очей та колір волосся. Можна провести опитування в групі про колір очей та волосся і занести в таблицю ці дані (див. рис. 4.2)
. Рис. 4.2 50
Нехай
p1 =p11 +p12 , p2 =p21 +p22 , q1 =p11 +p21 , q 2 =p12 +p22 .
Якби
в таблиці 4.1 були ймовірності, то у разі коли колір очей та колір волосся незалежні виконувалось би співвідношення pij =pi q j , i,j=1,2.
Волосся Темне Світле
Очі Темні
Світлi
p11 p21 q1
p12 p22 q2
p1 p2
Таб. 4.1 За допомогою критерію χ2 (Chi-square) можна визначити ймовірність помилки, якщо ми, на основі наших даних, відхилимо істинну гіпотезу про те, що колір очей та колір волосся – незалежні між собою. Для цього натиснемо кнопку Summary (див. рис. 4.2). Ймовірність помилки вказано на перетині Chi-square та Column 2 (див. рис. 4.3).
Рис. 4.3 51
Відкриємо файл Adstudy.sta. Для того, щоб порівняти середні для двох вибірок натиснемо Statistics Æ Basic Statistics/Tables Æ t-test, independent, by variables Æ ОK (див. рис. 4.4).
Рис. 4.4 Слід зазначити, що t-test є одним з найпоширеніших методів порівняння середніх двох вибірок, дані яких можуть бути або залежні, або незалені. Теоретично t-test можна використовувати навіть для малих вибірок ( приблизно 10 спостережень), якщо дані приблизно нормально розподілені, що можна визначити візуально за гістограмою. Як Variables (groups) виберемо MEASURE01 – First list, та MEASURE02 – second list відповідно. Далі натиснемо Summary (див. рис. 4.5). В таблиці, що з’явилася (див. рис. 4.6), серед інших показників обчислено середні для обох змінних, t-статистику та F-статистику, показано кількість спостережень змінних, кількість степенів свободи df. У полі p вказано ймовірність помилки при відхиленні гіпотези про те, що середні обох вибірок збігаються. 52
Рис. 4.5
Рис. 4.6 Якщо ж обрати Statistics Æ Basic Statistics/Tables Æ t-test, independent, by groups Æ ОK замість t-test, independent, by variables, а в Variables, як Grouping вибрати Gender, а як Dependent variables – MEASURE01 та MEASURE02 (див. рис. 4.7), то ми отримаємо порівняння середніх двох вибірок, згрупованих за статтю (див. рис. 4.8). Тобто для кожної змінної буде пораховано значення середніх окремо для чоловіків і для жінок, і будуть порівнюватися саме середні для чоловіків і жінок. Отже ми провели аналіз гіпотези про рівність середніх припускаючи, що змінні є незалежні, проте, якщо врахувати, що відповідні значення для вибірок MEASURE01 та MEASURE02 є відповідями одних і тих же людей, то природніше вважати, що відповідні змінні все-таки залежні. Тому, доцільно проаналізувати нашу гіпотезу, використовуючи тест для залежних вибірок. 53
Рис. 4.7
Рис. 4.8 Виберемо Statistics Æ Basic Statistics/Tables Æ t-test, dependent samples Æ ОK. У Variables, як first variable, виберемо змінну MEASURE01, а як second variable, виберемо MEASURE02, MEASURE03. Натиснемо Summary (див. рис. 4.9). В отриманій таблиці (див. рис. 4.10) відображено результати порівняння середніх вибірок MEASURE01 та MEASURE02 та вибірок MEASURE01 та MEASURE03, де в полі р вказано ймовірність помилки при відхиленні гіпотези про те, що середні обох вибірок збігаються. Слід ще раз наголосити на тому, що t-test застосовують на практиці у тих випадках, коли: 1) ми маємо багато спостережень; 2) можна вважати, що дані розподілені нормально (це можна візуально 54
визначити за гістограмою, або графіком на нормальному ймовірнісному папері – Normal probability plot).
Рис. 4.9
Рис. 4.10 Зазначимо, що з панелі t-тесту можна побудувати різноманітні графіки для візуального порівняння середніх та варіації в двох групах. Як приклад (див. рис. 4.11) наведено графік з t-test, independent, by variables (натисніть у вікні аналізу (див. рис. 4.5) Box & whisker plots). Такі графіки допомагають зробити попередні висновки про рівність середніх. 55
Рис. 4.11 Розглянемо тести порівняння для інших характеристик вибірок. Оцінити гіпотезу про рівність варіацій чи дисперсій змінних можна на базі F-test, який можна знайти в таблиці результатів t-test; тут слід зазначити, що, якщо дві оцінки дисперсії близькі одна до одної, то значення F-статистики наближається до одиниці, адже F-статистику можна розглядати як відношення двох незалежних оцінок дисперсії. Також для оцінки гіпотези про рівність дисперсій можна використовувати тести Levene test та Brown-Forsythe. Виберемо Statistics Æ Basic Statistics/Tables Æ Difference tests: r, %, means Æ ОK (див. рис. 4.12). У вікні, що з’явилось (див. рис. 4.13), бачимо панелі трьох тестів, які дозволяють перевірити гіпотези про рівність таких характеристик вибірок: коефіцієнтів кореляції, математичних сподівань та ймовірностей. Наприклад, можемо перевіряти гіпотезу про рівність математичних сподівань тоді, коли стандартні відхилення відомі.
56
Рис. 4.12
Рис. 4.13 57
У полях Difference between two correlation coefficients як значення r1 та r2 вводимо обчислені попередньо значення кореляцій для двох вибірок, а як значення N1 та N2 вказуємо кількість елементів у двох вибірках відповідно (вибираємо two-sided). У полі р після натискання Compute отримуємо ймовірність прийняття гіпотези про те, що кореляції обох вибірок рівні. Аналогічно у полях Difference between two means вказуємо M1 та M2 – середні двох вибірок, а у полях StDv1 та StDv2 – стандартні квадратичні відхилення обох вибірок відповідно. У поля N1 та N2 вводимо кількість елементів в обох вибірках. В нашому випадку, для вказаних значень, ймовірність помилки при відхиленні гіпотези про те, що середні обох вибірок збігаються становить 0.0089 (див. рис. 4.14).
Рис. 4.14 Якщо для наведених вище тестів потрібно попередньо підрахувати значення різних статистичних характеристик вибірок, то швидко зробити це можна так: 1) виділяємо ті значення змінної, для яких ми хочемо обчислити характеристику; 2) виконуємо Statistics Æ Statistics of Block Data Æ Columns Æ потрібна характеристика. 58
Те ж можна проробити і для рядків таблиці.
59
Заняття 5 Непараметричні тести У випадках, коли даних мало, або ми не можемо вважати, що вони мають нормальний розподіл, замість t-тесту використовують інші тести: тест знаків, тест Вілкоксона, тощо. Створимо файл з даними, що зображено на рисунку 5.1. Для дослідження були обрані кілька родин у яких є брати і сестри. Значення змінних – це прибутки братів і сестер. Оскільки кожна пара (брат і сестра) з однієї родини, то можемо вважати, що вони отримали приблизно однакове виховання та освіту.
Рис. 5.1 Для аналізу скористаємося модулем Nonparametrics. Виконаємо Statistics Æ Nonparametrics Æ Comparing two depending samples (variables) Æ ОK (див. рис. 5.2). У полі Variables вкажемо дві порівнювані змінні (див. рис. 5.3). Натиснувши Sign Test отримуємо таблицю результатів (див. рис. 5.4). 59
Рис. 5.2
Рис. 5.3
Рис. 5.4 60
У табличці, що з’явилась, вказана статистика тесту знаків для першої та другої змінних. У полі Percent v < V бачимо відсоток тих значень першої змінної, що менші за відповідні їм значення другої змінної. У полі p-level отримали ймовірність помилки при прийнятті гіпотези про те, що середні вибірок різні. Тест знаків застосовують для парних спостережень (кількість елементів у обох вибірках повинна бути однакова). Цей тест часто використовують у ситуаціях порівняння об’єктів чи їхніх характеристик до і після впливу деякого фактора. Тест Вілкоксона, так як і тест знаків, можна використати для перевірки гіпотези про те чи різний середній прибуток чоловіків та жінок, які отримали однакове виховання та освіту. Тому ці тести є замінниками tтестів для залежних змінних. Виконаємо Statistics Æ Nonparametrics Æ Comparing two depending samples Æ Wilcoxon matched pairs test (див. рис. 5.3). Результат зображено на рисунку 5.5.
Рис. 5.5 Якщо значення p-level з тесту знаків та тесту Вілкоксона приблизно однакові, то даним тестам можна довіряти, інакше потрібно провести додаткове дослідження. Аналогами t-тесту для незалежних змінних можуть слугувати WaldWolfowitz runs test та Mann-Whitney test. Нагадаємо, що такі тести можна використовувати не обов’язково для парних спостережень. Нехай в нас є дані про сукупні прибутки сімей в регіонах: South 4000 8000 9000 14000
North 5000 10000 11000 12000 15000 22000
61
Створимо в пакеті Statistica нову таблицю даних і заповнимо першу змінну (Var1) спочатку даними з South, а потім даними з North. Наступну змінну (Var2) заповнимо значеннями “1” навпроти значень з South і значеннями “2” напроти значень з North (див. рис. 5.6). Змінна Var2 є групувальною змінною. Перейдемо до підмодулю Comparing two Comparing two independent samples: Statistics Æ Nonparametrics Æ independent samples (groups) Æ ОK (див. рис. 5.2).
Рис. 5.6 В полях Code for Group1, Code for Group2 вкажемо значення 1 та 2 відповідно (див. рис. 5.7). Натиснувши кнопку Wald-Wolfowitz runs test отримаємо результат, який зображено на рисунку 5.8. Після виконання тесту отримали p-level=0.89, тобто ймовірність помилки при прийнятті гіпотези про те, що вибірки не з однієї і тієї ж популяції (реалізації двох випадкових величин з різними розподілами), дуже висока. Аналогічно виконаємо Mann-Whitney U test (див. рис. 5.7) і отримаємо p-level=0,2 (див. рис. 5.9).
62
Рис. 5.7
Рис. 5. 8
Рис. 5.9
63
Оскільки результати різні, то потрібне додаткове дослідження. Зауважимо, що тест Wald-Wolfowitz більш чутливий до природи розподілу. Розглянемо як перевірити гіпотезу про те, що спостереження відповідають певному типу розподілу. Відкриємо файл Accident.sta (див. рис. 5.10). У ньому містяться дані про щомісячну кількість ДТП на певній частині деякої транспортної магістралі за 1983 та 1985 роки. У 1984 році була проведена реконструкція цієї магістралі з метою більшої безпеки руху. Нас цікавить чи дійсно реконструкція була ефективною.
Рис. 5.10 Перевіримо гіпотезу про те, що обидві змінні мають однакові середні і однаково розподілені, тобто реконструкція не була ефективною. Виконаємо Statistics Æ Nonparametrics Æ Observed versus expected χ2 Æ ОK (див. рис. 5.2). Як Observed frequencies оберемо Y_1985, а як Expected frequencies оберемо Y_1983 (див. рис. 5.11). Натиснемо кнопку Summary. Бачимо (див. рис. 5.12), що кількість ДТП значно зменшилась і ймовірність помилки р при відхиленні нульової гіпотези про однаковість розподілів дуже мала. Отже, робимо висновок, що розподіли різні, тобто заходи, що були вжиті між двома роками спостережень, мали певний вплив. Задача. Перевірити, чи симетрична монета. Підкинути монету 20 разів і дані спостережень занести в першу змінну, а очікуваний результат 10, 10 занести в другу змінну та виконати тест. 64
Рис. 5.11
Рис. 5.12 Створимо новий файл даних з 10000 випадками (Cases) і заповнимо їх згенерованими випадковими значеннями рівномірно розподіленими на відрізку [0,1]: Edit Æ Fill/Standardize Blocks Æ Fill Random Values. 65
Натиснемо Statistics Æ Distribution Fitting, виберемо рівномірний розподіл (див. рис. 5.13) і натиснемо ОK. У вікні, що з’явиться (див. рис. 5.14) як Variable обираємо створену змінну.
Рис. 5.13
Рис. 5.14
66
У закладці Parameters як Lower limit та Min. range Parameter задамо 0, а як Upper limit та Max. range Parameter задамо 1 (див. рис. 5.15). У закладці Options відмітимо Yes (continuous) у розділі KolmogorovSmirnov test (див. рис. 5.16).
Рис. 5.15
67
Рис. 5.16 Натиснемо кнопку Summary. У табличці, що з’явилась (див. рис. 5.17), вказана статистика для тестів Колмогорова-Смірнова та χ2.
Рис. 5.17 Якщо тести Kolmogorov-Smirnov та χ2 (Chi-Square) видають значення р, які відмінні від 0 або n.s., то це означає, що ймовірність помилки при відхиленні гіпотези про заданий розподіл велика і гіпотезу потрібно прийняти. В нашому прикладі гіпотеза про рівномірний розподіл приймається, оскільки Kolmogorov-Smirnov: p =n.s.; Chi-Square: p = 0.42. 68
Натиснувши кнопку Plot of observed and expected distribution на закладці Quick, можна графічно порівняти гістограму з щільністю обраного розподілу (див. рис. 5.18).
Рис. 5.18
69
Заняття 6 Лінійна регресія Створимо новий файл, в якому змінну VAR1 заповнимо послідовно значеннями від 0 до 10, змінну VAR2 – випадковими значеннями від 0 до 1, а змінну VAR3 задамо, як суму VAR1+ VAR2. Виконаємо послідовність команд: Statistics Æ Basic Statistics/Tables Æ Descriptive Statistics Æ Prob.&Scatterplots (див. рис. 6.1).
Рис. 6.1 Як Variables виберемо VAR1-VAR3, натиснемо кнопку 2D Scatterplot. У першому списку змінних вкажемо VAR1, в другому – VAR3 і натиснемо кнопку ОK (див. рис. 6.2). На графіку, що з’явився, зображено пряму лінійної регресійної моделі для VAR3 через VAR1, а у верхній частині вікна бачимо рівняння лінійної регресії (див. рис. 6.3).
69
Рис. 6.2
Рис. 6.3 70
Якщо у змінній VAR3 замінити одне із значень, наприклад на 70, і побудувати графік знову, то побачимо, що рівняння регресії буде враховувати дане значення і з графіка буде очевидно, що 70 є викидом (див. рис. 6.4). Натиснемо піктограму Brushing. У вікні, що з’явиться зробимо активними Exclude та Box, виділимо прямокутником значення (див. рис. 6.5) і натиснемо кнопку Apply. Виділене значення зникне з графіка і регресійна пряма змінить своє положення. Для того, щоб значення викиду не виводилось у наступних графіках та не враховувалось при обчисленні регресійної формули, у змінній VAR4 заповнимо всі значення одиницями, а те значення, що стоїть напроти викиду – нулем (див. рис. 6.6).
Рис. 6.4
71
Рис. 6.5
Рис. 6.6 72
У вікні Descriptive Statistics натиснемо кнопку Weight (див. рис. 6.1). Оберемо змінну VAR4, перемкнемо Status на On та натиснемо OK (див. рис. 6.7). Тепер при аналізі викиди враховуватися не будуть.
Рис. 6.7 Нехай маємо таку таблицю з даними: Y 40 50 50 70 65 65 80
X 100 200 300 400 500 600 700
Z 10 20 10 30 20 20 30
де Y – врожайність, X – добрива, Z – опади. Потрібно знайти формулу багатофакторної лінійної регресії для Y: Y=B0+B1X+B2Z, де Bі – невідомі коефіцієнти. Виконаємо послідовність команд: Statistics Æ Multiple Regression, як змінні оберемо Y – залежна, X і Z – незалежні (див. рис. 6.8). Натиснемо OK. Отримуємо результат, який зображено на рис. 6.9. 73
Рис. 6.8
Рис. 6.9 74
В закладці Quick натиснемо кнопку Summary: Regression results.У вікні, що з’явилось (див. рис. 6.10), бачимо оцінки параметрів та допоміжну статистику. Обидві змінні значимі (виділені червоним). У третьому стовпці таблиці вказані оцінки для коефіцієнтів Bі. Отже, Y=28.095+0.038*X+0.833*Z. Якщо наші змінні попередньо стандартизувати, то у результаті такого регресійного аналізу отримали б оцінки коефіцієнтів, які записані в першому стовпчику таблиці (зрозуміло, що В0=0). Коефіцієнти з першого стовпця показують внесок у регресійну модель змінних X та Z.
Рис. 6.10 Для того, щоб обчислити передбачуване значення для Y для заданих X та Z і побудувати 95% проміжок надійності, перейдемо у закладку Residuals/assumptions/prediction і натиснемо Predict dependent variable (див. рис. 6.11). У відповідні віконця вводимо значення змінних X та Z (див. рис. 6.12) і натискаємо OK. Якщо незалежні змінні набувають одного і того ж значення його можна ввести у віконці Common Value і натиснути Apply. У вікні результатів аналізу (див. рис. 6.13) бачимо передбачуване значення Y, верхню і нижню межу надійного проміжку для цього значення.
75
Рис. 6.11
Рис. 6.12
76
Рис. 6.13 Якщо ж потрібно подивитись як розподілені залишки, то натиснемо кнопку Perform residual analysis. У вікні, що з’явилось (див. рис. 6.14), зібрані різні методи для аналізу залишків регресійної моделі.
Рис. 6.14 Наприклад, натиснувши Normal plot of residuals отримаємо Q-Q графік, на якому видно наскільки залишки узгоджуються з нормальним законом розподілу (див. рис. 6.15).
77
Рис. 6.15
78
Заняття 7 Багатофакторна регресія Відкриємо файл Job_prof.sta (див. рис. 7.1). У файлі вказано бали, отримані претендентами під час тестування при прийнятті на посаду (у перших чотирьох стовпцях), та оцінка професійної здатності претендентів (у п’ятому стовпці) після закінчення випробувального терміна. Нам потрібно знайти лінійну багатофакторну регресійну модель залежності оцінки професійної здатності від оцінок за тести. Завантажимо модуль Multiple Regression: Statistics Æ Multiple Regression.
Рис. 7.1
79
Натиснувши Variables, обираємо Job-Prof, як залежну змінну, а як незалежні змінні вибираємо перші чотири змінні (див. рис. 7.2). Двічі натискаємо ОK. Результати регресійного аналізу зображені на рисунку 7.3. Всі змінні, окрім другої, є значимими (виділені червоним). У закладці Quick натиснемо Summary: Regression result (див. рис. 7.3). У вікні, що з’явилось (див. рис. 7.4), бачимо результати аналізу: у третьому стовпці – коефіцієнти багатофакторної лінійної регресійної моделі, а в першому стовпці – коефіцієнти цієї ж регресійної моделі для стандартизованих змінних. Проаналізувавши результати прийдемо до висновку, що Test 2 досить мало впливає на оцінку професійної здатності претендентів: відповідний коефіцієнт у першому стовбці становить 0,043. Тому можливо є доречним взагалі вилучити Test 2 з регресійної моделі.
Рис. 7.2
80
Рис. 7.3
Рис. 7.4
81
Проведемо спочатку аналіз залишків побудованої моделі. У закладці Residuals/assumptions/prediction, натиснемо кнопку Perform residual analysis. У вікні, що з’явилось, обираємо Residuals Æ Casewise plot of residuals (див. рис. 7.5).
Рис. 7.5 Так ми перевіримо, чи не виходять залишки за межі 3δ. Отримаємо таблицю (див. рис. 7.6), в якій знаком «*» вказано де знаходиться залишок у інтервалі (-3δ; 3δ). У правій частині таблиці міститься додаткова інформація про залишки. Бачимо, що залишки лежать у проміжку (-2δ; 2δ) і їхні середнє і медіана дорівнюють нулеві. Потім оберемо закладку Outliers (див. рис. 7.7). Натиснемо Casewise plot outliers та упевнимося, що викидів немає – з’явиться відповідне повідомлення (див. рис. 7.8).
82
Рис. 7.6
Рис. 7.7
Рис. 7.8 83
На основі цих результатів можна вважати, що багатофакторна регресійна модель достатньо добре описує наші дані. Цікаво дослідити, що відбудеться, якщо вилучити змінну Test 2, яка досить мало впливає на оцінку професійної здатності претендентів, з регресійної моделі. Розглянемо, як автоматизовано процес знаходження змінних, які дають малий внесок у регресійну модель, у пакеті Statistica. У вікні Multiple Regression у закладці Advanced відмітимо Advan-ced options (stepwise or ridge regression) та натиснемо OK (див. рис. 7.9).
Рис. 7.9 У закладці Stepwise вкажемо метод Forward stepwise – змінні будуть введені у регресійну модель по одній. У Display results вкажемо покроковий вивід результатів – At each step (див. рис. 7.10). Тобто ми будемо здійснювати покрокову регресію, з виводом результатів після кожного кроку. У полі F to enter вказуємо значення 1, а у полі F to remove вказуємо 0.01. Ці два числа визначають верхню та нижню межі проміжку для значимості внеску у регресійну модель змінних. Якщо значимість змінної потрапляє в цей проміжок, то включаємо її до регресійної моделі, інакше – відкидаємо.
84
Рис. 7.10 Оскільки маємо чотири незалежні змінні, то кількість кроків множинної регресії Number of steps досить вказати рівною чотирьом (після кожного кроку до моделі може включатись не більше однієї змінної). Натискаємо кнопку OK. У вікні, що з’явилось, бачимо, що в моделі ще немає жодної змінної (див. рис. 7.11). Натискаємо Next. З’явився перший коефіцієнт та перша, вибрана до рівняння регресії змінна (див. рис. 7.12). Натискаємо кнопку Next, допоки на цій кнопці не з’явиться напис ОК. Це означатиме, що процедуру вибору змінних до регресійної моделі закінчено і всі змінні значимість внеску яких знаходиться у вказаних межах увійшли до рівняння регресії. Бачимо, що змінна Test 2 не увійшла у нову багатофакторну регресійну модель (див. рис. 7.13). Далі можемо подивитися результати. Для цього натиснемо на закладці Advanced, кнопку Stepwise Regression Summary (див. рис. 7.14). У вікні, що з’явилось (див. рис. 7.15), бачимо, статистику внеску обраних змінних і порядок включення їх у регресійну модель. Якщо натиснемо на закладці Advanced, кнопку Summary: Regression results (див. рис. 7.14), то у вікні, що з’явилось (див. рис. 7.16), побачимо з якими коефіцієнтами змінні увійшли до регресійної моделі. Використовуючи отриману інформацію (рис. 7.15 і 7.16) можемо порівняти стару і нову регресійну моделі. Бачимо, що вони майже не відрізняються. Отже, внесок змінної Test 2 дійсно був незначним. 85
Рис. 7.11
Рис. 7.12 86
Рис. 7.13
Рис. 7.14 87
Рис. 7.15
Рис. 7.16 Якщо є мультиколінеарність змінних (наприклад, в кількох стовпцях містяться дані про ціну одного і того ж товару в різних валютах), то очевидно, що для регресійної моделі слід взяти не всі із таких змінних. Якщо для обробки таблиці мультиколінеарних даних так як і раніше скористатися стандартним алгоритмом, то з’явиться повідомлення про помилку (див. рис. 7.17).
Рис. 7.17 У цьому разі для регресійного аналізу потрібно вибирати метод Forward stepwise (який дозволяє вводити у модель по одній змінній), а не Standard.
88
Заняття 8 Нелінійна регресія Досить часто із діаграми розсіювання, або попереднього досвіду роботи з подібними даними зрозуміло, що регресійна модель не є лінійною. Отже, виникає ситуація, коли потрібно розглядати регресійну модель, у яку входять не просто змінні, а деякі функції від них (наприклад, степінь, експонента, логарифм). Покажемо, як діяти у цьому випадку. Створимо новий файл. Першу змінну заповнимо числами від 1 до 10, другу – випадковими значеннями від 0 до 1, третя змінна v3=2*v1*v1+v2+20. Потрібно отримати рівняння регресії для VAR3 через VAR1. Зрозуміло, що доцільно ввести у регресійну модель квадрат VAR1. Виконаємо Statistics Æ Advanced Linear/Nonlinear Models Æ Fixed nonlinear Regression (див. рис. 8.1).
Рис. 8.1 У вікні, що з’явиться (див. рис. 8.2), оберемо зміні VAR1 та VAR3. Натискаємо OK. Оскільки ми знаємо, що наша залежність квадратична, то виберемо X**2 (див. рис. 8.3). Натискаємо OK.
89
Рис. 8.2
Рис. 8.3 90
З’явиться вікно Model Definition. Перейдемо на закладку Quick і вкажемо залежну змінну – VAR3, а незалежними оберемо змінні VAR1 та VAR1**2 (див. рис. 8.4).
Рис. 8.4 Будуємо регресійну модель покроково з відкиданнями незначимих змінних. У закладці Stepwise вказуємо значення 1.0 для F to enter, а у полі F to remove вказуємо 0.01. Як і очікували, у регресійній моделі одержали єдину значиму змінну VAR1**2 (див. рис. 8.5). Натиснувши Summary: Regression results отримуємо таблицю результатів регресійного аналізу (див. рис. 8.6). Оцінки коефіцієнтів регресії близькі до значень у заданій теоретичній моделі.
91
Рис. 8.5
Рис. 8.6 Іноді з графічного зображення даних або попереднього досвіду роботи з ними можна зробити припущення про те, що для того щоб отримати адекватну регресійну модель, потрібно зробити перетворення залежної змінної вигляду: 92
xλ , λ ≠ 0 ln( x ), λ ≠ 0 . Використаємо для цього допоміжну програму. Вона обчислить оцінку максимальної вірогідності параметра λ . Для цього виконаємо послідовність команд Help Æ Open Examples Æ Macros Æ Analysis Examples і викличемо програму BoxCox. У вікні, що з’явилось (див. рис. 8.7), бачимо текст програми на мові STATISTICA Visual Basic.
Рис. 8.7 Натиснемо на стрілку в панелі макросів, щоб почати виконання програми. Вказуємо наші змінні і у вікні, яке потім з’являється (див. рис. 8.8), задаємо межі для параметра λ . Натискаємо OK. Вибравши один із запропонованих методів (див. рис. 8.9) Manual/visual search (graph of lambda vs. SSE) або Iterative optimization(golden search) отримаємо оцінку для λ, яку потім можна використати при побудові регресійної моделі. 93
Рис. 8.8
Рис. 8.9 За допомогою програми Boxtidwell.stb, яка знаходиться в тій же директорії, що і BoxCox, можна обчислити оцінки максимальної вірогідності для параметрів перетворення незалежних змінних. Розглянемо деякі інші нелінійні регресійні моделі. Відкриємо файл program.sta (див. рис. 8.10). У першій колонці файлу вказано витрачений працівниками час на вивчення певного програмного продукту, а у другій колонці вказано результати тестового завдання, на виконання якого було відведено фіксований час. Потрібно побудувати залежність успішності виконання від часу вивчення. Шукатимемо цю залежність у вигляді логістичної регресійної моделі:
yt =
exp(b0 + b1t ) , 1 + exp(b0 + b1t )
де yt – успішність, t – час, b0 , b1 - невідомі параметри. Завантажимо модуль з нелінійного оцінювання: Statistics Æ Advanced/Linear Nonlinear Models Æ Nonlinear Estimation (див. рис. 8.11). Обираємо Quick Logit regression (див. рис. 8.12) і натискаємо OK.
94
Рис. 8.10
Рис. 8.11 95
Рис. 8.12 Вкажемо як залежну змінну Success, а як незалежну – Experience (див. рис. 8.13). Натискаємо двічі OK. Отримані результати відобразяться у вікні, яке зображено на рисунку 8.14.
Рис. 8.13 Натиснувши Fitted 2D function & observed values отримаємо графік логістичної регресійної функції (див. рис. 8.15), яка найкраще описує наші дані. Формула, яка визначає функцію, написана над графіком. На цьому ж графіку зображено наші дані. Їхні координати по вертикальній осі є або 1, якщо тестове завдання виконано успішно, або 0, якщо ні. Використовуючи отриману логістичну модель можна передбачити наскільки успішно 96
програміст впорається із завданням залежно від його досвіду роботи з програмним продуктом.
Рис. 8.14
Рис. 8.15 97
Натискаючи різні кнопки у закладці Residuals (див. рис. 8.16), можемо отримати гістограму залишків, значення самих залишків, значення оцінок, які «пророкують» згідно із затраченим часом, вивчити відповідність розподілу залишків до гауссового розподілу. Наприклад і Q-Q графік і гістограма (див. рис. 8.17 і 8.18) свідчать про нормальний розподіл залишків.
Рис. 8.16
98
Рис. 8.17
Рис. 8.18. Відкриємо файл Learning.sta (див. рис. 8.19). Цей файл містить інформацію, про два підприємства А і В, які переходять на випуск нової продукції. Одна змінна – час, інша ефективність – відношення прибутку на один виріб нової моделі до старої. З часом на підприємствах все краще освоюють технологію пов’язану з випуском нової продукції, тому ефективність зростає. Ми хочемо порівняти два підприємства між собою і визначити яке підприємство має більший потенціал для впровадження нових технологій. Для цього ми побудуємо регресійні моделі для даних кожного підприємства і порівняємо ці моделі. Виконаємо Statistics Æ Advanced/Linear Nonlinear Models Æ Nonlinear Estimation Æ User specified regression, custom loss function (див. рис. 8.12). Як Function to be estimated & loss function задамо функцію v3=B0+B1*V1+B3*exp(B2*V2), а як міру відхилення (OBS-PRED)**2 (див. рис. 8.20). Натискаємо ОК. Оскільки текстовому значенню першої змінної Plant_A відповідає 1, а текстовому значенню Plant_B відповідає 0, то додатний знак коефіцієнта В1 99
буде свідчити про те, що перше підприємство має більший потенціал для впровадження нових технологій, а якщо В1< 0 , то навпаки - друге.
Рис. 8.19
100
Рис. 8.20 У закладці Advanced як Estimation method виберемо Rosenbrock and quasi-Newton. Як Start values задамо всі значення 0 (див. рис. 8.21). Зауважимо, що успіх побудови моделі залежить від вдалого вибору початкових значень та кроку зміни параметрів. Натискаємо ОК.
Рис. 8.21 101
У вікні Results, що з’явилось (див. рис. 8.22), бачимо результати аналізу. Значення Proportion of variance accounted for показує наскільки пояснено розкид даних. Побачити оцінки для параметри моделі можемо, натиснувши кнопку Summary (див. рис. 8.23). Оскільки В1< 0, то друге підприємство має більший потенціал для впровадження нових технологій. Це очевидно, якщо подивитись на малюнок 19 з даними, які ми використовували для нашого дослідження. Аналіз залишків, як і раніше, можна здійснити використовуючи меню з закладки Residuals (див. рис. 8.22). У результаті приходимо до висновку, що модель добре описує наявні дані.
Рис. 8.22
Рис. 8.23
102
Заняття 9 Часові ряди (виділення періодичних складових) Створимо нову таблицю даних, у якій 100 спостережень (Cases). Першу змінну VAR1 задамо формулою: = 0.9*sin(2*Pi*0.4*V0) + 0.4*sin(2*Pi*0.2*V0) + 4 де V0 – це змінна, що послідовно набуває значень від 1 до 100 (тобто номер спостереження по порядку). Зауважимо, що змінна VAR1 є сумою двох періодичних функцій. Числа 0.4 та 0.2 – це частоти коливань, а числа 2.5=1/0.4, 5=1/0.2, відповідно, періоди коливань. 0.9 та 0.4 - амплітуди першого та другого коливань. Проаналізуємо цей часовий ряд. Виконаємо Statistics Æ Advanced Linear/ Nonlinear Models Æ Time Series/Forecasting (див. рис. 9.1).
Рис. 9.1 У вікні, що з’явиться (див. рис. 9.2), виберемо у Variables змінну VAR1 і натиснемо кнопку Spectral (Fourier) Analysis. Для того, щоб побачити графік нашого ряду, у вікні що з’явиться перейдемо у закладку Review series і натиснемо першу кнопку Plot біля кнопки Review highlighted variables (див. рис. 9.3). 103
Рис. 9.2
Рис. 9.3 104
Як і слід було очікувати, графік (див. рис. 9.4) демонструє періодичну поведінку нашого часового ряду. Перейдемо у закладку Quick і натиснемо кнопку Single Fourier Analysis (див. рис. 9.5).
Рис. 9.4
Рис. 9.5 105
Натиснемо кнопку Periodogram, у вікні що з’явилось (див. рис. 9.6). З’явиться графік (див. рис. 9.7), піки якого відповідають частотам коливань, що входять у часовий ряд, з великою амплітудою. У нашому випадку це 0.4 та 0.2. Кнопка Spectral density дає змогу побудувати згладжену періодограму за допомогою спектрального вікна, яке можна вибрати зі списку на закладці Advanced. Оберемо, наприклад, Daniel (див. рис. 9.8). Отримуємо графік (див. рис. 9.9), який відрізняються від періодограми з малюка 7. Змінюючи внизу вікна опції з Frequency на Period і натискаючи кнопку Periodogram отримуємо графік (див. рис. 9.10) з піками, що відповідають періодам 2.5 та 5. Таким чином можемо визначити найважливіші періодичні компоненти, що присутні у змінній VAR1.
Рис. 9.6
106
Рис. 9.7
Рис. 9.8 107
Рис. 9.9
Рис. 9.10 108
Натиснувши кнопку Summary (див. рис. 9.6, 9.8) отримаємо таблицю (див. рис. 9.11), у якій перші два стовпці – це частоти і періоди, які їм відповідають. У наступник стовпцях показано з яким коефіцієнтом відповідні синуси чи косинуси входить у ряд Фур’є розкладу змінної VAR1. Червоним кольором виділені великі значення, що відповідають частотам 0.2 та 0.4; решта коефіцієнтів близькі до нуля.
Рис. 9.11 109
Відкриємо файл Sunspot.sta. У цьому файлі міститься щорічна інформація про кількість плям на сонці. Будемо вивчати періодичність сонячної активності. Виконаємо Statistics Æ Advanced Linear/ Nonlinear Models Æ Time Series/Forecasting Æ Spectral (Fourier) Analysis. Побудуємо, як і в попередньому прикладі, графік часового ряду (див. рис. 9.12). Бачимо, що у даних спостерігається певна періодичність.
Рис. 9.12 Перейдемо у закладку Quick і оберемо Single Fourier Analysis. Відмітимо опцію Frequency і натиснемо кнопку Spectral density. На графіку, що з’явився (див. рис. 9.13), спостерігаємо дві періодичні складові, які домінують всі інші. Натиснувши кнопку Summary отримаємо таблицю з коефіцієнтами синусів та косинусів для кожної з частот. Проте з даної таблиці важко одразу визначити найбільш важливі періодичні складові. Для того, щоб одразу побачити яким частотам відповідають найбільші за модулем 110
коефіцієнти, перейдемо у закладку Advanced і натиснемо кнопку N largest values. В отриману таблицю (див. рис. 9.14) виведено 10 значень з найбільшими амплітудами. Бачимо, що основний період сонячної активності становить трохи більше 11 років. Є ще інша вагома періодична компонента з періодом близько 80 років. Якщо у закладці Quick відмітити Period і натиснути Periodogram, то на графіку, що з’явився (див. рис. 9.15), спостерігаємо ці дві періодичні складові, які домінують всі інші.
Рис. 9.13
111
Рис. 9.14
Рис. 9.15 112
Заняття 10 Часові ряди (кореляційний аналіз) Відкриємо файл Stocks.sta. У ньому є дані про коливання щоденних курсів акцій двох типів. Виконаємо Statistics Æ Advanced Linear/ Nonlinear Models Æ Time Series/Forecasting. Як Variables виберемо першу змінну Stock1 (див. рис. 10.1).
Рис. 10.1 Для аналізу часового ряду натиснемо кнопку ARIMA & autocorrelation functions. Перейдемо на закладку Review series і натиснемо кнопку Plot біля Review highlighted variables (див. рис. 10.2). На графіку ряду (див. рис. 10.3) бачимо, що навколо тренда присутні високочастотні коливання. Для подальшого аналізу ряд спочатку потрібно згладити. Перейдемо на закладку Advanced і натиснемо кнопку Other transformations & plots (див. рис. 10.4). У вікні Transformations of Variables виберемо у закладці Smoothing опцію N-pts moving average N=5 (тобто заміняємо кожне значення у часовому ряді на середнє арифметичне п’яти 113
сусідніх значень) та натискаємо OK (Transform selected series) (див. рис. 10.5).
Рис. 10.2
114
Рис. 10.3
Рис. 10.4 115
Рис. 10.5 На графіку (див. рис. 10.6) бачимо, що часовий ряд дещо згладжено – ми позбулися високочастотних флуктуацій.
116
Рис. 10.6 Для того, щоб порівняти вихідний ряд та щойно отриманий, перейдемо у закладку Review & plot і натиснемо кнопку Plot біля Review multiple variables (див. рис. 10.7). У вікні Select Variables for the Spreadsheet/Plot, що з’явилось (див. рис. 10.8), оберемо імена змінних до і після перетворення. Натискнемо OK. На отриманому графіку (див. рис. 10.9) різними кольорами зображено початковий часовий ряд і ряд після згладжування. Якщо ми хочемо зберегти модифікований ряд, то можемо натиснути Save variables (див. рис. 10.5). З’явиться таблиця зі значеннями часового ряду до і після перетворення.
117
Рис. 10.7
Рис. 10.8
118
Рис. 10.9 Повернімося у вікно Time Series Analysis. Як Variables виберемо Stock2. Натиснемо ARIMA & autocorrelation functions. Перейдемо на закладку Review series і натиснемо кнопку Plot біля Review highlighted variables (див. рис. 10.2). Отримуємо графік ряду (див. рис. 10.10). Виділимо з ряду лінійний тренд. Для цього перейдемо на закладку Advanced і натиснемо кнопку Other transformations & plots (див. рис. 10.4). У панелі що з’явиться, перейдемо на закладку x=f(x), виберемо Trend subtract (x=x-(a+b*t)) (див. рис. 10.11) і натиснемо OK (Transform selected series). З’явиться графік ряду з виділеним трендом (див. рис. 10.12).
119
Рис. 10.10
Рис. 10.11 120
Рис. 10.12 Повернімось у вікно Transformation of variables. Перейдемо у закладку Autocorrs і натиснемо кнопку Partial autocorrelations (див. рис. 10.13). Якщо значення змінної в різні моменту часу не пов’язані між собою, то горизонтальні стовпчики на графіку часткової кореляції мають не виходити за межі вертикальних червоних ліній. Бачимо, що на нашому графіку (див. рис. 10.14), за межі червоних ліній виходить тільки перший стовпчик, тобто значення xt залежить від xt-1, але майже не залежить від xt-2 , xt-3 , … . Побудуємо модель для даного часового ряду. У закладці Autocorrs натиснемо кнопку Autocorrelations (див. рис. 10.13). Бачимо, що графік кореляційної функції має типову спадну форму (див. рис. 10.15). За формою графіків часткової кореляційної функції та кореляційної функції ми можемо зробити висновок, що поведінку ряду з виділеним трендом має описувати модель авторегресії AR(1). Повернімось у вікно Single Series ARIMA і в Arima model parameters у полі p-Autoregressive вкажемо 1 (див. рис. 10.16). Натиснемо OK (Begin parameter estimation).
121
Рис. 10.13
Рис. 10.14 122
Рис. 10.15
Рис. 10.16 123
Процес оцінки параметрів збіжний і з’являється вікно з результатами аналізу (див. рис. 10.17). Натиснувши у закладці Quick кнопку Summary: Parameter estimates, отримаємо оцінки параметрів моделі. У нашому випадку (див. рис. 10.18), при xt −1 отримали коефіцієнт β ≈ 0.95 . Це означає, що наша модель має вигляд xt = 0.95 xt −1 + ε t .
Рис. 10.17
Рис. 10.18 Щоб переконатися, що побудована модель правильна, треба проаналізувати залишки. У вікні Single Series ARIMA Results перейдемо у закладку Autocorrelation і у розділі Autocorrelation of residuals натиснемо спочатку Autocorrelations, а потім Partial autocorrelations (див. рис. 10.19). Бачимо, що на обох графіках (див. рис. 10.20, 10.21) горизонтальні стовпчики не виходять за межі вертикальних ліній, тобто відсутня залежність залишків між собою, чого й потрібно було досягти. 124
Рис. 10.19
Рис. 10.20 125
Рис. 10.21 У закладці Distribution of Residuals (див. рис. 10.22) можна подивитися на узгодженість залишків з нормальним законом розподілу натиснувши кнопки Histogram та Normal probability plot (див. рис. 10.23, 10.24). Бачимо, що нормальний розподіл досить добре описує залишки моделі. Для того, щоб передбачити, як часовий ряд буде вести себе у майбутньому, перейдемо у закладку Advanced і натиснемо кнопку Plot series & forecasts (див. рис. 10.25). При цьому на графіку (див. рис. 10.26) червона лінія відповідатиме прогнозованим значенням, а зеленими лініями буде виділено 90-відсотковий проміжок надійності передбачення. Можна змінювати рівень надійності у полі Confidence level, вказувати кількість передбачуваних значень у полі Number of cases, а також значення з якого потрібно починати передбачення у віконці Start at case (див. рис. 10.25). Щоб отримати числові значення прогнозованих показників натиснемо кнопку Forecast cases.
126
Рис. 10.22
Рис. 10.23 127
Рис. 10.24
Рис. 10.25 128
Рис. 10.26
129
Заняття 11 Часові ряди (перетворення та інтервенції) Відкриємо файл Series_g.sta, в якому містяться щомісячні дані про кількість перевезень пасажирів авіакомпанією. Виконаємо Statistics Æ Advanced Linear/ Nonlinear Models Æ Time Series/Forecasting. Побудуємо графік ряду (див. рис. 11.1). З графіка зрозуміло, що у часового ряду є лінійний тренд та коливання, амплітуда котрих зростає із часом. Спочатку позбавимося зростання амплітуди коливань. Для цього прологарифмуємо ряд. Перейдемо у закладку Advanced натиснемо кнопку Other transformations & plots. У панелі, що з’явиться, на закладці x=f(x), відмітимо Natural log (x=ln(x)) і натиснемо OK (Transform selected series). Отримаємо графік перетвореного часового ряду з постійною амплітудою періодичної компоненти (див. рис. 11.2). Далі позбудемося лінійного тренду. Для цього застосуємо до ряду різницевий оператор із кроком 1. У закладці Difference, integrate відмітимо Differencing (x=x-x(lag)) і вкажемо крок для різницевого оператора lag=1 (див. рис. 11.3). Натиснемо OK (Transform selected series). Отримаємо графік ряду з виділеним трендом (див. рис. 11.4).
Рис. 11.1 129
Рис. 11.2
Рис. 11.3 130
Рис. 11.4 Бачимо, що у перетвореному часовому ряді присутня періодична компонента. Для того, щоб позбутися її застосуємо різницевий оператор з кроком 12: lag=12. Отримаємо графік ряду на якому візуально відсутні тренд та періодичні компоненти (див. рис. 11.5).
Рис. 11.5 131
Тепер спробуємо задати ARIMA модель для даних, що отримали після наведених вище перетворень. Повернемося у вікно Single series ARIMA та вкажемо на закладці Quick в ARIMA model parameters p=0, P=0, q=1, Q=1. Звичайно параметри підбирають вручну за графіками кореляційної та часткової кореляційної функції, але на практиці недоцільно брати їх більшими ніж три. Відмітимо у верхньому вікні наш початковий ряд і вкажемо у Transform variable (series) prior to analysis перетворення, які ми здійснили із рядом до аналізу: Natural log та Difference (див. рис. 11.6). N of passes вказує скільки разів ми застосовували різницевий оператор. Натискаємо OK (Begin Parameter estimation). Процес оцінки параметрів збіжний. Далі, як і раніше, можемо дослідити кореляцію залишків та пересвідчитись, що модель обрана вдало. Прогноз поведінки часового ряду у майбутньому зображено на рисунку 11.7. Розглянемо приклад дослідження часового ряду з інтервенцією. Відкриємо файл Director.sta, в якому містяться щомісячні дані про кількість телефонних дзвінків, що надходили до компанії. Спочатку дзвінки були безкоштовними, однак на 147 місяці компанія вирішила зробити цю послугу платною, тому кількість дзвінків різко зменшилася. Виконаємо Statistics Æ Advanced Linear/ Nonlinear Models Æ Time Series /Forecasting Æ Interrupted time series analysis. Так як і раніше побудуємо графік ряду (див. рис. 11.8).
Рис. 11.6 132
Рис. 11.7
Рис. 11.8 133
Оскільки на графіку видно різку зміну у значеннях спостережень – інтервенцію, то перед побудовою моделі подивимось які типи інтервенції можливі. Перейдемо на закладку Review Impact Patterns (див. рис. 11.9). Змінюючи тип інтервенції у віконечку Type of intervention і натискаючи кнопку Review types of impact patterns, отримуємо графічне зображення різних типів інтервенції (див., наприклад, рис. 11.10). Для нашого випадку підходить саме тип Abrupt, permanent, бо під час інтервенції спостерігається різкий стрибок, а потім повільне зростання продовжуєтьсь як і до моменту інтервенції. Перейдемо на закладку Quick (див. рис. 11.11) і у Specify times and types of interventions вкажемо At case number - 147 і Type of intervention - Abrupt, permanent. Вкажемо як параметри моделі p=0, P=0, q=0, Q=1. Для виділення сезонної компоненти та тренду в Transform variable (series) prior to analysis задамо Difference з кроком Lag = 1 і Lag=12 та в обох випадках N of passes =1. Натискаємо OK (Begin parameter estimation). Процес оцінки параметрів збіжний. Далі аналіз результатів, залишків та адекватності моделі аналогічний до попередніх прикладів.
Рис. 11.9 134
Рис. 11.10
Рис. 11.11
135
Заняття 12 Кластерний аналіз Відкриємо файл Cars.sta, який знаходиться у Examples/Datasets. У даному файлі (див. рис. 12.1) міститься інформація про характеристики автомобілів різних виробників (ціна, прискорення, надійність, легкість управління, споживання пального). Завдання полягає у розбитті автомобілів на групи за спільними ознаками.
Рис. 12.1 Для того, щоб мати можливість проаналізувати інформацію, треба ввести шкалу порівняння для показників. Оскільки порівнювати ціну автомобіля в доларах та прискорення в м/с2 беззмістовно, то спочатку змінні потрібно стандартизувати (тобто відняти середнє та поділити на 136
стандартне квадратичне відхилення). Саме стандартизовані дані наведено у файлі. Виконаємо Statistics Æ Multivariate Exploratory Techniques Æ Сluster Analysis (див. рис. 12.2). З’явиться віконце, у якому можна обрати різні методи кластерного аналізу (див. рис. 12.3).
Рис. 12.2
Рис. 12.3
137
Виберемо Joining (tree clustering). Натискаємо OK. У вікні, яке з’явилось, на закладці Advanced (див. рис. 12.4), як Variables оберемо всі змінні. Оскільки ми розбиваємо на групи виробників, тобто Cases, то у полі Cluster виберемо Cases (rows). В полі Amalgamation (linkage rule) потрібно обрати спосіб визначення відстані між кластерами. Розбиття на кластери можна виконувати по-різному. Якщо ми знаємо, що наші кластери мають форму довгих ланцюгів, то відстані між кластерами зручно визначати, як відстані між найближчими точками кластерів, тобто Single linkage. Якщо ж кластери мають форму плям, що сконцентровані в кількох областях простору, то тоді доцільно визначити відстань між кластерами, як відстань між найвіддаленішими точками кластерів (Complete linkage), або їх центрами. У нашому випадку виберемо Complete linkage. Як метод обчислення відстані між двома точками в полі Distance measure виберемо Euclidean distances – звичайну евклідову відстань. Натиснемо OK. З’явиться вікно, у якому можна подивитися на результати аналізу (див. рис. 12.5). Для того, щоб бачити, як відбувається розбиття на кластери, натиснемо кнопку Horizontal hierarchical tree plot. Отримуємо дендрограму – ієрархічне дерево-графік, яке демонструє процес поступового об’єднання досліджуваних об’єктів у кластери, відповідно до значень їхніх характеристик (див. рис. 12.6).
Рис. 12.4
138
Рис. 12.5
Рис. 12.6 139
Для того, щоб подивитися, яким чином відбувався процес об’єднання в кластери, можна у вікні Joining Results натиснути кнопку Amalgamation Schedule і отримати табличку, в якій показано, як об’єкти спостереження поступово об’єднувалися в кластери (див. рис. 12.7).
Рис. 12.7 Щоб дендрограма була вертикальною у вікні Joining Results слід натиснути кнопку Vertical icicle plot. Якщо хочемо бачити на дендрограмі відносні відстані, за яких точки потраплять до кластерів, то у вікні Joining Results слід відмітити Scale tree to dlink/dmax*100. Отримаємо вертикальну дендрограму з школою відстаней об’єднання від 0 до 100 (див. рис. 12.8). Вивчивши дендрограму, можемо зробити висновок, що кількість кластерів складає 3 або 4. Щоб мати змогу певним чином проінтерпретувати особливості груп, на які були поділені виробники автомобілів, повернемось до вікна Сluster Analysis і виконаємо K-means clustering (див. рис. 12.3). У вікні, що з’явиться (див. рис. 12.9), перейдемо на закладку Advanced, виберемо всі змінні і вкажемо Number of clusters – 3, а у віконці Cluster вкажемо Cases (rows). Натиснемо OK.
140
Рис. 12.8
Рис. 12.9 141
У вікні k-Means Clustering Results, що з’явиться (див. рис. 12.10), перейдемо на закладку Advanced і натиснемо кнопку Graph of means.
Рис. 12.10 Бачимо (див. рис. 12.11), що до другого кластеру потрапили виробники дорогих автомобілів з невеликим прискоренням, які проте надійні та зручні у керуванні та споживають мало пального. І навпаки, до третього кластеру потрапили виробники недорогих ненадійних автомобілів, котрі споживають багато пального, якими важко керувати, які, однак, мають великий показник прискорення. До першого кластеру потрапили виробники з середніми показниками. Щоб побачити, які виробники потрапили до якого кластеру, натиснемо кнопку Members of each cluster & distances. Результат зображено на рисунку 12.12.
142
Рис. 12.11
Рис. 12.12
143
Якщо ми хочемо кластеризувати не тільки виробників, а пари виробникхарактеристика (тобто кожна клітинка таблиці є точкою для кластеризації), то у вікні Сluster Analysis слід вибрати Two way joining (див. рис. 12.3). Обираємо для аналізу всі змінні і натискаємо OK. У вікні результатів аналізу натискаємо кнопку Summary (див. рис. 12.13).
Рис. 12.13 На отриманому графіку (див. рис. 12.14) графічно зображено розбиття на групи – кожен колір відповідає певному кластеру. Two way joining методи застосовують у тих випадках, коли потрібно розбити на групи не лише носіїв певних характеристик, але одночасно й значення характеристик, які призводять до потрапляння у певний кластер. Two way joining застосовують набагато рідше ніж інші методи кластерного аналізу.
144
Рис. 12.14
145
Заняття 13 Дискримінантний аналіз Відкриємо файл Irisdat.sta, який знаходиться у Examples/Datasets. У цьому файлі (див. рис. 13.1) наведені дані Фішера про результати вимірювань довжини і ширини чашолистків і пелюсток квітів іриса. Всього було здійснено 150 вимірювань квіток іриса - по 50 для кожного з трьох типів. Завдання полягає у тому, щоб маючи такі дані віднести новий ірис до одного з цих трьох типів: SETOSA, VERSICOL, VIRGINIC. На відміну від кластерного аналізу групи вже відомі, а дані, які використовує дискримінантний аналіз, такі ж як і у кластерному аналізі - характеристики представників цих груп. Завдання дискримінантного аналізу полягає у встановлені за характеристиками нового об’єкта до якої групи він належить. Виконаємо Statistics Æ Multivariate Exploratory Techniques Æ Discriminant Analysis (див. рис. 13.2). У Variables виберемо як групуючу змінну (Grouping variable) – змінну IRISTYPE, а як незалежні змінні (Independent variables) – SEPALLEN, SEPALWD, PETALLEN, PETALWD. У Codes for grouping variable обираємо All. Відмітимо також Advanced options (stepwise analysis) (див. рис. 13.3).
Рис. 13.1 146
Рис. 13.2
Рис. 13.3 Натиснувши кнопку ОК отримуємо вікно у якому можемо розпочати дискримінантний аналіз об’єктів та отримати різноманітну інформацію про дані. Перейдемо у закладку Descriptives і натиснемо кнопку Review 147
descriptive stats (див. рис. 13.4). У вікні, що з’явиться, натиснемо Means & numbers of cases (див. рис. 13.5). Бачимо (див. рис. 13.6) середні для кожного показника відповідного типу ірисів.
Рис. 13.4
Рис. 13.5 148
Рис. 13.6 Перейшовши на закладку Within (див. рис. 13.7) можемо здійснити детальну описову статистику кожного показника категоризованого за типами ірисів. Наприклад, натиснувши кнопку Box plot of means by group і обравши змінну PETALWD, отримуємо коробки з вусами, які дійсно демонструють значну відмінність характеристик трьох типів ірисів (див. рис. 13.8). Для проведення аналізу повернемось до вікна Model Definition, перейдемо у закладку Advanced і задамо установки такі ж як і на рис. 13.9. Натиснемо кнопку ОК і розпочнемо обчислювальну процедуру, яка здійснює покроковий метод включення змінних у модель. Оскільки значення F to enter вказано 1, а значення F to remove дорівнює 0, і кількість кроків становить 4, то у модель увійдуть всі змінні. Ми будемо спостерігати поступове включення змінних до моделі з відповідною інформацією на кожному кроці (див. рис. 13.10-13.12), якщо натискатимемо кнопку Next. Коли кнопка Next зникне, то це означатиме, що процес побудови моделі закінчено (див. рис. 13.12).
149
Рис. 13.7
Рис. 13.8
150
Рис. 13.9
Рис. 13.10
151
Рис. 13.11
Рис. 13.12 Натиснемо кнопку Summary: Variables in the model. У вікні що з’явиться (див. рис. 13.13), бачимо різні статистичні характеристики нашої моделі. Значення статистики ламбда Уїлкса, які близькі до 0, свідчать про те, що дискримінантна модель вдало описує змінні. Значення показника ламбда Уїлкса, які близькі до 1, свідчать про невдалу модель. Бачимо, що дискримінантна модель добре описує наші дані. Partial Lambda показує, що змінна Petallen дає найбільший внесок у модель, наступний за значимістю внесок - змінної Petalwid, а найменший внесок з усіх змінних дає Sepallen.
152
Рис. 13.13 Перейдемо у закладку Advanced і натиснемо кнопку Perform canonical analysis (див. рис. 13.14). STATISTICA обчислить ортогональні дискримінантні функції. Максимальна кількість дискримінантних функцій дорівнює або кількості змінних, або на одну менша ніж кількість груп. У нашому випадку маємо дві дискримінантні функції.
Рис. 13.14 У вікні, що з’явилось (див. рис. 13.15), у закладці Quick натиснемо кнопку Summary: Chi square test of successive roots. Отримаємо таблицю (див. рис. 13.16) зі статистикою для кожної дискримінантної функції. Обидві функції значимі, отже є два методи тлумачення того як на основі наявних вимірювань віднести іриси до того чи іншого типу. Натиснемо кнопку Coefficients for canonical variables (див. рис. 13.15). Отримаємо дві таблиці з Raw Coefficients та Standardized Coefficients (див. рис. 13.17). Таблиця стандартизованих коефіцієнтів показує, що перша дискримінантна функція визначається переважно довжиною та шириною пелюсток (змінними Petallen та Petalwid). Друга дискримінантна функція визначається переважно змінною Sepalwid. 153
Рис. 13.15
Рис. 13.16
Рис. 13.17 154
Після того як ми проінтерпретували дискримінантні функції, дослідивши якими характеристиками ірисів визначається кожна з них, нам потрібно показати як ці дискримінантні функції обумовлюють розподіл між різними типами ірисів. Перейдемо на закладку Advanced і натиснемо кнопку Means of canonical variables (див. рис. 13.18). З таблиці результатів (див. рис. 13.19) бачимо, що в першому стовпці канонічне середнє для Setosa значно відрізняється від інших, а у другому стовпці є значна відмінність канонічного середнього для Versicol. Отже можемо зробити висновок, що перша дискримінантна функція в основному відрізняє тип Setosa від інших типів ірисів, а друга дискримінантна функція – тип Versicol.
Рис. 13.18
Рис. 13.19 155
Для того, щоб подивитись розподіл на групи графічно перейдемо у закладку Canonical scores і натиснемо кнопку Scatterplot of canonical scores (див. рис. 13.20). Графік, який з'явився (див. рис. 13.21), підтверджує наші попередні міркування – положення змінної Setosa значно відрізняється від інших по першій осі, а по другій осі представники типу Versicol знаходяться у середньому трохи нижче ніж інші типи ірисів.
Рис. 13.20
Рис. 13.21 156
Повернімось у вікно Discriminant Function Analysis Results до закладки Classification (див. рис. 13.22). Натиснемо кнопку Classification functions. Отримаємо таблицю коефіцієнтів класифікуючих функцій (див. рис. 13.23).
Рис. 13.22
Рис. 13.23 За допомогою класифікуючих функцій можна обчислити класифікаційні значення для квіток, що спостерігаються, і зробити висновок до якої групи вони мають належати. У нашому випадку за таблицею з рисунка 13.23 отримаємо формули: 157
SETOSA
=
-16.43*PETALLEN + 23.59*SEPALWID 17.4*PETALWID + 23.54*SEPALLEN - 86.31 ;
VERSICO
=
5.21*PETALLEN + 7.07*SEPALWID 6.43*PETALWID + 15.7*SEPALLEN - 72.85 ;
VIRGINIC
=
12.77*PETALLEN + 3.69*SEPALWID 21.08*PETALWID + 12.45*SEPALLEN - 104.37 .
L
Нехай ми маємо нову квітку зі значеннями: PETALLEN*, SEPALWID*, PETALWID*, SEPALLEN*. До якого типу ірисів її зарахувати? Для цього потрібно підставити значення її характеристик у наведені вище формули й обчислити класифікаційні значення SETOSA*, VERSICOL*, VIRGINIC*. Вважають, що квітка того типу, для якого обчислене класифікаційне значення максимальне. Для того, щоб задати апріорні ймовірності того, що об’єкт належить відповідній групі потрібно на закладці Classification в розділі A priori classification probabilities відмітити User defined (див. рис. 13.22). Тоді на початку проведення кожного нового типу аналізу з закладки Classification буде з’являтись вікно (див. рис. 13.24), у якому можна буде задати апріорні ймовірності.
Рис. 13.24 Якщо ми задали для об’єктів імовірності, з якими вони належать до кожного з класів, то після того як аналіз виконаний, можна перерахувати ці імовірності й одержати апостеріорні імовірності класифікації. Натиснувши кнопку Posterior probabilities, ми отримаємо таблицю (див. рис. 13.25) з апостеріорними ймовірностями потрапляння об'єкта до певного класу. 158
Для наших даних - у першому стовпчику зазначений тип іриса для кожного випадку. В другому, третьому та четвертому стовпчику наведені апостеріорні імовірності того, що відповідна квітка належить до певного типу. Квітку зараховують до тієї групи для якої у неї максимальна апостеріорна імовірність. Символ * відзначає неправильно класифіковані випадки.
Рис. 13.25 Якщо натиснути кнопку Squared Mahalanobis distance, то з’явиться таблиця з квадратами відстаней Махаланобіса кожного з випадків до центрів груп (див. рис. 13.26). Чи менша відстань Махаланобіса від об’єкта до центра відповідної групи тим певніше ми можемо сказати, що об’єкт належить цій групі. Покажемо як можна класифікувати новий випадок. Додамо в таблицю вихідних даних новий рядок (див., наприклад, рис. 13.27) і збережемо таблицю з даними як файл у своїй робочій директорії. Послідовність проведення аналізу така ж як і раніше. Для того щоб з’ясувати, до якого типу належить новий об'єкт, натиснемо Posterior probabilities. Ми отримаємо таблицю з апостеріорними ймовірностями, до якої буде доданий ще один рядок (див. рис. 13.28). Натиснемо кнопку Squared Mahalanobis distance і отримаємо таблицю з квадратами відстані Махаланобіса. В останньому рядку таблиці (див. рис. 13.29) ми бачимо відстані нового 159
випадку до групових центрів. Відстань від нового об’єкта до центрів груп мінімальна для групи VERSICOL. Отже, новий ірис слід класифікувати як ірис типу VERSICOL.
Рис. 13.26
Рис. 13.27
160
Рис. 13.28
Рис. 13.29
161
Заняття 14 Факторний аналіз Завдання факторного аналізу полягає у визначенні найбільш важливих факторів із множини всіх впливових факторів. Відкриємо файл Factor.sta. У даному файлі (див. рис. 14.1) міститься інформація про задоволення опитуваних людей, різними сферами їхнього життя.
Рис. 14.1 Виконаємо Statistics Æ Multivariate Exploratory Techniques Æ Factor Analysis (див. рис. 14.2). У вікні, що з’явиться (див. рис. 14.3), як Variables виберемо всі змінні, в полі Input file залишаємо Raw Data. Натиснемо ОK.
162
Рис. 14.2
Рис. 14.3 У вікні, що з’явилось (див. рис. 14.4), перейдемо у закладку Descriptives і натиснемо кнопку Review correlations, means, standard deviations. У наступному вікні (див. рис. 14.5) у закладці Advanced натискаємо кнопку Correlations. 163
Рис. 14.4
Рис. 14.5 164
З’явиться кореляційна матриця (див. рис. 14.6). Зауважимо, що коефіцієнт кореляції Hobby_1 та Miscel_1 складає 0.9. Повернемось у закладку Advanced натиснемо кнопку 2D scatterp і виберемо як змінні Hobby_1 та Miscel_1. Отримаємо діаграму розсіювання (див. рис. 14.7), яка показує, що лінійна регресійна модель добре описує зв'язок двох змінних. Бачимо, що високий коефіцієнт кореляції з’явився не за рахунок викидів. Отже, залежність цих показників між собою досить сильна і ми можемо передбачити значення однієї змінної, якщо відомо значення іншої. Тому лише один із цих показників доцільно включати до множини визначальних. Повернімося до вікна Define Method of Factor Extraction. Перейдемо у закладку Advanced. Будемо користуватися методом головних компонент (Principal components). Як альтернативу можна вибрати різні методи факторного аналізу. Перелік їх іде нижче у вікні модуля (див. рис. 14.8). Як Maximum no. of factors вкажемо 10, а як Minimum eigenvalue – 0 (адже поки що ми не знаємо кількість визначальних факторів та міру їх впливу). Власні числа Eigenvalues характеризують суттєвість фактору. Тому, в результаті вказаних нами умов вибору, ми не відкидатимемо жодного з отриманих факторів. Натиснемо ОK.
Рис. 14.6
165
Рис. 14.7
Рис. 14.8 166
У вікні що з’явилось перейдемо у закладку Explained Variance (див. рис. 14.9).
Рис. 14.9 Натиснувши Eigenvalues, побачимо числові значення власних значень (див. рис. 14.10), а натиснувши Scree plot – їх графічне зображення (див. рис. 14.11).
Рис. 14.10 167
Рис. 14.11 Власні числа показують яку частку загальної дисперсії даних пояснює відповідний фактор. Бачимо (див. рис. 14.10), що значення для першого показника дорівнює 61.18%, тобто перший фактор пояснює 61.18% загального розкиду даних. Якщо подивитись на останню колонку з накопиченими значеннями, то стане зрозуміло, що перші два фактори пояснюють більшість розкиду даних, а всі десять факторів разом пояснюють 100% загального розкиду. З графіка (див. рис. 14.11) також можемо зробити висновок, що визначальними є всього два (максимум три) фактори. Натискаємо Cancel і у вікні Define Method of Factor Extraction вказуємо кількість факторів два. Натискаємо ОК. Для того, щоб проінтерпретувати знайдені фактори, перейдемо до закладки Quick або Loadings і у полі Factor Rotation оберемо Varimax raw (див. рис. 14.12). У результаті такої операції виконується вибір базисних векторів у площині, що визначається нашими двома факторами. Вибір здійснюється так, щоб отриманий базис давав змогу легко пояснити зміст факторів. Наприклад, подавав би фактори так, щоб було видно які початкові змінні з якими факторами мають високі кореляції (factor loadings), а з якими малі. 168
Рис. 14.12 Натиснемо Summary: Factor loadings. За результатами аналізу (див. рис. 14.13) можемо зробити висновок, що фактор 1 є визначальним для тих аспектів задоволення життям, які люди отримували поза межами дому, а фактор 2 пояснює ті аспекти, які пов’язані з домашніми справами.
Рис. 14.13 169
Графічне зображення внеску факторів (див. рис. 14.14) побачимо, натиснувши у вікні Factor Analysis Results кнопку Plot of loading 2D.
Рис. 14.14 Щоб визначити пояснену обраними факторами частину інформації (розкид даних), потрібно у вікні Factor Analysis Results перейти на закладку Explained Variance (див. рис. 14.9) і натиснути Communalities.У таблиці, що з’являється (див. рис. 14.15), бачимо статистику для кожного фактора.
Рис. 14.15 170
На завершення розглянемо якою може бути вхідна інформація для факторного аналізу. У вікні Review Descriptive Statistics: Factor (див. рис. 14.16), перейдемо на закладку Save і натиснемо Matrix. Отримаємо кореляційну матрицю з додатковою інформацією. Крім кореляційної матриці обчислено середні, стандартні квадратичні відхилення для всіх змінних та кількість випадків (cases) у змінних (див. рис. 14.17). Цієї інформації достатньо для проведення факторного аналізу.
Рис. 14.16
Рис. 14.17 171
Збережемо матрицю як новий файл. Відкривши збережений файл і перейшовши у модуль факторного аналізу ми автоматично потрапимо в аналіз інформації, яка задана кореляційною матрицею (див. рис. 14.18). Вибираємо у Variables всі змінні. Всі інші кроки факторного аналізу можемо здійснити так як і раніше.
Рис. 14.18
172