ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ Государственное образовательное учреждение высшего профессионального образования «П...
44 downloads
651 Views
1MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ Государственное образовательное учреждение высшего профессионального образования «ПЕНЗЕНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ» Кафедра бухгалтерского учета, налогообложения и аудита
АНАЛИЗ СТАТИСТИЧЕСКОЙ СОВОКУПНОСТИ В ПРОГРАММЕ MS EXCEL Методические указания и задание к лабораторной работе № 1
ПЕНЗА ИИЦ ПГУ 2007
УДК 657.1 А64
Рецензент:
А64
Анализ статистической совокупности в программе MS Excel : методические указания и задание к лабораторной работе № 1 / сост. А. Н. Акжигитова, Н. С. Циндин, Н. Ф. Разуваева. – Пенза : Информационно-издательский центр ПГУ, 2007. – 52 с.
Цель методических указаний – освоение методики анализа структуры статистической совокупности с использованием компьютерных средств экономикостатистических расчетов. Для оказания помощи студентам в интерпретации полученных результатов раскрываются методологические вопросы расчета и анализа показателей. Важное место в методических указаниях отведено использованию аналитических группировок в выявлении взаимосвязей между явлениями. Обстоятельно представлена в работе методика анализа описательной статистики.
© Информационно-издательский центр ПГУ, 2007
2
СОДЕРЖАНИЕ I. ПОДГОТОВИТЕЛЬНЫЙ ЭТАП.................................................................4 1.1 Запуск Excel и подготовка персональной папки студента.........................4 1.2 Формирование индивидуальных исходных данных...................................4 1.3 Настройка МS Excel для выполнения лабораторной работы ....................6 II. ЗАДАНИЕ ДЛЯ ВЫПОЛНЕНИЯ ЛАБОРАТОРНОЙ РАБОТЫ № 1...................................................................7 2.1 Задание по статистическому анализу выборочной совокупности ...............7 2.2 Задание по статистическому анализу генеральной совокупности ...............8 III. ПОРЯДОК ВЫПОЛНЕНИЯ ЛАБОРАТОРНОЙ РАБОТЫ...............8 3.1. Выявление и удаление из выборки аномальных единиц наблюдения ...8 3.2 Оценка описательных статистических параметров совокупности ..............11 3.2.1 Показатели описательной статистики.................................................11 3.2.2 Оценка ошибок выборки ......................................................................17 3.2.3 Запуск и особенности реализации средств описательной статистики в надстройке ПАКЕТ АНАЛИЗА .....................................................................19 3.2.4. Расчет предельной ошибки выборки .................................................23 3.2.5. Использование статистических функций инструмента МАСТЕР ФУНКЦИЙ ........................................................................................23 3.3 Построение и графическое изображение интервального вариационного ряда распределения единиц совокупности по признаку «Среднегодовая стоимость основных производственных фондов» .............30 3.3.1 Краткие теоретические сведения.........................................................30 3.3.2. Особенности построения интервальных вариационных рядов распределения средствами инструмента ГИСТОГРАММА..........................33 IV. ЗАКЛЮЧИТЕЛЬНЫЙ ЭТАП ................................................................40 4.1 Анализ обобщающих показателей описательной статистики.................40 4.2 Анализ типа закономерности распределения............................................42 4.3.Рекомендации к анализу статистической совокупности..........................44 4.4 Отчетность по работе...................................................................................46 СПИСОК ЛИТЕРАТУРЫ ..............................................................................47 ПРИЛОЖЕНИЕ 1.............................................................................................49 ПРИЛОЖЕНИЕ 2.............................................................................................50
3
I. ПОДГОТОВИТЕЛЬНЫЙ ЭТАП С целью организации индивидуальной рабочей среды необходимо произвести следующие действия: 1.1 Запуск Excel и подготовка персональной папки студента Для выполнения расчетов обобщающих показателей и подготовки отчета по лабораторной работе студент формирует персональную папку с именем, в котором указывается его фамилия и инициалы. Эта папка должна содержать два файла: расчетный с именем Лaб1.xls и отчетный с именем Отчет1.dос. Для создания рабочего файла проделать следующие действия: 1. Загрузить файл с исходными данными и макетами таблиц по следующему алгоритму: – на рабочем столе активизировать Мой компьютер; – в диалоговом окне выбрать файл Datadisk на «primary» (Е:)\БУНиА\Статистика\stat_lab.xls. 2. Сохранить файл с исходными данными в качестве рабочего файла по алгоритму: – Файл -> Сохранить как...; – в диалоговом окне Сохранение документа выбрать путь: Datadisk на «primary» (Е:)\БУНиА\Статистика\ <Номер группы>\<Ф.И.О.>; – сохранить файл в указанной папке под именем JIaб1.xls. Для создания отчетного файла проделать следующие действия: – загрузить файл Формат отчета.doc из директории Datadisk на «primary» (Е:)\БУНиА\Статистика; – сохранить файл по алгоритму: – Файл -> Сохранить как...; – в диалоговом окне Сохранение документа выбрать путь: Datadisk на «primary» (Е:)\БУНиА\Статистика\ <Номер группы>\<Ф.И.О.>\ Отчет1.dос. 1.2 Формирование индивидуальных исходных данных При проведении статистического наблюдения за деятельностью предприятий 10% механической выборкой получены следующие данные о среднегодовой стоимости основных средств и выручке от продаж продукции за год по 32 машиностроительным предприятиям. Для проведения автоматизированного статистического анализа совокупности выборочные данные представлены в формате электронной таблицы процессора Excel в диапазоне ячеек В4:С35. Для демонстрационного примера выборочные данные приведены в таблице 1. Лабораторная работа выполняется по вариантам, которые определяются начальной буквой фамилии студента (таблица 2).
4
Таблица 1 Исходные данные демонстрационного примера 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
А Порядковый номер единицы наблюдения 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
В Среднегодовая стоимость основных средств, млн руб. 94 107 134 157 163 167 173 173 177 179 200 201 205 208 212 213 214 216 218 230 234 237 241 248 45 276 290 298 167 205 330 260
С Выручка от продаж продукции, млн руб. 110 101 120 81 80 114 161 90 178 107 125 108 133 124 201 161 151 169 149 180 148 162 166 168 224 171 191 220 114 133 53 224
Порядок определения исходных данных по вариантам следующий. Первый вариант, используя данные таблицы 3, меняет значения показателей таблицы 1 под порядковыми номерами, заканчивающимися на цифру 1; второй вариант заменяет заканчивающиеся на цифру 2 и т.д. Например, третий вариант заменяет показатели № 3, 13, 23. Соответственно, четвертый вариант изменит показатели под порядковыми номерами 4, 14, 24.
5
Таблица 2 Определение вариантов лабораторной работы Номер варианта Первый Второй Третий Четвертый Пятый
Начальная буква фамилии студента А, Б, В, Г Д, Е, Ж, З, И, К, Л, М, Н, О П, Р, С, Т У, Ф, Х, Ц, Ч, Ш, Щ, Э, Ю, Я
Таблица 3 Дополнительные данные для выполнения лабораторной работы Номер варианта Первый
Второй
Третий
Четвертый
Пятый
Порядковый Среднегодовая стоимость Выручка номер единицы основных производственных от продаж продукции, наблюдения фондов, млн руб. млн руб. 1 104 112 2 150 115 3 178 102 4 204 125 1 108 113 2 215 152 3 202 134 4 172 151 1 135 123 2 231 179 3 221 153 1 158 84 2 237 180 3 169 121 1 161 83 2 260 192 3 288 186
Для записи исходных данных варианта в отчетный файл Отчет1.dос необходимо скопировать сформированную таблицу 1 из рабочего файла в файл Отчет1.dос в выделенное для этой цели место. 1.3 Настройка МS Excel для выполнения лабораторной работы Проверка наличия в Excel надстройки ПАКЕТ АНАЛИЗА Для выполнения лабораторной работы необходимо наличие в Excel программной надстройки Пакет анализа. В случае, если Пакет анализа установлен, то меню Сервис будет содержать пункт подменю Анализ данных. Если же этот пункт в меню Сервис отсутствует, необходимо активизировать инструмент Пакет анализа действиями:
6
1) Сервис -> Надстройки; 2) в диалоговом окне Надстройки отметить пункт Пакет анализа; 3) ОК. Установка форматов чисел на компьютере Перед началом работы следует убедиться, что компьютер настроен на формат дробных чисел и разделителей, применяемый в алгоритмах лабораторной работы, а именно: – дробная часть числа должна отделяться от целой части знаком «запятая» (,); – аргументы функций (разделители списков) должны отделяться знаком «точка с запятой» (;). Иная настройка форматов чисел на компьютере (например, дробная часть отделяется от целой знаком «точка» (.) или же аргументы функции (разделители списков) перечисляются через запятую) будет приводить к ошибкам при вводе в электронные таблицы Excel формул, указанных в алгоритмах задания 2. Установить в компьютере совместимый с текстами алгоритмов формат чисел можно следующим образом: 1. Пуск -> Настройка -> Панель управления -> Язык и стандарты. 2. Язык и стандарты -> Числа. 3. В поле Разделитель целой и дробной части ввести символ «,». 4. В поле Разделитель элементов списка ввести символ « ; ».
II. ЗАДАНИЕ ДЛЯ ВЫПОЛНЕНИЯ ЛАБОРАТОРНОЙ РАБОТЫ № 1 2.1 Задание по статистическому анализу выборочной совокупности 1. Выявить наличие среди исходных данных резко выделяющиеся значения признаков (аномальные) с целью исключения их из выборки. 2. Рассчитать обобщающие статистические показатели совокупности по изучаемым признакам: среднюю арифметическую величину ( х ), моду (Мо), медиану (Me), размах вариации (R), дисперсию ( δ2n ), среднее линейное отклонение (d), среднее квадратическое отклонение (δn), коэффициент вариации (Vδ), структурный коэффициент асимметрии К. Пирсона (Asn). 3. На основе рассчитанных показателей и предположении, что распределения единиц по обоим признакам близки к нормальному, оценить: а) степень колеблемости значений признаков в совокупности; б) степень однородности совокупности по изучаемым признакам; в) устойчивость индивидуальных значений признаков;
7
г) количество попаданий индивидуальных значений признаков в диапазоны ( х ± δ),( х ± 2δ),( х ± 3δ). 4. Дать сравнительную характеристику распределений единиц совокупности по двум изучаемым признакам на основе анализа: а) вариации признаков; б) количественной однородности единиц; B) надежности (типичности) средних значений признаков; г) симметричности распределении в центральной части ряда. 5. Построить интервальный вариационный ряд и гистограмму распределения единиц совокупности по признаку Среднегодовая стоимость основных производственных фондов и установить тип этого распределения. Рассчитать моду Мо полученного интервального ряда и сравнить ее с показателем Мо несгруппированного ряда данных. 2.2 Задание по статистическому анализу генеральной совокупности 1. Рассчитать генеральную дисперсию δ2N , генеральное среднее квадратическое отклонение δN И ожидаемый размах вариации признаков RN. Сопоставить значения этих показателей для генеральной и выборочной дисперсий. 2. Для изучаемых признаков рассчитать: а) среднюю ошибку выборки; б) предельные ошибки выборки для уровней надежности Р = 0,683, Р = 0,954, Р = 0,997 и границы, в которых будут находиться средние значения признака генеральной совокупности при заданных уровнях надежности. 3. Рассчитать коэффициенты асимметрии As и эксцесса Еk. На основе полученных оценок сделать вывод о степени близости распределения единиц генеральной совокупности к нормальному распределению.
III. ПОРЯДОК ВЫПОЛНЕНИЯ ЛАБОРАТОРНОЙ РАБОТЫ 3.1. Выявление и удаление из выборки аномальных единиц наблюдения Выявление аномальных значений признака наиболее удобно производить графическим методом. Для визуального анализа разброса единиц совокупности можно использовать различные типы графиков, в том числе точечный график. По расположению точек на точечном графике легко выявить значения признака, которые резко выделяются из общей, однородной массы значений признаков единиц совокупности. Для выявления аномальных значений этих признаков можно построить график для каждого из признаков в отдельности, однако анализ упростится, если использовать диаграмму рассеяния (рис. 1).
8
80 70 60 50
Ряд1
40 30 20 10 0 0
50
100
150
200
250
300
350
Рис. 1 Аномальные значения признаков на диаграмме рассеяния
При построении диаграмм рассеяния по оси X следует расположить значения признака Среднегодовая стоимость основных средств, а по оси Y – соответствующие значения признака Выручка от продаж продукции. Каждый «выброс» из основной массы точек означает аномальность единицы наблюдения либо по признаку X, либо по признаку Y. В обоих случаях такие единицы наблюдения (предприятия) подлежат удалению из первичных данных. Построение диаграммы рассеяния в среде Excel осуществляется с помощью инструмента построения графиков Мастер диаграмм: 1) выделить мышью оба столбца исходных данных в диапазоне В4:С35; 2) Вставка ->Диаграмма -> Точечная -> Готово. В результате выполнения этих действий на рабочем листе Excel появится диаграмма рассеяния. При построении точечного графика в режиме Мастер диаграмм данные первого выделенного столбца (Стоимость основных производственных фондов) автоматически сопоставляются оси X, данные второго выделенного столбца (Выручка от продаж продукции) – по оси Y. Полученный график можно произвольно перемещать по полю рабочего листа, изменять его размеры. Для перемещения графика в удобное для просмотра место следует установить курсор на произвольное место белой области графика, нажать левую кнопку мыши и, удерживая ее, переместить график в требуемое место, затем отпустить клавишу. Для изменения размеров графика производятся аналогичные действия, однако местом «захвата мышью» должен быть один из углов графика. 2. Для поиска аномальных наблюдений на построенной диаграмме рассеяния визуально находятся аномальные точки. При подведении к ним курсора появляется надпись, содержащая значения признаков этого наблюдения в формате (X; У) (рис. 2).
9
Рис. 2 Отображение надписи на диаграмме
Для демонстрационного примера такая надпись выглядит следующим образом: «Обозначение (330; 53) означает, что выбранная аномальная точка соответствует наблюдению (предприятию), которое имеет среднегодовую стоимость основных средств, равную 330 млн. руб., и объеме реализации продукции, равным 53 млн. руб.». 3. Единица наблюдения, соответствующая выявленной аномальной точке, отыскивается в исходных данных таблицы 1 визуально либо с помощью поисковых средств Excel. 4. Для фиксации выявленных аномальных единиц наблюдения в рабочем файле персональной папки студента выделена таблица (таблица 2), которая располагается в диапазоне ячеек А37-С41. Формат таблицы 2 совпадает с форматом исходной таблицы 1. Перед исключением аномальных единиц из первичных данных информацию о них следует скопировать в таблицу 2. 5. Для удаления из исходных данных таблицы 1 строк с аномальными данными необходимо выделить мышью соответствующую адресную строку вместе с ее номером. Для демонстрационного примера это адресная строка с номером 34, содержащая под порядковым номером 31 значения 330 и 53 (рис. 3):
33 34 35
А 29 30 31
В 167 205 330
С 114 133 53
Рис. 3 Фрагмент таблицы с исходными данными
Визуальный анализ диаграммы рассеяния, выявление и фиксация аномальных значений признаков, их удаление из первичных данных 1. Найти на графике точку, соответствующую аномальному наблюдению. Если таких точек нет, то перейти к действию 7, если есть – к действиям 2 –6. 2. Подвести курсор к точке на диаграмме рассеяния, соответствующей аномальному наблюдению. После непродолжительного времени возле точки автоматически появится надпись, содержащая значения признаков этого наблюдения в формате (X, У).
10
3. В исходных данных визуально (либо с помощью поисковых средств Excel) найти в таблицк 1 строку, соответствующую выявленной аномальной единице наблюдения (предприятию). Скопировать эту строку в таблицу 2. 4. Выделить мышью всю адресную строку с данными, подлежащими удалению. 5. Правка -> Удалить. 6. Выполнять действия 1–5 до полного удаления всех аномальных наблюдений. 7. Переместить диаграмму рассеяния в область ячеек, начиная с ячейки F4. 3.2 Оценка описательных статистических параметров совокупности 3.2.1 Показатели описательной статистики Обобщающие статистические показатели совокупности исчисляются на основе анализа вариационных рядов распределения. Однако пакет Excel позволяет рассчитать многие из этих показателей непосредственно по первичным данным наблюдения, используя инструмент Описательная статистика надстройки Пакет анализа, а также статистические функций инструмента Мастер функций. Описательная (дескриптивная) статистика является инструментом статистического описания данных, представляющих всю наблюдаемую совокупность в целом. Цель описательной статистики – получение сводных (обобщающих) показателей, характеризующих исходную совокупность данных как генеральную (а не как выборку из некоторой другой совокупности большего объема). Для численной оценки обобщающих показателей совокупности используются так называемые описательные статистики, представляющие собой однозначные функции на множестве наблюдаемых данных, определяющие значения оцениваемых обобщающих показателей совокупности. Описательные статистики рассчитываются по несгруппированным данным и реализуют точные функциональные зависимости значений показателей от исходных данных (в отличие от приближенных статистических оценок, выводимых с заданным уровнем надежности). Показатели, вычисляемые с помощью описательных статистик, можно разбить на 3 группы – показатели положения вариантов значений признака, вариации признака и особенностей формы его распределения. 1. Показатели положения описывают положение в первичном ряду данных тех или иных вариантов значений признака, характеризующих ряд. К ним относятся: – максимальное хmax и минимальное хmin значения признака; – средняя арифметическая величина x (выступающая в качестве
11
статистической оценки математического ожидания М [ x ] средней величины признака); – мода Мо – наиболее часто встречающийся вариант значений признака или тот вариант, который соответствует максимальной ординате эмпирической кривой распределения; – медиана Me – серединное значение ранжированного ряда вариантов значений признака; – нижний и верхний квартили Q1 и Q3 ограничивающие центральную зону ранжированного ряда, в которую попадают 50% вариантов значений признака: 25% вариантов значений, меньших серединного значения Me, и 25% вариантов значений, больших Me. Среди показателей этой группы наиболее часто используются показатели центра распределения – x , Мо и Me. При этом x рассчитывается для первичного ряда наблюдаемых данных, Мо и Me – для ранжированного (упорядоченного) ряда. Для х и Me характерны свойства:
∑ (x − x ) = 0 n
i =1
i
n
, ∑ ( xi − Me ) = min .
(1)
i =1
В зависимости от целей статистического исследования в качестве центра распределения выбирается один из показателей x , Мо или Me. В случае однородной совокупности (с нормальным или близким к нему распределением единиц) в качестве центра чаще всего используется средняя величина x , характеризующая типичный уровень значений признака. Для неоднородной совокупности (не поддающейся нормальному закону распределения) роль центра распределения обычно выполняет медиана Me. 2. Показатели вариации (колеблемости) признака описывают степень рассеяния вариантов значений признака относительно своего центра x (или Me). Различают показатели размера и интенсивности вариации. К показателям размера вариации относятся: – размах вариации R = хmax –хmin, устанавливающий предельное значение амплитуды колебаний признака; – межквартильный размах Q3 – Q1, определяющий максимальную амплитуду колебаний в центральной зоне ряда (ограниченной квартилями Q1, и Q3); – среднее линейное отклонение d , вычисляемое как среднее арифметическое из абсолютных отклонений xi − x : n
d=
∑ xi − x i =1
n
12
;
(2)
– дисперсия σ 2 (или D), рассчитываемая как среднее арифметическое из квадратов отклонений xi − x : 2
∑ (xi − x ) n
2
δ =
i =1
n
;
(3)
– среднее квадратическое (стандартное) отклонение σ , вычисляемое как корень квадратный из дисперсии σ 2 :
∑ (xi − x ) n
2
i =1
σ=
n
.
(4)
Интенсивность вариации признака измеряется относительными показателями
Vσ =
σ , x
Vd =
d , x
VR =
R , x
VMe =
Me . x
Показатели R, d и σ являются величинами именованными и выражаются в тех же единицах, что и изучаемый признак. Дисперсия σ 2 считается безразмерной величиной. Относительные показатели интенсивности вариации, как правило, измеряются процентах. В статистической практике для оценки вариации наиболее широко применяются показатели размера вариации σ 2 , σ и показатель интенсивности вариации Vδ . Показатели σ 2 , σ , основанные на учете отклонений (хi – x ) индивидуальных значений признака хi от средней арифметической x , являются обобщающими характеристиками различия в значениях признака. Дисперсия σ 2 оценивает средний квадрат отклонений (хi – x ). Величина σ очень чутко реагирует на вариацию признака (за счет возведения отклонений в квадрат) и органически вписывается в аппарат математической статистики (дисперсионный, корреляционный анализ и др.). На расчете дисперсии основаны многие статистические показатели. Среднее квадратическое отклонение σ показывает, на сколько в среднем отклоняются индивидуальные значения признака хi от их средней величины x . Размерность отклонения σ совпадает с размерностью самого признака. Отклонения, выраженные в σ , принято считать стандартными. Интенсивность вариации обычно измеряют коэффициентом вариации Vδ , который выражается в процентах и вычисляется по формуле Vσ =
σ *100 . x
13
(5)
Величина Vδ .оценивает интенсивность колебаний вариантов относительно их средней величины. Принята следующая оценочная шкала колеблемости признака: – 0% < Vδ . ≤ 40% – колеблемость незначительная; – 40% < Vδ ≤ 60% – колеблемость средняя (умеренная); (6) – Vδ . > 60% – колеблемость значительная. Для нормальных и близких к нормальному распределений показатель Vδ .служит индикатором однородности совокупности: принято считать, что при выполнимости неравенства
Vδ
≤
33,
%(7)
совокупность является количественно однородной по данному признаку. Коэффициент вариации Vδ .часто используется для сравнения колеблемости признаков в различных рядах распределения, когда сравнивается вариация разных признаков в одной и той же совокупности или же вариация одного и того же признака в различных совокупностях, имеющих разные средние x . 3. Показатели особенностей формы распределения. Для определения типа закономерности эмпирического распределения оно приближенно описывается подходящим теоретическим (вероятностным) распределением, форму кривой которого называют формат распределения. В тех случаях, когда форма распределения анализируется на ее близость к нормальной форме, расхождение между ними оценивается показателями асимметрии и эксцесса. Показатели асимметрии оценивают смещение ряда распределения влево или вправо по отношению к оси симметрии нормального распределения. В симметричном распределении максимальная ордината прямой располагается точно в середине кривой (рис. 4), а соответствующие ей характеристики центра распределения совпадают:
x = Мо = Me. а) правосторонняя ассиметрия
б) левосторонняя ассиметрия
Рис. 4 Кривые асимметричных распределений (пунктиром обозначена нормальная кривая)
14
(8)
В случае асимметричного распределения вершина кривой находится не в середине, а сдвинута либо влево, либо вправо (рис. 4) Если вершина сдвинута влево, то правая часть кривой оказывается длиннее левой (рис. 4,а), т.е. имеет место правосторонняя асимметрия, характеризующаяся неравенством
х > Ме > Мо,
(9)
что означает преимущественное появление в распределении более высоких значений признака. Если же вершина кривой сдвинута вправо и левая часть оказывается длиннее правой, то асимметрия левосторонняя (рис. 4,б), для которой справедливо неравенство
х < Me < Мо,
(10)
означающее, что в распределении чаще встречаются более низкие значения признака. Чем больше величина расхождения между х , Me, Mo, тем более асимметричен ряд. Разности \ х – Ме\ и \ х – Мо\ являются простейшими показателями асимметрии в рядах распределения. В нормальном и близких к нему распределениях основная масса единиц (почти 70%) располагается в центральной зоне ряда, в диапазоне ( х ± δ ). Для оценки асимметричности распределения в этом центральном диапазоне служит коэффициент К. Пирсона:
x − Mo . (11) δ При правосторонней асимметрии Asn > 0, при левосторонней As <0. Если Asn = 0, вариационный ряд симметричен. Наиболее точным показателем асимметрии распределения является коэффициент асимметрии As, вычисляемый по формуле Asn =
n
As =
∑ ( xi − x)3 i =1
, (12) δ3n где n – число единиц совокупности. Чем больше величина As , тем более асимметрично распределение. Установлена следующая оценочная шкала асимметричности: – As ≤ 0,25 – асимметрия незначительная; – 0,25< As ≤ 0,5 – асимметрия заметная (умеренная); (13) – As >0,5 – асимметрия существенная. Коэффициенты Asn и As являются относительными безразмерными величинами, они часто применяются для сравнительного анализа асимметричности различных рядов распределения.
15
Показатель эксцесса характеризует крутизну кривой распределения – ее заостренность или пологость по сравнению с нормальной кривой (рис.5). Для оценки расхождений в степени крутизны кривых (при одинаковой силе вариации) применяется коэффициент эксцесса Ek n
Ek =
∑ ( x − x) 4 i =1
σ2n
а) островершинное
− 3.
(14)
б) плосковершинное распределение
распределение
Рис.5 . Кривые распределения с ненулевым эксцессом (пунктиром обозначена нормальная кривая)
Как правило, коэффициент эксцесса вычисляется только для симметричных или близких к ним распределений. Это объясняется тем, что за базу сравнения принята кривая нормального распределения, являющаяся симметричной. Относительно вершины нормальной кривой и определяется выпад вверх или вниз вершины теоретической кривой эмпирического распределения. При этом: – если Ek >0, то вершина кривой распределения располагается выше вершины нормальной кривой, а форма кривой является более островершинной, чем нормальная (рис. 5,а). Это говорит о скоплении значений признака в центральной зоне ряда распределения, т.е. о преимущественном появлении в данных значений, близких к средним; – если Ek < 0, то вершина кривой распределения лежит ниже вершины нормальной кривой, а форма кривой более пологая по сравнению с нормальной (рис. 5,б). Это означает, что значения признака не концентрируются в центральной части ряда, а достаточно равномерно рассеяны по всему диапазону от xmax до xmin. Для нормального распределения Ek = 0, поэтому чем больше абсолютная величина |Ek|, тем существеннее распределение отличается от нормального. В частности, большая отрицательная величина Ek означает преобладание у признака крайних значений, причем одновременно и более низких, и более высоких. При этом в центральной части распределения может образоваться
16
«впадина», превращающая распределение в двухвершинное (U-образной формы), что является индикатором неоднородности совокупности. 3.2.2 Оценка ошибок выборки
Применение выборочного метода наблюдения связано с измерением степени достоверности статистических характеристик генеральной совокупности, полученных по результатам выборочного наблюдения. Достоверность генеральных параметров зависит от репрезентативности выборки, т.е. от того, насколько полно и адекватно представлены в выборке статистические свойства генеральной совокупности. Как правило, статистические характеристики выборочной и генеральной совокупностей не совпадают, а отклоняются на некоторую величину ε , которую называют ошибкой выборки (ошибкой репрезентативности). Ошибка выборки – это разность между значением показателя, который был получен по выборке, и генеральным значением этого показателя. Например, разность −
~
εΧ = Χ − Χ
определяет ошибку репрезентативности для средней величины признака. Значения признаков единиц выборочной совокупности являются случайными величинами, следовательно, ошибки выборки также случайны и могут принимать для разных выборок одной и той же генеральной совокупности разные значения. Ввиду этого принято вычислять среднюю и предельную ошибки выборки. Для среднего значения признака средняя ошибка выборки μ − (ее Χ
называют также стандартной ошибкой) выражает среднее квадратическое ~
отклонение δ выборочной средней Χ от математического ожидания − ⎡−⎤ Μ ⎢ Χ ⎥ генеральной средней Χ . Величина ошибки μ − зависит от объема Χ ⎣ ⎦ выборки n и от величины вариации признака σ : чем больше n и меньше σ , тем меньше ошибка μ − . Χ
Предельная ошибка выборки Δ ~ определяет границы, в пределах Χ
−
которых лежит генеральная средняя Χ . Эти границы задают так называе−
мый доверительный интервал генеральной средней Χ – случайную область значений, которая с вероятностью Р, близкой к 1, гарантированно содержит значение генеральной средней. Эту вероятность называют доверительной вероятностью или уровнем надежности.
17
Наиболее часто используются уровни надежности Р = 0,954; Р = 0,997; P = 0,683. В математической статистике доказано, что предельная ошибка выборки Δ ~ кратна средней ошибке μ − с коэффициентом кратности t, завиΧ
Χ
сящим от значения доверительной вероятности Р:
Δ ~ = t ⋅μ ~ . Χ
Χ
Величина коэффициента t (называемого также коэффициентом доверия) является нормированным отклонением, которое вычисляется по формуле −
~
Χ− Χ t=
σ
и выражается не в натуральных единицах, а в сигмах: 1 σ , 2 σ , З σ и т.д. Значения t подсчитаны для различных уровней надежности Р и протабулированы (хранятся в таблицах интегральной функции Лапласа). Для вышеприведенных уровней надежности Р коэффициенты доверия t задаются следующим образом:
Р t
0,683 1
0,954 2
0,997 3
Например, если t = 2, то с вероятностью Р = 0,954 можно утверждать, ~
−
что расхождение между выборочной и генеральной средними Χ − Χ не превысит двукратной величины средней ошибки выборки: −
~
ε Χ = Χ − Χ ≤ 2μ ~ . Χ
Таким образом, предельная ошибка выборки Δ ~ позволяет опредеΧ
лить предельные значения показателей генеральной совокупности и их доверительные интервалы. Для генеральной средней предельные значения и доверительные интервалы определяются выражениями: −
~
Χ = Χ±Δ~ ,
(15)
Χ
−
~
~
Χ−Δ~ ≤ Χ ≤ Χ+Δ~ . Χ
Χ
Что касается величины дисперсии генеральной совокупности σ 2N , то она может быть оценена непосредственно по выборочной дисперсии σ 2n .
18
В математической статистике доказано, что при малом числе наблюдений (особенно при n ≤ 40–50) для вычисления генеральной дисперсии σ 2N по выборочной дисперсии σ 2n следует использовать формулу σ 2N =
n ⋅ σ 2n . n −1
(16)
При достаточно больших n значение поправочного коэффициента n близко к 1 (при n = 100 его значение равно 1,101,а при n = 500 – 1,002 n −1 и т.д.). Поэтому при достаточно больших n можно приближенно считать, что обе дисперсии совпадают: σ 2N ≈ σ 2n .
3.2.3 Запуск и особенности реализации средств описательной статистики в надстройке ПАКЕТ АНАЛИЗА
Запуск инструмента Описательная статистика осуществляется следующей последовательностью действий: Сервис → Анализ данных → Описательная статистика → ОК. В появившемся диалоговом окне инструмента (рис. 6) задаются следующие параметры:
Рис.6. Диалоговое окно инструмента Описательная статистика
В появившемся диалоговом окне инструмента (рис. 7) задаются следующие параметры: 1. Поле Входной интервал – вводится ссылка на диапазон ячеек, содержащих значения анализируемого признака. В качестве входного интервала может быть указан диапазон, который содержит ряды значений сразу нескольких анализируемых признаков. В таком случае показатели Описательной статистики будут рассчитаны для каждого ряда и представлены в единой таблице в виде отдельных столбцов (рис. 7).
19
2. Переключатель Группирование: по столбцам/строкам – устанавливается в положение по столбцам или по строкам в зависимости от того, в каком направлении располагаются анализируемые данные во входном диапазоне – вертикальном (по столбцам) или горизонтальном (по строкам). 3.Флажок Метки в первой строке – устанавливается в активное состояние, если первая строка во входном диапазоне содержит заголовки. Если заголовки отсутствуют, поле не активизируется. В этом случае будут автоматически созданы стандартные названия для данных выходного диапазона. 4. Поле Выходной интервал – вводится ссылка на ячейку заголовка первого столбца выходной результативной таблицы. Размер выходного диапазона ячеек определяется автоматически. В случае возможного наложения выходного диапазона на другие данные на экране появится соответствующее сообщение. 5. Переключатели Новый рабочий лист и Новая рабочая книга – устанавливаются в активное положение при необходимости открытия соответственно нового листа или новой книги. В новом листе результаты анализа располагаются начиная с ячейки А1, в новой книге – на первом листе начиная с ячейки А1. 6. Флажок Итоговая статистика – устанавливается в активное состояние, если для данных входного диапазона необходимо произвести расчет основных показателей, перечисленных в макете результативной таблицы на рисунке 6. 7. Флажок Уровень надежности – устанавливается в активное состояние, если в результативную таблицу необходимо включить строку для оценки предельной ошибки выборки ( Δ ~ ) с заданной доверительной вероΧ
ятностью. Значение уровня надежности выражается в процентах и задается в поле напротив флажка Уровень надежности. Уровень надежности 95,0% (что равносильно доверительной вероятности Р = 0,95 или же уровню значимости α = 0,05) фиксируется в поле автоматически. 8. Флажки К-тый наименьший и K-тый наибольший – активизируются, если в результативную таблицу необходимо включить строку соответственно для k-го наименьшего (начиная с минимума xmin ) и k-го наибольшего (начиная с максимума xmax ) значений элементов в выборке. В этом случае в поле, расположенном напротив каждого флажка, вводится число k .При k = 1 выходные строки будут содержать соответственно xmin и xmax . В Пакете анализа инструмент Описательная статистика используется для генерации одномерного статистического отчета, который включает ряд показателей положения, вариации и формы распределения признаков выборочной и генеральной совокупностей, а также среднюю и предельную ошибки выборки для средней (рис. 7).
20
Столбец 1
Столбец 2
Среднее Стандартная ошибка Медиана Мода Стандартное отклонение Дисперсия выборки Эксцесс Асимметричность Интервал Минимум Максимум Сумма Счет Уровень надежности (95,4%)
Среднее Стандартная ошибка Медиана Мода Стандартное отклонение Дисперсия выборки Эксцесс Асимметричность Интервал Минимум Максимум Сумма Счет Уровень надежности (95,4%)
Рис. 7. Макет результативной таблицы инструмента
Описательная статистика Между терминологией инструмента Описательная статистика и терминами, принятыми в отечественной статистике, имеется ряд расхождений. Согласование терминологии приводится в таблице 4. Таблица 4 Статистическая интерпретация параметров описательной статистики Параметр инструмента Описательная статистика Среднее
Статистический показатель
Обозначение
Средняя арифметическая величина признака в выборке, вычисленная по несгруппированным данным Средняя ошибка выборки – среднее квадрати-
Χ
~
ческое отклонение выборочной средней Χ от Стандартная ошибка математического ожидания генеральной сред-
~
μ~
Χ
−
Медиана Мода Стандартное отклонение
ней Χ Значение признака, приходящееся на середину ранжированного ряда выборочных данных Значение признака, повторяющееся в выборке с наибольшей частотой Генеральное среднее квадратическое отклонение, оцененное по выборке
21
Me Mo
σN
Окончаеие табл. 4 Дисперсия выборки Генеральная дисперсия, оцененная по выборке Коэффициент эксцесса, оценивающий Эксцесс по выборке значение эксцесса в генеральной совокупности Коэффициент асимметрии, оценивающий Асимметричность по выборке величину асимметрии в генеральной совокупности Интервал Размах вариации в выборке Минимум Максимум Сумма
Минимальное значение признака в выборке Максимальное значение признака в выборке Суммарное значение элементов выборки
Счет Объем выборки Уровень надежности Предельная ошибка выборки, оцененная (95,0%) с заданным уровнем надежности
σ 2n Ek N
As N R
Χmin Χ max
∑ Χi n
Δ~
Χ
Вычисленные значения всех вышеперечисленных показателей представляются в единой результативной таблице на рабочем листе Excel. При этом показатели могут рассчитываться сразу для нескольких рядов данных в соответствии с заданным входным диапазоном ячеек. Так, для входного диапазона с двумя рядами данных результативная таблица будет состоять из двух столбцов значений описательных параметров (рис. 7). Именно такой формат имеет таблица 3; зарезервированная в рабочем файле персональной папки студента или показателей, рассчитываемых в режиме Описательная статистика. Следует обратить внимание на то, что расчет параметров в режиме Описательная статистика имеет ряд важных особенностей: 1. В качестве значений параметров: Стандартное отклонение, Дисперсия выборки, Эксцесс, Асимметричность – Excel генерирует оценки соответствующих параметров для генеральной совокупности, а не для выборки. 2. Для применения Описательной статистики предварительное ранжирование исходных данных не требуется: при вычислении показателей ранжирование выполняется автоматически. 3. Появление в ячейке Мода индикатора ошибки #Н/Д указывает на то, что в анализируемых данных нет одинаковых значений признака. В этом случае в качестве моды Мо выбирается то значение признака, которое соответствует максимальной ординате теоретической кривой распределения. 4. Индикатор ошибки #ДЕЛ/0! в ячейке Эксцесс и/или Асимметричность означает, что в результативной таблице стандартное отклонение является нулевым или же заданный входной диапазон данных содержит менее четырех элементов данных.
22
3.2.4. Расчет предельной ошибки выборки
Расчет предельной ошибки выборки осуществляется в режиме Описательная статистика. Значение Δ ~ для уровня надежности 95,0% автомаΧ
тически выводится в результативной таблице. Для расчета Δ ~ при уровнях Χ
надежности 99,7 и 68,3% необходимо дважды обратиться к инструменту Описательная статистика и в диалоговом окне активизировать поля Входной интервал, Группирование, Выходной интервал, Уровень надежности, внеся в них соответствующие значения. Поскольку флажок Итоговая статистика при этом не активизируется, дублирования вычислений описательных показателей не происходит. Для предельных ошибок выборки при уровнях надежности 68,3 и 99,7% в рабочем файле персональной папки студента зарезервированы таблицы 4,а и 4,б соответственно, имеющие следующий формат (таблица 5). Таблица 5 Предельная ошибка выборки Столбец 1
Столбец 2
Уровень надежности (...%)
Уровень надежности (...%)
3.2.5. Использование статистических функций инструмента МАСТЕР ФУНКЦИЙ
1. Вызвать Мастер функций, нажав кнопку f Χ на панели инструментов. 2. В Мастере функций среди предлагаемых категорий функций выбрать категорию Статистические, а затем – необходимую функцию (СТАНДОТКЛОНП, ДИСПР или СРОТКЛ). 3. В появившемся диалоговом окне в поле Число 1 указать диапазон ячеек, содержащих значения анализируемого признака. Помимо показателей, определяемых в режиме Описательная статистика, для анализа статистических свойств изучаемой совокупности необходимы дополнительно следующие выборочные показатели (которые либо вообще не вычисляются инструментом Описательная статистика, либо вычисляются для генеральной совокупности): – выборочное среднее квадратическое отклонение σ n ; – выборочная дисперсия σ 2n ;
−
– выборочное среднее линейное отклонение d ; – коэффициент вариации признака в выборке Vσ ; – коэффициент асимметрии Пирсона AsΠ . Для этих пяти показателей в рабочем файле персональной папки студента зарезервирована таблица 6 следующего формата.
23
Таблица 6 Выборочные показатели совокупности Первый признак Стандартное отклонение σ n
Второй признак Стандартное отклонение σ n
Дисперсия σ 2n
Дисперсия σ2n _
_
Среднее линейное отклонение d Коэффициент вариации Vσ
Среднее линейное отклонение d Коэффициент вариации Vσ
Коэффициент асимметрии AsΠ
Коэффициент асимметрии AsΠ _
Для вычисления показателей σn , σ2n и d используются соответствующие статистические функции инструмента Мастер функций: 1. СТАНДОТКЛОНП (Диапазон ячеек) – оценивает среднее квадратическое отклонение σ в предположении, что исходные данные представляют всю совокупность (не являются выборкой из генеральной совокупности). 2. ДИСПР (Диапазон ячеек) – оценивает дисперсию σ 2 в предположении, что исходные данные представляют всю совокупность. 3. СРОТКЛ (Диапазон ячеек) – рассчитывает для выборочных данных _
среднее линейное отклонение d . Для расчета коэффициента вариации Vσ по формуле (5) необходимо ~
использовать среднее арифметическое значение Χ из результативной таблицы Описательной статистики (табл. 3) и выборочное среднее квадратическое отклонение σ n из таблицы выборочных показателей (табл. 5). Для расчета коэффициента асимметрии Пирсона AsΠ по формуле (11) ~
необходимо использовать среднее арифметическое значение Χ и моду Мо из результативной таблицы Описательной статистики (табл. 3), а также выборочное среднее квадратическое отклонение σ n из таблицы выборочных показателей (таблица 5).
Расположение данных на рабочем листе Excel Исходные данные и их описательные статистические характеристики располагаются в таблицах рабочего файла персональной папки студента в соответствии с таблицей 3. При этом учитывается следующая особенность автоматического построения выходных таблиц инструментом Описательная статистика. Инструменты Пакета анализа строят выходные таблицы со стандартными заголовками столбцов (например, таблица описательных статистик на рисунке 7 имеет стандартные заголовки Столбец 1, Столбец 2). При этом размещение выходных таблиц на рабочем листе осуществляется
24
начиная с ячейки заголовка первого столбца (в примере это ячейка с заголовком Столбец 1). Именно адрес этой ячейки и должен задаваться в поле Выходной интервал диалогового окна при формировании выходных таблиц. Таблица 7 Расположение данных на рабочем листе Excel Признак Среднегодовая стоимость Исходные данные основных и их статистические характеристики производственных фондов, млн руб. Исходные данные после удаления «аномальных» В4:ВЗЗ значений – Таблица 1 Описательные статистики – Таблица 3 с ячейкой А46 заголовка первого столбца Предельная ошибка выборки при Р = 0,683 – А67 Таблица 4,а с ячейкой заголовка первого столбца Предельная ошибка выборки при Р = 0,997 – А75 Таблица 4,б с ячейкой заголовка первого столбца Среднее квадратическое отклонение выборки σ n В83 в Таблице 5 В84 Дисперсия выборки σ 2 в Таблице 5 n
Признак Выручка от продажи продукции, млн руб. С4:СЗЗ С46 С67 С75 D83 D84
_
Среднее линейное отклонение d a Таблице 5 Коэффициент вариации Vσ в Таблице 5
В85 В86
D85 D86
Коэффициент асимметрии Asn в Таблице 5
В87
D87
Алгоритм выполнения задания 2 Этап 1. Расчет описательных параметров выборочной и генеральной совокупностей с использованием инструмента ОПИСАТЕЛЬНАЯ СТАТИСТИКА
Алгоритм расчета описательных статистик 1. Сервис → Анализ данных → Описательная статистика → ОК. 2. Входной интервал ← диапазон ячеек таблицы, выделенный согласно таблице 7 для значений признаков Стоимость основных фондов и Выпуск продукции. 3. Группирование → по столбцам. 4. Итоговая статистика – Активизировать. 5. Уровень надежности – Активизировать. 6. Уровень надежности ← 95,4.
25
7. Выходной интервал ← адрес ячейки заголовка первого столбца таблицы 3 (таблица 7). 8. ОК. 9. При появлении окна с сообщением «Выходной интервал накладывается на имеющиеся данные» → ОК. В результате указанных действий Excel осуществляет вывод таблицы описательных статистик в заданный диапазон рабочего файла (для демонстрационного примера (таблица 8). Интерпретация терминов таблицы в принятых статистических терминах приведена выше. А
В
Таблица 8 D
С
43 44 45
Описательные статистики Среднегодовая стоимость Выручка от продаж, основных производственных млн. руб фондов, млн. руб. 46 Столбец 1 Столбец 2 47 48 Среднее 203,2333333 Среднее 49 Стандартная ошибка 8,804737927 Стандартная ошибка 50 Медиана 206,5 Медиана 51 Мода 167 Мода 52 Стандартное отклонение 48,22553575 Стандартное отклонение 53 Дисперсия выборки 2325,702299 Дисперсия выборки 54 Эксцесс 0,18281271 Эксцесс
144,6666667 7,071772174 148.5 114 38,73369141 1500,298851 –0,602481285
55 Асимметричность
–0,185105228 Асимметричность
0,218561586
56 Интервал 57 Минимум
204 94
Интервал Минимум
144 80
58 Максимум
298
Максимум
224
59 Сумма 60 Счет Уровень надежности 61 (95,4%)
6097 30
Сумма Счет Уровень надежности (95,4%)
4340 30
18,356223
14,74331526
Этап 2. Оценка предельных ошибок выборки для различных уровне надежности в режиме ОПИСАТЕЛЬНАЯ СТАТИСТИКА
Алгоритм расчета предельной ошибки выборки при Р = 0,683 1. Сервис → Анализ данных → Описательная статистика → ОК. 2. Входной интервал ← диапазон ячеек таблицы, выделенный согласно таблице 7 для значений признаков Стоимость основных фондов и Выпуск продукции.
26
3. Итоговая статистика – снять флажок. 4.Уровень надежности – активизировать. 5. Уровень надежности ← 68,3. 6. Выходной интервал ← адрес ячейки, выделенной согласно таблице 7 для предельной ошибки выборки при Р = 0,683. 7. ОК. 8. При появлении окна с сообщением «Выходной интервал накладывается на имеющиеся данные» → ОК.
Алгоритм расчета предельной ошибки выборки при Р = 0,997 1. Сервис → Анализ данных → Описательная статистика → ОК. 2. Входной интервал ← диапазон ячеек таблицы, выделенный согласно таблице 3-М для значений признаков Стоимость основных фондов и Выпуск продукции после удаления аномальных значений. 3. Итоговая статистика — Снять флажок. 4. Уровень надежности — Активизировать. 5. Уровень надежности ← 99,7. 6. Выходной интервал ← адрес ячейки, выделенный согласно таблице 7 для предельной ошибки выборки при Р = 0,997. 7. ОК. 8. При появлении окна с сообщением «Выходной интервал накладывается на имеющиеся данные» → ОК. В результате работы вышеприведенных алгоритмов Excel выводит в соответствующие ячейки таблицы 4 рабочего файла значения предельных ошибок выборки при Р = 0,683 и Р = 0,997 (для демонстрационного примера таблицы 8 и 9). Таблица 8 А 64 65
В
С
D
Предельные ошибки выборки
Среднегодовая Выручка стоимость основных 66 от продаж, производственных млн руб. фондов, млн. руб. 67 Столбец 1 Столбец 2 68 Уровень надежности Уровень надежно69 (68,3%) 8,965032289 сти (68,3%) 7,200517087 70 71
27
72 73
Таблица 9 Предельные ошибки выборки
Среднегодовая Выручка от продаж, стоимость основных 74 производственных млн руб фондов, млн руб. 75 Столбец 1 Столбец 2 76 Уровень надежности Уровень надежности 77 28,52208432 (99,7%) 22,90831186 (99,7%) Этап 3. Расчет описательных параметров выборочной совокупности с использованием инструмента МАСТЕР ФУНКЦИЙ
Алгоритм расчета выборочного стандартного отклонения σ n для признака «Среднегодовая стоимость основных производственных фондов» 1. Установить курсор в ячейку, выделенную согласно таблице 7 для среднего квадратического отклонения первого признака. 2. Вставка → Функция. 3. Статистические → СТАНДОТКЛОНП → ОК. 4. Число 1 ← диапазон ячеек таблицы 1, содержащих значения первого признака.
Алгоритм расчета выборочного стандартного отклонения σ n для признака «Выручка от продаж продукции» 1. Установить курсор в ячейку, выделенную согласно таблице 7 для среднего квадратического отклонения второго признака. 2. Вставка → Функция. 3. Статистические → СТАНДОТКЛОНП → ОК. 4. Число 1 ← диапазон ячеек таблицы 1, содержащих значения второго признака.
Алгоритм расчета выборочной дисперсии σ 2n для признака «Среднегодовая стоимость основных производственных фондов» 1. Установить курсор в ячейку, выделенную согласно таблице 7 для выборочной дисперсии первого признака. 2. Вставка → Функция. 3. Статистические → ДИСПР → ОК. 4. Число 1 ← диапазон ячеек таблице 1, содержащий значения первого признака.
28
Алгоритм расчета выборочной дисперсии σ 2n по признаку «Выручка от продаж продукции» 1. Установить курсор в ячейку, выделенную согласно таблице 7 для выборочной дисперсии второго признака. 2. Вставка → Функция. 3. Статистические → ДИСПР → ОК. 4. Число 1 ← диапазон ячеек таблицы 1, содержащих значения второго признака.
Алгоритм расчета выборочного среднего линейного отклонения no признаку «Среднегодовая стоимость основных производственных фондов» 1. Установить курсор в ячейку, выделенную согласно таблице 7 для среднего линейного отклонения первого признака. 2. Вставка → Функция. 3. Статистические → СРОТКЛ → ОК. 4. Число 1 ← диапазон ячеек таблицы 1, содержащих значения первого признака.
Алгоритм расчета выборочного среднего линейного отклонения d по признаку «Выручка от продаж продукции» 1. Установить курсор в ячейку, выделенную согласно таблийе 7 для среднего линейного отклонения второго признака. 2. Вставка → Функция. 3. Статистические → СРОТКЛ →ОК. 4. Число ← диапазон ячеек таблицы 1, содержащих значения второго признака.
Алгоритм расчета коэффициента вариации Vσ пo признаку «Среднегодовая стоимость основных производственных фондов» 1. Установить курсор в ячейку, выделенную согласно табл. 7 для коэффициента вариации первого признака. 2. В активизированную ячейку ввести формулу = В83/В48 • 100. Алгоритм расчета коэффициента вариации Vσ по признаку «Выпуск продукции» 1. Установить курсор в ячейку, выделенную согласно таблице 7 для коэффициента вариации второго признака; 2. В активизированную ячейку ввести формулу = D83/D48 • 100.
29
Алгоритм расчета выборочного коэффициента асимметрии Пирсона Asn пo признаку «Среднегодовая стоимость основных производственных фондов» 1. Установить курсор в ячейку, выделенную согласно таблице 7 для коэффициента асимметрии первого признака. 2. В активизированную ячейку внести формулу = (В48 − В51)/В83.
Алгоритм расчета выборочного коэффициента асимметрии Пирсона Asn no признаку «Выручка от продаж продукции» 1. Установить курсор в ячейку, выделенную согласно таблице 7 для коэффициента асимметрии второго признака. 2. В активизированную ячейку внести формулу = (D48 − D51)/D83. В результате работы алгоритмов 3.1–3.10 Excel осуществляет вывод значений выборочных параметров σn , σ 2n , d , Vσ и Asn в соответствующие ячейки рабочего листа (для демонстрационного примера таблицы 10). Таблица 10 A 80 81 82
B C Выборочные показатели вариации и асимметрии
Среднегодовая стоимость основных производственных фондов, млн руб. 83 Стандартное отклонение 47,41496482 84 Дисперсия 85 Среднее линейное отклонение 86 Коэффициент вариации, %
2248,178889 36,66888889
87 Коэффициент асимметрии
0,764175055
23,33030908
Выручка от продаж продукции, млн руб. Стандартное отклонение Дисперсия Среднее линейное отклонение Коэффициент вариации, % Коэффициент асимметрии
D
38,08265864 1450,288889 32,35555556 26,32441841 0,805265907
3.3 Построение и графическое изображение интервального вариационного ряда распределения единиц совокупности по признаку «Среднегодовая стоимость основных производственных фондов» 3.3.1 Краткие теоретические сведения Для того чтобы выявить структуру совокупности и тип закономерности распределения ее единиц по варьирующему признаку, строят и анализируют интервальный вариационный ряд распределения и его гистограмму. Выполнение задания 3 заключается в решении двух статистических задач:
30
1. Построение интервального ряда распределения единиц выборочной совокупности по признаку Среднегодовая стоимость основных производственных фондов. 2. Построение гистограммы и кумуляты сформированного интервального ряда. Структурная группировка – это разделение совокупности единиц по одному или нескольким существенным признакам на однородные группы, различающиеся между собой в качественном и количественном отношении и позволяющие изучить структуру (внутреннее строение) совокупности. Простейшим видом структурной группировки являются ряды распределения – группировки, в которых для характеристики групп применяется лишь один признак – численность группы. При количественной характеристике вариации переход через границы каждого интервала должен означать переход от одной количественной особенности единиц к другой, т.е. появление у единиц нового качества. В условиях компьютерной обработки статистических данных обычно используют те или иные. Один из вариантов стандартной процедуры группировки по количественным признакам является формула Г. Стерджесса для определения величины интервала:
n = 1 + 3,322 lg n ,
(17)
где n – число единиц совокупности. Величина интервала h определяется по формуле
−x x min , i = max n
(18)
где xmax и xmin соответственно максимальное и минимальное значения изучаемого признака. При дробном значении n берется ближайшее к нему целое. Построение ряда распределения завершается подсчетом численности единиц в каждой группе – частоты группы. Иногда распределение характеризуют с помощью накопленных частот или же используют частости и накопленные частости. Частости обычно применяют для небольших по объему совокупностей. Кроме того, они позволяют сравнивать распределения по одному и тому же признаку в разных по численности совокупностях. Ниже приведено табличное представление интервального ряда распределения для демонстрационного примера (таблица10). Для наглядного представления интервальных рядов распределения используют их графическое изображение в виде гистограммы и кумуляты. Гистограмма – столбиковая диаграмма, для построения которой на оси абсцисс откладывают отрезки, равные величине интервалов вариаци-
31
онного ряда. На отрезках строят прямоугольники, высота которых в принятом масштабе по оси ординат соответствует частотам (или частостям). Чем большее количество интервалов имеет ряд, тем более зазубренною будет гистограмма, чем меньшее – тем более «гладкой» она выглядит, однако при этом могут скрадываться характерные черты распределения и пропасть некоторые его подробности. Таблица 11 Интервальный ряд распределения предприятий по среднегодовой стоимости основных производственных фондов Группы предприятий по среднегодовой стоимости основных фондов 94-134,8 134,8-175,6 175,6-216,4 216,4-257,2 257,2-298 Итого
Число предприятий в группе
Накопительная частость группы, %
3 6 11 6 4 30
10,00 30,00 66,67 86,67 100,00 х
Для демонстрационного примера гистограмма и кумулята приведенного выше интервального ряда распределения даны на рисунке 8.
Рис. 8 Гистограмма и кумулята интервального ряда распределения предприятий
Форма гистограммы и ее характеристики несут наглядную информацию о распределении единиц совокупности по изучаемому признаку. Многие выводы и методы статистики базируются на использовании значений описательных параметров распределения, особенно параметров, характеризующих центр распределения ( х , Мо, Me) и рассеяние значений признака отно-
32
сительно центра (σ, As, Ek). Эти параметры можно не только количественно оценить по гистограмме, но и отобразить их визуально. По форме гистограммы можно установить и характер закономерности распределения, т.е. тип функции, описывающей распределение. Так, сопоставляя форму гистограммы на рисунке 9 с наложенной на нее кривой нормального распределения, легко видеть существенное расхождение между эмпирическим и нормальным распределением. Форма гистограммы на рисунке 8, напротив, дает основание предполагать, что распределение эмпирических данных близко к нормальному (наблюдается незначительная асимметрия).
Рис. 9 Гистограмма распределения средней заработной платы по предприятиям региона, руб.
При построении графика гистограммы следует иметь в виду, что неудачный выбор масштаба графика приводит к тому, что гистограмма формируется либо в виде островершинной геометрической фигуры, либо плосковершинной, излишне растянутой по оси абсцисс. В обоих случаях в результате анализа формы гистограммы могут быть сделаны неправильные выводы о форме кривой распределения. Предотвратить эти недостатки позволяет правило «золотого сечения», согласно которому основание геометрической фигуры должно относиться к ее высоте как 1:0,62. Для фигуры гистограммы на рисунке 8 это правило соблюдается. 3.3.2. Особенности построения интервальных вариационных рядов распределения средствами инструмента ГИСТОГРАММА
В надстройке Excel Пакет анализа инструмент Гистограмма используется для генерации интервального вариационного ряда с равными по величине интервалами, а также для построения гистограммы и кумуляты сформированного ряда распределения.
33
Инструмент Гистограмма производит следующие действия: – рассчитывает число интервалов по формуле Г. Стерджесса (17); – определяет величину интервала n по формуле x − xmin i = max ,
{n} − 1
(19)
несколько отличной от формулы (18); – определяет нижние границы интервалов; – формирует интервальный вариационный ряд в соответствии с величинами {n}, i; – рассчитывает частоты и накопленные частости интервалов, определяя число попаданий данных в сформированные интервалы; – строит столбиковую диаграмму частот (которая может быть преобразована в гистограмму) и кумуляту накопленных частостей для полученного ряда распределения; – генерирует для вариационного ряда выходную таблицу в формате (20). 2. Между терминологией, генерируемой в режиме Гистограмма выходной таблицы, и терминами, принятыми для вариационных рядов, имеются расхождения. Согласование терминологии приводится в таблице 12. Таблица 12 Статистическая интерпретация терминологии инструмента Гистограмма Термин инструмента Гистограмма Карманы Интервал карманов Интегральный процент
Термин, принятый в статистике Интервалы вариационного ряда Диапазон ячеек, содержащих в возрастающем порядке верхние границы интервалов Накопленная частость, выраженная в процентах
3. Инструмент Гистограмма имеет два режима работы: – режим автоматического формирования интервалов вариационного ряда, имеющих равную величину i; – режим формирования интервалов ряда в соответствии с границами, заданными пользователем. Если при этом заданные интервалы будут не равны между собой, то в сгенерированной столбиковой диаграмме частоты попадания в интервал не будут связаны с размером интервала, что не позволит правильно оценить характер распределения единиц изучаемой совокупности.
Задание управляющей информации в диалоговом окне инструмента «Гистограмма» Запуск инструмента Гистограмма осуществляется следующей последовательностью действий: Сервис → Анализ данных → Гистограмма → ОК. В появившемся диалоговом окне инструмента Гистограмма (рис. 10)
34
задаются следующие параметры.
Рис. 10 Диалоговое окно инструмента Гистограмма 1. Поле Входной интервал – вводится ссылка на диапазон ячеек, содержащих значения анализируемого признака. 2. Интервал карманов (необязательный параметр) – вводится ссылка на диапазон ячеек, в которых задаются верхние границы интервалов. Если такой диапазон не указан. Excel осуществляет расчет нижних границ интервалов автоматически. 3. Флажок Метки не активизируется. 4. Поле Выходной интервал – вводится ссылка на ячейку заголовка первого столбца формируемой таблицы интервального вариационного ряда. 5. Переключатель Новый рабочий лист/Новая рабочая книга – открывает Новый рабочий лист/Новую рабочую книгу. 6. Флажок Парето (отсортированная гистограмма) – устанавливается в активное состояние при необходимости представить данные в порядке убывания частоты. Если флажок снят, то данные в выходном диапазоне будут приведены в порядке следования интервалов. 7. Флажок Интегральный процент – устанавливается в активное состояние, если необходимо рассчитать накопленные частости (выраженные в процентах) и построить график кумуляты. 8. Флажок Вывод графика – устанавливается в активное состояние при необходимости автоматического построения столбиковой диаграммы.
Этапы построения интервального ряда распределения с использованием двух режимов инструмента «Гистограмма» Для построения интервального вариационного ряда необходимо в диалоговом окне инструмента Гистограмма задать верхние границы интервалов. Поскольку они неизвестны, для их нахождения можно воспользоваться режимом автоматического расчета границ интервалов. Одна-
35
ко в этом режиме в карманах генерируемой таблицы выдаются нижние границы интервалов. Для получения на их основе верхних границ необходимо выполнить два действия: 1) исключить из карманов сгенерированной таблицы нижнюю границу первого интервала xmin, 2) добавить карман с верхней границей xmax последнего интервала (значение xmax имеется в таблице 8 – Описательные статистики). Для демонстрационного примера такое преобразование приведено на рисунке 11.
а) первичная
б) итоговая
Рис. 11 Схема перехода от нижних границ интервалов к верхним
Построение интервального ряда с использованием описанного приема перехода от нижних границ к верхним осуществляется в два этапа. Этап 1. Применяется режим автоматического расчета границ интервалов. В этом режиме рассчитываются нижние границы интервалов и формируется Таблица б, рассматриваемая в качестве промежуточной (ее формат приведен на рис. 11,а). Помимо нижних границ в таблице 6 автоматически генерируется дополнительный карман с именем «Еще», который зарезервирован для последующего задания верхней границы последнего интервала (значения xmax). В сформированной таблице 6 выполняется переход от нижних границ к верхним (с исключением xmin и добавлением xmax). Преобразование выполняется вручную в соответствии со схемой на рисунке 11. Поскольку на первом этапе кроме границ интервалов не рассчитываются никакие другие характеристики ряда и должна быть сгенерирована только таблица 6, то на этом этапе в диалоговом окне Гистограммы необходимо задать только два параметра, обеспечивающих генерацию таблицы 6, – Входной интервал, Выходной интервал и не активизировать остальные параметры окна. Этап 2. Применяется режим формирования ряда по заданным верхним границам интервалов (п. 1.3). При этом в соответствии с карманами итоговой промежуточной табл. 6 генерируется в формате (20) выходная Таблица 7 интервального вариационного ряда и строится столбиковая диа-
36
грамма с нанесенной на ней кумулятой. Для выполнения этого этапа необходимо вновь обратиться к инструменту Гистограмма, задав в диалоговом окне следующие параметры: Входной интервал, Интервал карманов, Выходной интервал, Интегральный процент, Вывод графика. Выходная таблица содержит: – границы интервалов — в графе с именем «Карман»; – частоты интервалов — во второй графе; – накопленные частости — в графе с именем «Интегральный %». Для демонстрационного примера выходная таблица имеет следующий вид: Таблица 13 99 100 101 102 103 104 105 106 107
А В С Интервальный ряд распределения предприятий по среднесписочной численности работников, чел Карман Частота Интегральный % 134,8 3 10,00 175,6 6 30,00 216,4 11 66,67 257,2 6 86,67 298 4 100,00 Еще 0 100
Приведение выходной таблицы и диаграммы к виду, принятому в статистике 1. Сформированную Гистограммой выходную таблицу (таблица 7) следует привести к виду, принятому в статистике. При этом необходимо учитывать согласование терминологии, данное в таблице 12. Для демонстрационного примера Excеl-формат результативной таблицы выглядит следующим образом (таблица 14): А 99 100 101
102 103 104 105 106
В
С Таблица 14
Интервальный ряд распределения предприятий по среднесписочной численности работников, чел Группы предприятий по среднесписочной численности работников, чел 94-134,8 134,8-175,6 175,6-216,4 216,4-254,2 257,2-298
37
Число предприятий в группе 3 6 11 6 4
Накопленная частость группы, % 10,00 30,00 66,67 86,67 100,00
107
Итого
30
х
Для перехода от таблицы 7 к результативной таблице необходимо провести вручную следующие преобразования: – заменить названия столбцов; – удалить строку «Еще»; – границы интервалов привести к формату «нижняя граница – верхняя граница» (для первого интервала нижняя граница – это xmin из таблицы 8 – Описательные статистики); – добавить и заполнить итоговую строку. 2. В качестве выходного графика интервального ряда инструмент Гистограмма строит столбиковую диаграмму с нанесенной на ее поле кумулятой. Для преобразования столбиковой диаграммы в гистограмму необходимо уменьшить ширину зазора между столбцами до 0, воспользовавшись соответствующим средством инструмента Мастер диаграмм. Полученную гистограмму следует переместить в более удобное для анализа место на рабочем листе Excel, расположив ее вслед за результативной таблицей. Масштаб графика гистограммы должен отвечать правилу «золотого сечения». Для демонстрационного примера гистограмма приведена на рисунке 8.
Расположение данных на рабочем листе Excel Исходные данные и рассчитываемые характеристики ряда распределения располагаются в четырех таблицах рабочего файла персональной папки студента в соответствии с таблицей 15. Таблица 15 Расположение данных на рабочем листе Excel Исходные данные и их статистические характеристики Значения первого признака – в столбце первого признака из таблицы 1 Промежуточная таблица с низкими границами интервалов – первичная таблица 6. Указывается адрес заголовка первого столбца Промежуточная таблица с верхними границами интервалов – итоговая таблица 6 Выходная таблица – таблица 7. Указывается адрес заголовка первого столбца Гистограмма и кумулята вариационного ряда – с верхней левой ячейкой
Адресация B4:В33 А90 А92:А96 А101 А112
. Построение промежуточной таблицы
Алгоритм расчета нижних границ интервалов 1. Сервис → Анализ данных → Гистограмма → ОК. 2. Входной интервал ← диапазон ячеек, выделенный согласно табли-
38
ца 15 для столбца значений первого признака. 3. Интервал карманов оставить незаполненным. 4. Выходной интервал ← адрес заголовка первого столбца первичной промежуточной таблицы 6 (таблица 15). 5. ОК.
Алгоритм перехода от нижних границ к верхним 1. Выделить курсором верхнюю левую ячейку таблицы 6 и нажать клавишу [Delete]. 2. Ввести в ячейку с именем «Еще» значение xmax первого признака из таблицы 8 – Описательные статистики. Генерация выходной таблицы и графиков
Алгоритм построения выходной таблицы, столбиковой диаграммы и кумуляты 1. Сервис → Анализ данных → Гистограмма → ОК. 2. Входной интервал ← диапазон ячеек, выделенный согласно таблице 15 для столбца значений первого признака. 3. Интервал карманов ← диапазон карманов итоговой промежуточной табл. 6 с верхними границами (таблица 15). 4. Выходной интервал ← адрес заголовка первого столбца выходной таблицы 7 (таблица 15). 5. Интегральный процент – активизировать. 6. Вывод графика – активизировать. 7. OK. 8. При появлении сообщения о наложении данных – ОК. Приведение выходной таблицы и диаграммы к виду, принятому в статистике
Алгоритм преобразования выходной таблицы в результативную 1. Заменить названия столбцов выходной таблицы 7 в соответствии с таблицей 16. Таблица 16 Название столбца в выходной таблице Карман Частота Интегральный %
Название столбца в результативной таблице Группы предприятий по среднесписочной численности работников, чел. Число предприятий в группе Накопительная частость группы
2. Строки первого столбца привести к виду «нижняя граница интер-
39
вала – верхняя граница интервала», учитывая совпадение верхних границ предыдущего интервала с нижней границей последующего интервала. 3. Строку с именем «Еще» выделить мышью и очистить, нажав клавишу [Delete]. 4. Добавить и заполнить строку с именем «Итого».
Алгоритм преобразования столбиковой диаграммы в гистограмму 1. Осуществив «захват мышью», переместить график, расположив его вслед за таблицей 7 согласно адресации, указанной в таблице 15. 2. Исключить зазоры, выполнив следующие действия: 2.1. Нажать правую кнопку мыши на одном из столбиков диаграммы. 2.2. Формат рядов данных → Параметры. 2.3. Ширина зазора ← 0. 2.4. OK. 3. Используя «захват мышью» за угол поля графика, установить соотношение ширины и высоты фигуры гистограммы в пропорции 1:0,62.
IV. ЗАКЛЮЧИТЕЛЬНЫЙ ЭТАП 4.1 Анализ обобщающих показателей описательной статистики
На основании рассчитанных значений показателей описательной статистики можно не только получить информацию о средних величинах, степени вариации и особенностях формы распределения единиц совокупности, но и сделать заключения о других статистических характеристиках и свойствах совокупности, о внутренней связи между единицами совокупности. Степень колеблемости признака определяется по значению коэффициента вариации Vσ, исходя из оценочной шкалы (6). Показатель Vσ используется и для сравнительной оценки вариации в различных рядах распределений. Однородность совокупности для нормального и близких к нормальному распределений устанавливается по условию (7). Чем однороднее изучаемая совокупность, тем надежнее полученная средняя x . Для оценки надежности (типичности) средней величины x можно воспользоваться значением показателя вариации Vσ. Если его значение невелико, то индивидуальные значения признака xi мало отличаются друг от друга, единицы наблюдения количественно однородны и, следовательно, средняя арифметическая величина x является надежной характеристикой данной совокупности. Если же оценка Vσ достаточно высока (превышает 40%), т.е. наблюдается значительное расхождение между значениями x , то средняя x будет ненадежной характеристикой совокупности и ее практиче-
40
ское применение становится неприемлемым. Сопоставление средних отклонений – квадратического σ и линейного d позволяет сделать вывод об устойчивости индивидуальных значений признака, т.е. об отсутствии среди них «аномальных» вариантов значений. В условиях симметричного и нормального, а также близких к ним распределений между показателями σ и d имеют место равенства
σ ≈ 1,25d , d ≈ 0,8σ , поэтому отношение показателей d и σ может служить индикатором устойчивости данных: если d > 0,8, σ
(21)
то значения признака неустойчивы, в них имеются «аномальные» выбросы. Следовательно, несмотря на визуальное обнаружение и исключение нетипичных единиц наблюдений при выполнении задания 1, некоторые аномалии в первичных данных продолжают сохраняться. В этом случае их следует выявить (например, путем поиска значений, выходящих за границы ( х ± 2σ)) и рассматривать их исключение из выборки. По значениям показателей х и σ можно определить границы диапазонов рассеяния значений признака относительно средней х , т.е. установить, какая доля значений признака попадает в тот или иной диапазон отклонений от х . Согласно вероятностной теореме П. Л. Чебышева, следует ожидать, что независимо от формы распределения 75% значений признака будут находиться в диапазоне ( х ± 2σ), а 89% значений – в диапазоне ( х ± Зσ). В нормально распределенных и близких к ним рядах вероятностные оценки диапазонов рассеяния значений признака таковы: – 68,3% войдет в диапазон ( х ± σ); – 95,4% попадет в диапазон ( х ± 2σ); (22) – 99,7% появится в диапазоне ( х ± Зσ). Соотношение (22) известно как правило «трех сигм». Для выборочной совокупности значения х и σn рассчитаны и являются точными, поэтому, основываясь на правиле «трех сигм», можно точно оценить границы всех трех диапазонов рассеяния признака и определить, сколько значений xi попадает в каждый из диапазонов. В случае генеральной совокупности точно известна только величина σn, а для средней х рассчитаны лишь предельные ошибки выборки . Поэтому для генеральной совокупности оценки рассеяния значений признака по трем диапазонам являются прогнозными и обычно задаются в форме (22) с конкретным числовым значением параметра σn. Учитывая правило «трех сигм», в статистической практике величину
41
Зσ считают в условиях нормального и близких к нему распределений максимально допустимой ошибкой наблюдения и отбрасывают результаты наблюдений, для которых |xi – х | >Зσ.
(23)
Для нормального распределения справедливо равенство
R = 6σ.
(23)
В условиях близости распределения единиц генеральной совокупности к нормальному это соотношение используется для прогнозной оценки размаха вариации признака в генеральной совокупности. 4.2 Анализ типа закономерности распределения
При изучении социально-экономических явлений часто возникает эмпирическое распределение, хотя и не отвечающее строго нормальному закону, но имеющее с ним сходство, обусловленное тем, что крайние значения признака (близкие к хmaxи хmin) встречаются много реже, чем серединные. (Таков, например, характер распределения признаков в однородных совокупностях). Поэтому сопоставление эмпирического распределения с нормальным важно для выяснения степени и характера расхождения между ними. Строя график распределения, прежде всего пытаются выяснить, насколько сильно нарушено предположение о нормальности. Если эти нарушения невелики, то полученные выводы о статистических свойствах совокупности можно считать достаточно надежными. В противном случае возникает вопрос о целесообразности применения статистических методов, работающих в условиях нормального распределения, и замене их на методы, не чувствительные к распределению данных и устойчивые к различным отклонениям (так называемые робастные методы). Возможность отнесения кривой распределения эмпирических данных к типу кривых нормального распределения устанавливается путем анализа формы гистограммы ряда распределения с учетом оценок показателей особенностей формы распределения – коэффициентов асимметрии и эксцесса Коэффициенты асимметрии Аs и Аsn характеризуют несимметричность распределения, а коэффициент эксцесса Еk – частоту появления значений, удаленных от среднего. При анализе формы гистограммы прежде всего следует оценить распределение вариантов значений признака по интервалам (группам). Если на гистограмме четко прослеживаются два-три колебания частот вариантов (рис. 12), это говорит о том, что значения признака концентрируются сразу в нескольких интервалах, и, следовательно, распределение не является однородным. Если гистограмма имеет одновершинную форму, есть основания предполагать, что выборка является однородной по данному признаку. Вместе с тем, следует иметь и виду, что при незначительном объеме выборки (n < 50) слишком углубленный анализ гистограммы может привести к невер-
42
ным выводам, поскольку слабо выраженные «горбики и ямы» частот могут быть обусловлены не основными факторами, определяющими распределение единиц по группам, а просто случайными отклонениями вариантов от х .
–2,50 -0,75 1,09 . 2,94 4,79 10,89 27,56 36,73
0,05
9,22
Рис. 12 Примеры гистограмм с длинными «хвостами» и резкой асимметричностью
Установив по виду диаграммы однородность совокупности, для дальнейшего анализа формы распределения используются описательные параметры выборки – показатели центра распределения ( х , Мо, Ме), вариации ( δ ), особенностей формы распределения (Аsn, Аs, Ek), позволяющие оценить близость эмпирических данных к нормальной форме распределения. Нормальное распределение является симметричным, и для него выполняются соотношения:
х = Мо = Ме, Аs = 0, Аsn = 0, R = 6 δ . Нарушение этих соотношений свидетельствует о наличии асимметрии распределения. Распределение с небольшой или умеренной асимметрией в большинстве случаев по своему типу относится к нормальному. Нарушение равенства Еk = говорит о достаточно частом появлении крайних значений признака. Таким образом, если гистограмма приблизительно симметрична, ее «хвосты» не очень длинны (не больше 5% вариантов лежат за пределами интервала [ х ± 2 δ ], то она представляет распределение, близкое к нормальному. При резко асимметричной гистограмме (рис. 12) более удобной характеристикой «центра» распределения является медиана Ме. Она более устойчива к резким выбросам данных, чем среднее х , что позволяет использовать ее при работе с распределениями, имеющими «хвосты». В этом случае для измерения вариации признака применяются коэффициент учитывающий свойство медианы: Ме VMe = , х а также квартильное отклонение
43
Q3 − Q1 . 2 Показатель Q рекомендуется и для оценки вариации в интервальных рядах с открытыми интервалами, когда показатель σ может быть исчислен лишь приближенно. Если распределение единиц выборочной совокупности близко к нормальному, выборка является репрезентативной (значение показателей σ 2N и σ2n расходятся незначительно) и при этом коэффициенты АsN, ЕkN указывают на небольшую или умеренную величину асимметрии и эксцесса соответственно, то есть основание полагать, что распределение единиц генеральной совокупности по изучаемому признаку будет близко к нормальному. Q =
4.3.Рекомендации к анализу статистической совокупности
Ниже изложены рекомендации, которыми следует руководствоваться на заключительном этапе лабораторной работы при анализе полученных обобщающих показателей и подготовке отчета с выводами по результатам работы.
Анализ выборочной совокупности Задача 1. Указать количество аномальных единиц наблюдения. Задача 2. Рассчитанные выборочные показатели представлены в двух таблицах – таблицы 3 и 5. На основе этих таблиц необходимо сформировать единую таблицу значений выборочных показателей, перечисленных в условии задачи 2, таблицы 8 с заголовком «Описательные статистики выборочной совокупности». Задача 3. Для ответа на вопросы 3,а–3,г следует воспользоваться теоретическими положениями, изложенными в методических указаниях к заключительному этапу в разделе «Анализ обобщающих показателей описательной статистики» (п. 4.1). При ответе на вопрос 3,в в случае обнаружения неустойчивых данных возможные аномалии следует выявить и указать на то, что их следует исключить из выборки. При ответе на вопрос 3,г необходимо сформировать таблицу 17 следующего формата (с конкретными числовыми значениями границ диапазонов в отчете под порядковым номером 9).
Таблица 17 Распределение значений признака по диапазонам рассеяния признака относительно х Количество значений хi, находящихся в диапазоне Первый признак Второй признак Первый признак Второй признак Границы диапазонов
х – σn ≤ xi ≤ х + σn
44
х – 2σn ≤ xi ≤ х +2σn х – 3σn ≤ xi ≤ х +3σn На основе данных табл. 17 определить процентное соотношение рассеяния значений признака по трем диапазонам и сопоставить его с ожидаемым по правилу «трех сигм». Задача 4. Для ответа на вопросы 4,а–4,г необходимо воспользоваться таблицей 8 и сравнить величины показателей для двух признаков. Отвечая на вопрос 4,в, следует обратиться разделу «Анализ обобщающих показателей описательной статистики» методических указаний к Заключительному этапу. Задача 5. При построении интервального вариационного ряда распределения единиц совокупности по признаку Среднегодовая стоимость основных производственных фондов необходимо воспользоваться теоретическими положениями, изложенными в методических указаниях к заключительному этапу в разделе «Анализ типа закономерности распределения». Для полученного интервального ряда значение моды Mo рассчитывается по формуле Mo = x Mo + i
( f Mo
( f Mo − f Mo −1 ) − f Mo −1 ) + ( f Mo − f Mo +1 )
где хМо – нижняя граница модального интервала; i – величина модального интервала; fMo – частота модального интервала; fM – 1 – частота интервала, предшествующего модальному; fMo + 1 – частота интервала, следующего за модальным. Полученные значения Мо следует сравнить со значениями моды из таблицы 8. При наличии расхождений между ними объяснить причины этих расхождений. Анализ генеральной совокупности Задача 1. Генеральные показатели σN, σ 2N , As, Ek рассчитаны с помощью инструмента Описательная статистика, и их значения приведены в таблицы 8. Необходимо сформировать для них отдельную таблицу (таблица 10) с заголовком «Описательные статистики генеральной совокупности». Установить степень расхождения между σ 2n и σ 2N можно по формуле (16) к заданию 2. Прогнозные оценки размаха вариации RN рассчитываются по формуле (24) из раздела «Анализ обобщающих показателей описательной статистики» методических указаний к заключительному этапу. Для каждого признака прогнозное значение RN следует сравнить с Rn. Задача 2. Средние ошибки выборки рассчитаны и приведены в таблице 8 (параметр Стандартная ошибка). Для ответа на вопрос 2,а их следует выбрать их этой таблицы.
45
Оценки предельных ошибок выборки имеются в таблицах 8, 9, 10. На основе этих оценок и формулы (15) необходимо сформировать таблице (в работе порядковый номер таблицы 11) следующего формата. Таблица 18 Предельные ошибки выборки и ожидаемые границы для генеральных средних Предельные ошибки выборки
Ожидаемые границы для средних х
ДовериКоэффициент тельная доверия t для первого для второго для первого вероятность признака признака признака
для второго признака
0,683 0,954
1 2
≤х≤ ≤х≤
≤х≤ ≤х≤
0,997
3
≤х≤
≤х≤
Задача 3. Для заключения о степени близости распределения единиц генеральной совокупности к нормальной форме следует обратиться разделу «Анализ типа закономерности распределения» методических указаний к Заключительному этапу. Значения коэффициентов асимметрии As и эксцесса Ek имеются в табл. 10. 4.4 Отчетность по работе
По результатам выполнения лабораторной работы студент представляет отчет. Отчет должен содержать: – результативные таблицы с рассчитанными обобщающими показателями; – рисунки статистических графиков; – заключения о статистических свойствах изучаемой совокупности, сделанные на основе анализа таблиц и графиков; – экономическую интерпретацию полученных статистических характеристик применительно к изучаемой совокупности предприятий. Материалы отчета располагаются в следующем порядке: 1. Титульный лист (образец дан в приложении 1, электронная копия – в файле Формат отчета.doc). 2. Постановка задачи статистического исследования, включая исходные данные варианта. 3. Распечатка рабочего файла с результативными таблицами и графиками (при копировании таблиц из Excel в Word следует предварительно снять цветную заливку заголовков таблиц Excel). 4. Выводы о статистических свойствах изучаемой совокупности, сделанные на заключительном этапе работы на основе анализа полученных обобщающих показателей и статистических графиков.
46
Выводы излагаются в текстовой форме в порядке, соответствующем перечню восьми задач и сопровождаются ссылками на соответствующие результативные таблицы и графики. 5. Экономическая интерпретация результатов статистического исследования предприятий. Подготовка отчета производится вне рамок времени, отведенного на выполнение лабораторной работы. Отчет сдается преподавателю, ведущему дисциплину. Студент, не сдавший отчет по лабораторной работе, считается не выполнившим учебный план и к экзамену по статистике не допускается
СПИСОК ЛИТЕРАТУРЫ 1. Годин, А. М. Статистика : учебник / А. М. Годин. – М. : Издательско-торговая корпорация «Дашков и К», 2007. – 464 с. 2. Громыко, Ю. Л. Г. Теория статистики : учебник / Ю. Л. Громыко. – М. : ИНФРА-М, 2005. 3. Елисеева, И. И. Юзбашев М.М. Общая теория статистики : учебник / И. И. Елисеева ; под ред. И. И. Елисеевой. – 5-е изд., перераб. и доп. – М. : Финансы и статистика, 2004. 4. Ефримова, М. Р. Общая теория статистики : учебник / М. Р. Ефримова, Е. В. Петрова, В. Н. Румянцев. – М. : ИНФРА-М, 2004. 5. Козлов, А. Ю. Статистические функции MS Excel в экономикостатистических расчетах : учеб. пособие для вузов / А. Ю. Козлов, В. С. Мхитарян, В. Ф. Шишов ; под ред. проф. В. С. Мхитаряна. – М. : ЮНИТИ-ДАНА, 2003. 6. Козлов, А. Ю., Пакет анализа MS Excel в экономикостатистических расчетах : учеб. пособие для вузов / А. Ю. Козлов, В. Ф. Шишов ; под ред. проф. В. С. Мхитаряна. – М. : ЮНИТИ-ДАНА, 2003. 7. Макарова, Н. В. Статистика в Excel : учеб. пособие / Н. В. Макарова, В. Я. Трофимец. – М. : Финансы и статистика, 2002. 8. Общая теория статистики: Статистическая методология в изучении коммерческой деятельности : учебник / под ред. О. Э. Башиной, А. А. Спирина. – М. : Финансы и статистика, 2005. 9. Практикум по статистике : учеб. пособие для вузов / под ред. В. М. Симчеры ; ВЗВЭИ. – М. : Финстатинформ, 1999. 10. Салин, В. Н. Макроэкономическая статистика : учеб. пособие / В. Н. Салин, В А. Медведева, С. И. Кудряшова, Е. П. Шпаковская. – М. : Дело, 2000. 11. Статистика : учебник / под ред. И. И. Елисеевой. – М. : Велби,
47
Проспект, 2002. 12. Теория статистики : учебник / под ред. Р. А. Шмойловой. – М. : Финансы и статистика, 2004.
48
ПРИЛОЖЕНИЕ 1 ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ Государственное образовательное учреждение высшего профессионального образования «ПЕНЗЕНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ» ИНСТИТУТ ЭКОНОМИКИ И УПРАВЛЕНИЯ Кафедра бухгалтерского учета, налогообложения и аудита
Отчет о результатах выполнения компьютерной лабораторной работы № 1 «Анализ статистической совокупности в программе MS Excel» Вариант №___
Выполнил: Иванов Н. П., студент группы _______ Проверил: к.э.н., доцент Акжигитова А. Н.
Пенза 200_
49
ПРИЛОЖЕНИЕ 2 Таблица П1 Базовый вариант исходных данных Номер предприятия 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
Среднегодовая стоимость основных производственных фондов, млн руб. 98 117 121 128 80 135 139 102 127 148 163 50 122 135 156 180 132 147 115 149 167 112 87 152 135 125 95 131 153 145 180 104
50
Выпуск продукции, млн.руб. 110 101 120 81 80 114 161 90 178 107 125 108 133 124 201 161 151 169 149 180 148 162 166 168 224 171 191 220 114 133 53 224
Таблица П2 Аномальные едмницы наблюдения Номер предприятия
Среднегодовая стоимость основных производственных фондов, млн.руб.
Выпуск продукции, млн.руб.
Таблица П3 Описательные статистики По столбцу «Среднегодовая стоимость По столбцу «Выпуск продукции», основных производственных фондов», млн руб. млн руб. Столбец 1 Столбец 2 Среднее Стандартная ошибка Медиана Мода Стандартное отклоне ние Дисперсия выборки Эксцесс Асимметричность Интервал Минимум Максимум Сумма Счет Уровень надежности (95,4%)
Среднее Стандартная ошибка Медиана Мода Стандартное отклоне ние Дисперсия выборки Эксцесс Асимметричность Интервал Минимум Максимум Сумма Счет Уровень надежности (95,4%)
Таблица П4,а Предельные ошибки выборки По столбцу «Среднегодовая стоимость основ- По столбцу «Выпуск продукции», ных производственных фондов», млн руб. млн руб. Столбец 1
Столбец 2
Уровень надежности (68,3%)
Уровень надежности (68,3%)
51
Таблица П4,б Предельные ошибки выборки По столбцу «Среднегодовая стоимость По столбцу «Выпуск продукции», основных производственных фондов», млн руб. млн руб. Столбец 1
Столбец 2
Уровень надежности (99,7%)
Уровень надежности (99,7%)
Таблица П5 Выборочные показатели вариации и асимметрии По столбцу «Среднегодовая стоимость По столбцу «Выпуск продукции», основных производственных фондов», млн руб. млн руб. Стандартное отклонение
Стандартное отклонение
Дисперсия Среднее линейное отклонение
Дисперсия Среднее линейное отклонение
Коэффициент вариации, %
Коэффициент вариации, %
Коэффициент асимметрии
Коэффициент асимметрии
Таблица П6 Карман
Частота
Таблица 7 Интервальный ряд распределения предприятий по стоимости основных производственных фондов Карман
Частота
Интегральный %
52
53
АНАЛИЗ СТАТИСТИЧЕСКОЙ СОВОКУПНОСТИ В ПРОГРАММЕ MS EXCEL Методические указания и задание к лабораторной работе № 1
Редактор Ю. С. Жидкова Технический редактор А. Г. Темникова
Подписано в печать 10.08.07. Формат 60×841/16. Усл. печ. л. 3,02. Заказ № 162. Тираж 100. Информационно-издательский центр ПГУ Пенза, Красная, 40, т.: 56-47-33
54
55
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ Государственное образовательное учреждение высшего профессионального образования «ПЕНЗЕНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ» Кафедра бухгалтерского учета, налогообложения и аудита
АНАЛИЗ СТАТИСТИЧЕСКОЙ СОВОКУПНОСТИ В ПРОГРАММЕ MS EXCEL Методические указания и задание к лабораторной работе № 1
ПЕНЗА ИИЦ ПГУ 2007
56
57