Springer-Lehrbuch
Karl Mosler
•
Friedrich Schmid
Beschreibende Statistik and Wirtschaftsstatistik Dritte Auflage
M...
54 downloads
1402 Views
29MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Springer-Lehrbuch
Karl Mosler
•
Friedrich Schmid
Beschreibende Statistik and Wirtschaftsstatistik Dritte Auflage
Mit 40 Abbildungen and 2 Tabellen
I~L Springer
Prof. Dr . Karl Mosler Prof. Dr . Friedrich Schmid Universitat zu Koln Seminar fur Wirtschafts- and Sozialstatistik Albertus-Magnus-Platz 50923 Koln E -Mail: mosler@statistik .uni-koeln .d e E -Mail: schmid@wiso .uni-koeln.de
Auf dem Umschlag sind abgebildet (von links) : Louis Etienne Laspeyres (1834-1913) Irving Fisher (1867-1947) Corrado Gini(1884-1965) John W Tukey(1915-2000)
Bibliografische Information Der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet these Publikation in der Deutschen Nationalbibliografie ; detaillierte bibliografische Daten sind im Internet fiber h ttp://dnb.ddb.de abrufbar . ISSN 0937-7433
ISBN-10 3-540-37458-2 3 . Auflage Springer Berlin Heidelberg New York ISBN-13 978-3-540-37459-6 3 . Auflage Springer Berlin Heidelberg New York ISBN 3-540-22815-2 2 . Auflage Springer Berlin Heidelberg New York Dieses Werk ist urheberrechtlich geschiitzt. Die dadurch begriindeten Rechte, insbesondere die der Ubersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen and Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfaltigung auf anderen Wegen and der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten . Eine Vervielfaltigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9 . September 1965 in der jeweils geltenden Fassung zulassig. Sie ist grundsatzlich vergiitungspflichtig . Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes . Springer ist ein Unternehmen von Springer Science+Business Media s pringer .de ©Springer Berlin Heidelberg 2003, 2004, 2006 Printed in Germany
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nichtzu derAnnahme,dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten waren and daher von jedermann benutzt werden durften . Umschlaggestaltung: WMXDesign GmbH, Haberstraie 3,69126 Heidelberg Production : LE-TEX, Jelonek, Schmidt & Vockler GbR, Leipzig SPIN 11819288
Gedruckt auf saurefreiem Papier -154/3100 - 5 4 3 21 0
Vorwort
Das vorliegende Lehrbuch gibt eine Einfiihrung in die beschreibende Statistik and in Teile der Wirtschaftsstatistik . Es ist aus Vorlesungen entstanden, die die Autoren regelmaflig an der Wirtschafts- and Sozialwissenschaftlichen Fakultat der Universitat zu Koln halten and umfasst im Wesentlichen den Stoff der dortigen Diplom-Vorprufung im Bereich,,Deskriptive Statistik and Wirtschaftsstatistik" . Eine Einfiihrung in die Wahrscheinlichkeitsrechnung and die schlieflende Statistik bietet unser Lehrbuch ,Wahrscheinlichkeitsrechnung and schlieflende Statistik" . Beide Lehrbiicher beschranken sich auf solche statistische Methoden, die vornehmlich in den Wirtschafts- and Sozialwissenschaften benotigt werden . Der praktische Einsatz statistischer Verfahren ist ohne Computer nicht vorstellbar . Auch im Grundstudium der Wirtschaftswissenschaften sollen die Studierenden die Moglichkeiten des Computereinsatzes kennenlernen and an einschlagige statistische Software herangefuhrt werden . Hierbei beschranken wir uns auf den Einsatz des Programms Excel von Microsoft, das zwar nur begrenzte and etwas umstandliche Moglichkeiten der Auswertung bietet, aber den Studierenden problemlos zur Verfugung steht and sick deshalb am besten fur Anfangerubungen eignet . Im Anschluss an die Kapitel 2, 3, 5 and 6 werden Hinweise zur Durchfuhrung der wichtigsten deskriptiv-statistischen Verfahren am Computer mit Excel gegeben . Datensatze zum Einiiben dieser Verfahren findet man auf der Internetseite w ww .uni-koeln .de/wiso-fak/wisostatsem /buecher /beschr stat . Auf these Internetseite werden auch Ubungsaufgaben and etwaige Erganzungen and Korrekturen zu diesem Lehrbuch gestellt . Das Literaturverzeichnis am Ende des Buches umfasst ausgewahlte Lehrbiicher der beschreibenden Statistik and der Wirtschaftsstatistik, interaktive v
vi
VORWORT
Lernprogramme sowie Einfiihrungen in statistische Software . Ferner sind dort einschlagige Aufgabensammlungen and weiteres Studienmaterial aufgefuhrt . Auf spezielle erganzende Literatur wird in den einzelnen Kapiteln hingewiesen . Bei der Erstellung des Buchmanuskripts haben uns die wissenschaftlichen Mitarbeiter and studentischen Hilfskrafte des Seminars fur Wirtschafts- and Sozialstatistik der Universiti t zu Ko1n tatkraftig unterstiitzt . Genannt seien die Herren Dr . Eckard Grohn, Jadran Dobric, Jens Kahlenberg, Axel Schmidt and Florian Wessels . Sie haben das Manuskript mehrfach gelesen and zahlreiche Korrekturen and Verbesserungsvorschlage beigesteuert . Frau Katharina Cramer hat die Excel-Anleitungen entwickelt, Frau Monia Truetsch die meisten Abbildungen hergestellt . Ihnen alien sei herzlich gedankt . Koln, im Dezember 2002
Karl Mosler Friedrich Schmid
Vorwort zur zweiten Auflage Fur die zweite Auflage wurden die Abschnitte zum Preisindex fur die Lebenshaltung and zu den europaischen Verbraucherpreisindizes neu bearbeitet and den jiingsten Entwicklungen der amtlichen Statistik angepasst . Im gesamten Text wurden zahlreiche kleinere Korrekturen and Aktualisierungen vorgenommen . Koln, im Juli 2004
Karl Mosler Friedrich Schmid
Vorwort zur dritten Auflage Die dritte Auflage entspricht im wesentlichen den vorigen beiden Auflagen . Sie enthalt an vielen Stellen aktualisierte Daten and zahlreiche kleinere Verbesserungen and Erganzungen . Koln, im Juni 2006
Karl Mosler Friedrich Schmid
Inhaltsverzeichnis 0
Was ist Statistik?
1
0 .1 Beispiele
1
0 .2
Beschreibende Statistik and schlief3ende Statistik 4
1 Merkmale and Daten 1 .1
7
Grundgesamtheiten
1 .2 Merkmale
7 8
1 .3
Daten and ihre Erhebung
1 .4
Regelmaf?ige Erhebungen von Haushaltsdaten 17
1 .5
Amtliche and nichtamtliche Statistik
2 Auswertung von eindimensionalen Daten
13
19 25
2 .1
Beliebig skalierte Daten
25
2 .2
Mindestens ordinalskalierte Daten
28
2 .3
Metrisch skalierte Daten
33
2 .3 .1
Lagemessung
34
2 .3 .2
Weitere Mittelwerte
39
2 .4
2 .3 .3 Streuungsmessung
42
2 .3 .4
Additionssatze fur arithmetische Mittel and Varianzen
49
2 .3 .5
Stetig klassierte Daten
52
2 .3 .6
Schiefemessung
60
Anhang zu Kapitel 2 : Verwendung von Excel 65 vii
viii
INHALTSVERZEICHNIS
2 .4 .1
Einzeldaten
65
2 .4 .2
Diskret klassierte Daten
69
2 .4 .3
Stetig klassierte Daten
72
3 Konzentrations- and Disparitatsmessung
77
3 .1 Disparitat and Konzentration
77
3 .2
79
3 .3
3 .4
3 .5
Konzentrationsmessung 3 .2 .1
Konzentrationsraten and Konzentrationskurve
3 .2 .2
Konzentrationsindizes
. . . .
80 85
Disparitatsmessung
88
3 .3 .1
Lorenzkurve
88
3 .3 .2
Disparitatsindizes
91
3 .3 .3
Einkommensungleichheit and Steuertarif 96
3 .3 .4
Disparitat and Konzentration bei klassierten Daten . .
Beziehungen zwischen Konzentration and Disparitat
. . . .
97 102
3 .4 .1
Konzentrationskurve and Lorenzkurve 103
3 .4 .2
Beziehungen zwischen den Indizes 103
3 .4 .3
Allgemeine Forderungen an die Indizes 105
Anhang zu Kapitel 3 : Verwendung von Excel 108 3 .5 .1
Konzentrationsmessung
108
3 .5 .2
Disparitatsmessung
109
4 Verhaltniszahlen, Messzahlen and Indexzahlen
113
4 .1 Verhaltniszahlen
113
4 .2
118
4 .3
Messzahlen des zeitlichen Vergleichs 4 .2 .1
Umbasierung and Verkettung von Messzahlen 119
4 .2 .2
Zuwachsraten and Zuwachsfaktoren 120
4 .2 .3
Logarithmische Zuwachsraten
123
Indexzahlen
125
4 .3 .1
126
Preisindizes
INHALTSVERZEICHNIS
ix
4 .3 .2
Mengenindizes
130
4 .3 .3
Wertindizes
131
4 .3 .4
Aggregation von Subindizes
133
4 .3 .5
Umbasierung and Verkettung von Indizes
137
4 .3 .6
Formale Indexkriterien (Fisher-Proben)
139
4 .3 .7
Der Verbraucherpreisindex fur Deutschland
. . . .
140
4 .3 .8
Europaische Verbraucherpreisindizes
143
4 .3 .9
Internationaler Preisvergleich (Verbrauchergeldparitaten)
144
5 Auswertung von mehrdimensionalen Daten 5 .1
5 .2
Grundbegriffe
151 151
5 .1 .1
Kontingenztafel and Haufigkeiten 153
5 .1 .2
Bedingte Verteilungen
156
5 .1 .3
Deskriptive Unabhangigkeit
158
5 .1 .4
Arithmetische Mittel and Varianzen 159
5 .1 .5
Hoherdimensionale Daten
162
5 .1 .6
Stetig klassierte mehrdimensionale Daten
165
Zusammenhangsmafle
167
5 .2 .1
Metrische Daten : Korrelationskoeffizient . .
168
5 .2 .2
Ordinale Daten : Rangkorrelationskoeffizient
175
5 .2 .3
Nominale Daten : Kontingenzkoeffizient . . . .
179
Deskriptive Regression
183
5 .3 .1
Regression erster Art
183
5 .3 .2
Regression zweiter Art (Lineare Regression)
187
5 .4
Lineare Mehrfachregression
193
5 .5
Anhang zu Kapitel 5 : Verwendung von Excel
196
5 .5 .1 Zusammenhangsmafle
196
5 .5 .2
Lineare Einfachregression
198
5 .5 .3
Lineare Mehrfachregression
199
5 .3
x 6
INHALTSVERZEICHNIS
Analyse von Zeitreihen
201
6 .1 Beispiele von Zeitreihen
202
6 .2
Komponentenmodelle
202
6 .3
Bestimmung der glatten Komponente
205
6 .3 .1
Linearer Trend
206
6 .3 .2
Exponentieller Trend
211
6 .3 .3
Gleitende Durchschnitte
215
6 .3 .4
Lineare Filter
219
6 .4
Bestimmung der Saisonkomponente
220
6 .5
Exponentielles Glatten
226
6 .6
Zeitreihen in stetiger Zeit
229
6 .7
Anhang zu Kapitel 6 : Verwendung von Excel 233 6 .7 .1
Gleitende Durchschnitte im additiven Modell 233
6 .7 .2
Graphische Darstellung von Zeitreihen 233
6 .7 .3
Bestimmung der Saisonkomponente 234
A Summen- and Produktzeichen
235
B Exponentialfunktion and Logarithmus
239
Literaturverzeichnis
243
Index
249
Kapitel 0
Was ist Statistik? Wirtschaftswissenschaften haben eine empirische Seite : sie beziehen sich auf reale okonomische Sachverhalte . Diese mussen beobachtet and gemessen werden . Beobachtung and Messung des wirtschaftlichen Geschehens and die Sammlung der so gewonnenen Daten sind die Aufgaben der Wirtschaftsstatistik. Die beschreibende Statistik, auch deskriptive Statistik genannt, dient dazu, die Daten unter bestimmten Aspekten zu beschreiben and graphisch darzustellen sowie die in den Daten vorliegende Information auf ihren - fur eine gegebene Fragestellung - wesentlichen Kern zu reduzieren . Die wichtigsten Verfahren der beschreibenden Statistik and einige Elemente der Wirtschaftsstatistik sind Gegenstand dieses Buchs .
0 .1
Beispiele
Wir beginnen mit vier Beispielen, die typische Fragestellungen and Methoden der beschreibenden Statistik beinhalten .
Der Preis eines Konsumguts e
Was kostet ein bestimmtes Gut fur den Konsumenten?
Ein Warentestinstitut testet ein Fernsehgerat . Im Testbericht soil auch fiber den Preis informiert werden . Der Einfachheit halber nehmen wir an, dass das Gerat von nur zehn Geschaften gefuhrt wird, and zwar zu folgenden Preisen in Euro : 1
0 . WAS IST STATISTIK?
2 Geschaft Preis
1 398
2 379
3 458
4 5 398 368
6 7 8 379 394 379
9 10 458 398
Welche Preisinformation soil das Institut dem Verbraucher geben? Den gunstigsten Preis (368 €)? Den haufigsten Preis? Als haufigster Preis kommen sowohl 398 :6 wie 379E in Betracht, die jeweils dreimal beobachtet werden . Oder soil das Institut einen geeignet definierten ,mittleren Preis" angeben, etwa das arithmetische Mittel (400,90E) oder den Median (394 €)? Interessant ist auch die Information, wie weft die Preise streuen, etwa die Spanne zwischen dem hochsten and dem niedrigsten Preis (90€) . Eine Grundaufgabe der beschreibenden Statistik ist die Charakterisierung der Daten durch einige wenige Kennzahlen, auch MaJ zahlen genannt . Im Beispiel tritt an die Stelle vieler einzelner Preise eine einzige Zahl, ihr mittlerer Wert . Er wird evtl . durch ein Mall der Streuung erganzt . Eine weitere Grundaufgabe der beschreibenden Statistik besteht darin, die Daten in Graphiken iibersichtlich and anschaulich darzustellen . Die Verteilung der Preise lasst sich - statt in einer Tabelle wie oben - auch graphisch darstellen . Dafiir gibt es viele Moglichkeiten, etwa diese : I 300
I
I
I
'
I 350
I
I
I
I 400
I
I
I
I
I 450
I
500
Der Verkaufspreis eines Gerats kann Verschiedenes bedeuten : den Preis mit oder ohne Mehrwertsteuer sowie mit oder ohne Handlergarantie . Zu den Aufgaben der beschreibenden Statistik gehort es auch, zu kontrollieren, was die gemessenen Daten wirklich bedeuten, and die Daten um etwa aufgetretene Bedeutungsabweichungen zu bereinigen . Wenn wir davon ausgehen, dass die zehn Geschafte einer grofleren Gesamtheit entstammen, stellt sich das Problem, wie viele Geschafte auszuwahlen sind and nach welchem Verfahren . In der Regel nimmt die Qualitat der Information mit der Zahl der ausgewahlten Einheiten zu, allerdings wachst auch der Aufwand der Datenerhebung . Ein weiteres Problem ist die sinnvolle Auswahl der Beobachtungseinheiten . Mit letzterer befasst sich die Stichprobentheorie, die zur schlieflenden Statistik gehort . Schlieillich ist zu uberlegen, ob es gut ist, alle erhobenen Daten zu verwenden oder besser einige,,aus dem Rahmen fallende" Beobachtungen nicht zu beriicksichtigen . Im Beispiel ware etwa zu prufen, ob die Geschafte, die den vergleichsweise hohen Preis von 458 € verlangen, uberhaupt am Markt relevant sind . Die Erkennung and etwaige Elimination von extremen oder untypischen Beobachtungen, so genannten Ausreifgern, ist ebenfalls eine Aufgabe der Statistik .
0.1.
3
BEISPIELE
Der Anstieg des Preisniveaus • Um wie viel ist das Preisniveau in Deutschland im Monat September gegeniiber dem Vorjahresmonat gestiegen?
Diese Frage ist in der offentlichen Diskussion von grofber Bedeutung . Urn sie zu beantworten, muss der Statistiker klaren, welche Preise gemeint sind and was unter einem „Anstieg der Preise" zu verstehen ist . Wenn es um Tarifverhandlungen geht, sind etwa die Preise relevant, die ein typischer ArbeitnehmerHaushalt fur die tauter seiner Lebenshaltung zahlen muss . In der Rentendiskussion sind hingegen die sich fur einen Rentnerhaushalt ergebenden Preise einschlagig . Den Preisanstieg misst der Statistiker durch einen geeigneten Preisindex, in den die Anderungen der Preise von ublicherweise konsumierten Giltern eingehen . Er muss die Giiter auswahlen and sich fur eine von mehreren Moglichkeiten entscheiden, deren Preisanderungen zu mitteln .
Privater Konsum and Volkseinkommen • In welcher Beziehung steht der gesamtwirtschaftliche Konsum der privaten Haushalte zu ihrem verf'igbaren Einkommen? Welche Anteile des Einkommens werden konsumiert, welche gespart?
Im folgenden Streudiagramm bezeichnet jeder Punkt die Hohe des verfugbaren Haushaltseinkommens YH and des Konsums C in einem bestimmten Jahr .
C
YHv
0 . WAS IST STATISTIK?
4
Ein einfaches Modell fur den Zusammenhang zwischen Konsum and Einkommen liefert Keynes' absolute Einkommenshypothese,
C=a+bYH . Aufgabe des Statistikers ist es, die Grol3en a and b des Modells aus den vorliegenden Daten zu bestimmen . Offenbar gilt die Beziehung nicht exakt (dann mussten alle Punkte auf einer Geraden liegen), sondern nur ungefahr . Weiter muss sich der Statistiker fragen, ob statt des linearen Ansatzes etwa eine andere funktionale Beziehung zu wahlen ist . Ferner muss er die Daten uber den Konsum and das Einkommen in geeigneter Weise erheben and die Geldentwertung uber die Jahre,,herausrechnen", d .h . die Daten deflationieren .
Entwicklung der Arbeitslosigkeit • Ist die Arbeitslosenquote innerhalb der letzten zwei Monate gesunken? Die Zahl der Arbeitslosen and die Arbeitslosenquote werden jeden Monat ermittelt . Es entsteht eine Zeitreihe, die jahrlich ein bestimmtes Grundmuster, die „Saisonfigur", and zusatzliche Fluktuationen aufweist . Die Saisonfigur gibt die Schwankungen der Arbeitslosigkeit wieder, die sich allein durch die Abfolge der Jahreszeiten erklaren ; sie zeigt etwa, um wie viel die Arbeitslosigkeit durch die Fruhjahrsbelebung von Februar auf Marz regelmaEig (im Durchschnitt der Jahre) sinkt . Aufgabe der beschreibenden Statistik ist es unter anderem, die Saisonfigur zu bestimmen and die Zeitreihe um die Einfliisse der Saison zu bereinigen .
0 .2
Beschreibende Statistik and schliet ende Statistik
Statistik als wissenschaftliche Methode wird in beschreibende and schliel3ende Statistik unterteilt . Die schliefbende Statistik (auch : statistische Inferenz) stellt weitere Methoden der Datenanalyse zur Verfiigung, die auf Wahrscheinlichkeitsmodellen beruhen . In der wirtschaftswissenschaftlichen Theorie werden Aussagen uber okonomische Sachverhalte gemacht . Die Gultigkeit solcher Satze ist auf Grund von Beobachtungen der Realitat zu iiberpriifen ; das heifut, die Satze sind als Hypothesen zu testen . Soweit es sich um quantitative Aussagen handelt, sind darin enthaltene unbekannte Parameter zu schatzen .
0 .2 .
BESCHREIBENDE STATISTIK UND SCHLIESSENDE STATISTIK
5
Ein Schatzproblem tritt im obigen Beispiel bei der Bestimmung des Zusam-
menhangs zwischen Konsum and Einkommen auf : Hier sind Schatzwerte fur die beiden unbekannten Parameter a and
b zu bestimmen . Ein Testproblem
stellt sich mit der Frage, ob der Konsum uberhaupt vom Volkseinkommen abhangt, d .h . ob b ~4 0 ist oder nicht .
Schatzen and Testen sind Aufgaben der schlief3enden Statistik ; sie baut auf der Wahrscheinlichkeitsrechnung auf . Aber um statistische Schlusse aus
den Daten ziehen zu konnen, mussen Beobachtungen zunachst beschrieben and gemessen werden . In diesem Sinn geht die beschreibende Statistik der schlieflenden Statistik voraus .
Statistische Methoden sind universell ; sie werden in fast alien Wissenschaften eingesetzt . Wir beschranken uns in diesem Lehrbuch jedoch auf solche Metho-
den, die vornehmlich in den Wirtschafts- and Sozialwissenschaften benotigt werden .
Die folgende Abbildung beschreibt schernatisch das Zusammenwirken von beschreibender and schlief3ender Statistik bei der Analyse okonomischer Sach-
verhalte . Die rechte Halfte, das Messen and Beschreiben von empirisch gewon-
nenen Daten, ist Sache der beschreibenden Statistik, wahrend in der linken Halfte mit Methoden der schliefbenden Statistik der Bezug zur okonomischen Theorie hergestellt wird .
Theorie
I
Testen
Schatzen
Empirie
Messen
Beschreiben
Wir schlieflen dieses einleitende Kapitel mit einer kurzen Definition von Statistik .
Statistik ist die methodische Auswertung von Daten, insbesondere
•
deren Erhebung and Bereinigung,
•
deren graphische Darstellung,
•
deren Charakterisieren durch Kennzahlen,
•
das Schatzen unbekannter Parameter,
0 . WAS IST STATISTIK?
6
• das Testen von Hypothesen, • die Prognose kunftiger Entwicklungen . Die ersten drei Aufgaben gehoren zur beschreibenden, die letzten drei hauptsachlich zur schlieflenden Statistik .
Erganzende Literatur zu Kapitel 0 Die meisten Lehrbiicher der beschreibenden Statistik enthalten Einfuhrungen in deren typische Fragestellungen and Anwendungsgebiete . Wir verweisen insbesondere auf Fahrmeir et al . (2003) . Empfehlenswert ist auch Kramer (2001) .
Kapitel 1
Merkmale and Daten In diesem Kapitel werden zunachst einige fur die gesamte beschreibende Statistik grundlegende Begriffe eingefiihrt and an Beispielen illustriert . Die Abschnitte 1 .1 and 1 .2 behandeln Grundgesamtheiten and Merkmale . Abschnitt 1 .3 gibt einen Uberblick fiber Methoden der Datenerhebung . Im Abschnitt 1 .4 werden dann vier wichtige, in Deutschland regelmafbig durchgefiihrte Erhebungen von Wirtschafts- and Bevolkerungsdaten vorgestellt . Im Abschnitt 1 .5 findet sich eine knappe Zusammenstellung von Institutionen der amtlichen and nichtamtlichen Statistik sowie einige Hinweise auf Veroffentlichungen dieser Institutionen and weitere Quellen von Daten .
1 .1
Grundgesamtheiten
Die Grundgesamtheit ist die Gesamtheit der Einheiten, fiber die eine statistische Untersuchung etwas aussagen soil . Sie ist eine Menge (im Sinne der Mengenlehre) and wird mit G bezeichnet . Ihre Elemente heifen Untersuchungseinheiten, statistische Einheiten oder Merkmalstrager . Wenn G aus n Elementen besteht, (GI = n, schreiben wir G = { ei, e2, . . ., e n } . Die Grundgesamtheit einer statistischen Untersuchung muss in sachlicher, raumlicher and zeitlicher Hinsicht genau abgegrenzt sein .
Beispiele fiir Grundgesamtheiten :
• Personen mit deutscher Staatsangehorigkeit am 1 .1 .2003 • Handwerksbetriebe in Koln am 1 .1 .2003 7
8
1 . MERKMALE UND DATEN
• Verkehrsunfalle in Deutschland im Jahr 2002 • Geburten in Deutschland im Jahr 2002 Eine Grundgesamtheit (oder einen Teil davon) bezeichnet man auch als statistische Masse . Man spricht von einer Bestandsmasse, wenn sie durch Angabe eines Zeitpunktes abgegrenzt wird .
Beispiele fur Bestandsmassen :
• Lagerbestand eines Unternehmens am 31 .12 .2002 • Studierende, die zu Beginn des WS 2002/03 an der Universitat zu Koln immatrikuliert sind
Eine Bewegungsmasse liegt vor, wenn sie durch Angabe eines Zeitraumes abgegrenzt wird .
Beispiele fur Bewegungsmassen :
• in Deutschland im Jahr 2002 produzierte Kraftfahrzeuge • Umziige von Haushalten innerhalb Deutschlands im Jahr 2002 Bestands- and Bewegungsmassen hangen offensichtlich zusammen, denn zu jeder Bestandsmasse gibt es eine zugehorige Bewegungsmasse, namlich die Bestandsveranderung .
Beispiel: Haushalte in Deutschland am 1 .1 .2002 Zuziige, Neugriindungen etc . im Jahr 2002 Wegziige, Auflosungen etc . im Jahr 2002 Haushalte in Deutschland am 1 .1 .2003
Bestandsmasse Bewegungsmasse Bewegungsmasse Bestandsmasse
Allgemein ergibt sich die Moglichkeit, eine Bestandsmasse durch die zugehorige Bewegungsmasse fortzuschreiben .
1 .2
Merkmale
Unter einem Merkmal versteht man eine Eigenschaft der Merkmalstrager, die statistisch untersucht wird . Ein Merkmal hat verschiedene mogliche Merkmalsauspragungen . Merkmale notieren wir mit X, Y oder ahnlich .
1.2.
MERKMALE
9
Beispiele :
Grundgesamtheit Private Haushalte in Deutschland am 1 .1 .2003 Handwerksbetriebe in Ko1n am 1 .1 .2003 Studierende zu Beginn des WS 2002/03 an der Universitat zu Koln
Merkmal Verfugbares monatliches Haushaltseinkommen Anzahl der Beschaftigten Geschlecht
Die statistischen Einheiten einer Grundgesamtheit werden haufig als die Ele-
mente einer grog eren Gesamtheit definiert, die in bestimmten Merkmalen bestimmte Werte aufweisen . Beispiele : Private Arbeitnehmerhaushalte in Deutschland am 1 .1 .2003, Handwerksbetriebe mit mindestens fiinf Beschaftigten in Koln am 1 .1 .2003, auslandische Studierende zu Beginn des WS 2002/03 an der Universitat zu Koln .
Operationalisierung eines Begriffs Die zu untersuchende okonomische GrUe ist zunachst als abstrakter Begriff gegeben, der in der Wirtschaftstheorie oder den Anwendungen eine bestimmte Bedeutung besitzt . Vor der statistischen Untersuchung ist der Begriff so zu prazisieren and eventuell um eine Vorschrift zu erganzen, dass jeder statistischen Einheit eine Auspragung der GrUe konkret zugeordnet werden kann . Dies nennt man die Operationalisierung der okonomischen Grofbe . Das Gleiche gilt fur die Bestimmung einer Grundgesamtheit mit Hilfe von Merkmalen . Dariiber hinaus ist manche okonomische GrUe faktisch oder auch prinzipiell nicht als Merkmal beobachtbar (z .B . das Bildungsniveau einer Person, die Wohlfahrt eines Haushalts) . Sie muss fur die statistische Untersuchung durch einen verwandten Begriff and seine Operationalisierung ersetzt werden . Haufig sind mehrere Operationalisierungen einer okonomischen GrUe moglich, die sich in ihrer Bedeutung unterscheiden . Das Ergebnis einer statistischen Untersuchung kann wesentlich von der gewahlten Operationalisierung abhangen! In der arntlichen Statistik werden die meisten Grofben durch Bezug auf gesetzliche Bestimmungen operationalisiert .
10
1 . MERKMALE UND DATEN
Beispiele : Begriff
Erwerbstatigkeit in Deutschland Gewerbliches Preisniveau
Auslandischer Studierender Bildung einer Person Wohlfahrt eines privaten Haushalts
Mogliche Operationalisierung Zahl der Erwerbspersonen i
Index der Erzeugerpreise oder Preisindex fur den Wareneingang (siehe Statistisches Jahrbuch) keine deutsche Staatsangehorigkeit oder kein deutsches Abitur Zahl der absolvierten Schul- and Hochschuljahre Verfiigbares Haushaltseinkommen
Diskrete Merkmale, stetige Merkmale Merkmale lassen sich nach verschiedenen Gesichtspunkten einteilen . Ein Merkmal heif?t diskret, falls es nur endlich viele mogliche Auspragungen hat . (Zugelassen ist auch eine Menge von Auspragungen, die den natiirlichen Zahlen entspricht .)
Beispiele : Handelsklasse eines Nahrungsmittels, Automarke, Kinderzahl, Anzahl der Fachsemester eines Studierenden . Stetig nennt man ein Merkmal, well seine Auspragungen reelle Zahlen sind and die Menge aller Auspragungen aus einem oder mehreren Intervallen besteht . Ein stetiges Merkmal wird auch als kontinuierlich bezeichnet . In der praktischen Anwendung nimmt ein stetiges Merkmal nur endlich viele Auspragungen an, da man nicht beliebig genau messen kann . Ein diskretes Merkmal, das sehr viele, dicht beieinanderliegende Auspragungen aufweist, wird wie ein stetiges Merkmal behandelt and als quasistetig bezeichnet .
Beispiele: .Korpergewicht ist ein stetiges Merkmal, Einkommen and Vermogen sind quasistetige Merkmale . 'In der deutschen amtlichen Statistik gehoren zu den Erwerbspersonen alle Einwohner der Bundesrepublik Deutschland, die in einem Arbeitsverhaltnis stehen oder ein solches suchen (einschliei?lich der Soldaten and mithelfenden Familienangehorigen) oder selbstandig ein Gewerbe oder eine Landwirtschaft betreiben oder einen freien Beruf ausiiben, unabhangig vom Umfang, von der Art, der Dauer and der Regelma1 igkeit der Tatigkeit and unabhangig von der Bedeutung des Ertrags dieser Tatigkeit fur ihren Lebensunterhalt .
1 .2 .
MERKMALE
11
Merkmalswerte, Skalenniveaus Ein Merkmal heif?t qualitativ, wenn seine Auspragungen durch verbale Ausdriicke gegeben sind . Demgegenuber wird ein Merkmal quantitativ genannt, wenn die Merkmalsauspragungen Zahlen sind . Beispiele : Qualitativ sind die Merkmale Beruf and Geschlecht, quantitativ die Merkmale Alter, Einkommen and Klausurnote (wenn die Note als Zahl ausgedriickt wird) .
Fur die statistische Analyse werden den Auspragungen eines qualitativen Merkmals Zahlen zugeordnet . Diese Zahlen werden, ebenso wie die Auspragungen eines quantitativen Merkmals, als Merkmalswerte bezeichnet . Sie werden im Folgenden mit kleinen griechischen Buchstaben bezeichnet, etwa 6, b etc . Will man statistische Berechnungen auf Grund von beobachteten Merkmalswerten durchfiihren, muss man sich vorher klarmachen, welche Rechenoperationen bezogen auf das, was gemessen wird, uberhaupt einen Sinn machen . Die Zuordnung von Zahlen (= Merkmalswerten) zu den Auspragungen eines Merkmals ist eine Funktion, die wir als Skala (auch: Messskala) bezeichnen . Je nachdem, wie frei man bei dieser Zuordnung ist, wird zwischen verschiedenen Skalenniveaus unterschieden .
Nominalskala Den einzelnen Auspragungen werden lediglich verschiedene Zahlen (,,Codes") zugeordnet . Auger class sie verschieden sind, haben diese Zahlen keine Bedeutung . Insbesondere macht es keinen Sinn, sie zu addieren, multiplizieren oder dividieren . (Eine Ausnahme bilden die binaren Merkmale, die mit 0 and 1 kodiert sind ; bei ihnen stellt z .B . die Summe von Merkmalswerten eine Anzahl dar .) Da es bei einer Nominalskala nur auf die Verschiedenheit der Merkmalswerte ankommt, leistet jede andere Zuordnung, die durch eine beliebige, umkehrbar eindeutige Transformation aus der ersten hervorgeht, das Gleiche . Die Nominalskala wird dadurch charakterisiert, class sie eindeutig bis auf bijektive Transformationen ist . Beispiele: Geschlecht, Familienstand, Studienfach, Religionszugehorigkeit .
Ordinalskala Zwischen den Merkmalsauspragungen besteht eine natiirliche Ordnung; die Merkmalswerte sollen lediglich diese Ordnung widerspiegeln . Die Grofle der Abstande zwischen Merkmalswerten hat keine Bedeutung, so class wie bei einer Nominalskala das Addieren usw . von Merkmalswerten keinen Sinn macht . Offenbar fiihrt jede ordnungserhaltende, d .h . streng monoton wachsende Transformation der Merkmalswerte zu einer gleichwertigen Skala . Als Ordinalskala bezeichnet man deshalb eine Skala, die bis auf streng monoton wachsende Transformationen eindeutig bestimmt ist . Beispiele : Klausurnote, Handelsklasse (z.B . bei Obst), Schwierigkeitsgrad einer Klettertour, Windstarke nach Beaufort .
12
1 . MERKMALE UND DATEN
Intervallskala Die Merkmalswerte spiegeln nicht nur die Ordnung der Auspragungen wider ; auch die Grofle der Abstande zwischen je zwei Merkmalswerten kann sinnvoll miteinander verglichen werden . Die absolute Grofle von Merkmalswerten hat dagegen keine Bedeutung ; ebenso ist der Maistab frei wahlbar . Eine Intervallskala ist dadurch charakterisiert, dass sie eindeutig bis auf eine Transformation der Form T (x) = ax + b (mit a > 0 and b c Tl) ist . Differenzen von je zwei Merkmalswerten lassen sich sinnvoll vergleichen, da das Ergebnis nicht von der Wahl des Nullpunkts and der Messeinheit abhangt . Sind beispielsweise x1 i . . . , x4 vier Merkmalswerte and yl, . . . , y4 mit yi = axi + b fur i = 1, . . . , 4 die transformierten Werte, so gilt
y4 - y3 Y2 - Y1
ax4 + b - (ax3 + b) _ x4 - x3 ax2 + b - (ax, + b) x2 - xl '
d .h . die Messeinheit a and der Nullpunkt b kiirzen sich heraus .
Beispiel : Temperatur ist eine intervallskalierte Grof3e . Man kann sie beispielsweise in Grad Celsius (°C) oder in Grad Fahrenheit (°F) messen . Die Temperaturwerte x, gemessen in Grad Celsius, and y, gemessen in Grad Fahrenheit, sind durch die Transformation y=32+1,8x,
x= y
- 32 1,8
miteinander verknupft . Verhaltnisskala (oder Ratioskala) Die Verhaltnisskala ist eine Intervallskala, die zusatzlich einen natiirlichen Nullpunkt besitzt, deren Messeinheit jedoch nicht festgelegt ist . Die Verhaltnisskala ist durch ihre Eindeutigkeit bis auf eine positiv-lineare Transformation der Form T (x) = ax mit a > 0 charakterisiert . Insbesondere hangt der Quotient zweier Merkmalswerte nicht von der gewahlten Messeinheit ab : Denn sind x1, x2 zwei Merkmalswerte and yj = axi mit a > 0 die transformierten Werte, so ist
yi _ ax, _ Y2
ax2
x1
x2
Beispiele : Grof3en aus den Wirtschaftswissenschaften wie Einkommen, Vermogen, Geldmenge and Grolen aus den Naturwissenschaften wie Masse, Lange, Zeit, wenn keine Messeinheit vorgegeben ist . Absolute Skala Die absolute Skala ist eine Verhaltnisskala, die auf3erdem eine vorgegebene Messeinheit besitzt . Die absolute Skala ist daher eindeutig bestimmt . Ihr Anwendungsbereich umfasst absolute Groflen, die in vorgegeben Messeinheiten gemessen werden, sowie Haufigkeiten .
Beispiele : relative Haufigkeit, absolute Haufigkeit, Alter in Jahren, Einkommen in €, Masse in Gramm, Zeit in Sekunden .
1 .3.
DATEN UND IHRE ERHEBUNG
13
Hierarchie der Skalen and statistische Verfahren Offenbar sind die verschiedenen Skalen hierarchisch geordnet : Eine Ordinalskala besitzt auch die Eigenschaften einer Nominalskala, eine Intervallskala die einer Ordinalskala, usw . Will man ein Merkmal mit einem statistischen Verfahren untersuchen, muss man zunachst sein Skalenniveau feststellen . Jedes statistische Verfahren erfordert ein bestimmtes Mindestniveau der Skala ; z . B . um einen Mittelwert bilden zu konnen, muss das Merkmal mindestens intervallskaliert sein . Je hoher das Skalenniveau ist, um so mehr statistische Verfahren stehen zur Verfugung. Statt mindestens intervallskaliert sagt man auch metrisch skaliert . Extensive and intensive Merkmale Extensive Merkmale sind solche, bei denen sich die Summe E ' l xi von Merkmalswerten x 1 , . . . , x n, sinnvoll interpretieren lasst . Ein Merkmal heif?t intensiv, falls der Durchschnitt n E?1 xi eine sinnvolle Interpretation zulasst . Offenbar ist jedes extensive Merkmal auch intensiv . Beispiele fur extensive Merkmale : Einkommen, Vermogen, Einwohnerzahl, Umsatz . Beispiele fur intensive, aber nicht extensive Merkmale : Preis eines Guts, Alter einer Person, Temperatur .
Den Begriff des extensiven Merkmals werden wir insbesondere in der Konzentrations- and Disparitatsmessung (Kapitel 3) benotigen. Haufbare Merkmale, nicht haufbare Merkmale Ein Merkmal heifit haufbar, falls ein Merkmalstrager, also ein Element der Grundgesamtheit, mehrere Merkmalsauspragungen haben kann . Beispiele : Freizeitbeschaftigung, Studienfach, Staatsangehorigkeit .
Andernfalls heif?t es nicht haufbar . Beispiele : Alter, Geschlecht .
1 .3 Daten and ihre Erhebung Daten sind die beobachteten Werte eines Merkmals (oder mehrerer Merkmale) in einer Grund- oder Teilgesamtheit . Bei einem Merkmal X kann man die erhobenen Daten als Folge x1, . . . , x, schreiben, bei zwei Merkmalen X and Y als Folge von Paaren (x1, yl) , . . . , (x,,,, y„) . Die so notierten Daten nennt man Urliste oder statistisches Urmaterial .
14
1 . MERKMALE UND DATEN
Diskrete and stetige Klassierung Ubersichtlicher als die Urliste ist die Haufigkeitsverteilung der Daten . Sie gibt fur jeden Wert des Merkmals die Haufigkeit an, mit der er in den Daten vorkommt . Datenvektor, Datenmatrix Oft ist es praktisch, die fur ein Merkma,l beobachteten Daten als Spaltenvektor zu schreiben, xl xn Der Vektor wird Datenvektor genannt . Hat man Daten fur mehrere Merkmale, so ergibt sich eine Datenmatrix . Ihre Spalten entsprechen den Merkmalen, ihre Zeilen den Beobachtungen . Fur drei Merkmale X, Y and Z erhalt man die n x 3 Matrix xi Yi zl xn
yn
zn
fur vier Merkmale X1, X2, X3, X4 die n x 4 Matrix x11
X21
X31
x41
xln
X2n
X3n
x4n
and allgemein fur m Merkmale eine n x m Matrix. Primarstatistische Daten, sekundarstatistische Daten Statistische Daten werden in verschiedener Weise nach ihrer Herkunft unterschieden . Die erste Unterscheidung betrifft die Beziehung zwischen der Datenerhebung and der aktuellen statistischen Untersuchung . Primarstatistische Daten sind Daten aus einer eigens im Hinblick auf das aktuelle Untersuchungsziel konzipierten Erhebung . Sekundarstatistische Daten sind dagegen Daten, die urspriinglich fur andere Zwecke erhoben wurden .
Beispiel : Peter untersucht in seiner Diplomarbeit die Preisgestaltung fir einen bestimmten Markenartikel im Kolner Einzelhandel and wertet zu diesem Zweck das Werbematerial and die Verkaufspreise vor Ort aus . Paul analysiert in seiner Diplomarbeit die Entwicklung der Einkommensverteilung in Deutschland auf Grand von Daten der Einkommenssteuerstatistik . Peters
1 .3 .
DATEN UND IHRE ERHEBUNG
15
Untersuchung basiert auf primarstatistischen Daten, wahrend Paul sich auf sekundarstatistische Daten stdtzt . Querschnitte, Zeitreihen, Panels Die zweite Unterscheidung betrifft den zeitlichen Zusammenhang der Daten . Von Querschnittsdaten spricht man, wenn die Werte eines Merkmals zur selben Zeit bei verschiedenen Einheiten erhoben werden .
Beispiele : Konsumausgaben von Haushalten, Umsatze von Einzelhandelsgeschaften . Um Zeitreihendaten (oder Langsschnittsdaten) handelt es sich, wenn die Werte eines Merkmals bei derselben Einheit zu verschiedenen Zeiten erhoben werden . Die zeitlich geordnete Folge der Daten wird dann als Zeitreihe bezeichnet .
Beispiele : Zu versteuerndes Jahreseinkommen einer Person im Zeitablauf, Bruttoinlandsprodukt eines Staates in aufeinander folgenden Jahren . Zeitreihen- and Querschnittsdaten treten haufig in Kombination auf . Solche Daten nennt man Paneldaten .
Beispiel : Jahrliche Befragung von Haushalten nach ihrem Einkommen . Vollerhebung, Teilerhebung Weiter unterscheidet man Daten nach dem Umfang ihrer Erhebung . Bei einer Vollerhebung werden die Merkmalswerte von alien Elementen der Grundgesamtheit ermittelt (z .B . Volkszahlung, Gebaudezahlung) . Bei einer Teilerhebung (= Stichprobenerhebung) werden dagegen nur in einem Teil der Grundgesamtheit die Merkmalswerte erhoben (z .B . Mikrozensus, Einkommens- and Verbrauchsstichprobe) . Fur eine Teilerhebung kann es verschiedene Griinde geben :
• Die Grundgesamtheit ist sehr groE, eine Vollerhebung deshalb praktisch unmoglich oder zu aufwandig .
• Die Beobachtung des Merkmals zerstort den Merkmalstrager (z .B . in der Qualitatskontrolle) .
• Die Teilerhebung lasst sich zuverlassiger, genauer oder einheitlicher durchfiihren .
16
1 . MERKMALE UND DATEN
Stichprobenauswahl Bei Teilerhebungen stellt sich die Frage nach der Art der Auswahl der Teilgesamtheit . Sie kann zufallig (z .B . durch reine oder geschichtete Zufallsauswahl) oder systematisch (z .B . durch Abschneide- oder Quotenauswahl) erfolgen .
• Die reine Zufallsauswahl wird so durchgefiihrt, dass jedes Element der Grundgesamtheit die gleiche Chance hat, fur die Stichprobe ausgewahlt zu werden .
Beispiel : Der j6hrliche Mikrozensus; siehe Abschnitt 1 .4 . • Bei der geschichteten Zufallsauswahl werden zunachst anhand ei-
nes Hilfsmerkmals „Schichten" (z .B . Altersklassen) gebildet, dann der Anteil jeder Schicht an der Stichprobe festgelegt and schlielllich die zu beobachtenden Elemente in jeder Schicht zufallig ausgewahlt . Mit der Schichtenbildung kann man insbesondere die Genauigkeit der Ergebnisse fur die einzelnen Schichten steuern .
Beispiel : Das SOEP (Abschnitt 1 .4) untersucht Haushalte von Deutschen and Auslandern in zwei getrennten Schichten. • Bei der Abschneideauswahl gelangen die Elemente der Grundgesamtheit in die Stichprobe, die in einem Hilfsmerkmal eine bestimmte GroEe iiberschreiten .
Beispiel : Stichprobe im Einzelhandel ausgewahlt werden Betriebe, die einen bestimmten Mindestumsatz iiberschreiten . • Bei der Quotenauswahl geht man davon aus, dass die Grundgesamt-
heit in homogene Teile zerfallt, in denen bestimmte sozio-okonomische Merkmale (wie z .B . Geschlecht, Alter, Beruf) die gleichen Auspragungen besitzen, and dass die Quote jedes dieser Teile in der Grundgesamtheit bekannt ist . Die Teile werden in der Stichprobe ohne Zufallsauswahl systematisch nachgebildet, indem solange Personen aufgenommen werden, bis alle Quoten in der Stichprobe den Quoten in der Grundgesamtheit entsprechen . In der Praxis werden Quoten nach Geschlecht, Alter, Berufsgruppe, GrOIlenklasse and Lage (Bundesland) des Wohnorts, Schulbildung, Familienstand and Ahnlichem gebildet .
Beispiele : Einkommens- and Verbrauchsstichprobe, Laufende Wirtschaftsrechnungen der Haushalte (Abschnitt 1 .4), Umfragen in der Meinungsforschung .
1 .4 . REGELM .ASSIGE ERHEBUNGEN VON HAUSHALTSDATEN
1 .4
17
RegelmaMge Erhebungen von Haushaltsdaten
Die statistischen Amter in Deutschland and die wirtschaftswissenschaftlichen Forschungsinstitute erheben in regelmaJ igen Abstanden bestimmte Wirtschaftsdaten . Die fur die privaten Haushalte wichtigsten Erhebungen sind die Volkszahlung, der Mikrozensus, die Einkommens- and Verbrauchsstichprobe sowie die Laufenden Wirtschaftsrechnungen der Haushalte and das Sozio-okonomische Panel . Volkszahlung Die klassische Volkszahlung ist die vollstandige Erfassung aller Personen and Haushalte eines Landes and einiger ihrer sozio-okonomischen Merkmale . In Deutschland wurde sie zuletzt 1987 durchgefuhrt and mit einer Berufs-, Gebaude-, Wohnungs- and Arbeitsstattenzahlung verbunden . Die bei der Volkszahlung erhobenen Daten dienen als Grundlage der Auswahl beim Mikrozensus and bei vielen anderen statistischen Erhebungen . Es besteht Auskunftspflicht . Wegen der hohen Kosten and der zum Teil geringen politischen Akzeptanz von Volkszahlungen werden kaum noch klassische Volkszahlungen durchgefuhrt . An ihre Stelle treten reduzierte Zahlungen, deren Ergebnisse mit Daten aus amtlichen Registern verkniipft werden . Eine ausfiihrliche Darstellung der Volkszahlung findet man im Lehrbuch Rinne (1996, S . 55-69) . Mikrozensus Im Mikrozensus, der ein Mal im Jahr durchgefuhrt wird, werden Daten in tiefer fachlicher Gliederung uber die Bevolkerungsstruktur, die wirtschaftliche and soziale Lage der Bevolkerung and der Familien, den Arbeitsmarkt sowie die berufliche Gliederung and Ausbildung der Erwerbsbevolkerung" (Mikrozensus-Gesetz § 1 (2)) erhoben . Auf der Basis der letzten Volkszahlung and der Melderegister wird ein Prozent der Haushalte in zufalliger Weise ausgewahlt . Einmal ausgewahlte Haushalte werden wiederholt befragt, wobei jedes Jahr ein Viertel der Auswahleinheiten durch andere Einheiten (aus so genannten ,Vorratsstichproben") planmallig ersetzt wird . Es besteht Auskunftspflicht, die allerdings auf einen Zeitraum von vier Jahren beschrankt ist . Erhoben werden auger Geschlecht, Alter, Familienstand and Staatsangehorigkeit, Daten uber die Wohnung, die Haushaltsangehorigen, die Beteiligung am Erwerbsleben, die soziale Stellung im Beruf, die Quelle des uberwiegenden Lebensunterhalts, die Hohe des monatlichen Nettoeinkommens and die Art
18
1 . MERKMALE UND DATEN
der Krankenversicherung . Hinzu kommen alle zwei bzw . drei Jahre Daten fiber den ausgeubten Beruf, fiber Pendelwanderungen, fiber die Altersvorsorge and weitere Merkmale . Fur Einzelheiten des Mikrozensus sei auf die Darstellungen in der Zeitschrift Wirtschaft and Statistik verwiesen, etwa auf Riede (1997), Lotze and Breiholz (2002a) and Lotze and Breiholz (2002b) . Wirtschaftsrechnungen der privaten Haushalte Daten fiber die privaten Haushalte liefern die Einkommens- and Verbrauchsstichprobe (EVS), die alle fiinf Jahre durchgefuhrt wird, sowie die Laufenden Wirtschaftsrechnungen (LWR) . Die Beteiligung der Haushalte ist freiwillig ; sie werden innerhalb von Quoten (nach Haushaltstyp, sozialer Stellung and monatlichem Haushaltsnettoeinkommen) geworben . Erfasst wird das Budget der einzelnen privaten Haushalte ; dies ist ein Verzeichnis aller zugeflossenen Einnahmen and der damit getatigten Ausgaben . Auf Grund dieser Daten werden u .a . das Lebenshaltungsniveau der Haushalte, ihre Beteiligung am Arbeitsmarkt, ihre Spartatigkeit and ihre Einkommensubertragungen beschrieben . Die Wirtschaftsrechungen dienen auch als Grundlage der Berechnung von Verbraucherpreisindizes . Methodische Grundlagen and wichtige Ergebnisse beider Erhebungsverfahren werden regelmaflig in der Zeitschrift Wirtschaft and Statistik beschrieben ; siehe Chlumsky and Ehling (1997) ; Kaiser (2000) ; Kiihnen (1998) . Sozio-okonomisches Panel (SOEP) Im Unterschied zu den bisher genannten Erhebungen, die von den statistischen Amtern durchgefuhrt werden, wird das Sozio-okonomische Panel von einem wirtschaftswissenschaftlichen Forschungsinstitut, dem Deutschen Institut fur Wirtschaftsforschung (DIW), getragen . Im Rahmen des Sozio-okonomischen Panels werden Haushalte and die darin lebenden Personen regelmaf3ig fiber Erwerbsbeteiligung, berufliche Mobilitat, Freizeitverhalten, Einkommen and Transferzahlungen, Wohnsituation and vieles mehr befragt . Im Jahre 1983 wurden dazu etwa 6 000 private Haushalte ausgewahlt, deren Daten seitdem jahrlich auf freiwilliger Basis erhoben werden . Die Stichprobe der Haushalte erganzt sich in natiirlicher Weise durch eigene Haushaltsgrfindungen von bisher befragten Haushaltsmitgliedern . Anlalllich der deutschen Vereinigung wurden weitere Haushalte aus den neuen Bundeslandern mit einbezogen . Die erhobenen Daten erlauben sowohl Querschnitts- wie Langsschnittsanalysen als auch Kombinationen von beiden . Ahnliche Panelerhebungen werden in den ubrigen europaischen Landern and in den USA durchgefuhrt . Nahere, insbesondere aktuelle Informationen fiber das SOEP findet man im Internet unter der Adresse w ww .diw .de/soep/ .
1 .5 .
19
AMTLICHE UND NICHTAMTLICHE STATISTIK
1 .5
Amtliche and nichtamtliche Statistik
Als Trager der Wirtschafts- and Sozialstatistik unterscheidet man die amtliche and die nichtamtliche Statistik . Zur amtlichen Statistik zahlen in Deutschland die so genannten,,ausgelosten Behorden" . Als Beispiele seien genannt :
(w ww . destatis . d e),
•
Statistisches Bundesamt
•
Landesamt fur Datenverarbeitung and Statistik Nordrhein-Westfalen
•
Amt fur Stadtentwicklung and Statistik der Stadt Koln
(www . Ids . nrw . d e),
koeln . de/aemter/15/.
www .stadt-
Ferner gehoren zur deutschen amtlichen Statistik die mit statistischen Aufgaben befassten Teile von Behorden and Institutionen, die nicht in erster Linie fur die Statistik zustandig sind . Hierzu gehoren u .a . :
•
Bundesministerium der Finanzen
(www . bundesfinanzministerium . d e),
•
Bundesministerium fur Wirtschaft and Technologie
•
Bundesministerium fur Arbeit and Soziales
•
Deutsche Bundesbank
•
Bundesagentur fur Arbeit
•
Bundesanstalt fur Finanzdienstleistungsaufsicht
•
Kraftfahrtbundesamt
(w ww . bmwi . d e),
(w ww . betas . band . d e),
(www .bundesbank.de), (w ww . arbeitsagentur. d e), (www . bafin. de),
(w ww .kba .d e) .
Grundlegend fur die amtliche Statistik ist das Prinzip der Legalisierung . Dieses besagt, dass es fur jede Erhebung eine Rechtsgrundlage geben muss, entweder als Gesetz oder als Rechtsverordnung . Abbildung 1 .1 zeigt in schematischer Weise die Durchfurung einer Bundesstatistik, beginnend mit dem Auftrag and dem Entwurf einer Rechtsgrundlage durch das zustandige Ministerium and endend mit der Veroffentlichung der Ergebnisse durch das Statistische Bundesamt . Zwei weitere wichtige Organisationsprinzipien der amtlichen Statistik sind die fachliche Zentralisierung and die regionale Dezentralisierung . Dies bedeutet, dass die Planung and methodisch-technische Vorbereitung von Erhebungen bei einer zentralen Stelle, dem Statistischem Bundesamt in Wiesbaden, liegt . Die Durchfi hrung der Erhebung sowie Teile der Aufbereitung der Daten erfolgt, quasi,,vor Ort", durch die Landesamter . Von diesem Organisationsprinzip gibt es jedoch Ausnahmen .
20
1 . MERKMALE UND DATEN
Bei vielen, jedoch nicht alien Erhebungen besteht Auskunftspflicht der befragten Einheiten . Dem steht die Verpflichtung der amtlichen Statistik gegenuber, Einzelangaben geheim zu halten . Die Ergebnisse der Erhebungen der amtlichen Statistik werden in vielfaltiger Weise veroffentlicht . Vom Statistischen Bundesamt ist besonders das jahrlich erscheinende ,Statistische Jahrbuch fur die Bundesrepublik Deutschland" als zusammenfassende Veroffentlichung zu erwahnen . Publikationen zu einzelnen Bereichen enthalten die 19 Fachserien . Diese sind : 1. Bevolkerung and Erwerbstatigkeit 2.
Unternehmen and Arbeitsstatten
3 . Land- and Forstwirtschaft, Fischerei 4 . Produzierendes Gewerbe 5 . Bautatigkeit and Wohnungen 6 . Binnenhandel, Gastgewerbe, Tourismus 7. Autenhandel 8. Verkehr 9. Dienstleistungen 10 . Rechtspflege 11 . Bildung and Kultur 12 .
Gesundheitswesen
13 . Sozialleistungen 14 . Finanzen and Steuern 15 . Wirtschaftsrechnungen 16 . Lohne and Gehalter 17 . Preise 18 . Volkswirtschaftliche Gesamtrechnungen 19 . Umwelt
1 .5 .
AMTLICHE UND NICHTAMTLICHE STATISTIK
21
Zu erwahnen ist augerdem die monatlich erscheinende Zeitschrift Wirtschaft and Statistik mit Artikeln zu ausgewahlten wirtschaftsstatistischen Themen sowie einem aktuellen Tabellenanhang . Von den Veroffentlichungen der Deutschen Bundesbank sind vor allem die Monatsberichte and deren statistische Beihefte fur den Statistiker von Interesse . Zu den Tragern der nichtamtlichen Statistik zahlt man in Deutschland • die unabhangigen wirtschaftswissenschaftlichen Institute • IfW - Institut fur Weltwirtschaft Kiel (www .uni-kiel.de/ifw) , • DIW - Deutsches Institut fur Wirtschaftsforschung Berlin (www . diw. d e),
• HWWA - Hamburgisches Welt-Wirtschafts-Archiv (w ww .hwwa .d e), • IFO - Institut fiir Wirtschaftsforschung (www . cesifo-group . de),
• RWI - Rheinisch-Westfalisches Institut fur Wirtschaftsforschung (www . rwi-essen . de), • IWH - Institut fur Wirtschaftsforschung Halle (w ww .iwh-halle .d e), • die Wirtschaftsforschungsinstitute von Interessenverbanden, wie z .B . • IW - Institut der deutschen Wirtschaft Koln (www .iwkoeln .d e),
• WSI - Wirtschafts- and Sozialwissenschaftliches Institut in der Hans-Buckler-Stiftung (w ww .wsi .d e ), • unabhangige, aber,,halbamtliche" Institutionen, wie z .B . • Sachverstandigenrat zur Begutachtung der gesamtwirtschaftlichen Entwicklung (w ww.sachverstaendigenrat-wirtschaft .d e),
• Monopolkommission (w ww.monopolkommission .d e ), • die Markt-, Meinungs- and Umfrageinstitute, wie z .B . • INFAS - Institut fur angewandte Sozialwissenschaft (www . infas . de),
• Emnid - Institut fur Marktforschung and Marktermittlung (w ww . tns-emnid. co m), • GfK - Gesellschaft fur Konsumforschung (www .gfk .d e),
• Institut fur Demoskopie Allensbach (www .ifd-allensbach .d e) .
Eine sehr niitzliche Quelle von Daten ist der Tabellenanhang des Herbstgutachtens des Sachverstandigenrats . Die Hauptgutachten der Monopolkommission enthalten im Tabellenanhang Daten zum Stand der industriellen Konzentration in Deutschland .
22
1 . MERKMALE UND DATEN
Neben dem Statistischen Jahrbuch fur die Bundesrepublik Deutschland veroffentlicht das Statistische Bundesamt jahrlich das Statistische Jahrbuch fur das Ausland . Weitere wichtige internationale Statistiken werden von folgenden iibernationalen Institutionen and Organisationen gefiihrt and veroffentlicht :
• EUROSTAT, das Statistische Amt der Europaischen Union (www . europa . eu . int/comm/eurostat/),
• OECD
(www.oecd.org),
• Vereinte Nationen
(www . u m . org) .
Erganzende Literatur zu Kapitel 1 Die Grundbegriffe der beschreibenden Statistik werden in alien einschlagigen Lehrbiichern behandelt . Genannt seien Fahrmeir et al . (2003), Ferschl (1985), Bamberg and Baur (2002), Benninghaus (2005), Schira (2005) and Heiler and Michels (2004) . Die Methoden der Datenerhebung in der amtlichen and der nichtamtlichen Statistik werden ausfiihrlich in von der Lippe (1996) and Rinne (1996) beschrieben ; siehe auch Statistisches Bundesamt (1997) .
1 .5 .
AMTLICHE UND NICHTAMTLICHE STATISTIK
23
ABLAUF VON BUNDESSTATISTIKEN BUNDESMINISTERIEN Auftrag fur eine Bundesstatistik
Beratung and Beschluss der Rechtsgrundlage
Bundesregierung ∎ Bundesrat ∎ Bundestag
∎∎∎∎∎∎∎∎∎∎ ∎ ∎ ∎ ∎ ∎
∎
∎ ∎ STATISTISCHES BUNDESAMT 6 ∎ ∎ ∎ ∎ ∎ ∎ ∎∎ ∎ VORBEREITUNG Methodisch-technische Vorarbeiten (einschl . Mitw rkung beim Entwurf der Rechtsgrundlage) Plan fur Erhebung and Aufbereitung Zusammenstellung der Landesergebnisse zu Bundesergebnissen VERO1 N ENTLICHUNG ∎ ∎
∎ ∎ STATISTISCHER BEIRAT Beratung des statistischen Programms
•• • •• • • • •
• • •
STATISTISCHE LANDESAMTER ∎ ∎ ∎ ∎ ∎ ∎ ∎ • ERHEBUNG UND AUFBEREITUNG
Aufbereitung der Ergebnisse
∎ im Beirat:
• Auftrag∎ ∎ • • • • ∎ ∎
geber, Durchfihrende, Benutzer, Befragte
∎ ∎ ∎ ∎ ∎ ∎
Feststellung der Befragten Durchfiihrung der Zahlung
• Vertreten ∎
Befragte zum Teil unter Mitwirkung der Gemeinden
der Lan ung Landwesere ergebnisse
Abbildung 1 .1 : Durchfiihrung einer Bundesstatistik (Quelle : Statistisches Bundesamt (1997)) .
Kapitel 2
Auswertung von eindimensionalen Daten Dieses Kapitel behandelt Methoden zur Untersuchung eines einzelnen Merkmals in einer Grundgesamtheit . G = { el, e2, . . . , e n } bezeichnet die Grundgesamtheit and X das zu untersuchende Merkmal . Wenn nicht anders vermerkt, sind die Daten in einer Urliste x1, x2, . . . , x n gegeben, worm xi den Wert des Merkmals X bei der Einheit ei bezeichnet, i = 1, 2, . . . , n . Im Folgenden werden verschiedene Verfahren zur Beschreibung and Auswertung der Daten dargestellt . Um die Verfahren in eine sinnvolle Reihenfolge zu bringen, gehen wir nach dem Skalenniveau von X vor .
2 .1
Beliebig skalierte Daten
Daten sind immer mindestens nominalskaliert . Die in diesem Abschnitt erlauterten Verfahren gelten fur beliebig skalierte Daten ; sie benotigen kein hoheres Skalenniveau als das der Nominalskala .
6,
Das Merkmal X besitze J verschiedene Merkmalswerte, die wir mit ~1, ~j bezeichnen . Fur jeden Merkmalswert berechnet man die absolute and die relative Haufigkeit, mit der er in den Daten vorkommt :
... .
• absolute Haufigkeit von ~j nj = Anzahl der Daten mit Merkmalswert ~ j , 25
j
= 1, . . . , J,
26
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
•
relative Haufigkeit von ~j
fj
=
nj
= Anteil der Daten mit Merkmalswert ~j ,
j = 1, . . . , J .
fj < 1 fur alle j, and es ist Offenbar gilt 0 < < n and 0 < -nj - sowie
•
j=1
j=1
= n
fj = 1 .
Diskrete Klassierung Die Folge der Merkmalswerte mit ihren absoluten Haufigkeiten, (~1, n1), (S2, n2), . . . , (SJ, nJ) , wird als diskrete Klassierung der Daten bezeichnet .
•
Unter einer Haufigkeitstabelle versteht man die folgende tabellarische Darstellung :
j 2
nj fj = nj /n e2 n2
f2
nJ
fJ 1
n
Beispiel „Verkehrsmittel": Die Grundgesamtheit bestehe aus 20 Beschaftigten eines Kolner Betriebs . Merkmal sei das fur den Weg zur Arbeitsstatte benutzte Verkehrsmittel . 61 62 63 6 65
1 (KVB) 2 (PKW) 3 (Motorrad) 4 (Fahrrad) 5 (zu Fuf3)
Urliste : 1, 1, 2, 2, 2, 4, 3, 5, 2, 2, 5, 2, 4,1,1, 2, 2, 1, 2,1 Haufigkeitstabelle : ~j KVB PKW Motorrad Fahrrad zu Fuf3
6
6/20
9 2 2
9/20 1/20 2/20 2/20
20
1
1
2 . 1 . BELIEBIG SKALIERTE
DATEN
27
Saulendiagramm and Kreisdiagramm dienen dazu, die Haufigkeiten graphisch darzustellen . Abbildung 2 .1 and 2 .2 zeigen die Diagramme der absoluten Haufigkeiten des Beispiels . Entsprechende Diagramme sind auch fur die relativen Haufigkeiten in Gebrauch . Als Stabdiagramm bezeichnet man ein Saulendiagramm, das an Stelle der ,Sdulen" senkrechte Striche aufweist . Saulendiagramm 109B7654320
Abbildung CEL)
KVB
2 .1 :
PKW
M--d
Fah,, .d
..Fu6
Graphische Darstellung durch ein Saulendiagramm (- --f EX-
Ein Merkmalswert ~j heifit Modus, wenn seine Haufigkeit mindestens so groE wie die der ubrigen Merkmalswerte ist, d .h . wenn n j > nk fur alle k gilt . Im Beispiel ist t;2 = PKW der einzige Modus . Im Allgemeinen konnen Daten mehrere Modi aufweisen . Ob ein Merkmalswert ein Modus ist, hangt offenbar nur von den Haufigkeiten ab and nicht von der speziell gewahlten Skala, d .h . von der Kodierung der Auspragungen (- EXCEL') . Beispiel ,Bundesliga" : Wir interessieren uns fur die Zahl der Tore, die in Spielen der Fuflballbundesliga erzielt werden, and zwar getrennt nach Heimund Gastmannschaften . Grundgesamtheit sind die Bundesligaspiele der Saison 2000/01 . Dabei bezeichne X die Zahl der Tore der Heimmannschaft and Y die der Gastmannschaft in einem Spiel . Die folgende Ubersicht enthdlt die Hdufigkeitsverteilungen beider Merkmale X and Y . Die erste Spalte gibt die Merkmalswerte (= Zahl der Tore j) an, die zweite die absoluten Haufigkeiten nj (X) von X, die dritte die absoluten Hdufigkeiten n j (Y) von Y, j =0,1, . . .,6 . ' Das Symbol -- EXCEL bedeutet, dass die betreffende statistische Formel oder Graphik mit dem Programm Microsoft Excel am PC berechnet werden kann . Excel ist ein eingetragenes Warenzeichen der Firma Microsoft . Die Rechenschritte am PC sind im Anhang zum jeweiligen Kapitel erlautert .
28
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN zu FuR 10%
PKW 45%
Abbildung 2 .2 : Graphische Darstellung durch ein Kreisdiagramm (y EXCEL) Tore j
nj (X)
nj (Y)
E
306
306
64 89 69 42 26 11 5
105 106 54 28 12 1 0
Wie man sieht, sind sowohl der Modus von X (Torerfolge der heimischen Mannschaft) als ouch der von Y (Torerfolge der gastierenden Mannschaft) gleich 1 .
2 .2
Mindestens ordinalskalierte Daten
In diesem Abschnitt nehmen wir an, dass X (mindestens) ordinalskaliert ist . Fur die Merkmalswerte gibt es dann eine natiirliche Ordnung . Ober die in Abschnitt 2 .1 eingefuhrten Begriffe hinaus kann man weitere Mafizahlen definieren, mit denen sich die Daten naher beschreiben lassen .
2 .2 .
MINDESTENS ORDINALSKALIERTE DATEN
29
Fur ein beliebiges x E R betrachtet man den Anteil der Daten XI, x2 i . . . , die kleiner oder gleich x sind . Sei
F(x)
=
Anteil der Daten
_ fiIxi:5 x}) n
xn ,
< x
_
fr
Die Funktion F(x), x E 11k, wird als empirische Verteilungsfunktion der Daten bezeichnet . Man nennt sie auch kurz die Verteilungsfunktion der Daten . Wenn Daten in einer Urliste gegeben sind, ermittelt man F(x) durch Abzahlen der Beobachtungswerte, die kleiner oder gleich x sind, and anschliefbende Division durch n . Wenn diskret klassierte Daten gegeben sind, wird F(x) durch Addition der entsprechenden relativen Haufigkeiten berechnet .
Beispiel,,Klausurnoten I": 16 Studierende erzielten in einer Klausur die folgenden (ganzzahligen) Noten : 3, 4, 2,1, 2, 4, 5, 5, 2, 1, 4, 5, 3, 3, 2, 4 . Indem wir die aufsteigend geordneten Noten von unten abzahlen, erhalten wir die Werte der Verteilungsfunktion an den Stellen 1, 2, 3,4 and 5, F (1) F(2) F(3)
16 = 0, 1250 ,
= 6 = 0, 3750 , = 6 = 0,5625,
F(4)
16 = 0, 8125 ,
F(5)
l.
Die Verteilungsfunktion ist in Abbildung 2 .3 dargestellt . Die empirische Verteilungsfunktion F ist generell fur alle x ist monoton wachsend, das heilt, fur alle x1, x2 E R gilt
F(xl) < F(x2),
wenn
c
R definiert . Sie
x1 < x2 .
Die Verteilungsfunktion ist eine Treppenfunktion, d .h . stuckweise konstant . Die Spriinge erfolgen an jenen Stellen, die als Daten in der Urliste vorkommen, and die Sprunghohe an einer Stelle x = ~j ist gleich der relativen Haufigkeit des Wertes ~j in der Urliste . Die empirische Verteilungsfunktion ist rechtsstetig, d .h . der Funktionswert an einer Sprungstelle ist gleich dem Grenzwert der Funktionswerte, wenn man das Argument x von rechts der Sprungstelle nahert . Wenn nur die empirische Verteilungsfunktion der Daten bekannt ist, lassen sich daraus die beobachteten Merkmalswerte and ihre relativen Haufigkeiten
30
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
0
1
2
J
4
5
6
Abbildung 2 .3 : Verteilungsfunktion im Beispiel „Klausurnoten I" (- EXCEL) ermitteln . Durch Multiplikation mit n erhalt man die absoluten Haufigkeiten . Also enthalt, wens n gegeben ist, die empirische Verteilungsfunktion die gleiche Information wie die diskrete Klassierung der Daten . Urn die Verteilungsfunktion zu berechnen, geniigt es, class die Daten in diskreter Klassierung (mit absolutes oder relativen Haufigkeiten) gegeben sind . Hierzu ein Beispiel :
Beispiel „Klausurnoten II": Die Diplom-Vorprlifung zu ,Statistik A" an der Wirtschafts- and Sozialwissenschaftlichen Fakultdt der Universitdt zu Koln ergab im Sommersemester 1998 die folgenden Ergebnisse : Ergebnis Note ,sehr gut" Note „gut" Note ,befriedigend" Note ,ausreichend" Note ,mangelhaft" ,,nicht erschienen"
Hdufigkeit
6
63
131 143 177 39
559
2 .2 .
31
MINDESTENS ORDINALSKALIERTE DATEN
Wie Bind die Daten skaliert? Berechnen Sie, wenn moglich, die Verteilungsfunktion . Losung: Die Daten sind nur nominalskaliert ; dies liegt an der Ausprdgung ,,nicht erschienen". Beschrankt man die Analyse, and damit die Grundgesamtheit, auf die Kandidaten, die wirklich zur Klausur erschienen sind, erhalt man die folgende Tabelle :
E
1 2 3 4 5
(,,sehr gut") (,,gut") (,,befriedigend") (,,ausreichend") (,,mangelhaft")
in % 1,15 12,12 25,19 27,50 34,04 100,00
fj -'I n
6 63 131 143 177 520
F(~j ) in % 1,15 13,27 38,46 65,96 100,00
Die Verteilungsfunktion der so eingeschrankten Daten lautet :
F(x) =
0, 0,0115 0,1327 0,3846 0, 6596 1,0000
, , , , ,
falls x < 1 , falls 1<x<2, falls 2<x<3, falls 3<x<4, falls 4<x<5, falls x > 5 .
Ein weiteres wichtiges Mail zur Beschreibung von Daten ist der des Quantils oder Prozentpunkts . Wir definieren ihn mit Hilfe der empirischen Verteilungsfunktion : Fur 0 < p < 1 sei XP
= =
min{x E 18 F(x) > p} kleinster Wert x E JR mit der Eigenschaft, Bass F (x) > p I
das p-Quantil (oder der p • 100-Prozentpunkt) der Daten . xr ist also der kleinste Wert x E R mit der Eigenschaft, class mindestens p . 100% der Daten kleiner oder gleich x sind (- EXCEL) . Im Beispiel,,Klausurnoten I" betrachten wir erneut die Noten der 16 Studierenden . Das 0,5-Quantil ist xo,5 = 3 (= kleinster Wert mit F(x) > 0, 5) . Das 0,7-Quantil ist xo,7 = 4 (= kleinster Wert mit F(x) > 0, 7) .
Wenn die Daten durch eine streng monoton wachsende Funktion transformiert werden, wird offenbar jedes Quantil in gleicher Weise transformiert .
32
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
Man sagt, class die Quantile aquivariant gegenuber streng monoton wachsenden Transformationen sind . Die Funktion p H xp , 0 < p < 1, nennt man Quantilfunktion . Man mache sich klar (Ubung fur den Leser!), dass die Quantilfunktion eine monoton wachsende Treppenfunktion ist . Ihren Graphen erhalt man als Spiegelbild des Graphen der empirischen Verteilungsfunktion an der Hauptdiagonalen . Die Quantilfunktion enthalt daher die gleiche Information wie die empirische Verteilungsfunktion . Quantile konnen auch berechnet werden, ohne zuvor die empirische Verteilungsfunktion zu bestimmen . Hierzu nehmen wir an, dass die Daten aufsteigend geordnet sind, d .h . dass xl < x2 < x3 < . . . < x n gilt . Wenn dies nicht der Fall ist, mussen die Daten zunachst geordnet werden . Es ist dann xp = wobei
[np]
falls np ganzzahlig, sonst,
x np , x[ np [+l 1 1
den ganzzahligen Teil von
np
bezeichnet .
Im obigen Beispiel,,Klausurnoten I" ordnet man die Zensuren wie folgt : 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5 . Es ist = 3,
x0,5
x8
x0,7
x[16 .0,7]+1 X11+1
= x12
= 4,
in Ubereinstimmung mit den Ergebnissen von oben . Fur einige p werden die p-Quantile besonders haufig verwendet . Sie tragen spezielle Namen : Median
x0,5
Quartile
x0,25
54,5
x9,75
x0,2
x0,4
x0,6
1O,8
Quintile
x0 , 1
x0 , 2
. . .
X0,9
Dezile
x0,01
x0,02
. . .
X0,99
Perzentile
Diese Quantile sind offensichtlich gut zu interpretieren and nutzlich, um groibe Datenmengen (mit vielen verschiedenen Werten) zu charakterisieren . Der Median x0,5 ist der Wert, der die unteren 50% von den oberen 50% der Daten
2 .3.
METRISCH SKALIERTE DATEN
33
trennt . 2 Das Quantil x0,25 bezeichnet man als unteres, das Quantil xO,75 als oberes Quartil . Die Quartile xo,25, xo,5 and xO,75 teilen die Daten in vier Blocke, die jeweils 25% der Daten umfassen. Zwischen x0,25 and x0,75, dem unteren and dem oberen Quartil, liegen die ,mittleren" 50% der Daten . Analog konnen die Quintile, Dezile and Perzentile interpretiert werden .
2 .3
Metrisch skalierte Daten
In diesem Abschnitt nehmen wir an, dass das Merkmal X metrisch skaliert, also mindestens intervallskaliert ist . Mit metrisch skalierten Daten konnen die im Folgenden benotigten Rechenoperationen in sinnvoller Weise ausgefuhrt werden . Fur bestimmte Mittelwerte werden wir dariiber hinaus voraussetzen mussen, dass das Merkmal verhaltnisskaliert ist . Wir erortern nun die wichtigsten MaEzahlen zur Charakterisierung der Lage, Streuung and Asymmetrie von metrisch skalierten Daten . Am Ende des Abschnitts werden die stetige Klassierung von Daten and Mai?zahlen fur stetig klassierte Daten behandelt . Alle statistischen Begriffe and Matzahlen, die fur nominale oder ordinale Daten definiert sind, gelten auch fur metrische Daten . Insbesondere konnen metrische Daten durch Haufigkeiten, durch eine Verteilungsfunktion and durch Quantile beschrieben werden .
Boxplot Um die wesentlichen Aspekte metrischer Daten in besonders einfacher and anschaulicher Weise graphisch darzustellen, verwendet man den Boxplot, auf Deutsch auch Schachteldiagramm genannt . Der Boxplot geht auf Tukey (1977) zuriick . An ihm lassen sich der Median, das untere and das obere Quartil and die Extremwerte der Daten ablesen ; vgl . Abbildung 2 .4 . 3
Beispiel: „Jahresgehalt": Absolventen einer wirtschaftswissenschaftlichen Fakultat mit oder ohne Pradikatsexamen wurden nach dem Jahresgehalt ihrer ersten Anstellung befragt. Die Ergebnisse wurden durch zwei Boxplots beschrieben ; vgl . Abbildung 2 .5 .
2 Wenn n gerade ist, lassen sich die Daten xl, . . . , x T,, offenbar auf mehrerlei Weise in eine obere and eine untere Halfte trennen ; jeder Punkt des abgeschlossenen Intervalls [x[n/2]>x[n/2]+1] ist dazu in gleicher Weise geeignet . Wahrend wir hier den Median als den linken Eckpunkt des Intervalls definieren, sind in der Literatur auch andere Definitionen zu linden . Haufig wird die Mitte des Intervalls [x[~/2],x[n/2]+1] als Median bezeichnet . 3 Hinweis : In der statistischen Literatur findet man auch andere Definitionen des Boxplots, bei denen statt min xi and max xi bestimmte Quantile angegeben werden .
34
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
min x i
XO,25
XO,5
max x i
x0,75
Abbildung 2 .4 : Boxplot
mit Pradikat
ohne Pradikat
20
25
30
35
40
45
50
55
60
T €
Abbildung 2 .5 : Vergleich zweier Boxplots
2.3 .1
Lagemessung
Eine der wichtigsten Aufgaben der beschreibenden Statistik besteht darin, die allgemeine Lage von Daten auf der Merkmalsachse durch eine Zahl zu beschreiben . Im Folgenden ziehen wir zur Lagemessung verschiedene Mittelwerte heran . Arithmetisches Mittel Das am weitesten verbreitete Lagemafl fur metrisch skalierte Daten x1 i x2, . . . , x n ist das arithmetische Mittel
n x=-n1 ~ xi . i=1 Es wird oft auch einfach als Mittelwert oder Durchschnitt der Daten bezeichnet ('--3 EXCEL) . Wir diskutieren nun die wichtigsten Eigenschaften von
x.
35
2.3. METRISCHSKALIERTE DATEN 1. Aus der Definition folgt sofort fur die M e r k m a l s s u m m e :
n Summanden
ELl
x, so Dies kann man so interpretieren: Wird die Merkmalssumme auf die Merkmalstrager umverteilt, dass jeder das gleiche erhalt, dann erhalt jeder gerade Z. 2. Das arithmetische Mittel liegt zwischen dem grogten und dem kleinsten Wert der Daten:
< Z < max {xI,.. . ,x , ~ ~ }
min { X I , . . . , x,}
Sind alle Daten gleich, d.h. xl = x2 = . . . = xn
=
x, gilt natiirlich
-
x = Z.
3. Es ist
n
n
d.h. die Abweichungen dcr Daten vom arithmetischen Mittel Z heben sich gegenseitig auf. 3 nennt man deshalb auch den S c h w e r p u n k t der Daten.
4. Fur Z gilt
n
n
d.h. die Summe der quadratischen Abweichungen der Daten von einem festen Punkt c ist am kleinsten fiir c = Z. (Beweis: ubung fur den Leser !)
5. Werden alle Daten x i durch yi transformiert, so gilt
=
a
+ bx, (mit a , b E
R) affiri-linear
d.h. das arit,hmetische Mittel transformiert sich wie die Einzeldaten. Das folgende Beispiel illustriert die Eigenschaft 5.
Beispiel ,,Handwerksbetrieb"::Der durchschnittliche Monatslohn der Beschiiftiyten i n einem Handwerksbetrieb sei 2300 €. Im Dezember erhalt jeder Beschiiftigte (als Weihnachtsgratifikation) zusutzlich
36
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
•
einen Pauschalbetrag von 300 ,E,
•
einen lohnabhiingigen Zuschlag von 20% .
Wie grof3 ist der Durchschnittslohn im Dezember? Unter Verwendung der Eigenschaft 5 mit a = 300 and b = 1, 2 ergibt sich
YD,,
= 300 + 1, 2 . 2300 = 3060 .
Berechnung aus diskret klassierten Daten Die Berechnung von x kann auch ohne Ruckgriff auf die einzelnen Daten der Urliste erfolgen . Es mussen lediglich die Haufigkeiten bekannt sein, mit denen die Merkmalswerte 1 > . . . , bJ in den Daten vorkommen . Gegeben seien die absoluten Haufigkeiten
(e1, nl), (~2, n2), . . . , (~ J, nJ)
oder, alternativ, die relativen Haufigkeiten
(S1, f1), (S2, f2), . . . , (~ J, fJ) . Dann berechnet man das arithmetische Mittel so :
Beispiel,,Jugendliche" : In den n = 1230 Haushalten eines Vorortes wurde die Anzahl der Jugendlichen (unter 18 Jahren) gezdhlt. Aus der Urliste wurde die folgende Haufigkeitsverteilung erstellt (~ j = Anzahl der Jugendlichen im Haushalt ; nj = Anzahl der Haushalte) :
0 1
2 3 4
5 and mehr
500 550 100 50
30 0
1230
Der groflte vorkommende Merkmalswert ist 4 . Wir haben deshalb J = 5 Summanden zu addieren . Die durchschnittliche Anzahl der Jugendlichen Pro Haushalt belauft sich auf x
1230 (0
.500+1 .550+2 . 100+3 . 50+4 . 30)=0,83 .
2 .3 .
METRISCH SKALIERTE DATEN
37
Offenbar hat das arithmetische Mittel hier - wie in vielen anderen Beispielen - einen Wert, den das Merkmal selbst nicht annehmen kann . Gewichtete Mittel Beim arithmetischen Mittel werden alle n Daten der Urliste in gleicher Weise behandelt, indem man sie aufsummiert and die Summe durch n teilt . Eine Verallgemeinerung des arithmetischen Mittels bilden die gewichteten Mittel . Sie haben die Form
mit Gewichten wi > 0 fur alle i and tetes Mittel zum Gewichtsvektor
F_', wi
= 1 . Man nennt
xw
gewich-
w = (wI, W2, . . . , W") . Die Gewichte w1, w2, . . . , w,,, sind fur die jeweilige Anwendung geeignet zu wahlen . Speziell, wenn alle Gewichte den gleichen Wert haben, ist der Gewichtsvektor w = ( 1/n,1/n, 1/n, .,1/n) and man erhalt das gewohnliche arith. metische Mittel, x w = E i 1 nxi = x •
Beispiel : Im Beispiel ,Fernsehgerdt" des Abschnitts 0.1 .1 war aus den Verkaufspreisen in zehn Geschdften ein mittlerer Preis zu bestimmen . Es liegt nahe, ein gewichtetes Mittel zu verwenden, bei dem das Gewicht des i-ten Geschdfts seiner Grole Gi (gemessen etwa durch die Verkaufsfldche oder den Umsatz) entspricht . Man wdhlt dann die Gewichte gleich den relativen Groflen, wi = Gi/ r nj1 C3 .
Getrimmte Mittel In das arithmetische Mittel x geht jeder Beobachtungswert x i mit dem Gewicht 1/n ein . Wenn nun ein Beobachtungswert sehr weit - nach oben oder unten - von den iibrigen entfernt ist, hat sein Beitrag einen groEen Einfluss auf x. Man sagt, class das arithmetische Mittel nicht robust gegeniiber so genannten Ausreii3ern ist . Einen robusteren Mittelwert konstruiert man, indem man die Daten trimmt, d .h . einen bestimmten Anteil ,extremer" Werte weglasst . Wir setzen voraus, dass die Daten bereits aufsteigend geordnet sind, also xl < x2 < . . . < x n gilt . Wenn man den Anteil a der Daten (mit 0 < a < 1/2) oben and unten weglasst and das arithmetische Mittel aus den verbleibenden Daten berechnet, erhalt man das a-getrimmte Mittel xa .
Beispiel : Fur die Daten x1 = X2 = X3 = X4 = X5 =
- 27
1
4 5 10
x6 = x7 X8 = X9 = x10 =
12 14 20 25 300
38
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
ist das arithmetische Mittel gleich x
10
(-27+1+4+5+10+12+14+20+25+300)=36,4
and das 0,1-getrimmte Mittel gleich To , 1
= 8
(1+4+5+10+12+14+20+25) = 11,375 .
Der Einfluss der beiden Ausreifler xl = -27 and x10 = 300 wurde eliminiert .
Die allgemeine
Formel fur das a-getrimmte Mittel lautet
wobei [na] den ganzzahligen Teil
von
na bezeichnet . Es
ist ein gewichtetes
Mittel mit Gewichten wi = 1/(n - 2[na]) fur i = [na] + 1, . . . , n - [na] and
wi = 0 sonst .
Im vorigen Zahlenbeispiel war a = 0, 1, wegen n = 10 gilt also [na] = 1 .
Median and Modus Weitere MaEzahlen
der Lage von metrischen Daten
sind der Median and - falls er eindeutig bestimmt ist - der Modus . Beide
sind bereits fur ordinal- bzw . nominalskalierte Daten definiert . ist besonders robust gegeniiber Ausreif3ern .
Der Median
Betrachtet man die Haufigkeiten nj als Haufigkeitsfunktion Sj H nj, definiert auf der Menge der angenommenen Werte {6, 6, . . . , ~J}, so ist der Modus absolutes Maximum dieser Funktion . Wenn die Haufigkeitsfunktion nur ein absolutes Maximum and keine weiteren lokalen Maxima besitzt, sagt man, die Daten seien unimodal verteilt . Beispiel : Der Median im vorigen Zahlenbeispiel betragt
xo,5 = 10 . Modus ist
jeder der beobachteten Werte ; den Modus als Lagemaf3 zu verwenden, macht deshalb hier keinen Sinn .
In der statistischen Praxis wird meistens das arithmetische Mittel x angegeben, um die Lage der Daten zu beschreiben . Haufig wird zusatzlich der Median xo,5 and - falls er eindeutig ist - der Modus berechnet . Demgegeniiber sind getrimmte Mittel im Bereich der Wirtschafts- and Sozialwissenschaften weniger verbreitet ; dies liegt an der Schwierigkeit, den Trimmparameter a
geeignet zu wahlen . Zu bedenken ist auch, dass,,Ausreilmer" fur den Fachwissenschaftler oft besonders interessante Daten sind ; sie diirfen deshalb in der statistischen Analyse nicht ohne weiteres unterdriickt werden . Begriff des LagemaRes Das arithmetische Mittel, die getrimmten Mittel and allgemein die gewichteten Mittel beschreiben die Lage der Daten ; sie
2.3.
METRISCH SKALIERTE DATEN
39
werden deshalb als Lagemafie bezeichnet . Man mag sich fragen, was denn das Wesen eines Lagemates ausmacht, d .h . welche Eigenschaften eine Mafizahl aufweisen muss, damit man sie als Lagemafi bezeichnen kann . Die allgemeine Definition lautet : Eine Mafizahi ist ein Lagemall, wenn sie affin aquivariant ist . Dies bedeutet Folgendes : Bezeichnet m (xl, . . . , x,,,) die Mafizahl, so soil fur beliebige Zahlen a and b E R, b > 0, gelten :
m(a+bxl, . . .,a+bx,,,) =a+bm(xl, . . .,x,,,) . Ein Lagemafl wird, wenn man die Daten mit einem Faktor multipliziert oder ihren Nullpunkt verschiebt, in gleicher Weise transformiert . Wie man leicht nachpruft, sind die bisher aufgefiihrten Mittelwerte sowie Median and Modus affin aquivariant .
2 .3 .2
Weitere Mittelwerte
Wenn die Daten ein hoheres metrisches Skalenniveau besitzen, lassen sich weitere Mittelwerte bilden . Die fur die okonomischen Anwendungen wichtigsten sind das harmonische and das geometrische Mittel . In diesem Abschnitt nehmen wir an, class x1, x2 i . . . , xn mindestens verhaltnisskaliert and dass alle Werte positiv sind, also xi > 0 fur i = 1, . . . , n . Das harmonische Mittel ist definiert als (~--~ EXCEL)
Das harmonische Mittel ist also der Kehrwert des arithmetischen Mittels der Kehrwerte der Daten xi.
Beispiel „Heizol": Ein Hausverwalter kauft Heizol fiir ein Haus . In drei aufeinander folgenden Heizperioden gibt er jeweils 4000€ dafzir aus . Die Preise pro Liter betragen : erste Heizperiode zweite Heizperiode dritte Heizperiode
0, 30 €/Liter,, 0, 35 €/Liter,, 0, 32 €/Liter .
Wie viel € pro Liter Heizol wurde in den drei Heizperioden durchschnittlich aufgewandt?
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
40
Den Durchschnittspreis (in € pro Liter) berechnet man so : 3 .4000
Ausgaben fur Heizol (in €)
4000 + 4000 + 4000 0,3 0,35 0,32
Menge (in Liter)
3 0,3 + 0,35 + 0,32
(3 (0,1 3 + 0,35 + 0,132) 0,3220
€
L Liter
Der durchschnittliche Preis pro Liter ergibt sich also als harmonisches Mittel der Preise in den drei Heizperioden . Man beachte, dass in diesem Beispiel nicht die Anzahl der gekauften Liter, sondern der ausgegebene Betrag vorgegeben war. Ein weiteres Beipiel fur die Anwendung des harmonischen Mittels findet sich im Kapitel 4 im Zusammenhang mit Indizes vom Typ Paasche . Das geometrische Mittel ist definiert als (_--> EXCEL)
TG = VXI •
x2 ' . . .
xn =
n
11 xi
i=1
Es lasst sich auch in der folgenden Form schreiben :
xG
n i=1
exp
xi
= exp n x= 1
Also gilt In TG
= -
In
n i=1
In
n i=1
n
xi
xi) .
In xi = In xi ,
der Logarithmus des geometrischen Mittels ist das arithmetische Mittel der logarithmierten Daten . Das geometrische Mittel wird vor allem bei der Berechnung von durchschnittlichen Wachstumsfaktoren and Wachstumsraten (siehe Kapitel 4) angewandt . Wir geben hier nur ein einfaches Zahlenbeispiel an :
2 .3 .
METRISCH SKALIERTE DATEN
41
Beispiel : Das geometrische Mittel von xl = 0, 6, ist
x2 = 0, 7
and
x3 = 0, 65
xG = ( 0, 6 . 0, 7 • 0, 65) 3 = 0, 6487 .
Berechnet man fur these Zahlen auch das arithmetische and das harmonische Mittel, so sieht man, dass x H = 0, 6474
< TG
= 0, 6487 < x
Tatsachlich kann man beweisen, dass immer
= 0, 65 .
< xG < x
xH
gilt . Die Gleichheit gilt genau dann, wenn alle x Z den gleichen Wert haben . (Beweis fur n = 2 : Ubung fur den Leser!) Berechnung aus diskret klassierten Daten Arithmetisches, harmonisches and geometrisches Mittel kann man auch berechnen, wenn nur eine diskrete Klassierung (~1, nl), (~2 i n2) , . . . , (~J, nJ) der Daten bekannt ist . Es ist dann x
=
xH
xG
n
j=1
n
=
J
~jn j J
j=1 ~j
j=1 1
J F- ~3 j=1
7
J t
fl Sj ~ j=1
j fj ,
=
l fj
l
1
J
~J j 1 1 ~Jh ' j=1
Fur Anwendungsbeispiele verweisen wir auf Kapitel 4 . Hier begniigen wir uns wieder mit einem Zahlenbeispiel . Beispiel : Aus der Urliste x 1 , . . . , x, eines verhdltnisskalierten Merkmals X wurde die nachfolgende diskrete Klassierung erstellt: 1 2 3
0,25 0,10 0,30 0,35
Man berechnet
x = xH xG
=
=
1 .0,25+2 .0,1+3 .0,3+4 .0,35=2,75, (1 -1 . 0,25+2 -1 . 0,1+3 -1 . 0,3+4 -1 . 0,35)
10,25 .20" . 3 0 ,3 .40 35 = 2 4208 .
1 =2,0513,
42
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
Potenzmittel Neben den bisher genannten Mittelwerten, die alle zur Klasse der gewichteten Mittel zahlen, gibt es noch viele weitere Mittelwerte . Eine umfassende Familie von Mittelwerten bilden die so genannten Potenzmittel,
xP =
n
n z=1
P
P
i
Fur jede Zahl p =A 0 ist hierdurch ein Mittelwert der Daten definiert . Fur p = 1 erhalt man das arithmetische and fur p = -1 das harmonische Mittel . Durch eine kleine Rechnung lasst sich (unter Verwendung der Regel von de l'Hospital) zeigen, class sich fur p --> 0 als Grenzwert das geometrische Mittel ergibt . Weiterhin gilt lim
P->-00
p 2
lim
P-p+00
P
=
min {xl, . . .,xn},
= max{xl, . . .,xn} .
2 /
An einfachen Beispielen (Ubung fur den Leser!) lasst sich zeigen, dass das harmonische and das geometrische Mittel ebenso wie die Potenzmittel mit p :,,~ 1 nicht affin aquivariant, d .h . keine Lagemafle im Sinne der obigen Definition sind . Dennoch stellen auch these Maf?zahlen sinnvolle „mittlere Werte" dar .
2.3 .3
Streuungsmessung
Eine zweite Aufgabe der beschreibenden Statistik ist die Streuungsmessung . Sie besteht darin, zu beschreiben, wie weit die Daten auf der Merkmalsachse voneinander entfernt liegen oder um ein geeignet definiertes Zentrum der Daten streuen . Seien x1 i x2, . . . , x n metrische Daten wie bisher . Varianz and Standardabweichung Die am weitesten verbreiteten Matzahlen der Streuung sind die Varianz (auch einfach Streuung genannt)
and die Standardabweichung
2 .3.
METRISCH SKALIERTE DATEN
43
Um anzuzeigen, class Daten des Merkmals X zugrunde liegen, schreibt man auch s x and sx fur die Varianz bzw . die Standardabweichung . 4 Haben die Daten x1, . . . , x n eine Einheit (stellen sie z .B . Geldbetrage in Euro dar), so sieht man, dass
• x dieselbe Einheit hat, • s 2 die ,Einheit im Quadrat" hat, • s dieselbe Einheit hat . Die wichtigsten Eigenschaften von s 2 and s sind die folgenden : 1 . Es ist s 2 > 0 and s > 0 . Weiter gilt s 2 =0
s=0 < >
<
x1=x2= . . .=xn .
>
Die Varianz and auch die Standardabweichung sind also genau dann gleich null, wenn alle Daten den gleichen Wert haben . 2 . Durch Umformungen erhalt man fur s 2 : s2
n 1
(xi -
-
x) 2
n =
2 - 2xix +
i=1
1 n 2x- xi + x 2
n
= -
x2) - 2x 2 +
x2 ,
Diese Formel verwendet nichtzentrierte Summanden (- EXCEL) . Sie ist fur die konkrete Berechnung von s 2 giinstig, wenn die Mehrzahl der Daten dem Betrag nach nicht allzu grot ist . Ansonsten berechnet man s 2 besser nach seiner Definitionsformel mit zentrierten Summanden (----> EXCEL) . 3 . Weiter lasst sich zeigen, dass S2 =
1 2n
n
n
( i - xj) 2 .
4 Hinweis : Statt mit dem Faktor n werden die Varianz and die Standardabweichung gelegentlich mit dem Faktor nll definiert, besonders in manchen Taschenrechnern and statistischen Computerprogrammen . Eine Begrundung des Faktors nl11 ist nur im Rahmen der schlie1 enden Statistik moglich .
44
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN Jeder Summand stellt den quadrierten Abstand zweier Beobachtungen xi and xj dar . Die Varianz ist also proportional dem quadrierten Abstand von je zwei Beobachtungen . 4 . Seien a and b Zahlen in R . Die Daten x i mogen durch die afhn-lineare Transformation fur i = 1, . . .,n
yi = a + bxi
zu den Daten yi transformiert werden, i = 1, . . . , n . Dann gilt 2 22 BY = b SX ,
sy = UI SX .
Die Varianz and die Standardabweichung werden demnach von der,,Verschiebung" um a nicht beeinflusst . Der Faktor b hat jedoch sehr wohl einen Einfluss ; er geht als Faktor mit seinem Quadrat in die Varianz and mit seinem Absolutbetrag in die Standardabweichung ein . Zur Illustration dient das folgende Beispiel . Beispiel „Temperatur": Die mittlere Temperatur x an einer Wetterstation im Januar betrage 4°C (Grad Celsius) . Die Standardabweichung sx sei 7°C . Man gebe die mittlere Temperatur, die Standardabweichung and die Varianz in °F (Grad Fahrenheit) an . Mit yi = 32 + 1, 8x i fur die Temperaturen y j in °F erhalten wir
y = sy
=
s 22, =
32+1,8 .4=39,2 1,8 . 7=12,6
[° F],
[° F] ,
1,8 2 .72 = 158,76
1
[( ° F) 2 .
5 . Fur jede reelle Zahl c gilt der Verschiebungssatz
den man leicht nachrechnet : 1 i=1 n i=1 =
n
( i - c) 2=-
(
y)2
i=1
n
+2 1 n
[(xi -
x) + (x
- c)] 2
i-x)(x-C)+(x- C) 2
82 + (x - c) 2 .
Am Verschiebungssatz erkennt man wiederum die Minimumeigenschaft des arithmetischen Mittels : Die Summe der quadrierten Abweichungen von einem Bezugspunkt c ist minimal, wenn man c = 7 wahlt .
2 .3 .
METRISCH SKALIERTE DATEN
45
Zentrierung und Standardisierung von Daten Aus den Daten X1, X2, . . . , x n zum Merkmal X bildet man die zentrierten Daten x1 -
x,
x2 -
x, . . . ,
xn -
x
und die standardisierten Daten X,
-T
x2-x
sX
sX
,
•
xn
,
-x
SX
Offenbar ist das arithmetische Mittel der zentrierten Daten 0 und ihre Varianz betragt sX . Die standardisierten Daten weisen ebenfalls den Mittelwert 0 auf; ihre Standardabweichung ist 1 . Dies folgt aus der affinen Aquivarianz des Mittelwerts und der Eigenschaft 4 der Varianz . Zentrierung und Standardisierung werden verwendet, um Daten von zwei (und mehr) Merkmalen zu vergleichen . Will man von deren unterschiedlicher Lage absehen und nur die ubrigen Aspekte wie Streuung und allgemeine Form der Verteilung berucksichtigen, so untersucht und vergleicht man die zentrierten Daten . Will man auger vom Unterschied in der Lage auch von dem in der Streuung absehen, so vergleicht man die standardisierten Daten . Wichtige Magzahlen wie die Schiefe (siehe Abschnitt 2 .3 .5) und der Korrelationskoeffizient (siehe Abschnitt 5 .2 .1) sind so definiert, dass sie nur von den standardisierten Daten abhangen . Sie beschreiben bestimmte Aspekte der Daten, die nichts mit ihrer Lage und ihrer Streuung zu tun haben . Getrimmte Varianz und Standardabweichung Dadurch, dass in die Berechnung von s 2 und s quadrierte Abstande eingehen, werden sie besonders stark von ,Ausreigern" beeinflusst . Analog zum getrimmten Mittel definiert man deshalb (fur 0 < a < 1/2) eine a-getrimmte Varianz, 1 sa
n-[nn]
n - 2 [na]
i=[naj+1
(xz
sowie eine entsprechende a-getrimmte Standardabweichung, S a = S 2a . (Wie bei den getrimmten Mitteln setzen wir voraus, class die Daten aufsteigend geordnet sind .) In der beschreibenden Statistik werden noch weitere Magzahlen der Streuung verwandt . Die folgenden vier verhalten sich bei einer affin-linearen Transformation der Daten wie die Standardabweichung (siehe obige Eigenschaft 4) . Die verschiedenen Streuungsmalle unterscheiden sich unter anderem in ihrer Robustheit gegenuber etwaigen Ausreigern .
46
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
Mittlere absolute Abweichung vom Median Die MaEzahl
heiRt mittlere absolute Abweichung vom Median ( -4 EXCEL) . Sie besitzt die folgende Minimumeigenschaft : I n i -x0,51 = min aER n i=1
i - aI
Ginis mittlere Differenz Die MaJ zahl
heiEt Ginis mittlere Differenz . Wie bei der Varianz (siehe obige Eigenschaft 3) werden hier die Abstande zwischen je zwei Beobachtungen gemittelt ; allerdings statt der quadrierten sind es die gewohnlichen Abstande . Es gilt o=-
n
n
i=1j=i+
Ixi - xj
I.
A spielt im Rahmen der Disparitatsmessung eine wichtige Rolle . Im Vergleich mit der Standardabweichung werden d and A in geringerem Malie durch Ausreiller beeinflusst, da in ihre Berechnung nicht die quadrierten, sondern die gewohnlichen Abstande eingehen . Quartilabstand Die Differenz zwischen dem oberen and dem unteren Quartil der Daten, Q = x0,75 - 5C0,25,
wird als Quartilabstand bezeichnet . Q ist die Spanne, die die mittleren 50 Prozent der Daten umfasst . Sie ist besonders robust gegenuber Ausreiflern, da die Werte, die die Daten im oberen and im unteren Viertel annehmen, keine Rolle spielen . Spannweite Die Differenz zwischen dem groflten and dem kleinsten Wert der Daten,
R = max xi i=1, . . .,n
min
i=1, . . .,n
xi,
heilt Spannweite (englisch : range) . R wird offenbar besonders stark von Ausreillern beeinflusst .
2.3.
47
METRISCH SKALIERTE DATEN
Beispiel : Fur die Daten - 27 1 4 5 10
x1 =
= X3 = X4 = x5 = X2
x6 = X7 =
= = x10 = x8 x9
12 14 20 25 300
ist das arithmetische Mittel x = 36, 4 . Die Varianz betragt 82
= -
x2
2=
=
01 • 92236 - (36,4) 2
=
7898, 64,
folglich gilt fur die Standardabweichung 8 = \/ s 2 =
88, 87 .
Das 0,1-getrimmte Mittel istTo,1 = 11, 375 . Als getrimmte Varianz berechnet man O2'1
=8
x2,1
z=2
• 1507 - (11,375 ) 2
=
58, 984 .
Mit x0,5 = xs = 10 ergibt sich die mittlere absolute Abweichung vom Median als 10
d
10
i-101 = 37,8 .
i-1
Fv,r Ginis mittlere Differenz erhalt man 2
10
10
100 Fz=1 j=i+1
i-xjI = 64,4 .
Der Quartilabstand betrdgt Q=xo,7s -
xo,25 =x$
- x3=20 - 4=16 .
Fur die Spannweite ergibt sich R = max xi i=1, . . . ,
min xi = 300 - (-27) = 327 .
in =1, . . .,n
2.
48
AUSWERTUNG VON EINDIMENSIONALEN DATEN
Interpretation von MaEzahlen der Lage and Streuung Wahrend sich die Werte von Mailzahlen der Lage (wie Mittelwert Y and Median xo,5) gut inhaltlich interpretieren lassen, ist das bei den Werten von StreuungsmaEzahlen nicht immer der Fall . Beispiel „Einkommensverteilung": Bei den n = 200 Beschaftigten eines Betriebes wurde das monatliche Brutto-Einkommen (in €) erhoben . Es ergab sich :
T
d
=
82 = s =
3 200 1170 3 348 900 1 830
Zur Interpretation der Maizahlen : x =
xo, 5 = A = Q = R
3200
=
2 900 1720 1 850 18 000
ist dasjenige Einkommen, das
jeder bei Gleichverteilung der gesamten Einkommenssumme erhalten wiirde .
xo,5 = 2900
teilt die Einkommensverteilung in zwei Halften : die unteren 50%
and die oberen 50% der Beschaftigten . Q =
1850
ist die Spanne, in der die
mittleren 50% der Beschaftigten mit ihren Einkommen liegen . R =
18000
ist die Spanne zwischen dem hochsten and dem niedrigsten Einkommen . Die Werte der restlichen Maf3zahlen d, s2 , s and A sind nicht so direkt and an-
schaulich interpretierbar. Sie konnen jedoch benutzt werden, um die Streuung dieser Einkommensverteilung mit der einer anderen zu vergleichen .
Zur Interpretation der Standardabweichung s kann man die folgenden Aussagen verwenden, die auf der so genannten Tschebyscheff-Ungleichung der Wahrscheinlichkeitsrechnung beruhen : • Im offenen Intervall ]x - 2s, T
+ 2s[ liegen mindestens 75% der Daten, d.h . auflerhalb dieses Intervalls liegen hochstens 25% der Daten .
• Im offenen Intervall ]x - 3s, T + 3s[ liegen mindestens y . 100% ~ 89%
der Daten, d .h . aul?erhalb dieses Intervalls liegen hochstens s 100% der Daten .
Berechnung aus diskret klassierten Daten Alle Streuungsmal?e lassen sich auch aus einer diskreten Klassierung berechnen . Es gelten die Formeln
2 .3 .
METRISCH SKALIERTE DATEN
49
Fur Q ergibt sich keine andere Formel als im Fall von unklassierten Daten . Begriff des Streuungsmafges Abschlietend sei die Frage gestellt, was ein Streuungsmat im eigentlichen Sinne ausmacht, d .h . welche Eigenschaften ein Streuungsmaf? charakterisieren . Man definiert ein Streuungsmaf3 als eine Mafmzahl m (xl, . . . , x,,), die
• lage-invariant , d .h . invariant in Bezug auf jede Nullpunktsverschiebung yi = xi + a (mit a E R), and • skalen-aquivariant, d .h . aquivariant in Bezug auf jede Maf3stabsanderung yj
bx i (mit b > 0), ist .
Zusammen bedeutet dies, class mit beliebigen Zahlen a E R and b > 0 gelten muss : m(a+bxl, . . .,a+bx,,,)=bm(xl, . . .,xn) . Man kann leicht zeigen (Ubung fur den Leser!), dass alle in diesem Abschnitt aufgefiihrten Malizahlen mit Ausnahme von s 2 lage-invariant and skalenaquivariant, also Streuungsmafle im definierten Sinne sind .
2 .3 .4
Additionssatze fur arithmetische Mittel and Varianzen
Die Problemstellung dieses Abschnitts lasst sich formal folgendermaflen beschreiben . In einer Grundgesamtheit G wurden die Daten x1 i x2, . . . , x,ti eines metrisch skalierten Merkmals erhoben . Die Grundgesamtheit zerfalle in
50
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
J Teilgesamtheiten Gl, . . . , Gj . Wie hangen die Mittelwerte xl J and . . ., 8 2 der Teilgesamtheiten G1, . . . , G j mit dem Mittelwert Streuungen s2, 1 x and der Streuung s2 der Grundgesamtheit G zusammen?
Beispiel „Arbeitslosigkeit": Im Rahmen einer Arbeitsbeschaffungsmaf3nahme fanden 100 Arbeitslose wieder Beschaftigung in einem Groflunternehmen . Sie wurden nach der Dauer X (in Monaten) der vorangegangenen Arbeitslosigkeit befragt . Es ergab sich fiir Frauen and Manner :
Anzahl Mittlere Dauer der Arbeitslosigkeit Standardabweichung der Arbeitslosigkeitsdauer
Frauen 60 9,2
4,1
Manner 40 7,4 3,2
In diesem Beispiel zerfallt die Grundgesamtheit von 100 Arbeitslosen nach dem Geschlecht in zwei Teilgesamtheiten . Wie kann man aus den Angaben der Tabelle die mittlere Dauer and die Standardabweichung aller 100 Arbeitslosen berechnen? Zur Herleitung der erforderlichen Formeln bezeichne G {1, 2, . . . , n} die Grundgesamtheit and G 1 , . . . , G j die Teilgesamtheiten . Die j-te Teilgesamtheit Gj habe den Umfang nj , j = 1, . . . , J . xj sei der Mittelwert aller Merkmalswerte, die zu Merkmalstragern in G j gehoren, d .h .
xj
=1 nj
xi . ieGj
Es ist dann
Die Formel
lasst sich leicht interpretieren : Das Gesamtmittel x ist ein gewichtetes Mittel der Mittelwerte der Teilgesamtheiten xj . Die Gewichte entsprechen dabei den Anteilen der Umfange der Teilgesamtheiten G ; am Umfang der Grundgesamtheit G .
51
2 . 3 . METRISCH SKALIERTE DATEN
Die Herleitung einer entsprechenden Formel fur s 2 ist etwas aufwandiger . Es gilt s2
=1 iEG~ + xj
=1
x) z
-x ) 2
_)2+2( xi - xj)(xj - x)] i - xj) 2 + (x; - x
j=1 iEG 3 J
-
i
2
=1 iEGg
1 J +2n j=1 iEG~
-
1 +-
=1 iEG3
j) (j
- x)
= 0 fur alle j
j=1
7 72
s nt
x)2 -j
7Z ~
j=1 se=t
2 S2 = S 2int + Sext
Diese Formel, der Varianzzerlegungssatz, lasst sick gut interpretieren . Die Gesamtstreuung besteht aus zwei Teilen, namlich
• der internen Variant s nt , die emn gewichtetes Mittel aus den Varianzen s~ der Teilgesamtheiten Gj ist, Bowie
• der externen Variant sext, die emn gewichtetes Mittel der quadrati-
schen Abweichungen (xj - x) 2 der Mittelwerte xj der Teilgesamtheiten Gj vom Gesamtmittel x ist .
Gewichte sind jeweils die Anteile , d .h . die Anteile der Umfange der Teilgesamtheiten Gj am Umfang der Grundgesamtheit G . Die Extremfalle kann man folgendermaiien charakterisieren :
• slu t = 0 (d .h . s 2 = next) bedeutet, dass es innerhalb alley Teilgesamt-
heiten Gj keine Streuung gibt, d .h . alle Merkmalswerte, die zu Merkmalstragern einer Teilgesamtheit Gj gehoren, sind gleich .
52
2.
AUSWERTUNG VON EINDIMENSIONALEN DATEN
• Falls sext = 0, d .h . s 2 = s nt ist, sind alle Mittelwerte
xj gleich . Zwischen den x~ gibt es dann keine Streuung . Die Gesamtstreuung s 2 beruht ausschliefblich auf der Streuung innerhalb der Teilgesamtheiten .
Im obigen Beispiel „Arbeitslosigkeit" ist x
=
7,4 00 +9,2 00
2 sins
=
40 60 3, 22 . + 4,1 2 . 100 = 14,182 Monate2 ] , 100
sext
=
s2 = s =
8,48 [Monate] ,
(7,4 - 8, 48)2 . 00 + (9,2 - 8, 48)2 . 00 slat + sext = 14, 9596 [Monate 2] ,
0,7776 [Monate2] ,
3, 9 [Monate] .
Die Streuungszerlegung s 2 = s nt + sext gibt Anlass zur Definition einer Mallzahl 2 B = sext s2 die man als „Anteil der externen Streuung an der Gesamtstreuung" umschreiben kann and die als Bestimmtheitsmaf~ bezeichnet wird . Sie gibt denjenigen Anteil an der Gesamtstreuung s 2 an, der sick durch die Einteilung der Grundgesamtheit in Teilgesamtheiten begrunden last . Offensichtlich ist 0 sint B=1
Wir kommen auf die Maflzahl B im Zusammenhang mit der empirischen Regression erster Art im Kapitel 5 zuriick. Im Beispiel „Arbeitslosigkeit" ist
7776 _ B __ sext = 0, 14 , 9596 0, 052 , s2
d .h . nur rund 5% der Gesamtstreuung der Arbeitslosigkeitsdauern dieses Datensatzes lassen sick durch die Unterteilung der Arbeitslosen in Frauen and Manner begrii,nden .
2 .3 .5
Stetig klassierte Daten
Haufig liegen Daten fiber emn metrisches Merkmal in stetiger Klassierung vor . Stetige Klassierung bedeutet, dass die Werte des Merkmals in sogenannten „Klassen" zusammengefasst sind and anstelle der Einzeldaten lediglich
2 .3 .
METRISCH SKALIERTE DATEN
53
diese Klassen and die Anzahl der Dates in jeder Klasse angegeben werden . Insbesondere bei einem stetigen Merkmal macht es in der Regel keinen Sinn, die Haufigkeiten der einzelnen Werte zu zahlen . Stattdessen ist es notwendig, die Dates stetig zu klassieren, das heifit, den Wertebereich des Merkmals in Teilintervalle (= Klassen) zu unterteilen and fur jede Klasse die Anzahl der Dates anzugeben, die in sie fallen .
Beispiel „Haushaltseinkommen": Die Grundgesamtheit umfasse alle Haushalte einer bestimmten Region . Als Merkmal werde das verfiigbare Haushaltseinkommen (in Euro) erhoben . Die Urliste besteht dann aus einer Auflistung der erhobenen Einkommen . Eine stetige Klassierung erhalt man durch die Wahl geeigneter Einkommensklassen and die Auszahlung der entsprechenden Haufigkeiten . Das Ergebnis kann dann etwa so aussehen : Einkommensklasse Anzahl der Haushalte bis 1000 40 uber 1000 bis 2000 100 uber 2000 bis 3000 300 uber 10000
10
Wir verwenden nun die folgende Notation : Mit den Intervallgrenzen
xi <xi=x2 <x2=x3
< . . .Gxj_I=xjGxj
sei der Wertebereich des Merkmals in J Intervalle zerlegt,
KI = [x, x] ,
K~ =]x~ , x~],
°
j = 2, . . . , J .
Dabei darf xl den Wert -oo and x j den Wert 00 haben . Fur j = 1, . . . , J bezeichne weiter n~ die absolute Haufigkeit and f, die relative Haufigkeit der Klasse j,
n~ = Anzahl der Dates in K~ , f.
= n Anteil der Dates in Ka .
Die stetige Klassierung der Urliste XI, 12, . . . , x, ist dann durch (`-* EXCEL)
(KI, ni), (K2, n2), . . . , (Kj, nJ)
gegeben . Aquivalent zur stetigen Klassierung ist die Angabe von n and den relatives Haufigkeiten
(KI, fi), (K2, .f2), . . . , (Kj, .fj) . Eine stetige Klassierung sagt nichts uber die Verteilung der Dates innerhalb der einzelnen Klassen aus . Im Vergleich mit den Einzeldaten einer Urliste
2.
54
AUSWERTUNG VON EINDIMENSIONALEN DATEN
enthalt die stetige Klassierung deshalb weniger Information . Der Informationsverlust kann - je nach Zahl and Breite der Klassen - erheblich sein . Einen solchen Informationsverlust nimmt man in Kauf, um die Daten iibersichtlicher darzustellen. Oft wird die Klassierung bereits bei der Erhebung der Daten vorgenommen . Zum Beispiel wird bei Einkommenserhebungen in der Regel nicht das exakte Einkommen einer Person erfragt, sondern nur, oh das Einkommen in eines von mehreren vorgegebenen Intervallen fallt . Auch zum Zwecke des Datenschutzes kann eine stetige Klassierung angezeigt sein . In diesem Fall werden die Klassen so grofi gewahlt, dass aus den Haufigkeiten der stetigen Klassierung keine Riickschliisse auf die Einzeldaten gezogen werden konnen . Daten aus einer Urliste wird man nur dann stetig klassieren, wenn sie zahlreich sind and viele verschiedene Werte aufweisen . Falls namlich nur wenige verschiedene Werte in der Urliste vorkommen, ist eine diskrete Klassierung vorzuziehen . Wichtig ist es, die Anzahl J der Klassen sowie die Klassengrenzen x~ and x~ so zu wahlen, dass der Informationsverlust moglichst gering bleibt . Emn schwieriges Problem stellt haufig die Wahl von xJ dar . Beispiel „Studierende" : Die Ergebnisse einer bundesweiten Untersuchung des verfiigbaren Monatseinkommens (in €) von
folgenden stetigen Klassierung dargestellt :
9 1
Studierenden seien in der
f7
Einkommensklasse K~ Studierende n j 0 bis
250 500 750
2
meter als
3
meter als
5
meter als 1000
4
5000
meter als
bis bis
250 500 750
bis 1000
300
1000 2000 1000 700 5000
x ;-x~'
0,06
0,20 0,40 0,20 0,14 1,00
0,00024 0,00080 0,00160
0,00080 7
An diesem Beispiel lassen sick einige Probleme der Klassenbildung verdeutlichen : • Sind bei
n =
5000 Daten J = 5 Klassen ausreichend?
Eine Faustregel besagt, dass fur n Beobachtungen J 10 log 10 n gleich grofle Klassen angemessen sind . Zur Wahl von J siehe auch Heiler and Michels (1994, S . 47f and Kap . 3 .4) . • Soll man die Klassen 1 bis 4 gleich breit wahlen, oder ist es sinnvoller, in der Mitte der Verteilung feiner zu klassieren, da sich hier meter Daten befinden als an den Randern?
2.3.
•
METRISCH SKALIERTE DATEN
55
1st es moglich, die oberste Klasse durch eine endliche Obergrenze abzuschlief3en?
Lieges die Dates nur in stetiger Klassierung vor, so muss man zu ihrer Auswertung die fehlende Information in geeigneter Weise substituieren . Es liegt nahe, zur Approximation davon auszugehen, dass die Dates innerhalb einer Klasse K3 gleichverteilt sind . Offensichtlich lieges die Dates umso „dichter",
•
je grol?,er die relative Haufigkeit f; and
•
je kleiner die Klassenbreite ist .
Den Quotienten
bezeichnet man ale empirische Dichte der Dates in der Klasse K~, j =
1,2 . . .,J .
Falls die unterste oder die oberste Klasse unbeschrankt sind, stellt sick das Problem, xl bzw . x~ durch einen endlichen Wert zu ersetzen, damit die empirische Dichte auch in diesen beiden Klassen definiert ist . In vielen Anwendungen ist xl = 0 eine naturliche untere Grenze, wohingegen die Wahl von x °j sehr viel schwieriger zu begrunden ist . 1ragt man die empirischen Dichten ale waagerechte Linien uber den Klassen ab and zeichnet an den Sprungstellen senkrechte Hilfslinien, so entsteht emn Histogramm .
Im obigen Beispiel „Studierende" wurde fir die Klasse K5 die Zahl 1500 ale kiinstliche Obergrenze gesetzt . Die empirische Dichte betragt dann 5'00 = 0, 00028 . Abbildung 2 .6 zeigt das Histogramm .
Auch mit Hilfe von EXCEL lasses sick Histogramme zeichnen, allerdings musses alle Klassen die gleiche Breite besitzen . Wens wie in diesem Beispiel das Histogramm sein globales Maximum in genau einer Klasse oder in mehreren benachbarten Klassen annimmt and keine weitere Klasse existiert, bei der die empirische Dichte emn lokales Maximum besitzt, nennt man das Histogramm and die zugehorige stetige Klassierung unimodal . Der Mittelpunkt der Klasse(n) mit globalem Maximum heiRt dann Modus des Histogramme . Bei der Interpretation eines Histogramme ist zu beachten :
•
Die einzelnen Rechtecksflachen uber den Klassen betragen (
( x~ f j x ~) =
"s '
d .h . sie sind gleich den relatives Haufigkeiten der Klassen .
56
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
0,00160,00120,0008 0,0004 250
500
750
1000
1250
1500
x
Abbildung 2 .6 : Histogramm zum Beispiel „Studierende"
• Die Gesamtflache unter der empirischen Dichte (die Summe alley Rechtecksflachen) ist gleich eins, denn es gilt Gesamtflache
Summe der Rechtecksflachen J
~) . fj
x~ J
(x~ - x~
=1 .
j=1
• Die relevanten Groflen bei einem Histogramm sind also die Rechtecksflachen fiber den Klassen .
Oft werden statt des Histogramms so genannte Kerndichteschatzer verwendet . Der Graph eines Kerndichteschatzers sieht ahnlich aus wie emn Histogramm, hat aber einen glatten oberen Rand . Die Flache fiber einem beliebigen Intervall entspricht naherungsweise der Haufigkeit, mit der die Daten in dieses Intervall fallen . Eine elementare Einfiihrung in die Kerndichteschatzung findet man in Heiler and Michels (2004, Kapitel 3 .2) . Im Folgenden sollen Formeln hergeleitet werden, mit denen wir empirische Verteilungsfunktion, Quantile, Lage- and Streuungsmafle zumindest naherungsweise berechnen konnen, wenn nur eine stetige Klassierung bekannt ist, die Werte der Urliste jedoch nicht . Es sei eine stetige Klassierung mit (Ki, f1), . . . , ( KJ, fJ) gegeben . Empirische Verteilungsfunktion Fur beliebiges x e R ist die empirische Verteilungsfunktion F(x) als der Anteil der Daten definiert, die kleiner oder
2 .3 .
57
METRISCH SKALIERTE DATEN
gleich x sind . An den Stellen ,x, d .h . an den Obergrenzen der Klassen Ka , kann die empirische Verteilungsfunktion deshalb aus der stetigen Klassierung exakt berechnet werden . Es ist F(x)
r=1
j=1,2, . . .,J .
r,
Auf?,erdem gilt F(x)
= 0
F(x)
= 1
fur fur
x < xl , x > x~ .
Innerhalb der Klassen wird linear interpoliert, d .h . fur x E]x~ , x~ ] setzt man (y EXCEL)
(Diese Formel lasst sick auf den aus der Geometric bekannten „Strahlensatz" zuriickfi hren .) Im Beispiel „Studierende" kann die empirische Verteilungsfunktion an den Klassenobergrenzen exakt bestimmt werden; die Klasse K5 erhalt daze wieder die Obergrenze 1500 . Es ergibt sick : j 1 2 3 4 5
Einkommensklasse K~ 0 bis 250 mehr als 250 bis 500 mehr als 500 bis 750 mehr als 750 bis 1000 mehr als 1000 bis 1500
0,06 0,20 0,40 0,20 0,14
F(x?)
0,06 0,26 0,66 0,86 1,00
Zwischen den Klassengrenzen wird linear interpoliert . Abbildung 2.7 stellt die so interpolierte Verteilungsfunktion dar . Beispielsweise ist
F(650)
0,26 + 75 '
-
00 (650 - 500) = 0, 50 .
Quantile Mit Hilfe der (interpolierten) empirischen Verteilungsfunktion kann das p-Quantil x p der stetig klassierten Daten naherungsweise bestimmt werden . Wir nehmen an, dass keine Klasse die Haufigkeit 0 besitzt . Dann wachst
58
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
F(x)
Abbildung 2 .7 : Linear interpolierte Verteilungsfunktion die Verteilungsfunktion im gesamten Intervall sie auEerdem stetig ist, hat die Gleichung
[xi, z,]
streng monoton . Da
F(x) = p fur jedes 0 < p < 1 eine eindeutige Losung, namlich x, . Zur konkreten Berechnung von x p geht man so vor :
•
Erster Schritt : Bestimme die Klasse K~, in der x P liegt, d .h . bestimme dasjenige j, fur das F (x~) < p < F (x~) gilt .
•
Zweiter Schritt : Lose die Gleichung
p=F(x~)+ (xofjxu) (x - x) nach x auf. Man erhalt
Im Beispiel „Stndierende" liegt offenbar der Median xo,5 in der Klasse ncit Index j = 3 . Es ist xo,5 = 500+
]500, 750]
0,5 - 0 26 250=650 [€] . 0 4'
Arithmetisches Mittel her kann man auf die Formel aus Abschnitt 2 .3 .4 zuruckgreifen, indem man jede Klasse K3 als Teilgesamtheit G ; auffasst .
2 . 3.
METRISCH SKALIERTE DATEN
59
Wenn die tatsachlichen Klassenmittelwerte Tj bekannt sind, last sick x exakt berechnen als
Sind die xj nicht bekannt, so ersetzt man xj durch einen geeigneten Stellvertreter, in der Regel durch die Klassenmitte x~ + x~
~j = 2
Dann gilt approximativ (y EXCEL)
Wir ersetzen im Beispiel „Studierende" die unbekannten Mittelwerte xj der Klassen durch die Klassenmitten and erhalten
b0
(125 3+375 • 10+62520+87510+ 1250 7) = 682,50
[€1 .
Hierbei haben wir die Randklasse wiederum durch 1500 abgeschlossen.
Streuung Wir greifen auf den Varianzzerlegungssatz aus Abschnitt 2 .3 .4 zuruck, indem wir die Klassen Kj wiederum als Teilgesamtheiten Gj auffassen . Falls xj and s~ bekannt sind, kann man die Variant s 2 als Gesamtstreuung exakt ausrechnen . Es ist s2
n s? + j=1 In j=1
- x)2
nj
n
.
In der statistischen Praxis sind manchmal die Klassenmittelwerte xj bekannt, die internen Varianzen s~ jedoch so gut wie nie . Je nachdem, was bekannt ist, verwendet man die folgenden Approximationsformeln fur s 2 . Falls die Klassenmittelwerte bekannt sind, die internen Varianzen aber nicht, setzt man approximativ s~ 0 and erhalt
Diese Approximation ist immer kleiner als die wahre Variant . Wenn einzelne Klassen relativ breit sind, kann der Naherungsfehler erheblich sein .
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
60
Falls sowohl die Klassenmittelwerte als auch die internen Varianzen unbekannt sind, verwendet man die entsprechende Formel mit den Klassenmitten anstelle der Mittelwerte,
In diesem Fall kann die Approximation kleiner oder grofler als der wahre Wert der Variant sein (- EXCEL) . Wenn man im Beispiel „Studierende" die Varianzen innerhalb der Klassen
vernachlassigt, erhalt man s2
(125 - 682, 50)2
3 50
+ (375 - 682, 50)2 10 + (625 - 682, 50)2 20 50 50
+ (875 - 682, 50) 2 50 + ( 1250 - 682, 50)2 50 = 91381, 25 [€ 2 ], s
302 [€] .
In ahnlicher Weise lassen sick auch die ubrigen Streuungsmafle aus stetigen Klassierungen berechnen . Bei der naherungsweisen Berechnung von Werten der empirischen Verteilungsfunktion, Quantilen, Mittelwerten and Varianzen aus stetig klassierten Daten konnen - gegenuber der exakten Berechnung aus der Urliste - erhebliche Fehler entstehen, was bei der Interpretation zu berucksichtigen ist . Sofern die Urliste zur Verfugung steht, sollten deshalb alle statistischen Groflen direkt aus der Urliste berechnet werden . Mit den heutigen Mitteln der Datenverarbeitung stellt dies auch bei groflen Datensatzen kein Problem dar .
2.3 .6
Schiefemessung
Neben der Lage and der Streuung der Daten sind weitere Aspekte ihrer Verteilung von Interesse . Man beschreibt sic mit Hilfe von Maf?,zahlen, die sick auf die Form der Verteilung beziehen . Im Folgenden betrachten wir zwei solche Maflzahlen, die die Schiefe der Verteilung, namlich ihre Abweichung von einer symmetrischen Verteilung beschreiben . Die Daten der Urliste seien bereits aufsteigend geordnet, d .h . xl < x2 < . . . < x~ . Um die Symmetric zu definieren, beziehen wir die Daten auf einen zentralen Punkt, xze n tr -
xi ,
falls n ungerade,
a (x 2 + x ~-- ZZ ) ,
falls n gerade .
2 .3 .
61
METRISCR SKALIERTE DATEN
Fur ungerades n ist xzentr gleich dem Median der Daten . Die Verteilung der Daten x 1 , . . . , x n heil3t symmetrisch, wenn fur alle i
xzentr - xi - 'm -i+1 - xzentr gilt . Das heilit, die i-te Beobachtung von unten, xi, and die i-te Beobachtung von oben, xn_i+1, besitzen jeweils den gleichen Abstand vom zentralen Punkt . Wenn die Daten symmetrisch verteilt sind, gilt offenbar xzentr = x.
Beispiel : Die Daten x1= - 2, x6=6,
x2=-1, x7=7,
x3=1, x8=9,
x4=2, x9=10
x5=4,
sind symmetrisch verteilt . Ihr zentralen Pwnkt ist xzentr = xo,5 = x = 4 . Empirische Daten sind so gut wie niemals exakt symmetrisch verteilt . Deshalb ist es nutzlich, Maf3zahlen zu definieren, die Abweichungen von der Symmetric messen . Solche Mafbzahlen sind sinnvollerweise so konstruiert, dass sic die Asymmetric von Daten verschiedener Merkmale unabhangig von deren Lage and Streuung messen . Sie hangen nun von den standardisierten Daten ab . Die Schiefe der Daten x1, . . . , xn ist durch
definiert . Das Vorzeichen von g lasst sick so interpretieren : g > 0
<
>
Die Summanden mit (xi -
g < 0
<
Die Summanden mit (x . -
x) 3 >
0 uberwiegen .
) 3 < 0 uberwiegen .
Daten mit g > 0 nennt man rechtsschief, Daten mit g < 0 hingegen linksschief. Statt rechtsschief sagt man auch linkssteil and statt linksschief auch rechtssteil . Gemaf3 ihrer Definition auf den standardisierten Daten ist die Schiefe invariant gegeni ber 'Iransformationen des Nullpunkts and der Mai3einheit : Wenn die Daten x1 i . . . , x n die Schiefe g besitzen and a, b gegebene Zahlen sind, b > 0, dann besitzen die transformierten Daten a + bx1 i . . . , a + bx n dieselbe Schiefe g . Wenn die Daten symmetrisch verteilt sind, ist x = xzentr and je zwei der Summanden heben sick auf; es folgt g = 0 . Jede symmetrische Verteilung hat also die Schiefe null .
62
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
Der Leser mache sick an einem Beispiel klar, dass die Umkehrung nicht gilt, d .h . aus g = 0 folgt nicht die Symmetric der Verteilung . Die Schiefe g lasst sick auch aus diskret bzw . stetig klassierten Daten berechnen . Bei diskreter Klassierung gilt die Formel 3
g
=
fj
S
j=1
Bei stetiger Klassierung berechnet man approximativ 3
wobei, falls die Klassenmittel falls
xj
J fJ,
S
j=1
bekannt sind,
j
= xj
gesetzt wird, andern-
Beispiel „Semesterzahl": 110 Diplom-Kauflente wurden mach der Anzahl der bis zur Diplomprwfung benotigten Semester befragt . Es ergab sick : Anzahl Semester Anzahl Studenten
8 9 1 1
10 2
11 10
12 25
13 25
14 20
15 16 17 18 19 20 8 6 6 4 1 1
Fur die Schiefe berechnet man den Wert g = 0, 6358 . Die Verteilung ist rechtsschief, d.h . linkssteil; siehe Abbildung 2 .8 .
Die Schiefe ist mit zwei Nachteilen behaftet : • Sie ist nicht normiert, sondern kann beliebig grof~e positive and negative Werte annehmen . • Sie reagiert sehr empfindlich auf Ausreifler in den Daten . Eine Maf3zahl, die diese beiden Nachteile nicht aufweist, ist die Quartilschiefe , gQ _
x0,75 - xzentr) - (xzentr - x0,25 xo,75 - x0,25
Im Zahler vergleicht sic die Abstande des oberen and des unteren Quartils vom zentralen Punkt . Wegen der Division durch den Quartilabstand gilt : -1
d .h . gQ ist normiert . Die Quartilschiefe ist ebenfalls invariant gegenuber Transformationen des Nullpunkts and der Messeinheit . Da sic nur vom xo,zs
2 . 3.
METRISCH SKALIERTE DATEN
63
Beispiel= Diplomkaufleute 0,25
0,2 -
a
0,05 C 0
8
3
10
11
12
13
14
15
16
17
1
18
13
20
Semester
Abbildung
2 .8 :
Saulendiagramm einer rechtsschiefen Verteilung
xzemtr abhangt, ist sie auflerdem robust gegenuber Ausreillern . Die Berechnung von gQ von Hand ist einfach ; es sind lediglich die beiden Quartile xo,zs and x0,75 sowie xzentr zu bestimmen . Dies ist sowohl fur Einzeldaten als auch fur diskret oder stetig klassierte Daten moglich ; siehe die obigen Ausfi hrungen zur Berechnung von Quantilen . x0,75 and
Fur das Beispiel „Semesterzahl" erhalten wir x0,25 -
12,
xzentr - 13,
x0,75
= 14,
also
. g=0
Ebenso wie bei der Schiefe gilt : Jede symmetrische Verteilung hat die Quartilschiefe null . Die Umkehrung gilt, wie aus dem Beispiel ersichtlich, nicht . Emn Nachteil von gQ ist, dass die 25% kleinsten and 25% groEten Beobachtungen nicht in das Schiefemal3 eingehen, obwohl gerade in diesen Beobachtungen die Schiefe zum Ausdruck kommen kann . Dies sieht man auch an den Daten des Beispiels .
64
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
Erganzende Literatur zu Kapitel 2 Die Grundbegriffe dieses Kapitels kann man in den meisten Lehrbiichern der beschreibenden Statistik oder der Statistik fur Wirtschaftswissenschaftler nachlesen . Zur Vertiefung sei auf Benninghaus (2005) and Ferschl (1985) . verwiesen . Weitere moderne Verfahren der Datenanalyse sind in Heiler and Michels (2004) sowie `l key (1977) zu finden .
2 .4 .
2 .4
ANHANG ZU KAPITEL 2 : VERWENDUNG VON EXCEL
65
Anhang zu Kapitel 2 : Verwendung von Excel
Mit dem Tabellenkalkulationsprogramm Excel lassen sick viele Problemstellungen der beschreibenden Statistik effizient bearbeiten . Im Folgenden werden anhand von Beispielen Losungswege fur viele der im Kapitel 2 behandelten Fragestellungen vorgeschlagen . Diese Einfiihrung erhebt keinen Anspruch auf Vollstandigkeit . Oft sind auller dem beschriebenen Ansatz noch weitere Vorgehensweisen moglich . Die bier vorgestellten Losungswege verlaufen in der Regel, ahnlich wie das Rechnen ,,per Hand", fiber die Entwicklung einer Arbeitstabelle . An ausgewahlten Problemen wird auilerdem auf spezielle in Excel implementierte Funktionen hingewiesen . Die Benutzung der Funktionen wird am Fall der Funktion Modalwert (zur Berechnung des Modus) erlautert . Die hier dargestellten Vorgehensweisen beziehen sick auf Excel 97, lassen sick aber auch auf fast die gleiche Weise in anderen Excel-Versionen durchfi hren . Die Beispieltabellen miete_einzel . xls (Einzeldaten), CDplayer . xls, Aufg2_7 . xls (diskrete Klassierung) and miete_stetig . xls (stetige Klassierung)
sind im Internet unter www .uni-koeln .de/wiso-fak/wisostatsem in Excel 97 and Excel 5 .0 verfugbar .
/buecher/besch r stat
Im Folgenden bezeichnen Angaben in dieser SCHRIFT Befehle aus dem ExcelMenu . Per Hand einzugebender Text wird in diesem Schrifttyp erscheinen, wahrend (Rechen-)Befehle in der Kommandozeile beispielsweise als = Al + A2 hervorgehoben werden . Kurze Kommentare in den Rechenablaufen sind in diesem Schrifttyp verfasst . Der Ubersichtlichkeit halber erhalt wie bei den Arbeitstabellen jede Spalte eine Bezeichnung . Diese Information wird in die erste Zelle der Spalte eingegeben . Die Tabelleneintrage beginners demgemaf3 in der zweiten Zelle and enden in der Zelle n + 1 (bei Einzeldaten) bzw . der Zelle J+1 (bei klassierten Daten) . In den ersten Beispielen wird darauf noch explizit hingewiesen, in spateren Beispielen dann nicht mehr . Alle Zahlen konnen vom Benutzer fur die Ausgabe „gerundet" werden . Im Folgenden runden wir die Ergebnisse auf vier Dezimalstellen (FORMAT / ZELLEN / ZAHLEN y Auswahl von ZAHL bei KATEGORIE y Eingabe von 4 in Feld DEZIMALSTELLEN) . Die Zwischenrechnungen fihrt Excel dabei stets mit allen verfi gbaren Nachkommastellen durch . Bei komplexeren Berechnungen, etwa bei einigen Statistik-Funktionen, ist die Rechengenauigkeit von Excel allerdings nicht immer gut .
2.4 .1 Einzeldaten Um Excel fur statistische Auswertungen einsetzen zu konnen, mussen die Daten in eine Excel-Tabelle eingegeben werden . Liegen die Daten bereits
66
2.
AUSWERTUNG VON EINDIMENSIONALEN DATEN
in dieser Form vor, werden sie durch DATEI / OFFNEN aufgerufen . 1st das nicht der Fall, muss emn Datenblatt neu angelegt werden . Fur eine Urliste soil dies nun anhand eines Beispiels erlautert werden . Fur das gleiche Beispiel werden auch, sofern nicht anders angegeben, die weiteren Berechnungen durchgefiihrt . Beispiel „Miete": Die Grundgesamtheit bestehe aus 40 Studierenden an Kolner Hochschulen . Bei jedem Studierenden i wurde die Summe xi seiner Aufwendungen fur Miete and Nahrungsmittel erhoben : i
i i
1 345 11 435 21 500 31 555
2 395 12 520 22 450 32 470
825 13 780 23 560 33 505
4 605 14 585 24 480 34 515
720 15 370 25 330 35 495
6 365 16 490 26 600 36 350
7 610 17 470 27 1090 37 550
535 18 650 28 210 38 510
640 19 485 29 755 39 910
10 465 20 760 30 595 40 360
Erstellung der Tab elle mit den Einzeldaten (vgl . Beispieltabelle
miete_einzel .xls : Urliste)
Spalte A Bezeichnung durch Eingabe von i in Zelle A1 y Ausfullen von Zelle A2 bis A40 mit 1 his 40 Spalte B
[Indexspalte i] Bezeichnung durch Eingabe von x_i in B1 '--i Ausfullen von B2 bis B40 mit 345,395, . . . ,910,360 [Daten x i ]
Merke: Die Anzahl der Beobachtungen n = 40 steht in Zelle A41! Hinweis : Die Eingabe der Zahlen in die Indexspalte kann folgendermaf?en vereinfacht werden : • Eingabe von 1 in Al and 2 in A2 • Markieren von A1 and A2 mit der Maus • Erfassen der rechten unteren Ecke von A2 mit dem Cursor (wird zum Pluszeichen) • Mit gedri ckter linker Maustaste „herunterziehen" his A41
2 .4 .
ANHANG ZU KAPITEL 2 : VERWENDUNG VON EXCEL
67
Modus and Quantil Modus (vgl . CDplayer .xls : Urliste) Fur die Bestimmung des Modus kann sofern sinnvoll - die Statistik-Funktion Modalwert verwendet werden . Die Benutzung soil am Beispiel des Geratepreises aus Kapitel 0 erlautert werden : Anklicken von Zelle B13 y Wahl von EINFUGEN / FUNKTION / STATISTIK im Menu y Auswahl von Modalwert y OK y Eingabe von B2 :B11 in Feld ZAHL 1 -+ RETURN driicken Achtung : Der Modus ist in diesem Beispiel nicht eindeutig, da das Gerat dreimal 379€ and dreimal 398€ kostet . Excel gibt den Wert 398 als Modus aus, da er vor 379 in der Urliste erscheint . Wfirde man beispielsweise die geordneten Daten betrachten, ware der von Excel bestimmte Modus 379 (vgl . CDplayer .xls :Urliste) . Quantile (vgl . miete_einzel .xls : Quantile)
•
Um die Reihenfolge der Daten zu erhalten, kopiert man zunachst B2 :B41 in C2 :C41 . Die Spalte wird mit x_i geordnet bezeichnet .
•
Markieren von Spalte C -* „Drficken" von Bestimmung von np bzw . [np] in der geordneten Liste
+ 1
A~ Z
in der Menf zeile -#
y Abzahlen des gesuchten Wertes
Aufierdem stellt Excel unter EINFUGEN / FUNKTION / STATISTIK die Funktionen Quantil, Quartile and Median zur Verffigung . Bei der Anwendung ist jedoch Vorsicht geboten, da Excel eine von dieser Vorlesung abweichende Definition der Quantile, der Quartile and des Medians verwendet!
Arithmetisches, harmonisches and geometrisches Mittel (vgl .miete_einzel .xls :Mittelwerte) Arithmetisches Mittel B42
Anklicken von B42 '- Eingabe von = Summe(B2 :B41) in die Kommandozeile -* RETURN drficken
and analog B43
= B42 / A41
[arithmetisches Mittel]
Uber statistische Funktion : B42 : = Mittelwert(B2 :B41)
68
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
Harmonisches Mittel Spalte C C2=1/B2 y mit dem Cursor untere rechte Ecke von C2 erfassen (wird zum Pluszeichen) y mit gedruckter linker Maustaste „herunterziehen" bis C41 C42
= Summe(C2 :C41)
C44
= C42 / A41
C45
= 1 / C44
[harmonisches Mittel]
Uber statistische Funktion : C45 : = Harmittel(B2 :B41) Geometrisches Mittel B46
= Produkt(B2 :B41)
B47
= B46 ^ (1 / A41)
[geometrisches Mittel]
Uber statistische Funktion : B45 : = Geomittel(B2 :B41)
Spannweite, Variant, Standardabweichung, mittlere absolute Abweichung vom Median Spannweite (vgl . miete_einzel .xls : Spannweite) C2 = Max(B2 :B41) C3
= Min(B2 :B41)
C4
= C2 - C3
[Spannweite]
Variant and Standardabweichung (vgl . miete_einzel . xls : Variant, Standardabweichung) mit zentrierten Summanden B43
enthalte arithmetisches Mittel
Spalte C C2 : = B2 - $B$43 '--> „Herunterziehen" bis C41 Spalte D D2 : = C2 ^ 2 y „Herunterziehen" bis D41 D42
= Summe(D2 :D41)
D43
= D42 / A41
D44
= Wurzel(D43)
[Variant] [Standardabweichung]
2 .4 .
ANHANG ZU KAPITEL 2 : VERWENDUNG VON EXCEL
69
mit nichtzentrierten Summanden B43
enthalte arithmetisches Mittel
Spalte F F2 : = B2 ^ 2
„Herunterziehen" bis F41
F42
= Summe(F2 :F41)
F43
= F42 / A41
F44
= F43 - B43 ^ 2
[Variant]
F45
= Wurzel(E44)
[Standardabweichung]
Aullerdem lasses sick die Variant and die Standardabweichung mit den Statistik-Funktionen Varianzen bzw . Stabwn berechnen . Achtung : Die Funktionen Variant and Stabw berechnen bzw .
n ll
~
2 1(xi -
n-1 ~ 1@
- x)z
)Z .
Mittlere absolute Abweichung vom Median (vgl . miete_einzel .xls : Mitt lere absolute Abweichung)
B43
enthalte Median
Spalte C C2 : = ABS(B2 - $B$43) '--i „Herunterziehen" his C41 C42
= Summe(C2 :C41)
C43
= C42 / A41
2.4 .2
[mittlere absolute Abweichung vom Median]
Diskret klassierte Dates
Tabelle mit Merkmalswerten and absolutes Haufigkeiten (vgl . CDplayer . xls : diskrete Klassierung) Die Arbeitstabelle soil die tabellarische Darstellung der diskreten Klassierung wiedergeben . Speziell werden hier die diskret klassierten Dates aus dem Beispiel in Kapitel 0 (Preise eines Gerats in 10 Geschaften) in eine Excel-Tabelle eingegeben :
Spalte A A1 : j Spalte B B1 : xi_j
A2 his A6 : 1, . . . , 5
[Indexspalte j]
y B2 his B6 : 1, . . . ,5 oder 368,379,394,398,458
[Merkmalswerte j] Spalte C C1 : n_ j '--> C2 his C6 : 1, 3 ,1, 3 , 2
[absolute Haufigkeiten n~]
70
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
Relative Haufigkeiten (vgl .CDplayer .xls : rel . Haufigkeit, Verteilungsfkt .) C7
= Summe(C2 :C6)
[Anzahl der Daten
Ti]
Spalte D D2 = C2 / $C$7 '--p „Herunterziehen" his D6
[relative Haufigkeiten f;]
Saulen- and Kreisdiagramm Mit Hilfe der unter dem Menupunkt EINFUGEN / DIAGRAMM / DIAGRAMMASSISTENT zur Vefugung stehenden Befehle lassen sick die diskret klassierten Daten als Saulen- and Kreisdiagramme darstellen . Bei den mit Excel erstellten Diagrammen kann man durch „Doppelklicken" auf das Diagramm (z .B . Graphik selbst, Hintergrund oder Achsen) das Layout nachtraglich verandern . Wenn die Merkmalsauspragungen Zahlen sired, mussen sie fur das Erstellen dieser Diagrammtypen mit Excel durch Textausdri cke kodiert werden . Das Formatieren der Zellen als „Text" reicht reicht aus . her werden die Bezeichnungen Preisl,Preis2, . . . ,PreisS gewahlt . Die Tabelle wird daher wie folgt erganzt (vgl . CDplayer .xls : Diagramme) :
• Anklicken von C2 mit der Maus -* EINFUGEN / SPALTE urea D werden zu Spalte D and E]
[Spalte C
• C2 71CU his C6ne~ : Preisl,Preis2, . . . ,PreisS Saulen- bzw . Kreisdiagramm (vgl . CDplayer .xls : Dsaulendiagramm ; D Kreisdiagramm)
• Markieren der Zellen C2 :C6 and E2 :E6 • EINFUGEN / DIAGRAMM : Auswahl von SAULE, UNTERTYP 1 bzw . KREIS, UNTERTYP 1
• Dri cken von WETTER his Abfrage oh neues Tabellenblatt y ENDS Auf den Diagramm-Assistenten, der bereits warend der Erstellung des Diagramms einige Formatierungen ermoglicht (z .B . die Eingabe eines Diagrammtitels), wird an dieser Stelle reicht weiter eingegangen .
Verteilungsfunktion Berechnung der Verteilungsfunktion (vgl . CDplayer . xls : rel . Hauf igkeit, Verteilungsfkt . )
2 .4 .
ANHANG
Spalte E
ZU
KAPITEL 2 : VERWENDUNG VON EXCEL
E2 : = D2 '--> E3 : = E2 + D3
71
„Herunterziehen" bis E6
Graphische Darstellung der Verteilungsfunktion (vgl . Aufg2_7 .xls textttVerteilungsfunktion) Excel bietet kein Diagramm der Verteilungsfunktion an . Mit einem kleinen Trick lasst sick dennoch emn solches erzeugen . Den folgenden Erlauterungen liegen die Daten aus Aufgabe A2 .7 der Aufgabensammlung zugrunde . • Markieren der Zellen B2 :B8 and E2 :E8 • EINFUGEN / DIAGRAMM : Auswahl von PUNKT (XY), UNTERTYP 1 • Drucken von WEITER his Abfrage oh neues Tabellenblatt ' ENDS • „Doppelklicken" mit linker Maustaste auf das x-Achse : ACHSEN FORMATIEREN : SKALIERUNG : KLEINSTER WERT : -1 [Um den Fall x < 0 im Diagramm zu berucksichtigen] • Hinzufugen der waagrechten Linien per Hand mit den Zeichenhilfsmit-
teln ANSICHT / SYMBOLLEISTEN / ZEICHNEN : \
[ Linie]
Arithmetisches Mittel (vgl . CDplayer .xls : Arith . Mittel) Spalte E
E2 = B2 * D2 - > „Herunterziehen" his E6
E7
= Summe(E2 :E6) [arithmetisches Mittel (relative Haufigkeiten)]
Variant and Standardabweichung (vgl .CDplayer .xls : Variant, Standardabweichung) mit zentrierten Summanden E7 Spalte F
enthalte arithmetisches Mittel F2 : _ ( B2 - $E$7) ^ 2 y „Herunterziehen" his F6
Spalte G
G2 : = F2 * D2 y „Herunterziehen" bis G6
G7 G8
[TVarianz] = Summe(G2 :G6) = Wurzel(G7) [Standardabweichung]
72
2.
AUSWERTUNG VON EINDIMENSIONALEN DATEN
mit nichtzentrierten Summanden E7 enthalte arithmetisches Mittel Spalte I 12 : = B2 ^ 2 * D2 y „Herunterziehen" his 16 17 I8
= Summe(12 :16) = 17 - E7 ^ 2 [Variant]
19
= Wurzel(18)
2 .4 .3
[Standardabweichung]
Stetig klassierte Daten
Erstellung der Tabelle fur eine stetige Klassierung (vgl . miete_stetig .xls : stetige Klassierung) Die Einzeldaten aus dem Beispiel seien stetig klassiert worden : Aufwendungen
Anzahl Studierende
150- 350
4
350- 550
20
550- 750 750- 950
10 5
950 - 1150
1
Um die stetige Klassierung in Form einer Excel-Tabelle aufzubereiten, kann man wie folgt vorgehen : Spalte A Al : Spalte B
j
'-> A2 his A6 : 1, . . . , 5
[Indexspalte j]
B1 : x_j ^ u y B2 his B6 : 150,350,550,750,950 [Klassenuntergrenzen x~]
Spalte C
C1 : x_j^o y C2 his C6 : 350,550,750,950,1150 [Klassenobergrenzen x']
Spalte D D1 : n_j
D2 his D6 : 4, 20,10, 5,1
[Haufigkeiten n3 ]
Dieses Tabellenblatt wird in den folgenden Erlauterungen vorausgesetzt . Es liegt somit eine stetige Klassierung vor, bei der die Klassenmittelwerte unbekannt sind . Zunachst wollen wir erklaren, wie man mit Hilfe von Excel aus Einzeldaten eine stetige Klassierung erstellt (vgl . miete_stetig .xls : stetige Klassierungmit Excel) :
2 .4 .
ANHANG ZU KAPITEL 2 : VERWENDUNG VON EXCEL
73
• Eingabe des Laufindizes j in D2 bis D6 • Eingabe der Klassenuntergrenzen 150 , 350, 550 , 750 , 950 in E2 bis E6 • Eingabe der Klassenobergrenzen 350,550,750,950,1150 in F2 bis F6 • Markieren von G2 :G6 • EINFUGEN / FUNKTION / STATISTIK : Haufigkeit
• Feld
DATEN : B2 : B41, Feld KLASSEN : F2 : F6
• hinter den in der Kommandozeile erscheinenden Befehl =Haufigkeit(B2 :B41 ;F2 :F6) mit der Maus „klicken"
• gleichzeitig Tastenkombination Strg +
+ RETURN dri cken
Die Funktion Haufigkeit ist eine sogenannte Matrizenfunktion . Daher ist es beispielsweise nicht moglich, die Zellen mit den absolutes Haufigkeiten einzeln zu loschen .
Relative Haufigkeiten (vgl . miete_stetig .xls : relative Haufigkeiten) D7
= SUMME(C2 :C6)
[Anzahl der Dates n]
Spalte E E2 = D2 / $D$7 y „Herunterziehen" bis D6
[relative Haufigkeiten f;]
Empirische Dichte and Histogramm Empirische Dichte (vgl . miete_stet1g .xls : Histogramm) Spalte F F2 = E2/(C2 - B2) ' „ Herunterziehen" his F6
[empirische Dichte] Histogramm (vgl . miete_stetig .xls : Histogramm ; D Histogramm)
• Markieren von B2 :C6 and F2 :F6 • EINFUGEN / DIAGRAMM : Auswahl von SAULE, UNTERTYP 1 • REIHE • DATENREIHE : Reihe 3
[Entfernen von Reihe 1 and 2]
74
2 . AUSWERTUNG VGN EINDIMENSIONALEN DATEN
• Feld BESCHRIFTUNG DER RUBRIKENACHSE (X) :
[d .h . vor der Angabe der Felder mit den Klassengrenzen muss der Name des aktuellen Tabellenblattes (in diesem Beispiel Histogramm) eingegeben werden]
=Histogramm! $B$2 : $C$6
• Dri cken von WEITER bis Abfrage ob neues Tabellenblatt '--f ENDS • „Doppelklicken" auf Diagrammbalken y OPTIGNEN : ABSTAND : auf Null setzen
[Verbreitern der Balken, bis sie sick berwhren]
Achtung : Histogramme lassen sick mit Excel nur mit gleichen Klassenbreiten erstellen!
Verteilungsfunktion Die Berechnung der Verteilungsfunktion (im Beispiel in Spalte G) jeweils an der oberen Klassengrenze erfolgt wie bei der diskreten Klassierung (vgl .
miete_stetig .xls :Verteilungsfunktion) .
Graphische Darstellung (vgl . miete_stetig .xls : DVerteilungsfunktion) Um die Verteilungsfunktion graphisch darzustellen, muss der Punkt (xi , F(xi )) _ (150,0) in der Arbeitstabelle erganzt werden :
• Einfugen von je einer Zelle uber C2 and uber F2 : Zeile 2 markieren -* EINFUGEN / ZEILEN : nach unten verschieben
[Zellen mit Klassenobergrenze and mit Verteilungsfunktion verschieben sick nach unten]
• Ausfi llen der Zelle C2Th
mit 150 and der Zelle F2 neu mit 0
• Markieren von C2 :C8 and F2 :F8 • EINFUGEN / DIAGRAMM : AUSwahl von PUNKT (XY), UNTERTYP 4
• Driicken von WEITER bis Abfrage oh neues Tabellenblatt y ENDS
Arithmetisches Mittel (vgl . miete_stetig .xls : Arith . Mittel) Da im vorliegenden Beispiel die arithmetischen Mittel in den Klassen x~ nicht bekannt sind, ist eine Berechnung des arithmetischen Mittels nur approximativ moglich : Spalte F
F2 = (B2 + C2) / 2 -* „Herunterziehen" his F6 [Klassenmittelpunkt ~]
Spalte G
G2 = F2 * E2 -* „Herunterziehen" bis G6
G7
= Summe(G2 :G6)
[~ arithmetischen Mittel]
2 .4 .
ANHANG ZU KAPITEL 2 : VERWENDUNG VON EXCEL
75
Variant and Standardabweichung (vgl .Iniete_stetig .xls : Varianz,Standardabweichung) Auch die Variant and die Standardabweichung konnen nur naherungsweise bestimmt werden : mit zentrierten Summanden G7
enthalt arithmetisches Mittel
Spalte I
12 : _ ( F2 - $G$7) ^ 2 y „Herunterziehen" bis 16
Spalte J J2 : = 12 * E2 ~-> „Herunterziehen" bis J6 J7
= Summe(J2 :J6)
J8
= Wurzel(J7)
[~ Variant] [~ Standardabweichung]
mit nichtzentrierten Summanden G7
enthalt arithmetisches Mittel
Spalte L
L2 : = F2 ^ 2 y „Herunterziehen" bis L6
Spalte M M2 : = L2 * E2
„Herunterziehen" bis M6
M7
= Summe(M2 :M6)
M8
M7 - G7^ 2
M9
= Wurzel(M8)
[~ Variant] [N Standardabweichung]
Literatur zur Verwendung von Excel and anderen Computerprogrammen Eine allgemeine Einfuhrung in das Tabellenkalkulationsprogramm Excel bieten die Broschiiren RRZN (1999a) and RRZN (1999b) . 5 Zwerenz (2001) stellt den Einsatz von Excel bei Aufgabenstellungen der gesamten beschreibenden Statistik dar . Das Buch enthalt auch eine CD-Rom mit interaktiven Zahlenbeispielen and Simulationen. Hafner and Waldl (2001) and Monka and Voss (2005) behandeln die Losung allgemeiner statistischer Probleme mit Excel bzw . dem Programmpaket SPSS . Toutenburg et al . (2004) ist emn Lehrbuch der beschreibenden Statistik, das Anleitungen and Ubungsaufgaben zur Verwendung von SPSS enthalt . Moglichkeiten der Auswertung von Daten mit dem Computer bieten auch interaktive Lernprogramme wie EMILeA-stat (Burkschat et al ., 2004 ; Cramer et al ., 2004), Teach/Me (Lohninger, 2001), MW-Stat (Hardle et al ., 2001) sowie die Software von Mittag and Stemann (2004) and die von Schaich and Mi nnich (2001) . S Naheres im Internet unter w ww.uni-koeln.de/RRZK/dokumentation/handbuecher/ , „Die Handbiicher des RRZ Niedersachsen (RRZN)" .
Kapitel 3 Konzentrations- and Disparitatsmessung In diesem Kapitel gehen wir von Dates eines Merkmals X aus, welches extensiv ist and keine negatives Werte annimmt . Das heilit, wir setzen voraus, dass alle Dates xi grofler oder gleich null sind and dass die Merkmalssumme ~2 xti eine sinnvolle Interpretation zulasst . Im Mittelpunkt steht die Frage, wie sick die Merkmalssumme auf die einzelnen Merkmalstrager verteilt . Im Abschnitt 3 .1 werden die Begriffe der Disparitat and der Konzentration eingefiihrt and verglichen . Es folgen in Abschnitt 3 .2 Methoden der Konzentrationsmessung : zunachst die Konzentrationskurve, dass verschiedene Parameter zur Messung von Konzentration . Abschnitt 3 .3 behandelt in ahnlicher Weise die Disparitatsmessung . Nach einer Anwendung der Begriffe auf das Problem der Einkommensbesteuerung (Abschnitt 3 .3 .3) werden im Abschnitt 3 .4 die engen formalen Verbindungen aufgezeigt, die zwischen KonzentrationsmaEen and Disparitatsmaflen bestehen .
3.1
Disparitat and Konzentration
Zwei Aspekte der Dates sollen im Folgenden untersucht werden : Die erste Sichtweise betrifft die Gleichheit oder Ungleichheit (= Disparitat) der Merkmalswerte . Sind die Merkmalswerte alle gleich, d .h . ist xr = x2 = . . . = x,~, so entfallt offensichtlich auf jeden Anteil der Merkmalstrager der gleiche Anteil der Merkmalssumme . Disparitat liegt vor, wens nicht alle 77
78
3 . KONZENTRATIONS- UND DISPARITATSMESSUNG
Merkmalswerte gleich sind . Dann gibt es einen kleinen Anteil der Merkmalstrager, auf den emn grol3er Anteil der Merkmalssumme entfallt . Zur Veranschaulichung diem das folgende Zahlenbeispiel . Beispiel : Sei
n =
4 and xI = 0, x2 = 5, x3
= 7,
x4 = 8 . Die Merkmalssum-
me betragt 20 . Die Merkmalstrager sind bereits aufsteigend der Grof3e nach
geordnet. Auf die beiden letzten (das ist die Halfte der Merkmalstrager) ent-
fallen ins gesamt 15/20, also 75% der Merkmalssumme . Auf den letzten allein (entsprechend einem Viertel der Merkmalstrager) entfallen 8/20 = 40% der
Merkmalssumme . Wiiren dagegen die Merkmalswerte alle gleich, wiirden auf die beiden letzten zusammen 50% and auf den letzten allein 25% der Merkmalssumme entfallen .
Bei der Betrachtung der Ungleichheit oder Disparitat einer Verteilung von
Merkmalswerten werden Anteile miteinander verglichen : Anteile von Merk-
malstragern mit Anteilen der Merkmalssumme . Die Anzahl n der Merkmalstrager bleibt hier auger Betracht . Emn klassisches Anwendungsgebiet der Dis-
paritatsmessung 1st die Messung der Einkommens- oder Vermogensdisparitat in einem Land .
Beispiel : Es seien x 1 , . . . , xn die Vermogen der Haushalte in einem Land . Emn hohes Maf3 an Disparitat liegt etwa dann vor, wenn 70% des Gesamtver-
mogens im Land auf nur 15% der Haushalte entfallen . Die absolute Zahl der Haushalte spielt hierbei keine Rolle .
Die zweite Sichtweise bezieht zusatzlich die Anzahl n der Merkmalstrager mit em, die sick die Merkmalssumme teilen . Konzentration liegt vor, wenn auf eine kleine Anzahl von Merkmalstragern emn groi3er Anteil der Merkmalssumme entfallt .
Bei der Konzentrationsmessung wird emn Anteil mit einer Anzahl verglichen :
Emn Anteil an der Merkmalssumme mit einer Anzahl von Merkmalstragern . Das klassische Anwendungsgebiet der statistischen Konzentrationsmessung
liegt in der Industrieokonomik : Untersuchungsmerkmal 1st die GroEe (etwa gemessen durch ihren Umsatz) von Unternehmen, die auf einem abgegrenzten Markt tatig sind .
Beispiel: Auf einem bestimmten Markt sind zehn Unternehmen aktiv . Konzentration liegt etwa dann vor, wenn die zwei grof3ten Unternehmen 80% des Gesamtumsatzes auf sick vereinigen .
Emn Merkmal kann sowohl unter dem Aspekt der Disparitat als auch unter dem der Konzentration untersucht werden . Dies sind jedoch verschiedene Fragestellungen .
Beispiel „Verteilung von Aktien" : Grundgesamtheit seien die Aktionare eines Unternehmens, Merkmal die Zahl der Aktien, die jeder von ihnen besitzt . 1st man am potenziellen Einfluss von Grof3aktionaren interessiert, wird man die
3 .2 .
KONZENTRATIONSMESSUNG
79
Konzentration untersuchen . 1st dagegen nach der gleichmaf3igen Verteilung (etwa bei der Zuteilung von uberzeichneten neuen Aktien) gefragt, wind man die Disparitat betrachten .
Hohe Disparitat kann sowohl mit geringer als auch mit hoher Konzentration einhergehen, and umgekehrt, wie das folgende Tableau zeigt, das vier Beispiele enthalt . In jedem der Beispiele ist eine Urliste Ii, . . . , x, angegeben, deren Merkmalssumme 100 betragt . Disparitat hock
Disparitat gering
Konzent ration x1 = 80 hock x2 = x3 = 10
xl = 34
Konzent ration 11 = . . . =' loo = 0, 8 gering x101 = . . . = x300 = 0,1
x1 = . . . = x100 = 0,34 x101 = . . . = x300 = 0,33
x2 - x3 = 33
Zur Sprechweise : Im Englischen sagt man inequality fur die Ungleichheit and concentration fur die Konzentration . In der deutschsprachigen Literatur wird die Ungleichheit (= Disparitat) haufig auch als relative Konzentration bezeichnet, die Konzentration dagegen als absolute Konzentration .
3 .2
Konzentrationsmessung
Bei der Konzentrationsmessung (= Messung der absolutes Konzentration) geht man davon aus, dass die Dates absteigend geordnet sind, d .h . x1 > 12 > . . . > In > 0,
and dass ~ 1 xi > 0 gilt . Sind die Ausgangsdaten noch nicht absteigend geordnet, so musses sie zunachst entsprechend umgeordnet werden . Es bezeichne xr xr hr= r=1, . . .,n, n-, i=1 den Merkmalsanteil der r-ten Einheit . Wegen der Ordnung der Dates sind auch die Merkmalsanteile geordnet, h1>h2> . . .>h~>0 .
80
3 . KONZENTRATIONS- UND DISPARITATSMESSUNG
3 .2 .1 Konzentrationsraten and Konzentrationskurve Die Summe der i grof3ten Merkmalsanteile,
heif3t Konzentrationsrate der Ordnung i . CR(i) ist der Merkmalsanteil, der auf die i groEten Merkmalstrager entfallt . Fur i = 0 wird CR (0) = 0 gesetzt (- EXCEL) . Zeichnet man die Punkte (i, CR (i)), i = 0,1, 2, . . . , n, in der Ebene and verbindet sie durch einen Streckenzug, so entsteht die Konzentrationskurve . Sie beginnt im Punkt (0,0) and endet im Punkt (n, 1) ; vgl . Abbildung 3 .1 . Konzentrationskurven konnen auch mithilfe von y EXCEL erstellt werden . Beispiel „Fiinf Unternehmen" : Fiinf Unternehmen teilen sick einen Markt . Die von ihnen getatigten Umsatze betragen in Mio . € : xl = 330, x2 = 120, x3 = 90, x4 = 30, x5 = 30 . Man berechne samtliche Konzentrationsraten and zeichne die Konzentrationskurve . Die Daten sind bereits absteigend geordnet . Die Konzentrationsraten kann man mit Hilfe der folgenden Arbeitstabelle ermitteln :
1 330 2 120 3 90 4 30
h2 0,55
CR (i) 0,55
0,20 0,15
0,75 0,90
0,05
0,95 1
30
0,05
600
1
Die Koordinaten der relevanten Pankte der Konzentrationskurve lesen wir was der ersten and der letzten Spalte der Tabelle ab : Eigenschaften der Konzentrationskurve Eine Konzentrationskurve hat allgemein die folgenden Eigenschaften :
3 .2 .
KONZENTRATIONSMESSUNG
81
CR(i)
0 .90 -
i
i
0 .75 0 .55 -
i I
I
I
1
2
3
i
I
4
5
Abbildung 3 .1 : Konzentrationskurve 1 . Die Konzentrationskurve ist der Graph einer Funktion, die das Intervall [0, n] in das Intervall [0,1] abbildet . Die Funktion ist stuckweise linear ; sie wachst strikt monoton, ausgehend vom Wert 0, bis sie den Wert 1 erreicht . Die Steigung des r-ten Segments betragt
CR (r) - CR (r -1) _ hr 1
fur r = 1, . . . , n . Die Steigungen hr nehmen mit wachsendem die Konzentrationskurve ist konkav .
r
ab, d .h .
2 . Bei festem n betrachten wir den Fall maximaler and den Fall minimaler Konzentration :
•
Maximale Konzentration : Emn Merkmalstrager vereinigt die gesamte Merkmalssumme auf sick . Dann gilt (Abbildung 3 .2)
h1=1, h2= . . .=h~=0 . Es folgt
•
CR(i) = 1
1, 2, . . . , n and CR(0) = 0 . bei festem n : Jeder Merkmalstrager
fur alle i =
Minimale Konzentration an der Merkmalssumme . Man nennt diese hat denselben Anteil Verteilung die egalitare Verteilung . Dann gilt (Abbildung 3 .3)
n
1
h1=h2= . . .=hn =- .
= n,
n
Wir erhalten CR(i) i = 0,1, . . . , n . Die Konzentrationskurve verlauft als eine Gerade von (0, 0) nach (n,1) .
82
3.
KONZENTRATIONS- UND DISPARITATSMESSUNG
CR(i) 1
i Abbildung 3 .2 : Kurve der maximalen Konzentration
CR(i) 1
0
n Abbildung 3 .3 : Kurve der minimalen Konzentration
Bei beliebigen Werten von x1, x2, . . . , x n liegt die Konzentrationskurve zwischen diesen beiden Extremen .
3 . Berechnung mit abgeschnittenen Daten Um die Konzentration
der Daten zu beurteilen, ist offenbar der rechte obere Teil der Konzentrationskurve weniger relevant . Oft berechnet man deshalb die Konzentrationsraten and damit den Verlauf der Konzentrationskurve nur bis zu einer Ordnung r, r < n, and vernachlassigt den Rest . Um CR(1), CR(2), . . . , CR(r) zu bestimmen, benotigt man lediglich die r groi?ten Anteile h1, h2, . . . ,h r oder, alternativ, die r gro1?ten Merkmalswerte x1, x2 i . . . , x, and zusatzlich die Merkmalssumme .
3 .2 .
KONZENTRATIONSMESSUNG
83
Beispiel „Halbleiter": Die folgende Tabelle enthalt den Umsatz der weltweit 20 grof3ten Hersteller von Halbleitern in Mrd . US-Dollar (Queue : Siiddeutsche Zeitung vom 26 .4 .1996) . Intel NEC Toshiba
Philips
2,9
8,0
Matsushita
7,6
2,9 2,6
10,1
Motorola Hitachi
7,2 6,6
SGS-Thompson Sanyo Sharp
Texas Instruments Samsung
5,6
AMD
4,8
Fujitsu Mitsubishi
3,9
2,1 2,0
3,8
Siemens Nat. Semicond . Sony
IBM
3,0
Goldstar
1,7
2,3 2,2 2,1
1,9
Ubung : Nehmen Sie an, dass der Gesamtumsatz auf dem Halbleitermarkt 83 .3 Mrd . US-Dollar betrug, and zeichnen Sie die Konzentrationskurve bis zur Ordnung r = 10 . 4 . Ordnung von Konzentrationskurven Die Konzentrationsraten and die Konzentrationskurve kann man benutzen, um das Ausmall der Konzentration auf zwei verschiedenen Markten miteinander zu vergleichen . (flier and im Folgenden sprechen wir bei der Konzentrationsmessung von Unternehmen and Markten statt allgemein von Merkmalstragern and Grundgesamtheiten .) Seien CR I (i) and CRII (i), i = 1, . . . , n, die Konzentrationsraten auf den Markten I and II . Wenn
CRI (i) > CRII (i) ,
i = 1, . . . , n,
gilt, sind die Konzentrationskurven geordnet . Die Konzentrationskurve des Marktes I verlauft oberhalb der Konzentrationskurve des Marktes II . (Dabei diirfen sick die Kurven beriihren .) Man sagt in diesem Fall, Markt I weise eine gleichmai~ig hohere Konzentration als Markt II auf. Die Ordnung zweier Konzentrationskurven ist auch moglich, wenn die Anzahl der Unternehmen auf beiden Markten nicht ubereinstimmt . Sei etwa n die Anzahl auf Markt I and m die auf Markt II, n < m . In diesem Fall erganzt man den Markt I gedanklich um m-n Unternehmen, deren Umsatz jeweils 0 betragt, and erhalt CRI (i) = 1 fur i = n + 1, . . . , m .
84
3 . KONZENTRATIONS - UND DISPARITATSMESSUNG
Beispiel „Drei Markte" : Wir betrachten drei Markte I, II and III, auf denen je funf Unternehmen agieren . Die Urns atze auf den Markten seien wie folgt gegeben . 38,
12,
106,
34,
10
auf Markt I,
25,
20,
39,
7,
9
auf Markt II,
60, 60,
60
auf Markt III .
60, 60,
Wir ordnen die Werte, bezeichnen die Umsatze auf Markt I mit xi, die auf Markt II mit y i and berechnen die Konzentrationsraten in der folgenden Tabelle : i
xi/
2r=1
xr
CRI(i)
x
yi/ L.r=1 yr
CRII (i)
106
0,53
0,53
39
0,39
0,39
38
0,19
0,72
25
0,25
0,64
34
0,17
0,89
20
0,20
0,84
12
0,06
0,95
9
0,09
0,93
10
0,05
1,00
7
0,07
1,00
200
1,00
100
1,00
Die Konzentrationskurven der Markte I and 77 sired in Abbildung 3 .4 dargestellt . Markt I weist eine gleichmaf3ig hohere Konzentration als Markt II auf. Auf Markt III herrscht eine egalitare Verteilung : Die Unternehmen teilen sick den Markt zu gleichen Anteilen . Die Konzentrationskurve des Marktes III ist deshalb die Diagonals des Rechtecks, liegt also unterhalb den anderen beiden Kurven . CR(i)
a
Abbildung 3 .4 : Ordnung von Konzentrationskurven
3 .2 .
KONZENTRATIONSMESSUNG
3 .2 .2
85
Konzentrationsindizes
Wir stellen uns nun die Aufgabe, die Konzentration zweier beliebiger Markte zu vergleichen . Wenn die Konzentrationskurve des einen Marktes fiber der des anderen liegt, die Kurven also geordnet sind, ist der erste Markt jedenfalls starker konzentriert als der zweite . Wenn die Konzentrationskurven sick jedoch schneiden, benotigen wir weitere Kriterien des Vergleichs . Emn Konzentrationsindex misst die Konzentration einen Marktes durch eine Zahl . Im Folgenden behandeln wir die zwei gebrauchlichsten Konzentrationsindizes, den Rosenbluth-Index and den Herfindahl-Index . Rosenbluth-Index Die Teilflache des Rechtecks [0, n] x [0, 1], die oberhalb der Konzentrationskurve liegt, werde mit A bezeichnet . Der RosenbluthIndex KR ist als eins durch zweimal diese Flache definiert,
KR _
1 2A '
Um eine Formel zur Berechnung von KR zu erhalten, zerlegen wir (siehe Abbildung 3 .5 fur n = 5) :
CR(i)
1
2
3
4
5
Abbildung 3 .5 : Zur Berechnung des Rosenbluth-Index Wegen A= and
Ai =hi
i=1
A
wie folgt
86
3 . KONZENTRATIONS- UND DISPARITATSMESSUNG
ist
Ti Z
n
2i - 1
2
i=1
Z
and (- EXCEL) 1 1 KR== (2i n .h)1 ~, i -
(Zur Erinnerung : Die Merkmalswerte xi sind absteigend geordnet, d .h . x1 > x2> . . .> x n > 0, and deshalb ist auch h1 >h2> . . .> h n .) Die folgenden Eigenschaften von KR lassen sick aus der Formel bzw . aus der Skizze leicht ableiten : KR = 1 KR
=
1 n
h1=1, h2=h3= . . .=hn=0
(maximale Konzentration),
1
h1=h2= . . .=hn=-n
< >
(minimale Konzentration bei festem n)
Letzteres ersieht man leicht aus KR =
1
i=1
Insgesamt gilt :
1
n 2Ei '1 -1
1
n
1
21nn(n+1) -1 2 1
Beispiel : Fur die Daten des Beispiels „FUnf Unternehmen" nimmt der Rosenbluth-Index den Wert
KR_
1 21,8500-1
=0,3704
an . Wegen n = 5 muss hier KR mindestens gleich s = 0, 2 sein .
3 .2 .
KONZENTRATIONSMESSUNG
87
Herfindahl-Index Die folgende Mafizahl ist emn besonders einfaches and daher haufig verwendetes Konzentrationsmall . Die Summe der quadrierten Merkmalsanteile (y EXCEL)
heif3t Herfindahl-Index .
CR(i) 2 3
2
1
2
3
Abbildung 3 .6: Zur Berechnung des Herfindahl-Index Auch der Herfindahl-Index lasst sick an der Konzentrationskurve veranschaulichen ; siehe Abbildung 3 .6 mit n = 3 . Man uberlegt sick leicht, dass
1n KH
= 1
<
(maximale Konzentration),
KH
1
= n
< >
1
h1=h2= . . .=hn=n
(minimale Konzentration bei festem
n) .
Im Beispiel „Funf Unternehmen" ergibt sick der Herfindahl-Index als KH = 0,55 2 +
0,20 2
+ 0,15 2 + 0,05 2 +0, 05 2
= 0, 37 .
Praktische Probleme der Konzentrationsmessung im Produzierenden Gewerbe Die hier vorgestellten statistischen Methoden dienen der Messung der so genannten horizontalen Konzentration von Unternehmen in
88
3 . KONZENTRATIONS- UND DISPARITATSMESSUNG
einem Markt . Bei der konkreten Messung horizontaler Konzentration sind eine Reihe von zum Teil schwierigen wirtschaftsstatistischen Problemen zu losen . Die wichtigsten sind :
• die Abgrenzung des relevanten Marktes ; • die Wahl des Konzentrationsmerkmals (der „Unternehmensgrof3e") : In
Frage kommen allgemein Umsatz, Absatz, Beschaftigte, Investitionsvolumen, Borsenwert ; bei speziellen Branchen auch Verkaufsflache (im Einzelhandel), Versicherte Summe (bei Lebensversicherern), u .a . ;
• die Bestimmung der Teile eines Unternehmens and ihrer Grof3e, die dem relevanten Markt zuzurechnen sind .
Literatur zu praktischen Problemen der Konzentrationsmessung ist am Schluss dieses Kapitels angegeben .
3.3
Disparitatsmessung
Bei der Disparitatsmessung geht man davon aus, dass die Daten aufsteigend geordnet sind, d .h .
0<x1<x2< . . .<x,~,
and dass ~? 1 x i > 0 gilt . Wenn dies noch nicht der Fall ist, so muss erst umgeordnet werden . Wie bei der Konzentrationsmessung bezeichne
_
xr
hr - n
i=1
x2
den r-ten Merkmalsanteil . Allerdings sind die h r hier - wie die Daten - aufsteigend geordnet, d .h .
0
3 .3.1
Lorenzkurve
Fur i = . . 1,2, ,n ist
L (n~ _ ~ hr r=1
der Merkmalsanteil der i kleinsten Merkmalstrager . Durch lineare Verbindung der Punkte
n,L(n)),Cn,L(n)), . . .,Cnn l
,LCn
n
1 11
, (1 , 1)
3 .3 .
DISPARITATSMESSUNG
89
entsteht die Lorenzkurve (siehe Abbildung 3 .7 fur
n=
8) . (y EXCEL)
In einer Lorenzkurve wird dem Anteil n der i kleinsten Merkmalstrager der zugehorige Merkmalsanteil L zugeordnet . Es werden also zwei Anteile gegeneinander abgetragen .
(n)
L(
)
z
n Abbildung 3 .7 : Lorenzkurve Die Eigenschaften einer Lorenzkurve lassen sick so zusammenfassen : 1 . Die Lorenzkurve ist der Graph einer Funktion
L,
L : [0,1] --> [0,1], die wie folgt definiert ist . Es gilt L (0) = 0 and L (1) = 1 . L ist monoton wachsend and stuckweise linear . In jedem Intervall ] n [ besitzt L die Steigung nhti, i = 1,2, . . . , n. Da die Anteile hi mit i anwachsen, gilt dies auch fur die Steigung von L . Die Funktion L ist daher konvex .
i , nl
2.
Die Extremfalle einer Lorenzkurve (bei rakterisieren :
•
n Einheiten)
lassen sick so cha-
Minimale Disparitat Alle Merkmalswerte sind gleich (egalitare Verteilung) . Dann ist xl = x2 = . . . = xn and hl = h2 = . . . = h n . Es folgt (Abbildung 3 .8)
L()=i n n
fur
i=0,1,2, . . .,n .
90
3 . KONZENTRATIONS- UND DISPARITATSMESSUNG
Die Lorenzkurve ist in diesem Fall die Diagonals im Einheitsquadrat .
L(n) 1
i
0
1
Ti
Abbildung 3 .8 : Lorenzkurve minmaler Disparitat
• Maximale Disparitat bei gegebenem n : Die gesamte Merkmals-
summe entfallt auf einen (den grof3ten) Merkmalstrager . Dann ist = 0 . Es folgt h n = 1, xn = ~ 1 xi, xl = x2 = hl=h2= . . .=h n _i=0und
L(1)=1,
L(Z)=0 n
firi=0,l, . . .,n-1 .
Die Lorenzkurve maximaler Disparitat von n Einheiten 1st in Abbildung 3 .9 dargestellt .
L() 1
0 Abbildung 3 .9 : Lorenzkurve maximaler Disparitat
3 .3 .
DISPARITATSMESSUNG
91
Ordnung von Lorenzkurven Mittels ihrer Lorenzkurven lassen sick zwei Datenvektoren x = (x 1 , . . . ,x 7 ) und y = (yl, . . . , y„L ) in Bezug auf ihre Disparitat vergleichen . Liegt die Lorenzkurve L~ uber der Lorenzkurve L y , so sagt man, x besitze gleichmaf3ig geringere Disparitat (genauer : gleichmaf3ig nicht groflere Disparitat) als y . Dies ist die Lorenzkurvenordnung zwischen x und y, symbolisch x < L y . Abbildung 3 .10 stellt emn Beispiel mit n = m = 5 dar . Zwei Lorenzkurven konnen auch dann geordnet sein, wenn die beiden Datenvektoren verschiedene Lange haben, n m. Man beachte, dass die unten liegende Lorenzkurve die grof3ere Disparitat anzeigt, da sie weiter von der Diagonalen - der Lorenzkurve der egalitaren Verteilung - entfernt ist . L(n)
2
1
n
Abbildung 3 .10 : Ordnung von Lorenzkurven
3 .3.2
Disparitatsindizes
Dass zwei Lorenzkurven geordnet sind, stellt bei realen Datenvektoren x und y eher die Ausnahme dar . In den meisten Fallen schneiden sick die beiden Lorenzkurven mindestens einmal . Dann benotigt man weitere Mafle zum Vergleich der Disparitat . Emn Disparitatsindex D ist eine Maf3zahl, die im Einklang mit der Lorenzordnung steht (und weitere Eigenschaften erfiillt, die unten in Abschnitt 3 .4 .3 diskutiert werden) : Wenn zwei Datenvektoren x und y Lorenz-geordnet sind, x < L y, dann soil auch D bei x die geringere Disparitat anzeigen, D(x) < D(y) . Mit Hilfe eines Disparitatsindexes kann man je zwei gegebene
Datenvektoren bezi glich ihrer Disparitat vergleichen .
92
3 . KONZENTRATIONS- UND DISPARITATSMESSUNG
Gini-Koeffizient Der am meisten gebrauchliche Disparitatsindex hangt eng mit der Lorenzkurve zusammen . Der Gini-KoefFtzient DG ist definiert als zweimal die Flache zwischen der Lorenzkurve and der Diagonalen . Sei B die Flache unterhaib der Lorenzkurve im Einheitsquadrat . Dann ist
DG=2C2-BI . Um eine Formel zur Berechnung von DG zu errhalten, zerlegen wir B wie folgt (siehe Abbildung 3 .11 fur n = 3) :
L(n)
B1 1
Abbildung 3 .11 : Zur Berechnung des Gini-Koef$zienten
B = n i=1
2
2n-2i+1 2n
Es ist dann
DG =2 ( 2-B)=
wobei
n i=1
n i=1
Z
hi = 1 verwendet wurde . (--~ EXCEL)
2n-2i+1 n
3 .3 .
93
DISPARITATSMESSUNG
DG lasst sick also als eine Art gewichtetes Mittel der aufsteigend geordneten Merkmalsanteile h1 < h2 < . . . < h n schreiben . Die Gewichte sind bier allerdings (anders als in Abschnitt 2 .3 .2) zum Teil negativ, zum Teil positiv and ihre Summe ist null (statt eins!), denn 2i-m-1 - 1 C 2n(n2
i=1
1) -n2 -n\ -0o
Wichtige Eigenschaften des Gini-Koeffizienten lassen sick hieraus direkt ableiten :
x1=x2= . . .=xn
D=O 1
DG=1--n
(minimale Disparitat),
>
x1=x2= . . .=xn-1=0,xn>0 (maximale Disparitat) .
Die letztere Beziehung folgt aus
D =
n-1 i=1
2i1 -n-n-n21 1 =1-- . +1 • n n n
Fur den Gini-Koeffizienten gilt immer
0
Es gilt namlich
(h ~ - hi)
94
3.
KONZENTRATIONS- UND DISPARITATSMESSUNG
Die zweite Doppelsumme betragt
n n
i=1
(n -
i)hi,
wahrend man fur die erste
Doppelsumme durch Umordnen der Summanden den Wert erhalt . Es folgt, dass 2x
_
n
1
( -1)hi+
2i-n-1
n
i=1
n)
-
n
-~ (i -
i=1
1)h i
hi
hi = DG
ist, and damit die Behauptung . Der Gini-Koeflizient ist also (vom Faktor a abgesehen) emn Quotient aus dem Streuungsma1 0 and dem Lagemaf~ x . Emn solches MaE nennt man emn relatives Streuungsmal3 . Beispiel: Fir die Daten des Beispiels „Fi of Unternehmen" im Abschnitt
3 .2 .1
sollen die Lorenzkurve and der Gini-Koeffizient berechnet werden . Die Daten sind nunmehr aufsteigend zu ordnen .
i
hi
L(s) _>
30
0,05
0,05
30 90 120
0,05 0,15
0,10 0,25
330
0,20 0,55
0,45 1,00
600
1,00
2i-5-1 5 4 -5 _ 2
i hT
5 0 2
5 4 5
0
Abbildung 3.12 zeigt die Lorenzkurve der
fi
2i-5-1 , a 5
-0,04
-0,02 0 0,08 0,44 0,46
=
DG
of Unternehmen .
Variationskoeffizient Emn weiterer Disparitatsindex, der besonders einfach ist and deshalb haufig verwendet wird, ist der VariationskoefHzient v ("--> EXCEL), s v=- .
x
(Man beachte, dass nach Voraussetzung alle xi > 0 sind and x > 0 gilt .) Der Variationskoeffizient ist der Quotient aus dem StreuungsmaE s and dem LagemaE x, also - wie auch der Gini-Koeffizient - emn relatives StreuungsmaE . Beispiel : Fir die obigen Daten ergibt sick s='/12240=r110,6345,
=120,
3 .3 .
DISPARITATSMESSUNG
1 5
0
95
2 5
3 5
4 5
1
Abbildung 3 .12 : Lorenzkurve zum Beispiel „Fi of Unternehmen"
d. h. v
12040
=0,9220 .
Offenbar ist v nicht durch Eins nach oben beschrankt . (Der Leser mache sick dies an einem Beispiel klar!) Allgemein gilt jedoch 0
v = 0 v='/n-1
<
>
<
>
x1 = x2 = . . . = xn (minimale Disparitat), xl=x2= . . .=x1=0, x n >0
(maximale Disparitat) .
Dies erschwert die Interpretation des Wertes von v . Demgegenuber ist der Wert des Gini-Koefhzienten leichter zu interpretieren, da DG immer im Intervals [0, 1 -1/n] liegt, wobei er den Wert 0 im Fall vollstandiger Gleichheit and den Wert 1 - 1/n im Fall maximaler Disparitat annimmt .
96
3 .3 .3
3 . KONZENTRATIONS- UND DISPARITATSMESSUNG
Einkommensungleichheit and Steuertarif
Emn erklartes Ziel der Einkommensbesteuerung in Deutschland ist es, die Ungleichheit der Einkommen zu verringern . Im Folgenden wollen wir den Einfluss der Besteuerung auf die Einkommensungleichheit untersuchen . Wie muss emn Steuertarif beschaffen sein, damit das Einkommen nach Steuern weniger ungleich verteilt ist als das Einkommen vor Steuern? Emn Steuertarif T ist eine Vorschrift, die fur jeden zu versteuernde Einkommen die zu entrichtende Steuer angibt . Das Einkommen bezeichnen wir mit x, die zugehorige Steuer mit T(x) . T heif~t auch Steuerfunktion . Eine nati rliche Forderung an jeden Steuertarif besteht darin, dass die Steuer nicht hoher als das Einkommen sein darf, d .h . T (x) < x fur alle Einkommen x gilt . Seien nun x1, x2, . . . , x n die Einkommen von n steuerpflichtigen Personen vor Steuern . Die Einkommen Seien nicht alle gleich and sie Seien bereits aufsteigend geordnet, 0 < xI < x2 < . . . < x, . Dann sind durch y2 = x2 - T (x2)
fur i = 1, . . . , n
die Einkommen nach Steuern gegeben . Gemaf der obigen Forderung sind alle y2 >_ 0 . Zu vergleichen ist die Disparitat der Einkommen yl, y2, . . . , y~ nach Steuern mit der Disparitat der Einkommen xl, x2 i . . . , xn vor Steuern . Nach deco Kriterium der Lorenzkurvenordnung bedeutet geringere Ungleichheit nach Steuern, dass die Lorenzkurve der Y1 , Y2, . . . ,y, fiber der Lorenzkurve der 11,12, . . . , x~ zu liegen kommt . Wir betrachten zunachst eine so genannte Proportionalsteuer, bei der auf alle Einkommen emn konstanter Steuersatz angewandt wind . Bezeichne a den Steuersatz, 0 < a < 1 . Es gilt dann T (x) = ax fur alle x . Wegen y2 = x2 -axe = (1 - a)x2
fur i = 1, . . . , n
unterscheidet sick y2 von x2 jeweils um den Faktor 1 - a . Da die Lorenzkurve nun von den Anteilen an der Merkmalssumme abhangt, folgt, dass die Einkommen vor and nach Steuern die gleiche Lorenzkurve besitzen . Eine Proportionalsteuer andert also nichts an der Ungleichheit der Einkommen . Als Nachstes betrachten wir eine so genannte Kopfsteuer, bei der jeden Steuerpflichtige unabhangig von seinem Einkommen einen festen Betrag c als Steuer zu eetrichten hat . Bei einen solchen Kopfsteuer gilt T(x) = c fur alle x, also firi=l, . . .,n . y2 =x2-c Es ist leicht zu sehen, dass die Lorenzkurve der Einkommen nach Steuern nun unterhalb der Lorenzkurve der Einkommen vor Steuern liegt, denn fur
3 .3 .
97
DISPARITATSMESSUNG
.,n-
1 erhalt man i j=1
xj
L xj j=1
a > j=1
(x3 -c)
L.2(zj j=1
c)
z j=1
yj
Lr yj j=1
Eine Kopfsteuer erhoht demnach die Einkommensungleichheit . Wie muss nun die Steuerfunktion T beschaffen sein, damit fur beliebig gegebene Einkommen xi vor Steuern die Einkommen y2 = x2-T(xi) nach Steuern eine geringere Ungleichheit aufweisen? Allgemein ist dies dann der Fall, wenn T den folgenden Bedingungen geni gt :
1 . T(x) < x fur alle x. („Positives Einkommen nach Steuern") 2 . T(x)/x wachst monoton and ist nicht fur alle x konstant . („Steigende relative Belastung" . Dies schliefl,t die Proportionalsteuer aus .) 3.
x - T (x) wachst monoton . („Steigendes Einkommen nach Steuern ")
Beispiel „Dreistufiger Steuertarif ": Emn Politiker schlagt den folgenden dreistufigen Einkommenssteuertarif vor : Bis zu einem Jahreseinkommen von € 10 000 wird keine Steuer erhoben . Zwischen € 10 000 and € 25 000 betragt der marginale Steuersatz 10%, zwischen € 25 000 and € 50 000 betragt er 20%, and jenseits € 50 000 betrdgt er 30% . 1st dieser Tarif geeignet, die Ungleichheit der Einkommensverteilung zu verringern? Aus den Angaben ergibt sick in Abhangigkeit von x (in Tausend €) die Steuerfunktion T,
T(x) -
0 0,1(x - 10) 0,2(x-25)+1,5 0,3(x-50)+6,5
fur0<x<10, fiir 10 < x < 25, fir25<x<50, fur x > 50 .
Anhand der Abbildung 3 .13 pruft man leicht mach, loss die drei Bedingungen erfdllt sind and deshalb der vorschlagene Tarif die Ungleichheit im Sinne der Lorenzkurvenordnung reduziert .
3 .3 .4
Disparitat and Konzentration bei klassierten Daten
Bei der Bestimmung der Lorenzkurve and der Berechnung der Disparitatsindizes wurde bisher davon ausgegangen, loss die Merkmalswerte X1, . . . , xn als
98
3 . KONZENTRATIONS- UND DISPARITATSMESSUNG
i i i
x -T(x)
ii i i
i 10
25
x
50
x
Abbildung 3 .13 : Steuerfunktion im Beispiel „Dreistufiger Steuertarif" Einzeldaten verfugbar sind . Hauptanwendungsgebiet der Disparitatsmessung ist die Erfassung der Einkommens- and Vermogensdisparitat von Individuen oder Haushalten einer Bevolkerung . her stehen die Daten jedoch haufig nur aggregiert zur Verfi gung, and zwar in stetig klassierter Form . Im Folgenden werden wir zeigen, wie man aus solchen stetig klassierter Daten die Lorenzkurve, den Gini-KoefFlzient and den Rosenbluth-Index naherungsweise bestimmt .
= nj
Wie bisher bezeichne fj den Anteil der Merkmalstrager der j-ten Klasse (j = 1, . . . , J) . Mit h1 bezeichnen wir den Merkmalsanteil, der auf die j-te Klasse entfallt . Wir setzen
F0
=
0,
F3
= F(x?)
F~
=
F(x) = 1
L0
=
L(0) = 0,
r=1
fr,
j=1, . . .,J-1,
r,
j=1, . . .,J-1,
sowie
L3
L(F) =
r=1
L~ = L(1) = 1 .
Die Lorenzkurve ist darn durch die lineare Verbindung der Punkte (- EX-
3 .3 .
DISPARITATSMESSUNG
99
CEL)
(0,0) _ (Fo, Lo) , ( F1, L1) , . . . , ( FJ, LJ) _ (1,1) gegeben . Der Wert des Gini-Koeffizienten ist wieder (~--~ EXCEL) DG =2
C
2-Bl,
wobei B die Flache unterhalb der Lorenzkurve im Einheitsquadrat ist . Es ist J
f
Lj _1 + L j 2
and deshalb
Man beachte, dass sowohl die Lorenzkurve als auch der Wert des GiniKoeffizienten nur Approximationen an die tatsachliche Lorenzkurve bzw . den tatsachlichen Gini-Koeffizienten, wie sie sick aus den Daten der Urliste ergeben, sind . Den Approximationen liegt die fiktive Annahme zugrunde, dass innerhalb einer Klasse alle Merkmalswerte gleich sind, d .h . dass es innerhalb einer Klasse keine Disparitat gibt ; die Approximationen zeigen deshalb regelmaEig eine zu geringe Disparitat an .
Beispiel „Vermogen": In einem Land mogen auf die „drmsten" 50% der Bevolkerung nur 10% des Gesamtvermogens entfallen . Auf die ndchsten 40% entfallen 30% des Vermogens . Man bestimme eine Lorenzkurve, die mit diesen Daten vertrdglich ist and berechne den Wert des Gini-Koeffizienten . Aus den Daten ergibt sick
Lj
7
fj ( Lj_ +Lj)
0,5
0,1
0,05
0,9
0,3
0,20
1
0,6
0,14
1
0,39
1
and die in Abbildung 3 .1l~ dargestellte Lorenzkurve . Es ist DG = 1 -
j=1
f
=
1-0,39
=
0, 61 .
(Lj _1 + Lj)
100
3 . KONZENTRATIONS- UND DISPARITATSMESSUNG
0
0,5
0,9 1
Abbildung 3 .14 : Lorenzkurve aus klassierten Daten
Beim ersten Beispiel konnten die h1 direkt aus den Angaben entnommen
werden . In dem nachfolgenden, zweiten Beispiel mussen auch die h~ zunachst bestimmt werden . Man setzt als Merkmalsanteil der j-ten Klasse
falls
x;
fur j = 1, . . . J bekannt ist . Falls die
miert man durch
xj
nicht bekannt sind, approxi-
jnj xn
wobei ~ emn geeigneter Stellvertreter fur
xj
ist, z .B . die Klassenmitte
Beispiel: Wir betrachten das Beispiel „Studierende" aus Abschnitt 2 .3 .6, in dem die Monatseinkommen von n = 5000 Studierenden untersucht warden,
and bestimmen die Lorenzkurve and den Wert des Gini-Koef zienten .
3 .3 .
101
DISPARITATSMESSUNG
j
Einkommensklasse 0 bis 250 250 bis 500
300 1000
500 bis 750 750 bis 1000
2000
E
Einkommensklasse 0 bis 250 250 bis 500
500 bis 750 750 bis 1000
1000 bis 1500 E
f7
0,06 0,20 0,40
700
0,20 0,14
5000
1,00
1000
1000 bis 1500
j
nj
nj j
37500 375000
1250000 875000
0,06 0,26 0,66
0,86 1,00
125 375 625
875 1250
hj
La
0,011
0,011
0,
0,487
0,
0, 110
0,366
875000
0,256 0,256
3412500
1,00
0,121
(Lj_1 +Lj) fj
00066 0, 02640
0,743
0,
0,999
0,
24320 24600 24388
0, 76014
Die Lorenzkurve ergibt, sick durch lineare Interpolation der Punkte (0, 0) and (Fj , L3 ), j = 1, . . . , 5 . Fur DG erhalten win
DG=1-0,76=0,24 .
Das dritte Beispiel betrifft die Konzentrationsmessung aus klassierten Daten .
Beispiel „Makler": 301 Maklerunternehmen wurden nach ihrem Umsatz im Jahre 1999 befragt . In klassierten Form sind die Daten der folgenden Tabelle zu entnehmen (Queue: Mitteilungen des Institute fur Handelsforschung, Universitat zu Koln, 10/2000) . Man bestimme approximativ den RosenbluthIndex .
102
3 . KONZENTRATIONS- UND DISPARITATSMESSUNG j
Umsatz in 1000 DM
L3
[0, 200]
69
100
6900
0,0402 0,0402
] 200, 400]
86
300
25800
0,1503 0,1904
] 400, 600]
54
500
27000
0,1573 0,3477 0,0775 0,4252
] 600, 800]
19
700
13300
] 800,1000]
18
900
16200 0,0944 0,5195
]1000,2000j
55
1500
301 f7
82500
0,4805
1,0000
171700 (L~_1 + L~) . f~
1
0,2292
69
0,2292
2
86
0,2857 0,5150
0,0659
0,0092
3 54
0,1794
0,6944
0,0965
4
19
0,0631
0,7575
0,0488
5
18
0,0598
0,8173
0,0565
55
0,1827
1,0000
0,2777
301
0,5546
Es folgt fur den Gini-Koef zienten
D 0 = 1 - 0, 5546 = 0, 4454 Bowie fz r den Rosenbluth-Index (siehe Abschnitt 3 .4 .2)
KR
3 .4
_
1 n(1 - DG)
1
301 .0, 5546
_
0, 0060 .
Beziehungen zwischen Konzentration and Disparitat
Zwischen der statistischen Messung von Konzentration and der von Disparitat bestehen enge formale Verbindungen .
3 .4 .
BEZIEHUNGEN ZWISCHEN KONZENTRATION UND DISPARITAT
3 .4 .1
103
Konzentrationskurve and Lorenzkurve
Die Konzentrationskurve and die Lorenzkurve lassen sick durch einfache geometrische Operationen ineinander i berfi hren : . . . , x~ and reskaWir betrachten die Konzentrationskurve der Daten x1, lieren ihre Abszisse mit dem Faktor 1/n . Dann ergibt sick eine Kurve im Einheitsquadrat, bei der zu jedem i/n auf der Abszisse der Wert CR(i), das ist die Summe der i grof3ten Anteile, auf der Ordinate abgetragen wird, . . . , x, wird hini = 0,1, . . . , n. Bei der Lorenzkurve der gleichen Daten z1, gegen jeweils zur Summe der i kleinsten Anteile auf der Abszisse der Wert i/n auf der Ordinate abgetragen . Aus der Konzentrationskurve der Daten x1, . . . , x~ lasst sick durch einfache geometrische Operationen die Lorenzkurve derselben Daten gewinnen . Dies ist in Abbildung 3 .15 dargestellt . Wenn man die Konzentrationskurve (a) erst reskaliert (b) and danach zweimal spiegelt - zunachst an der Hauptdiagonalen des Einheitsquadrats (c) and dann an der anderen Diagonalen (d) - erhalt man die Lorenzkurve. Umgekehrt erhalt man die reskalierte Konzentrationskurve durch zweifache Spiegelung der Lorenzkurve . Fur die Ordnung von Lorenzkurven and die Ordnung von Konzentrationskurven folgt aus dieser geometrischen Uberlegung, dass, wenn man Datensatze gleicher Lange n vergleicht, beide Ordnungen aquivalent sind . Die Lorenzkurve der Daten x 1 , . . . , x n liegt namlich dann and nur dann unterhalb der Lo. . . , xn renzkurve der Daten yI, . . . , y n , wenn die Konzentrationskurve von XI, . Mit anderen Worten, oberhalb der Konzentrationskurve von YI, . . . , y n liegt die Daten xI, . . . , xn besitzen genau dann eine gleichmassig hohere Disparitat als die Daten yl , . . . , yn, wenn sie eine gleichmassig hohere Konzentration besitzen . 3.4 .2
Beziehungen zwischen den Indizes
Aus der Beziehung zwischen Lorenzkurve and Konzentrationskurve lassen sick einfache Formeln herleiten, die es erlauben, den Gini-Koeffizienten aus dem Rosenbluth-Index zu berechnen and umgekehrt . Es gilt :
KR
1 n(1-DG)'
1 nKR
104
3 . KONZENTRATIONS- UND DISPARITATSMESSUNG
CR(i)
1
2
i
3
(a) Konzentrationskurve der Daten x =
( 5, 3, 2)
z
CR(nz) 1
z
0
1
CR(nz)
(c) CR(nz) an der Hauptdia-
(b) Reskalierte Konzentrationskurve
gonalen gespiegelt
L(t) 1
0
1
(d) An der Nebendiagonalen gespiegelt, erhalt man die Lorenzkurve der Daten x = ( 5, 3, 2) Abbildung
3 .15 :
Uberfuhrung der Konzentrationskurve in die Lorenzkurve
3 .4 .
BEZIEHUNGEN ZWISCHEN KONZENTRATION UND DISPARITAT
105
Wir beweisen die erste Formel ; die zweite folgt dann sofort . Wie bisher bezeichne A die Flache oberhalb der Konzentrationskurve, B die Flache unterhalb der Lorenzkurve . Offenbar ist B gleich der Flache oberhalb der reskalierten Konzentrationskurve . Letztere ist wegen der Reskalierung der Abszisse um den Faktor n gleich n A; es gilt also B = *A . Nach Definition des GiniKoeffizienten haben wir DG = 1 - 2B, d.h . 2B = 1 - DG . Es folgt 1 KR ---
1
1
2A 2nB
n(1 - DG)
Zwischen dem Herfindahl-Index und dem Variationskoeffizienten bestehen ebenfalls einfache rechnerische Beziehungen . Es ist v2 +1 KH = , Ti
v 2 =nKH-1 .
und
Diese Formeln lassen sick leicht direkt beweisen . Wir zeigen die erste :
v 2 +1 n
1 (s 2 + x1 2 '\ x2 n /_ n ~ xz
/
2\ ti=1 z
x2
/ n i i=1 n 2 ~ n i=1 xZ `2=I
~ 2
xi
n
2
= KH .
Z
Die Formeln zeigen, dass mit wachsender Zahl n der Merkmalstrager die Konzentration, gemessen durch den Herfindahl-Index, mit dem Faktor fallt, wenn die Disparitat, gemessen durch den Variationskoeffizienten, gleich bleibt . Demgegenuber steigt, bei festgehaltenem n, die Konzentration mit der Disparitat (und umgekehrt) . Die gleichen Beziehungen gelten, wenn man die Konzentration durch den Rosenbluth-Index und die Disparitat durch den Gini-Koeffizienten mist .
3 .4.3
Allgemeine Forderungen an die Indizes
Wie schon in frfiheren Abschnitten stellt sick auch bei der Konzentrationsund Disparitatsmessung die Frage : Welche Eigenschaften muss eine Mal3zahl haben, dass man sie zurecht als Konzentrationsindex oder Disparitatsindex bezeichnen kann? Wir erwahnen hier nur kurz und informell einige Gemeinsamkeiten und Unterschiede von Disparitats- und Konzentrationsma1 en und verweisen im ubrigen auf die Literatur am Schluss dieses Kapitels .
106
3 . KONZENTRATIONS- UND DISPARITATSMESSUNG
Den Konzentrations- and Disparitatsindizes gemeinsam sind drei Prinzipien :
• Prinzip der Anonymitat, d .h . die Zuordnung der Merkmalswer-
te zu den Merkmalstragern geht in die MaEe nicht mit em, da emn Konzentrations- (oder Disparitatsmafl) nur von den absteigend (oder aufsteigend) geordneten Merkmalswerten abhangt .
• Prinzip der Skaleninvarianz, d .h . die Einheit, in der das Merkmal gemessen wird, spielt keine Rolle, da die Konzentrations- and Disparitatsindizes nur von Anteilen abhangen and sick die Einheit herauski rzt . Die Made sind dimensionslos, d .h . sie haben keine Benennung .
• Prinzip der egalisierenden Transfers, d .h . falls emn Merkmalstrager
mit hohem Merkmalswert einem anderen Merkmalstrager mit geringerem Merkmalswert einen kleinen Merkmalsbetrag transferiert Caber so, dass die Rangordnung erhalten bleibt), dann reduzieren sick sowohl Konzentration als auch Disparitat . Emn Mall, das dem Prinzip des egalisierenden Transfers folgt, ist monoton fallend bezuglich der Ordnung von Lorenzkurven (oder - was dasselbe bedeutet - der Ordnung von Konzentrationskurven) .
Konzentrations- and Disparitatsindizes unterscheiden sick jedoch in zweierlei Hinsicht, namlich bezuglich Nullerganzungen and Replikationen der Daten, die wie folgt definiert sind .
• Nullerganzung Sind xr, . . . , z 7 die Daten and fugt man m Nullen hinzu, so verandern sick weder die Konzentrationskurve noch die Werte der Konzentrationsmafle . Demgegenuber verlagert sick die Lorenzkurve nach unten and die Werte der Disparitatsindizes werden groiler .
• Replikation der Daten Geht man von den Daten x1, . . . , x n zu den Daten xr, xr, x2 i x2, . . . , x n , xn fiber, das heiEt, erweitert man die Daten um ihr identisches Abbild, so verandern sick weder die Lorenzkurve noch die Werte der Disparitatsindizes . Derngegenuber verschiebt sick die Konzentrationskurve nach unten, and die Werte der Konzentrationsmaile werden kleiner . Rosenbluth- and Herfindahl-Index halbieren sick bei einer einmaligen Replikation . Bei einer m-fachen Replikation reduzieren sick Rosenbluth- and Herfindahlindex auf den m-ten Teil des Ausgangswertes .
3 .4 .
BEZIEHUNGEN ZWISCHEN KONZENTRATION UND DISPARITAT
107
Erganzende Literatur zu Kapitel 3 : Die umfassende Monographic von Piesch (1975) behandelt - vornehmlich aus theoretischer Sicht - eine Vielzahl von Konzentrations- and Disparitatsmaf?,en . Laux (1983) stellt allgemein die Entwicklung and die Methoden der Konzentrationsmessung in der amtlichen Statistik dar . Stock and Opfermann (2000) befassen sick mit praktischen Problemen der Erhebung von Daten zur Konzentrationsmessung . In Abteilung 9 des Statistischen Jahrbuchs fur die Bundesrepublik Deutschland werden jedes Jahr die Konzentrationsraten zur horizontalen Konzentration im Produzierenden Gewerbe veroffentlicht . Dari ber hinaus publiziert das Statistische Bundesamt in seiner Veroffentlichungsreihe 4 .2 .3 regelmaf3ig weitere ausgewahlte Indizes der Konzentration, u .a . den Herfindahl-Index . Die etwa alle zwei Jahre erscheinenden Hauptgutachten der Monopolkommission bieten ausfiihrliche Darstellungen verschiedener Aspekte der industriellen Konzentration sowie reichhaltiges Datenmaterial . Empfehlenswerte Lehrbi cher der Ungleichheitsmessung sind Cowell (1995) and Lambert (2002) . Die Einkommens- and Geldvermogensverteilung der privaten Haushalte in Deutschland wird u .a. von Munnich (2000, 2001) untersucht ; dort wird die Statistische Praxis and die Ergebnisse der Auswertung auf Basis der Einkommens- and Verbrauchsstichprobe von 1998 beschrieben .
108
3 . KONZENTRATIONS- UND DISPARITATSMESSUNG
3 .5
Anhang zu Kapitel 3 : Verwendung von Excel
Auch bei der Konzentrations- and Disparitatmessung lasst sick Excel fur Berechnungen nutzen . Einige Anwendungen sollen im Folgenden kurz erlautert werden . Die zugehorigen Beispieltabellen konzentration . xls, disparitaet . xls and disparitaet_stetig .xls sind im Internet unter www .uni-koeln .de/wiso-fak /wisostatsem/buecher/beschr _ stat in Excel 97 and Excel 5 .0 verfugbar .
3.5 .1
Konzentrationsmessung
Die Daten stammen aus Abschnitt 3 .2 .1 (Umsatz der weltweit 20 grSEten Hersteller von Halbleitern in Mrd . US-Dollar) and sind bereits absteigend geordnet . Sollte dies bei einem Datensatz nicht der Fall sein, mussen die Beobachtungen zunachst absteigend sortiert werden, beispielsweise durch Gebrauch des Schalters bei Einzeldaten) .
z~ im Menu (vgl . auch Anhang zu Kapitel 2, Quantile A
Konzentrationsraten (vgl . konzentration . xls : Konzentrationsrate) B 22
= Summe(B2 :B21)
Spalte C C2 = B2 / $B$22
-# „Herunterziehen" bis C21
[hi]
Spalte D D2 = C2 y D3 = D2 + C3 y „Herunterziehen" his D21
[Konzentrationsraten]
Konzentrationskurve (vgl . konzentration . xls : Konzentrationskurve) Um die Konzentrationskurve zu erstellen, muss zunachst der Punkt (0,0) in der Arbeitstabelle in der Spalte A and der Spalte D erganzt werden .
• Zeile 2 markieren y
EINFUGEN / ZEILEN : nach unten verschieben -#
Ausfiillen von A2 7Leu and D2"Eeu mit 0
• Markieren von A2 :A22 and D2 :D22 • EINFUGEN / DIAGRAMM : Auswahl von PUNKT (XY), UNTERTYP 4
• Dri cken von
WETTER bis Abfrage oh neues Tabellenblatt y ENDS
3 .5 .
ANHANG ZU KAPITEL 3 : VERWENDUNG VON EXCEL
109
• „Doppelklicken" mit linker Maustaste auf x-Achse :
ACHSEN FORMATIE-
• „Doppelklicken" mit linker Maustaste auf y-Achse :
ACHSEN FORMATIE-
REN : SKALIERUNG : HOCHSTWERT : 20 REN : SKALIERUNG : HOCHSTWERT : 1
Konzentrationsindizes Rosenbluth-Index (vgl . konzentration .xls : Rosenbluth)
Spalte D D2 = A2 * C2 y „Herunterziehen" bis D21 D 22
= Summe(D2 :D21)
D23
= 2 * D22 - 1
D24
= 1/D23
[ihz]
[Rosenbluth-Index]
Herfindahl-Index (vgl . konzentration . xls : Herfindahl)
Spalte D D2 = C2 ^ 2 y „Herunterziehen" bis D21 D22
= Summe(D2 :D21)
[h?]
[Herfindahl-Index]
3 .5 .2 Disparitatsmessung Es liegt das obige Beispiel aus der Konzentrationsmessung zugrunde . Die Daten waren dort absteigend geordnet . Sie mussen nun erst aufsteigend sortiert werden . Dies geschieht mit Hilfe des Buttons Anhang zu Kapitel 2, Quantile bei Einzeldaten) .
A~ Z
im Menu (vgl . auch
Einzeldaten : Lorenzkurve (vgl . disparitaet .xls : Daten ; Lorenzkurve)
B 22
= Summe(B2 :B21)
Spalte C C2 = B2 / $B$22
'-f „Herunterziehen" bis C21
[h2]
Spalte D D2 = C2 y D3 = D2 + C3 y „Herunterziehen" bis D21 [ L (n)] Erstellen der Lorenzkurve Das Vorgehen ist ahnlich wie bei der Kon-
zentrationskurve . Insbesondere muss der Punkt (0, 0) in der Arbeitstabelle erganzt werden .
• Spalte E E2 =
A2 / $A$21 y „Herunterziehen" bis E21
[i/n]
110
3 . KONZENTRATIONS- UND DISPARITATSMESSUNG
• Einfiigen einer neuen Zeile 2 y setzen von 0 in A2 7eu and D2 ne~ • Markieren von E2 :E22 and D2 :D22
[Reihenfolge wichtig!]
• EINFUGEN / DIAGRAMM : Auswahl von PUNKT (XY), UNTERTYP 4
• Drucken von WETTER his Abfrage oh neues Tabellenblatt y ENDS • „Doppelklicken" mit linker Maustaste auf x-Achse : ACHSEN FORMATIEREN : SKALIERUNG : HOCHSTWERT : 1
• „Doppelklicken" mit linker Maustaste auf y-Achse : ACHSEN FORMATIEREN : SKALIERUNG : HOCHSTWERT : 1
Disparitatsindizes Gini-Index (vgl . disparitaet .xls : Gini) Spalte D
D2 = ( 2 * A2 - $A$21 -1)/$A$21
Spalte E E2 = D2 * C2 E22
„Herunterziehen" his D21
y „Herunterziehen" his E21
= = Summe(E2 :E21)
[Gini-Index]
VariationskoefFrzient (vgl . disparitaet .xls : Variation) Zur Berechnung von x and s vgl . Anhang 1, Einzeldaten . C24 = C23 / B23
[Variationskoeffizient]
Klassierte Daten : Das Vorgehen im Fall von klassierten Daten soil am Beispiel einer stetigen Klassierung (vgl . das Beispiel aus Abschnitt 2 .3 .6 Monatseinkommen von n = 5000 Studierenden) erlautert werden . Lorenzkurve (vgl . disparitaet_stetig .xls : L_j,F_j ; Lorenzkurve) Spalte E
enthalt relative Haufigkeiten
Spalte F
enthalt empirische Verteilungsfunktion F~
Spalte G G2 = ( B2 + C2) / 2
„Herunterziehen" his G6
[Klassenmittelpunkt ~] Spalte H
112 = G2 * D2 y „Herunterziehen" his 116
H7
= Summe(H2 :H6)
Spalte I
12 = H2 / $H$7 y „Herunterziehen" his 16
Spalte J J2 = 12
J3 = J2 + 13 y „Herunterziehen" his J6
[Li ]
3 .5 . ANHANG ZU KAPITEL 3 : VERWENDUNG VON EXCEL
111
Erstellen der Lorenzkurve erfolgt wie im Fall von Einzeldaten (Achtung : her erst F2 :F7, dann J2 :J7 markieren!) . Disparitatsindizes Gini-Index (vgl . disparitaet .xls : Gini) Spalte J J2 = 12 J3 = 12 + 13 „Herunterziehen" bis J6 Spalte K K2 = J2 * E2 y „Herunterziehen" bis K6 = Summe(K2 :K6) K7 = 1 - K7 [~ Gini-Koeffizient] K8 Variationskoeffizient (vgl . disparitaet .xls : Variation) Zur Berechnung von x and s vgl . den Anhang zu Kapitel 2 fiber stetig klassierte Daten . 19 = 18 / G7 [~ Variationskoeffizient]
Kapitel 4
Verhaltniszahlen, Messzahlen and Indexzahlen Die in diesem Kapitel behandelten Mat zahlen sind grundlegend fur die Wirtschaftsstatistik . Als Erstes diskutieren wir so genannte Verhaltniszahlen, das sind einfache Quotienten von statistischen Grof~en . Ihre Berechnung and Interpretation wirft keine besonderen Probleme auf. Mit den im Folgenden behandelten Indizes sind dagegen erhebliche Probleme verbunden, and zwar sowohl in formal-methodischer als auch in inhaltlich-okonomischer and praktisch-statistischen Hinsicht . Im Rahmen dieser Einfuhrung geben wir zunachst die wichtigsten Formeln fur Preis-, Mengen- and Wertindizes an and erlautern sie an Beispielen . Naher betrachten wir dann den Preisindex fur die Lebenshaltung den privaten Haushalte in Deutschland and die internationalen Verbrauchergeldparitaten .
4.1
Verhaltniszahlen
Eine Verhaltniszahl ist allgemein den Quotient von zwei statistischen GroEen . Die den beiden Gro1 en zugrunde liegenden Gesamtheiten konnen identisch oder verschieden sein . Als spezielle Verhaltniszahlen unterscheidet man Gliederungszahlen, Beziehungszahlen and Messzahlen . Eine Gliederungszahl sagt etwas fiber die Struktur einer Grundgesamtheit bezuglich eines Merkmals aus . Man geht dabei von einer Grundgesamtheit G aus, die in mehrere Teilgesamtheiten G 1i C2 , . . . , GJ zerfallt, and betrachtet emn extensives Merkmal U auf G . Bezeichne u j die Merkmalssumme (man 113
114
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
sagt auch : den „Wert") von U auf der Teilgesamtheit G;, j = 1, 2, . . . , J . Dann stellt u = ~~ 1 u~ die Merkmalssumme auf ganz G dar . Die Zahlen
gjr
u=
r=1
ur
, j=1, . . .,J,
nennt man Gliederungszahlen fur U in G . Offensichtlich sind die gj Anteile, also dimensionslos ; es gilt gj > 0 and >i'1 gj = 1 .
Beispiele :
• Anteile der Studierenden der verschiedenen Studiengiinge an den Studierenden der Wirtschafts- and Sozialwissenschaftlichen Fakultat,
• Ante ile der Handwerksbetriebe nach bestimmten Grof3enklassen an den Handwerksbetrieben in Nordrhein-Westfalen,
• Anteile von Bund, Landern and Gemeinden an der Verschuldung der offentlichen Hand in Deutschland .
Haufig, wie in den ersten beiden Beispielen, beschreibt die Gliederungszahl g j den relatives Umfang der Teilgesamtheit G; ; in diesen Fallen ist U lediglich eine Zahlvariable . Im dritten Beispiel verhalt es sich anders ; hier beschreibt • die Hohe der Verschuldung der Gebietskorperschaften . Eine Beziehungszahl beschreibt die Struktur einer Grundgesamtheit in Bezug auf zwei Merkmale . Sei G wieder eine Grundgesamtheit, die aus den • Teilgesamtheiten G1 i . . . , GJ besteht . U and V seien extensive Merkmale, die in einer sinnvollen sachlichen Verbindung zueinander stehen . Ihre Merkmalssummen („Werte") in. C1, . , G~ bezeichnen wir mit u1, . . . , u j bzw . v 1 , . . . , vJ . Die Merkmalssummen von U and V in G betragen dann u = 1 u~ bzw, v = 1 v~ . Die Quotienten b=u v
and
vi
j=1, . . .,J,
heiflen Beziehungszahlen fur U and V in G .
Beispiele :
• Bevolkerungsdichte (= Einwohner pro Flache) in Deutschland and den einzelnen Bundeslandern,
• Pro-Kopf-Einkommen (= Bruttoinlandsprodukt (BIP) pro Einwohner) in Deutschland and den einzelnen Bundeslandern,
• Arbeitslosenquote (= Arbeitslose pro Erwerbsperson) in einem Bundesland and dessen Arbeitsamtbezirken,
4 .1 .
115
VERHALTNISZAHLEN
• Staatsverschuldungs quote (= Schulden der offentlichen Hande bezogen auf das BIP) der EU and ihrer Mitgliedsstaaten .
Beziehungszahlen haben offensichtlich eine Benennung, namlich Benennung Zahler Benennung Nenner Beispiel „Bundeslander": Die amtliche Statistik der Bundesrepublik Deutschland weist die Bevolkerung, die Flache and das Bruttoinlandsprodukt (BIP) reach den einzelnen Bundeslandern wie folgt aus (Zahlen von 2004) :
Bundesland
Einw. in 1000 Flache in km 2
BIP in Mrd. €
Baden-Wi rttemberg
10717
35752
319,43
Bagern
12444
70549
385,16
Berlin
3388
892
77, 86
Brandenburg
2568 29477
45, 02
Bremen
663
404
23,58
Hamburg
1735
755
78,79
Hessen
6098
21115
195,17
Mecklenburg-Vorp .
1720 23174
Niedersachsen
8001
Nordrhein-West!alen
29,78
47618
184,92
18075 34084
481,42
Rheinland-Pfalz
4061
Saarland
1056
2569
26,05
Sachsen
4296 18414
79,84
Sachsen-Anhalt
2494
20445
45, 81
Schleswig-Holstein
2829
15763
66, 51
Thiiringen
2355
16172
42,27
82501
357030
2177, 00
Summe
19847 95, 39
Aus diesen Daten berechnen wir fur die 16 deutschen Bundeslander die
• Gliederungszahlen „Bevolkerungsanteil`, „Flachenanteil", „Anteil am BIP" Bowie die
• Beziehungszahlen „Bevolkerungsdichte" and „BIP pro Kopf " .
116
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
Bundesland
Bevolkerungsanteil Flachenanteil Anteil am BIP
Baden-Wwrttemberg 0,1299 0,1001 0,1467 Bayern 0,1508 0, 1976 0,1769 Berlin
0,
0411
0,
0025
0,
0358
Brandenburg 0, 0311 0, 0826 0, 0207 Bremen 0,0080 0,0011 0,0108 Hamburg 0,0210 0,0021 0,0362 Hessen 0, 0739 0, 0591 0, 0897 Mecklenburg-Vorp . 0, 0208 0, 0649 0, 0137 Niedersachsen 0,0970 0,1334 0,0849 Nordrhein-Westfalen 0, 2191 0,0955 0, 2211 Rheinland-Pfalz 0, 0492 0, 0556 0, 0438 Saarland 0,0128 0,0072 0,0120 Sachsen 0, 0521 0, 0516 0, 0367 Sachsen-Anhalt 0, 0302 0, 0573 0, 0210 Schleswig-Holstein 0, 0343 0, 0442 0, 0306 Thiiringen 0, 0285 0, 0453 0, 0194 1 Summe 1 1
Zwischen b = v and b3 = v~ , j = 1, . . . , J, bestehen die Beziehungen 7
Man kann deshalb die Beziehungszahl v als gewichtetes arithmetisches Mitten der Beziehungszahlen v' berechnen, wobei die Gewichte durch die Gliederungszahlen h~ = v des Merkmals V in . C1, . . , G~ gegeben sind .
4 .1 .
117
VERHALTNISZAHLEN
Bundesland
Bevolkerungsdichte
BIP pro Kopf
Einwohner pro km 2
in €
Baden-Wiirttemberg
300
29806
Bayern
176
30951
3798
22981
87
17531
Bremen
1641
35566
Hamburg
2298
45412
289
32006
74
17314
Niedersachsen
168
23112
Nordrhein-Westfalen
530
26635
Rheinland-Pfalz
205
23489
Saarland
411
24669
Sachsen
233
18585
Sachsen-A nhalt
122
18368
Schleswig-Holstein
179
23510
Thiiringen
146
17949
Deutschland insgesamt
231
26388
Berlin Brandenburg
Hess en Mecklenburg-Vorp .
Ferner gilt :
-1
b=( .u )=
-1
j=1 U
j=1
Daher kann die Beziehungszahl v durch emn gewichtetes harmonisches Mittel der v' berechnet werden, wobei die Gewichte durch die Gliederungszahlen
gj
=u
des Merkmals U in G1, . . . , Gj gegeben sind .
Man beachte, dass sick b = v nicht ohne weiteres aus den Werten b1, b2, . . . , bJ berechnen last . Man benotigt als Zusatzinformation entweder die Glie-
118
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
derungszahlen h~ von V oder die Gliederungszahlen gj von U, jeweils fur Eine Messzahl ist der Quotient von zwei sachlich aufeinander bezogenen Mat zahlen fur zwei statistische Massen . Man spricht von einer Messzahl des sachlichen, raumlichen oder zeitlichen Vergleichs je nach der Abgrenzung der statistischen Masse . Messzahlen haben keine Benennung . Beispiele : Das Geschlechterverhaltnis =
Manner in Deutschland am 1 .1 .2003 Frauen in Deutschland am 1 .1 .2003
ist eine Messzahl des sachlichen Vergleichs . Die Deutschland am 1 . 1 .2003 Einwohnerrelation= Einwohner von Einwohner von Frankreich am 1 .1 .2003 ist eine Messzahl des raumlichen Vergleichs . Der Quotient Einwohner von Deutschland am 1 .1 .2003 Einwohner von Deutschland am 1 .1 .1 999 ist eine Messzahl des zeitlichen Vergleichs .
4 .2
Messzahlen des zeitlichen Vergleichs
Unter den Messzahlen kommt denjenigen des zeitlichen Vergleichs eine besondere Bedeutung zu . Ausgangspunkt ist die zeitlich geordnete Folge von Werten xto , xt l , . . . ,x . (kurz x t , t = tp, t1 i . . . , tT) eines mindestens verhaltnisskalierten Merkmals X in einer Gesamtheit . Eine solche Folge nennt man eine Zeitreihe . Der Index t bezeichnet die Zeit . Bei Bestandsgrof?en ist die Zeit emn Zeitpunkt, bei Bewegungsgrol3en emn Zeitraum . Beispiele fur Zeitreihen : • Bruttoinlandsprodukt in Deutschland im Jahre t • Arbeitslosenzahl in Deutschland am Ende des Monats t • Preis eines bestimmten Gutes zur Mitte des Monats t Wenn aufeinander folgende Zeitpunkte jeweils den gleichen Abstand besitzen bzw . (im Fall von BewegungsgroEen) aufeinander folgende Zeitraume gleich lang sind, nennt man die Zeiten aquidistant and schreibt einfach t = 0,1, . . .,T statt t = to,t1 i . . .,tT .
4 .2 .
MESSZAHLEN DES ZEITLICHEN VERGLEICHS
119
Wir betrachten zunachst Messzahlen mit fester Basiszeit . Sei s eine bestimmte Basiszeit, s E {to , t1, . . . , tT} . Die Messzahl fur die Berichtszeit t, t = to, tl, . . . ,t7-', zur Basiszeit s ist definiert als ms,t
xt
= x
s
Als Basiszeit wahlt man haufig s = to . Fur beliebige Zeiten s and t gilt
4.2 .1
mt,t
= 1,
ms,t
=
1
mt,s
Umbasierung and Verkettung von Messzahlen
Unter Umbasierung versteht man den Ubergang von einer Messzahl mit Basiszeit s zu einer Messzahl mit anderer Basiszeit r E {to, ti, . . . , tT} . Es ist
x 5t
xt ms,t s mr,t = - _ ~~ _ m s,r Zr xs
t = t0,tl, . . .,tT .
Hieraus folgt unmittelbar die Formel fur die Zirkularitat von Messzahlen m s , t - m s , r m r, t . Mit diesen Formeln lasst sick leicht das folgende Verkettungsproblem losen . Fur eine Zeitreihe mit aquidistanten Zeiten, xo, x1, . . . , XT, seien zwei Folgen von Messzahlen zur Basiszeit 0 bzw . zur Basiszeit s gegeben :
mo,t
fur t =. .0,1, ,s
ms,t
fur t
= s,s+l, . . .,T
Gesucht ist eine durchgehende Folge von Messzahlen zur Basiszeit 0 and eine ebensolche zur Basiszeit s . Fur die Basiszeit 0 erhalt man mo,t
-
r
mo, t ,
t=0,1, . . .,s,
mo, s •m s ,t,
t=s+1,s+2, . . .,T,
and fur die Basiszeit s ms,t =
mm_t mo,
t=0,1, . . .,s-1,
ms,t ,
t=s,s+1, . . .,T .
120
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
Zahlenbeispiel fir die Verkettung zweier Folgen von Messzahlen : Fur eine Zeitreihe sind die Messzahlen
and
mo, t
fur t = 0,1,
m3,t
fur t =
2, 3
3, 4, 5, 6
wie folgt gegeben :
t
0 1
2
3
4
5
6
1 1,4 1,3 1,7
m3 t
0,8 0,9 1,1
1
Durch Verkettung der Messzahlen lasst sick die Tabelle wie folgt vervollstandigen :
4.2 .2
t
0
1
mo,t m3, t
1
1,4
0,59
0,82
2
3
4
5
6
1,3 1,7
1,36
1,53
1,87
0,76
0, 8
0, 9
1,1
1
Zuwachsraten and Zuwachsfaktoren
Im Folgenden nehmen wir an, dass die Zeiten aquidistant sind and betrachten eine Zeitreihe der Form
xt ,
t=0,1, . . .,T .
Die Messzahlen des zeitlichen Vergleichs von einer Zeit s auf eine Zeit t,
m s,t
xt xs
,
heif?,en auch Zuwachsfaktoren . Die absolute Anderung x t - x s bezogen auf den Wert zur Zeit s,
w s, t =
xt - x s = m s,t - 1, xs
bezeichnet man als Zuwachsrate .
4 .2 . MESSZAHLEN DES ZEITLICHEN VERGLEICHS
121
Beim Vergleich zwischen benachbarten Perioden kann man die etwas umstandliche Notation mit zweifachen Indizes vermeiden, indem man kurz
mt
and
= mt _l, t
w t - w t _1, t
schreibt . Zuwachsfaktoren and Zuwachsraten werden auch Wachstumsfaktoren bzw . Wachstumsraten genannt . Sie werden haufig in Prozent angegeben . Es gilt xt
=
mt-l,t xt-1
Xt - xt-1
=
wt-1,t ' xt-1 .
Der Wachstumsfaktor ist also die Zahl, mit der man einen Merkmalswert multipliziert, um den nachsten Merkmalswert zu erhalten, wahrend die zugehorige Wachstumsrate den relatives Zuwachs angibt . Beispiel „Bargeldumlauf ": Der Bargeldumlauf in Dents chland in den Jahren 1992 bis 2001 ist der folgenden Tabelle zu entnehmen . Berechnet wurden die einjahrigen Zuwachsfaktoren and Zuwachsraten: Jahr
Bargeldumlauf in Mio . DM
1992 1993
227285 238641
1994 1995
250907 263510 275744
1996 1997 1998 1999 2000 2001
Zuwachs rate in
Zuwachsfaktor 1,04996 1,05140
4,996 5,140
1,05023 1,04643
5,023 4,643 0,181
276242 270981
1,00181 0,98096
-1,904
289972
1,07008 0, 95921
7,008 -4,079
0, 58317
-41,683
278143 162205
Queue : Geschaftsberichte der Deutschen Bundes bank . Die Zuwachsrate im Jahr 2001 war stark negativ . Offenbar wurden in Erwartung des Euro Bargeldbestande abgebaut . Als durchschnittlichen Zuwachsfaktor von der Zeit 0 bis zur Zeit T bezeichnet man das geometrische Mittel der einperiodigen Zuwachsfaktoren, mG = TJmp , l ' m1 , 2
...
mT_1 , T -
T
T
1 t-1
mt-1,t .
122
4.
VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
Es gilt x xo
xt
x t _1
Man sieht, dass der durchschnittliche Zuwachsfaktor mG nur von xo and X T abhangt, nicht jedoch von den zeitlich dazwischen liegenden Werten i i , . . . , XT_1 . Der durchschnittliche Zuwachsfaktor hat die folgende Eigenschaft : Wenn xo mit der durchschnittlichen Zuwachsrate wachst, so ergibt sick nach T Perioden der Wert XT, also: t=0
t=1 t=2
xo xo m,G
xo mc 2
t = T- 1
xo mG T-1
t=T
xomG T =xo ( T
o)
T
=xo
o
=XT
Durchschnittliche Zuwachsrate von der Zeit 0 bis zur Zeit T nennt man den um eins verminderten durchschnittlichen Zuwachsfaktor,
Beispiel „Kapitalkonto": Emn Kapitalkonto werde T Jahre lang jahrlich verzinst, and zwar zu unterschiedlichen Zinssatzen (in Prozent) von p1, p2, • • • , Dann ist w t _1, t = p l o and 100w gleich dem durchschnittlichen Zinssatz
PT .
in Prozent .
Beispiel „Bevolkerung USA": Die Bevolkerung der Vereinigten Staaten von Amen/ca hat sick in den Jahren 1960 bis 2000 wie folgt entwickelt :
Jahr Bevolkerung
1960 1970 1980 1990
2000
Durchschnittlicher
Durchschnittliche
Zuwachsfaktor
Zuwachs rate
in Tausend
inn 10-Jahreszeitraum
180 671 205 052
1,0127
227 757 249 924
281422
1,0106 1,0093 1,0119
in
1,27 1,06
0,93 1,19
4 .2 .
123
MESSZAHLEN DES ZEITLICHEN VERGLEICHS
Die durchschnittliche jahrliche Zuwachsrate von 1960 bis 2000 betragt in Prozent
281422
1
ao180 671
100% = 1,1141% .
Sie lasst sick auch aus den in der Tabelle gegebenen Zehnjahres-Zuwachs-
faktoren berechnen, denn fir den durchschnittlichen jahrlichen Zuwachsfaktor von 1960 bis 2000 gilt rG,1960 bis 2000
= =
4~/1, 0127 10
1,0106 10
1, 0093 10
•
1,0119 10
1,011141 .
Hieraus erhalt man die durchschnittliche jahrliche Zuwachsrate als (mG,i96o bis 2000 - 1)
•
100% = 1,1141% .
4 .2 .3 Logarithmische Zuwachsraten Bei manchen Anwendungen, etwa bei der Analyse von Aktienkursen, wird statt der Zuwachsrate w s , t die logarithmische Zuwachsrate r g , t = In betrachtet . Es gilt dann
I xt
) = In xt - In x s z8 !
xt = x s erst .
Wenn die Different zwischen x s and xt gering ist, kann w s, t approximativ anstelle von rs, t verwendet werden . Es gilt namlich in erster Naherung r s , t = In
xt
xt - X s
xs
xs
- wst
Der Hauptvorteil der logarithmischen Zuwachsraten besteht darin, dass sie sick fiber mehrere Perioden addieren lassen . Sind fur die Perioden 1, 2, . . . , T
die einperiodigen logarithmischen Zuwachsraten ro,i, ri,2, . . . , rT_1,T bekannt, so erhalt man die logarithmische Zuwachsrate von 0 bis T wie folgt : r o ,T = In xT - In xo =
T t=1
(ln x t - In xt-1) =
T t=1
rt_ 1,t
Die logarithmische Zuwachsrate ro,T ist also die Summe der einperiodigen Zuwachsraten rt, t = 1, . . ., T . Die durchschnittliche logarithmische Zuwachsrate fur den Zeitraum von 0 bis T ergibt sick als arithmetisches Mittel,
r
r
_ 1
T t=1
1
= 7 ro,T .
124
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
Mit logarithmischen Zuwachsraten lasst sick offenbar bequemer rechnen als mit gewohnlichen Zuwachsraten . Fur die einperiodige logarithmische Zuwachsrate gilt die Gleichung xt = xt_1 e In der Finanzmathematik lasst sie sick als stetige Verzinsung einer Kapitals interpretieren : Das Anfangskapital x t _1 zum Zeitpunkt t - 1 wird his zum Zeitpunkt t stetig mit der Rate rt _1,t verzinst . Demgegenuber gilt fur die gewohnliche Zuwachsrate die Gleichung x t = x t _1 w t _1, t
.
Sie beschreibt eine diskrete Verzinsung . 1st die gewohnliche Zuwachsrate wt-1,t fur alle Perioden t konstant, so wachst x t mit konstantem Faktor, d .h . linear . 1st die logarithmische Zuwachsrate rt _ 1 , t fur alle Perioden t konstant, so wachst xt exponentiell . Lineares and exponentielles Wachstum einer Zeitreihe werden wir im Kapitel 6 naher untersuchen . Beispiel „Borsenkurs": Wahrend einer Woche (fun! Borsentage) wurde der Kurs einer bestimmten Aktie notiert . Die folgende Tabelle enthalt den Kurs x t , t = 0, . . . , 4, Bowie die daraus berechneten gewohnlichen and logarithmischen Zuwachsraten . Borsentag t M Di
Kurs it in €
wt-1,t
rt-1,t
t=0 t = 1
33 40
0,2121
0,1924
Mi t = 2 Do t = 3
51 55
0,2750 0,0784
0,2429 0,0755
Fr t = 4
35
-0,3636 -0,4520
Von Montag auf Freitag ergibt sick aus der Tabelle die logarithmische Zuwachsrate r0,4 = 0, 0588 . Als durchschnittliche logarithmische Zuwachsrate pro Tag erhalt man r = 0, 0147, d.h . 1,47 Prozent . Demgegenuber betragt die gewohnliche Zuwachsrate von Montag an! Freitag wo,4
35
= 33 -
1 = 0, 0606 ;
die durchschnittliche Zuwachsrate ist
= 0, 0148 , das rind 1,48 Prozent .
4 .3 .
INDEXZAHLEN
125
4 .3 Indexzahlen Mit Messzahlen last sick die zeitliche Veranderung einer bestimmten okonomischen Grofle darstellen . Haufig stellt sick jedoch die Aufgabe, die zeitliche Veranderung mehrerer Groflen zugleich zu beschreiben . Zum Beispiel soil gemessen werden, wie sick die Preise fur Giiter des privaten Konsums von einem Jahr auf das folgende entwickelt haben . Nun besteht der private Konsum aus einer Vielzahl von Waren and Dienstleistungen, die durchaus unterschiedliche Preisanderungen erfahren . Wahrend etwa die Preise fur elektronische Gerate eher sinken, steigen die Preise fur manche Lebensmittel and Dienstleistungen von Jahr zu Jahr an . Fur jedes Gut, das konsumiert wird, wird die Preisanderung im betrachteten Zeitraum durch eine eigene Messzahl beschrieben . Das Problem besteht darin, diese Messzahlen zu einer einzigen Zahl, einer so genannten Indexzahl, zu aggregieren . Es liegt nahe, die Indexzahl als gewichteten Mittelwert der einzelnen Messzahlen anzusetzen . Im Fall der Konsumguterpreise werden die Gewichte nach den wertmalligen Anteilen der einzelnen Gi ter am Konsum bemessen . Allgemein interessiert man sick nicht nur fur die Anderung der Preise verschiedener Giiter nach ihrer wertmafligen Bedeutung, sondern auch fur die Anderung von zu bestimmten Preisen gehandelten Gutermengen Bowie fur die Anderung von den sick als Produkt aus Preis and Menge ergebenden Werten . Im Folgenden betrachten wir einen so genannten Warenkorb, das ist eine Kollektion von bestimmten Giitern, and setzen voraus, dass fur jedes dieser Gi ter emn Preis and eine Menge gegeben sind, and zwar zu mindestens zwei verschiedenen Zeiten . Bezeichne n die Anzahl der Gi ter im Warenkorb,
p t (i)
den Preis des Gutes i zur Zeit t,
qt (i)
die Menge des Gutes i zur Zeit t,
vt (i) = pt (i) q t (i)
den Wert des Gutes i zur Zeit t,
fur i = 1, . . . , n and die gegebenen Zeiten t . Die drei Groflen sind jeweils die Mengen die Bebenannt : Die Preise haben die Benennung Geldeinheit nennung Mengeneinheit, die Werte die Benennung Geldeinheit . Mengeneinheit
~
Betrachtet werden zwei Zeitpunkte (oder -perioden), die Berichtszeit and Basiszeit genannt werden . Der Einfachheit halber wird die Basiszeit mit 0, die Berichtszeit mit t bezeichnet . Wir wollen die Anderungen der Preise, der Mengen and der Werte fur den gesamten Warenkorb beschreiben, die sick zur Berichtszeit gegenuber der Basiszeit ergeben haben . Fur jedes einzelne
126
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
Gut i werden diese Anderungen durch drei Messzahlen beschrieben, pt(z) qt(z) qo (z)
Mengenmesszahl fur das Gut i,
vt (z)
Wertmesszahl fur das Gut i .
vo (z)
Offenbar ist die Wertmesszahl das Produkt der Preis- and der Mengenmesszahl : vt(z) __ pt(i)qt(i)_ vo(z) po(z) qo(i)
pt(z) p0 (i)
qt(z) qo(z)
Preismesszahl Mengenmesszahl
Die Anderungen fur die Giiter des Warenkorbs werden also durch insgesamt 3 . n Messzahlen dargestellt . Da diese Darstellung jedoch zu uniibersichtlich and unpraktikabel 1st, sucht man die gesamte Anderung der Preise, Mengen and Werte jeweils durch eine einzige Zahl zu charakterisieren . Im Folgenden wollen wir die Preis-, Mengen- and Wertveranderung des gesamten Warenkorbs mit Hilfe geeigneter Indexzahlen messen . Eine solche Indexzahl, auch kurz Index genannt, ist emn spezieller Mittelwert von Messzahlen .
4 .3 .1
Preisindizes
In diesem Abschnitt werden Indexzahlen zur Messung der Preisentwicklung (von der Basiszeit 0 zur Berichtszeit t) dargestellt . Sie beziehen sick auf die Giiter eines festgelegten Warenkorbs .
• Preisindex vom Typ Laspeyres (Etienne Laspeyres,
Preismesszahl fur das Gut i,
po (i)
IPLa ;O,t -
1864) :
pt(z) po(i)go(z)
i=1 po(z)
j=1
po(j)go(j)
Dies 1st die so genannte Mittelwertform des Preisindexes von Laspeyres . Iia;o,t ist emn gewichtetes arithmetisches Mittel der Preismesszahlen pt(i) p0 (z)
wobei die Gewichte durch die Ausgabenanteile in der Basiszeit 0 po(z)go(z)
Ti
j=1
po(7)go(j)
,
i=l, . . .,n,
4 .3 .
INDEXZAHLEN
127
der Giiter gegeben sind . Die Gewichte nennt man auch das Wagungsschema des Indexes . Wenn Basiszeit and Berichtszeit feststehen, schreibt man statt Iia ;o,t kiirzer Iia • Aus der Mittelwertform ergibt sick durch Kurzen von p0(i) die Aggregatform des Indexes . Es ist n p i=1 ILa ;O,t - n i=1
pt(i)go(i) po(i)go(i)
Beim Preisindex nach Laspeyres werden die Preise der Basis- and der Berichtszeit mit den Mengen der Basiszeit gewichtet . Man sagt auch, das Mengenschema stamme aus der Basiszeit . Im Nenner steht eine echte Wertgrof?e, namlich die Ausgaben fur die Giiter des Warenkorbs zur Basiszeit . Im Zahler steht eine fiktive WertgroEe, namlich die Ausgaben fur den Warenkorb mit Preisen der Berichtszeit and Mengen der Basiszeit . IL a ist ohne Benennung, da sich die Benennungen des Zahlers and des Nenners herauskirzen .
• Preisindex vom Typ Paasche (Hermann Paasche, IPa ;o,t = n
1 pt(i)
i=1 po(i)
1
1871) :
pt(i)qt(i)
Ti
i pt(j)qt(j) j=1
lautet der Preisindex nach Paasche fur die Basiszeit 0 and die Berichtszeit t . (Wenn Basiszeit and Berichtszeit feststehen, schreibt man auch kurz IPa .) Dies ist die Mittelwertform des Paasche-Indexes . Sie stellt emn gewichtetes harmonisches Mittel der Preismesszahlen Pt(i) p0(i)
der verschiedenen Giiter dar, wobei die Gewichte durch die Ausgabenanteile pt(i)qt(i)
Ti
I pt(j)qt(j)
i
1, .
.
j=1
der Giiter in der Berichtszeit gegeben sind . Aus der Mittelwertform folgt durch Kurzen and Umformen des Doppelbruchs die Aggregatform
128
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN des Indexes : P
IPa ;o,t -
i=1 n i=1
pt(i)qt(i) po(i)gt(i)
Beim Preisindex nach Paasche werden die Preise der Basis- and Berichtszeit mit den Mengen der Berichtszeit gewichtet . Das Mengenschema stammt also aus der Berichtszeit . Im Zahler steht eine echte Wertgrohe, namlich die Ausgaben fur den Warenkorb zur Berichtszeit . Im Nenner steht eine fiktive Wertgroi~e, da die Preise der Basiszeit mit den Mengen der Berichtszeit gewichtet werden . Ebenso wie der Index nach Laspeyres hat der Paasche-Index deshalb keine Benennung . Beispiel „Preisindex": Die Preise (in GE) and Mengen (in ME) eines Warenkorbes mit n = 3 Giitern zur Basiszeit t = 0 and Berichtszeit t = 1 entnehme man der folgenden Tabelle : Gut
Basiszeit t = 0
Berichtszeit t = 1
i 1
po (i) 14,30
go (z) 2,20
p1 (z)
14,70
(z) 1,80
2
1,19
3
0,94
8,00 18,00
1,05 0,99
18,00 14,00
g1
Die Preisindezzahlen nach Laspeyres and Paasche lassen sick hieraus am einfachsten in der Aggregatform berechnen . Arbeitstabelle :
i 1 2 3
(z) po (z) go (z) 32, 3400 31,4600 8, 4000 9, 5200 17,8200 16, 9200
P1 (z) go
58, 5600 Es ergibt sick
57,9000
(z) 26, 4600
po (z) g1 (z) 25, 7400
18, 9000 13, 8600
21,4200 13,1600
59, 2200
60, 3200
p1 (i)q1
58, 5600 _ 1, 0114 . ILa ;o,1 - 57, 9000
Der Preisindex nach Laspeyres zeigt eine Preiserhohung von 1,14% an ; die Preise fur die drei Gi ter des Warenkorbs sired demnach um durchschnittlich
4 .3 . INDEXZAHLEN
1 29
1,14% gestiegen . Weiter ist P 1 Pa ;0,1
-
59,2200 _
60,3200
0, 9818 .
Der Preisindex nach Paasche weist eine Preisveranderung von -1, 82% aus, das ist eine Preissenkung von 1, 82% .
Wie dieses Zahlenbeispiel zeigt, konnen die Indizes nach Laspeyres and Paasche - je nach der Art der Veranderung von Preisen and Mengen der Giiter die Preisveranderung des Warenkorbes sehr unterschiedlich anzeigen . Die Frage, warm IPa ;o,t < Ira ;o,t gilt and warm das Umgekehrte, lasst sick mit etwas Mathematik analysieren . Man kann zeigen, dass IPa ;o,t < ILa ;o,t genau dann gilt, wenn die Folge der Preismesszahlen and
P0(i) Z
die Folge der Mengenmesszahlen
qo
fur i = 1, . . . , n,
fur i = 1, . . . , n, i „negativ korreliert" sind, d .h . wenn den Preissteigerungen uberwiegend Mengenreduktionen entsprechen and den Preisreduktionen uberwiegend Mengensteigerungen . Zum Begriff der Korrelation siehe Kapitel 5 . ~2
Unser Beispiel „Preisindex" stellt gerade einen Fall negativ korrelierter Preise and Mengen dar : Bei den Gi tern 1 and 3 sind die Preismesszahlen grofler als eins, die Mengenmesszahlen kleiner als eins . Bei Gut 2 ist die Preismesszahl kleiner als eins, die Mengenmesszahl grofmer eins . • Preisindex vom Typ Fisher (Irving Fisher, 1922) :
Neben den Preisindizes nach Laspeyres and Paasche ist vor allem der Preisindex nach Fisher von Interesse . Seine Definition lautet IFi;O,t
-
ILa ;O,t IPa ;O,t
Der Preisindex nach Fisher ist das geometrische Mittel aus den Preisindizes nach Laspeyres and Paasche . Offensichtlich ist min { ILa ;O,t'
IPa ;o,t} - IFi ;O,t
max {ILa ;o,t+IPa ;o,t}
Im obigen Zahlenbeispiel „Preisindex" gilt IFi ;=
~/1,0114 .0,9818=0,9965 .
Der Preisindex von Fischer weist hier eine Reduktion der Preise der Gliter des Warenkorbs um 0, 35% aus .
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
130
4.3 .2
Mengenindizes
In diesem Abschnitt sollen Indexzahlen zur Messung der Mengenentwicklung der Gi ter eines Warenkorbs vorgestellt werden . Die Basiszeit ist wiederum 0, die Berichtszeit t .
•
Mengenindex vom Typ Laspeyres Es sind qo (z)
and
po (j) qo (j)
n i qt (z) po (z) q i=1 ILa ; O,t - n qo (z) p0 (z) i=1
die Mittelwert- bzw . Aggregatform des Mengenindexes nach Laspeyres, wobei qt (z) i=1, . . .,n, qo (i)' die Mengenmesszahl and
j=1
po (z) qo (z) n > po (j) qo (j) j=1
i = 1, . . .,n,
den Ausgabenanteil des i-ten Gutes zur Basiszeit bezeichnet . Diese Forrneln sind denen des Laspeyres-Preisindexes sehr ahnlich . Formal erhalt man aus einem Laspeyres-Preisindex einen Laspeyres-Mengenindex, indem man die Rollen der Preise p and Mengen q vertauscht ; umgekehrt gilt das Gleiche . Die beiden Formen des Indexes lassen sick analog denen des Preisindexes vom Typ Laspeyres interpretieren .
•
Mengenindex vom Typ Paasche Es sind jqPa ;O,t -
1 1 qt (i) a=1 qo(i)
pt(i)qt(i) n >, pt(j)qt(j) j=1
4 .3 .
INDEXZAHLEN
131
and
n
IePa ;o,t
4t(i)pt(i) i=1 ra 14o(i)pt(i) i=1
die Mittelwert- bzw. Aggregatform des Mengenindexes nach Paasche .
• Mengenindex vom Typ Fisher Es ist
IFi;o,t
ILa ;0,t IPa ;0,t
Im Zahlenbeispiel „Preisindex" ergibt sick e
ILa ;0,1
e
IPa ;o1 ,
IFi ;o,1
4.3 .3
1,8014,30+18,00 •1 ,19+14,00 •0 ,94 _ 60,32 _ 2,20 • 1 4,30 + 8,001,19 + 18,00 • 0 ,94 _
57,90
1, 0418 ,
1, 0113 , 58, 56 ./1,0418 .1,0113 = 1, 0264 . 59,22
Wertindizes
Wahrend die Definition von Preis-und Mengenindizes viele formale and inhaltliche Fragen aufwirft, ist die Definition eines Wertindexes vergleichsweise unproblematisch . Offensichtlich ist
i=1
bzw .
i=1
Ti
po(i)4o(i),
Ti
i=1
vt( 2 )
i=1
p
( i)9t(i)
der Wert des gesamten Warenkorbs zur Basis- bzw . zur Berichtszeit . Emn geeigneter Wertindex ist deshalb n
Iv _ x=1
vt (z)
n I v(i) i=1
n _ 2-1 n i=1
pt(i)4t(i)
po(i)9o(i)
der auch as Messzahl der beiden oben definierten Wertgro1?en aufgefasst werden kann .
132
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
Wertindizes vom Typ Laspeyres, Paasche oder Fisher bringen demgegenuber nichts Neues, denn fur ILa ;O,t -
bzw .
a
vt (2)
i=
v0(2)
> vo(3)
j=1
1
v IPa ;O,t - n
vo(i)
1 vt (i) vt(=) v(j) i=1 vo(+J
gilt
ILa v ;O,t = IPa v ;O,t
-
IFi v ;O,t - Iv 0,t
Im Zahlenbeispiel „Preisindex" erhalt man v 10,1
=
_ _ 14 , 70 .1 80 + 1 , 05 • • 188,,00+0,94 00 + 0, 9914,0059,22 14,30 • 2, ,20+1,19 • 1 8,00 57,90 1,0228 .
Wie man aus
a v IO,t
=
i=1 n i=1 a i=1 i=1
pt ( 2 ) 4t (z)
po (z) 40
(z)
Pt (i) qt
(z)
n i=1
po (z) 9t (z)
IPPa ; 0,t
i=1
po (z) 4t po (z)
(2)
40 (z)
IqLa ; 0,t
ersieht, lasst sick der Wertindex als Produkt eines Preisindexes vom Typ Paasche and eines Mengenindexes vom Typ Laspeyres schreiben . Analog kann man zeigen, dass auch I0,t = IL a ; o,t IPa ;O,t gilt . Aus diesen Beziehungen folgt sofort I0,t - IFi ; 0,t
IFi ; O,t
Beispiel „privater Haushalt" : Aus den Wirtschaftsrechnungen eines privaten Haushalts seien folgende Daten fiber Konsumausgaben (in Euro) and konsumierte Mengen (in Mengeneinheiten) fir zwei Warengruppen bekannt :
4 .3 . INDEXZAHLEN
1 33 Ware
Ausgaben
1998 2001
Mengen
1998
2001
A
75
90
5
9
B
120
140
10
7
C
85
75
D
20
15
Gruppe 1
Gruppe 2
Auf3erdem sei fur die Warengruppe 2 fur 2001 bekannt, doss der Preisindex nach Laspeyres gegeni ber deco Basisjahr 1998 um 20 Prozent gestiegen ist . Im Folgenden sei die Berichtszeit das Jahr 2001, die Basiszeit 1998 . Wir wollen zunachst die verschiedenen Preisindizes der Warengruppe 1 berechnen . In obiger Tabelle sind Ausgaben angegeben, daraus berechnen wir die Preise durch pt l ~( 1) = s = 10 and p' ) ( 2) = 4Q = 20 . Daraus ergibt sick p(1) _ ILa ;0,t -
10 5 + 20 . 10 _ 250 _ 1, 2821 . 75 + 120 195
Der Preisindex vom Typ Paasche berechnet sick wegen pol l ( 1) = 75 = 15 and
pol l ( 2) =
10
=
12 zu
IP a ;0,t
15 9 9 + 120 .7
230 219
l, 0502 .
Somit erhalt man fir den Preisindex vom Typ Fisher der Warengruppe 1 IF~lo ,t
4.3 .4
= s/1,
2821 • 1,0502 = 1,1604 .
Aggregation von Subindizes
Emn Warenkorb, der n Giiter enthalt, werde in J Teilwarenkorbe zerlegt . Wir bezeichnen die Gi ter des gesamten Warenkorbs mit ihren Nummern 1,2, . . . , n, den Warenkorb mit T = {l, 2, . . . , n} and die Teilwarenkorbe mit Tj , j = 1, 2, . . . , J. Dann stellt T1 , T2 , . . . , Tj eine Zerlegung von T dar . Wie hangen nun bestimmte Indizes, die fur die Teilwarenkorbe berechnet wurden (so genannte Subindizes), mit dem Index zusammen, der fur den gesamten Warenkorb berechnet wurde?
134
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
Bei den diesbezi glichen Formeln muss lediglich danach unterschieden werden, oh es sick um einen Index vom Typ Laspeyres oder Paasche handelt . Ansonsten gelten die Formeln in gleicher Weise fur Preis-, Mengen- and Wertindizes . Es seien ILa;o,t' La ;o,t'
•' ILa;o,t
and IPa ;O t , IPa ;o t , . . . , IPa); 0 t
Subindizes and ILa ;o,t bzw . IPa ;o,t der Gesamtindex (jeweils vom Typ Laspeyres bzw . Paasche) zur Basiszeit 0 and Berichtszeit t . Weiterhin seien (7) vo -
and
vt~ l =
i Tj
ieTj
po(z)4o(z),
j = 1, . . . , J,
pt(i)9t(i)
die Werte der Teilwarenkorbe zur Basiszeit 0 bzw . zur Berichtszeit t . Fur die Gesamtindizes vom Typ Laspeyres and Paasche gilt dann
bzw .
Dies sind die zur Aggregation von Preis- and Mengenindizes (nach Laspeyres oder Paasche) anwendbaren Formeln . Fur die Aggregation von Wertindizes gelten ebenfalls beide Formeln .
4 .3. INDEXZAHLEN
135
Wir wollen die erste Formel fur einen Spezialfall herleiten, namlich fur einen Preisindex vom Typ Laspeyres . Es ist pt(i) po(i)4o(i)
IP La ;O,t
z=1 p0(i)
r=1
po(r)4o(r) po(i)4o(i) po(r)4o(r)
pt(i) 7=1 iCT, p0(i)
r~, -
J
rEl', r=1
po(r)4o(r) po(r)4o(r)
La. ;O,t
V0(a) a ;O,t j vpr) r=1
ILa ;
j=1
Fur die anderen Indizes nach Laspeyres and Paasche kann man die Aggregationsformeln entsprechend herleiten . Man beachte, dass es fur die Indizes nach Fisher keine analogen Formeln gibt . Im Beispiel „privater Haushalt" wollen wir nun noch den Men genindex nach Paasche fur beide Gruppen gemeinsam berechnen . Wir wissen, dass IPa ;o,t =
ILa. ;O,t
Der Wertindex fur beide Warengruppen zusammen berechnet sick zu 4
i=1 v I o,t = 4 v(i) i=1
vo(i)
_
_ 90+140+75+15320 _ 1066 7. 75 + 120 + 85 + 20 300 '
Nun mussen wir noch den Preisindex nach Laspeyres fur beide Gruppen zusammen berechnen . Dieser wird aus den Subindizes Iialo,t = 1,2821 (so .) and
ILa O t = 1, 2
(gegeben) berechnet :
ILa ;O,t = mit also
v0r)
r=1
IL );O,t
=
75 + 120
0r)
2 ,UO s)
2 s=1
p ( i)Qo(i),
'L La ;o,t = 1' 2821 • 75+120+85+20
+12
•
85 + 20 = 1 2533 . 300
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
136
Daraus folgt fur den Mengenindex nach Paasche beider Warengruppen zusammen _ 1,0667 _ Io,t a 0, 8511 . IPa ;O,t = IpLa ;O,t - 1 2533 Beispiel „Handelskette": Eine Einzelhandelskette vertreibt Nahrungsmittel and Haushaltsartikel. Es sei 1995 die Basiszeit, 1998 die Berichtszeit . Preisindex
Bereich j Nahrungsmittel
Laspeyres
Mengenindex Paasche
Umsatz 1995 in Mio . DM
1,04
0,98
500
j=1 Haushaltsartikel j=2
400 900
Man bestimme fur die beiden Bereiche der Einzelhandelskette zusammen den Preisindex nach Laspeyres, den Men genindex mach Paasche and den Umsatzindex. Der Preisindex nach Laspeyres fur beide Bereiche zusammen ergibt sick gemaf3 7P
ILa ;95,98
1p(1)
La ;95,98 '
. 1,04
500 900
+ 1p(2)
+ 1,15
La ;95,98 '
9
400 900
= 1, 0889 .
Um den Mengenindex mach Paasche fur beide Bereiche zusammen zu berechnen, konnen wir so vorgehen : Wir berechnen zunachst die Umsatzindizes 195,98
ILa ;9598 ' IPa ;s5,98 = 1,04 1 ILa ;95,98 ' P(a ;95,98 = 1,15
195,98
and hieraus
195,98 = 1, 0192
•
9
+1,2650
9
• 0, 98 = 1, 0192 , • 1,10 = 1, 2650 , = 1,1284 .
Den Men genindex nach Paasche erhalt man als Quotienten aus dem Wertindex and dem Preisindex nach Laspeyres, e
IPa ;95,98 -
195,98 ILa ;95,98
1 ,1284 1,0889
1, 0363 .
4 .3 .
INDEXZAHLEN
4 .3 .5
137
Umbasierung and Verkettung von Indizes
Im Abschnitt 4 .2 wurde gezeigt, wie man Messzahlen umbasiert and zeitlich verkettet . Die dabei entstehenden Zahlen sind die gleichen Messzahlen, die sick aus den Originalwerten der Zeitreihe ergeben hatten . Auch fur Indexzahlen (d .h . Preis-, Mengen- and Wertindizes) besteht haufig die Notwendigkeit einer Umbasierung oder Verkettung : Eine Folge von Indizes wird umbasiert, um sie auf eine andere Basiszeit zu beziehen . Zwei and mehr Folgen von Indizes werden verkettet, um eine lange, durchgehende Folge von Indizes zu erhalten . In der statistischen Praxis verwendet man bei der Umbasierung and Verkettung von Indexzahlen die gleichen Formeln wie bei der Umbasierung and Verkettung von Messzahlen . Umbasierung Hat man eine Folge von Indizes zur Basiszeit s,
Is,t,
t = t0, tl, . . . tT ,
benotigt aber eine Folge von Indizes Ir,t zu einer anderen Basiszeit r, r E {to, tl, . . . , tT}, so setzt man einfach
s,t
Ir, t = 1* ,
s,r
t = t0,tl, . . .,tT .
Verkettung Gegeben seien zwei Folgen von Indizes zu aquidistanten Zeiten,
Io,t ** at I
furt=0,l, . . .,s, firt=s,s+1, . . .,T .
Als verkettete Folge zur Basiszeit 0 verwendet man *
Io,t =
flirt=0,l, . . .,s,
o,t
I0,s *
I*s, t
flirt=s+1, . . .,T .
Durch Umbasierung der Indizes Io ,t erhalt man eine verkettete Folge zur Basiszeit s,
Is,t,
t=s,s+1, . . .,T .
Beispiel „Umbasieren eines Index": Gegeben seien die in der Tabelle aufrecht gedrnckten Preisindizes mach Laspeyres zu den Basiszeiten 1991 and 1995 .
138
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN Jahr Basis 91
1991
1992
1993
1994 1995
1996
1997
1998
100 105,1 109,8 112,8 114,8 116,/, 118,6 119,7 Basis 95 87,1 91,6 95,6 98,3 100 101,4 103,3 104,3 Die schrag gesetzten Werte warden durch Verkettnng berechnet . Im Unterschied zu umbasierten and verketteten Messzahlen sind die durch Umbasieren oder Verketten von Indizes entstehenden Zahlen selbst keine Indizes vom Typ der Ausgangsindizes . Wird zum Beispiel emn LaspeyresPreisindex Iia ;91,t vom Basisjahr 91 auf das Basisjahr 95 umbasiert, so erhalt man fur das Berichtsjahr 96 den „Index" i=1
195,96
-
1La ;91,96 p 1La ;91,95
=
p96(z)99i (z)
1 pgi (i)99i (i) E
i=i
p95(i)99i(i) p91(i)99i(z)
~n
n
2
p96(i)g95(Z) i .Allg . i=1 z=1 I p96(i)g91(Z)
n > p95(i)g91(i) i=1
n
i=1
p95( 2 )g95(Z)
_ p - ILa ;95,96
Man sieht, dass die durch Umbasierung entstandene Grof e 195,96 emn Konstrukt ist, das weder einen Laspeyres- noch einen Paasche-Index darstellt . Das eben beschriebene Problem tritt auch auf, wenn man aus einer vorhandenen Reihe von Preisindizes zur Basiszeit to (also etwa Iia ;to,t fur t = to, to + 1, . . . , T) jahrliche Inflationsraten berechnen mochte . Hierzu benotigt man fur jedes Jahr t einen einjahrigen Preisindex Iia ;t-1,t • Wenn diese nicht gesondert zur Verfugung stehen, behilft man sick mit den umbasierten Indizes
It _ 1 , t =
ILa,t o t
IpLa ;to,t-1
=
n > pt(i)9to(t)
,L
i=1
Pt-1(i)gto (Z)
Jedoch gilt im Allgemeinen It _l, t ~ 1ia ;t-l,t Die durch Umbasieren berechnete Grof,e stimmt nicht mit dem einjahrigen Laspeyres-Index i herein, vgl . oben das Beispiel „Umbasieren eines Index" mit to = 91 and t = 95 .
4 .3 . INDEXZAHLEN
1 39
Beispiel „Inflationsrate": Jahr Preisindex
ILa ;2OOo,t
2000
2001
2002
2003
2004
100
102,0
103,4
104,5
106,2
1,0200
1,0137 1,0106
1,0163
2,00%
1,37% 1,06%
1,63%
It_l,t Inflationsrate in %
Emn Problem, auf das wir nicht naher eingehen konnen, besteht darin, welchen Fehler man bei dieser Art der Berechnung der Inflationsrate in Kauf nimmt, d .h . wie grofi die Abweichung zwischen deco verfugbaren Konstrukt It _l, t and dem gewunschten, aber nicht verfugbaren Index Iia ;t-i,t ist .
4 .3.6
Formale Indexkriterien (Fisher-Proben)
Die Frage, was einen „vernunftigen" Index auszeichnet, hat neben inhaltlichen Aspekten auch eine messtheoretische Seite, die anhand formaler Kriterien diskutiert werden kann . In diesem Abschnitt stellen wir sieben formale Postulate dar, die emn Index erfiillen sollte . Sie wurden von Irving Fisher aufgestellt and heif?,en deshalb Fisher-Proben ; siehe Fisher (1922) . Laut Fisher sollen fur einen gegebenen Index Is , t (zur Basiszeit s and Berichtszeit t) and beliebige Zeiten 0, t, t1, . . . , t o die folgenden Postulate erfi llt sein :
• Identitatsprobe • Zeitumkehrprobe
• Rundprobe
1 It,o = -, Io,t
It1,t .. = It1,t2 . It2,t3 It n _ 1 ,t~
• Faktorumkehrprobe
Io,t = Io,t ' Io,t
• Proportionalitatsprobe Io,t = 1+a, well alle Preise um a 100% steigen,
• Dimensionswechselprobe
Der Wert der Indizes hangt nicht davon ab, in welchen Einheiten Preise and Mengen gemessen werden .
140
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
• Bestimmtheitsprobe
Der Index soil auch dann bestimmt sein, wenn einzelne Preise oder Mengen gleich null sind .
Die folgende Tabelle gibt fur die Preisindizes nach Laspeyres, Paasche and Fisher an, ob die einzelnen Fisher-Proben erfullt (+) oder nicht erfullt (-) werden. (Der Leser mache sick dies im Einzelnen als Ubung klar!)
Identitatsprobe
Zeitumkehrprobe Rundprobe
Faktorumkehrprobe
Proportionalitatsprobe Dimensionswechselprobe Bestimmtheitsprobe
Laspeyres Paasche Fisher +
+
+
-
-
+
+
+
+
-
+ +
+ +
+
+ +
Wie man sieht, erfullt der Fisher-Index jede der Proben, die der Laspeyresoder der Paasche-Index erfullt, and noch zwei weitere . Die Rundprobe erfullt jedoch auch der Fisher-Index nicht .
4.3 .7
Der Verbraucherpreisindex fur Deutschland
In diesem Abschnitt soil der Verbraucherpreisindex fur Deutschland (VPI) des Statistischen Bundesamtes naher beschrieben werden . Dabei handelt es sick um den traditionsreichen deutschen Preisindex fur die Lebenshaltung alley privaten Haushalte, der seit der Umstellung auf das Basisjahr 2000 inter dieser neuen Bezeichnung fortgefi hrt wird . Emn Verbraucherpreisindex soil anzeigen, wie sick die Preise eines typischen Gutersortiments im Zeitablauf entwickeln, das von privaten Haushalten laufend fur Konsumzwecke gekauft wird . Der Index betrifft alle privaten Haushalte . Haufig wird er daher als Indikator fur die Geldwertstabilitat angesehen . Dieser Verbraucherpreisindex misst die isolierte Preisentwicklung, ist also kein Index fur die Kosten der Lebenshaltung . Emn Index der Lebenshaltungskosten unterscheidet sick von einem reinen Verbraucherpreisindex darin, dass in ihm auch Veranderungen der Verbrauchergewohnheiten, also auch Mengenanderungen, berucksichtigt werden .
4 .3 .
INDEXZAHLEN
141
Das Statistische Bundesamt berechnet den Preisindex fur die Lebenshaltung auf der Grundlage konstanter Verbrauchsstrukturen eines Basisjahres nach der Indexformel von Laspeyres, and zwar in der Mittelwertform als gewichtetes arithmetisches Mittel von Preismesszahlen . Diese Indexkonstruktion wirft Probleme auf, deren Losung den Aussagegehalt der laufend berechneten Werte des Preisindexes beri hrt .
• Warenkorb and Wagungsschema Die Verbrauchsstruktur der unterschiedlichen privaten Haushalte des Basisjahres (z .B . Haushalte von Rentnern, Familien mit Kindern, Alleinerziehenden, Alleinstehenden) wird modellhaft durch einen Warenkorb abgebildet, das ist eine Kollektion von gegenwartig ca . 750 ausgewahlten, nach Art, Menge and Qualitat genau spezifizierten Waren and Dienstleistungen, die als Preisreprasentanten bezeichnet werden . Sie sollen den gesamten privaten Verbrauch hinreichend genau reprasentieren . Das Wagungsschema legt die Gewichte felt, mit denen die Preisreprasentanten in den Gesamtindex eingehen . Entsprechend der Mittelwertform des Indexes handelt es sich bei den Gewichten um Ausgabenanteile der einzelnen Gi ter an den gesamten Verbrauchsausgaben fur den Warenkorb . Die Datenbasis liefern umfangreiche and intensive, periodisch wiederkehrende Haushaltsbefragungen auf Stichprobenbasis . Hierzu gehoren die Einkommens- and Verbrauchsstichprobe sowie die Laufenden Wirtschaftsrechnungen ; siehe Kapitel 1 .
• Gliederung Mit der Umstellung des VPI auf das neue Basisjahr 2000 entfallt der friiher iibliche Nachweis eigenstandiger Indizes fur spezielle Haushaltstypen Bowie fur das fri here Bundesgebiet and fur die neuen Bundeslander einschliefllich Berlin-Ost . Seitdem wird nur noch auf der Grundlage eines einheitlichen Wagungsschemas der Verbraucherpreisindex fur ganz Deutschland laufend veroffentlicht . Allerdings bleiben regionale Untergliederungen weiterhin verfi gbar . Die einzelnen Waren and Dienstleistungen des Warenkorbs werden im Hinblick auf unterschiedliche Zielsetzungen zu Gi tergruppen zusammengefasst . Am bekanntesten ist die Gliederung nach dem Verwendungszweck in der Abgrenzung des internationalen „Classification of Individual Consumption by Purpose" zu zwolf Abteilungen (siehe Tabelle 4 .1) .
• Verbraucherpreiserhebungen Die aktuellen Preise fur die ausgewahlten Gi ter werden jeweils zur Monatsmitte auf Grund von nichtzufalligen Stichproben ermittelt . Gegenwartig werden fur die 750 Preisreprasentanten insgesamt ca . 350 000
142
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
einzelne Preisreihen in 190 Berichtsgemeinden, die fiber das gesamte Bundesgebiet verteilt sind, durch Preisermittler bei 40 000 so genannten Berichtsstellen (uberwiegend Verkaufsstellen) erhoben. Problematisch ist insbesondere die Beri cksichtigung von Qualitatsanderungen and der Austausch von „veralteten" gegen neue Gi ter . Zur Qualitatsbereinigung werden neuerdings Verfahren herangezogen, die versuchen, mit Hilfe der Regressionsrechnung „refine" Preisveranderungen von Preisveranderungen zu trennen, die auf Qualiatsanderungen beruhen ; siehe hierzu Linz and Eckert (2002) . • Basisjahr and Indexumstellung
Da emn Laspeyres-Index mit festem Wagungsschema Veranderungen in den Verbrauchsgewohnheiten and im Guterangebot kurzfristig nicht abbilden kann, veraltet er im Zeitablauf and wird daher in Abstanden von ca . funf Jahren „umgestellt" . Diese Neuberechnung umfasst die Auswahl der Gi ter, die Fixierung des Wagungsschemas and eine Neufestsetzung des Basisjahres . In der Regel wird gleichzeitig der alte Index umbasiert . Als Basisjahr fur den VPI dient derzeit das Jahr 2000 . Die Veranderung des Wagungsschemas von 2000 gegenuber denen von 1995 and 1991 kann man der Tabelle 4 .1 entnehmen .
In der statistischen Praxis wird der VPI in Stufen berechnet . Dabei wird zunachst fur jede der 750 Gi terarten, getrennt nach Bundeslandern, emn Teilindex ermittelt . Anschlieflend wird dann fur jede Gi terart aus den 16 Landesergebnissen das Bundesergebnis als gewichtetes Mittel berechnet, wobei die Gewichte die Landeranteile der privaten Verbraucher am gesamten privaten Verbrauch in Deutschland darstellen . Der VPI wird vom Statistischen Bundesamt zeitnah veroff'entlicht, endgultige Monatswerte liegen ca . zwei Wochen nach Abschluil des Berichtsmonats vor . Bei der Interpretation der Werte der Preisindizes fist Vorsicht angebracht . Die Messung der Preisentwicklung der von privaten Haushalten gekauften Gi ter beruht auf einem modellhaften Warenkorb . Eine Ubertragung auf die Lebenshaltung in real existierenden Haushalten fist nicht ohne weiteres moglich, da jeder private Haushalt individuell ausgepragte Verbrauchsgewohnheiten hat, die semen Warenkorb and das Wagungsschema festlegen . Der VPI kann deshalb nur als Anhalts- and Vergleichspunkt fur die realen Haushalte dienen . Dennoch spielt der Preisindex in privatrechtlichen Vertragen, die eine Wertsicherungsklausel enthalten, eine wesentliche Rolle . Beispiel: In einem Scheidungsvertrag wird festgelegt, dass die monatlichen Unterhaltszahlnngen an die geschiedene Ehefrau gemaf3 dem Verbraucherpreisindex fur Deutschland jahrlich znm 1 . Januar angepasst werden .
4 .3 .
INDEXZAHLEN
143
Der VPI ist, wie erwahnt, emn Index vom Typ Laspeyres . Das Wagungsschema stammt also aus der Basiszeit and bleibt damit fur einige Jahre fest . Aus praktisch-statistischer Sicht ist es vorteilhaft, das Wagungsschema nicht jedes Jahr neu erheben zu mi ssen . Letzteres ware aufwandig and teuer . Andererseits bildet der Laspeyres-Index kurzfristige Mengenanderungen der Haushalte nicht ab . Reagieren Haushalte kurzfristig auf Preiserhohungen einiger Giiter mit Mengenreduktion and auf Preissenkungen anderer Gi ter mit Mengenerhohungen, so bringt dies der Laspeyres-Preisindex fur die Lebenshaltung nicht zum Ausdruck . Emn Paasche-Index mit deco Wagungsschema der Berichtsperiode wiirde diesen Effekt sehr wohl zum Ausdruck bringen and einen geringeren Wert anzeigen . Bei rationalem Verhalten der Konsumenten - insbesondere fallenden Nachfragefunktionen - weist emn Laspeyres-Index prinzipiell die Veranderungen des Preisniveaus zu hoch aus . Deshalb wird gelegentlich die Berechnung and Publikation von Paasche-Preisindizes gefordert . Sind die Unterschiede zwischen einem Laspeyres- and einem Paasche-Preisindex fur die Lebenshaltung wirklich gravierend? Das Statistische Bundesamt hat mehrfach darauf hingewiesen, dass fur Deutschland die Unterschiede vernachlassigbar klein sind . In einer Untersuchung fur 1990 bis 1995 ergibt sick sogar, dass der Unterschied zwischen den beiden Indizes unterhalb der Nachweisgrenze ist . Der interessierte Leser sei auf den Aufsatz von Elbel (1999) verwiesen, der die Berechnung der Wagungsschemata behandelt .
4.3 .8
Europaische Verbraucherpreisindizes
Um Anderungen der Verbraucherpreise international vergleichen zu konnen, werden fur die Staaten der EU sowie fur Norwegen and Island neben den nationalen Verbraucherpreisindizes weitere Preisindizes berechnet . Im Harmonisierten Verbraucherpreisindex (HVPI) werden die unterschiedlich konzipierten Landerindizes vereinheitlicht . Dabei werden die deco HVPI zugrunde gelegten Waren and Dienstleistungen in der Gliederung der modifizierten „Classification of Individual Consumption by Purpose" fur alle Lander einheitlich festgelegt, ohne jedoch einen gemeinsamen Warenkorb vorzuschreiben . Der Erfassungsbereich wird dabei im Zuge der Harmonisierung schrittweise erweitert . Der Erfassungsbereich des deutschen HVPI entspricht mittlerweile mit Ausnahme des selbstgenutzten Wohneigentums deco des deutschen VPI . Die Abweichungen der jahresdurchschnittlichen Veranderungsraten zwischen beiden Indizes betrugen zuletzt nicht mehr als 0,1 Prozentpunkte .
144
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
EUROSTAT, das Statistische Amt der EU in Luxemburg, berechnet seit 1997 aus den nationalen HVPI aggregierte europaische Verbraucherpreisindizes : • den Europaischen Verbraucherpreisindex (EVPI) fur die 25 Mit-
gliedsstaaten der EU,
• den Verbraucherpreisindex der Europaischen Wahrungsunion
(VPI-EWU) fur die Staaten der Europaischen Wahrungsunion and
• den Verbraucherpreisindex fur den Europaischen Wirtschafts-
raum (VPI-EWR), der zusatzlich Norwegen and Island umfasst .
Diese Indizes werden als gewichtete Mittel aus den HVPI der einzelnen Staaten gebildet . Die Landergewichte sind die Anteile der Ausgaben fur den Privaten Verbrauch aus der Volkswirtschaftlichen Gesamtrechnung des jeweiligen Landes an der Gesamtheit dieser Ausgaben . Die europaischen Indizes dienen insbesondere dem Inflationsvergleich zwischen den Landern, etwa bei der Umsetzung des Maastrichter Konvergenzkriteriums der Preisstabilitat . Fur die Europaische Zentralbank ist der VPIEWU Mal3stab fur die Geldwertstabilitat des Euro . 4.3 .9
Internationaler Preisvergleich (Verbrauchergeldparitaten)
Die bisher behandelten Preisindizes dienen dem zeitlichen Vergleich von Preisen . Leicht modifiziert konnen sie auch fur den raumlichen Vergleich von Preisen zwischen verschiedenen Regionen herangezogen werden . Im Folgenden bezeichnen A and B zwei Lander oder Regionen . Weiterhin sei eine fur beide Lander gemeinsame Kollektion von Giitern (emn Warenkorb) gegeben . Fur jedes Gut i = 1, . . .,n ist der Preis des Gutes i im Lande A die Menge des Gutes i im Lande A. Entsprechend sind pB (i) and qB (i) definiert . Als ersten Preisindex des raumlichen Vergleichs definiert man den Index ILa,B A
PA( 1 ) pB( 2 )gB(Z)
Z=
n Ti
i=1
PBz) (
j=1
pA(i)gB(i) pB (i)gB(~)
pB(.7)gBU)
Wahrung des Landes A [Wahrung des Landes B ]
4 .3 .
INDEXZAHLEN
145
Dies ist emn Index des Typ Laspeyres ; sein Wagungsschema bezieht sick auf die Mengen im Lande B . (Man beachte, dass der Index jetzt eine Benennung besitzt, falls sick die Wahrungen beider Lander unterscheiden .) Analog definiert man gemall Paasche einen zweiten Preisindex des raumlichen Vergleichs,
IPPa ;B,A
Ti
1
1 PA(z)9A(z) n=1 pE(i) PA(j)9A(z) n Ti
i=1
j=1
pA(z)4A(z) pB(i)gA(Z)
Wahrung des Landes A
[Wahrung des Landes B ]
Sein Wagungsschema entspricht dem Mengengeriist im Lande A . Verbrauchergeldparitaten Handelt es sich beim Warenkorb um Gi ter der Lebenshaltung von Haushalten and bei den Mengen um typischerweise konsumierte Mengen, so nennt man Indizes dieser Art Verbrauchergeldparitaten, in Zeichen VGPB , A . Sie geben an, wie viele Wahrungseinheiten (WE) des Landes A einer Wahrungseinheit des Landes B kaufkraftmaflig entsprechen, and zwar beim Laspeyres-Index aus Sicht eines Konsumenten im Lande B, beim Paasche-Index aus Sicht eines Konsumenten im Lande A . Am Devisenmarkt werden Wahrungen gehandelt . Bezeichne WB ,A den Preis, der fur eine Einheit der B-Wahrung in Einheiten der A-Wahrung gezahlt wird . Wenn beispielsweise B die Bundesrepublik Deutschland ist and A die Vereinigten Staaten von Amerika, gibt WB,A den Preis eines Euro in Dollar an . Im Folgenden bezeichnet B die Bundesrepublik Deutschland and A emn Ausland . Verbraucherpreisniveau and Kaufkraftindex 1st die Verbrauchergeldparitat VGPB,A groler als der Wechselkurs WB,A, so ist das Land A teurer als die Bundesrepublik . Mittels
V GPB,A VPNB,A .100 WB,A
146
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
last sick emn Index fur das Verbraucherpreisniveau des Landes A definieren (Bundesrepublik = 100) and mittels
KKB
WB,A .100 ,A = VGPB,A
emn Index fur die Kaufkraft des Euro im Land A (Bundesrepublik = 100) . Der Kaufkraftgewinn bzw . -verlust (in %) ist dann durch
KKGB,A =
WB ' A
VGPB,A
- 1
• 100
gegeben .
Beispiel : Werden Mitarbeiter dents cher Unternehmen im Ausland eingesetzt, so kann dies en emn Kaufkraftverlust entstehen . Zum Ausgleich des Kaufkraftverlustes last sick mit Hilfe des entsprechenden Index fur das Verbraucherpreisniveau emn angemessener Zuschlag (in %) auf die Gehaltszahlung bestimmen . Dieser ergibt sick gemaf (VGPB,A l~ • 100 . WB, /A Das Statistische Bundesamt berechnet fur ausgewahlte Lander (bzw . fur deren Hauptstadte) Verbrauchergeldparitaten mit deutschem Wagungschema . Zugrunde liegt emn Warenkorb aus Gi tern and Dienstleistungen der privaten Lebenshaltung (ohne Wohnungsmieten), der ca . 220 Einzelpositionen umfasst . Fur April 2006 ergaben sick unter anderem die Werte der folgenden Tabelle . Sie enthalt die Verbrauchergeldparitaten VGPB,A fur die Berichtsorte (=Hauptstadte) von fi of ausgewahlten Landern, die Wechselkurse WB,A and den Kaufkraftgewinn bzw . -verlust . Land A (Berichtsort)
Wah-
VGPB,A
WB,A
KKGB,A
rung
1€=
1€=
in %
ausl . WE
. . . ausl . WE
Japan (Tokio)
YEN
205, 2631
143, 5900
-30,0
England (London)
GBP
0, 8266
0, 6946
-16,0
USA (Washington D .C .)
USD
1, 3228
l, 2271
- 7,2
Spanien (Madrid)
EUR
1,0279
1, 0000
- 2,7
Siidafrika (Pretoria)
ZAR
6, 4567
7,4656
15, 6
4 .3 . INDEXZAHLEN
147
Tabelle 4 .1 : Wagungsschema fur den Preisindex fur die Lebenshaltung alley privaten Haushalte bzw . den Verbraucherpreisindex, Angaben in Promille
Bezeichnung 01 02 03
Nahrungsmittel and alkoholfreie Getranke Alkoholische Getranke and Tabakwaren Bekleidung and Schuhe
1991
1995
2000
144,81
131,26
103,35
45,19
41,67
36,73
76,89
68,76
55,09
240,46
274,77
302,66
72,87
70,56
68,54
30,56
34,39
35,46
156,77 138,82
138,65
Wohnung, Wasser, 04
Strom, Gas and andere Brennstoffe
05
Einrichtungsgegenstande usw . fur den Haushalt
06
Gesundheitspflege
07
Verkehr
08
Nachrichtenubermittl .
09
Freizeit, Unterhaltung and Kultur
10 Bildungswesen 11 12
Beherbergungs- and Gaststattendienstleist . Andere Waren and Dienstleistungen Insgesamt
17,92
22,66
25,21
99,59
103,57
110,85
5,42
6,51
6,66
58,44
46,08
46,57
51,08
60,95
70,23
1000,00
1000,00
1000,00
Monat Januar
Februar Marz April
Mai
Juni Juli August September Oktober
November Dezember
94,5
95,0
96,4
96,7
2002 2003 2004 2005 2006 102,9 104,0 105,2 106,9 109,1
2001
97,8 99,4 100,8
2000
97,6
99,6
99,6
97,8 98,0
98,1
102,2 103,4
101,8 103,3
101,4 103,2 104,5 105,4 107,3 109,5 101,4 103,4 104,6 105,7 107,6 109,5 104,3 106,0 107,7 109,9 98,5 99,5
102,4 103,4 104,4 106,2 108,1
100,1 102,3 103,5 104,6 106,7 108,7 100,3 102,3 103,4 104,5 106,4 109,1
100,3 102,5 103,7 104,6 106,5 108,6
98,6 99,9
106 2 108,0
99,6
96,6 97,7 96,4 97,8
98,1 98,2
104,1
98,5
1995 1996 1997 1998 1999 93,2
93,7 93,7 95,1 951 93,8
93,9 95,3 96,8 96,9
99,0
98,5
97,6
94,0 95,4 94,2 95,5
98,7
95,5
97,9 98,6 98,0
98,6
99,1
100,0 102,0 103,4 104,5 106,2 108,3
101,2 102,8 104,0 105,1 107,3 109,6
97,4
97,6
98,0
100,2 102,0 103,3 104,5 106,6 109,1 100,3 101,8 103,0 104,3 106,2 108,6 95,7
97,1
98,8 95,3
95,5
98,9 97,5 98,1 94,0
95,5 97,7 98,3 94,2
97,4 97,9
94,2
94,0 95,4 94,3
Jahresdurchschnitt 93,9
4 .3 .
INDEXZAHLEN
149
Erganzende Literatur zu Kapitel 4 Wer sick vertieft mit der Theorie and Praxis von Indexzahlen, insbesondere von Preisindexzahlen beschaftigen mochte, sei auf folgenden Monographien and Lehrbicher verwiesen : Neubauer (1996), von der Lippe (1996) and von der Lippe (2001) . Fur weitere Einzelheiten zur Berechnung des Verbraucherpreisindexes sei auf Egner (2003) and Buchwald (2004) verwiesen . Hinweise zur Berechnung and Verwendung von Verbrauchergeldparitaten finden sick in Strohl (2001), sowie in den Heften der Fachserie 17, Reihe 10, des Statistischen Bundesamtes . Zum HVPI siehe Eurostat (2004) .
Kapitel 5
Auswertung
von
mehrdimensionalen
Dates
In den bisherigen Kapiteln wurden Methoden fur die Auswertung von Dates uber emn einzelnes Merkmal dargestellt . Kapitel 2 and 3 behandelten MaJ e der Lage, Streuung, Schiefe, Konzentration and Disparitat von univariaten Dates . Im Kapitel 4 grog es zunachst um Messzahlen fur den zeitlichen Vergleich der Werte eines Merkmals . Deren Aggregation zu Indexzahlen betraf dann bereits mehrere Merkmale, namlich die Preise and Mengen der verschiedenen Giterim Warenkorb . In diesem Kapitel 5 werden nun allgemeine Methoden zur Auswertung von Dates uber mehrere Merkmale vorgestellt . Solche Dates nennt man mehrdimensional oder multivariat . Es geht um die simultane Beschreibung der Dates durch Tabellen and Graphiken, um die mehrdimensionale Messung ihrer Lage and Streuung, Bowie - and das ist das Wichtigste - um das Aufdecken von Beziehungen zwischen den Merkmalen . Dabei beschranken wir uns im Wesentlichen auf die Auswertung zweidimensionaler (d .h . bivariater) Dates and insbesondere auf die Messung der Abhangigkeit zwischen zwei Merkmalen .
5 .1 Grundbegriffe Wir gehen davon aus, dass die Werte zweier Merkmale X and Y in einer Grundgesamtheit G = {e1, e2, . . . , en} gegeben Bind . Im Folgenden sprechen wir auch von den Variables X and Y . Sei (xi, y,) der Wert der beiden 151
152
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
. Variables bei der Einheit ei . Die Urliste lautet dann (xi, yi) , (x2, y2), (xn , yr,,) oder, als n x 2 Matrix geschrieben, xl
yi
12 y2 In
yn
Beispiel „Obsthandler": Emn Obsthandler notiert an zehn aufeinander folgenden Tagen den Preis (in Euro pro kg) einer bestimmten Erdbeersorte and die verkaufte Tagesmenge (in kg) : X Preis in €/kg
Y Menge in kg
4,70 4,30
70 75
3,80 4,50
80 75
5,40
50
5,00 4,10
60 70 65
4,30 3,90 4,00
75 85
Wens X and Y - wie in diesem Beispiel - metrisch skaliert sind, veranschaulicht man die Dates in einem Streudiagramm( '- EXCEL) . Es besteht aus einem Achsenkreuz and den n Punkten (xi,yi),(x2,y2), . . .,(xn,yn) in der Zeichenebene . Das zum Beispiel „Obsthandler" gehorige Streudiagramm ist in Abbildung 5 .1 zu sehen . Werden allgemein p > 2 Merkmale betrachtet, so bezeichnet man diese mit X 1 , X2 , . . . , Xp . Es ist dann (xil, xi2, • • • , xip) die Auspragung von X 1 , X 2 , . . . , Xp bei der Einheit ei . Die Urliste hat die Form (x11, . . .,xlp),(121, . . .,x2p), . . .,(xnl, . . .,xnp) oder, als Datenmatrix,
5 .1 .
GRUNDBEGRIFFE
153
y
o
8580 = o 75 .
0
0
70=
o
0 +
o
0
65-E
0
60-E 55
0
3 .8
4 .0
4 .2
4 .4
4 .6
4 .8 5 .0
5 .2
5 .4
x
Abbildung 5 .1 : Streudiagramm „Obsthandler" (Das Zeichen „+" bezeichnet den Schwerpunkt (x, y) der Dates .)
x11
112
1 21
122
xnl
xn2
x1p x2p xnp
Der erste Index (der Zeilenindex) gibt die Untersuchungseinheit an, der zweite Index (der Spaltenindex) die Variable, zu der der Wert gehort . Die meisten Aussagen dieses Kapitels beziehen sick auf den Fall von zwei Variables X and Y . Eine Verallgemeinerung auf den Fall von p Variables (insbesondere p = 3 and p = 4) erfolgt anhand eines Beispiels .
5 .1 .1 Kontingenztafel and Haufigkeiten Sei eine n x 2 Datenmatrix, d .h . n Zahlenpaare (xi, yi) als Werte zweier Merkmale X and Y, gegeben . X and Y mogen beliebig skaliert sein . Als Erstes bilden wir Tabellen der absolutes and der relatives Haufigkeiten . Bezeichne Tlx die moglichen i, S2, . . . , j die moglichen Werte von X and .,J and k = 1, 2, . . . , K ist . Werte von Y . Fur jedes j = 1,2,
m, 72, . . .,
• nj k
= Anzahl der Datenpaare (xi, yi) mit xi =
die gemeinsame absolute Haufigkeit von
j and yi = r/k j and 17k,
1 54
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN • nj . _
K k=1
njk bzw . n .k =
J j=1
njk
die absolute Randhaufigkeit von j bzw . rik . Offenbar gilt
x j=1 =1
k =
j=1
k=1
Die gemeinsamen absolutes Haufigkeiten stellt man zusammen mit den absolutes Randhaufigkeiten in einer Haufigkeitstabelle dar :
y= 12
rll
nii
E
• .
.
n12
77K
n1K
n1 . n2 .
n21
nz2
n2K
fj1
TJ2
fJK
n j.
72 .1
n .z
n .K
n
Die Haufigkeitstabelle wird auch Kontingenztafel oder Kontingenztabelle genannt . Beispiel „Beruf and Sport" : Bei n = 1000 Erwerbspersonen warden die Berufszugehorigkeit X and das Ausmafl der sportlichen Betatigung Y erhoben . Es ergab sick : Y sportl. Betatigung X Berufszugehorigkeit rile gelegentlich regelmaf.~ig
240
120
70
160
90
90
30
30
30
Landwirte
37
7
sonstige
40
32
6 18
507
279
214
Arbeiter Angestellte Beamte
E
E
430 340 90 50 90 1000
Die Randhaufigkeiten nl ., n2 •, • . . , nJ . beziehen sick auf die Variable X allein . Ebenso beziehen sick n .1, n .2, • . . , n .K nur auf Y . Aus den gemeinsamen
5 .1 .
GRUNDBEGRIFFE
1 55
Haufigkeiten kann man die Randhaufigkeiten bestimmen . Man beachte, dass das Umgekehrte nicht gilt : Ohne weitere Annahmen lasses sick die gemeinsamen Haufigkeiten aus den Randhaufigkeiten nicht eindeutig bestimmen . Es gibt im Allgemeinen mehrere Haufigkeitstabellen, die mit vorgegebenen Randern vertraglich sired . Die gemeinsamen Haufigkeiten enthalten offenbar mehr Information als die Randhaufigkeiten . Im obigen Beispiel „Beruf and Sport" stehen in den Randern die absolutes Haufigkeiten der Variables X (letzte Spalte) and Y (letzte Zeile) . Sie ergeben sick durch Bildung von Zeilen- and Spaltensummen . Betrachtet man die Randhaufigkeiten als vorgegeben, so ist es leicht, andere gemeinsame Haufigkeiten zu finden, die mit den Randern vertraglich sired (Ubung fur den Leser!) .
Statt mit den absolutes Haufigkeiten kann man die Kontingenztafel auch mit relatives Haufigkeiten aufstellen :
Y= r71
r)2
111
112
• ••
11K
2 121
122
. ..
12K
12 •
1J1
1J2
• ••
1JK
1J •
1.K
1
S1
r1K
her ist fur jedes j = 1,2, . . . , J and k = 1, 2, . . . , K nk
•
1jk =
•
1j •
n
die gemeinsame relative Haufigkeit von j and K
= k=1 > 1jk bzw .
J f.k = > j=1
f
die relative Randhaufigkeit von j bzw . and es gilt
J K
K
> fj j=1 k=1
k=1
Die relatives Randhaufigkeiten 11 • , f2 1J •
17k,
156
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
der Werte von
X nennt man auch die Randverteilung von X . Ebenso bilden
die relatives Randhaufigkeiten von Y
f.1,f.2, . . .,f.x die Randverteilung von Y .
5 .1 .2
Bedingte Verteilungen
Von den gemeinsamen relatives Haufigkeiten zu unterscheiden sind die so genannten bedingten relatives Haufigkeiten .
•
Fur festes Ice {1, .,K} and j = 1, . . . , J wird .
fj1Y=?k =
fjk f•k
als die bedingte relative Haufigkeit von
unter der Bedingung
Y = T1k bezeichnet . Sie stelit die relative Haufigkeit des Werts ~ in der Teilgesamtheit alley Einheiten day, die in der Variables Y den Wert 1lk aufweisen, dens es ist
fjk
nj k
njk
n
.1k = nk = n k n
Die Gesamtheit der J bedingten relatives Haufigkeiten
f1IY=nk, f2IY=nk, . . . , fJ~Y =~k
X wird bedingte Verteilung von X unter der BedinY = Tik genannt .
der Werte von gung
•
Ebenso wird fur festes j e {1, . . . , J} and k = 1, . . . , K
fk~x=fig =
f~k fJ •
bedingte relative Haufigkeit von 1/k unter der Bedingung genannt . Die Gesamtheit dieser Haufigkeiten
fiix=g; , f2Ix= wird als bedingte Verteilung von bezeichnet .
X = ~
. .
Y unter der Bedingung X = ~
5 .1 . GRUNDBEGRIFFE
1 57
Es gilt offenbar
and
j=
k
f3jY=7/k -
=1
firk=1, . . .,K
fiir j = 1, . . . , J .
k=1
Im obigen Beispiel „Beruf and Sport" ergeben sick als bedingte relative Haufigkeiten fur Y aster der Bedingung X = 1 (das ist die Verteilung der sportlichen Betatigung bei den Arbeitern) : n11 _ 240 _ (me), fi~X=~1 = n1 . 430 0,558 _ n12 120 _ 0, 279 (gelegentlich), f2IX=~1 n1 . 430 n13 70 = 0,163 (regelmaf3ig) . f3JX=e1 = n 1 . 430 Die relatives Haufigkeiten von X aster der Bedingung Y = ri3 (Verteilung der Berufszugehorigkeit bei den regelmaf3ig sportlich Aktiven) : fi~Y=~3 f2IY= v3 f3IY=v3 f4 I Y = ~13 fs~Y=v3
70 _ = 214 - 0,327, 90 421 = 0,421, ' ' 30 _ 0,140 , = 214 6 = 0,028, ' 18 _ = 214 - 0,084 .
Aus den absolutes Randhaufigkeiten von X and den bedingten relatives Haufigkeiten fur Y unter der Bedingung X = ~ kann man die gemeinsamen absolutes Haufigkeiten njk eindeutig bestimmen, dens es gilt : njk njk = -nj . = fkIX=g,nj . n3 .
Analog kann man aus den bedingten relatives Haufigkeiten fur X unter der Bedingung Y = rlk and den absolutes Randhaufigkeiten von Y die gemeinsamen absolutes Haufigkeiten eindeutig bestimmen, dens es gilt : njk =
njk n .k = fjIY=r1k" k n .k
158
5 .1 .3
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
Deskriptive Unabhangigkeit
Die zwei Variables X and Y heil3en deskriptiv unabhangig, wens fur alle j = 1, . . . , J and k = 1, . . . , K die Beziehung
njk =
n
zutrifft . Im Fall der deskriptiven Unabhangigkeit sind also die gemeinsamen absolutes Haufigkeiten durch die absolutes Randhaufigkeiten eindeutig bestimmt . Man uberpruft die deskriptive Unabhangigkeit zweier Variables anhand ihrer Kontingenztafel .
Beispiel „Geschlecht and Partei": Wir betrachten die Merkmale X =
Geschlecht (mannlich weiblich),
Y =
gewahlte Partei (A B I C)
in der nachfolgenden Tabelle : B
C
E
mdnnlich
200
120
80
400
weiblich
300
180
120
600
500
300
200
1000
Offenbar sind die beiden Variables hier deskriptiv unabhangig . Wie man an dem Beispiel sieht, stimmen die drei bedingten Verteilungen von X (unter der Bedingung Y = rik fur k = 1, 2, 3) iiberein . Ebenso sind die zwei bedingten Verteilungen von Y (unter der Bedingung X = j fur j = 1,2) gleich . Generell gilt : Die Variables X and Y sind genau dann deskriptiv unabhangig, wens eine der vier folgenden aquivalenten Bedingungen erfi llt ist : 1 . Fur alle j = 1, . . . , J and k = 1, . . . , K gilt :
njk =
njfl
n
n .k
2 . Fur alle j = 1, . . . , J and k = 1, . . . , K gilt : fjk
=
f . f•k
5 .1 .
GRUNDBEGRIFFE
159
3 . Fur alle j = 1, . . . , J gilt : fjly=~1 = . . . = fj~y=,IK = fj .
4 . Fur alle k = 1, . . . , K gilt : fkIX=~1 - . . . - fkIX=~~ = f•k
Bedingung 1 ist nichts anderes als die Definition von oben . Bedingung 2 entspricht Bedingung 1 dividiert durch n . Bedingung 3 besagt, dass die bedingten Verteilungen von X unter Y = 1]k nicht von k abhangen . Mit anderen Worten : Die bedingten Verteilungen von X stimmen alle mit der Randverteilung von X uberein . Bedingung 4 besagt, dass die bedingten Verteilungen von Y unter X = j nicht von j abhangen ; die bedingten Verteilungen von Y stimmen alle mit der Randverteilung von Y uberein .
5.1 .4
Arithmetische Mittel and Varianzen
Im Folgenden wollen wir zusatzlich annehmen, dass X and Y metrische Merkmale, also mindestens intervallskaliert sind . Dann konnen insbesondere die arithmetischen Mittel and Varianzen von X and Y sinnvoll berechnet werden . Auch lasses sick Mittelwerte and Streuungen fur die bedingten Verteilungen definieren . Bei den nachfolgenden Formeln handelt es sich im Wesentlichen um die wohlbekannten Formeln fur den Mittelwert einer univariaten Verteilung . Diese werden lediglich auf unterschiedliche Verteilungen (Randverteilungen and bedingte Verteilungen) angewandt . Wir gehen davon aus, dass die Dates in einer Kontingenztafel (mit absolutes oder relatives Haufigkeiten) gegeben sind .
• Das arithmetische Mittel von X bzw . Y ist das arithmetische Mittel der entsprechenden Randverteilung :
fj K
K
k=1
k=1
•
?Jk f. k
• Das Paar ( , y) ist das arithmetische Mittel der gemeinsamen Verteilung von X and Y . Im Streudiagramm bildet es den Schwerpunkt .
1 60
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
• Das bedingte arithmetische Mittel von X unter der Bedingung Y = rik (k fest gegeben) ist das arithmetische Mittel der entsprechenden bedingten Verteilung von X : xk =
j fj II'=~1k
Ebenso ist das bedingte arithmetische Mittel von Y unter der Bedingung X = j (j fest gegeben) das arithmetische Mittel der entsprechenden bedingten Verteilung von Y : K
K
k=1
7lknjk =
k=1
Tlkfk~X= ;
Der Zusammenhang zwischen den bedingten Mitteln and dem Mittel der Randverteilung ist durch den aus Kapitel 2 bekannten Additionssatz fur arithmetische Mittel gegeben . Man zerlegt die Grundgesamtheit G = { 1, 2, . . . , n} in K Teile Gk, die den Werten von Y entsprechen, Gk = {i E G : y2 = ?c'k} . Dann ist ~Gk~ = n .k and der Additionssatz liefert die Formel : x =
K k=1
Analog gilt :
J
_ n .k xk n
_ nj .
j=1
Falls X and Y deskriptiv unabhangig sind, stimmen, wie im vorigen Abschnitt bemerkt, samtliche bedingten Verteilungen von X mit der Randverteilung von X uberein . Da das bedingte arithmetische Mittel von X gegeben Y = rlk der Mittelwert der entsprechenden bedingten Verteilung von X ist, stimmt im Fall der deskriptiven Unabhangigkeit auch fur jedes k der bedingte Mittelwert von X mit dem gewohnlichen Mittelwert uberein, x1=x2= . . .=xx=x • Gleiches gilt im Fall der deskriptiven Unabhangigkeit fur die bedingten Mittelwerte von Y, namlich
Y1-Y2= . . .=YJ=y Aus den Randverteilungen and den bedingten Verteilungen von X and Y kann man auch die entsprechenden Varianzen berechnen .
5 .1 .
161
GRUNDBEGRIFFE
• Die Variant von X bzw . Y ist die Variant der entsprechenden Randverteilung :
S 2X
-
s zY -
• Die bedingte Variant von X unter der Bedingung Y =
'i1k (k fest gegeben) ist definiert als die Variant der entsprechenden bedingten Verteilung von X, z
S x I Y=lk _
- xk)2
njk n. k
die bedingte Variant von Y unter der Bedingung X = j (j fest gegeben) als die Variant der entsprechenden bedingten Verteilung von S zY I x=e •
=
2 nak (17k - y) n k=1 ~
K
=
k=1
ri2k
njk n. ~
- gj2
Die Variant von X (bzw . Y) and die bedingten Varianzen hangen fiber den bekannten Additionssatz fur Varianzen (siehe Kapitel 2) zusammen . Wie bei den Mittelwerten erhalt man S zx
x) 2 n k
2 sY
- y)2 nj0 . n
n '
j=1
Im Fall der deskriptiven Unabhangigkeit von X and Y sind alle bedingten Verteilungen von X gleich der Randverteilung von X and deshalb auch alle bedingten Varianzen von X gleich der gewohnlichen Variant von X, z z 2 z S X1Y-71 = SX1Y-,12 = . . = SxIY-~K = Sx .
Entsprechendes gilt bei deskriptiven Unabhangigkeit fur Y, SYJx=~1 = SyIx=~ 2 =
= S7 X
J = Sy .
Beispiel „Wohnungen" : In n = 1000 Wohnungen einer Trabantenstadt warden die Anzahl der Wohnraume X and die Anzahl der Personen Y in der Wohnung erhoben . Es ergab sick :
162
5.
AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
Y=1
2
3
4
X=1 2
200
40
0
0 0
3
200
100
80
40
30 100
20 0
15 5
10 10
500
200
150
4 5
E 240
10
0
340
60
10
290
20 20 10 20
85 45
100
50
1000
a) Man berechne die arithmetischen Mittel and Varianzen von X and Y. Das Ergebnis lautet
x = 2,355,
sx = 1,149,
y = 2,000,
s 12, = 1,500 .
b) Man berechne die bedingten arithmetischen Mittel and Varianzen von X unter der Bedingung Y = k fiir k = 1, . . ., K. Man erhalt als Ergebnis :
x1 = 500 x2 = 2,225
Lij=1
x4
= 3,000 = 3,300
x5
= 4,200
x3
~~n~1
= 1, 840
sxIY=1 = ~j=1 Sj 500 -
s zx Y=z - 0,874 s zx ~ Y=s = 0,533 s 2x ~ Y=4 = 0,610
( 1,840)2 = 0,694
~
S
x~Y=5
= 0,560
Ferner gilt 0,691, 0,458, Sx 2
5 .1 .5
0,691 + 0,458 = 1,149 .
Hoherdimensionale Daten
Zum Abschluss dieses Kapitels soil anhand eines einfachen Beispiels gezeigt
werden, wie man auch hoherdimensionale Daten iibersichtlich darstellen kann .
5 .1 .
GRUNDBEGRIFFE
1 63
Beispiel „Rauchen": Bei n = 1000 Personen werden die drei Merkmale X
Rauchgewohnheit (Rancher Nichtrancher),
Y
Geschlecht (mannlich
Z
I
weiblich),
Hanfigkeit von Kopfschmerzen
(einmal oder weniger pro Woche J mehr als einmal pro Woche)
erhoben . Die Datenmatrix hat hier das Format 1000x3 . Da jedes Merkmal fur sick betrachtet zwei mogliche Werte besitzt, gibt es 2 3 = 8 mogliche Antworten fur jede befragte Person . Die Haufigkeiten, mit der these acht Antworten in den Dates vorkommen, kann man in einer modifizierten Haufigkeitstabelle wie folgt darstellen : Z
X
Y
einmal oder weniger mehr als einmal
Rancher
mannlich
20
290
weiblich
60
170
20
230
40
170
Nicht rancher mannlich weiblich
Die modifizierte Haufigkeitstabelle enthalt die gemeinsamen absolutes Haufigkeiten nijk der drei Merkmale . Durch Aggregation in einem Merkmal erhalt man zweidimensionale Randhaufigkeiten . So ist L njk • =
1=1
?2jkl
die absolute Randhaufigkeit von rik), das ist die Anzahl der Beobachtungseinheiten, bei denen X den Wert ~ and Y den Wert r)k annimmt . Ebenso sind ri and n .kl definiert . Weiter treten eindimensionale Randhaufigkeiten auf; beispielsweise ist x ni . .
k=1
K k• =
L
k=11=1
jkl
die absolute Randhaufigkeit von j, das ist die Anzahl der Einheiten, bei denen X = ~ beobachtet wird . Ebenso sind n.k . and n . .l definiert .
a) Man gebe im Beispiel „Rauchen" die eindimensionalen Randhaufigkeiten von X, Y and Z an .
1 64
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
Man erhalt die Randhaufigkeiten von X
?ti . . = 540,
n2 . . = 460,
von Y
n .l . = 560,
n .2 . = 440,
von Z
n . .l = 140,
n . .2 = 860 .
b) Man gebe die zweidimensionalen Randhaufigkeiten von X and Y Bowie von Y and Z jeweils in einer gewohnlichen Hanfigkeitstabelle an . Y X
E
mannlich weiblich
Rancher
310
230
540
Nichtrancher
250
210
460
E
560
440
1000
Z Y
E
einmal oder weniger mehr als einmal
mannl.
40
520
560
weibl.
100
340
440
E
140
860
1000
c) Man gebe die bedingten zweidimensionalen Randhaufigkeiten von X and Z nnter der Bedingung Y = mannlich an . z X
einmal oder weniger mehr als einmal
E
Rancher
20
290
310
Nicht rancher
20
230
250
E
40
520
560
Teilt man absolute Randhaufigkeiten durch n, erhalt man relative Randhaufigkeiten, beispielsweise nj . . njk . usw . fjk . = n , fj . . = n Die drei Variables X, Y and Z heif3en deskriptiv unabhangig, well fj kl = f . . f. k . f. .l
fur
j = 1, . . . , J, k = 1, . . . , K and l = 1, . . . , L .
5 .1 . GRUNDBEGRIFFE
165
d) sind X, Y and Z in der obigen Tabelle deskriptiv unabhangig? Offensichtlich nicht! Wir haben (fur j = k = l = 1) fni = 0, 02, aber fl . . f.l . f. .l =0,54 . 0,56 . 0,14 = 0,042
0, 02 .
Auch fur vier Variables lasst sick eine modifizierte Haufigkeitstabelle angeben . Erweiterung des Beispiels „Ranches": Es wurde zusdtzlich das Merkmal U = sportliche Betdtigung (selten / haufig) erhoben . Nun sind 16 mogliche Antworten zu berucksichtigen . Eine modifizierte Haufigkeitstabelle sieht etwa so aus : Z einmal oder weniger mehr als einmal U X Rancher
Y
selten
haufig
selten
haufig
mannlich
10
10
140
150
20
40
70
100
5
15
150
80
20
20
70
100
weiblich Nichtraucher mannlich weiblich
5 .1 .6
Stetig klassierte mehrdimensionale Dates
Die bisher entwickelten Definitionen and Formeln beziehen sick auf die diskrete Klassierung von mehrdimensionalen Dates . Wens eines der Merkmale oder mehrere stetig klassiert sind, verwendet man analoge Formeln . Seien nun zweidimensionale Dates gegeben, die in beiden Variables X and Y stetig klassiert sind . Das heifit, gegeben sind Klassengrenzen -o0<xi <xi=x2 < . . .<xJ_1=xj<xj
fur Y. Die n Beobachtungen (x1, y2), i = 1, . . . , n, verteilen sick so auf insgesamt J • K Klassen K~k, die mit dem Doppelindex jk indiziert sind,
1 6 6)
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
Fur jedes jk bezeichnen
•
njk = Anzahl der Daten (xz i y2 ), fur die x~ <X2 < x j and yk < y2 < yk gilt, and
flik
• fjk-
n
die absolute bzw . relative Klassenhaufigkeit . Diese Haufigkeiten beziehen sick nun auf Klassen statt - wie bei der diskreten Klassierung - auf einzelne Werte . Analog betrachtet man
• Randhaufigkeiten, nj . _
n.
fur
k
k=1
fur Y,
jk
j=1
X,
• and bedingte relative Haufigkeiten, etwa fjIY-~k
_ njk
1t .k
das ist die bedingte relative Haufigkeit von Bedingung, dass yk < yz <_ yk gilt . Die arithmetischen Mittel von so :
X
and
J
Y
bestimmt man naherungsweise
wobei ] den Mittelwert von X im Intervall ]x~ bekannt ist, ansonsten die Intervallmitte ;
k=1
unter der
fur X,
j=1
K
x~ < xi <_ x '
n. k ~k n
fur
~] bezeichnet, falls dieser
Y,
wobei 17k der Mittelwert von Y im Intervall ]y~, y°] bzw . die Intervallmitte ist . Ebenso werden approximativ die bedingten arithmetischen Mittel berechnet . Beispiel „Betriebsgrof3e": Bei 200 kleinen bis mittleren Handwerksbetrieben (bis 50 Beschaftigte) wurden die Betriebsgrof3e X (Anzahl der Beschaftigten)
and der Jahresiiberschuss Y (in Tausend €) erhoben . Die Daten liegen in stetig klassierter Form vor ; die Klassen and ihre Haufigkeiten sind der folgenden Kontingenztafel zu entnehmen .
5 .2 . ZUSAMMENHANGSMASSE k 7 1 2 3 4
1<X<5 6<X<10 11<X<20 21<X<50
167
1 2 3 4 Y<50 50
100
67
9
E 80 75 33 12 200
Wie bei der stetigen Klassierung nur eines Merkmals stellt sick das Problem, die anJ3eren Klassen - vor allem die obere Klasse - abzuschlieJ3en. Wahrend X < 50 durch die Einschrankung der Grundgesamtheit („Betriebe bis 50 Beschaftigte") vorgegeben ist, muss eine obere Grenze y4 fir Y bei der statistischen Auswertung festgelegt werden . Wir rechnen hier mit y4 = 5000 weiter . Dann folgt fur die mittlere Betriebsgrof3e and den mittleren Jahresuberschuss x ti 8, 89, y 4O1,5 . Der Mittelwert von Y enter der Bedingung X < 5, das ist der mittlere Jahresilberschuss der Kleinbetriebe mit bis zu fi of Beschaftigten, betragt y1 171, 25 [Tausend €] . Das Histogramm zweidimensionaler Dates 1st emn Gebilde im dreidimensionalen Raum : Jede Klasse 1st emn Rechteck ]x~ , x~] x]y~, yk] in der (waagrecht liegenden) x-y-Ebene . Daruber erhebt sick emn Quader der Hohe njk ( - x j) (yk - yu ) Offenbar ist die relative Haufigkeit fjk = nn gerade gleich dem Volumes diesel Quaders .
5 .2 ZusammenhangsmaI e In diesem Abschnitt nehmen wir wieder an, dass eine Grundgesamtheit G = {e1 i e2, . . . , e,} and zwei Variable X and Y gegeben sind . Die Urliste 1st also (x1,y1), . . .,(x,,yn) . Zu den grundlegenden Aufgaben der beschreibenden Statistik gehort die Suche nach moglichen Zusammenhangen zwischen den Variables X and Y . Gibt es zwischen dem Preis eines Gutes and der auf einem Markt abgesetzten Menge eines Zusammenhang oder variieren Preis and abgesetzte Menge
168
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
unabhangig voneinander? Gibt es einen Zusammenhang zwischen dem Ge-
schlecht von Wahlern and der gewahlten Partei? Von welcher Art 1st ggf . dieser Zusammenhang and wie stark ist er ausgepragt?
Auch bei der Zusammenhangsmessung ist es wichtig, auf das Skalenniveau der Merkmale
X
and
Y zu
achten . Wir wollen zunachst den Fall zweier
metrischer Merkmale betrachten, anschlieflend den Fall zweier (mindestens)
ordinalskalierter Merkmale and erst zum Schluss den allgemeinen Fall zweier (mindestens) nominalskalierter Merkmale .
5 .2 .1
Metrische Dates : Korrelationskoeffizient
Den Zusammenhang zwischen metrisch skalierten Variables misst man mit dem Korrelationskoeffizienten (nach Bravais-Pearson) . Seien
metrische Variable and (x1, y1), . . ., (xn, yn) die Dates .
X
and
Y
zwei
Das Streudiagramm erlaubt die visuelle Beurteilung einer moglichen Abhan-
gigkeit zwischen
Y
and
X.
Fur die Dates im Beispiel „Obsthandler" ist auf Grund des Streudiagramms
(Abbildung 5.1) emn Zusammenhang zu vermuten : Tendenzmaf3ig entsprechen
hoheren Preisen geringere abgesetzte Mengen .
Zur Herleitung einer Maf3zahl bilden wir zunachst die arithmetischen Mittel 1
x=sowie die Varianzen
s 2X = -1
n i=1
x
( j-) x 2
1 "` and y=-
=1
sY = -
and
n i=1
i
(2Y)
Wir definieren welter die Kovarianz von
X
In der Kovarianz werden Terme der Form
(xi - x) (yi - y)
and
Y ('-
2
EXCEL),
aufsummiert . Je-
der solche Term entspricht der Flache eines Rechtecks im x-y-Koordinatensystem, das parallel zu den Achsen liegt and die Eckpunkte (x,
y)
and
(xi, yi)
besitzt . Wir unterscheiden vier Quadranten relativ zum Schwerpunkt (x, y) ; siehe Abbildung 5 .2 . Es gilt
(xi - x) (yi - y) > 0,
falls
(x i , yi)
im Quadranten I oder III liegt,
(xi - ~) ( yi - y) < 0,
falls
(xi, yi)
im Quadranten II oder IV liegt .
5 .2
•
ZUSAMMENHANGSMASSE
169
y
85-
o
80-o 75-
I I
II o
-
I
I
o
~, I
-
70=
- o I
o
65 =
60-
I I I
III
I
=
I
55 -i
I
IV
o
I
50-
I
1"'
3 .8
4 .0
s
1'
4 .2
i"
4 .4
4 .6
1
i"
4 .8
o
1
1
1111
5 .0
1
5 .2
11
5 .4
x
Abbildung 5 .2 : Zur Interpretation der Kovarianz
Das Vorzeichen von SXY ist dann positiv, wenn die Flachen im ersten and dritten Quadranten uberwiegen, es ist negativ, wenn die Flachen im zweiten and vierten Quadranten uberwiegen • Eine positive Kovarianz bedeutet deshalb, dass x-Werte and y-Werte eine gemeinsame Tendenz besitzen : groflere x-Werte gehen mit grofleren y-Werten and kleinere x-Werte gehen mit kleineren y-Werten einher • Umgekehrt bedeutet eine negative Kovarianz, dass x-Werte and y-Werte eine gegenlaufige Tendenz aufweisen • Eine Kovarianz nahe null wird als Fehlen einer solchen Tendenz interpretiert • Aus der Definition der Kovarianz sieht man sofort, dass sie sick nicht andert, wenn man die beiden Merkmale vertauscht ; es gilt sxY = SYx • Die Variant eines Merkmals ist gleich der Kovarianz des Merkmals mit sick selbst,
1 70
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
Beispiel: Im obigen Beispiel „Obsthandler" ergibt sick folgende Arbeitstabelle : i
1
4,70
70
22,09 4900
2
4,30
75
18,49
5625 322,5
3
3,80
80
14,44
6400
4
4,50
75
20,25
5625 337,5
5
5,40 50
29,16
2500
270,0
6
5,00
60
25,00
3600
300,0
7
4,10
70
16,81
4900 287,0
8
4,30
65
18,49
4225 279,5
9
3,90
75
15,21
5625
292,5
10
4,00
85
16,00
7225
340,0
44,00 705
Es ist
x =4,40,
sxY
n n
i=1
304,0
195,94 50625 3062,0
y =70,5, sX = 0,234,
Die Kovarianz ist dann (-*
329,0
sY = 92, 25 .
EXCEL)
xzyz - x
y
10 .
3062 - 4, 4 . 70, 5 = -4 .
Ahnlich der Variant kann auch die Kovarianz aus einer Haufigkeitstabelle berechnet werden . Seien 1, . . . , j and rll i . . . , riK die Werte von X and Y and nj k die gemeinsamen absolutes Haufigkeiten, so ist
5 .2 .
171
ZUSAMMENHANGSMASSE
Beispiel „Wohnungen" aus Abschnitt, 5 .1 : Es war X die Anzahl der Wohnraume and Y die Anzahl der Personen pro Wohnung, n = 1000 . Fur sxY ergibt sick sxY
x
= -
jr/knjk - x y
_
j=1 k=1 1 .2,0 .20)_2,355 .5 .240++5 .200+1 .1 i00(1
=
0, 82 .
Wir untersuchen nun das Verhalten von sxY, wenn die Daten of n-linear Y' . Jedes beobachtete Wertepaar
transformiert werden, X H X' and Y (xi, yi) wird dabei wie folgt abgebildet,
(xz, yi) H (z, y)
mit xi = a + bxi,
y2
= c + dy i ,
wobei a, b, c and d feste reelle Zahlen sind . Dann gilt :
x')(y Z
i=1
=
bd 1
-
p')
+ bxi - ( a + bx))(c + dyi - (c + d~)) n i=1
i - x)(yi -2J)
sx'Y' = b d sxY Man sieht, dass die Kovarianz eine lags-invariance Maf3zahl ist . Sie ist linear in jedem ihrer Arguments, das heif?,t emn gemeinsamer Faktor der x-Werte last sick vor die Kovarianz ziehen, ebenso emn gemeinsamer Faktor der yWerte . Es folgt, dass sxY beliebig grofle Werte annehmen kann, also nicht normiert ist . Auf3erdem tragt sxY eine Benennung (namlich die Benennung von X mal der Benennung von Y) . Die Kovarianz last sick normieren, indem man sie durch die Standardabweichungen von X and Y dividiert . Das so konstruierte normierte ZusammenhangsmaE heiEt KorrelationskoefHzient von X and Y ('--3 EXCEL),
rxY =
sXY sx sY
Aus Einzeldaten berechnet man rxY mit den bekannten Formeln fur sxY, sx and Sy,
1 72
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
rxy
=
n
n i=1
(x2 - x)
n - ~) 2 n ~ (xz i=1 n n i=1
i=1
(y2 -
n
n
2=1
y) (yi - y) 2
xiyi - nx y n
x? - nx2
i=1
y2 - ny 2
Der Korrelationskoeffizient hat folgende wichtige Eigenschaften :
l.
rxY hat keine Benennung .
2.
rxY andert rYx .
3. rxY ist xi H x?
sick nicht, wenn man
X
and
Y
vertauscht ; es gilt
rxY =
invariant in Bezug auf affin-lineare Transformationen der Daten, H yz = c ~- dxi , i = 1, 2, . . . , n, mit bd > 0 . Es gilt
= a + bxi, yi
namlich fur beliebige a, b, c, d E R
rx , Y ,
sx,Y,
sx' SY' bdsx' ~bI sx Id~ sY
=
bd
Ib Id rXY
Die Bedingung bd > 0 bedeutet, dass die Vorzeichen von b and d iibereinstimmen . Dann ist offensichtlich rx'Y' = rxY . Wenn sie unterschiedlich sind, ist rx'Y' _ -rxY .
4. rxY
ist normiert . Es gilt (ohne Beweis) :
-1
rxY
= -1 . Sie
0, so dass
fur i = 1, . . .,n
gilt, d .h . wenn zwischen x- and y-Werten emn exakter of n-linearer Zusammenhang besteht . Das Vorzeichen von rxY entspricht dann dem von b :
5 .2 .
ZUSAMMENHANGSMASSE
173
• exakter positives affin-linearer Zusammenhang rxY = 1
Es gibt b > 0 and a E R, so dass
>
a + bx i fur alle i,
g2 -
• exakter negatives affin-linearer Zusammenhang rxY = -1
Es gibt b < 0 and a E R, so dass
<-->
yz = a + bxi fur alle i .
6 . Wens rxY = 0 ist, sagt man, die Variables X and Y seien unkorreliert . Insbesondere sind deskriptiv unabhangige Variable unkorreliert . Wens X and Y deskriptiv unabhangig sind, gilt namlich
njk n
nj . n
n .k n
fur j . . =,J 1, and k = 1, . . . , K . Fur sxY ergibt sick dann J K
j=1 k=
j=1
(
-
(j - x)
x) (rlk - y) nk
n
k=1
(r1 - y) nk = 0
and damit rxY = 0 . Deskriptive Unabhangigkeit impliziert also die Unkorreliertheit . Das Umgekehrte gilt jedoch nicht : Emn Korrelationskoeffizient von null impliziert nicht die deskriptive Unabhangigkeit .
Zahlenbeispiel : Gegeben sei die folgende Kontingenztabelle . Y=2
4
6
E
10
0
10
0 10
20
X=1
0
3
10
5
0
10
0
10
10
20
10
40
Man rechnet leicht aus, dass sxY = 0, also auch rxY = 0 ist. Andererseits sieht man an der Kontingenztafel, dass die bedingten Verteilungen von X nicht mit der Randverteilung von X iibereinstimmen, also keine deskriptive Unabhangigkeit vorliegt. Aus den genannten Eigenschaften von rxY folgert man : Der Korrelationskoeffizient ist emn Ma13 des linearen Zusammenhangs (genauer : des affinlinearen Zusammenhangs) von X and Y in den Dates .
1 74
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
Im Beispiel „Obsthandler" ist der Korrelationskoef zient
-4 sxY rxY = = ~sX • ~sY ~/0, 234 • x/92,
25
=
- 0,8609 .
Es existiert also emn starker negatives linearer Zusammenhang zwischen Preis and abgesetzter Merge . Bei der Interpretation des Wertes von rxY ist besondere Vorsicht angebracht . 1 . rxY mist nur die Starke des linearer Zusammenhangs . Auch wenn rxY gleich null odes ungefahr gleich null ist and somit kein linearer Zusammenhang angezeigt wird, konnen andere Arten des Zusammenhangs vorliegen . Zahlenbeispiel: Sei n = 5 and (xi,yi) (x 2 , Y 2 ) (x 3 , j) (X4, i4) (x5,
ys)
Wie man sieht, gilt y2 = xx fiir i = 1, . . . , 5, es existiert emn exakter quadratischer Zusammenhang der x- and y-Werte ; vgl . Abbildung 5 .3 . Demgegeni ber gilt hier jedoch rxY = 0, der Korrelationskoef zient zeigt den quadratischer Zusammenhang nicht an . 2.
Der Korrelationskoeffizient rxY andert sick nicht, wenn man X and Y vertauscht . Aus dem Wert von rxY darf deshalb nicht auf eine Kausalbeziehung von X auf Y odes umgekehrt geschlossen werden . Eire solche Kausalbeziehung kann nur durch sachlogische, inhaltliche Uberlegungen im Kontext der Anwendung festgestellt werden, nicht jedoch durch die Berechnung von rxY .
3 . Emn nahezu linearer Zusammmenhang von X and Y kann verschiedene Ursachen haben . So konnen z .B . X and Y beide von einer dritten Variables Z abhangen (ohne dass Z explizit betrachtet wird) . Emn hoher West von rxY wird in diesem Fall als Scheinkorrelation bezeichnet .
5 .2 .
ZUSAMMENHANGSMASSE
175 I' 43-
/
x Abbildung
5 .3 :
Nullkorrelation bei quadratischer Abhangigkeit
Beispiel: Wortschatz X and Korpergrof3e Y von Kindern weisen h,aufig einen deutlich ausgepragten linearen Zusammenhang auf . Tatsachlich hangen beide Variable von einer dritten ab, namlich dem Alter Z des Kindes . 4.
Emn hoher Wert von rxy kann auch dann entstehen, wenn xz and yZ Zeitreihen sind, die einen starken gemeinsamen Trend aufweisen (zum Begriff des Trends siehe Kapitel 6) . Auch hier kann es sich um eine Scheinkorrelation handeln, die durch den gemeinsamen Trend verursacht ist . SchlieElich sei noch darauf hingewiesen, dass vollig sachfremde Variable X and Y gelegentlich eine hohe Korrelation aufweisen (so genannte Nonsens-Korrelation) .
5.2 .2
Ordinate Dates : Rangkorrelationskoeffizient
Den Zusammenhang zwischen nur ordinal skalierten Variables misst man mit dem Rangkorrelationskoeffizienten (nach Spearman) . Sind X and Y nur ordinalskaliert, so ist die direkte Anwendung des Korrelationskoeffizienten auf die Dates (x2, y2) , i = 1, . . . , n, nicht zulassig, da weder die arithmetischen Mittel x and y noch die Varianzen sX and sY noch die Kovarianz sXY eine Bedeutung haben . Man kann allerdings die Dates x 2 and yz durch ihre Rangzahlen RX (x i ) and RY (yz) ersetzen and den Korrelationskoeffizienten dieser Rangzahlen berechnen . Zunachst unterstellen wir, dass die Werte xl, x2 i . . . , x,,, alle verschieden sind . Dann erhalt xi die Rangzahl RX(xi) = r (kurz : den Rang r), wenn xi in der aufsteigend geordneten Folge der x-Werte an der r-ten Stelle steht, i = 1, 2, . . . , n . Analog ist fur jedes i die Rangzahl RY (y2) von yZ definiert .
1 76
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
= 4, 13 = 7, 14
Zahlenbeispiel : Fur 11 = 1, 12
= 3, 15 = 6 and xs = 8 ist
= 3, Rx(x3) = 5, Rx(x4) = 2, Rx(x5) = 4, Rx(xs) = 6 . Rx(x1) = 1, Rx(x2)
Die Anwendung der Formel des Korrelationskoef izienten auf die Range Rx (xi ) and Ry (yi) ergibt
n
_ (Rx(xi) - Rx) (RY(yi) - R Y ) i=1
R rXY V
n i=1
(Rx(xi) - RX~2
n i=1
(RY(yi) - RY) 2
,
wobei Rx and Ry die arithmetischen Mittel der Range bezeichnen . Die Summe alley Range, das sind die Zahlen von 1 bis n, ist gleich n metische Mittel der Range daher gleich
xRY = =
~21) ,
das arith-
n+1 , 2 ,
also gilt
n
R rXy =
n i=1 ~,
(Rx(xi) -
) ( RY(yi) -
n n21)2 ~(RX(xi)i=1
)
Ti
~(RY(yi)i=1
n21)2
Die Ma1lzahl rX y nennt man den RangkorrelationskofFizienten der Daten Eine aquivalente Formel fur rX y lautet : (xi, yi), . . .
R rXy =
n i=1
i=1 RX(xi)
n ( n41 )z
RX(xi)RY(yi) 2
n(n+1)z 4
-
n i=1
2 n(n±i) z 4 RY(yi) -
Mittels einer Umformung erhalt man (unter Ausnutzung der Verschiedenheit der xi bzw . yi) die vereinfachte Formel ('-> EXCEL)
n
rR xY
= 1-
6 ~, (Rx(xi) - RY(yi)) a=1
2
n (n 2 _ 1 )
Beispiel „Bewerber" : Sechs Bewerber (i = 1, . . . , 6) um eine Stelle wurden vom Personalchef auf einer von 1 bis 10 reichenden Ordinalskala in Bezug auf Fachwissen (= X) and Auftreten (= Y) beurteilt . Es ergab sick
5 .2 .
ZUSAMMENHANGSMASSE i 1 1 4
177
Rx(x)
RY(y2)
(Rx(x~) - RY(yz)) 2
21
21
10
2
7 9 3 4 6
10
8
5
E
Aus dies en Werten berechnet man rXY = 1 -
60
6(62101) = 1 - 6 35 = 0,714 .
Die wichtigsten Eigenschaften des Rangkorrelationskoeffizienten kann man so zusammenfassen : 1 . rX Y hat keine Benennung. 2 . rX Y andert sick nicht, wenn man
X
and
Y
vertauscht .
3 . rX Y ist invariant in Bezug auf streng monoton wachsende Transforma-
tionen . D .h ., wenn and streng monoton wachsende Funktionen sind and x? _ ~(xi) and y2 = zl~(y2) fur i = 1, . . ., n, so gilt R rx
Y -
R rx Y .
Dies folgt aus der Tatsache, dass sick die Range durch die streng monoton wachsenden Funktionen and nicht andern, d.h . fur alle i gilt Rx(x) = Rx(x) and RY(y2) = RY(y2) . 4 . rX Y ist normiert,
-1
<1 .
Fur die Extremfalle rX Y = 1 and rX Y = -1 gilt : 4 Rx (x2) = RY (y2) fur alle i . Dies bedeutet, dass alle x-Werte and y-Werte in gleicher Richtung geordnet sind : xi <x ~ yz < yj fur alle i and j . Es handelt sick um einen vollstandig gleichgerichteten Zusammenhang .
• rX Y = + 1
1 78
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
•
= -1 t~ RX (xz) - n - Ry (yz) + 1 fur alle i . In diesem Fall sind die x- and y-Werte in entgegengesetzter Richtung geordnet : xi < xj y2 > yj fur alle i and j . Man nennt dies einen vollstandig gegenlaufigen Zusammenhang . rXy
An diesen Eigenschaften sieht man, dass rXy emn Maf3 des monotones Zusammenhangs darstellt . rXy ti 0 interpretiert man als Fehlen eines monotones Zusammenhangs . Beriicksichtigung von Bindungen In der obigen Definition der Range wurde vorausgesetzt, dass die xi untereinander verschieden sind and ebenso die yz . Bei empirischen Dates treten aber oft die gleichen Werte mehrfach auf (so genannte Bindungen) . Um in diesem Fall eindeutige Range vergeben zu konnen, benutzt man die Methode der Durchschnittsrange : Man ordnet die xi aufsteigend and weist jeder Beobachtung den Rang vorlaufig zu, der ihrer Position entspricht ; mehrfach vorkommende Werte erhalten dabei benachbarte Range . Sodann bestimmt man fur jeden mehrfach vorkommenden Wert den Durchschnitt der vorlaufigen Rangzahlen and weist allen Beobachtungen xi, die den gleichen Wert haben, diesen Durchschnitt als endgiiltige Rangzahl zu .
Zahlenbeispiel : Sei x1 = 3, 7, xz = 3, 9, x3 = 3, 1, x4 = 3, 7 . Offensichtlich ist RX (x3) = 1 and RX (xz) = 4 . Auf x 1 = x4 = 3,7 entfallen die Range 2 and 3 . Man vergibt als Durchschnittsrang RX (x1) = 2, 5
and
RX (x4) = 2, 5 .
Analog vergibt man Durchschnittsrange fur die yz . Im Fall von Bindungen gilt die vereinfachte Formel fur rX y nicht ; zur Berechnung muss man die Definitionsformel verwenden . Der Rangkorrelationskoeffizient rX y kann auch aus einer Haufigkeitstabelle berechnet werden : Hierbei werden fur die Merkmalswerte 1 < z < . . . < .i von X and y1 < r/z < . . . < ~JK von Y Durchschnittsrange vergeben . rX y wird dann mittels der Formel
R
j =1k=1
RX ( j)Ry(~k) njk - (n 41)2
rXy =
n
J
> R X (j)znj .
j=1
(n+1) 2 4
? n
K
k=1
. - (n Ry(r7k) z nk
41)2
berechnet . Die vereinfachte Formel ist im Fall von Bindungen falsch . Bei einer groEeren Anzahl von Bindungen kann durch ihre Anwendung emn erheblicher Fehler entstehen .
5 .2 .
179
ZUSAMMENHANGSMASSE
Beispiel „Kursentwicklung": 27 Aktien warden in Bezug auf X =
Gewinn des Unternehmens (gering mittel hoch),
Y =
Kursentwicklung im Vergleich zum Markt (unterproportional
I
proportional iiberproportional)
beurteilt . Es ergab sick : Y X
?71
72
773
unterprop . prop . iiberprop .
1
3
gering
4
2
1
7
mittel
3
7
4
14
hock
1
2
3
6
8
11
8
27
Man ermittelt folgende Durchschnittsriinge : Rx(1)=7(1+2+ . . .+7)=4,
Rx(2)=i4(8+9+ . . •+ 21)=14,5, Rx (1;3) Rx=
z
=
s (22 + 23 + . . . + 27) = 24, 5 , = 14,
Ry (77h) = 4, 5 , Ry(r)2)=14,
Ry (rl3) = 23, 5, Ry = 14 .
Es ergibt sick (2741)2 2 7 (4 .4,5 .4+4 .14 .2+ . . .+24,5 .23,53)rR _ _ 0 348 . xy /2 (4 2 .7+14,5 2 .14+24,52 .6)-19627 (4,5 2 .8+14 2 .11+23,5 2 .8)-196 Mit der (fur den vorliegenden Fall unzuhissigen) rechentechnisch einfacheren Formel wurde sick rX y = 0,441 ergeben, also emn deutlich hoherer Wert .
5 .2 .3
Nominale Dates : Kontingenzkoeffizient
In diesem Abschnitt wird fur X and Y nur eine Nominalskala vorausgesetzt . Den Zusammenhang zwischen blof3 nominal skalierten Variables mist man mit dem KontingenzkoefFizienten . Die Dates seien in Form einer Kontingenztafel gegeben . Die beiden Variafur alle bles sind in der Tabelle deskriptiv unabhangig, wens njk _ . Emn Maim fur die Abweichung von der j = l, . . . , J and k = 1, . . . , K gilt deskriptiven Unabhangigkeit stellt der Ausdruck
180
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
dar. Wir setzen hier nati rlich n~ . > 0 and n .k > 0 fur alle j and k voraus. Sollte r . = 0 oder n .k = 0 fur emn j oder k sein, so kann der entsprechende Merkmalswert bzw . rik gestrichen werden . x2 ist offensichtlich genau dann null, wens die Variables deskriptiv unabhan-
gig sind . Im Fall J
= K = 2 x2
erhalt man die einfachere Formel
_ n
(nlln22 - n12n2l) 2 nl .n2 .n .ln .2
x2 ist jedoch noch nicht normiert . An Stelle von x 2 verwendet man deshalb
den Kontingenzkoeffizienten C,
min{J, K} min{J, K} -
x2
C=CxY=
x2 + n
1
Der Kontingenzkoeflizient wachst streng monoton mit x 2 and ist normiert, 0
Es gilt CxY = 0 genau dann, wens x2 = 0 ist . Das ist der Fall der deskriptiven Unabhangigkeit . Beispiel „Klausurerfolg": 800 Studierende schreiben die Klausur „Statistik I" . Sei
X Klausurerfolg (bestanden I nicht bestanden), Y
Hochschullehrer (A
I
B) .
Es ergab sick B bestanden
E
250 300
550
nicht bestanden
100
150
250
E
350
450
800
Man messe den Zusammenhang von Klausurerfolg and Hochschullehrer . Hier ist J = K = 2 . Wir erhalten mit der einfacheren Formel
x
2
_ _
CxY
(250 150 - 300 100) 2 800 550 .250 .350 .450 2,078
2
2,078+800 2-1
_
-
-
2, 078 ,
0,072 .
5 .2 . ZUSAMMENHANGSMASSE
181
Offensichtlich ist der Zusammenhang von X and Y nur sehr schwach ausgepragt . Den Fall des starksten Zusammenhangs im Sinne des Kontingenzkoeffizienten, CXY = 1, betrachten wir nun naher anhand zweier Beispiele : Beispiel 1 (mit J > K) :
S1 t;z E
E 771 r/2 0 50 50 50 0
50
100
0
100
150
50
200
Im Beispiel 1 ist J > K and man berechnet (0 - 502000)2 - 500 J2+(50 - 50000)2 + (50 50 .50 50 .150 50 .150 200 200 200 .150) 2 .50) 2 .50) z 200 200 200 - 100 100 + (O -5050 + (100 100 + (O -100 .50 .150 .50 200 200 200 = 200, X
2
CXY
_
200 . 200 + 200 2 = 1
Der Wert 1 von X tritt hier nur gemeinsam mit dem Wert 772 von Y auf, der Wert 2 von X nur gemeinsam mit dem Wert 771 von Y, and der Wert s von X ebenfalls nur gemeinsam mit dem Wert i von Y . Bei jeder Beobachtung (x27 y2) kann man also vom Wert von x2 auf den Wert von y2 schliejlen . Umgekehrt kann man jedoch nicht vom y-Wert auf den x-Wert schlieJSen . Beispiel 2 (mit J = K) : E h1 772 0 50 50 E
100
0
100
100
50
150
182
5.
Hier ist
J = K
AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
and man erhalt
x z 2=1 . =x2+150
CXY
1 immer mit Biz and z immer mit ril auf. Aus dem Wert von X kann man also auf den Wert von Y schlief3en and Im zweiten Beispiel trio also umgekehrt .
Wens Cxy maximal, das heill,t gleich sins ist, sagt man, dass emn vollstandiger Zusammenhang zwischen den Variables besteht . Dabei sind zwei Falls zu unterscheiden : • Im Fall J < K ist Cxy = 1 aquivalent damit, dass xz = n(J - 1) .
Man kann zeigen, dass dann jede Spalte der Kontingenztafel genau eine gemeinsame Haufigkeit enthalt, die von null verschieden ist ; siehe das obige Beispiel 2 mit J = K = 2 .
• Im Fall J > K bedeutet Cxy = 1, dass xz = n(K - 1) ist and sick
in jeder Zeile der Kontingenztafel genau eine gemeinsame Haufigkeit befindet, die von null verschieden ist ; siehe das obige Beispiel 1 mit J=3undK=2 .
Bei der Interpretation von Cxy ist zu beachten, dass Cxy nur die Starke des Zusammenhangs misst, nicht jedoch die Richtung . Allerdings misst Cxy Zusammenhangs beliebiger Art and nicht nur den affin-linearen (wie rxy) oder den monotones (wie rXy ) Zusammenhang . Zur praktischen Anwendung der ZusammenhangsmaJle rxy, rX y and Cxy noch einige Hinweise . • Sind die Skalenniveaus von X and Y verschieden, so muss emn Zusam-
menhangsmaJ gewahlt werden, das hochstens das geringere der beiden Skalenniveaus erfordert . X
Y
Nominalskala Ordinalskala
Metrische Skala
Nominalskala Ordinalskala Metrische Skala cXY
CXY
CXY
R rxy
cXY
TR yy
cXY R
rxY
TXY
• Wie schon mehrfach erwahnt, misst rxy nur die Starke des affin-linearen
Zusammenhangs von zwei metrischen Variables Xund Y, rX y nur die Starke des monotones Zusammenhangs . Will man jedoch fur metrische
5 .3 .
DESKRIPTIVE REGRESSION
1 83
oder ordinalskalierte Variables den allgemeinen Zusammenhang messes, so berechnet man CXY . Sind X oder Y (oder beide) stetig, so muss zunachst eine stetige Klassierung vorgenommen and dann CXY aus der Haufigkeitstabelle berechnet werden . Allerdings hangt der Wert von CXY nicht unerheblich von der Anzahl der Klassen and der Wahl der Klassengrenzen ab .
5 .3
Deskriptive Regression
Mit den in Abschnitt 5 .2 angegebenen Zusammenhangsmaflen wird die Starke des Zusammenhangs zwischen zwei Variables X and Y gemessen . Diese Mane andern sick nicht, wens X and Y vertauscht werden . Man kann mit ihnen daher keine Kausalbeziehung zum Ausdruck bringen . Demgegenuber betrachten wir nun verschiedene Methoden der Regression . Bei ihnen wird eine Variable auf eine andere „zuruckgefuhrt", genauer : die Variation der ersten Variables durch die Variation der zweiten Variables „erklart" . Die beiden Variables haben hierbei unterschiedliche Rollen . Die erste Variable wird als abhangige Variable oder Regressand bezeichnet . Die zweite, der Erklarung dienende Variable heifit unabhangige Variable oder Regressor . Welche von beiden die Rolle der unabhangigen and welche die Rolle der abhangigen Variables einnimmt, hangt vom Kontext der Anwendung ab . Auch die Art, d .h . die funktionale Form des Einflusses der unabhangigen auf die abhangige Variable wird ggf . vorweg durch inhaltliche and sachlogische Uberlegungen bestimmt .
5 .3.1
Regression erster Art
Bei dieser Art der Regression wird vorausgesetzt, dass die abhangige Variable Y mindestens intervallskaliert ist . Die unabhangige Variable X darf beliebig skaliert sein ; sie besitze die moglichen Auspragungen . . .,~j. Aus den Dates (z1, yI) , . . . , ( x,, yn ) berechnen wir die bedingten Mittelwerte von Y unter der Bedingung X = j fur j = 1, . . . , J . Die Zuordnung
yj
Sj F-
yj
heiEt deskriptive Regression erster Art von Y auf X . Graphisch stellt man die deskriptive Regression erster Art wie folgt dar : 1st X blofi nominal skaliert, zeichnet man emn Saulendiagramm ; die Saule bei j hat darin die Hohe = l, 2, . . . , J . Wens X ordinal oder metrisch skaliert ist and j gilt, zeichnet man die Punkte . . . < . . . , ( ~, yJ) in die z-yI < Ebene emn and verbindet sie .
184
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
Beispiel „Haushaltseinkommen" : Wir untersuchen den Einfluss des Haushaltstyps X auf das durchschnittliche verfiigbare Haushalts-Nettoeinkommen Y in den alters Bundeslandern . Sei G die Grundgesamtheit oiler Privathaushalte der alters Bundeslander im Jahre 1998 . Sie wird in sechs Haushaltstypen unterteilt; siehe die folgende Tabelle . Durchschnittliches verfiigbares Haushalts-Nettoeinkommen reach Haushaltstypen ; alts Bundeslander in 1998 (Queue : Statistisches Jahrbuch 2001) mittl . Einkommen y~ Anzahl Haushalts Haushaltstyp ~~
(in 1000)
(in DM)
Selbstandige
8470
2248
Beamte
7977
1734
Angestellte
6150
10452
A rbeiter
4967
7240
Arbeitslose
2892
1983
Nichterwerbstatige
3756
13124 36781
Das zur Regression gehorige Saulendiagramm ist in Abbildung 5 .4 dargestellt. 18000 16000 14000 12000 -
yi
10000 8000 6000 4000 2000 0 j=
1 Haushaltstyp
Abbildung 5 .4 : Saulendiagramm zur Regression erster Art
5 .3 . DESKRIPTIVE REGRESSION
1 85
Durch das Merkmal X mit den Auspragungen 1 i . . . , 1 j ist eine Zerlegung der Grundgesamtheit in J Teilgesamtheiten mit den Umfangen n1 ., ., n2 . nj . gegeben . Es gilt :
z = SY
2=1
2 SYl x=~,
nj. +
1
s2~t
j =1
(y~
-) 2 n .
seat
Hierbei bezeichnet s 12 lX= ~~ die bedingte Variant von Y unter der Bedingung
X = j (vgl . Abschnitt 5 .1 .4) .
Der Erklarungswert der unabhangigen Variables X fur Y kann dann durch die Mafizahl
B=
2
seat
s 2Y
ausgedriickt werden . B heifit Bestimmtheitsmai3 oder Determinationskoeffizient der deskriptiven Regression erster Art . Es gilt
0
gilt . In den durch X = ~ definierten Teilgesamtheiten sind dann alle bedingten Mittel y~ gleich, and zwar gleich dem Gesamtmittel y. In diesem Fall hat X keinen Erklarungswert fur Y . Es ist B = 1 genau dann, wens s~2 = seat and s nt = 0 . In diesem Fall sind die bedingten Varianzen sY ix=g, fur j = 1, 2, . . . , J alle null : Innerhalb der durch X = ~ definierten Teilgesamtheiten sind alle y-Werte gleich . Die Gesamtvarianz der y-Werte entsteht also durch die Streuung der bedingten Mittelwerte y~ . In diesem Fall hat X den hochsten Erklarungswert fur Y .
Die Variant seat wird in der beschreibenden Statistik auch als der durch die Regression erster Art erklarte Teil der Gesamtvarianz sY der y-Werte bezeichnet . B gibt deshalb den Anteil der durch die Regression erster Art erklarten Variant an der Gesamtvarianz von Y an .
Beispiel „Pradikatsexamen": Bei zehn Diplom-Kaufleuten des Examensjahrgangs 2001 wurde festgestellt, ob emn Pradikatsexamen vorliegt oder nicht (Variable X), and es wurde das Bruttojahresgehalt (Variable Y, in DM) der ersten Anstellung erhoben . Die Auswertung der Dates ergab :
186
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
Pradikatsexamen
Anzahl mittleres Gehalt
Variant des Gehalts 2
ni .
g~
sY I X=g,
ja
3
75 000
49 000 000
nein
7
60 000
25 000 000
and damit die in Abbildung 5.5 dargestellte Regression erster Art .
80 000 70 000 60 000 mitt! . Bruttojahresgehalt
50 000 40 000 30 000 20 000 10 000 0
ja
nein Pradikatsexamen
Abbildung 5 .5 : Saulendiagramm zur Regression erster Art
Weiter ist y 2 Sy
64500, 2 2
sint -r Sext 10 (49 000 000 .3 + 25 000 000 .7)
0
+1
[(75 000 - 64 500) 2 .3 + (60000- 64 500) 2 .7]
32 200 000 +47 250 000 79450000, 47 250 000 B
_
79 450 000
0, 5947 .
Man sieht, dass sick fast 60% der Variant des Bruttojahresgehalts der DiplomKaufleute durch die Variable Pradikatsexamen (ja I nein) erklaren lassen .
5 .3 .
DESKRIPTIVE REGRESSION
5 .3 .2
1 87
Regression zweiter Art (Lineare Regression)
In diesem Abschnitt setzen wir voraus, dass X and Y metrische Merkmale sind . In der deskriptiven Regression zweiter Art soil die Abhangigkeit der y-Werte von den x-Werten durch eine Gerade dargestellt werden : Die Daten (x1, y l ), . . ., (x n , yn ) der Urliste sollen durch
yi =a +bxi+ui,
i=1, . . .,n
mit moglichst kleinen Residuen ui beschrieben werden . Die Regression zweiter Art heifbt deshalb auch lineare Regression . Genauer nennt man sie lineare Einfachregression, da sie im Gegensatz zur linearen Mehrfachregression nur einen Regressor berucksichtigt . Der Achsenabschnitt a and die Steigung b der Geraden y H a + bx stellen unbekannte RegressionskoefHzienten dar. Man berechnet sie nach der Methode der kleinsten Quadrate (--~ EXCEL) : Bestimme a and b so, dass die Summe der Quadrate der Residuen minimal ist . Dabei entspricht das i-te Residuum
ui = yi - (a + bx i ) der vertikalen Abweichung des Punktes im Streudiagramm ; vgl . Abbildung 5 .6 .
(xi, yi)
von der Regressionsgeraden
y
x Abbildung 5 .6 : Zur Methode der kleinsten Quadrate
1 88
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
Um a and b nach der Methode der kleinsten Quadrate zu bestimmen, minimieren wir die Funktion Q(a,/9) -
i=1
fur a,
( i - (a + i3xi)) 2
E
Partielles Differenzieren and Nullsetzen ergibt die Bedingungen erster Ordnung 8aQ(a, ~) _
i=1
i=1
(yi -
0,
(i -
(a +x))(-x) ' 0 .
Sei (a, b) die Stelle des globalen Minimums der Funktion Q . Dort gilt die Regressionsbeziehung ui = yi - (a + bxi) fur i = 1, . . . , n . Setzt man diese in die Bedingungen erster Ordnung em, folgen die Gleichungen n
~ ui = 0 i=1
and
n i=1
uixi = 0 .
Sie charakterisieren das Minimum von Q and werden im Folgenden noch benotigt . Eine einfache Umformung liefert zwei inhomogene Gleichungen in a and b, die auch als Normalgleichungen bezeichnet werden, na +
i=1
i a
n ~yi, i=1 n
(2-1 i )b = i=1
i=1
xiyi .
Auflosen nach a and b ergibt a -
b
2~ (1Yi)
C i=1x2' n
i=1
-
Ci
x2a -
xiyi' i=1
xa
2
Ci
n xiyi - ~~ xzJ ya . -J Cz~ J Ci~ C i=1
~~ - C i=1
aJ 2
xz
J
,
5 .3 .
189
DESKRIPTIVE REGRESSION
Dividiert man Zahler and Nenner der Formel fur b durch n2, so erhalt man
b=
n ,, L, xiyi a=1 n
-x
y
=
x2
~ xi n. i=1
SXY
SZ X
'
Wie man sieht, muss sX > 0 sein, sonst ist b nicht definiert . Die Werte der unabhangigen Variables X di rfen nicht alle gleich sein . Auch die Formel fur a lasst sick umformen. Dividiert man durch n2, so erhalt man a
y
CnZ~x2)-C n'-'xiyi J s2x
(sX-j-() 2 ) -
s 2x
2JSX - SXY1
2
SX
(Sxy + x
- y
y) x
_ SXY -
2
SX
x
x,
also
a=y-b . Offenbar kann man a and b durch die vier Grol3en x, y, sX and sxY
ausdri cken (- EXCEL) . Aufierdem folgt aus der Formel a = y - bx sofort, dass y=a+bx . D .h ., die Regressionsgerade {(x, y) : y = a + bx} geht durch den Punkt ( , y), den Schwerpunkt des Streudiagramms . Die beiden Regressionskoeffizienten a and b haben im Allgemeinen eine Benennung, namlich • a hat die Benennung von Y, • b hat die Benennung
Benennung vonY Benennung vonX '
Wir betrachten das Beispiel „Obsthandler" aus Abschnitt 5 .2.1, wobei X der Preis (in € pro kg) von Erdbeeren and Y die abgesetzte Menge (in kg) wares . Aus
x =4,4
and
y = 70,5
1 90
5.
Bowie
AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
sX = 0, 234
SXY =
and
berechnet man
b a
_
4 0,234 = -17,094 145,714
k9 kg ] '
€Pro
[kg] .
Zeichnet man die Regressionsgerade in das Streudiagramm, so ergibt sick Abbildung 5 .7 . y o
8580 75-
0
0
70-a
0
0
0
65 -
0
60 55 50-
I
3 .8
I
4 .0
1
4 .2
I 4 .4
''I
4 .6
4 .8
'I'
5 .0
0 1 1 1111 1
5 .2
5 .4
x
Abbildung 5 .7 : Streudiagramm and Regressionsgerade
Die berechnete Regressions gerade ist gegeben durch y = 145,714- 17, 094 x . Man beachte, dass die berechnete Regressionsgerade nicht fur alle x-Werte der unabhangigen Variables sinnvoll interpretiert werden kann, sondern nur in deco Bereich, in dem auch die beobachteten x-Werte lieges, also etwa fur 3 < x < 6 . Der Parameter b lasst sick dann (mit alley Vorsicht) als diejenige Menge (in kg) interpretieren, um die der Absatz (im Mittel) zuri ckgeht, wens der Preis fur emn kg Erdbeeren um einen € erhoht wird, d .h .
Dy = -b Ox mit Ox = 1 [€ pro kg] .
-17
[kg]
5 .3 .
DESKRIPTIVE REGRESSION
191
Noch grollere Vorsicht ist angebracht, wenn man die Regressionsgerade zum Extrapolieren verwendet, d .h . wenn man daran die abgesetzte Menge bei einem Preis von z .B . 7 € oder 2,50 € ablesen mochte . Es ist unmittelbar einsichtig, dass der berechnete affin-lineare Zusammenhang von x- and yWerten umso weniger aussagt, je weiter sick der Wert der unabhangigen Variables von den beobachteten Werten zi der Urliste entfernt . Bestimmtheitsmal3 Als Nachstes leiten wir emn Mall, fur die Giite der Regression her . Man setzt
i=1, . . .,n .
yi =a+bxi, Dann ist
=
yi
a +bxi + ui = yi + u i .
Die Punkte (x i , yi ) lieges exakt auf der Regressionsgeraden . Die Anwendung der Methode der kleinsten Quadrate hat ferner zur Folge, dass n
i=1
ui = 0
and
i=1
xiui = 0
gilt . Da u = 0 ist, folgt aus yi = yi + ui die Gleichung
y=y+u=y, das arithmetische Mittel der yi ist gleich dem arithmetischen Mittel der yi . Weiter gilt - 2
2 sY
1
1
z=1 9
+
i=1 n
(-y)2
i=1
- y)
i=1
sU .
=
_y) =o
Dass der gemischte Term n ~ einsehen : n
yi+ui-y)
1 ui (y i - y) gleich null ist, kann man so
n
n
i=1
i-1 =o
a
i=1 =o
+
n
= ~ ui(axi + b) i=1
n i=1
ui b = 0
=o
192
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
Damit ist der folgende Varianzzerlegungssatz gezeigt,
sY=4+s U . Die Variant der Werte der abhangigen Variables Y lasst sick demnach in zwei Teile aufspalten :
• Der eine Teil ist die Variant sY der exakt auf der Regressionsgeraden liegenden Werte yj . Da in die Definition von y2 = a+bxi die berechnete Regressionsgerade eingeht, nennt man sY auch den durch die Regression erklarten Teil der Variant
sY .
• Der andere Teil ist die Variant sU der Residues u2, die so genannte
Residualvarianz oder durch die Regression nicht erklarte Variant .
Der obige Varianzzerlegungssatz ist auch die Basis fur die Definition einer MaJizahl zur Beurteilung der „Gute" oder der „Qualitat" einer berechneten Regressionsgeraden . Als Bestimmtheitsmaf3 der linearen Regression definiert man 2
2
su R 2sY = z=1 -2 sY SY R 2 ist der Anteil der durch die Regression erklarten Variant an der Variant der y-Werte . Offensichtlich gilt
0
n
(a +
bxi - ( a + b )) 2 = b2sX .
5 .4.
193
LINEARE MEHRFACHREGRESSION
Deshalb ist Rz =
(sxy) z 2 Y _ b2sx = (2X 2 - 2 2 S Ir SY SY
RZ
=
sxY 2 2 ~S x ~S I,
2
=
(rxy) 2 .
R2 ist also das Quadrat des Korrelationskoeffizienten rxY . Man beachte, dass beim Ubergang von rxY zu R2 = (rxy) 2 das Vorzeichen von rxY, das die Richtung des linearen Zusammenhangs der x- and y-Werte anzeigt, verloren geht . Die Richtung des Zusammenhangs kann man jedoch am Vorzeichen von b, der Steigung der Regressionsgeraden, ablesen . Ira Beispiel „Obsthandler" wurde bereits oben in Abschnitt 5 .2 .1 der Korrelationskoeffazient rxY = -0, 8609 berechnet . Fur R 2 ergibt sick deshalb R2 = (rxy) 2 = 0, 7411 . Durch die Regression auf den Preis der Erdbeeren warden 74% der Variant der abgesetzten Menge erklart .
5 .4
Lineare Mehrfachregression
In der linearen Einfachregression wird eine Variable Y in Bezug zu einer Variables X gesetzt, and zwar mithilfe eines affin-linearen Ansatzes . In vielen Anwendungen ist jedoch eine Variable Y zu untersuchen, die nicht nur zu einer, sondern zu mehreren Variables X1, . . . , Xk in Beziehung steht, k > 1 . Um deren Einfluss auf Y simultan zu messes, macht man ebenfalls eines affin-linearen Ansatz fur die Beobachtungen von Y in Abhangigkeit von den Beobachtungen der X1, X2, . . . , Xk . Er lautet allgemein yz=a+blxlti+ . . .+bkxki+uz,
i=1, . . .,n .
her bezeichnet y2 die i-te Beobachtung der erklarten Variables Y and x j Z die i-te Beobachtung der erklarenden Variables (Regressoren) X3 (j = 1, . . ., k) . Fur k = 1 ergibt sick natiirlich die Gleichung der linearen Einfachregression . Die Koeffizienten a and b1, . . . , bk sind unbekannte Parameter . Sie werden wie im Fall der linearen Einfachregression mit der Methode der kleinsten Quadrate bestimmt . Man bestimmt dazu das Minimum der Funktion Q (a„ti, . . . , (~k) _
n
(
2 -
(a + tixiz + . . . + ~kxkZ)) 2
194
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
bezuglich ihrer k + 1 Arguments a and Ql, . . . „C3k . Anders als bei der linearen Einfachregression wollen wir die Formeln fur a and b1, . . . , b k nicht explizit herleiten . Die Formeln sind fur die meisten praktischen Anwendungen auch nicht erforderlich, da man im konkreten Fall die Werte der Parameter mithilfe eines Computerprogramms (y EXCEL) berechnet, in das lediglich die Dates eingegeben werden . Auch fur die Mehrfachregression ist emn Bestimmtheitsmai3 definiert, welches die „Guts" der berechneten Regression misst . Hierzu betrachten wir wie bei der Einfachregression die durch die Regression berechneten y-Werte yti=a+b1x1Z+ . . .+bkxkz,
i=1, . . .,n .
Es gilt dann wieder 2Ji=~i+u27
i=1, . . .,n,
and man kann den Varianzzerlegungssatz
,=4+sU
s 12
herleiten, wobei die Varianzen s,, s I2, and sU wie bei der Einfachregression definiert sind . Es gilt wiederum u = 0 and y = y . Das Bestimmtheitsmaf3 ist ebenfalls durch z
v2
-s R2 = sY 2 =1 2 sy sy
definiert and es gilt 0 <_ R2 < 1 . Die Bedeutung der extremes Werte 0 and 1 ist die folgende :
R2 =1 -> u1=u2= . . .=un=0,d .h .sU=O . In diesem Fall konnten die Werte der abhangigen Variable Y durch die Werte der Variables X1 i . . . , Xk perfekt erklart werden ; die Dates stehen in einem exakten linearen Zusammenhang .
R2 =0
y1 = . . . = yn
In diesem Fall gilt a = y and b 1 = . . . = bk = 0 , d .h . die Variables X1, . . . , Xk haben als lineare Regressoren keinen Erklarungswert .
5 .4 .
LINEARE MEHRFACHREGRESSION
195
Beispiel: Der Einfluss der Ausgaben fur Prospektwerbung X1 (in Euro) and Verkaufsforderung vor Ort X2 (in Euro) auf den Absatz Y (in Euro) eines Nahrungsmittels werde in n = 80 vergleichbaren Supermarkten untersucht . Es ergab sick (bezogen auf eine Woche) als Ergebnis der linearen Regression
Y = 40 + 0,9X 1 + 1,4X2 Bowie R 2 = 0, 55 . Die Koef zienten b 1 = 0,9 and b2 = 1,4 konnen so interpretiert werden, dass jeder zusatzliche Euro Prospektwerbung (bzw . Verkaufsforderung vor Ort) den Absatz um 0,9 Euro (bzw . 1,4 Euro) erhoht. Die Prospektwerbung ist also unrentabel . Durch die Regression auf die beiden Variables X 1 and X2 konnten 55% der Streuung von Y erklart werden .
Erganzende Literatur zu Kapitel 5 : Bei der Anwendung der multiples Regression ergeben sick viele Probleme, auf die wir hier nicht eingehen konnen . Sie werden in der Okonometrie umfassend untersucht . Verwiesen sei auf die folgenden einfi hrenden Lehrbiicher der Okonometrie : Eckey et al . (2004) ; Assenmacher (2002) ; von Auer (2005) .
196
5 .5
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
Anhang zu Kapitel 5 : Verwendung von Excel
Im Folgenden sollen einige Anwendungen von Excel im Rahmen der Auswertung mehrdimensionaler Daten erlautert werden . Die zugehorigen Beispieltabellen Obsthaendler .xls and Personalchefmod .xls sind im Netz unter www .uni-koeln .de/wiso-fak/wisostatsern/buecher/beschr_ sta t in Excel 97 and Excel 5 .0 verfugbar .
5 .5 .1
ZusammenhangsmaEe
Kovarianz and KorrelationskoefHzient (vgl . Obsthaendler . xls) Die Daten stammen aus Abschnitt 5 .2 .1 (Preise einer Erdbeersorte and verkaufte Tagesmenge an 10 aufeinander folgenden Tagen) .
sX
Die Mittelwerte x and y and Varianzen and sY (bzw . die Standardabweichungen sX and sy) lassen sick, wie im Anhang zu Kapitel 2 fur Einzeldaten erlautert, berechnen . Kovarianz (vgl . Obsthaendler .xls : s_xy ; s_xy(2)) mit zentrierten Summanden
x
B 13
enthalt
C 13
enthalt y
Spalte D D2 = B2 -$B$13 y „Herunterziehen" bis D11 Spalte E E2 = C2 -$C$13
„Herunterziehen" bis E11
Spalte F F2 = D2 * E2 -* „Herunterziehen" bis F11 F12
= Summe(F2 :F11)
F13
= F12/All
[sxy]
mit nichtzentrierten Summanden
x
B 13
enthalt
C 13
enthalt y
Spalte D D2 = B2*C2 y „Herunterziehen" bis D11 D12
= Summe(D2 :D11)
D13
= D12/All
D14
= D13 - B13 * C13
[sxy]
5 .5 .
ANHANG ZU KAPITEL 5 : VERWENDUNG VON EXCEL
197
Uber statistische Funktion : = Kovar(B2 :B11 ;C2 :C11) KorrelationskoefTizient (vgl . Obsthaendler . xls : r_xy) D14 enthalt sXY E15 enthalt sX F15
enthalt sY
B18 = D14/(E15 * F15)
[rxy]
Uber statistische Funktion : = Korrel(B2 :B11 ;C2 :C11) RangkorrelationskoefFizient (vgl . Personalchefmod ::xls r_Sp) Den Berechnungen liegt emn Beispiel aus Abschnitt 5 .2 .2 (Beurteilung nach Fachwissen and Auftreten) zugrunde, dass um zwei weitere Bewerber erweitert worden ist . Sie werden vom Personalchef folgendermailen beurteilt : (x7, y7) _ ( 9,10), (xs, ys) _ (10, 3) . Somit liegen bei Merkmal Y, anders als im Originalbeispiel, Bindungen vor, da zwei Bewerber in Bezug auf ihr Auftreten mit 10 beurteilt werden . Liegen keine Bindungen vor, konnen die Range mit Hilfe der Excel-Funktion Rang bestimmt werden . Da Excel im Fall von Bindungen jedoch keine mittleren Range vergibt, sondern alien betroffenen Werten den gleichen Rang zuweist, miissen wir, wenn Bindungen vorliegen, die Range per Hand berechnen . Spalte D D2 = Rang(B2 ;$B$2 :$B$9 ;wahr) y „Herunterziehen" bis D9
[R(x2)]
Spalte E enthalt per Hand bestimmte Range : E2 : 1, E3 : 2, E4 : 6, E5 : 4, E6 =(7 + 8)/2, E7 : 5, E8 =(7 + 8)/2, E9 : 3
[R(y2 )]
Das weitere Vorgehen ist analog zur Berechnung des Korrelationskoeffizienten .
198
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
5 .5 .2
Lineare Einfachregression
Berechnung der Regressionskoeffizienten (vgl . Obsthaendler .xls : Regression Y auf x) B13
enthalt
x
C13 enthalt y D14 enthalt E14 enthalt
sxy sX
B17 = D14/E14 B18
[Steigung b]
= C13 - B17 * B13
[y-Achsenabschnitt a]
Uber statistische Funktionen : b = Steigung(B2 :B11 ;C2 :C11), a = Achsenab-
schnitt(C2 :C11 ;B2 :B11)
Soil die lineare Regression von X auf Y berechnet werden, werden einfach die entsprechenden Angaben in den Formeln vertauscht (vgl .Obsthaendler .xls : Regression X auf Y) . Prognose Mit der Statistik-Funktion Trend kann man, ohne eigens die lineare Regression durchzufiihren, einen Prognosewert fur y auf Grund eines linearen Trends angeben . Streudiagramm mit linearer Regressionsgerade (vgl .Obsthaendler .xls :Regression Y auf x)
•
Markieren der Zellen B2 :B11 and C2 :C11
• EINFUGEN / DIAGRAMM : Auswahl von PUNKT (XY), UNTERTYP 1
•
Dri cken von WETTER bis Abfrage ob neues Tabellenblatt
•
„Klicken" mit rechter Maustaste auf die Datenwolke TRENDLINIE HINZUFUGEN : TYP LINEAR, OPTIONEN : GLEICHUNG IM DIAGRAMM DARSTELLEN anklicken
ENDS
5 .5 .
ANHANG ZU KAPITEL 5 : VERWENDUNG VON EXCEL
199
5 .5 .3 Lineare Mehrfachregression Der Ansatz einer linearen Regression von Y auf X1, . . . , Xk lautet ~i - a + blxli + b2xzi + . . . + bkxki , i = 1, . . . , n . Fur k = 1 ergibt sick die bekannte Regressionsgleichung fur die lineare Einfachregression . Zur Bestimmung der Regressionskoeffizienten a, b 1 , . . . , b k ist in Excel die Matrizenfunktion RGP vorgesehen . Insbesondere laf?,t sie sick nati rlich fur den Spezialfall k = 1 einsetzten (vgl . Obsthaendler .xls : RGP) . Wichtig ist bei der Verwendung dieser Matrizenfunktion, dass man fur die Ausgabe der Regressionskoeffizienten (k + 1) Felder nebeneinander markiert!
Kapitel 6
Analyse von Zeitreihen Unter einer Zeitreihe versteht man in der beschreibenden Statistik eine zeitlich geordnete Folge von Werten eines Merkmals . Das Merkmal kann eine Bestandsgrofle oder eine Stromgrofle sein ; im ersten Fall bezieht sick jeder einzelne Wert der Zeitreihe auf einen Zeitpunkt, im zweiten Fall auf einen Zeitraum . Der Wert einer Zeitreihe zu einer bestimmten Zeit hangt in der Regel von den Werten der Reihe zu fri heren Zeiten ab . Bei der Analyse einer Zeitreihe besteht daher die erste Aufgabe darin, die zeitliche Abhangigkeit der Werte zu modellieren and rechnerisch zu bestimmen ; man nennt dies die Analyse der Struktur . Eine zweite Aufgabe ist die Prognose von zukunftigen Werten der Reihe ; sie wird in der Regel auf eine vorhergegangene Strukturanalyse gesti tzt . Betrachtet man mehrere Merkmale, so besteht eine weitere Aufgabe der Zeitreihenanalyse darin, Beziehungen zwischen den Zeitreihen der verschiedenen Merkmale zu modellieren and zu berechnen . Die Zeitreihenanalyse ist emn wichtiges Hilfsmittel der Betriebswirtschaftslehre and der Volkswirtschaftslehre . Seit vielen Jahren werden Zeitreihen von gesamtwirtschaftlichen Merkmalen wie Sozialprodukt and Investitionen, Beschaftigten- and Arbeitslosenzahlen analysiert . In neuerer Zeit sind in zunehmenden Mafbe Zeitreihen aus dem Finanzbereich verfi gbar and einer Analyse zuganglich gemacht worden, etwa Zeitreihen von Wertpapierkursen, von Aktienindizes and von dazu gehorigen Renditen . In diesem Lehrbuch konnen nur die einfachsten Verfahren der Zeitreihenanalyse vermittelt werden . Weiterfuhrende Literatur ist am Ende des Kapitels zu finden . 201
202
6 .1
6.
ANALYSE VON ZEITREIHEN
Beispiele von Zeitreihen
Formal versteht man unter einer Zeitreihe eine Folge yl, yz, . . . , yn von zeitlich geordneten Werten eines metrischen Merkmals Y . Man schreibt auch kurz y 2i i = 1, . . . , n . Die entsprechenden Zeiten (Zeitpunkte bei Bestandsgrof en bzw . Zeitraume bei Stromgrof3en) werden mit ti, i = 1, . . . , n, bezeichnet . Sie sind geordnet, d .h . tl
Beispiele : 1 . Jdhrliche „allgemeine Geburtenziffer" in Deutschland, das ist das Verhaltnis der Zahl alley Lebendgeburten turn durchschnittlichen Bevolkerungsbestand in einem Jahr (mal Faktor 1000) . Die t i sind Jahre ; vgl. Abbildung 6.1 2. Arbeitslose am Monatsende (bzw . Monatsdurchschnitte) . Die Zeit t i ist hier das i-te Monatsende bzw . der i-te Monat; vgl. Abbildung 6 .2 . 3. Vierteljahrliches Bruttoinlandsprodukt . ti bezeichnet dabei das i-te Quartal . Schlusskurs einer bestimmten Aktie an der Frankfurter Wertpapierborse . Der Index i indiziert hierbei die Borsentage . .4 .
Am Anfang jeder Zeitreihenanalyse steht die visuelle Inspektion der Zeitreihe . Um eine einzelne Zeitreihe y2 graphisch darzustellen, zeichnet man die Punkte (ti, yz), i = 1, . . . , n, in emn Koordinatensystem and verbindet sie durch eines Streckenzug ; man nennt diese Abbildung emn Zeitreihenpolygon ('--i EXCEL) . Am Zeitreihenpolygon lasses sick wichtige Aspekte der Zeitreihe wie Trend, lineares oder nichtlineares Wachstum, regelmaflige Schwankungen, Strukturbruche u .a . in Augenschein nehmen and beurteilen . Die Inspektion bildet die Grundlage fur die Einbeziehung zusatzlicher Information (etwa uber den Grund einer regelmafligen Schwankung oder eines Strukturbruche) and die weitere Modellierung der Zeitreihe and fur die Bildung von Hypotheses (etwa uber die Existent and Form eines Trends) .
6.2
Komponentenmodelle
In einem Komponentenmodell nimmt man an, dass sick eine Zeitreihe des Merkmals Y aus bestimmten, einfach zu interpretierenden Komponenten zusammensetzt .
6 .2 . KOMPONENTENMODELLE
203
Geburtenzi f f er 1918171615141312111098 1945
1955
1965
1975
1985
t
1995
Abbildung 6 .1 : Jahrliche allgemeine Geburtenziffer fur die Bundesrepublik Deutschland 1946 bis 1999
Anzahl A
32 .5 21 .5 V
1 0 .5 1980
i
f
1
I
I
1985
I
I
I,
I
1990
I
I
I
I
I
1995
I
I
I
I
I
2000
Abbildung 6 .2 : Monatliche Arbeitslosenzahlen in Millionen von Januar 1980 his Dezember 2000 fur das friihere Bundesgebiet
t
F . ANALYSE VON ZEITREIHEN
2 04
Als Komponenten einer okonomischen Zeitreihe werden in Betracht gezogen :
• eine Trendkomponente, welche die langfristige Entwicklung der zugrunde liegenden Grofbe Y beschreibt,
• eine Konjunkturkomponente, welche die mittelfristige Veranderung von Y abbildet,
• eine Saisonkomponente, welche die im Zeitablauf regelmaf?ig auftre-
tenden Schwankungen von Y beschreibt (bei Quartalsdaten etwa die Effekte der Jahreszeiten),
• eine Restkomponente, welche die nicht weiter erklarbaren Einfliisse auf die Entwicklung von Y zusammenfasst .
Welche der genannten Komponenten in das Zeitreihenmodell aufgenommen werden and welche nicht, hangt sowohl vom Untersuchungsgegenstand als auch von der Art and Anzahl der verfiigbaren Daten (also der vorliegenden Zeitreihe) ab . Analysiert man z .B . Jahresdaten, so erubrigt sick die Aufnahme einer Saisonkomponente . Demgegenuber wird es in der Regel bei Monats- oder Quartalsdaten sinnvoll sein, eine Saisonkomponente in Betracht zu ziehen . Eine Restkomponente ist jedoch immer zu berucksichtigen, da man nicht davon ausgehen kann, dass yZ durch die anderen Komponenten vollstandig beschrieben wird . Im Folgenden wollen wir Trend- and Konjunkturkomponente zur so genannten glatten Komponente gi zusammenfassen . Die Saisonkomponente bezeichnen wir mit si, die Restkomponente mit ui, i = 1, . . . , n . Man beachte, dass nur die Werte y2 i i = 1, . . . , n, der Zeitreihe, Bowie die Zeitpunkte ti, i = 1, . . . , n, bekannt sind . Die Komponenten der Zeitreihe sind demgegenuber nicht bekannt ; sie stellen emn Konstrukt des Modells dar and sind deshalb auch nicht direkt beobachtbar . Das additive Komponentenmodell lautet yz =
g2
+ si + ui, i = 1, . . .,n .
Wens keine Saisonkomponente beriicksichtigt werden soil, setzt man im additives Komponentenmodell si = 0 fur alle i and erhalt das additive Komponentenmodell ohne Saison :
yZ=gz+ui,
i=1, . . .,n .
Gelegentlich ist es passender, die Komponenten einer Zeitreihe multiplikativ miteinander zu verkniipfen . Dies fiihrt auf das multiplikative Komponentenmodell ys = g2 . 5 . u2 .
6 .3 .
BESTIMMUNG DER GLATTEN KOMPONENTE
205
1st keine Saison zu berucksichtigen, so setzt man si = 1 fur alle i and erhalt das multiplikative Komponentenmodell ohne Saison :
yi = 9i ui,
i = 1, . . .,n .
Das multiplikative Komponentenmodell 1st eng mit dem additives Komponentenmodell verwandt . Logarithmiert man namlich das multiplikative Modell (mit oder ohne Saison), so erhalt man emn entsprechendes additives Modell in den logarithmierten Groilen : lgyi=iggi+lgsi+lgui,
i=1, . . .,n,
bzw . lg yi =lg gi +Ig ui,
i=1, . . .,n .
her bezeichnet lg z = log 10 z den Logarithmus einer Zahl z zur Basis 10 .
6 .3
Bestimmung der glatten Komponente
In diesem Abschnitt legen wir zunachst das additive Komponentenmodell yi = gi + ui,
i = 1, . . .,n ,
bzw .
yi=9i+si+ui,
i=1, . . .,n,
zugrunde . Es soil fur jede Zeit ti der Wert gi der glatten Komponente bestimmt werden . Hierzu gibt es zwei grundsatzliche Moglichkeiten : Bei einem globalen Ansatz wird eine feste funktionale Form fur gi vorgegeben, die fur alle i = 1, . . . , n, gelten soil . Die in der funktionalen Form enthaltenen Parameter werden aus der gesamten Zeitreihe berechnet . Bei einem lokalen Ansatz wird dagegen fur jedes i der Wert der glatten Komponente aus einem Abschnitt der Zeitreihe bestimmt, der in der Nahe der Zeit ti liegt . Auf diese Weise lasst man zu, dass sick die funktionale Form der glatten Komponente fiber die Zeit andert . Die im Folgenden in den Abschnitten 6 .3 .1 and 6 .3 .2 vorgestellten Trendmodelle fur yi sind global, wahrend die im Abschnitt 6 .3 .3 behandelten gleitenden Durchschnitte einen lokalen Ansatz zur Bestimmung von gi darstellen .
206
6 . ANALYSE VON ZEITREIHEN
6 .3 .1 Linearer Trend Wir gehen vom additives Komponentenmodell ohne Saison yi=gi+ui, i=1, . . .,n, aus . Man beachte, dass die Zeiten ti, an denen die Werte yi vorliegen, nicht notwendig aquidistant sein musses . Fur die glatte Komponente machen wir den Ansatz eines so genannten linearen Trends . Hierbei wird die Funktion g als afF1n-linear angenommen, gi=a+bti, also
i
1, . .,n,
yi=a+bti+u2, i= 1, . . .,n .
a and b werden nach der Methode der kleinsten Quadrate bestimmt : n n i (a bti))2 =min ( a, f3 i=1 (y2 - (a + ~ti))2 i=1 Es ergibt sick (wie in 5 .3 .2) ~,tiyi-nty b = i=1Ti t2 - n t2 i=1 and Hierbei ist t = n
n i=1
a=y-bt . ti . Falls speziell ti = i fur alle i gewahlt ist, gilt t=-
Bowie
n z
n i=1
n+1 2
= n (n + 1) (2n + 1) i=1 Man beachte, dass sick die nach der Methode der kleinsten Quadrate berechneten Restkomponenten ui, i = 1, . . . , n, gegenseitig aufheben ; es gilt immer n U =0 . i=1
6 .3 . BESTIMMUNG DER GLATTEN KOMPONENTE
207
Beispiel „Jahresumsatz": Emn Diplom-Kaufmann grundete 2001 emn Softwareunternehmen . Die Jahresumsatze (in Tausend €) von 2001 bis 2005 betrugen :
Jahr
2001 2002 2003 2004 2005
Jahresumsatz
200
260
310 350 390
a) Man bestimme die affin-lineare Trendfunktion g2 = a + b ti 1, . . .,5 .
b) Wie cndern sick a and b, wean man tI = 2001, t 2 = 2002, . . ., setzt?
tz
fur
ti =
= 2000+i fur i = 1, . . . ,n, d .h .
Abbildung 6 .3 : Affin-lineare Trendfunktion fur den Jahresumsatz (in Tausend €) zu a) Die Zeichnung der Trendfunktion in Abbildung 6 .3 beruht auf folgender Arbeitstabelle :
208
6. Jahr 2001 2002
2
2003
3 4
2004 2005 E
t2 • Yz 200
1
2Ji - 9i -8
260 310
520
4
5
930
9
8
350
1400
16
1
390 1510
1950
25
-6
5000
55
0
2
1
200
5 15
ANALYSE VON ZEITREIHEN
Es ist n = 5 Bowie y = 302 and t = 3 . Es folgt
and
b = 5000 - 5 3 • 302 = 47 55-5 .3 2 a=302-47 .3=161 .
Als affin-lineare Trendfunktion ergibt sick gi = 161 + 47t,
ti = 1, . . . , 5 .
Der Wert des Bestimmtheitsmaf3es betragt R2
=
0,9915 .
zu b) Es ist a +(2000+i) b _
woraus and folgt, also
.i .2000)+ (a +
b=b=47 a
= a +b
2000,
a = a - b 2000 = 161 -47 .2000 = -93839 .
In diesem Beispiel „Jahresumsatz" and auch allgemein gilt, dass sick b durch die Verschiebung der Zeitachse nicht andert . Nur der Achsenabschnitt a erfahrt eine Veranderung . Beispiel „US-Bevolkerung": Die folgende Tabelle stellt die Bevolkerung der USA in den Jahren 1970-1997 dar (Queue : Gutachten des Sachverstandigenrats) .
6 .3 .
BESTIMMUNG DER GLATTEN KOMPONENTE
Jahr
Bevolkerung in 1000
Jahr
2
209
Bevolkerung in 1000
1970
1
205052
1984
15
236348
1971
2
207661
1985
16
238466
1972
3
209896
1986
17
240651
1973
4
211909
1987
18
242804
1974
5
213854
1988
19
245021
1975 6
215973
1989
20
247342
1976 7
218035
1990
21
249911
1977 8
220239
1991
22
252643
1978
9
222585
1992
23
255407
1979
10
225056
1993
24
258120
1980
11
227726
1994
25
260682
1981
12
229966
1995
26
263168
1982
13
232188
1996
27
265557
1983
14
234307
1997
28
267856
280000 270000 260000 0 0
250000
° 240000 C
230000 220000 210000
Abbildung 6 .4 : Affin-lineare Trendfunktion fur die US-Bevolkerung (in Tausend)
210
6.
ANALYSE VON ZEITREIHEN
Als affin-lineare Trendfunktion ergibt sick (siehe Abbildung 6 .4) gi = 202163 + 2310 ti, Das Bestimmtheitsmaf3 ist
tz = 1, . . . , 28 .
R2 = 0, 9988 .
Bei einer Zeitreihe mit afhn-linearer Trendfunktion y2 = a + b tz + ui ist der Parameter b leicht zu interpretieren, wenn wir von aquidistanten Zeitpunkten t2 - tz_I = 1 ausgehen and die Restkomponente vernachlassigen . Darn gilt offensichtlich b, i=2,3, . . . , Dye = y2 - yi-I d .h . b gibt die durchschnittliche absolute Veranderung Zeitreihe an . b hat die Benennung der y2 .
yZ -
y2_I der
Aus dieser Interpretation von b folgt, dass fur eine gegebene Zeitreihe y2 eine affln-lineare Trendfunktion nur dann angemessen ist, wenn die absolutes Veranderungen y2 - yi_1 annahernd konstant sind, da im anderen Fall die Abweichung zwischen Modellannahme and Zeitreihe zu grail ist . Trendbereinigte Zeitreihe Zieht man im additives Modell den berechneten linearen Trend gi = a + b t2 von der Zeitreihe yz ab, so erhalt man die Restkomponente yi-9i=ui, i=1, . . .,n .
Sie wird trendbereinigte Zeitreihe genannt. Die trendbereinigte Zeitreihe stellt man wiederum graphisch in der t-y-Ebene dar and stellt durch visuelle Inspektion felt, oh periodische Schwankungen oder andere Besonderheiten vorliegen. Die trendbereinigte Zeitreihe sollte in unregelmaEiger Weise um den Wert 0 schwanken . Falls dies nicht zutrifft, ist das Modell des linearen Trends fur die gegebenen Dates nicht passend . Fortsetzung des Beispiels „Jahresumsatz" : Fur die Jahresumsatze von 1994 bis 1998 ist die trendbereinigte Zeitreihe yZ -161 -47t2 fur t2 = 1, . . ., 5 in der letzten Spalte der Arbeitstabelle eingetragen . Prognose auf Grund des linearen Trends Die berechnete Trendfunktion kann zur Prognose kunftiger Werte des Zeitreihenmerkmals verwendet werden . Hierbei geht man davon aus, dass das Modell and der berechnete Trend auch in Zukunft gelten, d.h . man unterstellt fur die kunftiger Zeitpunkte to+I, to+z • • • weiterhin die Beziehung yn+1 = a + b to+j + u'n+j, j= 1,
2, . . . ,
yn+j wird dann mittels yn+j = a
+
b to+j ,
j = 1, 2, . . .
6 .3 .
BESTIMMUNG DER GLATTEN KOMPONENTE
211
prognostiziert .
Im Beispiel „US-Bevolkerung" wurde auf Basis der Daten von 1970 bis 1997 emn linearer Trend berechnet . Der Trend lieferte fur die Jahre 1998, 1999 and 2000 die folgenden Prognosewerte y1998, Y1999, Y2ooo Daneben sind die in diesen Jahren tatsachlich realisierten Werte y199s, Y1999, Y20oo aufgefuhrt . Y1998 = 202163 + 2310 . 29 = 269153
y1998 = 273754
Y1999 = 202163 + 2310 . 30 = 271463
y1999 = 276218
y2o0o = 202163 + 2310 . 31 = 273773
y2ooo = 281422
Wie man sieht, wird die Bevolkerungsentwicklung viel zu niedrig prognostiziert . Das Modell eines linearen Trends erweist sick als ungeeignet fir die Prognose der Bevolkerung der USA .
6.3 .2
Exponentieller Tend
Wir gehen nun von dem multiplikativen Modell ohne Saison aus and machen fur die glatte Komponente den Ansatz eines exponentiellen Trends :
gi = ab t i, also
i =
1, . . . , n,
t yi=ab iui,
mit b > 0 ,
i=l, . . .,n .
Logarithmierung mit dem dekadischen Logarithmus (lg z = log 10 z) ergibt
i = 1, . . . , n .
lg yi = lg a + lg b ti + lg ui, =A
U
=B
A and B werden nach der Methode der kleinsten Quadrate bestimmt : n i=1
(lgyi-(A+Bti))2= in
1
(lgyi- (+t))2
Es ergibt sick
n
B =
1g b
=
ti lg yi - n t lg y
Z-1 n i=1
A = lga
t2 - n t2
1gy-Bt,
212
6 . ANALYSE VON ZEITREIHEN
wobei lg y = -
i=1
lg y i
and
t = -
2
Um die Parameter a and b des multiplikativen Ursprungsmodells zu erhalten, muss man A and B zurucktransformieren . Es ist
a = b =
10 A , 10 B .
Der Parameter b des exponentiellen Trendmodells
yi = ab t ui,
i = 1, . . . , n,
kann gut interpretiert werden . Dabei gehen wir wieder von aquidistanten ti mit ti_1 = ti - 1 aus and vernachlassigen die Restkomponente ui . Es gilt
yi
yi-1
-
ab
abt2 t . 1 ui
ui-I
tib,
i=2 ,3, . . .,
d .h . b ist als durchschnittlicher Zuwachsfaktor der Zeitreihe interpretierbar. Man beachte, dass b keine Benennung hat . Die zugehorige Wachstumsrate (in %) ist (b - 1) . 100 % . Aus der Interpretation von b im exponentiellen Trendmodell kann man folgern, dass es nur dann angewendet werden sollte, wenn die Zuwachsfaktoren yi/yi_1 tatsachlich annahernd konstant sind . Falls dies nicht zutrifft, ist zu priifen, ob fur alle i die Differenzen yi-y2-1 ungefahr ubereinstimmen ; in diesem Fall ist das lineare Trendmodell vorzuziehen . Auch das exponentielle Trendmodell kann zur Prognose verwendet werden, wenn man davon ausgeht, dass das Modell and der berechnete Trend auch in der Zukunft gelten . Es sind dann yn+ .;
= ab t + 3 ,
j= 1 ,2, . . .,
die fur die Zeiten t~+l, to+2, . . . prognostizierten Werte . Trendbereinigte Zeitreihe Eine trendbereinigte Zeitreihe erhalt man, indem man die Zeitreihe yi durch den berechneten exponentiellen Trend gi = abt i dividiert,
yi -=ui, gi
i=1, . . .,n .
Die trendbereinigte Zeitreihe wird wiederum graphisch auf Besonderheiten untersucht . Sie sollte in unregelma~iger Weise um den Wert 1 schwanken ; falls dies nicht zutrifft, ist das exponentielle Trendmodell fehlspezifiziert .
Beispiel „Mobiltelefon" : Die Anzahl (in 100000) der Anschliisse eines Mobiltelefouanbieters seien :
6 .3 .
213
BESTIMMUNG DER GLATTEN KOMPONENTE
Dez.2002
Jan . 2003
10
11,5
Feb . 2003 Marz 2003 April 2003 13,5
15,5
18
a) Man bestimme die Koeffszienten der exponentiellen Trendfunktion . Man bestimme die durchschnittliche monatliche Zuwachsrate . b) Man prognostiziere die Anzahl der Anschlusse fur Mai and Juni 2003 . c) Man bestimme die trendbereinigte Zeitreihe and beurteile die Cute der Anpassung des exponentiellen Trendmodells. zu a) Die Arbeitstabelle ist : tz
1g yi
2
t i lg yi
1
10,0 1,0000
Jan . 2003
2
11, 5 1, 0607 2,1214 4 0,9940
Feb . 2003
3
13, 5 1,1303 3,3909
Marz 2003
4
15, 5 1,1903 4,7612 16 0,9977
April 2003
5
18, 0
15
1,0000
1
yZ /9~
Dez. 2002
1,0017
9 1,0070
1, 2553
6, 2765
25
5,6366
17,5500
55
0, 9998
Aus diesen Angaben berechnet man B
lg b =
b =
17,
55-3 5,6366 = 0, 06402, 55-5 .9 10 B = 10 0,06402 = 1,15883 ,
=
A =
lg a
a =
10 A = 10 0,93526 = 8 61509,
gi
=
R2
=
5
5,6366 - 0,064023 = 0, 93526,
8, 61509 1,15883 1 '' ,
ti = 1, . . . , 5 ,
0,99979 .
Die durchschnittliche Zuwachsrate der Zahl der Anschlusse ist 15,9% . zu b) Die Prognoseperioden Mai and Juni 2003 werden mit t6 = 6 bzw . t7 = 7 bezeichnet . Fur die Zahl der Anschlusse erhalten wir die Prognoses 1/6=8,61509 . 1,15883 6 =20,9 and y7 = 8, 61509 • 1,15883 7 = 24, 2 . zu c) Die trendbereinigte Zeitreihe ist yz 8, 61509 . 1,15883 1
214
6 . ANALYSE VON ZEITREIHEN
Ihre Werte fur t1, . . . , t5 sind in der letzten Spalte der Arbeitstabelle aufgefiihrt . Die trendbereinigte Zeitreihe schwankt unregelmaflig um den Wert l . Das exponentielle Trendmodell erscheint deshalb den Daten angemessen . Im Beispiel „US-Bevolkerung" : Auf Grund des exponentiellen Trendmodells berechnet man die Trendfunktion (vgl . Abbildung 6.5) tz = 1, . . . ,
g2 = 203741 . l,009871,
28 .
270000 260000 250000 g 240000 0 0
230000 220000 210000 200000
00 Q~ O N M V N f0 M1 O Q~ O N M O N !D f~ 00 07 O N M V N b M1 m tp !p M1 M1 M1 M1 M1 M1 M1 M1 M1 M1 O O W~ O EO a0 m W t0 OI 01 OI Oi Or 01 OI OI OI moimaimmmmrnrnmrnwo+mmarnmmmmrnrnammrnrnmm Jahre
Abbildung 6 .5 : Exponentielle Trendfunktion der US-Bevolkerung (in Tausend) b = 1,00987 ist die „durchschnittliche relative Veranderung". Man kann also folgern, dass die Bevolkerung der USA von 1970 bis 1997 jahrlich im Schnitt um knapp 1% gewachsen ist . Zur Ubung berechne man Prognosewerte fur die Jahre 1998 bis 2000 and vergleiche diese mit den realisierten Werten . 1st das Modell eines exponentiellen Trends fur die Prognose der US-Bevolkerung geeignet?
Es sei daran erinnert (siehe hierzu Abschnitt 4 .2), dass es noch einen anderen Ansatz zur Bestimmung einer mittleren Wachstumsrate gibt, and zwar als das geometrische Mittel mG der Einperioden-Zuwachsfaktoren mG =
9 Yo
Beide Ansatze liefern (in der Praxis meist geringfugig) unterschiedliche Ergebnisse . Der Unterschied kommt dadurch zustande, dass mG lediglich vom
6 .3 .
BESTIMMUNG DER GLATTEN KOMPONENTE
215
ersten and vom letzten Wert and der Lange der Zeitreihe abhangt, wahrend b im exponentiellen Trendmodell von samtlichen Werten der Zeitreihe beeinflusst wird .
Im Beispiel „US-Bevolkerung" ist
w= 2
267856 205052
_ 1 = 1,00994-1 = 0, 00994 .
Auch nach dieser Methode ergibt sick eine „mittlere Wachstumsrate" der Bevolkerung der USA in den Jahren 1970-1997 von knapp 1% .
6 .3.3
Gleitende Durchschnitte
Beim linearen and beim exponentiellen Trendmodell handelt es sich um globale Ansatze zur Bestimmung der glatten Komponente . In diesem Abschnitt betrachten wir einen einfachen lokalen Ansatz fur die glatte Komponente, die Methode der gleitenden Durchschnitte . Wir nehmen an, dass fur die Zeitreihe das additive Komponentenmodell mit oder ohne Saison zutrifft,
yi=9i+si+ui, i bzw .
yi=gi+ui,
1, .
,n,
i=1, . . .,n .
Weiterhin nehmen wir an, dass die ti aquidistant sind . Emn gleitenden Durchschnitt gZ den Ordnung ) ist wie folgt definiert (-4 EXCEL) : . Falls .\
=
21 + 1 (mit l = 1, 2, . . .), d .h . bei ungerader Ordnung, wird
fur i = 1+1,1+2, . . . ,n- (l + 1) ,n-1 gesetzt . gi ist also das arithmetische Mittel alley Werte yh mit h = i -1, . . . , i + l . Man beachte, dass fur die ersten and die letzten Indizes (i = 1, . . . , l and i = (n - l) + 1, . . . , n) der gleitende Durchschnitt g2 nicht definiert ist . . Falls \ = 21 (mit 1 = 1, 2, . . .), d .h . bei gerader Ordnung, setzt man
216
6.
gi
=
1 1
2l
2yi-1 +
ANALYSE VON ZEITREIHEN
yi-(1-1) +
1
+ yi-1 + yi + yi+1 + . . . + yi+(1-1) + 2yi+1
1
2l
1
1-1
( 2 y2-1 +
=-1+1
yi+h
1 + 2 yi+1
fur i = l + 1, . . . , n - l . Offenbar ist die Summe der Gewichte, 1 2l
1 1 • +1+ •:-+2 2 =(21-1)-mal
gleich 1 . Fur i = 1, . . . , l and i = ( n- l)+1, . . . , n ist gi nicht definiert .
Beispiel „Vierteljahreswerte BIP": Die folgende Tabelle and Abbildung 6 .6 enthalten Vierteljahreswerte des Bruttoinlandsproduktes zu jeweiligen Preisen (in Mrd. DM) and einen gleitenden Durchschnitt der Ordnung .\ = 4 (Queue : Gutachten des Sachverstandigenrates 1998) :
Jahr Quartal 1991 I II
III IV
1992 I II
III
IV 1993 I II
III IV
1994 I II
III IV
2
666,8 702,2
719,4 721,9 765,2 736,4 734,5 749,8 750,6 763,5
Jahr Quartal
800,4 796,2 839,0 806,4 790,8 816,3 814,7 826,7 840,6 836,2 882,1 844,4
2
1995 I II III
823,6 852 0
II III
865,5 878,2 892,4 882 8
IV 1996 I
778,7 771,4 814,8 776,3 IV 748,3 782,2 1997 I 776,0 787,9
Z
II III IV
1998 I II
847,9 858,1 868,4 862,9 902,9 867,3 841,0 872,5
924,6 888,7 856,0 896,0 898,0 902,6 918,5 911,3 951,5 919,7 898,4 922,7
6 .3 .
BESTIMMUNG DER GLATTEN KOMPONENTE
217
Viertefjahreswerte
• * • • g leitende Durchschnitte
Abbildung 6 .6 : Vierteljahreswerte des BIP (in jeweiligen Preisen) and gleitender Durchschnitt Bei der Anwendung der Methode der gleitenden Durchschnitte auf konkrete Daten ist zunachst die Lange des gleitenden Durchschnitte, A, geeignet zu wahlen : • 1st die Berechnung des gleitenden Durchschnitte nur der erste Schritt in
einer Analyse der Saisonfigur einer Zeitreihe (siehe hierzu den nachsten Abschnitt), so wahlt man A ale Lange der Saison, d .h . A = 12 bei Monatsdaten oder A = 4 bei Quartalsdaten .
• Interessiert man sick fur den gleitenden Durchschnitt ale Wert der glat-
ten Komponente gi, so muss a nach der Art and der Lange der Zeitreihe and dem Untersuchungsziel bestimmt werden . Hat man z .B . eine sehr lange Zeitreihe von Tageskursen eines Wertpapiers (z .B . Schlusskurse der l'ankfurter Wertpapierborse), so bietet sick emn gleitenden Durchschnitt der Lange A = 250 zur Beschreibung der langfristigen Entwicklung an, wenn man von 250 Borsentagen pro Jahr ausgeht . Hat man die Tageskurse nur fur wenige Monate, so bietet sick emn gleitender Durchschnitt der Lange A = 20 an, wenn man von 20 Borsentagen pro Monat ausgeht . Beispiel „DAX": Abbildung 6 .7 zeigt die Zeitreihe der Monatsendwerte des DAX (Dezember 1987=1000) Bowie ihre Glattung durch einen gleitenden Durchschnitt der Lange A =12. (Queue : Deutsche Borse AG, http ://www .exchange .d e)
Wir schlieflen diesen Abschnitt mit einigen Bemerkungen zu den Eigenschaf-
218
6 . ANALYSE VON ZEITREIHEN
8 .000 7 .000 6 .000 , 5 .000
gleiiender Durc (L mbda=12)
-a
hnili
3
4,000 -= 3.000 . 2 .000 1,000
Abbildung 6 .7 : Monatswerte des DAX and gleitender Durchschnitt ( .=12) ten gleitender Durchschnitte . • Aus der Definition geht unmittelbar hervor, dass der Glattungseffekt
bei einem gleitender Durchschnitt umso starker ist, je groi er .\ ist .
• Legt man das Komponentenmodell yi = 9i + u i , i = 1, . . . , n, zugrunde
and geht man davon aus, dass die Restkomponente unregelmaEig um null schwankt, so wird der Einfiuss der Restkomponente durch einen gleitender Durchschnitt weitgehend ausgeschaltet, denn beispielsweise fur ungerades = 21 + 1 gilt gx
_
i+l 1 (gh + uh) 21 + 1 h=i-l x+l
i+l
1 1 uh • 21+1 h=i-l gh+21+1 h=i-l
• Legt man das Modell yi = 9i + s i + ui, i = 1, . . . , n, zugrunde and ist .\ = 21 + 1 gleich der Large K der konstanten Saisonfigur oder emn
6 .3 .
BESTIMMUNG DER GLATTEN KOMPONENTE
219
Vielfaches davon, so gilt
1
9i
21
i+l
+ 1
(9j + si + uj)
i+1
1
1
i+1
1
9j+ 21+121+121+1 + j=i-l
i=i-l
=0
i+1 j=i-l
u1 '
0
sofern die Summe der Saisonkomponenten 1 sk = 0 ist ; siehe hierzu den nachsten Abschnitt . Die Saisonkomponenten haben in diesem Fall also keinen Einfluss auf den gleitenden Durchschnitt gi .
6 .3 .4 Lineare Filter Die Transformation einer Zeitreihe Y1, •
zi
=
. , yn
in die Zeitreihe
a-1 yi-1 + a-l+l yi-l+1 + . . . + ao yi + . . . ak yi+k i+k h=i-1
ah-i yh
fur i = l + 1,1 + 2, . . . , n - k heiRt linearer Filter . Die Zahlen a_1, . . . , ak sind Parameter des Filters ; man nennt sie (auch wenn sie sick nicht zu 1 addieren) die Gewichte des Filters . Fur jedes i setzt also der Filter an die Stelle des Wertes y i der gegebenen Zeitreihe eine Linearkombination von yi mit zeitlich benachbarten Werten der Zeitreihe, and zwar den l Werten, die yi vorausgehen, and den k Werten, die yi folgen . Wir betrachten nun einige spezielle lineare Filter and ihre Anwendung . Wenn man l = k and alle Gewichte gleich grof wahlt, d .h . ah = 21+1 fur alle h, erhalt man einen gleitenden Durchschnitt der Ordnung = 21 + 1 . Er diem allgemein der Glattung der Zeitreihe and speziell der Elimination einer Saison der Lange ) . Siehe dazu Abschnitt 6 .3 .3 . Einfacher gleitenden Durchschnitt
a
Allgemeiner gleitenden Durchschnitt Einen linearen Filter, dessen Gewichte sick zu 1 aufaddieren Ih=_l ah = 1, nennt man einen allgemeinen gleitenden Durchschnitt . Solche Durchschnitte spielen in der statistischen Praxis eine grol3e Rolle . Sie entstehen von allem dadurch, dass man eine Zeitreihe mehrmals hintereinander mit (einfachen) gleitenden Durchschnitten glattet .
220
6 . ANALYSE VON ZEITREIHEN
Zahlenbeispiel : Sei x2 zi
-
1
3 (yi-i + yi 3(xi-1
+ yi+i) and
+ x2 + xi+1),
also nach Einsetzen der x2 in die zweite Gleichung : zi
1
2
1
= 9 yi-2 + 9 yi-1 + 3 yi +
2
9
yi+1
1
+ 9 yi+2
Offenbar ist z2 emn linearer Filter von yi mit l = k = 2 and Gewichten der Summe 1 . Dabei ist x2 emn einfacher gleitender Durchschnitt von y2 i z2 emn einfacher gleitender Durchschnitt von x2, and beide einfacher Durchschnitte besitzen die Ordnung .\ = 3 . Deshalb hei,3t z2 zweifacher gleitender Durchschnitt von y2 der Ordnung 3 .
6 .4
Bestimmung der Saisonkomponente
Bisher wurde bei der Schatzung der glatten Komponente entweder eine Saisonschwankung explizit ausgeschlossen (Trendmodelle mit der Voraussetzung s2 = 0 fur alle i) oder eine etwa vorhandene Saisonschwankung wurde durch einen gleitender Durchschnitt entsprechender Ordnung „ausgemittelt" . In diesem Abschnitt gehen wir vom additives Komponentenmodell mit Saison
yi = gi + s2 + ui,
i = 1, . . .,n,
aus . Die Zeiten t2 seien aquidistant . Wir entwickeln im Folgenden emn einfacher Verfahren, mit dem die saisonalen Abweichungen 5, bestimmt werden konnen . Das Verfahren setzt eine konstante Saisonfigur voraus, was bedeutet, dass die Werte der s2 rich periodisch wiederholen . Die konstante Saisonfigur wird formal so definiert : Es gibt eine kleinste Zahl K, genannt Periodenlange, so dass fur k = 1, . . . , K and j = 0, 1, 2, . . . die periodische Beziehung
Sk+j •x = sk gilt . k indiziert die Phase der Saisonfigur . Lieges z .B . Quartalsdaten vor, so ist K = 4 and es gilt bei konstanter Saisonfigur :
S1 = S5 = S9 = 52 = 56 = 510 = 53 = S7 = S11 = S4 = S8 = S12 =
• • •
6 .4 .
221
BESTIMMUNG DER SAISONKOMPONENTE
Bei Monatsdaten bedeutet eine konstante Saisonfigur, dass sick die Saisonkomponente periodisch mit der Periode K = 12 wiederholt.
Zur Bestimmung der K Saisonkomponenten sl, S2, . . . , SK wird im Folgenden das Phasendurchschnittsverfahren vorgestellt . Es 1st besonders einfach and leicht nachzuvollziehen . In der Praxis wird es allerdings nicht mehr verwendet, da es inzwischen leistungsfahigere Verfahren gibt, die jedoch erheblich kompliziertere Strukturen aufweisen . Fur das Phasendurchschnittsverfahren setzt man voraus, dass die Summe der K unterschiedlichen Saisonkomponenten gleich 0 ist, K
~ sk=0 . k=1
Diese Bedingung hat zur Folge, dass, wie am Ende des Abschnitts 6 .3 gezeigt wurde, beim Glatten mit gleitenden Durchschnitten der Lange ) = K die Saisonkomponente verschwindet . Das Phasendurchschnittsverfahren wird in mehreren Schritten durchgefuhrt (-+ EXCEL) : 1 . Zunachst bestimmt man mittels eines gleitenden Durchschnitts der Lang. .\ = K die glatte Komponente gg fur i = l + 1, . . ., wobei l = K-1 fur ungerades K and l = a fur gerades K ist . Anschliellend berechnet man die trendbereinigte Reihe dz=yi - gz,
i=l+l,l+2, . . .,n-l .
2. Fur jeden Wert der Saisonphase k mit k = 1, 2, . . . K, bestimmt man nun den Rohwert
wobei fiber alle verfi gbaren Werte dieser Werte sei J* . 3. Die Rohwerte
dk
dk +j .K
werden mittels
normiert, and man erhalt Schatzwerte geforderte Bedingung
erfi llen .
summiert wird . Die Anzahl
k=i
§k
fur s k , die nunmehr auch die
222
6 . ANALYSE VON ZEITREIHEN
Unter der Saisonbereinigung der Ausgangszeitreihe y1, Y2 , • • • , y n versteht man die Ausschaltung der Saisonkomponente, d .h . den Ubergang von yz zu yz mit
yi = yk+j .K - s~ fur
i=
k + j K, wobei k = 1, . . . , K and j = 0,1, 2, . . . ist .
Wir wollen die verschiedenen Schritte der Bestimmung der Saisonfigur and die Saisonbereinigung in zwei Arbeitstabellen am Beispiel,Vierteljahreswerte BIP" demonstrieren ; das Ergebnis wird dann in Abbildung 6 .8 graphisch dargestellt .
6 .4 .
BESTIMMUNG DER SAISONKOMPONENTE
223
Beispiel (siehe 6.2 .3) : Vierteljahrliches Brnttoinlandsprodnkt in jeweiligen Preisen (in Mrd . DM) . Arbeitstabelle 1 :
Z
1991
1992
1993
1994
I
666,8
695,8
II
702,2
712,8
III
719,4
721,9
-2,5
714,2
IV
765,2
736,4
28,8
730,7
I
734,5
749,8
-15,3
763,5
II
750,6
763,5
-12,9
761,2
III
778,7
771,4
7,3
773,5
IV
814,8
776,3
38,5
780,3
I
748,3
782,2
-33,9
777,3
II
776,0
787,9
-11,9
786,6
III
800,4
796,2
4,2
795,2
IV
839,0
806,4
32,6
804 5
I
790,8
816,3
-25,5
819,8
II
814,7
826,7
-12,0
825,3
III
840,6
836,2 4,4
835,4
844,4
37,7
847,6
I
823,6 852,0
-28,4
852,6
II
847,9
858,1
-10,2
858,5
III
868,4
862,9
5,5
863,2
IV
902,9 867,3
35,6
868,4
I
841,0
872,5
-31,5
870,0
II
865,5 878,2
-12,7
876,1
III
892,4
882,8
9,6
887 2
IV
924,6 888,7
35,9
890,1
I
856,0
896,0
-40,0
885,0
II
898,0
902,6
-4,6
908,6
III
918,5
911,3 7,2
9 3,3
IV
9515
919,7
31,8
917,0
I
898,4
927,4
II
922,7
933,3
IV 8821 1995
1996
1997
1998
224
6 . ANALYSE VON ZEITREIHEN
Arbeitstabelle 2 :
k
dk
sk
-29,1
-29,0
-10,7
-10,6
5,1
5,2
34,4
34,4
-0,3
0
Abbildung 6 .8 zeigt neben den Ausgangswerten yZ die saisonbereinigte Reihe yZ and die berechnete Saisonfigur 3I, s2, 83,84 (Mal~stab auf der rechten Seite) . Man beachte den Unterschied zwischen der saisonbereinigten Reihe yi
=yi
-
si=ga
- I-
Uj,
i=1, . . .,n
and der Reihe der glatten Komponente gi . Die saisonbereinigte Reihe enthalt also neben der geschatzten glatten Komponente gi noch die Restgrof~e U . Sie verlauft offensichtlich weniger glatt als die Reihe der gi .
1000 950 900650 -
E f c
a m
200
~Saison6gur -s-Vierteljahreswerte BIP • . • • saisonbereinigte Reihe
-150
800-
-100
750700 .-j 650 _ 600]
I
I
5501 500 m
N 0,
(o m
00)
,∎I ,∎I I,∎I ,∎I I I
w
-
50
l
a
I
C0
a
C-
a
-50
m
Quartal'
Abbildung 6 .8 : Saisonfigur and saisonbereinigte Reihe Wir kommen zuri ck auf die Bedingung ~k 1 sk = 0 fur die Saisonkomponenten . Eine entsprechende Bedingung gilt fur die geschatzten Komponenten Sk, d .h . I sk = 0 . Es folgt
6 .4 . BESTIMMUNG DER SAISONKOMPONENTE
j+K x= +1
j+K yi =
i=j+1
( yi
+ si)
_
j+K i=j+1
225
yi +
j+K i=j+1
Si
=0
fur beliebiges j = 0, 1, 2, . . . , N - K . Dies bedeutet, dass die Summe von K aufeinander folgenden Werten von y i durch die Saisonbereinigung nicht beeinflusst wird . So ist z .B . fur das obige Beispiel ,Vierteljahreswerte BIP" das jahrliche Bruttoinlandsprodukt, welches durch die Summe der vier Quartalswerte eines Jahres gegeben ist, unabhangig davon, oh die urspriinglichen Quartalswerte oder die saisonbereinigten Quartalswerte addiert wurden . Es leuchtet unmittelbar em, dass emn Saisonbereinigungsverfahren diese Eigenschaft haben muss, denn im anderen Fall wurden sick die Jahreswerte (oder die jahresdurchschnittlichen Werte) durch die Saisonbereinigung in unkontrollierter Art and Weise andern . Mit der Saisonbereinigung mochte man den saisonalen Einfluss auf die Monatsoder Quartalswerte einer GroEe Y ausschalten . Aus den tatsachlich beobachteten Werten yi entstehen durch Anwendung eines formal mathematischen Verfahrens die fiktiven saisonbereinigten Werte yz . Haufig werden Zuwachsraten von okonomischen Groflen (z .B . Quartalswerte des BIP oder monatliche Arbeitslosenzahlen) nicht aus der Ausgangsreihe yi, sondern aus der saisonbereinigten Reihe yz berechnet, um saisonale Effekte auszuschalten . Wie die obigen Daten and Abbildung 6 .8 zeigen, geht das BIP saisonal bedingt vom IV . Quartal zum I . Quartal des Folgejahres zum Teil erheblich zuri ck . Demgegenuber nahmen die saisonbereinigten Werte im Allgemeinen zu (Ausnahmen : 1/1992 auf 11/1992, IV/1992 auf 1/1993 and IV/1996 auf 1/1997) . Ebenfalls saisonal bedingt steigt das BIP vom III . zum IV . Quartal eines Jahres zum Teil erheblich an . Die Zuwachsrate der saisonbereinigten Werte ist demgegenuber wesentlich geringer . Veranderungen des BIP (wie auch anderer im Jahresablauf schwankender Gro~en) werden in der Regel auf den entsprechenden Vorjahreszeitraum bezogen, das heifit, es wird beispielsweise die Veranderung des BIP vom IV . Quartal 2001 zum IV . Quartal 2002 angegeben . Den Vorjahresvergleich kann man entweder mit den Originaldaten oder mit den saisonbereinigten Daten durchfuhren . Interessant ist die Frage, oh hierbei erhebliche Unterschiede auftreten . Wenn man im BIP-Beispiel die jahrlichen Zuwachsraten des BIP sowohl fur die nicht bereinigten als auch fur die bereinigten Daten berechnet, sieht man, dass - zumindest bei diesen Daten - die Ergebnisse nur geringfugig voneinander abweichen . Um eine Prognose zukunftiger Werte yi, i = n + 1, n + 2, . . ., zu erstellen, muss man zunachst die saisonbereinigte Zeitreihe yz auf geeignete Weise in
226
6.
ANALYSE VON ZEITREIHEN
die Zukunft fortsetzen . Eine Prognose y2 fur die Zukunft, i = n + 1, n + 2, . . . , erhalt man, indem man fur die saisonbereinigte Reihe yz einen linearen (oder exponentiellen) Trend berechnet and diesen wie oben beschrieben in die Zukunft fortsetzt . Zu yZ addiert man dann die geschatzte zukunftige Saisonkomponente s i ,
y2 =yz +§j,
i=n+1,n+2, . . .
Sie ergibt sick aus der periodischen Fortsetzung der errechneten Saisonfigur . In diesem Abschnitt wurde das Phasendurchschnittsverfahren beschrieben, bei dem es sich um eine relativ einfache and leicht nachzuvollziehende Prozedur handelt . Es sei jedoch darauf hingewiesen, dass in der Praxis (z .B . bei EUROSTAT, im Statistischen Bundesamt and in der Bundesbank) i berwiegend andere, modernere Verfahren eingesetzt werden, die allerdings wesentlich komplizierter sind . Haufig werden die Verfahren TRAMO-SEATS and CENSUS X-12-ARIMA angewandt . Nahere Informationen uber diese Verfahren findet man im Netz unter der Adresse http ://forum .europa .eu .int /Public/irc/dsis/eurosam/library .
6 .5 Exponentielles Glatten
Emn besonders in betriebswirtschaftlichen Anwendungen verbreitetes Verfahren zur Glattung and Prognose einer Zeitreihe ist das exponentielle Glatten . Bei den bisher behandelten Prognoses auf der Basis eines (linearen oder exponentiellen) Trends werden zukunftige Werte der Zeitreihe auf Grund von beobachteten Werten der Zeitreihe vorhergesagt, die in der Berechnung, soweit sie darin eingehen, das gleiche Gewicht besitzen . Da sich jedoch bei vielen Zeitreihen die Struktur der Reihe mit der Zeit andert, liegt es nahe, weiter zuruckliegende beobachtete Werte mit geringerem Gewicht in die Prognose eingehen zu lasses . Wens die Zeitreihe y2 7 i < n, bis zur Zeit nachsten Wert durch die Gleichung
n
gegeben ist, modelliert man den
wobei a einen Parameter zwischen 0 and 1 darstellt . Dies ist emn linearer Filter mit Gewichten all -a)~ fur yn _j, j = 0,1 Aus der Formel fur die geometrische Reihe and 0 < a < 1 erhalt man 00
j=0
(1
(1 - a) = 1,
6 .5 . EXPONENTIELLES GLATTEN
2 27
die Summe der Gewichte ist also gleich 1 . Die Modellgleichung mit Index n statt n + 1 lautet
Multipliziert man diese Gleichung mit (1-a) and zieht sie von der ursprunglichen Modellgleichung ab, verschwinden auf der rechten Seite alle Terme aufler dem ersten Summanden der urspri nglichen Gleichung . Es folgt yn+1 - (1 - a)yn=a(1 - a) ° yn-o = ayn and daraus die Rekursionsformel yn+1 = yn + a(yn - yn), mit der man yn+1 bequem rekursiv berechnen kann . Die yj bilden fur laufendes i wiederum eine Zeitreihe, die exponentiell geglattete Zeitreihe . Der Parameter a misst den Grad der Glattung, 0 < a < 1 . a nahe 0 bedeutet, doss die ursprungliche Zeitreihe stark geglattet wird, a nahe 1 bedeutet das Gegenteil, namlich eine schwache Glattung . Zur konkreten Anwendung der Rekursionsformel auf eine Zeitreihe yi, Y2 , • • • , y n benotigt man einen Anfangswert fur yl . Man wahlt dazu in der Regel yl = yl • Beispiel „Auftragseingang" : Wir betrachten den Auftragseingang einer Firma in sechs aufeinander folgenden Wochen yl, . . . , y6 lout folgender Tabeile . Die Zeitreihe soil exponentiell geglattet werden, and zwar alternativ mit Gldttungsparameter a = 0, 2 bzw . a = 0, 7 .
i
Z
,a=0,2,a=0,7
100
0
250
0
3 2 1
3,50
4 7
1,20
2,45
5
20 2,36
5,64
6
19 5,89
15,69
7
8,51
18,01
228
6 . ANALYSE VON ZEITREIHEN
Berechnung fur a = 0,2 : 0 0+0,2(0-0)
= 0
0+0,2(5-0)
= 1
1+0,2(2-1)
= 1,2
1,2+0,2(7-1,2)
= 2,36
2,36+0,2(20-2,36)
= 5,89
5,888+0,2(19-5,888) = 8,51 Das Ergebnis ist in Abbildung 6 .9 graphisch dargestellt .
yi
i yi yi mit a = 0,2 yi mit a = 0,7
Abbildung 6 .9 : Exponentielle Glattung
6 .6 .
6 .6
ZEITREIHEN IN STETIGER ZEIT
229
Zeitreihen in stetiger Zeit
In manchen Anwendungen ist es sinnvoll, die Werte einer Bestandsgrofle Y fiber die Zeit nicht nur zu einzelnen Zeitpunkten t1, t 2, . . . , t 7 zu untersuchen, sondern zu jedem beliebigen Zeitpunkt t auf der stetigen Zeitachse . Beispiele : 1 . Lanfende Notiernng des Kurses der XY-Aktie . ~ . Nachfrage nach elektrischem Strom bei einem Kraftwerk.
Fur eine Zeitreihe in stetiger Zeit betrachtet man ahnliche Komponentenmodelle wie fur eine Zeitreihe in diskreter Zeit . Im Folgenden beschranken wir uns auf die Modellierung and Schatzung einer glatten Komponente in stetiger Zeit . Die glatte Komponente einer Zeitreihe in stetiger Zeit schreibt man als Funktion t-4g(t) fir0 0 . Sie andert sick darin um g(t + At) - g(t), and das Wachstum pro Zeit ist gleich g(t + At) - g(t) At Der Grenzubergang At - 0 liefert das marginale Wachstum, g'(t) - lim g(t + At)-g(t) of o Ot
Bezieht man das marginale Wachstum g'(t) auf den Bestand g(t) zur Zeit t, erhalt man die stetige Wachstumsrate, w(t)= 9~(t) .
9(t)
Sie ist gleich der logarithmischen Ableitung von g(t), w(t) =
dt
ln(g(t)) .
Von besonderem Interesse ist der Fall, dass die glatte Komponente g(t) einer Zeitreihe in stetiger Zeit eine konstante stetige Wachstumsrate w(t) besitzt . Falls w(t) = const = j3 ist, haben wir dt ln(g(t))
_
~3,
ln(g(t))
_
fat + a and et+a = ea eat
g(t) =
also
230
6 . ANALYSE VON ZEITREIHEN
fur alle t . Es folgt fur t = 0, dass g(0) = e" 1st, also g(t) = g(0) ea t
fur alle t .
Man sagt dann, dass die Zeitreihe einem stetigen exponentiellen Trend folgt . Hiervon zu unterscheiden ist das konstante marginale Wachstum. Aus g'(t) = const = y folgt namlich, dass g(t) = yt + g(0)
fur alle t
gilt . Dies ist emn stetiger linearer Trend . Trends mit Sattigungsniveau Linearer and exponentiellen Trend haben emn Problem gemeinsam : Falls b bzw . grofler als null ist, bleibt die Zeitreihe mit den Zeit nicht beschrankt, sondern wachst fiber alle Maflen . Dies widerspricht haufig den Empirie . Viele okonomische Zeitreihen wachsen zwar, dock nimmt ihr marginales Wachstum auf langere Sicht ab, bis die Zeitreihe sick einem Sattigungsniveau S nahert . Beispiel : Anzahl den ISDN-Anschliisse in einer Region, S = Anzahl den Haushalte and Betriebe . Fur die Trendfunktion g(t) machen win den Ansatz t>0,
g(t)
mit gewissen Konstanten 3 > 0 and S > 0 . Der Ansatz besagt, dass die Wachstumsrate dem Abstand den Trendfunktion vom Sattigungsniveau proportional ist . Je mehr sick die Zeitreihe den Sattigung nahert, umso schwacher wachst sie . Man kann den Ansatz aquivalent fur das marginale Wachstum formulieren, g'(t) _ /3g(t) [S - g(t)] Das marginale Wachstum ist sowohl dem erreichten Niveau als auch dem noch his zur Sattigung fehlenden Niveau proportional . Dies 1st eine Bestimmungsgleichung fur die Funktion g(t) . Sie hat eine eindeutige Losung, namlich g(t) =
S
ss - 1 e - ast 1 + (o)
'
t > o
wobei g(0) > 0 den Anfangsbestand, das ist den Wert von g(t) zum Zeitpunkt t = 0, darstellt . (Der Leser mache die Probe, indem er g(t) in die Bestimmungsgleichung einsetzt .) Man nennt g(t) einen logistischen Trend . Offenbar ist
g streng monoton wachsend,
g(t) G S fur alle t,
t
urn g(t) = S .
6 .6 .
231
ZEITREIHEN IN STETIGER ZEIT
Man rechnet leicht nach, dass zum Zeitpunkt t*
_ ~S
in
(g(o) -
1~ ,
g(t* ) =
2
gilt, d . h . ausgehend vom Anfangsbestand g(0) ist nach t* Zeiteinheiten gerade die Halbsattigung, das ist die Halfte des Sattigungsniveaus, erreicht . Man beachte, dass das marginale Wachstum bis zu diesem Zeitpunkt zunimmt and danach abnimmt ; an der Stelle t* besitzt die Trendfunktion einen Wendepunkt . Beispiel „ISDN-Anschlusse" : Wir nehmen an, dass der Bestand an ISDNAnschlussen in einer Region gemafl einem logistischen Trend mit f3 = 0, 00001 wachst . Die Zeiteinheit sei emn Jahr . Der Anfangsbestand zum Zeitpunkt t = 0 betrage 10 000 Anschlusse ; vgl . Abbildung 6 .10 . Man geht von einer Marktsattigung bei S = 30 000 Anschliissen aus . (a) Wie grof ist der Bestand nach einem Jahr? (b) Nach wie vielen Jahren hat der Bestand die Halbsattigung erreicht? (c) Wie grofl ist die Wachstumsrate des Bestandes zu den Zeitpunkten t = 0 undt=ld zu (a) Der Bestand am Ende des ersten Jahres belauft sick auf g( 1 ) = 1 +
30000
30000 _ 1) e_0,3 ( Io 000
12089 .
zu (b) Es gilt
~ S In
(goo)
- 1) = 1 0 3
ln(2) = 2, 3105 ,
d.h . nach ca . 2,3 Jahren ist die Halbsattigung erreicht. zu (c) Die Wachstumsrate betragt allgemein 9~(t) 9(t)
_ 3(S -
g(t))
Fur t = 0 ist die Wachstumsrate deshalb gleich
0,00001 .(30000 - 10000) = 0, 2 , also 20% . Fir t = 1 ist sie gleich
0, 00001 . (30 000 - 12088) = 0,1791 , also knapp 18% .
232
6 . ANALYSE VON ZEITREIHEN g(t)
10000
t Abbildung 6 .10 : Logistischer Trend
Erganzende Literatur zu Kapitel 6 : Ausfi hrungen zur Zeitreihenanalyse sind in vielen Lehrbi them der Statistik fur die Wirtschaftswissenschaften enthalten . Genannt sei Fahrmeir et al . (2003), dessen Kapitel 14 weitere elementare lokale Ansatze zur Glattung einer Zeitreihe behandelt . Im Kapitel 10 von Heiler and Michels (2004) findet man Verfahren zur Trendbestimmung and Glattung einer Zeitreihe mit Hilfe von Kerndichteschatzern and lokal gewichteter Regression, ferner ausreif erresistente Glattungsmethoden and allgemeinere Prognoseansatze . Heiler (1995) gibt einen Uberblick fiber die Entwicklung der Methoden zur Zeitreihenglattung seit den 60er Jahren . Zeitreihen mit Sattigung sowie exponentielle Glattung werden u .a . in Schaich and Schweitzer (1999, Kapitel 5) behandelt . Eine Einfiihrung in hohere Verfahren der Zeitreihenananlyse findet man in Schlittgen (2001) . Eine umfassende Darstellung der Zeitreihenanalyse, insbesondere ihrer theoretischen and methodischen Grundlagen, bieten schlief 1ich die Lehrbi cher von Schlittgen and Streitberg (2001) sowie Rinne and Specht (2002) .
6 .7 .
ANHANG ZU KAPITEL
6:
233
VERWENDUNG VON EXCEL
Anhang zu Kapitel 6 : Verwendung von Excel
6 .7
Bei der elementaren Zeitreihenanalyse kann Excel ebenfalls eingesetzt werden, was in diesem Abschnitt kurz vorgefuhrt werden soil . Die zugehorige Beispieltabelle Zeitreihe .xls ist im Netz unter w ww .uni-koeln .de/wisofak/wisostatsem/buecher/besch r stat in Excel 97 and Excel 5 .0 verfugbar . Die Daten sind dem Beispiel ,Vierteljahreswerte des BIP" zu jeweiligen Preisen (in Mrd . DM) von 1/1991 his 2/1998" aus Abschnitt 6 .3 .3 entnommen .
6 .7.1
Gleitende Durchschnitte im additiven Modell
Berechnung der gleitenden Durchschnitte fur ) = 3 and )' = 4 (vgl . Zeitreihe .xls : g1 .Durchschnitte)
Spalte C enthalt yz
Spalte D D4 = 1/3 * Summe(C3 :C5) y „Herunterziehen" his D31 [gi fur \ = 3] Spalte E E5 = 1/4 * (1/2*C3 + C4 + C5 + C6 + 1/2*C7) „Herunterziehen" his E30 [gj fur ) = 4]
6 .7.2
Graphische Darstellung von Zeitreihen
Darstellung der Originalzeitreihe and der gleitenden Durchschnitte fur A=4 (vgl . Zeitreihe .xls : D lambda=4) • Markieren der Zellen A2 :A32, C2 :C32 and E2 :E32 • EINFUGEN / DIAGRAMM : Auswahl von LIME, UNTERTYP 4
• Dri cken von
WEITER
bis Abfrage oh neues Tabellenblatt y
ENDS
• „Doppelklicken" mit linker Maustaste auf y-Achse :
ACHSEN FORMATIEREN : SKALIERUNG : GROSSENACHSE (Y) SCHNEIDET ZWISCHEN RUBRIKEN : nicht ankreuzen
Achtung : Voraussetzung fur diese Darstellung von Zeitreihen mit Excel sind aquidistante Zeitabstande!
234
6.
ANALYSE VON ZEITREIHEN
6 .7 .3 Bestimmung der Saisonkomponente
(vgl . Zeitreihe .xls : Saison) Da es sick in dem Beispiel um Quartalsdaten handelt, muss zunachst die glatte Komponten g; mit Hilfe gleitender Durchschnitte der Ordnung A = 4 berechnet werden . Spalte D enthalt gz fur A = 4 Spalte E Spalte F
E5 = C5 - D5 „Herunterziehen" his E30 [di F3 = 1/6*(E7 + E11 + E15 + E19 + E23 + E27)
= dk+j .4]
F4 =1/6*(E8 + E12 + E16 + E20 + E24 + E28) F5 =1/7*(E5 + E9 + E13 + E17 + E21 + E25 + E29) F6 =1/7*(E6 + E10 + E14 + E18 + E22 + E26 + E30)
Spalte G G3 =F3 - 1/4 * $F$7 y „Herunterziehen" his G6 Spalte H H3 =C3 - $ G$3, 114 = C4 - $G$4, 115 = C5 - $G$5, 116 = C6 - $G$6 y Markieren von H3 :H6 „Herunterziehen" his H32
[yZ ]
[ski
[d k ]
Anhang A Summen- and Produktzeichen Definition des Summenzeichens Die Summe von
n
reellen Zahlen a1, a2, . . . ,a, wird wie folgt geschrieben, i=1
. . .+an =a1+a2+ +
Dabei heif3t i Snmmationsindex. Mit der Indexmenge I = {1, 2, . . . , n} schreibt man statt dessen auch ~ai=al+a2+ . . .+a,~ . in 7
Verallgemeinerung : Die Indexmenge I darf eine beliebige Menge von ganzen Zahlen sein, I C 7Z = { . . . , -3, -2,-i, 0,1, 2, 3, . . . } . Insbesondere muss der Summationsindex nicht immer von 1 bis n laufen, zum Beispiel 3 ai = a_4 + a_3 + a_2 + a_1 + ao + al + a2 + a3 i=-4 1st I die leere Menge, erhalt man eine leere Summe . Sie ist per definitionem gleich Null, =0 . iE0
Dass die Indexmenge leer ist, kann auf verschiedene Weise zum Ausdruck gebracht werden, etwa durch 0
i=1
a2 -
iE0
235
a
236
A . SUMMEN- UND PRODUKTZEICHEN
Rechenregeln fur endliche Summen Seien a1, . . . , a n and b 1 , . . . , b, reelle Zahlen . (i) Fur beliebige reelle Zahlen a and /3 gilt
n i=1
aai +,Gbi) _
i=1
i=1
(ii) Falls alle Summanden einer Summe gleich sind, a1 = a2 = . . . = a n = a, so gilt
n i=1
(iii) Fur jedes ganzzahlige aufspalten,
=na .
i=1
m, 0 <_ m <_
n, lasst sick die Summe wie folgt ai .
(iv) Fur jedes ganzzahlige m gilt die Indexverschiebungsformel
n m
. aim ai =
i=1 {-m
Spezielle endliche Summen (i)
n i=1 n ~2 i=1
n(n +1) 2
2 _ n(n + 1)(2n + 1) 6
n i=1
n 2 (n + 1) 2 4
237
A . SUMMEN- UND PRODUKTZEICHEN
(iv) Seien a1, b E R , ai = a1 + (i - 1)b fur i = 2, . . . , n . Dann heif3t a1, a2, . . . , a n endliche arithmetische Folge erster Ordnung . Es gilt n i=1
ai = 2(2a1 + (n - 1)b) .
(v) Seien a 1 , q ER, ai = algi-1 fur i = 2, . . . n . Dann heifit al, a2 , . . . , an endliche geometrische Folge . Fur q 1 gilt n -1 n 1 : ai = a q - 1 i-1 Doppelsummen Sei all . . . aim a21 . . . a2m a,,,l . . . anm emn zweidimensionales Schema von reellen Zahlen . Die Summe uber alle diese Zahlen notiert man als Doppelsumme
n
Es gilt
n
m
i=1 j=1
m
m
= all + . . . + al m +
a21 + . . . + a2m
+
and + . . . + anm .
n
j=1 i=1
iEI jEJ
EJ iCI
wobei I = {1, . . . , n} and J = {1, . . . , m} ist . Verallgemeinerung : Der Bereich des zweiten Indexes darf vom ersten Index
238
A . SUMMEN- UND PRODUKTZEICHEN
abhangen . Zum Beispiel : n
n
=
all
Es ist
+
. .. +
.. . +
. .. +
a1n
+
a22
+
.. . +
+
a2n
+
a33
+
a3n
+
ann .
TI
Ti
=1
J=z
. ••
+
ij =
Definition des Produktzeichens Das Produkt von n reellen Zahlen a1 i a 2 , . . . ,a, wird wie folgt geschrieben : n fl ai = a 1 • a2 a3 . . . • a n .
i=1
Mit der Indexmenge I = {1, . . . , n} schreibt man statt dessen auch iEI
ai = a1 . a2 . a3 . . . . a n .
1st I die leere Menge, erhalt man das leere Produkt, das per definitionem den Wert 1 hat, fiai=1fi iE0
Rechenregeln fur endliche Produkte Seien a 1 , . . . , an and b1, . . . , bn reelle Zahlen . (i) Fur beliebige reelle Zahlen a and n i=1
gilt
aaJ3bi = an/3
n
ai
n
i=1 i=1
bi .
(ii) Sind alle Faktoren eines Produkts gleich, a1 = a2 = . . . = an = a, so gilt n n ll a i = i=1
i=1
a=an .
Anhang B Exponentialfunktion and Logarithmus
Definition der Exponentialfunktion Die unendliche Reihe °° x k k=o
x2
x3 x4 k~=1+x+2+6+24+ . . .
konvergiert fur jedes x E I!8 . Fur x E R definiert man
exp(x) _
k=0
k!
Die Funktion exp : R -> R heii3t Exponentialfunktion . Ihr Graph ist 239
240
B . EXPONENTIALFUNKTION UND LOGARITHMUS
20 -
10 -
Eigenschaften der Exponentialfunktion (i) Es gilt exp(0) exp(1) Die Zahl
e
(ii) Fur alle x
= 1 = 2,71828
e.
heiflt Eulersche Zahl . E
R ist exp(x)
(iii) Fur alle x
. . . _:
E
0.
>
R gilt exp(x)'
=
exp(x) .
(iv) Die Funktion exp ist streng monoton wachsend . (v) Die Funktion exp ist durch (1) and
(2)
eindeutig bestimmt .
(vi) Fur x, y e 118 gilt das Additionstheorem exp(x + y) = exp(x) .exp(y) . (vii) Fur alle x e R gilt exp(x) = 7 1im (1
+ n)
241
B . EXPONENTIALFUNKTION UND LOGARITHMUS
Definition des Logarithmus naturalis Da die Exponentialfunktion streng monoton wachsend ist and den Wertebereich ]0, oo[ hat, besitzt sie eine eindeutig bestimmte Umkehrfunktion, die auf ]0, oo[ definiert ist . Sie heilit Logarithmus naturalis and wird mit in bezeichnet, in :]0, oo[- R . Es gilt exp(ln(x))
-
ln(exp(x))
x x
fur fur
x > 0, x E R.
Der Graph der Logarithmusfunktion ist
2 1 .5 1 0 .5 0
10
-0 .5
-1 .5
Eigenschaften des Logarithmus naturalis (i) Die Funktion in ist streng monoton wachsend . (ii) Fur x > 0 ist ln(x)' (iii) Fur
x, y > 0
gilt das
_1.
Multiplikationstheorem ln(zy) = ln(x) + ln(y) .
(iv) Fur jedes 0 < x < 2 gilt die Reihenentwicklung
1 )k+1 (-1)k = k+l
(x k=o
(x -
1
1) - (x - 1) 2 2
+
(x - 1)s 3
242
B . EXPONENTIALFUNKTION UND LOGARITHMUS
Weitere Definitionen and Formeln (i) Die allgemeine Potent x 5 ist durch xy = exp(yln(x))
fur alle x > 0 and y e R definiert . Insbesondere ist e X = exp(x) , x E R .
(ii) Sei a > 0 and a Basis a ist durch
1 . Der allgemeine Logarithmus log(x) von x zur y = log a (x)
<
>
x = ay
fur alle x > 0 definiert . Es gilt ln(x) ln(x)
-
log(x)
=
loge (x), log(x) .ln(a), ln(x) ln(a)
Der Logarithmus zur Basis a = 10 heif~t dekadischer Logarithmus . Sei f eine differenzierbare Funktion f : ]a, b[-~ R . Fur jedes x E ]a, b[, fur das f (x) 0 ist, heiiit die Ableitung / f~ ) d ln(f (x)) _ (ln f (x)) = dx f(x) logarithmische Ableitung von f an der Stelle x . Man nennt die logarithmische Ableitung von f auch (stetige) Wachstumsrate . Die Wachstumsrate von f ist genau dann konstant gleich w, wenn f (x) = ae'"~ gilt, wobei a eine positive Konstante ist .
(iv) Sei f eine differenzierbare Funktion f : ]a, b[--3 R . Fur jedes x E ]a, b[, fur das f (z) 0 ist, heiRt die Ableitung d ln(f (x)) dln(x)
x
f'(x) f(x)
doppelt-logarithmische Ableitung von f an der Stelle x . Wenn x > 0 and f (x) > 0 ist, wird die doppelt-logarithmische Ableitung auch als Elastizitat von f an der Stelle x bezeichnet .
Literaturverzeichnis ABELS, H . (1993) . Wirtschafts- and Bevolkerungsstatistik . Gabler, Wiesbaden, 4 . Aufl .
ASSENMACHER, W . (2002) . Einfuhrung in die Okonometrie . Miinchen, 6 . Aufl .
Oldenbourg,
ASSENMACHER, W . (2003) . Deskriptive Statistik. Springer, Berlin, 3 . Aufl . AUER, L . VON (2005) . Berlin, 3 . Aufl .
Okonometrie . Eine Einfuhrung.
Springer Verlag,
BAMBERG, G . and BAUR, F . (2002) . Statistik . Oldenbourg, Miinchen, 12 . Aufl .
BENNINGHAUS, H . (2005) . Einfuhrung in die sozialwissenschaftliche Daten-
analyse . Oldenbourg, 7 . Aufl .
BOL, G . (2004) . Deskriptive Statistik . Oldenbourg, 5 . Aufl . BGMSDGRF, E . (2002) . Deskriptive Statistik . J . Eul, Lohmar, 11 . Aufl . BOMSDORF, E ., DYCKERHOFF, R ., MOSLER, K . and SCHMID, F . (2006a) .
Klausurtraining Statistik . Band 2. Universitat zu Koln .
BOMSDORF, E ., GROHN, E ., MOSLER, K . and SCHMID, F . (2006b) . Defi-
nitionen, Formeln and Tabellen zur Statistik . Universitat zu Koln, 5 . Aufl .
BOMSDORF, E ., GROHN, E ., MOSLER, K . and SCHMID, F . (2006c) . Klau-
surtraining Statistik . Band 1 . Universitat zu Koln, 4 . Aufl .
BOSCH, K . (1998) . Statistik-Taschenbuch . Oldenbourg, Miinchen, 3 . Aufl . BUCHWALD, W . (2004) . Vom Preisindex fur die Lebenshaltung zum Verbraucherpreisindex . Wirtschaft and Statistik 1, 11-18 .
BURKSCHAT, M ., CRAMER, E . and KAMPS, U . (2004) . Beschreibende Sta-
tistik - Grundlegende Methoden . Springer, Berlin . 243
244
LITERATURVERZEICHNIS
CHLUMSKY, J . and EHLING, M . (1997) . Grundzuge des kiunftigen Konzepts der Wirtschaftsrechnungen der privaten Haushalte . Wirtschaft and Stati-
stik 7, 455-461 .
COWELL, F . (1995) . Measuring Inequality. Prentice Hall, London, 2 . Aufl . CRAMER, E ., CRAMER, K ., KAMPS, U . and ZUCKSCHWERDT, C . (2004) . Beschreibende Statistik - Interaktive Grafiken . Springer, Berlin . DIALEKT-PROJEKT (2002) . Springer, Berlin .
Statistik interaktiv. Deskriptive Statistik .
ECKEY, H .-F ., KOSFELD, R . and DREGER, C . (2002) . Statistik, Grundlagen - Methoden - Beispiele . Gabler, 3 . Aufl . ECKEY, H .-F ., KOSFELD, R . and DREGER, C . (2004) . Okonometrie. Gabler, Wiesbaden, 2 . Aufl . ECKEY, H .-F ., KOSFELD, R . and TURCK, M . (2005) . Deskriptive Statistik. Gabler, Wiesbaden, 4 . Aufl . EGNER, U . (2003) . Umstellung des Verbraucherindex auf Basis 2000 . Wirt-
schaft and Statistik 10, 423-432 .
ELBEL, G . (1999) . Die Berechnung der Wagungsschemata fur die Preisindizes fur die Lebenshaltung . Wirtschaft and Statistik 1999, 171-178 . EUROSTAT (2004) . Hamonisierte Verbraucherpreisindizes (HVPI) . Emn kurzer Leitfaden fur Datennutzer. Amt fur amtliche Veroffentlichungen der Europaischen Gemeinschaften, Luxemburg . FAHRMEIR, L ., KUNSTLER, R ., PIGEOT, I . and TUTZ, G . (2003) . Statistik - Der Weg zur Datenanalyse . Springer, Berlin, 4 . Aufl . FAHRMEIR, L ., KUNSTLER, R ., PIGEOT, I ., TUTZ, G ., CAPUTO, A . and LANG, S . (2004) . Arbeitsbuch Statistik. Springer, Berlin, 4 . Aufl . FERSCHL, F . (1985) . Deskriptive Statistik . Physica, Wiurzburg, 3 . Aufl . FISHER, I . (1922) . The Making of Index Numbers : A Study of Their Varieties, Tests and Reliability . Houghton Muffin, New York . HAFNER, R . and WALDL, H . (2001) . Statistik flit Sozial- and Wirtschaftswissenschaftler, Bd.2, Arbeitsbuch fur SPSS and Microsoft Excel . SpringerVerlag, Wien . HARDLE, W ., LEHMANN, H . and RONZ, B . (2001) . MM* Stat . Eine interaktive Einfi hrung in die Welt der Statistik . Springer, Berlin .
LITERATURVERZEICHNIS
245
HARTUNG, J . and HEINE, B . (1999) . Statistik-Ubungen, Deskriptive Statistik . Oldenbourg, Munchen, 6 . Aufi . HEILER, S . (1995) . Zur Glattung saisonaler Zeitreihen . In H . Rinne, B . Ruger and H . Strecker, Hrsg ., Grundlagen der Statistik and ihre Anwendungen, Festschrift fur Kurt Weichselberger . Physica, Heidelberg . HEILER, S . and MICHELS, P . (2004) . Deskriptive and explorative Datenanalyse . Oldenbourg, Munchen, 2 . Aufl . KAISER, J . (1998) . Budgets ausgewahlter privater Haushalte 1997 . schaft and Statistik 8, 680-688 .
Wirt-
KAISER, J . (2000) . Die Statistik der laufenden Wirtschaftsrechnungen in neu konzipierter Form . Wirtschaft and Statistik 10, 773-781 . KRAMER, W . (2001) . Statistik verstehen . Eine Gebrauchsanweisung . Campus Verlag, Frankfurt, 3 . Aufl . KRUG, W ., NOURNEY, M . and SCHMIDT, J . (2001) . Wirtschafts- and Sozialstatistik : Gewinnung von Daten . Oldenbourg, Munchen, 6 . Aufl . KUHNEN, C . (1998) . Das Stichprobenverfahren der Einkommens- and Verbrauchsstichprobe . Wirtschaft and Statistik 1, 111-115 . KuNZ, D . (1987) . Praktische Wirtschaftsstatistik . Kohlhammer, Stuttgart . LAMBERT, P . (2002) . The Distribution and Redistribution of Income . Manchester University Press, Manchester, 3 . Aufl . LAUx, G . (1983) . Ausbau der Konzentrationsstatistiken im Produzierenden Gewerbe . Wirtschaft and Statistik 1983, 385-395 . LINZ, S . and ECKERT, G . (2002) . Zur Einfuhrung hedonischer Methoden in die Preisstatistik . Wirtschaft and Statistik 10, 857-863 . LIPPE, P . VON DER (1996) . Wirtschaftsstatistik . Amtliche Statistik and Volkswirtschaftliche Gesamtrechnungen . Lucius & Lucius, Stuttgart, 5 . Aufl . LIPPE, P . VON DER (2001) . Chain Indices . A Study in Price Index Theory. Metzler-Poeschel, Stuttgart . LIPPE, P . VON DER (2006) . Deskriptive Statistik . Formeln, Aufgaben, Klau-
surtraining. Oldenbourg, Munchen, 7 . Aufl .
LoHNINGER, H . (2001) . Teach/Me Datenanalyse . Springer, Berlin . LOTZE, S . and BREIHOLZ, H . (2002a) .
Zum neuen Erhebungsdesign des Mikrozensus - Teil 1 . Wirtschaft and Statistik 10, 359-366 .
246
LITERATURVERZEICHNIS
LoTZE, S . and BREIHOLZ, H . (2002b) . Zum neuen Erhebungsdesign des Mikrozensus - Teil 2 . Wirtschaft and Statistik 11, 454-459 . MITTAG, H .-J . and STEMANN, D . (2004) . Statistik . Beschreibende Statistik and Explorative Datenanalyse : Interaktive Multimedia-Lernsoftware . Hanser, 5 . Aufl . MONKA, M . and Aufl .
Voss, W . (2005) . Statistik am PC . Hanser, Munchen, 4 .
MoNOPOLKOMMISSION (Verschiedene Jahre) . Hauptgutachten . Nomos-Verlagsgesellschaft, Baden-Baden . MOSLER, K . and SCHMID, F . (2006) . Wahrscheinlichkeitsrechnung and schliefTende Statistik. Springer, Berlin, 2 . Aufl . MUNNICH, M . (2000) . Einkommens- and Geldvermogensverteilung privater Haushalte in Deutschland - Teil 1 . Wirtschaft and Statistik 679-691 . MUNNICH, M . (2001) . Einkommens- and Geldvermogensverteilung privater Haushalte in Deutschland - Teil 2 . Wirtschaft and Statistik . NEUBAUER, W . (1996) . Preisstatistik. Vahlen, Munchen . PFLAUMER, P ., HEINE, B . and HARTUNG, J . (2005) . Statistik fur Wirtschafts- and Sozialwissenschaften : Deskriptive Statistik . Oldenbourg, Munchen, 3 . Aufl . PIESCH, W . (1975) . Statistische Konzentrationsmaffe . J .C .B . Mohr (Paul Siebeck), Tubingen . PINNEKAMP, H .-J . and SIEGMANN, F . (2001) . Deskriptive Statistik. Oldenbourg, Munchen, 4 . Aufl . POLASEK, W . (1994) . EDA - Explorative Datenanalyse . Springer, Berlin, 2 . Aufl . RIEDE, T . (1997) . 40 Jahre Mikrozensus . Wirtschaft and Statistik 3, 160174 . RINNE, H . (1996) . Wirtschafts- and Bevdlkerungsstatistik : Erlduterungen, Erhebungen, Ergebnisse . Oldenbourg, Munchen, 2 . Aufl . RINNE, H . and SPECHT, K . (2002) . Zeitreihen. Vahlen, Munchen . RRZN (1999a) . Excel 97. Einfuhrung in die Benutzung enter Windows 95/NT. Rechenzentrum Hannover, 6 . Aufl . RRZN (1999b) . Excel 97 fur Fortgeschrittene . Excel 97 enter Windows 95 and Windows NT. Rechenzentrum Hannover, 5 . Aufl .
247
LITERATURVERZEICHNIS
E . and MUNNICH, R . (2001) . Mathematische Statistik fur Okonomen . Lernprogramm . Vahlen, Munchen .
SCHAICH,
E . and schaftsstatistik.
SCHAICH, SCHIRA,
Praxis .
SCHWEITZER, W . Vahlen, Munchen,
(1999) . Ausgewahlte Methoden der Wirt2 . Aufi .
J . (2005) . Statistische Methoden der VWL and BWL - Theorie and Pearson, Munchen, 2 . Aufl .
SCHLITTGEN, chen .
R . (2001) . Angewandte Zeitreihenanalyse .
SCHLITTGEN, 10 . Aufl .
R . (2003) . Einfuhrung in die Statistik.
SCHLITTGEN,
R . (2005) . Das Statistiklabor.
SCHLITTGEN, R . and STREITBERG, B . bourg, Munchen, 9 . Aufl . SCHULZE, Aufl .
P.
M.
Oldenbourg, Munchen,
Springer, Berlin .
(2001) . Zeitreihenanalyse .
(2003) . Beschreibende Statistik.
SCHWARZE, J . (2005) . Grundlagen NWB, Herne, 10 . Aufl .
Oldenbourg, Mun-
Olden-
Oldenbourg, Munchen,
5.
der Statistik I, Beschreibende Verfahren .
STATISTISCHES BUNDESAMT, Hrsg . (1997) . statistik . Metzler-Poeschel, Stuttgart .
Das Arbeitsgebiet der Bundes-
STOCK, G . and OPFERMANN, R . (2000) . Neue Wege zur Verbesserung der Konzentrationsbeobachtung im Rahmen der amtlichen Wirtschaftsstatistik . Wirtschaft and Statistik 2000, 485-490 . STROHL, G . (2001) . Die Neuberechnung von Verbrauchergeldparitaten im Rahmen des Internationalen Vergleichs der Preise fur die Lebenshaltung .
Wirtschaft and Statistik 2001, 730-749 .
H ., FIEGER, A . and KASTNER, C . (2004) . Deskriptive Statistik . Eine Einfuhrung mit Ubungsaufgaben and Beispielen mit SPSS . Springer, Berlin, 4 . Aufl .
TOUTENBURG,
J . W . (1977) . Exploratory Data Analysis .
Addison-Wesley, Reading
VOGEL, F . and GRUNEWALD, W . (1996) . Kleines und Sozialstatistik. Oldenbourg, Munchen .
Lexikon der Bevolkerungs-
TUKEY, MA .
Voss, W . (2003) . Taschenbuch der Statistik . WINNER, ZWERENZ,
Fachbuchverlag Leipzig,
P . (1997) . Empirische Wirtschaftsforschung . K . (2001) . Statistik verstehen mit Excel .
2.
Aufl .
Springer, Berlin .
Oldenbourg, Munchen .
Index c -getrimmtes Mittel, 37 absolute Skala, 12 Abschneideauswahl, 16 affin-linear, 35, 44 Aggregation, 133 aquidistante Zeiten, 118 Aquivarianz afHne, 39 monotone, 32 Skalen-, 49 arithmetisches Mittel, 34 Ausreifler, 2, 37, 38, 45, 46, 62, 63, 232
deskriptive Regression erster Art, 183 zweiter Art, 187 Determinationskoeffizient , 185 Dezil, 32 Dimensionswechselprobe, 139 Disparitat, 77 gleichmaEig geringere, 91 Disparitatsindex, 91 Doppelsumme, 237 durchschnittliche Zuwachsrate, 122 durchschnittlicher Zuwachsfaktor, 121 Durchschnittsrange, 178
Basiszeit, 125, 127 bedingte Verteilung, 156 bedingtes arithmetisches Mittel, 160 Beobachtungseinheit, 2 Berichtszeit, 125
egalitare Verteilung, 81 Einkommens- and Verbrauchsstichprobe, 18 empirische Verteilungsfunktion, 29, 56 Europaische Verbraucherpreisindizes, 144 EUROSTAT, 144 Exponentialfunktion, 239
Bestandsmasse, 8 Bestandsveranderung, 8
BestimmtheitsmaE, 52, 185, 191, 192, 194 Bestimmtheitsprobe, 140 Bewegungsmasse, 8 Beziehungszahl, 114 Bindungen, 178 Boxplot, 33 Daten, 13 primarstatistisch, 14 sekundarstatistisch, 14 Datenmatrix, 14 Datenvektor, 14 deskriptiv unabhangig, 158, 164
exponentielles Glatten, 226
fachliche Zentralisierung, 19 Faktorumkehrprobe, 139 Folge arithmetische, 237 geometrische, 237 geometrisches Mittel, 40 getrimmtes Mittel, 37 gewichtetes Mittel, 37 Gini-Koeffizient, 92
Ginis mittlere Different, 46 249
250
INDEX
gleitender Durchschnitt, 215, 219 allgemein, 219 einfach, 219 zweifacher, 220 Gliederungszahl, 113 Grundgesamtheit, 7
Konzentrationsrate, 80 Kopfsteuer, 96 Korrelationskoeffizient, 171 Kovarianz, 168 Kreisdiagramm, 27
Identitatsprobe, 139 Indexzahlen, 126 Intervallskala, 12
Ma]lzahl, 2 Median, 32, 38 Mengenindex Typ Fisher, 131 Typ Laspeyres, 130 Typ Paasche, 130 Mengenschema, 127 Merkmal, 8 binar, 11 diskret, 10 extensiv, 13 haufbar, 13 intensiv, 13 kontinuierlich, 10 nicht haufbar, 13 qualitativ, 11 quantitativ, 11 quasistetig, 10 stetig, 10 Merkmalsanteil, 79 Merkmalsauspragung, 8 Merkmalstrager, 7 Merkmalswert, 11
Lags-Invariant, 49 Lagemafl, 38 harmonisches Mittel, 68 harmonisierter Verbraucherpreisindex, Langsschnittsdaten, 15 laufende Wirtschaftsrechnungen, 18, 143 141 Haufigkeit lineare Einfachregression, 187 absolute, 25 lineare Mehrfachregression, 187 bedingte relative, 156 lineare Regression, 187 gemeinsame absolute, 153 linearer Filter, 219 gemeinsame relative, 155 Logarithmus, 241, 242 relative, 25 logarithmus naturalis, 241 Haufigkeitstabelle, 26, 154 Lorenzkurve, 89 Haufigkeitsverteilung, 14 Lorenzkurvenordnung,91 Herfindahl-Index, 87
Kerndichteschatzer, 56 Klassenhaufigkeit absolute, 166 relative, 166 Klassierung diskrete, 26, 165 stetige, 52, 165 Komponentenmodell, 202 additives, 204 multiplikatives, 204 Kontingenzkoeffizient, 180 Kontingenztabelle, 154 Kontingenztafel, 154 Konzentration, 78 absolute, 79 gleichmaf3ig hohere, 83 horizontals, 87 relative, 79 Konzentrationsindex, 85 Konzentrationskurve, 80
Messskala, 11
251
INDEX
Messzahl, 118 Methode der kleinsten Quadrate, 187 metrisch skaliert, 13 Mikrozensus, 15 mittlere absolute Abweichung vom Median, 46 Modus, 27, 38 monoton wachsend, 29 nichtzentrierte Summanden, 43 Nominalskala, 11 Nonsens-Korrelation, 175 Normalgleichungen, 188 Nullerganzung, 106 Operationalisierung, 9 Ordinalskala, 11 Paneldaten, 15 Perzentil, 32 Phasendurchschnittsverfahren, 221 Potent allgemeine, 242 Potenzmittel, 42 Preisindex Typ Fisher, 129 Typ Laspeyres, 126 Typ Paasche, 127 Preisindex fur die Lebenshaltung, 140 Prinzip der Anonymitat, 106 Prinzip der egalisierenden Transfers, 106 Prinzip der Legalisierung, 19 Prinzip der Skaleninvarianz, 106 Produktzeichen, 238 Prognose, 210, 212, 225 Proportionalitatsprobe, 139 Proportionalsteuer, 96 Prozentpunkt, 31 Quantil, 31 Quantilfunktion, 32 Quartil, 32, 33 Quartilabstand, 46
Quartilschiefe, 62 Querschnittsdaten, 15 Quintil, 32 Quotenauswahl, 16 Randhaufigkeit absolute, 154 eindimensionale, 163 relative, 155, 164 zweidimensionale, 163 Randverteilung, 156 Rang, 175 Rangkorrelationskoffizienten, 176 Rangzahl, 175 Ratioskala, 12 rechtsstetig, 29 regionale Dezentralisierung, 19 Regressand, 183 Regression, 183 Regressionsgerade, 189 Regressionskoeffizienten, 187, 189 Regressor, 183 Replikation der Daten, 106 Residualvarianz, 192 Residuen, 187 Robustheit, 37, 38, 45, 46, 63 Rosenbluth-Index, 85 Rundprobe, 139 Saisonbereinigung, 222 Saisonfigur, 220 Saisonkomponente, 221 Sattigungsniveau, 230 Saulendiagramm, 27 Schachteldiagramm, 33 Scheinkorrelation, 174 Schiefe, 61 schlieEende Statistik, 4 Skala, 11 Skalen-Aquivarianz, 49 Skalenhierarchie, 13 Spannweite, 46 Stabdiagramm, 27 Standardabweichung, 42
252 c -getrimmte, 45 Standardisierung von Dates, 45 Statistik amtliche, 19 nichtamtliche, 19 statistische Einheit, 7 statistische Inferenz, 4 statistische Masse, 8 statistisches Urmaterial, 13 Steuerfunktion, 96 Steuertarif, 96 Streudiagramm, 152 Streuung, 42, 59 Streuungsmafl, 49 relatives, 94 Subindizes, 133 Summenzeichen, 235 symmetrische Verteilung, 60 Teilerhebung, 15 Trend, 202 exponentieller, 211, 230 linearer, 206, 230 logistischer, 230 mit Sattigungsniveau, 230 Treppenfunktion, 29 Trimmen, 37 Umbasierung, 119 Ungleichheit, 77 unkorreliert, 173 Untersuchungseinheit, 7, 153 Urliste, 13 Variable abhangige, 183 unabhangige, 183 Variables, 151 Variant, 42, 161 a-getrimmte, 45 bedingte, 161 externe,51 interne, 51 Varianzzerlegungssatz, 192
INDEX
Variationskoeffizient, 94 Verbrauchergeldparitaten, 145 Verbraucherpreisindex, 140 Verhaltnisskala, 12 Verhaltniszahl, 113 Verkettungsproblem, 119 Verschiebungssatz, 44 Verteilungsfunktion, 29 Volkszahlung, 15 Vollerhebung, 15 Wachstum,marginales, 229 Wachstumsfaktor, 121 Wachstumsrate, 121 konstante stetige, 229 stetige, 229, 242 Wagungsschema, 127 Warenkorb, 125 Wertindex, 131 Zeit, 118 Zeitpunkt, 118 Zeitraum, 118 Zeitreihe, 15, 118 Zeitreihendaten, 15 Zeitumkehrprobe, 139 zentrierte Summanden, 43 Zentrierung von Dates, 45 Zufallsauswahl geschichtete, 16 refine, 16 Zusammenhang vollstandig gegenlaufiger, 178 vollstandig gleichgerichteter, 177 Zuwachsfaktor, 120 Zuwachsrate, 120