Christel Weiß Basiswissen Medizinische Statistik
Christel Weiß
Basiswissen Medizinische Statistik 5., überarbeitete Auflage Mit 36 Abbildungen, 14 Tabellen und 6 Übersichten
Dr. Christel Weiß, Dipl.-Math. Universitätsklinikum Mannheim Medizinische Fakultät der Universität Heidelberg Medizinische Statistik Ludolf-Krehl-Str. 7–11 68135 Mannheim
Prof. Dr. Berthold Rzany, M. Sc. Division of Evidence Based Medicine (dEBM) Klinik für Dermatologie, Venerologie und Allergologie Charité – Universitätsmedizin Berlin Campus Charité Mitte Charitéplatz 1 10117 Berlin
ISBN 978-3-642-11336-9 Springer Medizin Verlag Heidelberg Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Springer Medizin Verlag springer.de © Springer Medizin Verlag Heidelberg 1999, 2002, 2005, 2008, 2010 Produkthaftung: Für Angaben über Dosierungsanweisungen und Applikationsformen kann vom Verlag keine Gewähr übernommen werden. Derartige Angaben müssen vom jeweiligen Anwender im Einzelfall anhand anderer Literaturstellen auf ihre Richtigkeit überprüft werden. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Planung: Christine Trotta, Heidelberg Projektmanagement: Axel Treiber, Heidelberg Umschlaggestaltung & Design: deblik Berlin Titelbild: unorganisation/fotolia.com Satz: Reproduktionsfertige Autorenvorlage Druck- und Bindearbeiten: Stürtz, Würzburg SPIN 12831982 Gedruckt auf säurefreiem Papier
15/2117 – 5 4 3 2 1 0
V Vorwort
Vorwort zur fünften Auflage Es gibt keine gute Medizin ohne Biostatistik. Dieser Satz wird möglicherweise bei manchen Medizinstudenten auf Unverständnis stoßen. Warum sollte sich ein Arzt mit Biostatistik befassen, und warum ist dieses Fach Teil der ärztlichen Ausbildung? Die Antwort ist einfach: Medizinische Forschung ist ohne Statistik nicht möglich. Ärztliches Handeln muss auf Wissen basieren. Ansonsten verfallen wir Zufällen und Halbwahrheiten, die auch dadurch nicht besser werden, dass sie mantrahaft wiederholt werden. Dies wäre unter ethischen, medizinischen und ökonomischen Aspekten nicht vertretbar. Ist Biostatistik unattraktiv? Keineswegs! Viele Mediziner finden dieses Fach sogar faszinierend. Erst eine statistische Analyse ermöglicht es, Daten zu strukturieren, Zusammenhänge aufzudecken und abzusichern, Ergebnisse zu interpretieren und die daraus resultierenden Erkenntnisse in die Praxis umzusetzen. Jeder Arzt, der wissenschaftliche Publikationen liest oder selbst erstellt, weiß dies. Den meisten Studenten wird dies spätestens beim Schreiben ihrer Doktorarbeit bewusst. Der schlechte Ruf, der diesem Fach vorauseilt, ist dadurch begründet, dass statistische Methoden auf mathematischen Formeln basieren, die für manche ein Gräuel sind. Als Anwender muss man diese Formeln jedoch nicht herleiten können oder gar auswendig lernen (zumal die Berechnungen üblicherweise von einer Software durchgeführt werden). Man sollte vielmehr verstehen, wie statistische Methoden sinnvoll in der Medizin angewandt werden. Jedem, der diesem Fachgebiet unbefangen begegnet, erschließen sich äußerst interessante Anwendungsmöglichkeiten. Ziel dieses Buches ist es, Studenten und interessierten Ärzten einen kompetenten Überblick über die wichtigsten statistischen Anwendungen in der Medizin zu geben. Darüber hinaus gewährt dieses Buch einen umfassenden Überblick über klinische und epidemiologische Studien. Es ist nicht nur Studenten bei deren Klausur- und Examensvorbereitungen nützlich, sondern auch als Nachschlagekompendium geeignet. Einige Abschnitte behandeln Themen, die über die Anforderungen des Basiswissens hinausgehen. Diese sind mit dem Symbol gekennzeichnet. Falls erforderlich, werden Hinweise auf weiterführende Literatur gegeben; diese sind in eckige Klammern gesetzt.
VI
Vorwort
Für die fünfte Auflage wurde der gesamte Text überarbeitet, aktualisiert und an einigen Stellen ergänzt. Das bewährte didaktische Konzept wurde beibehalten: Alle Methoden werden verständlich dargestellt und anhand von einfachen Beispielen erläutert. Die mathematischen Formeln werden nicht nur aufgelistet, sondern auch – soweit dies mit schulmathematischen Kenntnissen möglich ist – hergeleitet. Diese Abhandlungen sind jedoch nicht in den laufenden Text eingebettet. Der Leser kann bei Interesse die Formeln nachvollziehen; für das grundsätzliche Verständnis des Stoffes ist dies jedoch nicht erforderlich. Viele haben zum Gelingen dieses Buches beigetragen. Ganz besonders herzlich danke ich Herrn Prof. Dr. med. Berthold Rzany, Sc. M. (Master of Science in Clinical Epidemiology) für seine konstruktive Hilfe. Ohne ihn hätte das Buch in der vorliegenden Form nicht erscheinen können. Er war als Mediziner und Epidemiologe bereits Coautor der ersten vier Auflagen und hat sein Wissen und seine Erfahrungen auch bei der fünften Auflage einfließen lassen. Ferner bedanke ich mich bei meiner Mitarbeiterin Frau Sylvia Büttner (Med. Dokumentarin). Sie hat sich in bewährter Weise und mit großer Sorgfalt um das Layout gekümmert, die graphischen Darstellungen erstellt und das gesamte Manuskript gelesen. Herr Univ.-Prof. Dr. Günther Hasibeder (Technische Universität Wien, Institut für diskrete Mathematik und Geometrie) und Herr Jürgen Lüthje (ErichSaling Institut für Perinatale Medizin, Berlin) haben mir als aufmerksame Leser äußerst wertvolle Ratschläge zukommen lassen. Auch ihnen sei herzlich gedankt! Ferner danke ich Frau Christine Trotta und Herrn Axel Treiber vom Springer-Verlag für ihre große Geduld und die hervorragende Zusammenarbeit. Nicht zuletzt danke ich meinen Töchtern Judith und Miriam für ihre emotionale Unterstützung. Weitere Informationen, Zusammenfassungen, Multiple-Choice-Aufgaben und ein Statistik-Lexikon findet man im Internet unter www.lehrbuch-medizin.de und www.ma.uni-heidelberg/inst/biom. Selbstverständlich freue ich mich über Anregungen und konstruktive Kritik an
[email protected]. Christel Weiß
Mannheim, im März 2010
9,,
± ± ±KHXWH VHLWH1RYHPEHU
$ELWXU 6WXGLXPGHU0DWKHPDWLNXQG3K\VLNDQGHU -RKDQQHV*XWHQEHUJ8QLYHUVLWlW0DLQ] :LVVHQVFKDIWOLFKH0LWDUEHLWHULQDQGHU$EWHLOXQJ IU([SHULPHQWHOOH&KLUXUJLHDQGHU8QLYHUVLWlW +HLGHOEHUJ 3URPRWLRQ]XP'RFWRUVFLHQWLDUXPKXPDQDUXP $QHUNHQQXQJDOV0HGL]LQLVFKHU,QIRUPDWLNHU GXUFKGLH*0'6 0DWKHPDWLNHULQDP8QLYHUVLWlWVNOLQLNXP0DQQKHLP /HLWHULQGHU$EWHLOXQJIU0HGL]LQLVFKH6WDWLVWLN %XFKDXWRULQ&RDXWRULQ]DKOUHLFKHUZLVVHQVFKDIWOLFKHU 3DSHUVXQGVWDWLVWLVFKH)DFKJXWDFKWHULQGHU=HLWVFKULIW Ä1RWIDOOXQG5HWWXQJVPHGL]LQ³
XI Inhaltsverzeichnis
Inhaltsverzeichnis Teil I:
Deskriptive Statistik
1 1.1 1.2 1.3 1.4 1.5
Einleitung Die Bedeutung der Statistik für die Medizin 3 Zur Geschichte der medizinischen Statistik 4 Der Status der medizinischen Statistik 11 Die Phasen einer medizinischen Studie 13 Anwendungen in Beruf und Studium 15
2 2.1 2.2 2.3 2.4 2.5
Theoretische Grundlagen Grundgesamtheit und Stichprobe 19 Die Aufgaben der deskriptiven Statistik 20 Merkmale 21 Besondere Problematiken 29 Listen und Tabellen 32
3 3.1 3.2 3.3
Häufigkeiten Absolute und relative Häufigkeiten 39 Summenhäufigkeiten 46 2-dimensionale Häufigkeiten 48
4 4.1 4.2 4.3 4.4 4.5
Die Beschreibung eines Merkmals Die Methoden der univariaten Statistik 55 Lagemaße 55 Streuungsmaße 63 Formmaße 68 Der Vergleich mehrerer Stichproben 71
5 5.1 5.2 5.3 5.4
Die Beschreibung eines Zusammenhangs Die Methoden der bivariaten Statistik 79 Die Korrelationsanalyse 80 Die Regressionsanalyse 88 Weitere Techniken 94
XII
Inhaltsverzeichnis
Teil II:
Wahrscheinlichkeitsrechung
6 6.1 6.2 6.3 6.4
Grundlagen der Wahrscheinlichkeitsrechnung Die Aufgaben der Wahrscheinlichkeitsrechnung 101 Das Rechnen mit Wahrscheinlichkeiten 102 Zufallsvariable 112 Sätze der Wahrscheinlichkeitsrechnung 118
7 7.1 7.2 7.3 7.4
Verteilungen Diskrete Verteilungen 125 Die Normalverteilung 136 Die Verteilung von Überlebenszeiten 146 Prüfverteilungen 151
Teil III:
Induktive Statistik
8 8.1 8.2 8.3 8.4
Schätzverfahren Grundlagen 159 Punktschätzungen 159 Intervallschätzungen 163 Abschließende Bemerkungen 170
9 9.1 9.2 9.3
Das Prinzip eines statistischen Tests Die Durchführung eines Tests 177 Testentscheidung und Konsequenzen 183 Klassifikation der Testmethoden 190
10 10.1 10.2 10.3 10.4
Lagetests t-Tests 197 Rangsummentests 205 Vorzeichentests 211 Ausblick auf komplexere Methoden 213
11 11.1 11.2
Tests zum Vergleich von Häufigkeiten 2 Chi -Tests 219 Andere Testverfahren 233
XIII Inhaltsverzeichnis
Teil IV: Epidemiologie (Coautor: Prof. Dr. Berthold Rzany, Sc. M., Master of Science in Clinical Epidemiology) 12 12.1 12.2 12.3 12.4 12.5 12.6
Epidemiologische Studien Aufgaben und Ziele der Epidemiologie 241 Der Inhalt epidemiologischer Studien 242 Studiendesigns 243 Epidemiologische Maßzahlen 248 Fehlerquellen 254 Die Studienplanung 258
13 13.1 13.2 13.3 13.4 13.5
Risikostudien Einleitung 265 Deskriptive Studien 268 Fall-Kontroll-Studien 270 Kohortenstudien 275 Der Nachweis einer Kausalität 281
14 14.1 14.2
Studien zu Diagnostik und Prävention Diagnosestudien 287 Präventionsstudien 297
15 15.1 15.2 15.3
Studien zu Therapie und Prognose Therapiestudien 305 Prognosestudien 317 Evidenzbasierte Medizin 322
Anhang Tabellen 329 Glossar Englisch-Deutsch 336 Abkürzungen – Abbreviations 340 Weiterführende Literatur 341 Nützliche Internet-Adressen 342 Sach- und Personenregister 345
XIV
Inhaltsverzeichnis
Übersicht 1: Übersicht 2: Übersicht 3: Übersicht 4: Übersicht 5: Übersicht 6:
Die Skalenniveaus 36 Univariate Datenbeschreibung – geeignete Maßzahlen und graphische Darstellungen 75 Diskrete Verteilungen 156 Stetige Verteilungen 156 Statistische Tests 192 Studientypen 262
1
Einleitung 1.1
Die Bedeutung der Statistik für die Medizin 3
1.2
Zur Geschichte der medizinischen Statistik 4
1.2.1
Die historische Entwicklung der Statistik 5
1.2.2
Die Methodik in der medizinischen Wissenschaft 6
1.2.3
Anwendungen der Statistik in der Medizin 8
1.3
Der Status der medizinischen Statistik 11
1.4
Die Phasen einer medizinischen Studie 13
1.5
Anwendungen in Beruf und Studium 15
3 1.1 Die Bedeutung der Statistik für die Medizin
1.1
Die Bedeutung der Statistik für die Medizin
Jeder medizinische Wissenschaftler und jeder praktisch tätige Arzt weiß aus Erfahrung, dass alle Erkenntnisse und Entscheidungen in der Medizin mit einer gewissen Unsicherheit verbunden sind. In diesem Punkt unterscheiden sich die Biowissenschaften grundlegend von den exakten Naturwissenschaften: Während die Zusammenhänge in der Mathematik oder der theoretischen Physik determiniert und damit berechenbar sind (etwa aufgrund einer mathematischen Gleichung oder eines physikalischen Gesetzes), unterliegen die Zustände und Vorgänge bei biologischen Systemen nicht nur naturwissenschaftlichen Gesetzen, sondern auch dem Zufall. Aus diesem Grund lassen sich medizinisch-biologische Abläufe allenfalls abschätzen, aber niemals exakt berechnen oder vorhersagen. Im Allgemeinen sind zwar zahlreiche Faktoren bekannt, die ein bestimmtes Merkmal beeinflussen. So ist etwa das Körpergewicht eines Menschen abhängig von dessen Alter und Geschlecht; außerdem sind genetische Einflüsse, die Körpergröße, pathologische und psychische Besonderheiten sowie eine Reihe weiterer Einflussgrößen maßgebend. Es wird jedoch niemals möglich sein, alle das Körpergewicht bestimmenden Faktoren zu benennen und deren Einfluss im Einzelnen zu quantifizieren. Dazu sind die Vorgänge im menschlichen Organismus viel zu komplex und von unserem Verstand nicht mehr nachvollziehbar. Man geht deshalb davon aus, dass das Körpergewicht – wie alle anderen physiologischen Parameter – letztlich auch dem Zufall unterliegt. Ebenso kennt man bei fast allen Krankheiten diverse Faktoren, die deren Entstehen verursachen oder deren Auftreten begünstigen. So weiß man beispielsweise, dass bei Menschen, die in permanenter Anspannung leben, stark rauchen sowie unter erhöhtem Blutdruck und starkem Übergewicht leiden, die Gefahr eines Herzinfarkts besonders hoch ist, und jeder verantwortungsbewusste Arzt wird einen Risikopatienten darauf hinweisen. Dessen ungeachtet gibt es Personen, die mit all diesen Risikofaktoren steinalt werden, ohne jemals einen Herzinfarkt zu erleiden – wie zum Beispiel Winston Churchill, der an seinem 90. Geburtstag auf die Frage, wie er so alt geworden sei, geantwortet haben soll: „Smoking, drinking and – first of all – no sports“. Andererseits bietet eine vermeintlich gesunde Lebensweise, die alle bekannten Risikofaktoren ausschließt, keinen zuverlässigen Schutz vor dieser Krankheit. Schließlich ist auch hier der Zufall mitentscheidend. Aus diesem Grund kann bei keinem Menschen
1
4
1
Kapitel 1 · Einleitung
präzise vorhergesagt werden, ob eine bestimmte Krankheit im Laufe seines Lebens eintreten wird oder nicht. In Einzelfällen kann der Zufall zu extremen Werten oder zu unerwarteten Ereignissen führen. Deshalb erlebt jeder Mediziner hin und wieder Überraschungen – angenehmer oder unangenehmer Art. Dies gilt für den Wissenschaftler, dessen Forschungsergebnisse stets eine gewisse Irrtumswahrscheinlichkeit beinhalten, ebenso wie für den behandelnden Arzt, der den Verlauf einer Krankheit nicht vorhersehen kann und niemals mit absoluter Sicherheit weiß, ob eine therapeutische Maßnahme den gewünschten Erfolg erzielen wird. Die Statistik als die Wissenschaft des Zufalls stellt nun Methoden zur Verfügung, die es ermöglichen, trotz der Unberechenbarkeit der Einzelfälle allgemein gültige Aussagen herzuleiten. Diese bilden die Basis für jede neue wissenschaftliche Erkenntnis und jedes daraus abgeleitete ärztliche Handeln. Wann immer ein Arzt eine Entscheidung zu treffen hat, wird er sich an seiner eigenen Erfahrung sowie an diesen allgemeinen Grundsätzen orientieren. Dieses Vorgehen garantiert zwar nicht, dass eine Entscheidung in jedem Fall richtig ist und zum gewünschten Ergebnis führt. Sie ist aber nachvollziehbar, und das Risiko einer Fehlentscheidung ist minimiert. Der Zufall wird bei dieser Vorgehensweise nicht eliminiert, aber quantifiziert und damit kontrollierbar gemacht. Neues Wissen in der Medizin kann nur unter Anwendung statistischer Methoden gewonnen werden. Auch wenn persönliche Erfahrungen nach wie vor eine wichtige Säule des ärztlichen Entscheidungsprozesses darstellen, sind die Kenntnis biometrischer Methoden und die Fähigkeit, deren Resultate sinnvoll zu interpretieren, unabdingbar. Insofern ist Statistik für die Medizin unentbehrlich, sowohl um Forschung zu betreiben als auch, um deren Ergebnisse praktisch anzuwenden.
1.2
Zur Geschichte der medizinischen Statistik
Die Medizin ist eine Jahrtausende alte Wissenschaft. Dennoch ist es erst in den vergangenen Jahrzehnten üblich geworden, neue Erkenntnisse in der medizinischen Forschung mit statistischen Methoden abzusichern. Um diesen erstaunlich langen Prozess nachvollziehen zu können, ist es notwendig, sich mit der historischen Entwicklung der Statistik zu befassen und außerdem einige Aspekte der Medizingeschichte zu beleuchten.
5 1.2 Zur Geschichte der medizinischen Statistik
1.2.1 Die historische Entwicklung der Statistik x Anfänge. Das primäre Anwendungsgebiet der Statistik bestand ur sprünglich in der Staatsbeschreibung. Bereits im 4. Buch Mose mit dem Namen „Numeri“ wird eine Volkszählung erwähnt; ferner sind aus dem Altertum Volkszählungen aus Ägypten und Griechenland bekannt. Dabei ging es hauptsächlich um die Beschreibung geographischer, politischer und wirtschaftlicher Besonderheiten, wie sie heute noch im Statistischen Jahrbuch der Bundesrepublik Deutschland veröffentlicht werden. Aus den Methoden der Staatsbeschreibung entwickelte sich die beschreibende oder deskriptive Statistik, deren Aufgabe darin besteht, Zustände und Vorgänge übersichtlich darzustellen. Bis heute werden Methoden der deskriptiven Statistik in vielen Bereichen der Wirtschaft, der Verwaltung, des Versicherungswesens und bei der Volkszählung angewandt, wo statistische Erhebungen als Grundlage für Planungen dienen. Sehr lange Zeit – bis ins 18. Jahrhundert hinein – wurde Statistik fast ausschließlich für staatliche Zwecke benutzt. Dies erklärt dieselbe etymologische Wurzel der Wörter „Statistik“ und „Staat“ (vom lateinischen Wort „status“ = Zustand, Beschaffenheit). Der Begriff „Statistik“ wurde vom Göttinger Staatswissenschaftler Gottfried Achenwall (1719-1772) eingeführt. x 16. - 19. Jahrhundert. Ein anderes Anwendungsgebiet der Statis tik ergab sich zu Beginn des 16. Jahrhunderts in England, als man begann, Strukturen und Entwicklungen der Bevölkerung quantitativ zu beschreiben. Auf Veranlassung des Lordkanzlers Thomas Cromwell (1485-1540) wurden alle Geburts- und Todesfälle systematisch in Kirchenbüchern aufgezeichnet. Dies veranlasste John Graunt (1620-1674) dazu, basierend auf Londoner Geburts- und Sterberegistern Gesetzmäßigkeiten bezüglich der Bevölkerungsbewegung herzuleiten. Graunt gilt als der Begründer der Demographie; sein Werk bildete später die Grundlage für die Berechnung von Lebensversicherungen. Kurze Zeit danach widerlegte der englische Arzt und Schriftsteller John Arbuthnot (1667-1735) die These, dass Mädchen- und Knabengeburten gleich häufig seien, indem er Daten aus Kirchenbüchern auswertete. Auch in Deutschland wurden seit dem Ende des 17. Jahrhunderts Kirchenbücher geführt. Das bahnbrechende Werk der deutschen Bevölkerungsstatistik mit dem Titel „Die göttliche Ordnung in den Veränderungen des menschlichen Geschlechts“ wurde von dem preußischen Feldprediger Johann Peter Süßmilch (1707-1767) erstellt. Diese Art von Statistik, die dazu
1
6
1
Kapitel 1 · Einleitung
diente, Bevölkerungsentwicklungen quantitativ zu beschreiben, bezeichnete man als politische Arithmetik. Daneben gab es eine Anwendergruppe mit gänzlich anderen Interessen: Ihnen ging es darum, die Gewinnchancen bei Glücksspielen zu berechnen. Dadurch wurden Mathematiker wie Galileo Galilei (1564-1642), Blaise Pascal (1623-1662), Christiaan Huygens (1629-1695) und Pierre Simon Marquis de Laplace (1749-1827) zur Berechnung von bestimmten Wahrscheinlichkeiten und zu theoretischen Abhandlungen angeregt. Sie haben damit die Wahrscheinlichkeitsrechnung wesentlich bereichert. In diesem Zusammenhang ist auch der deutsche Mathematiker Carl Friedrich Gauß (1777-1855) zu nennen, der u. a. die Normalverteilung und deren Bedeutung für die angewandte Statistik beschrieben hat. Die Fundamente moderner Wahrscheinlichkeitsrechnung wurden vom russischen Mathematiker Andrej Kolmogoroff (1903-1987) gelegt. x Moderne Statistik. Die Wahrscheinlichkeitsrechnung ist die Grundlage der induktiven Statistik, die es ermöglicht, aufgrund einer relativ kleinen Stichprobe Aussagen bezüglich einer weitaus größeren Grundgesamtheit herzuleiten. Diese Methoden wurden erst ab dem 20. Jahrhundert entwickelt. Besonders hervorzuheben sind dabei William Sealy Gosset (1876-1937), der die t-Verteilung herleitete, Karl Pearson (1857-1936), der die Korrelations- und Regressionsanalysen vorantrieb, Sir Ronald Aylmer Fisher (1890-1962), auf den die Varianzanalyse zurückgeht, und David Cox (geboren 1924), der sich mit der Modellierung von Überlebenszeiten befasste. Diese Entwicklungen haben entscheidend dazu beigetragen, dass die Statistik in den Bio- und Sozialwissenschaften breite Anwendung gefunden hat. 1.2.2 Die Methodik in der medizinischen Wissenschaft Die Medizin als eine Wissenschaft, deren Zweck darin besteht, kranken Menschen zu helfen, ist so alt wie die Menschheit selbst. Als eine moderne Wissenschaft im heutigen Sinne kann sie jedoch erst seit dem 19. Jahrhundert aufgefasst werden. x Antike. Über eine sehr lange Zeit – von der Antike bis ins 19. Jahrhundert hinein – konnten Beobachtungen am kranken Menschen fast ausschließlich durch unmittelbare Sinneseindrücke des behandelnden Arztes erfasst werden. Diese Beobachtungen waren naturgemäß subjektiv und die daraus gezogenen Schlussfolgerungen häufig spekulativ. Generell gab es zwei unterschiedliche Ansätze be-
7 1.2 Zur Geschichte der medizinischen Statistik
züglich der Wahl einer geeigneten Therapie: den theoretischen und den empirischen. Der Theoretiker suchte nach den Krankheitsursachen und leitete dann durch logisch-konsequente Schlussfolgerungen eine seiner Meinung nach nützliche Therapie her. Diese dogmatische Methode basierte auf unverrückbaren, nie zuvor überprüften Grundannahmen, die generell nicht in Frage gestellt wurden. Dagegen gründete der Empiriker seine Entscheidung auf persönliche Erfahrungen und überprüfte in jedem Einzelfall, ob sie sinnvoll war. Allerdings waren die dadurch gewonnenen Erkenntnisse ungeregelt, da sie lediglich auf einzelnen, zufälligen Beobachtungen beruhten. Die Autoritäten der beiden griechischen Ärzte Hippokrates von Kos (ca. 460-370 v. Chr.) und Galen von Pergamon (129-199) führten dazu, dass der theoretische Ansatz bis ins 16. Jahrhundert allgemein anerkannt war. Wegen der Autoritätsgläubigkeit jener Zeit wagte es niemand, sich kritisch damit auseinander zu setzen. Eine moderne Wissenschaft im heutigen Sinne konnte auf diese Weise freilich nicht entstehen. x Renaissance. Der Ursprung für die Wissenschaftlichkeit der Medizin lag in der Renaissance. Ein herausragender Wissenschaftler jener Epoche war Galileo Galilei, der weniger durch seine Einzelleistungen auf den Gebieten der Mathematik, Physik und Astronomie Bedeutung erlangte als vielmehr dadurch, dass er die moderne Naturwissenschaft auf objektiven Beobachtungen und nachvollziehbaren Experimenten aufbaute. Naturvorgänge wurden fortan nicht mehr theologisch oder philosophisch erklärt, sondern aus Naturgesetzen hergeleitet. Diese neue Methode begründete eine rasante Entwicklung der Physik und der Chemie, was später auch die Medizin nachhaltig beeinflussen sollte. Nach der Einführung naturwissenschaftlicher Methoden in die Medizin wurden subjektive Sinneseindrücke durch objektive Messwerte ersetzt, die sich mathematisch analysieren lassen. Erkenntnisse, die man auf diese Weise erhält, sind nachvollziehbar und bilden die Grundlage für weitere Forschungen. Die Fortschritte in den Naturwissenschaften haben sich in vielfacher Hinsicht segensreich auf die Medizin ausgewirkt. Sie führten zu einem umfangreichen Wissen bezüglich der Vorgänge im menschlichen Körper und damit zu einem besseren Verständnis der Körperfunktionen beim gesunden und beim kranken Menschen. Basierend auf naturwissenschaftlichen Erkenntnissen wurden technische Apparate entwickelt, die eine exakte Messung von physiologischen Parametern erlaubten und im Laufe der Zeit ungeahnte Möglichkeiten in Diagnostik und Therapie eröffneten.
1
8
1
Kapitel 1 · Einleitung
x Aufklärung. Man erkannte allmählich, dass sich alle medizini schen Phänomene theoretisch auf naturwissenschaftliche Gesetze zurückführen lassen. Im 17. Jahrhundert dachten deshalb einige Ärzte euphorisch, dass man bald in der Lage sein werde, die Ursachen aller Krankheiten zu ergründen und wirksame Therapien zu entwickeln. Es setzte sich dann jedoch – beginnend im 18. Jahrhundert zur Zeit der Aufklärung in England – die Erkenntnis durch, dass physikalisches und chemisches Grundwissen dafür bei weitem nicht ausreicht. So besann man sich auf eine Methode zur Erkenntnisgewinnung, die bereits ein Jahrhundert zuvor von dem englischen Philosophen Francis Bacon (1561-1626) propagiert worden war. Sie beinhaltete die Beobachtung zahlreicher Einzelfälle, die lückenlose Aufzeichnung der erhobenen Daten und deren rechnerische Auswertung. Dieser Ansatz vermittelte objektive Erkenntnisse, die jedoch vom Zufall beeinflusst waren. Er bedeutete einen Wandel von einem ehemals theoretisch-dogmatischen hin zu einem empirischen Ansatz. So begann allmählich die Statistik, Einzug in die Medizin zu halten. Statistische Methoden ermöglichen es, Erfahrungen abzusichern – auch dann, wenn Wirkmechanismen (noch) nicht auf molekularer oder zellulärer Ebene erklärt werden können. x 20. Jahrhundert. Es sollte allerdings noch bis weit ins 20. Jahr hundert dauern, ehe statistische Methoden in den Biowissenschaften akzeptiert wurden. Dies lag nicht zuletzt daran, dass allgemein anerkannte Richtlinien bezüglich der medizinischen Forschung am Menschen fehlten. Diese wurden erst im Jahre 1964 auf der 18. Generalversammlung des Weltärztebundes in Helsinki erarbeitet und seither mehrfach revidiert (die letzte Version wurde 2008 in Seoul verabschiedet). Heute herrscht weitgehend Konsens darüber, dass – außer der Anwendung naturwissenschaftlicher Erkenntnisse – die Beobachtung von Individuen und die damit verbundene Datenanalyse für die medizinische Forschung unverzichtbar sind. 1.2.3 Anwendungen der Statistik in der Medizin x Wurzeln in England. Der Forderung Bacons, zahlreiche Einzel fälle zu beobachten und auszuwerten, stand zunächst entgegen, dass sich die Medizin bis ins 18. Jahrhundert hinein traditionellerweise nur mit einzelnen Patienten befasste. Bacons neuer Erfahrungsbegriff war grundlegend dafür, dass fortan klinische Studien durchgeführt und die daraus erhobenen Daten analysiert wurden. Er kam zunächst in England, wenn auch zögerlich, zur Anwendung. Vor diesem Hintergrund ist es nicht erstaunlich, dass die ersten medizi-
9 1.2 Zur Geschichte der medizinischen Statistik
nischen Publikationen mit statistischen Analysen in England erschienen. Edward Jenner (1749-1823) verifizierte statistisch die prophylaktische Wirkung der Kuhpockenimpfung. Der Rechtsanwalt Edwin Chadwick (1800-1890) beschrieb die Gesundheit der arbeitenden Klassen in England und gab damit der Hygienebewegung wichtige Impulse. Seine Daten gründeten sich auf statistische Analysen von William Farr (1807-1883), der Berichte über Todesursachen in England publiziert hatte. John Snow (1813-1858) entdeckte, dass das Cholera-Risiko in London mit der Qualität des Trinkwassers zusammenhing. Seine Forschungsarbeiten zählen zu den ersten und spektakulärsten Leistungen auf dem Gebiet der Epidemiologie. Freilich waren die damals verwendeten statistischen Verfahren nicht zu vergleichen mit den heute gebräuchlichen. Es handelte sich überwiegend um einfache arithmetische Operationen. Dennoch war diese Vorgehensweise geeignet, die Medizin grundlegend zu reformieren und in ihrer Methodik den Naturwissenschaften anzupassen. Pionierarbeit auf diesem Gebiet leistete der bereits erwähnte Sir Ronald Aylmer Fisher, der sich u. a. intensiv mit den Themen „Versuchsplanung und -auswertung“ befasste. x Auswirkungen auf Europa. Im 18. Jahrhundert entstanden in einigen europäischen Städten wie z. B. in Paris oder Wien Krankenhäuser, die die Beobachtung größerer Kollektive ermöglichten. Als der Begründer der klinischen Statistik gilt Pierre Charles Alexandre Louis (1787-1872), der eine naturwissenschaftlich orientierte Medizin vertrat. Er überprüfte die Wirkung des Aderlasses und wies – nachdem diese Methode Jahrhunderte lang angewandt worden war – mittels statistischer Analysen nach, dass dieses Mittel nutzlos oder gar schädlich war. Ignaz Philipp Semmelweis (1818-1865) war der erste bekannte Mediziner im deutschsprachigen Raum, der den Nutzen einer neuen Therapie mit statistischen Methoden belegte. Semmelweis war seit 1846 Assistent an der Geburtsklinik des Wiener Allgemeinen Krankenhauses, die aus zwei Abteilungen bestand. Die Mortalitätsraten der Wöchnerinnen differierten sehr stark: Zwischen 1841 und 1846 starben in der einen Abteilung durchschnittlich 9,9%, in der anderen dagegen nur 3,4% der Frauen. In der Abteilung mit der geringeren Mortalitätsrate arbeiteten nur Hebammen. In der anderen Abteilung waren Ärzte und Studenten, die auch Leichen sezierten, als Geburtshelfer tätig. Die Mortalitätsrate in der Abteilung der Ärzte war großen Schwankungen unterworfen. Semmelweis beobachtete, dass sie immer dann besonders hoch war, wenn viele pathologische Studien durchgeführt wurden. In Zeiten allerdings, in denen keine Leichen seziert wurden, waren die Morta-
1
10
1
Kapitel 1 · Einleitung
litätsraten in beiden Abteilungen etwa gleich. Dieser Zusammenhang war für Semmelweis zunächst nicht erklärbar. Das ausschlaggebende Moment für seine Entdeckung war der Tod seines Freundes und Kollegen Jakob Kolletschka, der sich beim Sezieren mit dem Messer verletzt hatte. Semmelweis erkannte beim Studium des Sektionsprotokolls die Parallelität der beiden Krankheitsbilder des Kindbettfiebers und des Wundfiebers. Dies veranlasste ihn zu der Vermutung, dass die Ärzte und Studenten aus der pathologischen Abteilung den gebärenden Frauen „Leichenteilchen“ übertrugen, die das Kindbettfieber verursachten. Dies war in der damaligen Zeit, als bakteriologische Erreger noch unbekannt waren, eine sehr gewagte Hypothese. Semmelweis setzte gegen den Widerstand seiner Kollegen hygienische Maßnahmen durch; die Sterblichkeit sank daraufhin drastisch auf unter 2% in beiden Abteilungen. Im Jahr 1861 veröffentlichte er seine Entdeckung in einer ausführlichen Arbeit, die auch eine statistische Analyse beinhaltete. Obwohl Semmelweis seine Hypothese eindrucksvoll bestätigen konnte, wurden seine aus heutiger Sicht bahnbrechenden Erkenntnisse zu seinen Lebzeiten nicht anerkannt. Etwas später, im Jahre 1865, stellte der Augustinermönch Gregor Johann Mendel (18221884) seine Vererbungsgesetze vor, die er nach einer langen und mühsamen Forschungsarbeit ebenfalls mit statistischen Methoden verifiziert hatte. Auch diese Erkenntnisse fanden zunächst keine große Beachtung. x Entwicklung in Deutschland. Die in England, Paris oder Wien durchgeführten Studien nahmen deutsche Ärzte kaum zur Kenntnis. Es gab Kommunikationsprobleme, die nicht nur sprachlicher Art waren. Dies lag u. a. am damals herrschenden Zeitgeist. Deutschland stand unter dem Einfluss der romantischen Naturphilosophie, bei der das Individuum im Vordergrund stand. Ein Vertreter dieser Denkrichtung war der Begründer der Homöopathie Christian Friedrich Samuel Hahnemann (1755-1843). Eine bevölkerungsbezogene und naturwissenschaftlich orientierte Medizin sowie die Anwendung statistischer Methoden konnten sich bei dieser Grundeinstellung kaum durchsetzen. Außerdem war man bis zur Mitte des 19. Jahrhunderts gewohnt, dass Wissenschaftler den deterministischen Verlauf eines Geschehens angeben konnten. Man forderte Gewissheit und nicht Unsicherheit. Semmelweis konnte jedoch im Einzelfall nicht vorhersagen, ob eine Frau die Geburt überleben würde; er konnte nur gewisse Wahrscheinlichkeiten angeben. Diese fundamentale Eigenschaft der Statistik – sie erlaubt keine gesicherten Aussagen bezüglich eines Einzelfalls, sondern nur für eine große
11 1.3 Der Status der medizinischen Statistik
Menge von Personen oder Objekten – wird auch heute noch von vielen Anwendern emotional als Nachteil anstatt als nüchterne Tatsache angesehen. Im Übrigen lässt sich das Phänomen, wonach neue Methoden zunächst sehr skeptisch beurteilt werden, bis in die heutige Zeit hinein beobachten. x 20. Jahrhundert. Aus all diesen Gründen hat sich die Anwendung der Statistik in der Medizin lange verzögert. Ein weiterer Grund für die mangelnde Akzeptanz lag in der Statistik selbst. Erst im 20. Jahrhundert wurden Methoden entwickelt, mit denen sich anhand einer relativ kleinen Stichprobe allgemein gültige Zusammenhänge nachweisen lassen. Diese Methoden haben der medizinischen Wissenschaft enorme Impulse verliehen. Dem Internisten Paul Martini (1889-1964) sowie den Biostatistikern Arthur Linder (1904-1993) und Erna Weber (1897-1988), deren Bücher lange Zeit als Standardwerke galten, ist es zu verdanken, dass die von England ausgehenden Ideen auch im deutschen Sprachgebiet bekannt und praktisch umgesetzt wurden. Nicht zuletzt hat das Aufkommen leistungsfähiger Computer und benutzerfreundlicher Software seit Beginn der 1980er Jahre zu einer enormen Vereinfachung und Beschleunigung statistischer Berechnungen geführt. Auch diese neuere Entwicklung hat entscheidend zur Akzeptanz der Statistik in der Medizin beigetragen. Seit den 1990er Jahren werden zunehmend multiple Methoden entwickelt, bei denen mehrere Einflussgrößen simultan untersucht werden, und die eine sehr effiziente Datenanalyse ermöglichen. Diese werden in einer Biomathematik-Vorlesung, die Grundlagen vermitteln soll, normalerweise nicht detailliert behandelt. Interessierte Leser seien auf weiterführende Literatur verwiesen [1, 2, 3, 6, 11].
1.3
Der Status der medizinischen Statistik
x Medizinische Statistik oder Biostatistik. Sie hat sich mittlerweile als ein eigenständiges, interdisziplinäres Fachgebiet etabliert, das statistische Probleme behandelt, die sich aus medizinischen Fragestellungen ergeben. Im weiteren Sinne zählen dazu die Planung und Durchführung von klinischen und epidemiologischen Studien sowie die Datenanalyse mit statistischen Methoden. Die medizinische Statistik ist einerseits Teilgebiet der Biomathematik, andererseits gehört sie zur Stochastik. In engem Zusammenhang dazu steht die Biometrie. Dieser Wissenschaftszweig befasst sich mit der mathema-
1
12
1
Kapitel 1 · Einleitung
tischen Modellierung von zufallsabhängigen Phänomenen in der Medizin, der Pharmazie, der Biologie und der Landwirtschaft. ! Während der Begriff „Biometrie“ einerseits als Synonym für Biostatistik z
verstanden wird, bezieht er sich andererseits in der Informatik auf die Verarbeitung individueller körperlicher Merkmale wie etwa dem Fingerabdruck zum Identitätsnachweis. Auf diese spezielle Bedeutung wird in diesem Buch nicht eingegangen.
x Biomathematik. Dieses Fach behandelt die Theorie und Anwen dung mathematischer Methoden im Bereich der Biowissenschaften. Sie beinhaltet außer der Statistik noch weitere mathematische Disziplinen (u. a. Differentialgleichungen, mit denen Wachstumsprozesse beschrieben werden). x Stochastik. Dieser Sammelbegriff umfasst den gesamten Wissen schaftsbereich, der sich mit der mathematischen Behandlung von Zufallserscheinungen befasst. Teilgebiete der Stochastik sind die Statistik und die Wahrscheinlichkeitsrechnung. x Statistik. Im allgemeinen Sinne versteht man darunter eine Me thode, mit der Daten analysiert werden, um so zu neuen Erkenntnissen zu gelangen. Man unterscheidet generell zwischen deskriptiver und induktiver Statistik. Während in der deskriptiven Statistik Daten strukturiert, zusammengefasst, übersichtlich dargestellt und mit statistischen Kenngrößen beschrieben werden, ermöglicht die induktive Statistik den Schluss über den Beobachtungsbereich hinaus auf die darüber liegende Grundgesamtheit. Mit den Methoden der induktiven Statistik lassen sich Hypothesen, die vor Studienbeginn aufgestellt werden, überprüfen und statistisch absichern. Seit den 1970er Jahren hat sich eine weitere Form der Datenanalyse herauskristallisiert: die explorative Statistik. Deren Ziel besteht darin, in einem umfangreichem Datenmaterial Auffälligkeiten und Hinweise auf mögliche Zusammenhänge zu entdecken und darauf basierend neue Hypothesen zu generieren. Diese Technik ist sinnvoll, wenn kein oder nur ein geringes Wissen über mögliche Zusammenhänge besteht. Im Wesentlichen werden dazu dieselben Methoden wie bei der deskriptiven und der induktiven Statistik verwendet. Die generierten Hypothesen sollten dann im Rahmen einer nachfolgenden Studie überprüft und empirisch begründet werden. x Wahrscheinlichkeitsrechnung. Sie befasst sich mit der mathematischen Analyse von Zufallsexperimenten sowie den mathematisch-theoretischen Gesetzmäßigkeiten, auf denen die Verfahren der induktiven Statistik basieren.
13 1.4 Die Phasen einer medizinischen Studie
Die Tatsache, dass statistische Verfahren mittlerweile in ganz unterschiedlichen Disziplinen wie beispielsweise Volkszählung, Meinungsforschung, Spieltheorie, Meteorologie, Versicherungswesen, Psychologie und Medizin angewandt werden, unterstreicht die Bedeutung dieses Faches.
1.4
Die Phasen einer medizinischen Studie
Die Medizin ist eine empirische Wissenschaft, deren Erkenntnisse auf Erfahrungen basieren. Ein Forschungsprozess beginnt in der Regel damit, dass ein Wissenschaftler, nachdem er hinreichend viele Erfahrungen gesammelt hat, nach längerem Nachdenken oder aufgrund einer genialen Idee einen Zusammenhang entdeckt, der bis dahin noch unbekannt gewesen ist. Diese neue Erkenntnis ist allerdings zunächst nur eine vage Vermutung. Um sie zu verifizieren, muss eine wissenschaftliche Studie durchgeführt werden. Diese lässt › Abbildung 1.1, S. 14): sich grob in vier Phasen einteilen (z x Erkundungsphase. Zu Beginn der Studie sollte sich der Forscher anhand von relevanter Literatur über den aktuellen Wissensstand kundig machen und eventuell mit kompetenten Fachleuten darüber diskutieren, ob die geplante Studie sinnvoll und notwendig ist. x Theoretische Phase. Danach wird er seine Vermutung als Hypo these formulieren und versuchen, diese in eine logisch konsistente Theorie einzubetten. Damit ist die Hypothese theoretisch abgesichert und herleitbar. Diese Art wissenschaftlicher Methodik – das Herleiten einer neuen Hypothese aus einer bekannten Theorie – nennt man deduktiv. Streng deduktiv arbeitet man fast nur in der reinen Mathematik. Neue mathematische Sätze werden aus bekannten Theorien hergeleitet; weitergehende Studien oder Experimente sind dazu nicht notwendig. Da jedoch eine Theorie in der Medizin niemals vollständig sein kann und deshalb die Realität nicht in allen Details hinreichend genau beschreibt, muss die zu verifizierende Hypothese empirisch bestätigt werden. x Analytisch-statistische Phase. Diese beinhaltet eine detaillierte Planung sowie die Datenerhebung und Datenauswertung mit statistischen Methoden. Bei retrospektiven Studien sind die Daten in der Regel bereits dokumentiert und müssen nur noch in passender Weise aufbereitet werden.
1
14
1
Kapitel 1 · Einleitung
Erkundungsphase - Literaturstudium, Diskussion mit Fachleuten etc. _ Theoretische Phase - Formulierung einer Hypothese, Einbetten in eine Theorie _ Analytisch-statistische Phase - Planung, Datenerhebung, -beschreibung und -analyse _ Interpretation der Ergebnisse - Entscheidung für oder gegen die Hypothese Abb. 1.1 Die Phasen einer medizinischen Studie
Bei prospektiven Beobachtungsstudien oder experimentellen Studien werden die Daten im Laufe der Studie gesammelt und dokumentiert und erst danach analysiert. x Interpretation der Ergebnisse. Wenn die Ergebnisse der statisti schen Analyse die Theorie bestätigen, wird man sich für die Richtigkeit der daraus abgeleiteten Hypothese entscheiden. Diese ist damit zwar nicht bewiesen im mathematischen Sinne, aber doch wesentlich besser abgesichert als vor der statistischen Analyse. Eine falsche Entscheidung ist hierbei nicht ausgeschlossen – dieses Risiko ist jedoch kalkulierbar. Falls das Ergebnis der Datenanalyse mit der Theorie nicht in Einklang zu bringen ist, muss überprüft werden, ob die Theorie einen Fehler enthält, oder ob die analytisch-statistische Phase nicht optimal verlaufen ist. Eventuell kann eine Wiederholung der Studie in modifizierter Form in Erwägung gezogen werden. Die Methode, wonach vom Besonderen (nämlich der Stichprobe) auf das Allgemeine (die Grundgesamtheit) geschlossen wird, nennt man induktiv. Dieses Verfahren wurde aus den Naturwissenschaften übernommen. Auch bei naturwissenschaftlichen Experimenten werden – ähnlich wie bei medizinischen Studien – Daten erhoben und ausgewertet, um funktionale Zusammenhänge zu erkennen und diese dann zu allgemein gültigen Naturgesetzen zu erklären. Allerdings unterscheiden sich naturwissenschaftliche Experimente in einem wichtigen Punkt von medizinischen Untersuchungen. In den Naturwissenschaften arbeitet man unter kontrollierten Bedingungen im Labor; der Zufall spielt dabei keine oder allenfalls
15 1.5 Anwendungen in Beruf und Studium
eine untergeordnete Rolle. Dagegen hat man es in der Medizin mit Individuen zu tun, bei denen die potentiellen Einflussgrößen wegen ihrer Vielzahl und Komplexität kaum kontrollierbar sind. Aus diesem Grund müssen sich alle Wissenschaftler, die menschliche Eigenschaften untersuchen – seien es Mediziner, Psychologen, Soziologen oder Politologen –, mit dem Zufall und mit Statistik auseinander setzen.
1.5
Anwendungen in Beruf und Studium
Die meisten medizinischen Publikationen (Artikel in Fachzeitschriften, Dissertationen und Habilitationen) beinhalten die Ergebnisse statistischer Analysen. Ausnahmen bilden allenfalls Publikationen in Fächern wie Geschichte oder Ethik der Medizin sowie Einzelfalldarstellungen, bei denen nur ein einziger oder einige wenige, besonders interessante Fälle beschrieben werden. Diese liefern möglicherweise Hinweise auf andere, ähnlich gelagerte Fälle. Sie lassen jedoch im Gegensatz zu einer Stichprobenuntersuchung keine Verallgemeinerungen zu. Alle Mediziner, die forschen und publizieren, benötigen statistische Methoden, um Untersuchungen durchzuführen, deren Ergebnisse darzustellen, zu verallgemeinern und schließlich ihren Wert für die medizinische Praxis oder Wissenschaft zu beurteilen. Die Statistik ist dabei eine unentbehrliche Hilfswissenschaft – ähnlich wie die Mathematik in der Physik. Auch ein praktisch tätiger Arzt betreibt Statistik – wenn auch nicht in formalisierter Form, sondern eher auf intuitive Art und Weise. Wenn er etwa einen Laborwert danach bewertet, ob er innerhalb oder außerhalb des Normbereichs liegt, wenn er aufgrund eines diagnostischen Tests zu beurteilen versucht, ob eine bestimmte Krankheit vorliegt oder ausgeschlossen werden kann, wenn er aufgrund vorhandener Symptome eine Diagnose stellt, wenn er den zu erwartenden Nutzen und die Risiken einer Therapie gegeneinander abwägt und sich dann für oder gegen eine bestimmte Maßnahme entscheidet – dann liegen all diesen Entscheidungen, oft unbewusst, statistische Analysen zugrunde. Theoretische Kenntnisse auf diesem Gebiet lassen erkennen, dass man bei spontanen, intuitiven Entscheidungen oft einem großen Irrtum unterliegt. Sie tragen deshalb dazu bei, vorsichtig zu entscheiden und verantwortungsbewusst zu handeln. Häufig sind zwar Bauchentscheidungen richtig (was sich jedoch erst später heraus-
1
16
1
Kapitel 1 · Einleitung
stellt). Man sollte jedoch bedenken, dass diese fast immer subjektiv geprägt und meist nicht logisch nachvollziehbar sind. Deshalb kann es nicht schaden, sich auf objektive Wahrscheinlichkeiten zu stützen und diese zu berücksichtigen. Im Übrigen ist jeder Arzt – unabhängig von seinem Arbeitsgebiet – angehalten, sich permanent weiterzubilden, da sich das medizinische Wissen rasant vermehrt. Dabei benötigt er statistische Kenntnisse, um gute von schlechten Studien zu unterscheiden und um die Relevanz der dargestellten Ergebnisse für seine Patienten oder sein Labor beurteilen zu können. Nicht zuletzt schult die Biomathematik im problemorientierten, logisch-analytischen Denken. Auch diese Fähigkeiten sind für einen Arzt unentbehrlich. Insofern ist für einen Studenten der Medizin die Beschäftigung mit dem Fach „Biostatistik“ als Vorbereitung für den künftigen Beruf nützlich und sinnvoll. Im Allgemeinen ist ein Student spätestens beim Erstellen seiner Dissertation gezwungen, sich mit Statistik auseinander zu setzen. Zum einen ist dies notwendig, um relevante Fachartikel und Vorträge zu verstehen und zu bewerten; zum anderen liegt fast jeder Dissertation eine statistische Datenanalyse zugrunde. Es ist für einen Doktoranden der Medizin oder für einen in der Forschung tätigen Arzt durchaus empfehlenswert, sich dabei von einem Statistiker beraten zu lassen. Dies ist aber nur dann hilfreich, wenn er selbst zumindest über elementare, statistische Kenntnisse verfügt – so wie dieses Buch sie zu vermitteln sucht.
Zusammenfassung Kapitel 1 Deskriptive Statistik: Daten werden strukturiert, übersichtlich dargestellt und mit Kenngrößen beschrieben Induktive Statistik: ermöglicht Schluss von der Stichprobe auf die Grundgesamtheit Wahrscheinlichkeitsrechnung: befasst sich mit mathematischen Gesetzmäßigkeiten
2
Theoretische Grundlagen 2.1
Grundgesamtheit und Stichprobe 19
2.2
Die Aufgaben der deskriptiven Statistik 20
2.3
Merkmale 21
2.3.1
Grundbegriffe 21
2.3.2
Ziel- und Einflussgrößen 22
2.3.3
Klassifikation nach Skalenniveau 24
2.3.4
Diskrete und stetige Merkmale 26
2.3.5
Skalentransformationen 26
2.3.6
Merkmalsausprägungen 28
2.4
Besondere Problematiken 29
2.5
Listen und Tabellen 32
19 2.1 Grundgesamtheit und Stichprobe
2.1
2
Grundgesamtheit und Stichprobe
Die Hypothesen, die in den Bio- und Sozialwissenschaften aufgestellt werden, beziehen sich meist auf eine sehr große Anzahl von Individuen oder Objekten. Es wäre aus organisatorischen und zeitlichen Gründen viel zu aufwendig oder gar vollkommen unmöglich, die gesamte Population zu untersuchen, auf die eine Hypothese zutreffen könnte. Dies ist im Allgemeinen auch gar nicht notwendig. Die moderne Statistik stellt nämlich Methoden zur Verfügung, die es ermöglichen, basierend auf einer relativ kleinen Stichprobe allgemein gültige Aussagen bezüglich einer weitaus größeren Grundgesamtheit herzuleiten. Eine Total- oder Vollerhebung wird daher nur in Ausnahmefällen durchgeführt. Beispielsweise beruhen die Todesursachenstatistiken, die im Statistischen Jahrbuch der Bundesrepublik Deutschland veröffentlicht werden, medizinische Register oder die Ergebnisse einer politischen Wahl auf einer Vollerhebung. Meist beschränkt man sich jedoch – insbesondere in der medizinischen Forschung – auf die Untersuchung einer relativ kleinen Teilmenge, nämlich der Stichprobe, und überträgt die daraus gewonnenen Erkenntnisse auf die Grundgesamtheit. Dies ist allerdings nur unter der Voraussetzung sinnvoll, dass die charakteristischen Eigenschaften der Stichprobe – abgesehen von zufällig bedingten Abweichungen – mit denen der Grundgesamtheit übereinstimmen. Eine solche Stichprobe heißt repräsentativ. Bei vielen Untersuchungen ist man vor das Problem gestellt, aus einer konkret vorgegebenen Grundgesamtheit eine repräsentative Stichprobe zu wählen. Ein Beispiel hierfür stellt eine Umfrage vor einer politischen Wahl dar. Die Grundgesamtheit besteht in diesem Fall aus allen wahlberechtigten Bürgern. Um eine Prognose zu erstellen, beschränkt man sich auf eine Stichprobe von einigen tausend Personen. Diese Stichprobe muss repräsentativ und hinreichend groß sein, damit sie das endgültige Wahlergebnis in brauchbarer Weise widerspiegelt. Wie erhält man eine solche Stichprobe? Man sollte darauf achten, dass für jedes Mitglied der Grundgesamtheit dieselbe Chance besteht, in die Stichprobe zu gelangen und allein den Zufall darüber entscheiden lassen (z. B. mit Hilfe eines Einwohnermelderegisters). Damit erhält man eine zufällige Stichprobe, von der am ehesten anzunehmen ist, dass sie auch repräsentativ ist.
20
2
Kapitel 2 · Theoretische Grundlagen
Bei Untersuchungen in der Medizin ist die Problemstellung häufig umgekehrt: Gegeben sind eine oder mehrere konkrete Stichproben (beispielsweise Patienten, die im Rahmen einer klinischen Studie untersucht werden). Dann ist zu klären, wie die dazugehörende Grundgesamtheit beschaffen ist. Eine Antwort auf diese Frage beruht mehr auf sachlogischen als auf wahrscheinlichkeitstheoretischen Überlegungen und ist eng mit dem jeweiligen Forschungsvorhaben verknüpft. Oft ist die entsprechende Grundgesamtheit fiktiv und lässt sich gar nicht konkret angeben. Man sollte sich in jedem Fall davor hüten, allzu weit reichende Schlussfolgerungen zu ziehen, die sich hinterher als falsch herausstellen könnten.
2.2
Die Aufgaben der deskriptiven Statistik
Aus dem obigen Abschnitt geht hervor, dass bei einer Stichprobenuntersuchung die statistische Analyse aus zwei Teilen besteht. Zunächst werden die Daten der Stichprobe ausgewertet mit dem Ziel, deren charakteristische Eigenschaften zu beschreiben. Dies ist das Aufgabengebiet der deskriptiven Statistik. Dazu zählen:
ŷ das Zusammenfassen und Ordnen der Daten in Tabellen, ŷ das Erstellen von Diagrammen und ŷ das Berechnen charakteristischer Kenngrößen oder Maßzahlen
› Kapitel 4, S. 55 ff). (z. B. Mittelwert und Standardabweichung, z
Abb. 2.1 Grundgesamtheit und Stichprobe
Grundgesamtheit
Stichprobe
deskriptive Statistik
induktive Statistik
21 2.3 Merkmale
2
Wenn zwei oder mehrere Gruppen miteinander zu vergleichen sind (beispielsweise zwei Therapiegruppen bei einer klinischen Studie), sollte man zunächst für jede einzelne Stichprobe graphische Darstellungen erstellen und geeignete Kenngrößen berechnen. Damit lässt sich bereits überblicken, ob und wie sich die Stichproben unterscheiden. In einem zweiten Schritt versucht man dann, mit Methoden der induktiven Statistik die Ergebnisse, die aus den Stichproben gewonnen wurden, zu verallgemeinern und statistisch abzusichern. So gesehen, ist die deskriptive Statistik die Vorstufe zur induktiven Statistik. Beide Teilbereiche sind zur Datenanalyse notwendig und ergänzen sich.
2.3
Merkmale
2.3.1
Grundbegriffe
x Merkmalsträger. Dabei handelt es sich um die Personen oder Ob jekte der zu untersuchenden Stichprobe. In der medizinischen Forschung sind dies meist Patienten, Probanden, Versuchstiere oder Laborproben. x Beobachtungseinheiten. Das sind die kleinsten Einheiten, an de nen Beobachtungen registriert und Daten erhoben werden; bei experimentellen Untersuchungen spricht man auch von Untersuchungseinheiten. Wenn beispielsweise bei einem Patientenkollektiv beide Augen zu Beginn und am Ende einer Therapie untersucht werden, versteht man unter den Merkmalsträgern die Patienten und unter den Beobachtungseinheiten die einzelnen Augen zu einem bestimmten Untersuchungszeitpunkt. x Merkmale. Die Beobachtungseinheiten sind durch bestimmte Merkmale charakterisiert – das sind Eigenschaften, die für die zu untersuchende Fragestellung relevant sind und in die statistische Analyse einfließen. Andere Eigenschaften der Beobachtungseinheiten sind – zumindest im Rahmen der jeweiligen Studie – uninteressant. Anstelle von Merkmalen spricht man auch von Variablen oder Zufallsvariablen, insbesondere dann, wenn damit Rechnungen durchgeführt oder mathematische Gleichungen erstellt werden. x Merkmalsausprägungen. Darunter versteht man die Werte oder Ausprägungen, die ein bestimmtes Merkmal annehmen kann.
22
2
Kapitel 2 · Theoretische Grundlagen
Die Art der Merkmale ist entscheidend für die Planung und Durchführung einer Studie, insbesondere für den erforderlichen Stichprobenumfang und die geeigneten Analysemethoden. Deshalb sind zu Beginn der Planungsphase die zu erfassenden Merkmale genau festzulegen und deren Eigenschaften zu spezifizieren. Merkmale lassen sich nach verschiedenen Aspekten klassifizieren:
ŷ nach ihrer Funktion bei der statistischen Analyse (z› Abschnitt 2.3.2),
ŷ nach ihrem Skalenniveau (z› Abschnitt 2.3.3, S. 24) ŷ und danach, ob sie diskret oder stetig sind (z› Abschnitt 2.3.4, S. 26). 2.3.2
Ziel- und Einflussgrößen
Die Merkmale, die in die statistische Analyse einfließen, lassen sich grob unterteilen in Ziel- und Einflussgrößen:
ŷ Zielgrößen: Der eigentliche Zweck einer Studie besteht darin, Erkenntnisse über eine oder mehrere Zielgrößen zu gewinnen. Wenn mehrere Zielgrößen untersucht werden sollen, ist es ratsam, zunächst für jede einzelne dieser Größen separate Analysen durchzuführen. ŷ Einflussgrößen: Darunter versteht man die Merkmale, die in einem funktionalen Zusammenhang mit der Zielgröße stehen. Quantitative Einflussgrößen werden oft auch als Einflussvariablen, qualitative als Faktoren bezeichnet. Das Ziel der statistischen Analyse besteht darin, den Zusammenhang mit der Zielgröße abzusichern und quantitativ zu beschreiben. Die Einflussgrößen lassen sich entsprechend ihrer Funktion bei der Datenanalyse weiter einteilen in:
ŷ Erklärende Einflussgrößen: Diese sollen dazu beitragen, Zusammenhänge zu entdecken und neue Erkenntnisse bezüglich der Zielgröße zu gewinnen. Sie ergeben sich aus der Fragestellung, die der Studie zugrunde liegt. ŷ Begleitmerkmale (Cofaktoren, Covariablen): Sie werden zwar erfasst und bei der Analyse berücksichtigt, weil sie wichtige Informationen bezüglich einer Ziel- oder Einflussgröße beinhalten und deshalb helfen können, bestimmte Zusammenhänge aufzudecken oder zu erklären. Sie sind jedoch nicht der eigentliche Untersuchungsgegenstand der Studie.
23 2.3 Merkmale
2
Darüber hinaus gibt es Störgrößen, die im Versuchsplan nicht berücksichtigt sind und daher auch nicht erfasst werden. Es gibt generell zwei Arten von Störgrößen:
ŷ Nicht verzerrende Störgrößen sind verantwortlich für die zufallsbedingte Streuung der Ergebnisse. Deren Einfluss ist zwar nicht zu vermeiden; er kann jedoch bei einer geschickten Studienplanung gering gehalten werden. ŷ Verzerrende Störgrößen (Confounder) sind gefährlicher. Ein Confounder ist ein Hintergrundmerkmal, das die Zielgröße beeinflusst. Dies kann dazu führen, dass ein Zusammenhang vorgetäuscht wird, der in Wirklichkeit nicht vorhanden oder weniger stark ausgeprägt ist. Wenn mögliche Confounder bekannt sind, sollten sie als Covariable erfasst und bei der Analyse berücksichtigt werden. Schließlich sei darauf hingewiesen, dass mit einer statistischen Analyse prinzipiell nur stochastische Zusammenhänge nachgewiesen werden können. Ob diese auch kausal bedingt sind, muss aufgrund von medizinisch-fachlichen Überlegungen erwogen werden. Beispiel 2.1: Ziel-, Einfluss- und Störgrößen Im Rahmen einer klinischen Studie werden zwei Blutdruck senkende Medikamente A und B bezüglich ihrer Wirkung verglichen. Folgende Merkmale werden erfasst: diastolischer Blutdruck vor der Studie und nach 12 Wochen, die Therapieform, das Alter und das Körpergewicht der Patienten. Welche Funktionen haben diese Merkmale? 1. Die Zielgröße (Wirkung der Therapie) wird aus der Differenz zwischen den beiden Blutdruckwerten gebildet. 2. Der erklärende Faktor ist die Therapieform. Dies ergibt sich aus der Fragestellung, die der Studie zugrunde liegt. 3. Da das Alter und das Körpergewicht bekanntermaßen den Blutdruck beeinflussen, werden diese Größe als Begleitvariable erfasst und analysiert. 4. Zu den (nicht verzerrenden) Störgrößen zählen die genetische Veranlagung, psychische Belastungen etc. – also Merkmale, die ebenfalls den Blutdruck beeinflussen und die beide Gruppen gleichermaßen betreffen, aber nicht explizit erfasst werden. 5. Merkmale, bezüglich derer sich die beiden Gruppen unterscheiden, stellen möglicherweise Confounder dar. Wenn etwa die beiden Gruppen eine unterschiedliche Altersstruktur hätten, könnte dies (falls das Alter bei der Analyse unberücksichtigt bliebe) die Ergebnisse der Studie verzerren und zu falschen Schlussfolgerungen verleiten. Dem kann man durch › Abschnitt 12.5.3, S. 257). eine geschickte Studienplanung begegnen (z
24
2
Kapitel 2 · Theoretische Grundlagen
Abb. 2.2 Einflussgrößen und Zielgrößen
Störgrößen Faktor(en)
Begleitmerkmal(e)
Zielgröße(n)
2.3.3
Klassifikation nach Skalenniveau
Jedes Merkmal lässt sich einem bestimmten Skalenniveau zuordnen. Dieses gibt Auskunft über das Messniveau und darüber, wie die entsprechenden Daten weiterverarbeitet werden können. x Nominalskala. Sie hat das niedrigste Niveau; die Ausprägungen unterscheiden sich nur begrifflich voneinander. Beispiele stellen die Augenfarbe oder die Blutgruppe dar. Eine spezielle Form bilden die Alternativmerkmale (die auch als dichotome oder binäre Merkmale bezeichnet werden) mit nur zwei Ausprägungen. So ist etwa das Geschlecht mit den Ausprägungen „männlich“ und „weiblich“ ein Alternativmerkmal, ebenso der Rhesusfaktor mit den Ausprägungen „positiv“ und „negativ“. Auch ein Zustand, bei dem nach „pathologisch“ und „nicht pathologisch“ unterschieden wird oder Fragen, die sich mit „ja“ oder „nein“ beantworten lassen, sind als Alternativmerkmale aufzufassen. x Ordinalskala (oder Rangskala). Sie besitzt ein höheres Niveau als die Nominalskala; die Ausprägungen dieser Merkmale lassen sich in einer natürlichen Rangfolge anordnen. Ein bekanntes Beispiel bilden Zensuren mit den Ausprägungen 1 bis 6. Auch klinische Scores sind ordinal skaliert, ebenso das Merkmal „Therapieerfolg“ mit den möglichen Abstufungen „vollständig geheilt“ bis hin zu „Patient verstorben“ oder ein Krebsstadium mit den Ausprägungen I bis IV. Nominal und ordinal skalierte Merkmale werden zusammenfassend als qualitative (oder kategoriale) Merkmale bezeichnet. Es ist allgemein üblich, diese Merkmale zahlenmäßig zu codieren. So kann das Geschlecht einer Person durch die Zahlen 0 (männlich) und 1
25 2.3 Merkmale
2
(weiblich) angegeben werden; der Therapieerfolg lässt sich mit natürlichen Zahlen 0, 1, 2, ... beschreiben. Diese Zahlen haben jedoch keine rechnerische Bedeutung. Man kann zwar zwei Ausprägungen A und B eines nominalen Merkmals durch A = B oder A B miteinander in Beziehung setzen; bei einem ordinalen Merkmal lässt sich eine der Relationen A = B, A < B oder A > B angeben. Mathematische Operationen wie beispielsweise die Bildung einer Differenz oder eines Quotienten sind jedoch sinnlos. Es leuchtet ein, dass bei qualitativen Merkmalen weder der Abstand zwischen zwei Ausprägungen noch deren Verhältnis definiert ist. x Intervallskala (oder Abstandsskala). Sie hat einen höheren Infor mationsgehalt als die Ordinalskala. Die Ausprägungen unterscheiden sich zahlenmäßig. Bei diesen Merkmalen ist ein Nullpunkt festgelegt (z. B. bei der Temperatur in Celsius-Graden); daher gibt es auch negative Werte. Es ist möglich und sinnvoll, die Differenz zwischen zwei Ausprägungen A í B anzugeben. x Verhältnisskala (oder Ratioskala). Sie hat einen absoluten Null punkt; ansonsten können nur positive Messwerte auftreten. Außer der Differenz kann auch das Verhältnis A : B zwischen zwei Ausprägungen bestimmt werden (falls B 0). Intervall- oder verhältnisskalierte Merkmale werden als quantitativ oder metrisch skaliert bezeichnet. Diese Strukturen findet man vor allem im physikalisch-naturwissenschaftlichen Umfeld und damit auch in der Medizin. Beispiel 2.2: Skalenniveaus Das Merkmal „Temperatur in Celsiusgraden“ hat einen festgelegten Nullpunkt (Gefrierpunkt des Wassers) und ist deshalb intervall-, aber nicht verhältnisskaliert. Beim Vergleich der beiden Ausprägungen 20qC und 40qC lässt sich zwar der Abstand berechnen; es wäre aber unsinnig, die Werte in ein Verhältnis zu setzen und zu sagen, 40qC seien doppelt so warm wie 20qC. Viele Merkmale in der Medizin sind verhältnisskaliert: etwa das Körpergewicht, der Cholesteringehalt oder die Leukozytenanzahl pro Pl Blut. Vergleiche der Art „10.000 Leukozyten pro Pl Blut sind doppelt so viel wie 5.000“ sind bei diesen Merkmalen durchaus sinnvoll. Auch die Temperaturangabe in Kelvin-Graden kann als verhältnisskaliert aufgefasst werden.
26 2.3.4
2
Kapitel 2 · Theoretische Grundlagen
Diskrete und stetige Merkmale
x Diskrete Merkmale. Ein Merkmal heißt diskret, wenn es nur ab zählbar viele Werte annehmen kann. Alle qualitativen Merkmale sind trivialer Weise diskret. Quantitative Merkmale sind dann diskret, wenn die Merkmalsausprägungen durch einen Zählvorgang ermittelt werden. Beispiele sind die Anzahl der Schwangerschaften einer Frau oder die Anzahl richtig gelöster Klausuraufgaben in Tabelle 2.1 (S. 34 f). x Stetige Merkmale. Ein stetiges Merkmal kann dagegen alle Werte innerhalb eines bestimmten Intervalls annehmen; die Ausprägungen werden in der Regel durch einen Messvorgang ermittelt. Beispiele sind die Körpergröße oder der Blutdruck. Allerdings lässt die begrenzte Messgenauigkeit bei der Bestimmung eines stetigen Merkmals nur abzählbar viele Ausprägungen zu. So wird die Körpergröße meist in der Einheit cm in ganzen Zahlen angegeben, wobei im Einzelfall auf- oder abgerundet wird. Deshalb ist bei praktischen Untersuchungen letzten Endes jedes Merkmal diskret. Andererseits sind stetige Merkmale bei Anwendern der Statistik recht beliebt, da sie sich im Hinblick auf die Informationsgewinnung effizienter und häufig einfacher analysieren lassen als diskrete Merkmale. Statistische Analysemethoden, die ein stetiges Merkmal voraussetzen, können dann angewandt werden, wenn das relevante Merkmal innerhalb eines bestimmten Bereichs zahlreiche, fein abgestufte Ausprägungen hat (wie z. B. die Leukozytenanzahl pro Pl Blut). Insofern ist eine Unterscheidung zwischen diskreten und stetigen Merkmalen nicht nur theoretisch, sondern auch für praktische Anwendungen sinnvoll. 2.3.5
Skalentransformationen
Es ist generell möglich, ein höheres Skalenniveau auf ein niedrigeres zu transformieren. Jede Verhältnisskala ist automatisch eine Intervallskala; diese wiederum kann als eine Ordinalskala aufgefasst werden. Die Nominalskala kann grundsätzlich jedem Merkmal zugeordnet werden. Das Beispiel 2.3 (S. 27) verdeutlich, dass eine Reduktion des Skalenniveaus einerseits mit einer einfacheren Messtechnik einhergeht, andererseits einen Informationsverlust beinhaltet. Dennoch ist eine Skalentransformation bei praktischen Anwendungen zuweilen sinnvoll. Um beispielsweise bei Routineuntersuchungen den Glukosege-
27 2.3 Merkmale
2
halt im Urin zu bestimmen, ist es nicht notwendig, diesen exakt in mg zu erfassen. Stattdessen verwendet man Teststreifen mit den Ergebnissen „negativ“ und „positiv“. Im Einzelfall ist stets abzuwägen, ob es sinnvoll ist, das Skalenniveau zugunsten eines einfacheren Messverfahrens zu reduzieren. In den folgenden Kapiteln wird gezeigt, dass statistische Analysemethoden für quantitative (und insbesondere für stetige) Merkmale differenziertere Auswertungen ermöglichen als Methoden für qualitative Merkmale. Eine Skalentransformation sollte man deshalb nur dann durchführen, wenn praktische Gründe dies erfordern, und ansonsten versuchen, ein möglichst hohes Niveau beizubehalten. Wenn jedoch Zweifel bestehen, ob ein höheres Skalenniveau überhaupt angenommen werden kann, sollte man sicherheitshalber das nächst niedrigere zugrunde legen. Beispiel 2.3: Skalenreduktion Wir betrachten das Merkmal „Zigarettenkonsum eines Patienten“. Die Merkmalsart und das Skalenniveau sind abhängig von der Art, wie man dieses Merkmal erfasst: Ausprägungen Merkmalsart Skala quantitativ; Menge des pro Tag Verhältnisskala konsumierten Tabaks in Gramm stetig Anzahl der pro Tag quantitativ; Verhältnisskala gerauchten Zigaretten diskret Nichtraucher – schwacher Raucher – mäßiger Raucher – qualitativ Ordinalskala starker Raucher qualitativ; Nichtraucher – Raucher Nominalskala binär Beispiel 2.4: Wahl des Skalenniveaus Die Wahl des adäquaten Skalenniveaus ist nicht immer einfach oder unumstritten. So werden in der Regel Zensuren als quantitativ-diskrete Merkmale angesehen, und es entspricht gängiger Praxis, Durchschnittsnoten (also Mittelwerte) zu berechnen. Dies ist eigentlich nicht korrekt. Die Differenz zwischen zwei Noten ist nämlich nicht sinnvoll definiert. So ist etwa der Unterschied zwischen den Noten 4 (ausreichend) und 6 (ungenügend) keinesfalls gleichzusetzen mit dem Unterschied zwischen den Noten 2 (gut) und 4. Auch das Berechnen von Verhältnissen (etwa: Die Note 2 ist doppelt so gut wie die 4) ist nicht angebracht. Lediglich die Rangfolge der Ausprägungen 1 bis 6 ist sinnvoll. Demnach handelt es sich nur um ein ordinal skaliertes (also ein qualitatives) Merkmal.
28
Kapitel 2 · Theoretische Grundlagen
! Eine Schwierigkeit ergibt sich bei begrifflich unscharfen Bezeichnungen, z
2
die hin und wieder bei ordinal skalierten Merkmalen auftreten. Während sich die Ausprägungen eines nominalen Merkmals in der Regel eindeutig bestimmen lassen und die Werte eines quantitativen Merkmals gezählt oder gemessen werden, sind die Grenzen zwischen den Ausprägungen eines ordinal skalierten Merkmals oft unscharf. Dies kann zu ungenauen Ergebnissen oder fehlerhaften Schlussfolgerungen führen. Man sollte deshalb darauf achten, dass die Ausprägungen eines ordinal skalierten Merkmals möglichst exakt definiert und nachvollziehbar sind.
2.3.6
Merkmalsausprägungen
Nachdem zu Beginn einer Studie festgelegt worden ist, welche Merkmale erhoben und welche Skalenniveaus zugrunde gelegt werden, ist für jedes Merkmal eine Ausprägungsliste zu erstellen. Bei quantitativen Merkmalen handelt es sich dabei um die Messoder Zählwerte. Unpräzise Angaben wie etwa „ 150 cm “ oder „ t 200 cm “ beim Merkmal „Körpergröße“ sind zu vermeiden, da dadurch die Analysemöglichkeiten unnötigerweise stark eingeschränkt werden. Bei qualitativen Merkmalen sollte man darauf achten, dass die Anzahl der Ausprägungen in einem sinnvollen Verhältnis zur Stichprobengröße steht. Es ist wenig hilfreich, wenn viele Ausprägungen nur vereinzelt vorkommen, weil sich dann ein Zusammenhang mit einem anderen Merkmal nicht mehr nachweisen lässt. Aus rechentechnischen Gründen werden diese Merkmale gerne mittels Dummyvariablen codiert: Bei k Ausprägungen sind maximal k 1 Variable erforderlich, die jeweils die Werte 0 und 1 annehmen können. › Beispiel 2.5). Damit lassen sich dann alle Ausprägungen codieren (z Beispiel 2.5: Codierung mittels Dummy-Variablen Für Alternativmerkmale genügt eine Dummy-Variable mit den Ausprägungen 0 und 1 (z. B. beim Merkmal „Rhesusfaktor“: 0 = negativ, 1 = positiv). Das Merkmal „Blutgruppe“ lässt sich mit drei Dummy-Variablen A, B und AB folgendermaßen codieren: Blutgruppe A: Blutgruppe B: Blutgruppe AB: Blutgruppe 0:
A = 1, B = 0, AB = 0 A = 0, B = 1, AB = 0 A = 0, B = 0, AB = 1 A = 0, B = 0, AB = 0
29 2.4 Besondere Problematiken
2
Eine sinnvolle Ausprägungsliste ist nicht zuletzt abhängig von der konkreten Fragestellung. So ist beispielsweise für das Merkmal „Geschlecht“ eine Liste mit den Ausprägungen „männlich“ und „weiblich“ in der Regel vollständig und disjunkt. Es sind jedoch auch Situationen denkbar, in denen eine zusätzliche Ausprägung wie „intersexuell“ oder „nicht feststellbar“ erforderlich ist. Bei quantitativen Merkmalen sind das Messverfahren und die Messgenauigkeit zu berücksichtigen. Während man das Körpergewicht von Erwachsenen in der Regel in ganzzahligen kg-Werten erfasst, erscheint dies bezogen auf das Körpergewicht von Neugeborenen nicht sinnvoll.
2.4
Besondere Problematiken
Bei der Durchführung klinischer oder epidemiologischer Studien gibt es eine Reihe von Besonderheiten bezüglich der Datenanalyse: x Klinische Scores und Skalen. Quantitative Merkmale lassen sich effizienter auswerten als qualitative. Daraus resultierte die Tendenz, Sachverhalte, die eigentlich nur qualitativ beschreibbar sind, quantitativ messbar zu machen. Dies führte dazu, dass in den letzten Jahren eine Vielzahl von klinischen Scores und Skalen eingeführt wurde, mit denen komplexe Merkmale (wie etwa die Lebensqualität) quantitativ erfasst werden. Man spricht dabei etwas abfällig auch von „weichen Daten“ im Gegensatz zu „harten Daten“, die sich exakt messen lassen. Ein Beispiel stellt der Apgar-Score dar, der zur Beurteilung des Zustands Neugeborener herangezogen wird. Diesem Score liegen Einschätzungen für fünf Merkmale (Herzfrequenz, Atmung, Muskeltonus, Reflexe und Hautfarbe) zugrunde, die jeweils mit 0, 1 oder 2 Punkten bewertet werden. Die Summe ergibt dann einen Scorewert zwischen 0 und 10. Ein anderes Beispiel ist die Karnofsky-Skala, die verwendet wird, um den Allgemeinzustand eines Patienten zu beschreiben. Sie kann Werte zwischen 0 und 100 annehmen. Zur Beschreibung der Schmerzintensität dient die visuelle Analog-Skala, auf der ein Patient auf einer 10 cm langen Linie sein Schmerzempfinden markieren soll. Es liegt nahe, solche Merkmale als quantitativ anzusehen und entsprechend zu analysieren. Folgendes ist zu bedenken:
ŷ Es handelt sich bei den Score- oder Skalenwerten keineswegs um Mess- oder Zählwerte, sondern um Einschätzungen, die in gewisser Weise subjektiv sind.
30
Kapitel 2 · Theoretische Grundlagen
ŷ Zwei benachbarte Ausprägungen sind nicht unbedingt äquidis-
2
tant. So ist etwa beim Merkmal „Herzfrequenz“ des Apgar-Scores der Unterschied zwischen 0 (kein Herzschlag) und 1 (Frequenz unter 100) keineswegs gleichzusetzen mit dem Unterschied zwischen 1 und 2 (Frequenz über 100). ŷ Es erscheint sogar problematisch, zwei gleiche Ausprägungen miteinander in Beziehung zu setzen. So besagt ein Apgar-Wert von 7 lediglich, dass zwei oder drei Merkmale nicht optimal ausgeprägt sind. Das bedeutet jedoch nicht unbedingt, dass der Zustand zweier Neugeborener mit dem Apgar-Wert 7 identisch ist. Demnach handelt es sich bei diesen Scores und Skalen bestenfalls um ordinal skalierte, aber nicht um quantitative Merkmale. Dies sollte man bei der Datenanalyse und der Präsentation der Ergebnisse beachten. x Ausreißer. Dies sind extrem hohe oder extrem niedrige Werte, bei denen fraglich ist, ob sie unter denselben Bedingungen wie die anderen Werte der Datenreihe entstanden sind. Die Einstufung eines Wertes als Ausreißer muss in erster Linie inhaltlich motiviert sein. Man erkennt Ausreißer am ehesten anhand einer graphischen Darstellung. Wie soll man dann verfahren? Zunächst sollte man nachforschen, wie diese Werte entstanden sind. Möglicherweise handelt es sich um Mess- oder Dokumentationsfehler oder pathologische Besonderheiten. Fehlerhafte Werte sind von der Analyse auszuschließen. Ansonsten ist es sinnvoll, die Analysen zweimal durchzuführen: mit und ohne Ausreißer. Wenn sich die Ergebnisse ähneln, spielen die Ausreißer offenbar keine große Rolle. Wenn sie sich jedoch unterscheiden, sollte man auf statistische Verfahren zurückgreifen, die unempfindlich gegen Ausreißer sind. x Surrogatmerkmale. Manche Krankheiten können nicht direkt oder nur mit einem hohen Aufwand diagnostiziert werden. Dann behilft man sich gerne mit so genannten Surrogatmerkmalen, die eine Funktionsstörung anzeigen und die einfach zu bestimmen sind. So wird beispielsweise der Kreatinin-Wert herangezogen, um ein Nierenversagen nachzuweisen. Gegen Surrogatvariable ist nichts einzuwenden, sofern sie in engem und validiertem Zusammenhang mit der zu evaluierenden Krankheit stehen. Dies sollte man kritisch hinterfragen und beim Ziehen von Schlussfolgerungen eine gewisse Vorsicht walten lassen!
31 2.4 Besondere Problematiken
2
x Ungenaue Definitionen. Vorsicht ist geboten, wenn Zielgrößen untersucht werden, die nicht klar definiert sind. Ein Beispiel ist das Merkmal „Therapieerfolg“. Im Allgemeinen verbindet man damit etwas Positives – dennoch ist dieser Begriff per se keineswegs exakt definiert: Nicht nur eine vollständige Heilung, sondern auch eine Besserung der Symptome oder des Allgemeinzustands kann als Erfolg gewertet werden. Eine exakte Definition solcher Merkmale ist erforderlich, damit der Leser einer Publikation praxisrelevante Schlussfolgerungen ziehen und Vergleiche anstellen kann. x Falsche oder unvollständige Informationen. Häufig ist man beim Einholen von Informationen auf die Mithilfe von Patienten oder deren Angehörige angewiesen. Dabei kann es vorkommen, dass die befragten Personen falsche oder unvollständige Angaben machen – sei es unbewusst, weil sie sich nicht recht erinnern, oder absichtlich, weil sie aus Scham gewisse Dinge verschweigen. Nicht jeder Patient wird uneingeschränkt die Wahrheit sagen, wenn er nach seinem Nikotin- oder Alkoholkonsum gefragt wird. Bei manchen Studien muss man auf die mitunter mangelhafte Dokumentation in Patientenakten zurückgreifen. Es ist schwierig, derlei Datenmaterial auszuwerten. Entsprechende Vorsicht ist bei der Interpretation der Ergebnisse geboten! x Zensierte Daten. Bei Überlebenszeitstudien wird die Zeit unter sucht, die bis zum Eintreten eines bestimmten Ereignisses (etwa bis zum Tod eines Patienten) vergeht. Mehrere Gründe können dazu führen, dass sich im Einzelfall die Überlebenszeit nicht exakt feststellen lässt: Sei es, dass der Patient während der Studie ausscheidet (etwa wegen mangelnder Bereitschaft zur weiteren Teilnahme), oder dass er am Ende der Studie noch lebt (jede Studie ist zeitlich limitiert). Dann kennt man nur die Zeitspanne, die überlebt wurde – was danach geschieht, bleibt unbekannt. Solche Zeiten nennt man zensiert. Es würde zu verzerrten Ergebnissen führen, wenn man alle zensierten Daten bei der Analyse eliminieren würde. Mit speziellen Verfahren (z. B. der Kaplan-Meier-Methode der der Cox-Regression, › Abschnitte 15.2 und 15.3, S. 318 ff) ist es möglich, zensierte Daten z bei der Analyse angemessen zu berücksichtigen.
32
2.5
2
Kapitel 2 · Theoretische Grundlagen
Listen und Tabellen
x Listen. Bei jeder Studie ist darauf zu achten, dass für jede einzelne Beobachtungseinheit alle relevanten Informationen (Ort und Zeit der Untersuchungen, die untersuchten Personen, die erhobenen Daten, Besonderheiten etc.) sorgfältig in einer Liste dokumentiert werden. Falls ein Datum nicht erhoben werden kann, ist dies mit Angabe von Gründen zu vermerken. Zu einem späteren Zeitpunkt ist kaum noch nachvollziehbar, warum eine Information fehlt – ob beispielsweise nur die Dokumentation vergessen wurde (das sollte freilich nicht passieren), oder ob und warum ein Wert nicht gemessen wurde. Für die statistische Analyse und die Interpretation der Ergebnisse sind diese Informationen mitunter sehr wichtig. x Tabellen. Die für die statistische Analyse relevanten Daten wer den in einer Tabelle übersichtlich zusammengefasst. Diese stellt die Basis für alle nachfolgenden Analysemethoden und für die daraus resultierenden Erkenntnisse dar. Eine Tabelle wird üblicherweise mit einer Software (z. B. dem Tabellenkalkulationsprogramm Excel) erstellt. Sie enthält folgende Elemente:
ŷ Tabellenzeilen. Für jede Beobachtungseinheit ist eine eigene Zeile mit einer eindeutigen Identifikationsnummer in der ersten Spalte reserviert. Patientennamen oder Initialen sind – nicht zuletzt aus Datenschutzgründen – zur Identifikation ungeeignet. ŷ Tabellenspalten. Jede Spalte enthält die Daten eines bestimmten Merkmals. Angaben dazu findet man in der ersten Tabellenzeile, dem so genannten Tabellenkopf. ŷ Legende. Wenn die Tabelle Teil einer Publikation oder einer Dissertation ist, sollten weitere Informationen, die zum Verständnis notwendig sind (Abkürzungen, Maßeinheiten etc.), in der Legende oder Überschrift enthalten sein. Oft enthält eine Tabelle in der letzten Zeile oder in der letzten Spalte Randsummen (die so genannten Spalten- bzw. Zeilensummen), Mittelwerte oder Häufigkeiten. Falls es zweckmäßig erscheint, kann sie nach einem oder mehreren Merkmalen sortiert sein. Die Tabelle auf der folgenden Doppelseite enthält die Daten von acht Merkmalen, die bei 76 Studenten im ersten klinischen Semester am Universitätsklinikum Mannheim erfasst wurden. Die Daten sind sortiert nach Geschlecht, Körpergröße und Gewicht. Die Tabelle dient als Grundlage für diverse statistische Analysen, die in den folgenden Kapiteln erläutert werden.
33 2.5 Listen und Tabellen
2
Charakteristische Eigenschaften der erhobenen Merkmale und deren Zusammenhänge treten jedoch – zumindest auf den ersten Blick – anhand einer Tabelle nicht in Erscheinung. Deshalb ist es erforderlich, die Daten anschaulich graphisch darzustellen und die Merkmale quantitativ zu beschreiben. Dabei empfiehlt sich folgendes Vorgehen:
ŷ Zunächst wird jedes Merkmal einzeln – also unabhängig von den anderen und separat für jede Stichprobe – untersucht. Geeignete Methoden werden in den Kapiteln 3 und 4 (S. 39 ff) vorgestellt. ŷ Danach lassen sich einfache Zusammenhänge beschreiben. Dies wird in Kapitel 5 (S. 79 ff) erörtert. ŷ Mit Methoden der induktiven Statistik lässt sich nachweisen, ob und mit welcher Irrtumswahrscheinlichkeit die Stichprobenergebnisse verallgemeinerbar sind. Dieses Thema ist Gegenstand der Kapitel 8 bis 11 (S. 159 ff). ! Üblicherweise wird eine Tabelle mit dem Tabellenkalkulationsprogramm z
Excel, das im Office-Paket der Firma Microsoft enthalten ist, angelegt. Diese Software ist für die Datenerfassung geeignet; auch einfache statistische Berechnungen lassen sich damit durchführen. Für Analysen der induktiven Statistik empfiehlt sich jedoch ein leistungsstarkes Statistikprogrammpaket wie beispielsweise SAS oder SPSS.
34
Kapitel 2 · Theoretische Grundlagen
Tabelle 2.1. Geschlecht (m = männlich, w = weiblich), Körpergröße in cm, Gewicht in kg, Blutgruppe, Rhesusfaktor, Raucher, Einstellung zu alternativen Heilverfahren (-3 = totale Ablehnung bis +3 = uneingeschränkte Zustimmung) und die Anzahl richtig gelöster Klausuraufgaben
2
ID
Geschlecht
Größe
Gewicht
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
m m m m m m m m m m m m m m m m m m m m m w w w w w w w w w w w w w w w w
167 170 173 174 176 180 180 182 183 184 185 185 186 186 186 186 188 189 190 195 197 155 156 159 160 162 162 163 163 163 163 164 165 165 165 165 165
82 67 70 75 74 75 85 72 82 62 69 80 80 83 86 98 75 93 87 79 95 49 54 69 52 51 54 52 56 58 60 56 52 53 56 59 60
Blutgruppe A A 0 A 0 A A AB AB A B B 0 A A B B A 0 0 A 0 0 0 AB A A A 0 A 0 B B 0 0 0 A
Rhesusfaktor + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
Raucher
Einstellung
nein nein nein ja nein nein ja nein nein ja ja nein ja nein nein nein nein ja nein ja nein nein nein ja nein ja nein nein nein ja nein ja nein nein nein nein ja
-2 -2 -2 2 -2 1 -3 0 -3 -1 -3 2 1 0 1 0 0 -2 -2 0 0 2 0 2 0 2 1 -1 2 -1 2 1 -2 -1 2 0 1
Klausur 12 5 8 10 9 6 8 7 7 3 9 12 7 9 11 10 7 9 8 10 11 9 6 8 6 7 8 8 10 12 6 7 9 10 3 9 10
2
35 2.5 Listen und Tabellen
Tabelle 2.1 (Fortsetzung) ID
Geschlecht
Größe
Gewicht
38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76
w w w w w w w w w w w w w w w w w w w w w w w w w w w w w w w w w w w w w w w
165 166 166 167 168 168 168 168 168 168 169 169 170 170 170 170 170 170 171 171 172 172 173 173 174 175 175 176 176 177 177 177 178 178 179 179 180 180 182
62 63 66 55 52 57 59 62 65 67 60 61 52 58 60 62 65 70 60 78 60 67 60 65 60 53 66 63 68 61 65 78 64 65 64 72 64 65 69
Blutgruppe 0 A A A 0 0 A 0 0 0 0 AB A 0 A A A A 0 B A B 0 0 B 0 A 0 A 0 A 0 0 A 0 A A 0 A
Rhesusfaktor + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
Raucher
Einstellung
nein nein nein nein nein ja ja nein nein ja nein nein nein nein nein ja nein nein nein nein nein nein nein nein nein nein ja nein nein nein nein ja nein nein nein ja nein ja nein
2 -3 1 -2 3 2 2 1 2 2 2 2 2 0 1 -2 2 2 -3 -2 2 2 -3 -2 1 2 2 1 2 -2 2 2 3 1 3 -2 2 2 3
Klausur 8 10 5 9 8 7 9 4 10 9 9 7 2 4 12 4 11 6 9 12 5 6 9 8 10 8 9 10 7 3 12 11 11 11 7 8 11 6 9
36
Kapitel 2 · Theoretische Grundlagen
Übersicht 1: Die Skalenniveaus
2
Merkmalsart
Vergleich 2er Ausprägungen
Skalenniveau Beispiele
Hinweise
qualitativ
Nominalskala Blutgruppe, Rhesusfaktor
niedrigstes Niveau
ŷ
qualitativ
Ordinalskala (Rangskala)
Zensuren, med. Scores
Rangfolge ist definiert
ŷ
quantitativ Intervallskala (Abstandsskala)
Temperatur in CelsiusGraden
Skala mit festgelegtem Nullpunkt, Abstand ist definiert
ŷ
quantitativ Ratioskala (Verhältnisskala)
Leukozytenanzahl pro Pl Blut, Körpergröße
höchstes Niveau, Skala mit absolutem Nullpunkt, Verhältnis ist definiert
ŷ
A B oder Az B
A B oder Az B ŷA B, A ! B oder A B A B oder Az B ŷA B, A ! B oder A B ŷ d A B
A B oder Az B ŷA B, A ! B oder A B ŷ ŷ
d A B c A: B
Zusammenfassung Kapitel 2 Um geeignete Analysemethoden wählen zu können, sind vor der Datenerfassung unbedingt folgende Punkte zu klären: 1. Fragestellung (Hypothese) der Studie formulieren 2. Geeignete Ziel- und Einflussgrößen auswählen 3. Auf mögliche Confounder achten, eventuell als Covariable erfassen 4. Spezifische Eigenschaften für jedes Merkmal bestimmen (Skalenniveau, Ausprägungen)
3
Häufigkeiten 3.1
Absolute und relative Häufigkeiten 39
3.1.1
Häufigkeiten bei diskreten Merkmalen 39
3.1.2
Das Prinzip der Klassenbildung 40
3.1.3
Graphische Darstellungen 43
3.2
Summenhäufigkeiten 46
3.3
2-dimensionale Häufigkeiten 48
3.3.1
Die Kontingenztafel 48
3.3.2
Die Beschreibung einer Assoziation 50
3.3.3
Ausblick auf die induktive Statistik 51
3
39 3.1 Absolute und relative Häufigkeiten
3.1
Absolute und relative Häufigkeiten
3.1.1
Häufigkeiten bei diskreten Merkmalen
Um sich einen Überblick bezüglich wesentlicher Eigenschaften eines Merkmals anzueignen, beginnt man mit der Häufigkeitsverteilung. Diese Verteilung beschreibt, wie häufig die einzelnen Merkmalsausprägungen in der Stichprobe zu finden sind. Häufigkeiten lassen sich für jedes Merkmal und jedes Skalenniveau ermitteln. Zu den diskreten Merkmalen zählen alle qualitativen sowie die quantitativ-diskreten Merkmale. Die Anzahl der Ausprägungen ist in der Regel wesentlich kleiner als der Stichprobenumfang und somit überschaubar. So gehören beispielsweise zum qualitativen Merkmal „Blutgruppe“ die vier Ausprägungen 0, A, B und AB. Durch einfaches Abzählen lässt sich ermitteln, wie häufig die einzelnen Ausprägungen in der Stichprobe vertreten sind. Allgemein formuliert man diesen Sachverhalt folgendermaßen: Ein diskretes Merkmal A habe k verschiedene Ausprägungen A1 ,..., Ak . Die absolute Häufigkeit einer Ausprägung Ai wird mit ni bezeichnet. Der Buchstabe i ist der so genannte Laufindex, der zwischen 1 und k variiert. Die Summe aller absoluten Häufigkeiten ni entspricht der Anzahl der Beobachtungseinheiten in der Stichprobe – das ist der Stichprobenumfang n: k
¦n
n
i
(3.1)
i 1
i Bei dem Summen-Zeichen ƶ handelt es sich um den griechischen z Buchstaben Sigma. Damit werden Summen in verkürzter Schreibweise k
dargestellt. Der Ausdruck
¦n
i
entspricht der Summe n1 n2 ... nk .
i 1
Unter der relativen Häufigkeit hi einer Ausprägung Ai versteht man den Quotienten hi
ni n
(3.2)
Aus dieser Definition folgt, dass 0 d hi d 1, und dass sich die relativen Häufigkeiten aller Ausprägungen zu 1 aufaddieren:
40
Kapitel 3 · Häufigkeiten k
k
¦n
i 1
n
¦ hi 3
i
i 1
n n
1
(3.3)
In der Praxis gewinnt man die Häufigkeiten am einfachsten durch das Erstellen einer Strichliste oder – weniger mühsam – mittels einer › Beispiel 3.1). Die Ausprägung mit der größgeeigneten Software (z › Abschnitt ten Häufigkeit nennt man Modus oder modaler Wert (z 4.2.4, S. 61). Die Nennung eines Modus ist jedoch nur dann sinnvoll, wenn die relevante Häufigkeit wesentlich größer ist als die anderen Häufigkeiten. Beispiel 3.1: Häufigkeiten eines qualitativen Merkmals Wir betrachten das qualitative Merkmal „Blutgruppe“ mit den Daten der in Tabelle 2.1 aufgelisteten Stichprobe von n = 76 Beobachtungseinheiten. Es ergeben sich folgende Häufigkeiten: Ausprägung absolute Häufigkeiten relative Häufigkeiten n1 31 A1 =Blutgruppe 0 h1 41 % A2 =Blutgruppe A
n2
32
A3 =Blutgruppe B
n3
9
h3 12 %
A4 =Blutgruppe AB
n4
4
h4
Summe
n
76
h2
42 %
5%
100%
Die Angabe eines Modalwertes (theoretisch: Blutgruppe A) ist hier wenig sinnvoll, da die Häufigkeiten der Blutgruppen A und 0 fast gleich sind. ! Der Ausdruck Prozent bedeutet „von Hundert“. Deshalb sind derlei z
Angaben nur bei einem hinreichend großen Stichprobenumfang sinnvoll. Wenn man bei kleineren Stichproben Prozente berechnet, täuscht man eine höhere Genauigkeit vor als in Wirklichkeit gegeben ist. Andererseits eignen sich Prozentangaben, um Stichproben unterschiedlicher Größe miteinander zu vergleichen; deshalb werden relative Häufigkeiten gerne in Prozentwerten angegeben. Man sollte dabei jedoch beachten, dass es sich dabei möglicherweise um sehr vage Schätzungen handelt.
3.1.2
Das Prinzip der Klassenbildung
Bei der Erfassung eines stetigen Merkmals (z. B. der Körpergröße) werden – bedingt durch die begrenzte Messgenauigkeit – die gemessenen Werte im Einzelfall auf- oder abgerundet. Im Vergleich zum
41
3
3.1 Absolute und relative Häufigkeiten
Stichprobenumfang ergeben sich zahlreiche Ausprägungen, deren Häufigkeiten meist gering und daher wenig informativ sind. So schwankt beispielsweise die Körpergröße der Studenten in Tabelle 2.1 zwischen 155 cm und 197 cm – dies sind 43 Werte für 76 Beobachtungseinheiten. Davon haben zehn Ausprägungen die Häufigkeit 0, zwölf sind nur einmal vertreten. Um einen Überblick bezüglich der Häufigkeitsverteilung zu erhalten, erweist es sich als sinnvoll, mehrere nebeneinander liegende Ausprägungen zusammenzufassen und Klassen zu bilden. Dies ist auch bei einem quantitativ-diskreten Merkmal mit extrem vielen, fein abgestuften Ausprägungen gerechtfertigt (z. B. die Leukozytenanzahl pro Njl3 Blut). Ein solches Merkmal kann für praktische Analysen wie ein stetiges Merkmal behandelt werden. Damit verbindet sich die Frage, wie die Anzahl der Klassen und deren Breiten festzulegen sind. Bei sehr vielen, schmalen Klassen ist die Darstellung unübersichtlich und der Verteilungstyp schwer erkennbar. Dagegen ist eine geringe Anzahl von breiten Klassen mit einem hohen Informationsverlust verbunden; charakteristische Eigenschaften der Verteilung werden eventuell verdeckt. Es gibt bezüglich der Klassenbildung zwar keine strengen Vorschriften, jedoch einige Faustregeln, die einen Kompromiss zwischen einer übersichtlichen Darstellung einerseits und einem geringen Informationsverlust andererseits beinhalten:
ŷ Die Klassenanzahl k richtet sich nach dem Stichprobenumfang n.
Als Anhaltspunkt gilt: k | n . Für größere Stichprobenumfänge n t 1000 verwendet man k | 10 lg n (wobei lg der Zehnerlogarithmus bedeutet), damit die Klassenanzahl nicht zu groß wird. ŷ Weniger als drei Klassen sind generell nicht sinnvoll. ŷ Am übersichtlichsten ist die Darstellung, wenn die Klassenbreiten gleich sind. Wenn jedoch Ausreißer vorhanden sind, ist es eventuell sinnvoll, am jeweiligen Rand eine breitere Klasse zu bilden. ŷ Es muss eindeutig geklärt sein, welcher Klasse ein Wert zugeordnet wird, der auf eine Klassengrenze fällt. Man umgeht dieses Problem, indem man die Grenzen so definiert, dass sie nicht mit Werten der Stichprobe zusammenfallen. Ansonsten muss man die Klassen als halboffene Intervalle festlegen (meist benutzt man Intervalle, die links offen und rechts abgeschlossen sind). Die Besetzungszahl einer Klasse ist die jeweilige absolute Häufigkeit ni . Der Laufindex i kennzeichnet die Klassen in aufsteigender Reihenfolge ( i 1 bezeichnet also die erste Klasse mit den kleinsten
42
Kapitel 3 · Häufigkeiten
Messwerten, i k die letzte Klasse mit den größten Werten). Basierend auf den absoluten Häufigkeiten ni berechnet man die relativen Klassenhäufigkeiten hi ebenso wie bei diskreten Merkmalen.
3
Beispiel 3.2: Klasseneinteilung bei einem quantitativen Merkmal Die Messwerte für die Körpergröße der 76 Studenten in Tabelle 2.1 variieren zwischen 155 und 197 cm. Es bietet sich an, das Intervall (152,5 cm; 197,5 cm) in 9 Klassen der Klassenbreite 5 cm einzuteilen. Dadurch ist gewährleistet, dass kein Messwert auf eine Klassengrenze fällt. Angegeben sind die absoluten › Abschnitt 3.3). und relativen Häufigkeiten sowie die Summenhäufigkeiten (z relative absolute relative absolute LaufKlassengrenzen Häufigkeit Häufigkeit Summenh. Summenh. index in cm ni hi Ni Hi i 1 2 3 4 5 6 7 8 9
(152,5 ; 157,5) (157,5 ; 162,5) (162,5 ; 167,5) (167,5 ; 172,5) (172,5 ; 177,5) (177,5 ; 182,5) (182,5 ; 187,5) (187,5 ; 192,5) (192,5 ; 197,5)
2 4 15 19 13 10 8 3 2
0,026 0,053 0,197 0,250 0,171 0,132 0,105 0,040 0,026
2 6 21 40 53 63 71 74 76
0,026 0,079 0,276 0,526 0,697 0,829 0,934 0,974 1
Um die Häufigkeitsbegriffe zu verdeutlichen, betrachten wir die 4. Klasse. Die absolute und die relative Häufigkeit n4 bzw. h4 bedeuten: 19 Studenten (das entspricht 25%) haben eine Körpergröße zwischen 167,5 und 172,5 cm. Die absolute und die relative Summenhäufigkeit N 4 bzw. H 4 besagen, dass insgesamt 40 Studenten bzw. 53% kleiner als 172,5 cm sind. i Wenn eine Intervallgrenze durch eine runde Klammer angegeben wird, z ist der Grenzwert nicht im Intervall enthalten. Eine eckige Klammer ([ oder ]) zeigt an, dass der Grenzwert zum Intervall gehört.
Die mathematische Funktion, die die Häufigkeitsverteilung beschreibt, bezeichnet man als empirische Dichte:
f ( x)
0 für x d a0 ° ° hi für ai 1 x d ai (i 1,..., k ) ® ° ai ai 1 °0 für x ! ak ¯
(3.4)
43
3
3.1 Absolute und relative Häufigkeiten
Dabei sind a i 1 und a i die untere bzw. obere Grenze der i. Klasse, und k ist die Klassenanzahl. Das nach (3.4) definierte Histogramm besteht aus k Rechtecken mit den Flächen hi ; die Gesamtfläche hat den Wert 1. ! In früheren Zeiten – als man einen Mittelwert noch per Hand oder mit z
dem Taschenrechner ermittelte – erleichterte man sich die Arbeit, indem man die Daten in eine überschaubare Anzahl von Klassen zusammenfasste und die Kenngrößen aus den Klassenmitten ermittelte. Deshalb legte man Wert darauf, dass die Klassenmitten rechentechnisch günstige Werte waren. Im Zeitalter benutzerfreundlicher Statistiksoftware ist dieses Argument obsolet. Die Einteilung in Klassen wird hauptsächlich vorgenommen, um die Daten übersichtlich graphisch darzustellen.
3.1.3
Graphische Darstellungen
Graphische Darstellungen bringen die oben beschriebenen Sachverhalte prägnant zum Ausdruck. › Abbildung 3.1). Bei dieser Darstellung geben x Kreisdiagramm (z die einzelnen Kreissektoren die absoluten Häufigkeiten ni oder die relativen Häufigkeiten hi wieder. Allerdings kommt hier nicht (zumindest nicht auf den ersten Blick) zur Geltung, welches die kleinste oder die größte Ausprägung ist. Deshalb eignet sich diese Art der Darstellung nur für nominal skalierte Merkmale. x Rechteckdiagramm (oder Blockdiagramm). Hier ist die Fläche eines Rechtecks entsprechend der einzelnen Häufigkeiten unterteilt. Diese Darstellung eignet sich auch für ordinal skalierte Merkmale, da die kleinste und die größte Ausprägung zu erkennen sind. › Abbildung 3.2). Diese Art von Diagrammen x Balkendiagramm (z eignet sich für alle diskreten Merkmale. Die Längen der einzelnen Balken entsprechen den Häufigkeiten ni oder hi . Dabei sind zahlreiche Varianten denkbar. Die 2-dimensionalen Balken lassen sich durch 1-dimensionale Striche oder 3-dimensionale Säulen ersetzen. Bei senkrechter Anordnung spricht man auch von einem Säulendiagramm oder einem Stabdiagramm. Darüber hinaus können die Balken horizontal anstatt vertikal angeordnet werden; bezüglich Farben, Mustern und Hintergründen sind – nicht zuletzt dank geeigneter Software- und Hardwareprodukte – der Phantasie keine Grenzen gesetzt. Man sollte jedoch bei solchen Darstellungen vor allem darauf achten, dass die wesentlichen Eigenschaften der Häufigkeitsverteilung optimal zur Geltung kommen und nicht zugunsten optischer Effekte in den Hintergrund treten.
44
3
Kapitel 3 · Häufigkeiten
AB
B
Abb. 3.1 Kreisdiagramm; Darstellung der Häufigkeiten des Merkmals „Blutgruppe“ (Beispiel 3.1, S. 40)
0
A
Abb. 3.2 Balkendiagramm; Darstellung der absoluten Häufigkeiten des Merkmals „Anzahl richtig gelöster Klausuraufgaben“
15 12 9 6 3 0 1
2
3
4
5
6
7
8
9 10 11 12
› Abbildung 3.3, S. 45). Diese Darstellung eignet x Histogramm (z sich für klassierte Daten. Jede Klasse wird durch ein Rechteck repräsentiert, dessen Flächen proportional zu den jeweiligen Klassenhäufigkeiten sind. Am übersichtlichsten ist ein Histogramm mit gleichen Klassenbreiten. Falls Daten auf eine Klassengrenze fallen, muss gekennzeichnet werden, welcher Klasse diese Daten zugerechnet werden (üblicherweise wählt man die untere Klasse). › Abbildung 3.4, S. 45). Diese Darstellung x Häufigkeitspolygon (z erhält man, indem man senkrecht auf die Klassenmitten Strecken in Höhe der entsprechenden Häufigkeiten aufträgt und deren Endpunkte miteinander verbindet. › Abbildung 3.5, S. 45). Hier werx Stamm-und-Blatt-Diagramm (z den die Daten eines quantitatives oder ordinal skalierten Merkmals nach der Größe geordnet von unten nach oben aufgetragen. Der Stamm besteht aus der oder den ersten Stellen der Stichprobenwerte, die Blätter stellen die folgenden Ziffern dar; die jeweiligen Häufigkeiten lassen sich zusätzlich am Rand angeben. Diese Darstellung be-
3
45 3.1 Absolute und relative Häufigkeiten
nutzt man, um sich einen schnellen Überblick über die Häufigkeitsverteilung zu verschaffen. Für Präsentationszwecke ist sie weniger geeignet. Eine graphische Darstellung liefert auf einen Blick wesentliche Informationen bezüglich der Häufigkeitsverteilung eines Merkmals. Für eine statistische Datenanalyse ist sie jedoch unzureichend. Kenngrößen, die die oben genannten Eigenschaften quantitativ be› S. 55 ff). schreiben, sind Gegenstand des Kapitels 4 (z 20
Abb. 3.3 Histogramm für das Merkmal „Körpergröße“ (Beispiel 3.2, S. 42), Einteilung in 9 Klassen
15 10 5 0 152,5
197,5
25 20
Abb. 3.4 Häufigkeitspolygon für das Merkmal „Körpergröße“ (Beispiel 3.2, S. 42)
15 10 5 0 152,5
Abb. 3.5 Stamm- und Blattdiagramm; Darstellung der Körpergrößen
19 19 18 18 17 17 16 16 15
197,5
57 0 55666689 00002234 556667778899 0000000112233344 555555667788888899 02233334 569
2 1 8 8 12 16 18 8 3
46
Kapitel 3 · Häufigkeiten
3.2
3
Summenhäufigkeiten
Bei manchen Merkmalen ist es wenig sinnvoll, nach den Häufigkeiten einzelner Ausprägungen zu fragen. So sind beispielsweise Angaben wie etwa „7 Studenten (9%) sind 170 cm groß“ oder „16% der Studenten beantworten die Frage, ob homöopathische Heilmittel eine gleichwertige Alternative zu schulmedizinischen Methoden darstellen, mit +1 (schwache Zustimmung)“ nicht sehr aufschlussreich, weil sie nur punktuelle Informationen vermitteln. Interessanter sind kumulative Angaben, wie etwa die Anzahl der Studenten, die 170 cm oder größer sind oder der Anteil, der den Einsatz homöopathischer Heilmittel positiv (also mit Bewertungen t 1 ) beurteilt. Um derlei Fragen zu beantworten, ist es sinnvoll, die Häufigkeiten beginnend bei der kleinsten Ausprägung in aufsteigender Reihenfolge aufzuaddieren. Dadurch erhält man den Anteil der Werte, die eine bestimmte Grenze nicht überschreiten. Diese Häufigkeiten nennt man kumulative, kumulierte oder Summenhäufigkeiten. Sie lassen sich generell für alle ordinal skalierten und quantitativen Merkmale sowie für klassierte Daten bestimmen. Wenn die Ausprägungen der Stichprobe sortiert sind mit A1 A2 ... Ak , gilt für die absoluten Summenhäufigkeiten: i
Ni
¦n
(für i 1,..., k )
j
(3.5)
j 1
Die relativen Summenhäufigkeiten sind entsprechend definiert als: i
Hi
¦h
j
(für i 1,..., k )
(3.6)
j 1
Die relativen Summenhäufigkeiten H i werden durch die empirische Verteilungsfunktion F (x) mathematisch beschrieben: F ( x)
0 für x A1 ° ® H i für Ai d x Ai 1 (i °1 für x t A ¯ k
1,..., k 1)
(3.7)
Die Funktion F (x) ist für jeden x-Wert definiert und gibt die relativen Häufigkeiten an, mit der in der Stichprobe Werte vorhanden
3
47 3.2 Summenhäufigkeiten
sind, die gleich x oder kleiner als x sind. Für das Beispiel 3.3 (S. 47) gilt etwa: F (0) 0, 434 . Das bedeutet: Etwa 43% der Studenten haben eine negative oder neutrale Einstellung zu alternativen Heilmethoden; 57% haben eine eher positive Einstellung. Beispiel 3.3: empirische Verteilungsfunktion Für die Daten des ordinal skalierten Merkmals „Einstellung zu alternativen Heilverfahren“ (Tabelle 2.1, Seite 34 f) ergeben sich folgende Häufigkeiten. Beurteilung ni Ni Hi Funktionswerte F ( x) F ( x) 0 für x 3 -3 6 6 0,079 F ( x) 0,079 für 3 d x 2 -2 13 19 0,250 F ( x) 0, 250 für 2 d x 1 -1 4 23 0,303 F ( x) 0,303 für 1 d x 0 0 10 33 0,434 F ( x) 0, 434 für 0 d x 1 1 12 45 0,592 F ( x) 0,592 für 1 d x 2 2 27 72 0,947 F ( x) 0,974 für 2 d x 3 3 4 76 1 F ( x) 1 für x t 3
Die Abbildung 3.6 verdeutlicht wesentliche Eigenschaften der Verteilungsfunktion F (x) :
ŷ F (x) ist eine Treppenfunktion, die monoton wächst von 0 bis 1. ŷ F ( x) 0 für alle x, die kleiner als der kleinste Stichprobenwert sind.
ŷ Bei jeder Ausprägung (bzw. Messwert, Zählwert, Klassengrenze) springt F (x) nach oben.
ŷ F ( x) 1 ab dem größten Wert xmax .
1,0
Abb. 3.6 empirische Verteilungsfunktion F ( x ) für das Merkmal „Körpergröße“ (Beispiel 3.2, S. 42 )
0,5
0,0 150
160
170
180
190
200
48
Kapitel 3 · Häufigkeiten
Die graphische Darstellung von F ( x ) ist insbesondere für stetige Merkmale aufschlussreich. Bei fein abgestuften Ausprägungen ist die Anzahl der Treppen zahlreich und die Stufen sind entsprechend niedrig; die Treppenfunktion nähert sich dann einer glatten Kurve.
3
In der Pharmakologie werden Verteilungsfunktionen zur Analyse der dosisabhängigen Wirksamkeit eines Pharmakons verwendet. Dabei beschreibt die Funktion F (x) den relativen Anteil der Untersuchungseinheiten, bei denen ein Effekt der Dosis x erkennbar ist. Die graphische Darstellung von F (x) bezeichnet man als Dosiswirkungskurve. Auch in der Labormedizin arbeitet man häufig mit der Verteilungsfunktion. Wenn etwa für einen Cholesterinwert x gilt F ( x ) 0,98 , informiert diese Angabe darüber, dass dieser Wert im oberen 2%-Bereich liegt.
3.3
2-dimensionale Häufigkeiten
3.3.1
Die Kontingenztafel
Bisher wurde lediglich die Häufigkeitsverteilung eines einzelnen Merkmals betrachtet. Bisweilen ist es interessant, den Zusammenhang zwischen zwei Merkmalen, die an den Beobachtungseinheiten erhoben wurden, näher zu beleuchten. Wenn es sich dabei um zwei qualitative Merkmale handelt, spricht man von Assoziation oder Kontingenz. Wir betrachten im Folgenden zwei diskrete Merkmale mit den Ausprägungen Ai ( i 1,..., k ) und B j ( j 1,..., A) . Dann beträgt die Anzahl aller denkbaren Kombinationen k A . Die absoluten Häufigkeiten nij bezeichnen die Anzahl der Beobachtungseinheiten, bei denen die Ausprägungen Ai und B j gemeinsam auftreten. Für die relativen Häufigkeiten ergibt sich dann: nij
hij
mit i 1,..., k und j 1,..., A
n
(3.8)
Die hij erstrecken sich zwischen 0 und 1. Wenn man alle Häufigkeiten aufaddiert, erhält man: k
A
¦¦ n
ij
i 1 j 1
n
(3.9)
3
49 3.3 2-dimensionale Häufigkeiten
Beispiel 3.4: Kontingenztafel Für die Merkmale „Rauchen und Geschlecht“ ergeben sich aus den Daten der Tabelle 2.1 folgende Assoziationen. In den Feldern der Kontingenztafel sind angegeben: die absoluten Häufigkeiten nij, die relativen Reihenhäufigkeiten, die relativen Spaltenhäufigkeiten. die relativen Häufigkeiten hij (bezogen auf die Stichprobe). Raucher a
7
(33 %) (35 %) (9 %)
männlich
c 13
Nichtraucher b 14
(67 %) (25 %) (18 %) d
21 (28 %)
42
(24 %) (76 %) 55 weiblich (65 %) (75 %) (72 %) (17 %) (55 %) 20 56 76 (26 %) (74 %) Daraus geht hervor, dass sich die Menge der 76 Studenten aus 20 Rauchern (das sind 26%) und 56 Nichtrauchern (74%) bzw. aus 21 Männern (28%) und 55 Frauen (72%) zusammensetzt. Die 14 nicht rauchenden Männer stellen 18% des Gesamtkollektivs dar. 33% der Männer und 24% der Frauen rauchen. Die Raucher sind zu 35% männlich; die Nichtraucher zu 25%. Für die Odds Ratio (S. 50) ergibt sich OR (7 42) / (14 13) 1,6 . k
A
¦¦ h
ij
1
(3.10)
i 1 j 1
Die Häufigkeiten, die sich nur auf die Ausprägungen Ai oder B j beziehen, sind die so genannten Randhäufigkeiten oder Randsummen. Alle Häufigkeiten lassen sich übersichtlich in einer Tabelle – der so genannten Kontingenztafel – darstellen. Im Kopf und in der Vorspalte sind die Ausprägungen der beiden Merkmale aufgelistet. Im Innern enthält die Tabelle Felder mit den jeweiligen Häufigkeiten. In der letzten Tabellenspalte oder der letzten Zeile können Randsummen eingetragen werden. In Beispiel 3.4 werden zwei Alternativmerkmale betrachtet; daher enthält die Tabelle im Innern nur vier Felder. Diese einfachste Form der Kontingenztafel nennt man auch Vierfeldertafel. Die dazu gehörenden absoluten Häufigkeiten werden üblicherweise mit a, b, c und
50
Kapitel 3 · Häufigkeiten
d bezeichnet. Aus den absoluten Häufigkeiten lassen sich bei Bedarf die relativen Häufigkeiten (die sich auf den gesamten Stichprobenumfang beziehen) sowie die relativen Reihen- oder Spaltenhäufigkeiten berechnen.
3
3.3.2
Die Beschreibung einer Assoziation
Die Kontingenztafeln enthalten zwar genaue Informationen bezüglich der Häufigkeiten; sie sind jedoch wenig geeignet, um den Grad eines Zusammenhangs zu erfassen. Zu diesem Zweck bedient man sich graphischer Darstellungen und geeigneter Assoziationsmaße. › Abbildung 3.7, S. 51). Der Zusammenhang x Balkendiagramm (z zwischen zwei qualitativen Merkmalen lässt sich mittels eines Balkendiagramms darstellen. Die Längen der Balken repräsentieren die Häufigkeiten der Ausprägungen des ersten Merkmals. Außerdem ist jeder Balken entsprechend der Häufigkeiten des zweiten Merkmals unterteilt. Eine andere Möglichkeit besteht darin, für jede Merkmalskombination einen 3-dimensionalen Balken zu erstellen, der die jeweilige Häufigkeit nij repräsentiert, und die k A Balken in › Abbildung 3.8, S. 51). räumlicher Perspektive anzuordnen (z x Odds Ratio. Dies ist ein Assoziationsmaß, das den Grad eines Zu sammenhangs zwischen zwei Alternativmerkmalen quantifiziert. Es wird gebildet, indem man aus den Häufigkeiten im Innern der Vierfeldertafel das Kreuzprodukt bildet: OR
ad bc
(3.11)
Diese Maßzahl ist der Quotient aus den beiden „Odds“ a / c und b / d . Ein Odds ist das Verhältnis aus zwei zusammen gehörenden Häufigkeiten; der Quotient a / c stellt beispielsweise die Anzahl der männlichen Raucher im Verhältnis zu den weiblichen Rauchern dar. Der Ausdruck „Odds“ kann mit „Quote“ übersetzt werden (jedoch werden auch in der deutschen Sprache die englischen Ausdrücke „Odds“ und „Odds Ratio“ bevorzugt). Die untere Grenze für die Odds Ratio beträgt 0; eine obere Grenze gibt es nicht. Eine Odds Ratio mit dem Wert 1 zeigt, dass kein Zusammenhang zwischen den beiden Merkmalen besteht. Die berechnete Odds Ratio von 1,6 in Beispiel 3.4 (S. 49) lässt vermuten, dass bei den Studenten das Rauchverhalten nicht mit dem Geschlecht assoziiert ist.
51
3
3.3 2-dimensionale Häufigkeiten
60 Nichtraucher
50
Abb. 3.7 Zusammenhang zwischen Rauchen und Geschlecht, 2-dimensionales Balkendiagramm (Beispiel 3.4, S. 49)
Raucher
40 30 20 10 0 männlich
Abb. 3.8 Zusammenhang zwischen Rauchen und Geschlecht, 3-dimemsionales Balkendiagramm (Beispiel 3.4, S. 49)
weiblich
50 40 30 20 10
Nichtraucher Raucher
0 männlich
w eiblich
Weitere Assoziationsmaße für qualitative Merkmale sind Gegenstand des Abschnitts 11.1.4 (S. 225 ff). Zusammenhangsmaße für quantitative Merkmale werden in Kapitel 5 (S. 79 ff) erörtert. 3.3.3
Ausblick auf die induktive Statistik
In diesem Kapitel wurden Methoden vorgestellt, die dazu dienen, eine Häufigkeitsverteilung zu quantifizieren und optisch darzustellen. Die Beschreibung einer Stichprobe ist – für sich allein genommen – jedoch unbefriedigend. Bisher wurde die Frage ausgeklammert, inwieweit sich die Ergebnisse verallgemeinern lassen. Bei der Betrachtung der Beispiele drängen sich folgende Fragen auf:
52
Kapitel 3 · Häufigkeiten
ŷ In Beispiel 3.1 (S. 40) werden relative Häufigkeiten bezüglich
3
der vier Blutgruppen genannt. Sind diese Angaben verallgemeinerbar, oder sind die Schätzungen zu unpräzise? ŷ Aus der Vierfeldertafel in Beispiel 3.4 (S. 49) geht hervor, dass mehr als 2/3 der Medizinstudenten des 1. klinischen Semesters weiblich sind. Kann man daraus schließen (unter der Annahme, dass die beobachtete Stichprobe repräsentativ für die Medizinstudenten in Deutschland ist), dass die Frauen die Mehrheit darstellen? Oder ist dieser Schluss zu gewagt? ŷ 33% der Männer rauchen, wohingegen dieser Anteil bei den Frauen nur 24% beträgt. Kann man daraus schließen, dass männliche Studenten häufiger rauchen, oder sind die unterschiedlichen Anteile nur zufällig bedingt und haben ansonsten keine Bedeutung? Auf derlei Fragen kann die deskriptive Statistik keine befriedigenden Antworten geben. Intuitiv würde man wohl annehmen, dass 76 Studenten kaum ausreichen werden, um die Wahrscheinlichkeiten der einzelnen Blutgruppen präzise zu schätzen. Dagegen würde man durchaus vermuten, dass im WS 2009/10 tatsächlich mehr Frauen als Männer Medizin studierten. Dabei handelt es sich jedoch nur um Vermutungen, die nicht statistisch abgesichert sind. Zu diesem Zweck bedarf es Methoden der induktiven Statistik, die in den Kapiteln 8 bis 11 behandelt werden. Zusammenfassung Kapitel 3 Eine geeignete graphische Darstellung hängt von der Art der Daten ab.
ŷ ŷ ŷ
Kreisdiagramm: Balkendiagramm: Histogramm, Häufigkeitspolygon:
nominal skalierte Merkmale diskrete Merkmale klassierte Daten
Bei quantitativen Merkmalen sind folgende Eigenschaften erkennbar:
ŷ
Lage:
ŷ
Streuung:
ŷ
Form:
In welchem Bereich konzentrieren sich die Werte? Welche Ausprägungen sind häufig, welche selten oder gar nicht vertreten? Streuen die Werte weit um den Mittelwert? Welches ist der größte, welches der kleinste Wert? Gibt es Ausreißer? Hat die Verteilung eine besondere Form? Ist sie symmetrisch oder schief? Wie viele Gipfel gibt es?
4
Die Beschreibung eines Merkmals 4.1
Die Methoden der univariaten Statistik 55
4.2
Lagemaße 55
4.2.1
Das arithmetische Mittel 55
4.2.2
Der Median 57
4.2.3
Quartile und Quantile 59
4.2.4
Der Modus 61
4.2.5
Das geometrische Mittel 61
4.2.6
Das harmonische Mittel 62
4.3
Streuungsmaße 63
4.3.1
Varianz und Standardabweichung 63
4.3.2
Der Variationskoeffizient 65
4.3.3
Die Spannweite 66
4.3.4
Weitere Streuungsmaße 66
4.4
Formmaße 68
4.4.1
Die Schiefe 68
4.4.2
Die Wölbung 70
4.5
Der Vergleich mehrerer Stichproben 71
4.5.1
Beispiele für Gruppenvergleiche 71
4.5.2
Graphische Darstellungen 72
4.5.3
Anforderungen an die Stichproben 74
4.5.4
Ausblick auf die induktive Statistik 74
55 4.1 Die Methoden der univariaten Statistik
4.1
4
Die Methoden der univariaten Statistik
In diesem Kapitel werden Methoden vorgestellt, mit denen sich die charakteristischen Eigenschaften eines einzelnen Merkmals beschreiben lassen. Die geeigneten Methoden sind abhängig von der Art des jeweiligen Merkmals, insbesondere von dessen Skalenniveau. In Kapitel 3 wurden Häufigkeiten behandelt. Absolute und relative Häufigkeiten können bei jedem Skalenniveau berechnet werden; bei ordinalen und quantitativen Merkmalen lassen sich auch kumulative Häufigkeiten berechnen. Zur quantitativen Analyse eines Merkmals bedarf es darüber hinaus aussagekräftiger statistischer Kenngrößen (oder Maßzahlen). Man unterscheidet hierbei:
ŷ Lagemaße (oder Lokationsmaße). Sie informieren, in welchem
› Abschnitt Bereich sich die Stichprobenwerte konzentrieren (z 4.2). ŷ Streuungsmaße (oder Dispersionsmaße). Sie geben Auskunft › Abschnitt 4.3, S. 63 ff). über die Variabilität der Werte (z ŷ Formmaße. Sie dienen dazu, die Verteilungsform quantitativ zu › Abschnitt 4.4, S. 68 ff). beschreiben (z Abschließende Bemerkungen zum Vergleich mehrerer Stichproben finden sich in Abschnitt 4.5 (S. 71 ff). i Die Daten einer Stichprobe werden allgemein mit x ,..., x bezeichnet. z 1 n Diese Werte bilden die so genannte Urliste. Die tief gestellten Indizes geben normalerweise die Reihenfolge an, in der die Daten erhoben wurden; sie haben darüber hinaus keine Bedeutung. Die Zahl n symbolisiert den Stichprobenumfang. Die Kenngrößen werden aus den Daten der Stichprobe ermittelt und dienen als Schätzwerte für die entsprechenden Parameter der Grundgesamtheit. Man nennt sie deshalb empirische Größen.
4.2
Lagemaße
4.2.1
Das arithmetische Mittel
Das bekannteste Lagemaß ist der Mittelwert (das arithmetische Mittel oder der Durchschnitt). Er wird mit x (sprich: x quer) bezeichnet und nach folgender Formel berechnet: n
¦ xi x
i 1
n
(4.1)
56
Kapitel 4 · Die Beschreibung eines Merkmals
Es werden also alle Stichprobenwerte addiert und deren Summe durch den Stichprobenumfang n dividiert (zur Erklärung des ƶ-Zei› Abschnitt 3.1, S. 39). chens: z
4
Beispiel 4.1: Mittelwerte Von den Merkmalen der Tabelle 2.1 (S. 34 ff) lassen sich Mittelwerte für die Körpergröße, das Körpergewicht und die Anzahl der richtig gelösten Klausuraufgaben berechnen. Für die mittlere Körpergröße erhält man: xm 182,95 (männliche Studenten, n 21 ) xw
xges
169, 45 cm
173,18 cm
(weibliche Studenten, n (alle Studenten, n
55 )
76 )
Es fällt auf, dass die weiblichen Studenten im Durchschnitt wesentlich kleiner sind als ihre männlichen Kommilitonen. Ob dieser Unterschied nur zufällig bedingt ist oder ob er ein Hinweis darauf ist, dass weibliche Studenten generell kleiner sind, kann an dieser Stelle nicht beurteilt werden. Die induktive Statistik stellt Methoden zur Verfügung, die eine Entscheidung diesbezüglich › Kapitel 10, S. 197 ff). gestatten (z
Der Mittelwert hat dieselbe Maßeinheit wie die Daten der Stichprobe. Bei einem kleinen Stichprobenumfang bis n 10 sollte er mit nur einer zusätzlichen Kommastelle angegeben werden; bis n 100 erscheinen zwei und erst ab n 1000 drei zusätzliche Stellen sinnvoll (auch wenn der Taschenrechner oder der PC wesentlich mehr Kommastellen berechnen). Ansonsten täuscht man eine höhere Messgenauigkeit vor als in Wirklichkeit gegeben ist. Der Mittelwert ist sicherlich die bekannteste Kenngröße der deskriptiven Statistik; allerdings wird seine Bedeutung häufig überschätzt. Viele Anwender wissen nicht, dass dessen Berechnung nicht in jedem Fall sinnvoll ist und dass andere Lagemaße existieren, die sich zur Beschreibung einer Häufigkeitsverteilung eventuell besser eignen. Ein Nachteil des Mittelwerts besteht darin, dass er von Ausreißern stark beeinflusst wird und daher bei schiefen Verteilungen › Beispiel 4.3, S. 58). ein verzerrtes Bild der Verteilung wiedergibt (z Aus der mathematischen Herleitung geht hervor, dass der Mittelwert nur dann berechnet werden darf, wenn die Differenz zwischen zwei Ausprägungen definiert ist. Dies setzt quantitative Merkmale voraus. Ein Mittelwert, der einem ordinalen oder gar einem nominalen Merkmal zugeordnet wird, ist nicht sinnvoll interpretier› Beispiel 4.4, S. 59). Ob ein Merkmal annähernd symmetrisch bar (z verteilt ist, kann anhand einer geeigneten graphischen Darstellung (z. B. Histogramm) oder am Wert der Schiefe beurteilt werden.
57 4.2 Lagemaße
4
Mathematische Herleitung des Mittelwertes Vom Mittelwert x erwartet man, dass er die Lage der Werte x i optimal repräsentiert; d. h. die Abweichungen der x i von x sollten möglichst gering sein. Die Summe aller Abstände ¦ ( xi x ) zu minimieren ist nicht sinnvoll, da sich positive und negative Abweichungen gegenseitig ausgleichen. Daher berechnet man x so, dass die Summe der Abstandsquadrate ¦ ( xi x ) 2 minimal wird. Dieses Vorgehen bezeichnet man als die Methode der kleinsten Quadrate. Aus der Analysis ist bekannt, dass eine Funktion im Punkt x ein relatives Minimum hat, wenn gilt: f ' ( x ) 0 und f ' ' ( x ) ! 0 . Man berechnet also für die Funktion f (x ) f '( x )
n
n
n
i 1
i 1
i 1
¦ ( xi x )2 ¦ xi 2 2 x ¦ xi n x 2 ein x , für das gilt: n
2¦ xi 2nx
0
und
f ''( x )
2n ! 0 .
i 1
Offensichtlich erfüllt der Wert x
n
¦ xi / n diese Voraussetzungen. i 1
Da mit diesem x die Summe der Abstandsquadrate minimiert wird, gilt: n
n
i 1
i 1
¦ ( xi x )2 d¦ ( xi c)2 für alle reellen Zahlen c. Diese Ungleichung beschreibt die so genannte Minimumeigenschaft des Mittelwertes.
4.2.2
Der Median
Der empirische Median (oder Zentralwert) teilt die Stichprobenwerte in zwei Hälften: Die eine Hälfte der Daten ist höchstens so groß wie der Median, die andere Hälfte ist mindestens so groß. Um diese Kenngröße, die üblicherweise mit x (sprich: x Schlange) bezeichnet wird, zu ermitteln, sind die Stichprobenwerte der Größe nach zu sortieren. Die geordneten Werte werden mit tief gestellten, in Klammern gesetzten Indizes versehen, sodass gilt:
x(1) d x(2) d ... d x(n ) Demnach ist x (1) der kleinste Wert der Stichprobe, also das Minimum (er wird auch als xmin bezeichnet); x (n ) oder xmax ist der größte Wert, das Maximum. Die sortierten Stichprobenwerte nennt man Rangliste. Das dazugehörende Merkmal muss mindestens ordinal skaliert sein, da für nominal skalierte Daten keine sinnvolle Reihenfolge angegeben werden kann. Der empirische Median x wird in Abhängigkeit vom Stichprobenumfang n nach folgender Formel ermittelt:
58
Kapitel 4 · Die Beschreibung eines Merkmals
~ x
4
x § n 1 · ° ¨© 2 ¸¹ ° ® x§ n · x§ n · ¨ 1¸ ° ¨© 2 ¸¹ ©2 ¹ ° 2 ¯
für n ungerade (4.2)
für n gerade
Aus (4.2) folgt, dass x entweder ein Wert der Urliste ist (falls n ungerade) oder der Durchschnittswert der beiden mittleren Werte (falls n gerade). Deshalb hat der empirische Median dieselbe Maßeinheit wie die xi -Werte und höchstens eine Stelle mehr nach dem Dezimalkomma. Beispiel 4.2: Mediane Die Daten in Tabelle 2.1 (S. 34 f) sind nach Geschlecht und Körpergröße sortiert; deshalb lassen sich die Mediane leicht ermitteln. Nach der Formel (4.2) ergeben sich für die Körpergröße folgende Werte: xm xm (11) 185, 0 cm (männliche Studenten, n 21 ) xw x ges
xw(28)
169, 0 cm
(weibliche Studenten, n 55 )
( xges (38) xges (39) ) / 2 171,5 cm (alle Studenten, n
76 )
Da bei ordinal skalierten Daten die Berechnung des Mittelwerts nicht statthaft ist, wird stattdessen gerne der Median als Lagemaß benutzt. Ein weiterer Vorteil des Medians liegt darin, dass er gegenüber Ausreißern robust ist. Ausreißer bewirken, dass Mittelwert und Median stark voneinander abweichen. In diesen Fällen ist die Verteilung schief. Wenn Mittelwert und Median in etwa übereinstimmen, ist dies ein Hinweis darauf, dass die Verteilung symmetrisch ist. Ein Vergleich der beiden Lagemaße liefert demnach Hinweise auf die Form der zugrunde liegenden Verteilung. Beispiel 4.3: Vergleich Mittelwert und Median Die postoperative Krankenhaus-Aufenthaltsdauer von vier Patienten nach einer Appendektomie betrug 4, 5, 5 und 6 Tage. Bei einem weiteren Patienten traten Komplikationen ein; er blieb 20 Tage im Krankenhaus. Aus diesen 5 Werten ergibt sich eine mittlere Aufenthaltsdauer von 8 Tagen; der Median beträgt dagegen nur 5 Tage. Der Mittelwert wird wesentlich vom Ausreißer bestimmt; er gibt die tatsächlichen Verhältnisse verzerrt wieder. Der Median ist dagegen von diesem Ausreißer weitgehend unbeeinflusst.
59 4.2 Lagemaße
4
Beispiel 4.4: Median bei einem ordinal skalierten Merkmal Wir betrachten das ordinal skalierte Merkmal „Therapieerfolg“ mit den Ausprägungen 0 (Patient verstorben), 1 (Zustand verschlechtert), 2 (keine Veränderung eingetreten), 3 (Zustand verbessert) und 4 (Patient vollständig geheilt). Wenn jeweils die eine Hälfte der Patienten verstorben und die andere vollständig geheilt ist, besagt der Median ~ x 2 , dass bei der Hälfte der Patienten keine Veränderung oder ein schlechterer Zustand eingetreten ist, während bei der anderen Hälfte der Zustand unverändert geblieben ist oder sich gebessert hat. Es ist jedoch vollkommen sinnlos, aus den Codierungen einen Mittelwert von 2 zu berechnen und zu behaupten, „keine Veränderung“ sei der Durchschnitt zwischen „tot“ und „vollständig geheilt“. Mathematische Beschreibung des Medians Der Median x ist der Wert, für den die Summe der Abweichungsbeträge n
¦ xi x i 1
minimal ist; d. h.:
n
n
i 1
i 1
¦ xi x d ¦ xi c
für alle reellen Zahlen c.
Diese Ungleichung beschreibt die Minimumeigenschaft des Medians. Diese Eigenschaft setzt quantitative Merkmale voraus, da Differenzen bei ordinal skalierten Merkmalen nicht definiert sind. Für die Berechnung des Medians ist jedoch nur die Reihenfolge der Werte maßgebend. Deshalb ist die Berechnung des Medians auch bei ordinal skalierten Merkmalen üblich.
Bei zensierten Daten (etwa bei Überlebenszeitanalysen) hat der Median den Vorteil, dass er bereits berechnet werden kann, nachdem die Hälfte der Studienteilnehmer verstorben ist. Um einen Mittelwert zu berechen, müsste man den Tod aller Untersuchungseinheiten abwarten. Bei Studien zur Dosisfindung eines Pharmakons entspricht der Median der Dosis, die bei der Hälfte der Untersuchungseinheiten einen Effekt erkennen lässt. 4.2.3
Quartile und Quantile
Während der Median die Stichprobe in zwei Hälften einteilt, unterteilen die Quartile die Stichprobe in vier Viertel. x Unteres oder erstes Quartil Q1 . Dieses besagt, dass 25% der Stich probenwerte kleiner als oder gleich Q1 sind, während dementsprechend 75% der Werte größer als oder gleich Q1 sind. x Oberes oder drittes Quartil Q3 . Analog gilt, dass 75% der Werte maximal so groß wie Q3 und die Werte des restlichen Viertels mindestens so groß wie Q3 sind.
60
Kapitel 4 · Die Beschreibung eines Merkmals
x Mittleres oder zweites Quartil Q2 . Es entspricht dem Median x . Eine weitere Verfeinerung der Häufigkeitsverteilung gestatten die Quantile (oder Fraktile) xD , die für alle reellen Zahlen D mit 0 D 1 definiert sind. Ein D-Quantil wird folgendermaßen berechnet: Man ermittelt zunächst den Wert D n und davon abhängig eine Rangzahl k und das Quantil xD nach folgenden Formeln:
ŷ Falls D n keine ganze Zahl ist, sei k die direkt auf D n folgende
4
ganze Zahl und
xD
x( k )
(4.3a)
ŷ Falls D n eine ganze Zahl ist, sei k D n und xD
x( k ) x( k 1)
(4.3b)
2
Spezielle Quantile sind der Median (D = 0,50) sowie die beiden Quartile (D = 0,25 bzw. D = 0,75). Von Dezilen spricht man, falls D 0,1 , 0,2 ,..., 0,9 ; von Perzentilen bei 2-stelligen Kommazahlen D 0,01 , ..., 0,99 . Der Median, die Quartile und alle sonstigen Quantile lassen sich über die empirische Verteilungsfunktion F ( x ) beschreiben und gra› Abbildung 3.6, S. 47). Nach Definition ist phisch abschätzen (z nämlich: F ( xD ) D . Für den Median und die Quartile gelten also: F ( x ) 0,5 , F (Q1 ) 0, 25 und F (Q3 ) 0, 75 . Die Angabe eines Perzentils kann sehr hilfreich sein, um einen Messwert größenmäßig einzuordnen. So werden etwa in der Kinderheilkunde die individuellen Werte eines Kindes bezüglich Größe, Gewicht oder Kopfumfang mit den altersgemäßen 5%- und 95%-Perzentilen verglichen, um zu beurteilen, ob es Auffälligkeiten in der Entwicklung gibt. Beispiel 4.5: Quartile und Dezile Wir bestimmen mit Hilfe der Rangliste in Tabelle 2.1 einige Quantile bezüglich der Körpergröße der weiblichen Studenten nach Formel (4.3a): 1. Quartil: D n
0, 25 55 13, 75 ; also k
14 und Q1
3. Quartil: D n
0,75 55
41, 25 ; also k
42 und Q3
x(42)
175 cm
Dn
0,90 55
49,5 ; also k
50 und x0,90
x(50)
178 cm
9. Dezil:
x(14)
165 cm
Daraus folgt, dass eine 164 cm große Studentin bezüglich ihrer Körpergröße im unteren Viertel liegt, während eine 180 cm große Dame den oberen 10% angehört.
61 4.2 Lagemaße
4
! In der Literatur werden teilweise etwas andere Berechnungsarten vorgez schlagen, die jedoch ähnliche Werte wie die Formeln (4.3a) und (4.3b) liefern. In jedem Fall ist zu beachten, dass derlei Angaben nur bei einem entsprechend hohen Stichprobenumfang sinnvoll sind.
4.2.4
Der Modus
Der Modus (auch Modalwert oder Dichtemittel genannt) ist die Ausprägung mit der größten Häufigkeit. Er wird mit dem Buchstaben D (oder M) abgekürzt und kann bei allen Skalenniveaus ermittelt werden. Bei Daten, die in Klassen eingeteilt sind, gibt man statt des Modalwertes gerne die modale Klasse an (das ist die Klasse mit der größten Besetzungszahl) und bezeichnet deren Mitte als Modus. Beispiel 4.6: Modalwerte Der Modus bei der Beurteilung alternativer Heilverfahren ist 2 (also positiv). Die entsprechende Häufigkeiten ist 27 (35,5%) (Tabelle 2.1, S. 34 f). Die modale Klasse bei der Körpergröße der Studenten ist die 4. Klasse (167,5 cm; › Beispiel 3.2, S. 42).. 172,5 cm) mit dem Modus 170 cm (z
Anhand der graphischen Darstellung ist erkennbar, ob die Verteilung eingipfelig (unimodal), zweigipfelig (bimodal) oder mehrgipfelig (multimodal) ist. Zwei- und mehrgipfelige Verteilungen beobachtet man in der Regel bei heterogenen Populationen, wenn sich mehrere Verteilungen überlappen. U-förmige Verteilungen sind durch zwei Modalwerte an ihren Rändern und einem Tiefpunkt in › Abbildung 4.1e, S. 69). Der Mittelwert der Mitte charakterisiert (z einer solchen Verteilung repräsentiert einen atypischen Wert. Ein Beispiel ist das Merkmal „Einstellung zu einer alternativen Heilmethode“. Es gibt in der Gesamtbevölkerung viele Ablehnende, viele Zustimmende, aber wenig Neutrale mit Werten in der Mitte der Skala. Die Daten in Tabelle 2.1 (S. 34 f) legen allerdings nahe, dass die befragten Studenten tendenziell eine positive Einstellung haben. 4.2.5
Das geometrische Mittel
Das geometrische Mittel wird bei relativen Änderungen verwendet, bei denen sich der Unterschied zweier Merkmalswerte sinnvoller durch einen Quotienten als durch eine Differenz beschreiben lässt. Dies ist der Fall bei Verdünnungsreihen (z. B. bei Antikörpertitern in der Immunologie) oder bei Wachstumserscheinungen. Wenn xi die relativen Änderungen bezeichnen (wobei xi ! 0 und dimensionslos), berechnet es sich das geometrische Mittel als:
62
Kapitel 4 · Die Beschreibung eines Merkmals
xG
n
x1...xn
(4.4)
Beispiel 4.7: Geometrisches Mittel Die Titer von fünf Kaninchenseren sind: 1/100, 1/200, 1/400, 1/800 und 1/1000. Dann berechnet man für das geometrische Mittel: xG
4
4.2.6
5
1 1 1 1 1 1 | 100 200 400 800 1000 364
Das harmonische Mittel
Das harmonische Mittel dient als Lagemaß, wenn die Beobachtungswerte xi Verhältniszahlen (also Quotienten) sind, die sich nur in ihren Nennern unterscheiden. Damit lässt sich etwa eine Durchschnittsgeschwindigkeit oder eine durchschnittliche Dichte berechnen. Es ist definiert als: xH
n n
1 ¦x i 1 i
(4.5)
i Ein Vorteil des harmonischen Mittels liegt darin, dass auch „unendlich z lange“ Zeiten berücksichtigt werden können. Falls am Ende einer Studie einige Probanden (oder Versuchstiere) noch leben, wird deren Überlebenszeit als unendlich angenommen. Der Kehrwert ist dann 0 und fließt als solcher in die Summe des Nenners von (4.5) ein.
Beispiel 4.8: Harmonisches Mittel Derselbe Weg s wird einmal mit der Geschwindigkeit v1 20 km/h und ein anderes Mal mit v2 30 km/h zurückgelegt. Die Geschwindigkeiten sind definiert als Quotienten v1 s / t1 bzw. v 2 s / t2 (wobei t1 und t2 die benötigten Zeiten darstellen). Zur Berechnung der Durchschnittsgeschwindigkeit verwendet man das harmonische Mittel nach (4.5): 2 vH 24 1 1 20 30
4
63 4.3 Streuungsmaße
4.3
Streuungsmaße
4.3.1
Varianz und Standardabweichung
Wenn sich zwei Verteilungen hinsichtlich ihrer Lagemaße ähneln, können sie dennoch aufgrund ihrer Streuung sehr unterschiedlich sein. Deshalb sollte zusätzlich zum Lagemaß ein Streuungsmaß berechnet werden, um die Variabilität der Daten zu quantifizieren. Bei quantitativen Merkmalen ist der Mittelwert das am häufigsten benutzte Lagemaß. Es liegt deshalb nahe, ein Streuungsmaß zu definieren, das die Abweichungen der Stichprobenwerte vom Mittelwert quantifiziert. Ein solches Maß ist die Varianz – das ist die mittlere quadratische Abweichung der Daten vom Mittelwert. Wenn man nun (wie es nahe liegend erscheint) die Varianz berechnet, indem man die Summe der Abstandsquadrate ( xi x ) 2 durch n dividiert, erhält man die Varianz der Stichprobe. Allerdings ist diese Stichproben-Varianz im Durchschnitt etwas kleiner als die › Abschnitt 8.2.3, Varianz der Grundgesamtheit. Es wird später (z S. 163) gezeigt, dass man aus den Messwerten der Stichprobe einen optimalen Schätzwert für die Varianz der Grundgesamtheit erhält, wenn man die empirische Varianz nach folgender Formel ermittelt: n
n
¦ ( xi x ) 2 ¦ xi2 nx 2 Var
i 1
i 1
n 1
(4.6)
n 1
Wegen der quadratischen Dimension ist die Varianz schwer zu interpretieren. Um ein Streuungsmaß mit gleicher Dimension wie die der Stichprobendaten zu erhalten, zieht man die Wurzel aus der Varianz und erhält die Standardabweichung: s
Var
(4.7)
Beispiel 4.9: Standardabweichungen Für die Standardabweichungen der „Körpergröße“ berechnet man: sm 7,65 cm (männliche Studenten, n 21 ) sw
sges
6,31 cm
9, 01 cm
(weibliche Studenten, n (alle Studenten, n
55 )
76 )
Die „gemischte“ Gruppe ist also bzgl. der Körpergröße wesentlich heterogener ist als die beiden Gruppen der männlichen und der weiblichen Studenten.
64
Kapitel 4 · Die Beschreibung eines Merkmals
Die Standardabweichung stellt ein Maß für die Homogenität bzw. Heterogenität der Stichprobe dar. Sie ist wie der Mittelwert nur bei quantitativen Merkmalen sinnvoll. Im Allgemeinen ist diese Maßzahl positiv; nur im Extremfall – wenn alle Werte identisch sind und die Stichprobe vollkommen homogen ist – nimmt sie den Wert 0 an.
4
Mathematische Herleitung der Varianz Die Idee, anstelle des mittleren Abstandsquadrats einfach den mittleren Abstand der Messwerte vom Mittelwert zu berechnen, erweist sich als unsinnig, da sich positive und negative Abweichungen ausgleichen: n
n
i 1
i 1
¦ ( xi x ) ¦ xi nx
nx nx
0
Dies erklärt, weshalb man bei der Berechnung der Varianz die Summe der Abstandsquadrate zugrunde legt. Wenn man im Zähler von (4.6) die einzelnen Terme ausmultipliziert und addiert, erhält man: n
n
n
n
n
i 1
i 1
i 1
i 1
i 1
¦ ( xi x )2 ¦ xi 2 2 x ¦ xi nx 2 ¦ xi2 2nx 2 nx 2 ¦ xi2 nx 2 Die Division durch n 1 ist dadurch begründet, dass nur n 1 Summanden des Zählers eine Information beinhalten. Wenn nämlich n 1 Stichprobenwerte und der Mittelwert bekannt sind, lässt sich aus diesen Angaben der noch fehlende Summand ermitteln. Die Zahl f n 1 wird auch als die Anzahl der Freiheitsgrade bezeichnet. Das bedeutet: Man hat die „Freiheit“, n 1 Werte nach Belieben zu verändern und den letzten Wert entsprechend anzupassen, ohne dass sich dabei der Wert der Varianz ändert.
Es ist üblich, quantitative, annähernd symmetrisch verteilte Daten durch den Mittelwert und die Standardabweichung in der Form x r s unter Angabe des Stichprobenumfangs n zu charakterisieren, wie zum Beispiel für die Körpergröße der weiblichen Studenten: x r s (1 69, 45 r 6, 31) cm ( n 55 ). Die Standardabweichung erlaubt folgende grobe Abschätzungen:
ŷ Bei Normalverteilungen liegen etwa 2/3 aller Werte zwischen
x s und x s ; zwischen den Grenzen x 2s und x 2 s liegen ungefähr 95% aller Werte. ŷ Wenn man von einer Verteilung nur weiß, dass sie symmetrisch und eingipfelig ist, lässt sich angeben: Mindestens 8/9 aller Werte liegen innerhalb der Grenzen x r 2 s ; 95% befinden sich im Bereich x r 3s . ŷ Generell findet man bei allen (also auch bei schiefen) Verteilungen mindestens 3/4 aller Werte im Intervall x r 2 s und 8/9 im Intervall x r 3s .
4
65 4.3 Streuungsmaße
4.3.2
Der Variationskoeffizient
Eine Standardabweichung von 7,74 cm bezogen auf die Körpergröße von männlichen Studenten mit einem Durchschnittswert von 182,95 cm wiegt wesentlich weniger als dieselbe Standardabweichung bezogen auf eine Gruppe von Kleinkindern mit einer mittleren Größe von 90 cm. Dieser Sachverhalt lässt sich durch den Variationskoeffizienten quantitativ beschreiben:
V
s / x (falls x ! 0 )
(4.8)
Dieses Maß ist dimensionslos und nur für verhältnisskalierte Merkmale geeignet. Sein Maximum beträgt n . Der relative Variationskoeffizient kann daher nur Werte zwischen 0 und 1 annehmen: Vr
s/ x n
(4.9)
Ein relativer Variationskoeffizient bis zu 0,30 ist in den Biowissenschaften keine Seltenheit. Wenn er jedoch wesentlich höher ist, ist dies ein Hinweis darauf, dass die Verteilung extrem schief ist, oder dass zwei inhomogene Gruppen gemeinsam untersucht werden. Dies sollte man nach Möglichkeit vermeiden. – Ferner eignet sich der relative Variationskoeffizient für Präzisionsvergleiche. Bei unpräzisen Messverfahren bietet es sich an, eine Messung mehrfach durchzuführen und den Mittelwert dieser Einzelmessungen zu berechnen. Die Präzision dieser Mittelwerte kann durch den relativen Variationskoeffizienten nach (4.9) geschätzt werden (wobei n die Anzahl der Einzelmessungen bezeichnet). Beispiel 4.10: Variationskoeffizienten Für die Daten in Tabelle 2.1 (S. 34 f) berechnet man folgende Kenngrößen bezogen auf die gesamte Stichprobe ( n 76 ): Körpergröße: x r sx (173,18 r 9, 01) cm ; Gewicht: y r s y (66, 09 r 11, 06) kg . Daraus ergeben sich die Variationskoeffizienten Vx 0, 052 und Vy 0,167 . Dies zeigt, dass die Daten des Gewichts wesentlich stärker um den Mittelwert streuen als die Daten der Körpergröße.
66
4
Kapitel 4 · Die Beschreibung eines Merkmals
Mathematische Herleitung des relativen Variationskoeffizienten Die Varianz ist minimal (also 0), wenn alle Werte der Stichprobe identisch sind. Die Varianz ist bei gegebenem Mittelwert x maximal, wenn eine Beobachtungseinheit den Wert n x annimmt, während die anderen n 1 Werte gleich 0 sind. Für diesen Extremfall berechnet man: 1 (nx x ) 2 (n 1) (0 x ) 2 (n 1)2 x 2 (n 1) x 2 s2 n x2 n 1 n 1 Daraus folgt: 0 d V s / x d n und 0 d Vr d 1 .
4.3.3
Die Spannweite
Das am einfachsten zu berechnende Streuungsmaß ist die Spannweite oder Variationsbreite: R
xmax xmin
x(n ) x(1)
(4.10)
Ebenso wie die Standardabweichung ist die Spannweite nur dann gleich 0, wenn alle Stichprobenwerte identisch sind, und ansonsten positiv. Sie ist wesentlich leichter zu berechnen als die Standardabweichung; allerdings berücksichtigt sie nur die beiden extremsten Werte und ist daher sehr stark von Ausreißern beeinflusst. Deshalb wird diese Maßzahl hauptsächlich bei diskreten Merkmalen mit wenigen Ausprägungen verwendet. Meist wird man die Spannweite zusammen mit dem Maximum und dem Minimum angeben. Mit diesen Werten können einfache Plausibilitätsprüfungen vorgenommen werden: Übertragungs- oder Dokumentationsfehler werden am ehesten durch das Minimum bzw. Maximum offensichtlich. i Die Spannweite ist streng genommen nur bei quantitativen Merkmalen z erlaubt, da bei niedrigeren Skalenniveaus Differenzen nicht sinnvoll sind. Vielfach wird R jedoch auch bei ordinal skalierten Merkmalen berechnet. Dies ist dann zu vertreten, wenn die Ausprägungen mit natürlichen, aufeinander folgenden Zahlen codiert sind. Die Spannweite ist in diesem Fall nicht als Differenz, sondern als die Anzahl der Abstufungen zwischen dem größten und dem kleinsten Wert zu verstehen.
4.3.4
Weitere Streuungsmaße
x Dezilabstand. Ein Streuungsmaß, das weniger empfindlich ist als die Spannweite, erhält man, wenn man an beiden Rändern der Verteilung jeweils 10% abschneidet und die Länge dieses so genannten Interdezilbereichs berechnet:
4
67 4.3 Streuungsmaße
I80
x0,90 x0,10
(4.11)
x Quartilsabstand. Dies ist die Länge des Interquartilsbereichs Q1 ,Q3 , der die mittleren 50% der Stichprobenwerte enthält: I50
Q3 Q1
x0,75 x0,25
(4.12)
x Mittlere Abweichung vom Median. Auch dieses Streuungsmaß wird – zusammen mit dem Median als Lagemaß – gelegentlich bei ordinal skalierten oder schief verteilten Daten verwendet: n
¦ x x i
MAx
i 1
(4.13)
n
Beispiel 4.11: Interquartilsabstände und mittlere Abw. vom Median Für das Merkmal „Körpergröße“ (Daten aus Tabelle 2.1) berechnet man: männliche Studenten: I 50,m (186 180) cm 6 cm ; MAx ,m 5,7 cm weibliche Studenten:
I 50,w
alle Studenten:
I 50,ges
(175 165) cm 10 cm ; MAx ,w
5,1 cm
(179,5 166,5) cm 13 cm ; MAx , ges
7,3 cm
Auch diese Zahlen zeigen, dass die Gruppe aller Studenten heterogener ist als die geschlechtshomogenen Gruppen.
x Variation Ratio. Es gibt sogar ein Streuungsmaß für nominal ska lierte Merkmale: die Variation Ratio VR (ein deutscher Begriff hat sich dafür noch nicht etabliert). Dies ist die relative Häufigkeit der Beobachtungen, die nicht in die modale Kategorie fallen: VR 1 hmodal
(4.14)
(wobei hmodal die relative Häufigkeit des Modalwertes ist). VR nimmt den Wert 0 an, falls alle Beobachtungen identisch sind; ansonsten liegt VR zwischen 0 und 1. Eine Vielzahl von Ausprägungen trägt dazu bei, dass die Variation Ratio gering wird. Beispiel 4.12: Variation Ratio Aus Beispiel 3.1 (S. 40) geht hervor, dass die Blutgruppe A mit 42% relativer Häufigkeit der Modus ist. Demnach ist VR 0,58. Bei der Einstellung zu alternativer Heilverfahren ist VR 0,64 , da bei diesem Merkmal der Modus 2 eine relative Häufigkeit von 27/76 § 36% hat.
68
4
Kapitel 4 · Die Beschreibung eines Merkmals
4.4
Formmaße
4.4.1
Die Schiefe
Einige statistische Methoden setzen eine bestimmte Verteilungsform (z. B. Normalverteilung) voraus. Einen ersten Eindruck diesbezüglich liefern die graphischen Darstellungen. Sie lassen erkennen, ob eine Verteilung einen oder mehrere Gipfel hat, ob sie symmetrisch ist und ob sie stark oder eher schwach gewölbt ist. Die Schiefe ist ein Formmaß, das die Symmetrie bzw. Asymmetrie einer Verteilung kennzeichnet. Sie ist definiert als:
g1
1 n
n
¦ (x x) i
i 1
s3
3
(4.15)
Die Schiefe ist dimensionslos und kann sowohl positive als auch negative Werte annehmen. Große Abweichungen der Werte vom Mittelwert werden der 3. Potenz wegen stark betont; kleinere Abweichungen fallen dagegen kaum ins Gewicht. Falls sich positive und negative Abweichungen ausgleichen, ergibt sich für die Schiefe der Wert 0. Die Verteilung ist dann symmet› Abbildung 4.1a, S. 69). Das berisch bezüglich des Mittelwerts (z kannteste Beispiel einer symmetrischen Verteilung ist wohl die Normalverteilung. Einige, aber bei weitem nicht alle Merkmale in der Medizin sind annährend normalverteilt – etwa die Körpergröße erwachsener Männer oder erwachsener Frauen. Die eigentliche Bedeutung dieser Verteilung werden wir in Kapitel 7 (S. 136 ff) kennen lernen. Viele medizinisch relevante Merkmale sind linkgipfelig (linkssteil oder rechtsschief) verteilt (z. B. das Körpergewicht erwachsener Männer). Die Dichtefunktion hat einen Gipfel an der linken Seite › Abbildung 4.1b, S. 69). und einen langen Ausläufer rechts (z › Rechtsgipfelige (rechtssteile oder linksschiefe) Verteilungen (z Abbildung 4.1c, S. 69) findet man in den Biowissenschaften eher selten; ein Beispiel ist die Schwangerschaftsdauer. Diese Verteilungen haben einen Gipfel am rechten Rand. Für eingipfelige Verteilungen gilt: ŷ Bei symmetrischen Verteilungen ist g1 0 und x ~x D , ŷ bei linksgipfeligen Verteilungen ist g1 ! 0 und x ! x ! D , ŷ bei rechtsgipfeligen Verteilungen ist g1 0 und x x D .
69 4.4 Formmaße
Abb. 4.1 a-e: empirische Verteilungen mit unterschiedlicher Schiefe und unterschiedlicher Wölbung
a. symmetrische Verteilung (Schiefe=0)
b. linksgipfelige Verteilung (Schiefe>0)
c. rechtsgipfelige Verteilung (Schiefe<0)
d. symmetrische Verteilung (Wölbung>0)
e. symmetrische Verteilung (Wölbung<0)
4
70
Kapitel 4 · Die Beschreibung eines Merkmals
! Die Begriffe „linksgipfelig“, „linkssteil“ und „rechtsschief“ (bzw. „rechtsz gipfelig“, „rechtssteil“, und „linksschief“) sind in ihrer Vielfalt verwirrend. Die einprägsamsten Ausdrücke sind wohl „rechtsgipfelig“ und „linksgipfelig“. Sie besagen, wo der Gipfel ist, während aus den anderen Bezeichnungen nicht eindeutig hervorgeht, was eigentlich gemeint ist.
4
Wesentlich einfachere, dafür etwas grobere Abschätzungen für die Schiefe unimodaler Verteilungen lassen sich nach den Formeln von Pearson ermitteln: g1 |
3 ( x x ) s
(4.16a)
g1 |
xD s
(4.16b)
Auf eine schiefe Verteilung kann nur dann geschlossen werden, wenn das empirisch ermittelte g1 stark von 0 abweicht und der Stichprobenumfang hinreichend groß ist. Kleinere Abweichungen von 0 können zufallsbedingt sein und sind insofern kein Hinweis auf eine schiefe Verteilung der Grundgesamtheit. Um eine „echte“ Schiefe einigermaßen sinnvoll abschätzen zu können, sollte ein Stichprobenumfang von mindestens n t 100 vorliegen. Die Wölbung
4.4.2
Die Wölbung (auch Kurtosis oder Exzess genannt) beschreibt die Massenanhäufungen an den Enden bzw. um den Mittelwert der Verteilung. Sie ist definiert als:
g2
1 n ¦ ( xi x ) 4 n i 1 s4
3
(4.17)
Für symmetrische Verteilungen gilt:
ŷ Falls g2 0 , sind die Daten normalverteilt. ŷ Falls g2 ! 0 , ist die Verteilung schmaler und steilgipfeliger als
die Glockenkurve der Normalverteilung mit gleicher Standardabweichung, das Maximum ist größer (positiver Exzess, starke Wölbung). Die Werte häufen sich in der Umgebung des Mittel› Abbildung 4.1d, S. 69). werts und an den Rändern (z
71 4.5 Der Vergleich mehrerer Stichproben
4
ŷ Falls g2 0 , ist die Verteilung flacher als die Glockenkurve der
Normalverteilung, und das Maximum ist kleiner (negativer Exzess, schwache Wölbung). Eine solche Verteilung hat „ausge› Abbilprägte Schulterpartien“, wie etwa die U-Verteilung (z dung 4.1e, S. 69).
Beispiel 4.13: Schiefe und Kurtosis Für die Körpergröße der weiblichen Studenten ergibt sich g1 0,033 . Dieser Wert weicht nur geringfügig von 0 ab; man darf deshalb annehmen, dass dieses Merkmal annähernd symmetrisch verteilt ist. Ein Vergleich der Lagemaße xw 169,5 cm und xw 169,0 cm bestätigt dies. Der Wert der Kurtosis beträgt g 2 0, 484 . Dieser Wert nahe bei 0 ist ein Hinweis darauf, dass dieses Merkmal nicht nur symmetrisch, sondern annähernd normalverteilt ist.
Auch bei der Kurtosis ist zu beachten: Nur größere Abweichungen von 0 lassen den Schluss zu, dass die Daten nicht normalverteilt sind. Kleinere Abweichungen sind in der Regel zufallsbedingt und haben keine tiefe Bedeutung, insbesondere bei nicht allzu großen Stichproben.
4.5
Der Vergleich mehrerer Stichproben
4.5.1
Beispiele für Gruppenvergleiche
In diesem Kapitel wurden zahlreiche Methoden vorgestellt, mit denen sich die charakteristischen Eigenschaften eines einzelnen Merkmals numerisch beschreiben lassen. Oft ist es erforderlich, zwei oder mehrere Stichproben zu untersuchen und diese miteinander zu vergleichen. Das Ziel der statistischen Analyse besteht in der Regel darin, einen Unterschied zwischen diesen Gruppen nachzuweisen. In der medizinischen Forschung finden sich dafür vielfältige Anwendungsmöglichkeiten, wie die folgenden Beispiele zeigen:
ŷ Mehrere Therapieformen (z. B. eine neue Therapie und eine
› klinischStandardtherapie) werden miteinander verglichen (z kontrollierte Studie, Abschnitt 15.1, S. 305 ff); ŷ eine Gruppe von erkrankten Patienten wird zur Klärung eines ätiologischen Faktors einer Gruppe von gesunden Personen ge› Fall-Kontroll-Studie, Abschnitt 13.3, S. 270 genübergestellt (z ff);
72
Kapitel 4 · Die Beschreibung eines Merkmals
ŷ Personen, die einem bestimmten Risiko ausgesetzt sind, und Personen, die diesem Risiko nicht ausgesetzt sind, werden eine › Kohortenstudie, Abschnitt Zeitlang gemeinsam beobachtet (z 13.4, S. 275 ff). 4.5.2
4
Graphische Darstellungen
Auch bei Stichprobenvergleichen liefern graphische Darstellungen erste Hinweise: Unterschiede bezüglich der Häufigkeitsverteilung eines bestimmten Merkmals erkennt man daran, dass man für jede Stichprobe ein Diagramm anfertigt und diese gemeinsam betrachtet. Bei quantitativen Merkmalen eignen sich die so genannten Box-andWhiskers-Plots besonders gut. Dabei wird jede Stichprobe durch eine rechteckige Box repräsentiert, die unten und oben (bzw. links und rechts) vom 1. und 3. Quartil begrenzt wird. Innerhalb der Box wird der Median gekennzeichnet; der Mittelwert kann ebenfalls eingezeichnet werden (er muss nicht notwendigerweise in der Box liegen). Die von der Box ausgehenden Striche („whiskers“ ist die englische Bezeichnung für Schnurrhaare) zeigen die Lage des Minimums › Abbildung 4.2, und des Maximums der jeweiligen Stichprobe an (z S. 72). Die Plots liefern Hinweise zu Lagemaßen (Mittelwerte, Mediane, Quartile, Maxima und Minima) und Streuungsmaßen (Spannweite, Quartilsabstand). Sie enthalten sogar Informationen bezüglich der Schiefe: Je weiter der Mittelwert und der Median voneinander entfernt sind, desto schiefer ist die Verteilung. Als Darstellung eignet sich ferner ein abgewandeltes Säulendiagramm, bei dem die Höhe einer Säule dem jeweiligen Mittelwert entspricht. Dabei kann die Standardabweichung als senkrechter Strich auf eine Säule gesetzt › Abbildungen 4.3a und 4.3b, S. 73). werden (z i Die Striche bei einem Box-and-Whisker-Plot können sich auch zwischen z dem 10%- und dem 90%-Perzentil oder dem 1%- und dem 99%-Perzentil erstrecken. Damit vermeidet man, dass die Whiskers wegen eines Ausreißers extrem in die Länge gezogen werden. ! Eine graphische Darstellung sollte informieren und nicht manipulieren! z Es gibt zahlreiche Tricks, harmlose Effekte durch geschickte Graphiken zu dramatisieren. Wertvolle Hinweise dazu finden sich in [5]. An dieser Stelle sei lediglich erwähnt, dass der Wertebereich der Achsen dabei eine › Abbildungen 4.3a und 4.3b, S. 73). Es ist in jewichtige Rolle spielt (z dem Fall wichtig, sich als Leser nicht nur von Graphiken beeindrucken zu lassen, sondern zusätzlich einen Blick auf die Daten zu werfen.
4
73 4.5 Der Vergleich mehrerer Stichproben
100
Median
90
Abb. 4.2 Box-and-Whisker-Plots bezüglich des Merkmals „Körpergewicht“ (Daten aus Tabelle 2.1, S. 34 f)
Mittelwert
80 70 60 50 40
männlich
Abb. 4.3a Körpergewichte männlicher und weiblicher Studenten. Die y-Achse beginnt bei 0. Diese Darstellung vermittelt den Eindruck, der Unterschied zwischen den beiden Gruppen sei gering.
weiblich
100 90 80 70 60 50 40 30 20 10 0 männlich
weiblich
männlich
weiblich
100
Abb. 4.3b Die y-Achse beginnt bei 40. Der Unterschied tritt wesentlich deutlicher hervor als in Abbildung 4.3a.
90 80 70 60 50 40
74 4.5.3
4
Kapitel 4 · Die Beschreibung eines Merkmals
Anforderungen an die Stichproben
Die empirischen Kenngrößen haben eine doppelte Funktion. Einerseits beschreiben sie die Charakteristika der Stichprobe; darüber hinaus dienen sie als Schätzwerte für die entsprechenden Parameter der Grundgesamtheit. Man kann freilich nicht erwarten, dass die Kenngrößen der Stichprobe und die der Grundgesamtheit identisch sind, oder dass die empirisch ermittelte Verteilungsfunktion mit der Verteilungsfunktion der Grundgesamtheit exakt übereinstimmt. Man ist jedoch in jedem Fall daran interessiert, dass die Kenngrößen der Stichproben in brauchbarer Weise die Eigenschaften der Grundgesamtheit beschreiben. Dazu muss die Stichprobe zwei Bedingungen erfüllen:
ŷ Sie muss repräsentativ für die jeweilige Grundgesamtheit sein, ŷ und der Stichprobenumfang muss hinreichend groß sein. Bei einer sehr kleinen Stichprobe kann es vorkommen, dass einem der Zufall einen Streich spielt und die empirischen Kenngrößen wesentlich beeinflusst, sodass die Eigenschaften der Grundgesamtheit verzerrt wiedergegeben werden. Dies kann bei einer größeren Stichprobe nicht so leicht passieren; Ausreißer werden eher ausgeglichen. Daher leuchtet ein, dass eine große Stichprobe bessere Schätzungen ermöglicht als eine kleine. Andererseits bereitet eine umfangreiche Stichprobe in der Medizin oft erhebliche Probleme. Deshalb sollte der Stichprobenumfang nicht größer sein als nötig. Die optimale Stichprobengröße muss daher vor der Datenerhebung festgelegt werden. Sie hängt von zahlreichen Faktoren ab, u. a. von den Skalenniveaus der Merkmale, den Kenngrößen, die geschätzt werden sollen und der erforderlichen Genauigkeit der Schätzung. 4.5.4
Ausblick auf die induktive Statistik
Ein Vergleich zwischen mehreren Stichproben wird nach folgendem Prinzip durchgeführt: Zunächst werden geeignete Kenngrößen, die den interessierenden Effekt beschreiben (etwa relative Häufigkeiten, Mittelwerte und Standardabweichungen), für jede Stichprobe getrennt berechnet. Diese Kenngrößen und geeignete graphische Darstellungen ermöglichen einen direkten Vergleich. Dies ist allerdings nicht ausreichend, um einen Unterschied statistisch abzusichern. In einem zweiten Schritt wird deshalb mittels eines statistischen Tests überprüft, ob die Unterschiede nur zufällig bedingt oder ob sie „signifikant“ sind. In den Kapiteln 9 bis 11 wird ausführlich auf dieses Thema eingegangen.
4
75 4.5 Der Vergleich mehrerer Stichproben
Übersicht 2: Univariate Datenbeschreibung – geeignete Maßzahlen und graphische Darstellungen Skala
Lagemaße
Streuungsmaße
Formmaße
graphische Darstellungen
Nominalskala
Modus
Variation Ratio
--
Kreisdiagr. Rechteckdiagr. Balkendiagr.
Ordinalskala
Modus Median Quartile Quantile
Variation Ratio Spannweite Quartilsabstand Interdezilabstand
--
Rechteckdiagr. Balkendiagr.
Intervallskala
Modus Median Quartile Quantile Mittelwert
Spannweite Quartilsabstand Interdezilabstand Standardabw.
Schiefe
Verhältnisskala
Spannweite Quartilsabstand Interdezilabstand Standardabw. Variationskoeff.
diskrete Daten: Balkendiagr. symmetrische Rechteckdiagr. Verteilungen: Wölbung stetige Daten: Histogramm, Häufigkeitspolygon, Stamm-undBlatt-Diagr.
76
4
Kapitel 4 · Die Beschreibung eines Merkmals
Zusammenfassung Kapitel 4 Der Mittelwert ŷ darf nur für quantitative Merkmale (nicht für ordinal skalierte) berechnet werden; ŷ ist vor allem bei symmetrischen, eingipfeligen Verteilungen sinnvoll; ŷ nutzt im Gegensatz zu anderen Lagemaßen alle Informationen der Stichprobenwerte. Die Angabe des Medians ist sinnvoll ŷ bei ordinal skalierten Daten; ŷ bei quantitativen Merkmalen, die schief verteilt sind; ŷ bei Verdacht auf Ausreißer; ŷ bei zensierten Daten. Wenn der Mittelwert und der Median stark voneinander abweichen, sollte dies bei der Präsentation der Ergebnisse und ihrer Interpretation berücksichtigt werden. Modalwerte werden hauptsächlich angegeben: ŷ bei nominal skalierten Merkmalen, da andere Lagemaße bei diesem Skalenniveau nicht zulässig sind; ŷ bei ordinal skalierten und quantitativen Merkmalen, wenn es sich um einen „ausgeprägten“ Gipfel handelt; ŷ bei einer U-Verteilung. Die Angabe eines Modalwertes ist nicht empfehlenswert: ŷ bei Alternativmerkmalen (etwa Geschlecht oder Rhesusfaktor); ŷ wenn es keinen „ausgeprägten Gipfel“ gibt. Lagemaße und Streuungsmaße müssen zusammenpassen: ŷ Mittelwert und Standardabweichung bei symmetrisch verteilten Daten ŷ Median und Quartilsabstand (Dezilabstand oder mittlere Abw. vom Median) bei schief verteilten Daten oder bei vorhandenen Ausreißern ŷ Modus und Spannweite bei diskreten Merkmalen mit wenigen Ausprägungen ŷ Modus und evtl. Variation Ratio bei nominal skalierten Merkmalen
5
Die Beschreibung eines Zusammenhangs 5.1
Die Methoden der bivariaten Statistik 79
5.2
Die Korrelationsanalyse 80
5.2.1
Die Punktwolke 80
5.2.2
Die Voraussetzungen der Korrelationsanalyse 82
5.2.3
Die Kovarianz 82
5.2.4
Der Korrelationskoeffizient nach Pearson 84
5.2.5
Interpretation eines Korrelationskoeffizienten 85
5.3
Die Regressionsanalyse 88
5.3.1
Herleitung der Regressionsgeraden 88
5.3.2
Regression 1. Art und 2. Art 90
5.3.3
Das Bestimmtheitsmaß 91
5.3.4
Nicht-lineare Regression 93
5.4
Weitere Techniken 94
5.4.1
Der Korrelationskoeffizient nach Spearman 94
5.4.2
Zusammenhangsmaße für qualitative Merkmale 96
5.4.3
Ausblick auf die induktive Statistik 97
79 5.1 Die Methoden der bivariaten Statistik
5.1
5
Die Methoden der bivariaten Statistik
Bei den meisten klinischen oder epidemiologischen Studien werden mehrere Merkmale erfasst. Das Ziel einer solchen Studie besteht darin, Zusammenhänge zwischen zwei oder mehreren Merkmalen zu untersuchen oder aufzudecken. Aus Erfahrung oder aufgrund theoretischer Überlegungen ist oft bekannt oder kann zumindest vermutet werden, ob ein solcher Zusammenhang besteht. So weiß man beispielsweise, dass das Auftreten bestimmter Krankheiten von diversen Risikofaktoren abhängig ist; der Blutdruck eines Patienten wird u. a. beeinflusst von dessen Alter und dem BMI; das Körpergewicht eines Menschen wird von dessen Größe mitbestimmt. Manche Zusammenhänge sind besonders stark ausgeprägt (z. B. zwischen dem Geschlecht einer Person und der Erkrankung an Hämophilie), andere dagegen eher schwach (z. B. zwischen Körpergröße und Gewicht). Aus der Mathematik und der Physik sind Zusammenhänge zwischen zwei oder mehreren Größen hinlänglich bekannt. So besteht beispielsweise zwischen dem Umfang U und dem Radius r eines Kreises die lineare Beziehung U 2S r ; der Weg s, den ein aus dem Ruhezustand frei nach unten fallender Körper nach der Zeit t zurückgelegt hat, lässt sich ausdrücken durch s 1 / 2 gt 2 (wobei die Konstante g 9,81 m / sec 2 die Erdbeschleunigung bezeichnet). Diese Art von Zusammenhängen nennt man funktional: Eine Größe kann aus einer anderen mittels einer mathematischen Gleichung exakt berechnet werden. Die Zusammenhänge in der Medizin sind stochastisch, weil dabei bekanntlich auch der Zufall eine Rolle spielt. Es ist deshalb nicht möglich, exakte Aussagen oder Vorhersagen zu treffen. Man kann jedoch angeben, welche Werte des anderen Merkmals (bei bekannter Ausprägung des einen Merkmals) am ehesten zu erwarten sind. Wenn beispielsweise ein gesicherter Zusammenhang zwischen der Dosis eines Medikaments und dessen Wirkung besteht und die Art dieses Zusammenhangs bekannt ist, kann man aufgrund der Dosis einen Effekt abschätzen, ehe dieser eingetreten ist. Wenn man von einem Patienten weiß, dass mehrere Risikofaktoren vorliegen, die das Auftreten eines Herzinfarkts begünstigen, wird man eher auf entsprechende Symptome achten als bei Patienten, bei denen diese Risikofaktoren nicht vorhanden sind. So erlaubt die Kenntnis über einen Zusammenhang, bereits im Vorfeld geeignete Maßnahmen zu treffen und geschickt zu intervenieren.
80
Kapitel 5 · Die Beschreibung eines Zusammenhangs
Die Aufgaben der bivariaten Statistik bestehen darin, den Zusammenhang zwischen zwei Merkmalen aufzuzeigen und zu beschreiben. Welche Methoden im Einzelfall geeignet sind, hängt von den Skalenniveaus der beiden Merkmale ab:
ŷ Der Zusammenhang zwischen zwei quantitativen Merkmalen wird mit Methoden der Korrelationsanalyse und der Regressi› Abschnitte 5.2, S. 80 ff und 5.3, S. 88 onsanalyse untersucht (z ff). ŷ In Abschnitt 5.4 (S. 94 ff) werden Techniken vorgestellt, die sich eignen, wenn nicht beide Merkmale quantitativ sind.
5
5.2
Die Korrelationsanalyse
5.2.1
Die Punktwolke
Um einen Zusammenhang zwischen zwei quantitativen Merkmalen zu untersuchen, sollte man – um einen ersten Überblick zu erhalten – eine graphische Darstellung anfertigen. Es bietet sich an, jeder Beobachtungseinheit ein Wertepaar ( xi , yi ) zuzuordnen und diese Punkte in ein rechtwinkeliges Koordinatensystem einzutragen. Auf diese Weise erhält man eine Punktwolke (oder Punkteschar). Es hängt weitgehend von sachlogischen Überlegungen ab, welches Merkmal mit x und welches mit y bezeichnet wird. Wie bei mathematischen Gleichungen üblich, sollte x das unabhängige und y das abhängige Merkmal sein. Wenn eine Entscheidung diesbezüglich nicht möglich ist, dienen die Buchstaben x und y lediglich zur Unterscheidung der beiden Merkmale. Beispiel 5.1: Zusammenhang zwischen Körpergröße und Gewicht Wir untersuchen den Zusammenhang zwischen Körpergröße und Gewicht von 55 weiblichen Medizinstudenten anhand der Daten in Tabelle 2.1. Es erscheint sinnvoll, die Körpergröße als das unabhängige und das Gewicht als das abhängige Merkmal aufzufassen. Das Körpergewicht kann nämlich in gewisser Weise beeinflusst werden, während die Körpergröße bei jungen Erwachsenen quasi konstant ist. Somit repräsentieren die Werte x i die Körpergröße der Studentinnen und die Werte yi deren Gewicht.
5
81 5.2 Die Korrelationsanalyse
Körpergewicht (kg)
80
Abb. 5.1 Punktwolke resultierend aus den Daten der Merkmale Körpergröße und Körpergewicht von 55 weiblichen Studenten (Beispiele 5.1 und 5.2)
70 60 50 40 150
160
170
180
Körpergröße (cm)
Anhand der Punktwolke sind zwei charakteristische Eigenschaften eines Zusammenhangs auf einen Blick erkennbar:
ŷ Die Stärke des Zusammenhangs. Je dichter die Punkte beieinander liegen, desto stärker ist der Zusammenhang. Die Punktwolke in Abbildung 5.1 macht deutlich, dass ein Zusammenhang zwischen Größe und Gewicht zwar besteht, dass dieser jedoch von anderen Faktoren überlagert wird. Der Korrelationskoeffizient nach Pearson ist ein geeignetes Maß, um diese Stärke zu quantifizieren. ŷ Die Art des Zusammenhangs. Die Art wird durch eine mathematische Funktion angegeben, die den Zusammenhang optimal beschreibt. Es ist Aufgabe der Regressionsanalyse, diese Funktion zu finden. Vorausgesetzt werden zwei quantitative Merkmale. Wenn – wie in unserem Beispiel – der Zusammenhang durch eine Gerade charakterisiert werden kann, spricht man von einem linearen Zusammenhang; dieser wird durch eine Regres› Abschnitt 5.3.1, S.88 ff). sionsgerade beschrieben (z Die positive Steigung der Regressionsgeraden in Abbildung 5.1 besagt, dass zwischen Körpergröße und Körpergewicht ein gleichsinniger Zusammenhang besteht. Das heißt: Große Studentinnen haben tendenziell ein höheres Gewicht, während kleine Studentinnen eher weniger wiegen. Auch der Zusammenhang zwischen Pulsfrequenz und Körpertemperatur ist gleichsinnig. Ein Beispiel für einen gegensinnigen Zusammenhang findet sich in der Anwendung volatiler Anästhetika. Je höher die inspiratorische Konzentration des Anästhetikums (z. B. Isofluran) gewählt wird, desto niedriger wird der arterielle Blutdruck (und umgekehrt).
190
82 5.2.2
Kapitel 5 · Die Beschreibung eines Zusammenhangs
Die Voraussetzungen der Korrelationsanalyse
Ehe man einen Korrelationskoeffizienten berechnet, sollte man überprüfen, ob die dafür notwendigen Voraussetzungen erfüllt sind. Es muss gelten:
ŷ Beide Merkmale x und y sind quantitativ. ŷ Der Zusammenhang ist annähernd linear. ŷ Die Beobachtungseinheiten sind unabhängig voneinander.
5
Ob der Zusammenhang als linear angesehen werden kann, sollte vorab durch sachlogische Überlegungen geklärt werden. Hilfreich › Abbilzur Beurteilung dieser Frage ist außerdem die Punktwolke (z dung 5.1, S. 81). Sie muss so geartet sein, dass sich mittendurch eine Gerade legen lässt, um die die Punkte ellipsenförmig liegen. Die Unabhängigkeit der Beobachtungseinheiten kann ebenfalls durch logische Überlegungen überprüft werden. In unserem Beispiel ist diese Voraussetzung erfüllt. Die Daten wären jedoch nicht unabhängig, wenn sich unter den Studenten Geschwister befänden oder wenn die Daten einzelner Studenten mehrfach erfasst worden wären. Bei Abhängigkeit der Merkmalspaare könnte ein stärkerer Zusammenhang als tatsächlich vorhanden vorgetäuscht werden. Wenn die empirischen Maßzahlen der Stichprobe als Schätzer für die entsprechenden Parameter der Grundgesamtheit dienen, müssen weitere Voraussetzungen überprüft werden. Dazu sollten die › Abschnitt 8.3.4, beiden Merkmale bivariat normalverteilt sein (z S. 169 und Abschnitt 10.1.6, S. 204). 5.2.3
Die Kovarianz
Der Korrelationskoeffizient nach Pearson und die Parameter der Regressionsgeraden bauen auf der so genannten Kovarianz auf. Sie wird mit sxy bezeichnet und – basierend auf den Mittelwerten x und y – folgendermaßen berechnet: n
¦ ( xi x ) ( yi y )
s xy
i 1
n 1
n
¦ xi y i n x y
i 1
n 1
(5.1)
Die Formel (5.1) ähnelt der Formel (4.6) (S. 63), mit der die Varianz eines Merkmals berechnet wird. Während die Varianz das durchschnittliche Abweichungsquadrat ( xi x ) 2 quantifiziert, erfasst die Kovarianz das durchschnittliche Produkt der Abweichungen
83 5.2 Die Korrelationsanalyse
5
( xi x ) und ( yi y ) . Die Division durch n 1 gewährleistet, dass man – analog zur Varianz – einen optimalen Schätzwert für die Kovarianz der Grundgesamtheit erhält. Die Kovarianz ist ein Maß für das „Miteinander-Variieren“ zweier quantitativer Merkmale. Sie kann sowohl positive als auch negative Werte annehmen:
x Eine positive Kovarianz sxy ! 0 impliziert einen gleichsinnigen Zusammenhang. Wenn beide Messwerte einer Beobachtungseinheit größer oder beide kleiner sind als der jeweilige Mittelwert, haben die Terme ( xi x ) und ( yi y ) dasselbe Vorzeichen, sodass deren › Abbildung 5.2a). Produkt positiv ist (z x Eine negative Kovarianz sxy 0 ergibt sich, wenn sich die bei den Merkmale gegensinnig verhalten. Dann haben die Abweichungen ( xi x ) und ( yi y ) unterschiedliche Vorzeichen, sodass deren › Abbildung 5.2b). Produkt negativ ist (z
x Eine Kovarianz nahe bei 0 signalisiert, dass nahe beieinander lie gende x-Werte sowohl mit positiven als auch mit negativen Abweichungen ( yi y ) korrelieren, sodass sich die Produkte ( xi x ) ( yi y ) ausgleichen und in ihrer Summe einen Wert nahe › Abbildung 5.2c). Falls sxy | 0 , bedeutet dies jebei 0 annehmen (z doch keineswegs, dass generell kein Zusammenhang besteht. Dies zeigt lediglich, dass kein linearer Zusammenhang nachzuweisen ist.
Abb. 5.2a gleichsinniger Abb. 5.2b gegensinniger Zusammenhang, Zusammenhang, posinegative Kovarianz tive Kovarianz
Abb. 5.2c kein linearer Zusammenhang, Kovarianz | 0
84
Kapitel 5 · Die Beschreibung eines Zusammenhangs
Die Einheit der Kovarianz ist das Produkt der Einheiten der beiden zugrunde liegenden Merkmale. Sowohl der Zahlenwert als auch die Einheit der Kovarianz sind abhängig von deren Maßstäben (die nicht unbedingt einheitlich sind) und deshalb schwer zu interpretieren. Die Kovarianz ist – für sich allein betrachtet – wenig informativ zur Beurteilung der Frage, ob ein Zusammenhang besonders eng oder eher lose ist. Sie informiert lediglich anhand des Vorzeichens darüber, ob der Zusammenhang gleichsinnig oder gegensinnig ist. 5.2.4
5
Der Korrelationskoeffizient nach Pearson
Der Pearson’sche Korrelationskoeffizient (auch Produkt-MomentKorrelationskoeffizient genannt) stellt ein normiertes Maß zur Quantifizierung eines linearen Zusammenhangs dar. Man erhält diesen Koeffizienten, indem man die Kovarianz s xy durch die beiden Standardabweichungen sx und s y dividiert: r
s xy sx s y
(5.2)
Der Korrelationskoeffizient kann nur Werte zwischen -1 und +1 annehmen; er ist dimensionslos. Der Buchstabe r weist darauf hin, dass die Korrelations- und die Regressionsanalyse eng miteinander verbunden sind. Das Vorzeichen von r ist identisch mit dem Vorzeichen der Kovarianz sxy : Ein positives Vorzeichen steht demnach für einen gleichsinnigen, ein negatives Vorzeichen für einen gegensinnigen Zusammenhang. Beispiel 5.2: Korrelationskoeffizient nach Pearson Aus den Daten der Körpergröße und des Körpergewichts von 55 Studentinnen ergibt sich eine Kovarianz von 23,249 cm · kg. Wenn man nun durch die Standardabweichungen sx 6,31 cm und s y 6, 45 kg dividiert, erhält man den Pearson’schen Korrelationskoeffizienten r 0,5710 . Die Stärke des Zusammenhangs ist also mittelmäßig. Einerseits ist r deutlich größer als 0 – daher besteht durchaus ein Zusammenhang zwischen den beiden Merkmalen. Andererseits ist r kleiner als 1, weil das Gewicht nicht nur von der Größe, sondern von zahlreichen weiteren Faktoren abhängt.
5
85 5.2 Die Korrelationsanalyse
Der Betrag von r hat folgende Bedeutung:
ŷ Je näher r bei 0 liegt, desto schwächer ist der Zusammenhang und desto weiter streut die Punktwolke um die Gerade.
ŷ Je näher der Betrag von r bei 1 liegt, desto stärker ist der Zusammenhang und desto dichter liegen die Punkte ( xi , yi ) an der Regressionsgeraden. ŷ Die Extremfälle r 1 und r 1 ergeben sich bei einem funktionalen Zusammenhang, der durch eine lineare Gleichung der Form y a bx exakt beschrieben werden kann. Alle Punkte ( xi , yi ) liegen dann auf der Regressionsgeraden. Mathematische Herleitung des Korrelationskoeffizineten nach Pearson Es ist offenkundig, dass die Kovarianz sxy genau dann maximal wird, wenn der Zusammenhang funktional ist und durch eine lineare Gleichung y a bx exakt beschrieben werden kann. Dann erhält man nach den Definitionen der Kovarianz und der Varianz in (5.1) und (4.6): sxy
n
n
i 1
i 1
¦ xi yi nxy ¦ xi (a bxi ) nx (a bx )
n 1 Für die Varianz s y 2 ergibt sich: n
sy2
¦ ( yi y )2 i 1
n 1 Für positives b ist s y
sy
bsx und sxy
n 1
n
b(¦ xi2 nx 2 ) i 1
n 1
bsx 2
n
b 2 ¦ ( xi x ) 2 i 1
n 1 bsx und sxy
b 2 sx 2
bsx 2
sx s y . Für negatives b folgt analog:
sx s y . Da es sich hierbei um die beiden Extremfälle han-
delt, folgt für die Kovarianz: sx s y d sxy d sx s y . Daraus ergibt sich für den sxy Korrelationskoeffizienten r : 1 d r d 1 . sx s y
5.2.5
Interpretation eines Korrelationskoeffizienten
Häufig wird ein Korrelationskoeffizient falsch interpretiert, oder seine Bedeutung wird überschätzt. Ein empirischer Koeffizient, dessen Betrag größer als 0 ist, besagt lediglich, dass ein Zusammenhang aufgrund der Stichprobe nicht auszuschließen ist. Er besagt jedoch nichts darüber, worauf dieser Zusammenhang zurückzuführen ist und welche Schlussfolgerungen gezogen werden können. Mittels einer geeigneten Statistiksoftware ist die Berechnung eines Korrelationskoeffizienten auch bei umfangreichem Datenmaterial problemlos möglich. Die Software berechnet diese Maßzahl je-
86
Kapitel 5 · Die Beschreibung eines Zusammenhangs
doch auch dann, wenn die Voraussetzungen nicht erfüllt sind; sie überprüft auch nicht, ob sachliche Gründe für den Zusammenhang sprechen. So kommt es, dass hin und wieder Zusammenhänge beschrieben werden, die zwar formal korrekt, aber sachlogisch in keiner Weise nachvollziehbar sind. Es gibt zahlreiche Beispiele für derartige Schein- oder Nonsens-Korrelationen:
5
x Formale Korrelation. Sie entsteht beispielsweise dann, wenn zwei relative Anteile miteinander in Beziehung gesetzt werden, die sich zu 100% addieren. Wenn etwa x und y die relativen Anteile von Eiweiß und Fett in Nahrungsmitteln darstellen (so dass die Summe 100% beträgt), ergibt sich rein mathematisch ein funktionaler Zusammenhang mit einem Korrelationskoeffizienten von -1 (Abweichungen wären allein durch Messfehler zu erklären). x Selektionskorrelation. In der Stichprobe muss die gesamte Vari ationsbreite der zu untersuchenden Merkmale repräsentiert sein. Wird jedoch bei der Wahl der Beobachtungseinheiten selektiert, ergibt sich eine Korrelation, die nicht die Verhältnisse in der Grundgesamtheit widerspiegelt. Ein Beispiel hierfür ist gegeben, wenn zur Beurteilung der Frage, ob das Geburtsgewicht eines Babys in Beziehung zum Zigarettenkonsum der Mutter steht, nur Risikopatientinnen einer Spezialklinik herangezogen werden. Eine Selektion wird auch dann vorgenommen, wenn einzelne Werte aus der Stichprobe eliminiert werden, um einen vermeintlich starken Zusammenhang künstlich zu erzeugen (selbstverständlich ist dieses Vorgehen höchst unwissenschaftlich). x Korrelation durch Ausreißer. Ein Ausreißer – das ist ein Punkt, › Abbildung 5.3a, der sehr weit vom Punkteschwarm entfernt liegt (z S. 87) – kann mitunter einen betragsmäßig hohen Korrelationskoeffizienten verursachen. Die Punktwolke lässt Ausreißer auf einen › Abschnitt 2.4, S. 30). Blick erkennen (z x Inhomogenitätskorrelation. Sie ergibt sich, wenn für zwei inho mogene Gruppen ein gemeinsamer Korrelationskoeffizient berechnet wird. Die graphische Darstellung besteht dann aus zwei Punktwolken, › Abbildung 5.3b), und die die sich nicht oder nur wenig überlappen (z – isoliert betrachtet – keinen Zusammenhang offenbaren. Wenn beispielsweise die Schuhgrößen und die Gehälter der Angestellten eines Klinikums miteinander verglichen werden, ist ein Korrelationskoeffizient zu erwarten, der deutlich größer als 0 ist. Er kommt dadurch zustande, dass Männer im Allgemeinen größere Füße als Frauen haben und gleichzeitig Positionen mit höheren Einkommen innehaben.
87 5.2 Die Korrelationsanalyse
Abb. 5.3a Korrelation, die durch einen Ausreißer verursacht ist
5
Abb. 5.3b InhomogenitätsKorrelation
x Gemeinsamkeitskorrelation. Wenn zwei Merkmale durch ein drittes beeinflusst werden, liegt eine Gemeinsamkeitskorrelation vor. So ergibt sich beispielsweise rechnerisch eine positive Korrelation, wenn man die Entwicklung des Storchenbestands in Deutschland mit der Entwicklung der Geburtenrate vergleicht – obwohl allgemein bekannt sein dürfte, dass diese Größen nicht kausal zusammenhängen. Die Korrelation wird durch einen Confounder – nämlich die allgemeine zeitliche Tendenz – künstlich erzeugt. Sie beeinflusst gleichermaßen den Storchenbestand und die Geburtenrate und täuscht somit eine typische Nonsens-Korrelation vor. Diese Ausführungen belegen, dass es in keinem Fall ausreichend ist, einen Korrelationskoeffizienten kritik- und kommentarlos als Maß für die Stärke eines Zusammenhangs anzugeben. Auf zwei weit verbreitete Fehlinterpretationen sei an dieser Stelle hingewiesen:
ŷ Ein betragsmäßig hoher Korrelationskoeffizient allein ist kein Beleg für eine kausale Beziehung, sondern allenfalls als Hinweis auf eine mögliche Kausalität zu werten. Er besagt nichts darüber, welches der beiden Merkmale das andere kausal bedingt, ob die Merkmale wechselseitig aufeinander einwirken, oder ob möglicherweise beide Merkmale durch ein drittes beeinflusst sind. ŷ Beim Vergleich zweier quantitativer Messverfahren ist ein hoher Korrelationskoeffizient kein Beleg dafür, dass die Messergebnisse annähernd übereinstimmen. Um dies zu beurteilen, sollten die Differenzen mittels einer Bland-Altman-Analyse untersucht werden. Als graphische Darstellung eignet sich der Bland-Altman-Plot, bei dem die Mittelwerte ( xi yi ) / 2 gegen die Differenzen ( xi yi ) aufgetragen werden.
88
5
Kapitel 5 · Die Beschreibung eines Zusammenhangs
5.3
Die Regressionsanalyse
5.3.1
Herleitung der Regressionsgeraden
Die Regressionsanalyse ist ein flexibles und häufig eingesetztes Verfahren, das in der Medizin u. a. für Ursachen- und Wirkungsanalysen und Zeitreihenanalysen angewandt wird. Ihre Aufgabe besteht darin, eine mathematische Gleichung herzuleiten, welche die Art des Zusammenhangs zwischen zwei quantitativen Merkmalen optimal beschreibt. Anhand dieser Gleichung lässt sich dann aus einem bekannten Wert für das x-Merkmal ein entsprechender Wert für das y-Merkmal prognostizieren. i Das Wort „Regression“ geht zurück auf den englischen Naturforscher z Francis Galton (1822-1911), ein Vetter von Charles Darwin, der die Beziehung zwischen den Körpergrößen von Vätern und ihren Söhnen untersuchte. Er fand heraus, dass die Söhne großer Väter und die Söhne kleiner Väter eine Körpergröße haben, die weniger vom Durchschnittswert abweicht als die Größe der Väter. Dieses Phänomen bezeichnete er als „Regression“ (Rückschritt zum Mittelwert). Galtons Freund Karl Pearson hat in 1.078 Familien die Größen von Vätern und Söhnen verglichen und seine Ergebnisse zusammen mit dem nach ihm benannten Korrelationskoeffizienten im Jahre 1903 veröffentlicht. Im Laufe der Zeit wurde der Begriff „Regression“ allgemein verwendet, um den stochastischen Zusammenhang zwischen zwei oder mehr Merkmalen zu beschreiben.
Aufgrund sachlogischer Überlegungen sollte vorab geklärt werden, welches der beiden Merkmale sinnvollerweise als das unabhängige x-Merkmal bzw. als das abhängige y-Merkmal bezeichnet wird. Für praktische Zwecke ist es nahe liegend, dasjenige Merkmal, das einfacher, billiger oder früher erfasst werden kann, als das x-Merkmal anzusehen. Wenn diesbezüglich keine Entscheidung möglich ist, ist die Herleitung einer Regressionsgleichung nicht sinnvoll. Man sollte sich in diesem Fall darauf beschränken, den Zusammenhang durch einen Korrelationskoeffizienten zu beschreiben. Die einfachste Form der Regressionsanalyse ist die Beschreibung des Zusammenhangs durch eine Gerade. Dies ist erlaubt, nachdem man sich davon überzeugt hat, dass der zu beschreibende Zusam› menhang annähernd linear ist. Ein Blick auf den Punkteschwarm (z Abbildung 5.1, S. 81) macht deutlich, dass es bei stochastischen Zusammenhängen keine Gerade geben kann, auf der alle Punkte liegen. Dies ist dadurch begründet, dass das y-Merkmal nicht nur vom xMerkmal, sondern auch von anderen Faktoren beeinflusst wird, die in der Geradengleichung nicht berücksichtigt sind.
5
89 5.3 Die Regressionsanalyse
Die Regressionsgerade ist so konstruiert, dass das durchschnittliche Abstandsquadrat der Beobachtungspunkte von der Geraden minimal ist. Sie ist eindeutig bestimmt durch die Steigung b
s xy sx 2
(5.3)
und den y-Achsenabschnitt a
y bx
(5.4)
Dabei sind s xy die in Abschnitt 5.2.3 (S. 82 ff) eingeführte Kovarianz und sx 2 die Varianz der x-Werte. Der Parameter b wird als Regressionskoeffizient bezeichnet. Aus (5.3) geht hervor, dass der Wertebereich von b nicht beschränkt ist. Ein Vergleich mit der Formel (5.2) auf Seite 84 zeigt, dass die Vorzeichen der Steigung b und des Korrelationskoeffizienten r übereinstimmen. Das bedeutet: Bei einem gleichsinnigen Zusammenhang ist die Steigung der Regressionsgeraden positiv, bei einem gegensinnigen Zusammenhang ist sie negativ. Der Punkt ( x / y ) liegt auf der Regressionsgeraden; es ist der Schwerpunkt der Punktwolke. Mit den Parametern a und b lässt sich bei Vorliegen eines Wertes xi nach folgender Formel ein Wert yˆ i für das abhängige Merkmal prognostizieren: s xy yˆ i a bxi y 2 ( xi x ) (5.5) sx Beispiel 5.3: Regressionsgerade Bezüglich des Zusammenhangs zwischen Körpergröße und Gewicht von 55 Studentinnen ergibt sich folgende Regressionsgerade: y 37,985 0,584 x . Für eine 170 cm große Studentin würde man ein Gewicht von 61,3 kg prognostizieren. Aus dieser Gleichung geht auch hervor, dass das Gewicht um durchschnittlich 584 Gramm pro cm Körpergröße zunimmt. Der y-Achsenabschnitt -37,985 hat keine praktische Bedeutung. ! Es ist wichtig zu beachten, dass eine Extrapolation über den Beobachz
tungsbereich hinaus problematisch ist. In unserem Beispiel wurden bei der Berechnung der Regressionsgeraden x-Werte zwischen 155 cm und 182 cm zugrunde gelegt. Wenn man mit dieser Geraden das Gewicht eines 90 cm großen Kindes bestimmen würde, erhielte man 15 kg. Dies zeigt, dass eine Extrapolation unsinnige Werte liefern kann. Wenn man trotzdem extrapoliert, sollte man dies mit der gebotenen Vorsicht tun.
90
Kapitel 5 · Die Beschreibung eines Zusammenhangs
Mathematische Herleitung der Regressionsgeraden
Von der Regressionsgeraden y a bx erwartet man, dass die Abweichungen zwischen gemessenen und berechneten Werten ( yi yˆ i ) möglichst gering sind. Es gilt also, passende Werte für a und b zu finden, die eine Gerade mit dieser Eigenschaft definieren. Dazu minimiert man nach der Methode der kleinsten Quadrate die Summe der Abstandsquadrate: n
n
i 1
i 1
¦ ( yi yˆi )2 ¦ ( yi a bxi )2
5
f ( a, b) .
Das Minimum dieser Funktion erhält man, indem man die Ableitungen (nach der Kettenregel der Differentialrechnung) bildet und gleich 0 setzt: n df 2¦ ( yi a bxi ) 2n( y a bx ) 0 und da i 1 n n n df 2¦ xi ( yi a bxi ) 2b¦ xi 2 2¦ xi yi 2anx 0 db i 1 i 1 i 1 Aus der ersten Gleichung folgt: a y bx . Wenn man diesen Term in die zweite Gleichung einsetzt und nach b auflöst, ergibt sich mit (5.1) und (4.6): n
b
¦ xi yi nxy i 1 n
¦ xi
2
nx
2
sxy sx 2
.
i 1
n d2 f d2 f 2n ! 0 und 2¦ xi 2 ! 0 , han2 db 2 da i 1 delt es sich bei den berechneten Ausdrücken für a und b um Minima der Funktion f(a,b) und damit um optimale Parameter für die Regressionsgerade. Mit einem statistischen Test lässt sich überprüfen, ob der beschriebene Zusammenhang wirklich existiert und ob anzunehmen ist, dass er rein zufällig › Abschnitt 10.1.6, S. 204). zustande kam (z
Da für die zweiten Ableitungen gilt:
Wenn das y-Merkmal von mehreren x-Variablen bestimmt wird, verwendet man die multiple Regressionsanalyse. Die Regressionsgleichung enthält dann mehrere x-Variablen, die die y-Zielgröße beeinflussen, und entsprechend viele Regressionskoeffizienten. Ausführliche Informationen findet man in [2], [3] und [6]. 5.3.2
Regression 1. Art und 2. Art
Bei der Regressionsanalyse unterscheidet man nach der Eigenschaft der x-Variablen zwischen Regression 1. Art und Regression 2. Art. Bei der Regression 1. Art sind die Ausprägungen der x-Variablen explizit vorgeben. Zu jedem x-Wert existieren dann mehrere, zufällig bedingte y-Werte. Als Beispiel sei der Zusammenhang zwischen der Dosis eines Medikaments und dessen Wirkung genannt.
5
91 5.3 Die Regressionsanalyse
Wenn – wie beim Zusammenhang zwischen Körpergröße und Gewicht – beide Merkmale Zufallsvariable darstellen, spricht man von › Abbilder Regression 2. Art (z dung 5.1, S.81). In beiden Fällen ist die Bestimmung der Regressionsgleichung nützlich, um die Art des Zusammenhangs zu beschreiben. Der Korrelationskoeffizient nach Pearson ist allerdings nur sinnvoll bei der Regression 2. Art.
• • • •• •
• • • • • •
• • •• • • •
•• • • • •
•
Abb. 5.4 Regression 1. Art
Das Bestimmtheitsmaß
5.3.3
Ein Problem der Regressionsanalyse liegt in der Verlässlichkeit der Schätzung. Meistens wird der zu einem Messwert xi gehörende Wert y i , der durch die Gleichung der Regressionsgeraden prognostiziert wird, vom Beobachtungswert yi abweichen. Ein einfaches Maß für diese Abweichung ist das Residuum: ei
yi yˆ i
(5.6)
Um die Schätzung durch die Regressionsgerade generell zu beurteilen, bedarf es eines Maßes, das alle Residuen berücksichtigt. Da sich die Residuen gegenseitig ausgleichen, sodass deren Summe gleich 0 ist, legt man die Summe der Abweichungsquadrate ei 2 zugrunde. Diese Summe ist ein Teil des Zählers der Varianz der yi -Werte, die sich aus zwei Komponenten zusammensetzt: n
n
n
i 1
i 1
i 1
¦ ( yi y ) 2 ¦ ( yi yˆ i ) 2 ¦ ( yˆ i y ) 2
(5.7)
Der Einfachheit halber sind in dieser Gleichung die Nenner ( n 1) weggelassen. Der Term auf der linken Seite des Gleichheitszeichens steht für die Gesamtvarianz der Beobachtungswerte yi . Der erste Summand rechts vom Gleichheitszeichen bezieht sich auf die Varianz der Residuen ei (mit dem Mittelwert 0), der zweite auf die Varianz der aufgrund der Regressionsgleichung berechneten Werte y i . Der zweite Teil der Gesamtvarianz wird auch als die erklärte Varianz bezeichnet (diese lässt sich durch die Gleichung der Regressionsgeraden erklären). Der erste Summand, nämlich die Resi-
92
Kapitel 5 · Die Beschreibung eines Zusammenhangs
dualvarianz, ist dagegen auf die Abweichung der Beobachtungswerte von der Regressionsgeraden zurückzuführen. Gleichung (5.7) lässt sich also verbal folgendermaßen formulieren: Gesamtvarianz = Residualvarianz + erklärte Varianz
5
Es ist offensichtlich, dass die Schätzung durch die Regressionsgerade dann besonders gut ist, wenn der Anteil der Residualvarianz möglichst klein und die erklärte Varianz entsprechend groß ist. Andererseits gilt: Je kleiner die erklärte Varianz ist, desto schlechter können die y-Werte über das Regressionsmodell geschätzt werden. Aus diesen Überlegungen ergibt sich, dass die erklärte Varianz im Verhältnis zur Gesamtvarianz ein geeignetes Maß für die Güte des statistischen Modells darstellt. Es lässt sich nachweisen, dass dieser Quotient mit r 2 übereinstimmt: n
r2
s yˆ
2
sy
2
¦ ( yˆ i y ) 2 i 1 n
¦ ( yi y ) 2
erklärte Varianz Gesamtvarianz
(5.8)
i 1
Man bezeichnet r 2 als das Bestimmtheitsmaß oder den Determinationskoeffizienten. Der Wertebereich des Bestimmtheitsmaßes r 2 erstreckt sich zwischen 0 und 1. Im Extremfall r 2 1 ist die Residualvarianz gleich 0. Mathematische Herleitung des Bestimmtheitsmaßes Die Gleichung (5.7) lässt sich durch elementare Umformungen unter Zuhilfenahme der Gleichungen (5.3) bis (5.6) nachweisen. Ein geeignetes Maß für die Güte der Schätzung ist die Varianz der berechneten yi -Werte (das ist die durch das Regressionsmodell erklärte Varianz) dividiert durch die Gesamtvarianz. Für die erklärte Varianz erhalten wir: n
s y2ˆ
n
¦ ( yˆi y )2
¦ (bxi bx )2
n 1
n 1
i 1
Daraus folgt für die Güte der Schätzung: Mit b
sxy sx 2
b 2 sx2
i 1
(5.3, S. 89) erhalten wir:
s y
2
sy2
s y 2 sy
2
b2sx 2 . sy 2 sxy 2
sx 2 s y 2
r 2 (nach 5.2, S. 84).
93 5.3 Die Regressionsanalyse
5
Beispiel 5.4: Bestimmtheitsmaß Aus r 0,5710 (Beispiel 5.2, S. 84) ergibt sich für den Determinationskoeffizienten: r 2 0,3260 . Diese Zahl besagt, dass etwa 33% der Varianz des Gewichts durch das Modell der Regressionsgeraden (also durch die Körpergröße) bedingt sind. 67% sind durch andere, nicht im Modell berücksichtigte Einflüsse verursacht.
5.3.4
Nicht-lineare Regression
Nicht jeder Zusammenhang wird durch eine Gerade optimal beschrieben. Es gibt exponentielle Zusammenhänge (die beispielsweise durch Wachstumsprozesse bedingt sind) oder Zusammenhänge, die sich durch eine logarithmische Funktion beschreiben lassen. Ehe man einen nicht-linearen Zusammenhang genauer untersucht, sollte man darüber nachdenken, ob es eine Theorie gibt, die diesen Trend erklärt. Danach versucht man, die Art des Zusammenhangs zu finden und eine allgemeine Regressionsgleichung mit Parametern a, b etc. aufzustellen. Diese Wahl ist oft recht schwierig und erfordert sehr viel Erfahrung sowie genaue Kenntnisse der theoretischen Hintergründe. Wertvolle Hinweise liefert auch hier die graphische Darstellung der Wertepaare als Punktwolke. Generell gibt es zwei Möglichkeiten, geeignete Werte für die Regressionsparameter zu finden:
x Manchmal ist es möglich, die nichtlineare Regressionsgleichung in eine lineare zu transformieren. Anstelle der Gleichung y a ebx würde man die Funktion lny lna bx betrachten und nach der Methode der kleinsten Quadrate optimale Werte für lna (und damit auch für a) sowie für b erhalten. x Man verwendet – ähnlich wie bei der linearen Regression – die Methode der kleinsten Quadrate. So würde man etwa bei der Funktion f ( x ) a ebx die Summe der Abstandsquadrate ¦ ( yi a e bxi ) 2 nach a und b ableiten und die Ableitungen gleich 0 setzen. i Die Güte eines multiplen oder eines nicht-linearen Modells lässt sich z ebenfalls mit dem Determinationskoeffizienten r 2 (der das Verhältnis der erklärten zur Gesamtvarianz wiedergibt) abschätzen. Mit Hilfe dieses Koeffizienten lassen sich auch mehrere statistische Modelle miteinander vergleichen.
94
5
Kapitel 5 · Die Beschreibung eines Zusammenhangs
5.4
Weitere Techniken
5.4.1
Der Korrelationskoeffizient nach Spearman
Die Berechnung des Korrelationskoeffizienten nach Pearson ist an einige Bedingungen geknüpft. Es muss sich um quantitative Merkmale handeln, und der Zusammenhang muss annähernd linear sein. Als Alternative bietet sich der Korrelationskoeffizient nach Spearman an (Charles Spearman, 1863-1945, war ein britischer Psychologe). Dies ist ein Maß für die Stärke eines monotonen Zusammenhangs. Es wird auch als Rangkorrelation bezeichnet, da es auf den Rangzahlen der Beobachtungswerte ( xi , yi ) basiert. i Spearman untersuchte den Zusammenhang zwischen intellektuellen Leisz tungen und einem allgemeinen Intelligenzfaktor. Er veröffentlichte seine Ergebnisse etwa zeitgleich mit Pearson im Jahr 1904. In dieser Publikation wurde die Rangkorrelation erstmals erwähnt.
•
•
•
• ••• • •• • • • •• •
• • •• • • • • • • • • •
Abb. 5.5 gleichsinniger, monotoner Zusammenhang; Rangkorrelation positiv
Um diesen Koeffizienten zu berechnen, werden alle x-Werte sortiert und mit Rangzahlen versehen. Der kleinste Wert erhält den Rang 1, der größte den Rang n. Falls mehrere Ausprägungen übereinstimmen (man spricht dann von verbundenen Rängen), ermittelt man mittlere Rangzahlen, indem man die Rangzahlen der gleichen Ausprägungen addiert und die Summe durch deren Anzahl dividiert. Mit den Daten des yMerkmals verfährt man ebenso.
Jeder Beobachtungseinheit wird also eine Rangzahl für das x-Merkmal und eine für das y-Merkmal zugeordnet. Die Differenz dieser beiden Rangzahlen sei di . Aus diesen Differenzen wird der Spearman’sche Korrelationskoeffizient berechnet nach: n
rs
1
6 ¦ di 2 i 1
n (n 2 1)
(5.9)
95 5.4 Weitere Techniken
5
Ebenso wie der Korrelationskoeffizient nach Pearson erstreckt sich auch der Korrelationskoeffizient nach Spearman rs zwischen –1 und +1. rs nimmt den maximalen Betrag 1 an, wenn der Zusammenhang streng monoton ist (dies umfasst den Begriff „streng linear“). Ein positives Vorzeichen symbolisiert einen gleichsinnigen, ein negatives Vorzeichen einen gegensinnigen Zusammenhang. rs 0 bedeutet, dass kein monotoner Zusammenhang nachweisbar ist. ! Die Voraussetzungen, die zur Berechnung des Spearman’schen Korrelatiz
onskoeffizienten erfüllt sein müssen, sind schwächer als die Voraussetzungen, die der Berechnung des Pearson’schen Koeffizienten zugrunde liegen. Wenn allerdings zusätzlich eine Regressionsgleichung ermittelt werden soll, wird – wenn es statthaft erscheint – dem Korrelationskoeffizienten nach Pearson den Vorzug gegeben. Beispiel 5.5: Korrelationskoeffizient nach Spearman Bei 10 Frauen wird der BMI-Wert zu Beginn ihrer Schwangerschaft gemessen; später wird der Apgar-Wert des neugeborenen Kindes ermittelt. Zum Nachweis eines Zusammenhangs eignet sich der Korrelationskoeffizient nach Spearman, da es sich beim Apgar-Score um ein ordinal skaliertes Merkmal handelt. Es ergeben sich folgende Werte (wobei x i der Apgar-Score, yi der BMI, R( xi ) und R( yi ) die Ränge und d i R ( xi ) R ( yi ) deren Differenzen bezeichnen): xi 4 5 6 6 7 8 8 8 9 10 yi 27,1 24,9 26,4 25,9 25,3 23,2 21,0 22,4 19,6 20,1 R ( xi ) 1 2 3,5 3,5 5 7 7 7 9 10 R ( yi ) 10 6 9 8 7 5 3 4 1 2 di -9 -4 -5,5 -4,5 -2 2 4 3 8 8 di 2 81 16 30,25 20,25 4 4 16 9 64 64 10 6 308,5 Daraus berechnet man ¦ d i 2 308,5 und rs 1 0,87 . Bei der 990 i 1 kleinen Stichprobe ist also ein gegensinniger Zusammenhang erkennbar: Je höher der BMI-Wert der Mutter, desto geringer der Apgar-Score des Kindes. i Streng mathematisch gesehen setzt der Spearman-Koeffizient voraus, dass z zwei benachbarte Merkmalsausprägungen äquidistant sind (was bekanntlich bei ordinalen Merkmalen problematisch ist). Die Rang-Korrelation W (griechischer Buchstabe tau) nach Kendall setzt dies nicht voraus; dabei werden ausschließlich die ordinalen Informationen verwendet. Ausführlich beschrieben ist dieser Koeffizient in [4]. Der Spearman’sche Korrelationskoeffizient ist jedoch bekannter und wird häufiger angewandt.
96
Kapitel 5 · Die Beschreibung eines Zusammenhangs
Mathematische Herleitung des Korrelationskoeffizienten nach Spearman Dieser Koeffizient wird berechnet, indem man in die Formel zur Bestimmung des Pearson’schen Korrelationskoeffizienten (5.2) (S. 84) anstelle der Messwerte x i und yi deren Ränge R( xi ) und R( yi ) und für x und y den mittleren Rang R einsetzt. Durch vollständige Induktion lässt sich nachweisen, dass n n n n n (n 1) n (n 1) (2n 1) und ¦ R 2 ( xi ) ¦ i 2 ¦ R( xi ) ¦ i 2 6 i 1 i 1 i 1 i 1 Daraus resultiert für den Mittelwert und die Summe der Abstandsquadrate: n n n (n 2 1) n 1 und ¦ ( R ( xi ) R )2 ¦ R 2 ( xi ) nR 2 2 12 i 1 i 1 Analoges gilt für die Ränge des y-Merkmals, d. h. die Standardabweichungen von R( xi ) und R( yi ) sind gleich. Deren Produkt ist also die Varianz der Ränge und entspricht dem Nenner von Formel (5.2). Für den Zähler ergibt sich durch Umformen:
R
5
n
¦ ( R( xi ) R ) ( R( yi ) R ) i 1 n
n
n
¦ ( R( xi ) R )2 ¦ ( R( yi ) R )2 ¦ di 2
n
di 2 n (n 2 1) ¦ i 1 i 1 i 1 i 1 . 2 12 2 Wenn man Zähler und Nenner zusammenfasst, erhält man Formel (5.9), S. 94.
5.4.2
Zusammenhangsmaße für qualitative Merkmale
In diesem Kapitel wurde der Frage nachgegangen, wie sich der Zusammenhang zwischen zwei quantitativen Merkmalen – etwa zwischen Körpergröße und Gewicht – beschreiben lässt. Nun hängt das Gewicht bekanntlich nicht nur von der Größe, sondern auch vom Geschlecht einer Person ab. Um den Unterschied zwischen zwei Mittelwerten abzusichern, verwendet man üblicherweise einen statistischen Test wie etwa den t-Test für zwei unverbundene Stichpro› Abschnitt 10.1.3, S. 199 ff). Aus einem solchen Test resultiert ben (z jedoch kein Assoziationsmaß, das die Stärke des Zusammenhangs quantifiziert. Die Stärke des Zusammenhangs zwischen einem quantitativen und einem Alternativmerkmal kann durch die punktbiseriale Korrelation ausgedrückt werden. Dabei werden für die Ausprägungen des Alternativmerkmals die Werte 0 oder 1 eingesetzt werden; damit lässt sich dann nach (5.2) (S. 84) ein Korrelationskoeffizient rpb berechnen.
97 5.4 Weitere Techniken
5
In Abschnitt 3.3.2 (S. 50) wurde die Odds Ratio als Assoziationsmaß für zwei Alternativmerkmale erwähnt; weitere Assoziationsmaße, mit denen sich der Zusammenhang zwischen zwei nominal skalierten Merkmalen beschreiben lässt, werden in Abschnitt 11.1.4 (S. 225 f) vorgestellt. Allgemein gilt: Je höher das Skalenniveau der zugrunde liegenden Merkmale ist, desto präziser lassen sich die Stärke und die Art eines Zusammenhangs beschreiben. Beispiel 5.6: Punktbiserialer Korrelationskoeffizient Um die Stärke des Zusammenhangs zwischen Geschlecht und Körpergewicht zu quantifizieren, codiert man das Geschlecht mit 0 (männlich) und 1 (weiblich). Die x-Werte nehmen dann entweder den Wert 0 oder 1 an; die y-Werte sind die Messwerte für das Gewicht. Mit den Daten in Tabelle 2.1 erhalten wir einen punktbiserialen Korrelationskoeffizienten rpb 0, 7526 . Der Zusammenhang ist gegensinnig – d. h. Männer (mit dem kleineren x-Wert 0 codiert) wiegen mehr als Frauen. Aus diesen Angaben folgt außerdem: rpb2 0,5664 . Dies besagt, dass – bezogen auf alle Studenten – etwa 57% des Körpergewichts durch den Einfluss des Geschlechts erklärbar ist. Zum Vergleich: Der Zusammenhang zwischen Größe und Gewicht (bezogen auf alle Studenten) wird durch den Pearson’schen Koeffizienten r 0, 7656 (mit dem Bestimmtheitsmaß r 2 0,5861 ) quantifiziert.
5.4.3
Ausblick auf die induktive Statistik
Zur sinnvollen Interpretation eines Korrelationskoeffizienten, einer Regressionsgleichung oder eines Assoziationskoeffizienten ist es wichtig, dass der Stichprobenumfang hinreichend groß ist. Allgemein gilt: Je näher ein Korrelationskoeffizient bei 0 liegt und je kleiner der Stichprobenumfang ist, umso weniger kann auf einen real existierenden Zusammenhang geschlossen werden. In diesen Fällen muss man davon ausgehen, dass die empirisch ermittelte Korrelation zufallsbedingt ist. Um abschätzen zu können, ob und inwieweit der anhand der Stichprobe ermittelte Zusammenhang auf die Grundgesamtheit übertrag› bar ist, erscheint es sinnvoll, Vertrauensbereiche zu ermitteln (z Abschnitt 8.3.4, S. 169) und einen geeigneten statistischen Test › Abschnitt 10.1.6, S. 204). durchzuführen (z
98
Kapitel 5 · Die Beschreibung eines Zusammenhangs
Zusammenfassung Kapitel 5 Korrelationskoeffizient nach Pearson. Voraussetzungen: ŷ Beide Merkmale sind quantitativ. ŷ Der Zusammenhang ist annähernd linear.
5
Rangkorrelation nach Spearman. Geeignet folgende Konstellationen: ŷ Beide Merkmale sind ordinal skaliert. ŷ Ein Merkmal ist quantitativ, das andere ordinal skaliert. ŷ Beide Merkmale sind quantitativ; der Zusammenhang ist monoton, aber nicht linear. Herleitung eines Zusammenhangs: ŷ Theoretische Herleitung. Man sollte zunächst darüber nachdenken, ob und wie der zu quantifizierende Zusammenhang begründet werden kann. Das Erarbeiten eines theoretischen Hintergrundes trägt wesentlich dazu bei, Nonsens-Korrelationen zu vermeiden. ŷ Erstellen der Punktwolke. Die graphische Darstellung ist hilfreich bei der Beurteilung, ob der Zusammenhang linear ist. Außerdem deckt sie Ausreißer und inhomogene Gruppen auf. ŷ Berechnen eines Korrelationskoeffizienten ŷ Interpretation. Nachdem ein Zusammenhang theoretisch hergeleitet und statistisch abgesichert ist, können vorsichtig Schlussfolgerungen gezogen werden. Dazu bedarf es überwiegend medizinisch-fachlicher Überlegungen. Folgende Möglichkeiten sind zu prüfen: x beeinflusst y. y beeinflusst x. x und y bedingen sich gegenseitig. Beide Merkmale werden durch eine dritte Größe beeinflusst. Der Zusammenhang kam zufällig zustande. ŷ Berechnen der Regressionsgerade. Dies ist sinnvoll, wenn der Zusammenhang linear ist und das x-Merkmal y beeinflusst.
6
Grundlagen der Wahrscheinlichkeitsrechnung 6.1
Die Aufgaben der Wahrscheinlichkeitsrechnung 101
6.2
Das Rechnen mit Wahrscheinlichkeiten 102
6.2.1
Zufallsexperimente 102
6.2.2
Das Ermitteln einer Wahrscheinlichkeit 103
6.2.3
Die Verknüpfung zweier Ereignisse 105
6.2.4
Rechenregeln 107
6.2.5
Bedingte Wahrscheinlichkeiten 109
6.2.6
Das Bayes-Theorem 110
6.3
Zufallsvariable 112
6.3.1
Die Bedeutung einer Zufallsvariablen 112
6.3.2
Diskrete Zufallsvariablen 112
6.3.3
Stetige Zufallsvariablen 113
6.3.4
Lageparameter 115
6.3.5
Streuungsparameter 116
6.3.6
Die zentralen Momente 118
6.4
Sätze der Wahrscheinlichkeitsrechnung 118
6.4.1
Die Tschebyscheff’sche Ungleichung 118
6.4.2
Das Gesetz der großen Zahlen 120
6.1 Die Aufgaben der Wahrscheinlichkeitsrechnung
6.1
101
6
Die Aufgaben der Wahrscheinlichkeitsrechnung
Unser Alltag ist bestimmt von unendlich vielen Zufälligkeiten und Irregularitäten. Wir haben gelernt, Wahrscheinlichkeiten intuitiv abzuschätzen, um unseren Alltag regeln zu können – ansonsten würden wir im Überangebot der auf uns einströmenden Informationen zugrunde gehen. Wir verlassen uns beispielsweise darauf, dass wir sicher am Ziel ankommen, wenn wir ein Auto besteigen, und wir kalkulieren bei unseren Zukunftsplänen keinen Lottogewinn ein. Ein Arzt vertraut darauf, dass die von ihm verordnete Therapie den gewünschten Erfolg erzielt, oder dass ein Patient durch eine Impfung einer möglichen Epidemie entgeht. Mit einem unwahrscheinlichen Ereignis befassen wir uns erst dann, wenn dieses – entgegen unseren Erwartungen – eingetreten ist. Wir orientieren uns also nicht nur nach Sicherheiten, sondern geben uns meistens notgedrungen mit Wahrscheinlichkeiten zufrieden. Der Begriff „wahrscheinlich“ und davon abgeleitete Ausdrücke entstammen unserer Umgangssprache. Mit Sätzen wie „Morgen scheint wahrscheinlich die Sonne“ oder „Es ist unwahrscheinlich, dass nach einer Impfung dauerhafte Schäden zurückbleiben“ drücken wir Vermutungen aus bezüglich Ereignissen, die wir nicht vorhersehen können. Dabei handelt es sich um subjektive Wahrscheinlichkeiten, die auf alltäglichen Erfahrungen basieren. Diese können wir nach unserem persönlichen Empfinden grob als hoch oder eher niedrig einstufen; es ist jedoch nicht möglich, sie exakt zu quantifizieren. Manchmal sind derlei Einschätzungen vollkommen unrealistisch, weil wir uns bei subjektiven Beurteilungen gerne von Wunschdenken oder anderen psychisch bedingten, intellektuell kaum nachvollziehbaren Einflüssen täuschen lassen. Auch die Prozesse und Entwicklungen in den Biowissenschaften unterliegen dem Zufall. Man bezeichnet sie als probabilistisch – im Gegensatz zu deterministischen Vorgängen, die sich exakt berechnen lassen. Für wissenschaftliche Untersuchungen ist es notwendig, den Begriff der Wahrscheinlichkeit zu präzisieren und quantitativ zu beschreiben. Diese Zahlenangaben bezeichnet man als objektive Wahrscheinlichkeiten. Die Aufgaben der Wahrscheinlichkeitsrechnung und der induktiven Statistik bestehen darin, die Realität durch ein statistisches Modell hinreichend genau zu beschreiben und anhand dieses Modells Gesetzmäßigkeiten herzuleiten. Dabei ist es unerheblich, ob die zu beschreibenden Vorgänge prinzipiell nicht erfassbar sind (wie z. B. der Zerfall eines radioaktiven Atoms), oder ob
102
Kapitel 6 · Grundlagen der Wahrscheinlichkeitsrechnung
sie (wie bei den meisten medizinischen Vorgängen) so komplex sind, dass sie sich einer deterministischen Beschreibung entziehen und deshalb als probabilistisch angesehen werden. Die mathematisch-theoretischen Aussagen, die in der Wahrscheinlichkeitsrechnung hergeleitet werden, bilden die Basis der induktiven Statistik. Bei Schätzverfahren und statistischen Tests ist der Begriff der Irrtumswahrscheinlichkeit fundamental: Er quantifiziert die Unsicherheit, mit der die aus der Stichprobe gewonnenen Erkenntnisse behaftet sind. Für den praktischen Anwender sind Kenntnisse aus der Wahrscheinlichkeitsrechnung hilfreich und notwendig, um die Methoden der induktiven Statistik zu verstehen und sinnvoll mit ihnen umgehen zu können.
6
6.2
Das Rechnen mit Wahrscheinlichkeiten
6.2.1
Zufallsexperimente
Um einen probabilistischen Vorgang zu untersuchen und relevante Wahrscheinlichkeiten herzuleiten, genügt es nicht, ihn ein einziges Mal durchzuführen. Es erscheint vielmehr angebracht, diesen Vorgang mehrmals zu wiederholen, die Ergebnisse der einzelnen Experimente zu dokumentieren und auszuwerten. Diese Art von Untersuchungen bezeichnet man als Zufallsexperimente. Ein Zufallsexperiment ist durch die folgenden Eigenschaften charakterisiert:
ŷ ŷ ŷ ŷ
Es wird nach einer bestimmten Vorschrift durchgeführt, es ist (zumindest prinzipiell) beliebig oft wiederholbar, mehrere Ausgänge oder Ergebnisse sind möglich, und das Ergebnis eines einzelnen Experiments ist vorab ungewiss.
So stellen beispielsweise das Würfeln oder das Werfen einer Münze Zufallsexperimente dar. Beim Würfeln gibt es sechs mögliche Ausgänge, beim Münzwurf zwei. Auch das Erfassen der Blutgruppe oder des Rhesusfaktors einer Person lässt sich als Zufallsexperiment auffassen mit den möglichen Ergebnissen 0, A, B und AB bzw. „Rhesusfaktor positiv“ und „Rhesusfaktor negativ“. Zur Beschreibung von Zufallsexperimenten bedient sich die Wahrscheinlichkeitsrechnung der Mengentheorie. Die Menge aller möglichen Ergebnisse bildet die Ergebnismenge (oder den Stichprobenraum). Diese Menge wird mit dem griechischen Großbuchstaben : (Omega) bezeichnet. Teilmengen von : nennt man Ereignisse, 1-elementige Teilmengen Elementarereignisse. Ereignisse werden
6
103 6.2 Das Rechnen mit Wahrscheinlichkeiten
üblicherweise mit großen lateinischen Buchstaben A, B usw. angegeben. Spezielle Ereignisse sind die Ergebnismenge : , die als das sichere Ereignis bezeichnet wird, und die leere Menge , die dem unmöglichen Ereignis entspricht. Beispiel 6.1: Ergebnismenge und Ereignis Der Ergebnismenge für das Zufallsexperiment „Würfeln“ ist die 6-elementige Menge : ^1,2,3,4,5,6` . Das Ereignis „gerade Zahl“ lässt sich durch die Teilmenge A ^2,4,6` beschreiben. Man sagt: „Das Ereignis A ist eingetreten“, falls ein Elementarereignis aus der Menge A eingetreten ist.
An Beispiel 6.1 wird der Zusammenhang zwischen der Wahrscheinlichkeitsrechung und der deskriptiven Statistik deutlich. Das Analogon zur Ergebnismenge ist die Ausprägungsliste; einzelne Merkmalsausprägungen sind vergleichbar mit Elementarereignissen. Der grundlegende Unterschied ist folgender: Die deskriptive Statistik befasst sich mit Stichproben und Merkmalen; die Wahrscheinlichkeitsrechnung untersucht die mathematisch-theoretischen Eigenschaften von Grundgesamtheiten. 6.2.2
Das Ermitteln einer Wahrscheinlichkeit
x Theoretische Herleitung. Um eine Wahrscheinlichkeit quantita tiv anzugeben, ist es notwendig, diesen Begriff zu objektivieren. Eine erste Definition geht auf den französischen Mathematiker Pierre Simon Marquis de Laplace zurück, der sich für die Zufallsgesetze bei Glücksspielen interessierte. Er definierte basierend auf dem Begriff des Zufallsexperiments die Wahrscheinlichkeit, dass ein bestimmtes Ereignis A eintritt, folgendermaßen: P( A )
Anzahl der günstigen Ergebnisse Anzahl der möglichen Ergebnisse
(6.1a)
Mit der Mengenschreibweise sieht diese Formel so aus:
P( A)
Anzahl der Elemente von A Anzahl der Elemente von :
(6.1b)
104
Kapitel 6 · Grundlagen der Wahrscheinlichkeitsrechnung
Die Laplace’sche Definition ordnet demnach jedem Ereignis eine Zahl zwischen 0 und 1 zu. Der Buchstabe P leitet sich ab vom englischen Ausdruck „probability“. Die Wahrscheinlichkeit eines Ereignisses ist vergleichbar mit der relativen Häufigkeit einer Merkmalsausprägung.
6
Beispiel 6.2: Wahrscheinlichkeit nach Laplace Mit der Definition von Laplace lässt sich berechnen, wie groß die Chance ist, eine gerade Zahl zu würfeln. Unter sechs möglichen Ergebnissen gibt es drei „günstige“ (nämlich die Augenzahlen 2, 4 und 6). Damit erhält man: P( A ) 3 / 6 1 / 2 . Für das unmögliche Ereignis (beispielsweise die Zahl 7) ergibt sich P( ) 0 , da die Anzahl der günstigen Ereignisse gleich 0 beträgt. Für das sichere Ereignis (Augenzahl zwischen 1 und 6) erhält man P( : ) 1 , da die Anzahl der günstigen der Anzahl der möglichen Ereignisse entspricht.
Mit der Laplace’schen Definition lassen sich auch kompliziertere Wahrscheinlichkeiten herleiten – so z. B. die Wahrscheinlichkeit, sechs Richtige im Lotto zu erzielen. Dennoch ist diese Definition nur eingeschränkt anwendbar: Sie setzt nämlich voraus, dass alle Elementarereignisse mit gleicher Wahrscheinlichkeit eintreten. Für das Würfeln und den Münzwurf trifft dies auch zu. So ist beispielsweise leicht nachvollziehbar, dass man bei einem idealen Würfel jeder Augenzahl die Wahrscheinlichkeit 1/6 zuordnet, oder dass die Wahrscheinlichkeit, beim Münzwurf „Wappen“ oder „Zahl“ zu erhalten, jeweils 1/2 beträgt. Für Ereignisse im medizinischen Bereich ist dieser Ansatz jedoch im Allgemeinen unbrauchbar.
x Empirische Herleitung. Bei Studien in der medizinischen For schung wird eine Wahrscheinlichkeit in der Regel empirisch ermittelt. Dazu wird eine hinreichend große Stichprobe untersucht; der Wert der relativen Häufigkeit einer Merkmalsausprägung wird dann als Näherungswert für die entsprechende Wahrscheinlichkeit zugrundegelegt. Dieses Vorgehen lässt sich durch das „Gesetz der gro› Abschnitt 6.4.2, S. 120 f). ßen Zahlen“ rechtfertigen (z Beispiel 6.3: Empirische Herleitung von Wahrscheinlichkeiten Aus den Daten aus Tabelle 2.1 ergeben sich folgende Häufigkeiten: 31 (Blutgruppe 0), 32 (A), 9 (B) und 4 (AB). 64 Studenten haben Rhesusfaktor positiv (R+), 12 Rhesusfaktor negativ (R–). Daraus ergeben sich die Schätzwerte: Pˆ (0) 41% , Pˆ ( A) 42% , Pˆ ( B) 12% , Pˆ ( AB) 5% ; Pˆ ( R) 84% , Pˆ ( R) 16% . Die exakten Wahrscheinlichkeiten sind (bezogen auf Mitteleuropa): P (0) 40% , P ( A) 45% , P ( B) 10% , P ( AB) 5% ; P ( R) 85% , P ( R) 15% .
105 6.2 Das Rechnen mit Wahrscheinlichkeiten
6
x Schätzen anhand eines statistischen Modells. Wenn geeignetes Datenmaterial zur Verfügung steht, lässt sich möglicherweise ein Modell entwickeln, das die Berechnung von Wahrscheinlichkeiten für spezielle Ereigniskonstellationen in Abhängigkeit von mehreren Einflussgrößen erlaubt. Diese komplexen Verfahren übersteigen jedoch den Rahmen dieses Buches; als weiterführende Literatur seien [1], [2] oder [6] empfohlen. x Computersimulation. Bei sehr komplexen Problemen, insbeson dere aus dem technisch-wissenschaftlichen Bereich, ist die empirische Vorgehensweise nicht brauchbar. Um beispielsweise die Wahrscheinlichkeit zu ermitteln, dass ein Flugzeug abstürzt oder dass eine Region von einem Erdbeben heimgesucht wird, kann man keine Zufallsexperimente durchführen. In diesen Fällen ist es sinnvoll, das Problem im Computer zu simulieren und mit Hilfe dieses Modells Wahrscheinlichkeiten zu ermitteln. Computersimulationen werden auch in der Wahrscheinlichkeitsrechnung verwendet, um basierend auf einer großen, künstlich erzeugten Datenmenge theoretische Verteilungen zu simulieren und daraus Wahrscheinlichkeiten zu berechnen, die sich weder theoretisch noch empirisch herleiten lassen. Die Computersimulation wird in den letzten Jahren – dank der Entwicklung leistungsfähiger Rechner und adäquater Software – zunehmend angewandt. Im Rahmen dieses Buches wird jedoch nicht näher auf diese Thematik eingegangen. 6.2.3
Die Verknüpfung zweier Ereignisse
Im vorigen Abschnitt wurden Methoden vorgestellt, mit denen sich die Wahrscheinlichkeit für das Auftreten eines bestimmten Ereignisses A ermitteln lässt. Bei vielen Fragestellungen interessieren jedoch nicht nur einzelne Ereignisse, sondern bestimmte Ereigniskonstellationen. Fragen dieser Art lauten z. B.: Wie groß ist die Wahrscheinlichkeit, dass eine Person Blutgruppe A und gleichzeitig Rhesusfaktor positiv hat? Oder auch: Wie groß ist die Wahrscheinlichkeit, dass ein bestimmtes Ereignis nicht eintritt? Wie groß ist die Wahrscheinlichkeit, dass ein Patient an Krebs erkrankt ist, nachdem ein diagnostischer Test einen positiven Befund ergeben hat? Verbindungen zwischen zwei Ereignissen lassen sich durch mengentheoretische Operationen beschreiben. Zur grafischen Darstellung dieser Beziehungen eignen sich die VENN-Diagramme (benannt nach dem britischen Mathematiker John Venn, 1834-1923).
106
Kapitel 6 · Grundlagen der Wahrscheinlichkeitsrechnung
So bezeichnen die Vereinigungsmenge A B : (sprich: A vereinigt B) die Schnittmenge A B : (sprich: A Schnitt B) die Differenzmenge A B : (sprich: A minus B)
6
das Ereignis, dass A allein oder B allein oder beide Ereignisse gemeinsam eintreten (Abb. 6.1a) das Ereignis, dass A und B gemeinsam eintreten (Abb. 6.1b) das Ereignis, dass A aber nicht B eintritt (Abb. 6.1c)
Beispiel 6.4: Vereinigungs-, Schnitt- und Differenzmenge Wenn A das Ereignis „Blutgruppe A“ und R das Ereignis „Rhesusfaktor positiv“ bezeichnet, dann bedeutet A R das Ereignis, dass die Blutgruppe A oder der Rhesusfaktor positiv vorliegt. Das Wort „oder“ wird dabei im nichtausschließlichen Sinne verwendet: A R beinhaltet, dass nur das Ereignis A (Blutgruppe A, Rhesusfaktor negativ) oder nur das Ereignis R (andere Blutgruppe als A, Rhesusfaktor positiv) eintritt oder beide Ereignisse gemeinsam (Blutgruppe A und Rhesusfaktor negativ) eintreten.
Zwei Ereignisse A und B, deren Durchschnitt die leere Menge bildet, heißen disjunkt (oder unvereinbar). Als Beispiel seien „männliches Geschlecht“ und „schwanger“ genannt. Formal gilt für disjunkte Ereignisse: A B . Zwei disjunkte Ereignisse, die sich zur Ergebnismenge : ergänzen, nennt man komplementär. Das zu A komplementäre Ereignis wird üblicherweise mit A (sprich: A quer) bezeichnet. Für A und A gelten:
ŷ A A : (die Ereignisse ergänzen sich) und ŷ A A (die Ereignisse sind disjunkt). B
A Abb. 6.1a Vereinigung A B
B
A Abb. 6.1b Schnitt A B
B
A Abb. 6.1c Differenz A B
107 6.2 Das Rechnen mit Wahrscheinlichkeiten
6
Beispiele für komplementäre Ereignisse sind: gerade und ungerade Augenzahl beim Würfeln, „Rhesusfaktor positiv“ und „Rhesusfaktor negativ“ oder „Laborwert pathologisch“ und „Laborwert physiologisch“. Komplementäre Ereignisse sind vergleichbar mit Alternativmerkmalen, bei denen es nur zwei Ausprägungen gibt. 6.2.4
Rechenregeln
Um mit Wahrscheinlichkeiten zu rechnen, ist es notwendig, deren mathematische Eigenschaften zu präzisieren. Der russische Mathematiker Andrej Kolmogoroff hat im Jahre 1930 drei Axiome aufgestellt, die diese Eigenschaften definieren. Demnach heißt eine Funktion P(A), die einem Ereignis A eine reelle Zahl zuordnet, Wahrscheinlichkeit, falls die folgenden Axiome erfüllt sind: 1. 0 d P( A ) d 1 2. P( : ) 1 3. P( A B ) P( A ) P( B ) für disjunkte Ereignisse A und B i Axiome sind einfache mathematische Aussagen, die nicht beweisbar sind. z Sie werden aufgestellt, um einen Begriff zu definieren oder um eine Theorie aufzubauen. Mittels der Axiome lassen sich weitere Aussagen deduktiv herleiten.
Beispiel 6.5: Wahrscheinlichkeit nach Kolmogoroff Wir betrachten die Funktion P, die den Blutgruppen folgende Wahrscheinlichkeiten zuordnet (Beispiel 6.3, S. 104): P (0) 0, 40 , P ( A) 0, 45 , P ( B) 0,10 und P ( AB ) 0, 05 . Der Ergebnismenge : ist ^0, A, B, AB` . Man kann leicht nachprüfen, dass die Axiome von Kolmogoroff erfüllt sind. Jede Wahrscheinlichkeit liegt zwischen 0 und 1 (Axiom 1), außerdem ist P( : ) 1 – denn eine der vier Blutgruppen liegt mit Sicherheit vor (Axiom 2). Die Wahrscheinlichkeit, dass eine der Blutgruppen A oder B gegeben ist, ist: P ( A B ) P( A) P( B) 0, 45 0,10 0,55 ; Analoges gilt für die anderen Ereignispaare (demnach ist Axiom 3 erfüllt). Somit handelt es sich bei der Funktion P um eine Wahrscheinlichkeit im Sinne von Kolmogoroff.
Die Definition der Wahrscheinlichkeit nach Kolmogoroff schließt die Definition von Laplace ein – sie ist jedoch wesentlich allgemeiner als diese. Während Laplace davon ausgeht, dass alle Elementarereignisse mit gleicher Wahrscheinlichkeit eintreten, verlangt Kolmogoroff lediglich, dass die Wahrscheinlichkeit jedes Elementarereignisses eine Zahl zwischen 0 und 1 ist, und dass deren Summe 1 er-
108
Kapitel 6 · Grundlagen der Wahrscheinlichkeitsrechnung
gibt. Aus den Axiomen von Kolmogoroff lassen sich mehrere Rechenregeln herleiten:
x Wahrscheinlichkeit für das komplementäre Ereignis. Aus P( A) ergibt sich sehr einfach die Wahrscheinlichkeit für das Ereignis A : P ( A ) 1 P ( A)
(6.2)
Daraus und aus Axiom 2 folgt für das unmögliche Ereignis:
P ( )
6
0
(6.3)
x Satz von der totalen Wahrscheinlichkeit. Er besagt, dass ein Er eignis A entweder zusammen mit dem Ereignis B oder mit B auftritt: P ( A)
P( A B) P( A B )
(6.4)
Das Ereignis A B ist identisch mit der Differenzmenge A B . Des› Abbildung 6.1c, S. 106): halb folgt aus der Formel (6.4) sofort (z P( A B )
P( A ) P( A B )
(6.5)
x Additionssatz. Für die Vereinigung zweier Ereignisse gilt: P( A B )
P( A ) P( B ) P( A B )
Wenn die beiden Ereignisse disjunkt sind, ist A B der Additionssatz eine etwas einfachere Form: P( A B )
P( A ) P( B )
(6.6) . Dann hat
(6.7)
Beispiel 6.6: Additionssatz Seien A und R+ die Ereignisse „Blutgruppe A“ bzw. „Rhesusfaktor positiv“. Dann entspricht R- dem Ereignis „Rhesusfaktor negativ“. Der Satz von der totalen Wahrscheinlichkeit (6.4) besagt, dass eine Person mit Blutgruppe A entweder „Rhesusfaktor positiv“ oder „Rhesusfaktor negativ“ hat. Die Wahrscheinlichkeit P( A) 0, 45 ist die Summe aus P ( A R ) 0,3825 und P ( A R ) 0, 0675 (die Wahrscheinlichkeiten der Schnittmengen werden im nächsten Abschnitt hergeleitet). Die Wahrscheinlichkeit für Rhesusfaktor positiv oder Blutgruppe A beträgt nach dem Additionssatz (6.6): P ( A R ) P ( A) P( R ) P( A R ) 0, 45 0,85 0,3825 0,9175
6
109 6.2 Das Rechnen mit Wahrscheinlichkeiten
Mathematische Herleitung der Rechenregeln Alle genannten Rechenregeln lassen sich auf die drei Axiome von Kolmogoroff zurückführen. Aus den Axiomen 2 und 3 folgt sofort: 1 P( : ) P( A A ) P( A ) P( A ) Daraus ergibt sich Formel (6.2). Der Satz von der totalen Wahrscheinlichkeit (Formel 6.4) folgt ebenfalls direkt aus Axiom 3. Um den Additionssatz herzuleiten (Formel 6.6), zerlegt man die Menge A B in drei disjunkte Teilmengen: P( A B ) P( A B ) P( A B ) P( A B ) Nach dem Satz von der totalen Wahrscheinlichkeit (6.4) ergibt die Summe der ersten beiden Summanden P( A ) ; für den dritten Summanden gilt: P( A B ) P( B ) P( A B ) . Demnach ist P( A B ) P( A ) P( B ) P( A B ) .
6.2.5
Bedingte Wahrscheinlichkeiten
In gewissen Situationen ist es nicht zweckmäßig, Wahrscheinlichkeiten anzugeben, die sich auf die Grundgesamtheit beziehen. Viele Krankheiten stehen in Zusammenhang mit dem Geschlecht der Patienten (z. B. Hämophilie, Rot-Grün-Blindheit oder Brustkrebs) oder sind abhängig von bestimmten Risiken. In diesen Fällen ist es sinnvoll, die Wahrscheinlichkeiten für bestimmte Teilmengen der Grundgesamtheit separat zu berechnen – etwa für Männer und für Frauen oder für Patienten mit und ohne Risikofaktor. Man spricht dann von einer bedingten Wahrscheinlichkeit und bezeichnet diese als P( A| B ) (sprich: „P von A gegeben B“ oder „P von A unter der Bedingung B“). Sie ist folgendermaßen definiert: P( A| B )
P( A B ) P( B )
(6.8)
Diese Formel quantifiziert die Wahrscheinlichkeit für das Eintreten des Ereignisses A eingeschränkt auf die Menge, die dem Ereignis B entspricht. Beispiel 6.7: Bedingte Wahrscheinlichkeiten Die Wahrscheinlichkeit, an Diabetes mellitus zu erkranken, beträgt für einen Mann P( D| M ) | 0 ,07 und für eine Frau P( D|W ) | 0 ,02 . Daraus geht hervor, dass das Risiko bei Männern wesentlich höher ist als bei Frauen. Die Wahrscheinlichkeit P( D ) | 0 ,045 , die sich auf die gesamte Population bezieht, ist wenig informativ.
110
Kapitel 6 · Grundlagen der Wahrscheinlichkeitsrechnung
Durch einfaches Umschreiben von (6.8) erhält man den Multiplikationssatz, mit dem sich die Wahrscheinlichkeit berechnen lässt, dass zwei Ereignisse A und B gemeinsam eintreten: P( A B )
P( A| B ) P( B )
(6.9)
Wenn A und B unabhängig sind, bedeutet dies, dass das Eintreten von B keinerlei Einfluss auf das Eintreten von A hat. Formal drückt man dies folgendermaßen aus: P( A| B ) P( A ) . Damit erhält man den Multiplikationssatz und den Additionssatz für unabhängige Ereignisse als Spezialfälle von (6.9) und (6.6):
6
P( A B )
P( A ) P( B )
(6.10)
P( A B )
P( A ) P( B ) P( A ) P( B )
(6.11)
Beispiel 6.8: Multiplikationssatz Die Ereignisse in Beispiel 6.6 (S. 108) „Blutgruppe A“ und „Rhesusfaktor positiv“ sind unabhängig. Die Wahrscheinlichkeit, dass eine Person Blutgruppe A und Rhesusfaktor positiv hat, berechnet sich dann sehr einfach nach (6.10): P ( A R ) P( A) P ( R ) 0, 45 0,85 0,3825 . Ein historisches Anwendungsbeispiel: In der Mitte des 19. Jahrhunderts erkrankten in Wien in der Entbindungsklinik, an der Ignaz Semmelweis tätig war, 24% der Frauen während ihres Klinikaufenthaltes an Kindbettfieber. Diese Wahrscheinlichkeit P ( K ) nennt man Inzidenz. Von den Erkrankten verstarben 80%; diese bedingte Wahrscheinlichkeit P (T K ) ist die Letalität. Mit dem Multiplikationssatz (6.9) ergibt sich für die Mortalität: P ( K T ) P(T K ) P ( K ) 0,80 0, 24 0,192 .
6.2.6
Das Bayes-Theorem
Das Bayes-Theorem geht zurück auf den englischen Geistlichen Thomas Bayes (1702-1761), der sich u. a. mit Glücksspielen befasste. Es erlaubt die Berechnung der bedingten Wahrscheinlichkeit P ( A | B ) , wenn außer der Wahrscheinlichkeit P ( A) auch die bedingten Wahrscheinlichkeiten P ( B | A) und P ( B | A ) bekannt sind: P( A| B )
P( A ) P( B| A ) P( A ) P( B| A ) P( A ) P( B| A )
(6.12)
Das Bayes-Theorem ermöglicht also Rückschlüsse von der a-prioriWahrscheinlichkeit P ( A) auf die a-posteriori-Wahrscheinlichkeit P ( A | B ) . Diese Formel wird in der Medizin bei diagnostischen Tests
111 6.2 Das Rechnen mit Wahrscheinlichkeiten
6
benutzt: Wenn A das Ereignis „Vorliegen einer bestimmten Krankheit“ und B das Ereignis „Testergebnis positiv“ symbolisieren, lässt sich mit obiger Formel die Wahrscheinlichkeit P ( A | B ) berechnen, mit der ein Patient mit einem positiven Befund tatsächlich erkrankt ist. Beispiel 6.9: Sensitivität, Spezifität und Vorhersagewerte Ein HIV-Test habe eine Sensitivität von 99% und eine Spezifität von 99,5%. Dann werden 99% der infizierten und 99,5% der nicht-infizierten Personen richtig klassifiziert. Die Wahrscheinlichkeit, dass eine infizierte Person fälschlicherweise ein negatives Ergebnis erhält, ist also 1%. Die Wahrscheinlichkeit, dass sich bei einer nicht-infizierten Person ein falsch positives Ergebnis ergibt, berechnet sich als 0,5%. Wenn dieser Test bei einer Risikogruppe von 100.000 Personen mit einer Prävalenz von 1/1000 angewandt wird, erwartet man theoretisch folgende Häufigkeiten: positiver Befund negativer Befund infiziert 99 1 100 nicht infiziert 500 99.400 99.900 599 99.401 100.000 Mit der Prävalenz P ( H ) 0, 001 , der Sensitivität P (T H ) 0,99 und der Spezifität P (T H ) 0,995 ergeben sich die Vorhersagewerte mit Formel (6.12). Sie lassen sich auch aus den obigen Häufigkeiten herleiten als: P ( H T ) 99 / 599 0,165 und P ( H T ) 99.400 / 99.401 0,99999 . Demnach ist nur etwa 1/6 der positiven Ergebnisse auf eine Infektion zurückzuführen; der Rest ist falsch positiv. Die negativen Befunde sind dagegen fast alle korrekt. ! Ausführliche Hinweise zu diagnostischen Tests findet man in Abschnitt z
14,1, S. 287 ff.
Mathematische Herleitung des Bayes-Theorems Nach der Definition der bedingten Wahrscheinlichkeit in (6.8) ist P( A B ) . P( A| B ) P( B ) Der Zähler dieses Quotienten lässt sich – wenn man die Ereignisse A und B in der Formel (6.9) des Multiplikationssatzes vertauscht – schreiben als: P ( A B) P ( A) P ( B | A) . Analog leitet man her: P( A B) P( A ) P( B | A ) Mittels des Satzes von der totalen Wahrscheinlichkeit (6.4) ergibt sich dann für den Nenner des obigen Quotienten: P ( B) P ( A B) P ( A B) P ( A) P( B | A) P( A) P( B | A) Mit diesen Ausdrücken erhält man für P( A| B ) die Formel (6.12).
112
Kapitel 6 · Grundlagen der Wahrscheinlichkeitsrechnung
6.3
Zufallsvariable
6.3.1
Die Bedeutung einer Zufallsvariablen
Der Begriff des Merkmals ist fundamental für die deskriptive Statistik. Die Beschreibung einer Stichprobe beruht im Wesentlichen auf den Häufigkeiten der Merkmalsausprägungen und auf statistischen Kenngrößen wie etwa Mittelwert und Standardabweichung.
6
In der Wahrscheinlichkeitsrechnung benutzt man anstelle des konkreten Begriffs „Merkmal“ den abstrakten Begriff „Zufallsvariable“. Theoretisch handelt es sich dabei um eine Funktion, die jedem möglichen Ergebnis eines Zufallsexperiments eine reelle Zahl zuordnet. Diese Zahlenwerte entsprechen den Merkmalsausprägungen und werden mit Kleinbuchstaben vom Ende des Alphabets (z. B. xi ) symbolisiert. Die Zufallsvariable selbst bezeichnet man in der Regel mit dem passenden Großbuchstaben (z. B. X ). Es ist für das Verständnis der Wahrscheinlichkeitsrechnung sehr hilfreich, sich die Analogie der Begriffe „Merkmal“ und „Zufallsvariable“ vor Augen zu halten. Die xi werden Realisationen (oder Realisierungen) von X genannt. Bei quantitativen Merkmalen sind die xi die Mess- oder Zählwerte; bei qualitativen Merkmalen entsprechen die xi den Ausprägungen › Beispiel 2.5, S. 28). Ebenso wie oder numerischen Codierungen (z ein Merkmal lässt sich auch eine Zufallsvariable einem bestimmten Skalenniveau zuordnen; ferner lassen sich diskrete und stetige Zufallsvariablen unterscheiden. 6.3.2
Diskrete Zufallsvariablen
Diskrete Zufallsvariable ergeben sich bei der Beobachtung von Zufallsexperimenten, bei denen abzählbar viele Ergebnisse möglich sind. So lassen sich beispielsweise die Ergebnisse beim Münzwurf, das Merkmal „Blutgruppe“ oder die Anzahl der Schwangerschaften einer Frau durch diskrete Zufallsvariablen beschreiben. Ein Elementarereignis A wird dargestellt durch X xi (das heißt: Die Zufallsvariable X nimmt den Wert xi an). Für die Wahrscheinlichkeit P ( X xi ) sind folgende Schreibweisen gebräuchlich: P ( A)
P( X
xi )
P( xi )
pi
(6.13)
6
113 6.3 Zufallsvariable
Beispiel 6.10: Diskrete Zufallsvariable Beim Münzwurf gibt es zwei Möglichkeiten: Wappen oder Zahl. A sei das Ereignis „Zahl“. Dieses Merkmal lässt sich durch eine diskrete Zufallsvariable X beschreiben, die die beiden Werte 0 (Wappen) oder 1 (Zahl) annehmen kann. Es gilt: P ( A) P( X 1) 1 / 2 und P ( A) P( X 0) 1/ 2 . Beim Merkmal „Blutgruppe“ gibt es vier Möglichkeiten mit den Wahrscheinlichkeiten p1 P(0) 0, 40 , p2 P( A) 0, 45 , p3 P ( B ) 0,10 , p4 P( AB) 0,05 .
Die Wahrscheinlichkeiten aller Elementarereignisse (deren Anzahl sei k) summieren sich – ebenso wie die relativen Häufigkeiten – zu 1: k
k
¦ p ¦ f (x ) i
i 1
i
1
(6.14)
i 1
Die Wahrscheinlichkeitsfunktion f ( x) ordnet jedem Wert xi dessen Wahrscheinlichkeit pi zu; sie ist definiert als: f ( x)
pi für x xi (i ® ¯0 sonst
1,...k )
(6.15)
Die graphische Darstellung ist ein Stabdiagramm mit 1-dimensiona› Abschnitt 3.1.3, S. 43). Für ordinal skalen senkrechten Linien (z lierte und quantitative Variable lässt sich die Verteilungsfunktion bestimmen: F ( x) P ( X d x) gibt die Wahrscheinlichkeit an, dass X einen Wert annimmt, der kleiner als x oder gleich x ist. 6.3.3
Stetige Zufallsvariablen
Eine stetige Zufallsvariable X (z. B. Körpergewicht oder Körpergröße) kann theoretisch alle Zahlenwerte innerhalb eines bestimmten Intervalls annehmen. Die Wahrscheinlichkeitsverteilung wird durch die Dichtefunktion (oder Dichte) beschrieben. Diese Funktion ordnet jedem Wert xi der Zufallsvariablen einen Funktionswert f ( xi ) ! 0 zu. Die Gesamtfläche unter der Kurve f (x) ist gleich 1: f
³ f ( x)dx
1
(6.16)
f
Diese Gleichung drückt aus, dass die Zufallsvariable X mit Sicherheit einen Wert zwischen -f und +f annimmt. Sie ist vergleichbar mit (6.14); das 6-Zeichen ist ersetzt durch das Integral.
114
Kapitel 6 · Grundlagen der Wahrscheinlichkeitsrechnung
Abb. 6.2 Dichte einer stetigen Zufallsvariablen. Die eingezeichnete Fläche entspricht P ( a d X d b) .
P(a ≤ x ≤ b)
a
6
b
Die empirische Dichte wurde in Abschnitt 3.1.2 (S. 42) eingeführt. Deren graphische Darstellung ist ein Histogramm, dessen Gesamtfläche 1 beträgt. – Die Verteilungsfunktion einer stetigen Zufallsvariablen ist das Integral über der Dichte: x
F ( x)
P ( X d x)
³ f (t )dt
(6.17)
f
Daraus folgt für das komplementäre Ereignis X ! x : f
P( X ! x)
³ f (t )dt
1 F ( x)
(6.18)
x
! Die Dichte in den Gleichungen (6.17) und (6.18) wird mit f (t ) bezeichz
net, weil x eine Grenze des Integrals darstellt, während sich die Variable t zwischen den Grenzen -f und x bzw. zwischen x und +f bewegt.
Aus den obigen Formeln lassen sich folgende allgemeine Eigenschaften der Verteilungsfunktion F ( x ) herleiten:
ŷ F ( x ) ist eine monoton wachsende Funktion, ŷ F ( x ) hat die Grenzwerte F( f ) 0 und F( f ) 1 , ŷ die Dichte f ( x ) ist die Ableitung der Verteilungsfunktion; es gilt nämlich: f ( x )
F' ( x ) .
Die Wahrscheinlichkeit, dass X einen Wert zwischen a und b annimmt, wird folgendermaßen berechnet:: b
P ( a d X d b)
³ f ( x)dx a
F (b) F (a)
(6.19)
6
115 6.3 Zufallsvariable
Das Integral (6.19) beschreibt eine Fläche, die von der x-Achse, der Kurve f ( x ) und den Parallelen zur y-Achse x a und x b be› Abbildung 6.2, S. 114). Dies entspricht einem Teil grenzt wird (z der Gesamtfläche unter der Dichtefunktion, deren Wert nach (6.16) 1 beträgt. Infolgedessen hat das Integral in (6.19) immer einen Wert zwischen 0 und 1. Für die Wahrscheinlichkeit, dass X einen bestimmten Wert a annimmt, berechnet man: P( X
a)
F (a) F (a)
0
(6.20)
Dieses Ergebnis mag manchen Leser überraschen. Es sei an einem konkreten Beispiel erläutert: Wir betrachten die Zufallsvariable X, die das Merkmal „Körpergröße“ symbolisiert. Dann ist es sinnlos, nach der Wahrscheinlichkeit zu fragen, mit der X einen Wert von beispielsweise 178 cm annimmt. Dieser scheinbare Widerspruch zur Realität wird dadurch erklärt, dass die gemessene Körpergröße nicht exakt 178 cm beträgt, sondern sich – bei einer Messgenauigkeit von 1 cm – zwischen 177,5 cm und 178,5 cm bewegt. 6.3.4
Lageparameter
x Erwartungswert. Das bekannteste Lagemaß einer Stichprobe ist der Mittelwert; das Analogon zur Charakterisierung einer Grundgesamtheit wird Erwartungswert genannt. Während die Parameter einer Stichprobe gewöhnlich mit lateinischen Buchstaben dargestellt werden, bezeichnet man die Parameter einer Grundgesamtheit mit griechischen Buchstaben. Der Erwartungswert wird mit P (sprich: mü) symbolisiert; dies entspricht dem lateinischen m. Bei einer diskreten Zufallsvariablen mit k möglichen Realisationen gilt: P
k
¦x
i
pi
(6.21)
i 1
Der Erwartungswert einer stetigen Zufallsvariablen ist definiert als: f
P
³ x f ( x)dx
(6.22)
f
! Der Begriff „Erwartungswert“ wurde bereits 1657 vom niederländischen z
Mathematiker Christiaan Huygens in dessen Buch „De Ratiociniis in Alea Ludo“ eingeführt. Dies war das erste Lehrbuch der Wahrscheinlichkeitsrechnung und hatte großen Einfluss auf deren weitere Entwicklung.
116
Kapitel 6 · Grundlagen der Wahrscheinlichkeitsrechnung
Der Erwartungswert von X wird auch mit EX , E ( X ) oder P x bezeichnet. Diese Schreibweisen bevorzugt man, wenn der Variablenname X hervorgehoben werden soll. Zwei unmittelbar einleuchtende Rechenregeln seien an dieser Stelle genannt: E ( aX b)
a EX b
E ( X 1 ... X n )
(6.23)
n
¦ EX
i
(6.24)
i 1
Gleichung (6.24) beschreibt die Additivität der Erwartungswerte.
6
Abgesehen von den Begriffen „Mittelwert“ bzw. „Erwartungswert“ (die im englischen Sprachgebrauch einheitlich als „mean value“ bezeichnet werden) stimmen bei den anderen Parametern die Bezeichnungen für die Stichprobe und die Grundgesamtheit überein. ~ (sprich: mü Schlange) einer x Median und Quantile. Der Median P Grundgesamtheit ist durch die Verteilungsfunktion bestimmt. Bei einer diskreten Zufallsvariablen ist der Median die kleinste Zahl ~ ) t 0,5 . Analog dazu ist ein zwischen 0 und k, für die gilt: F (P ~ (mit 0 D 1 ) definiert als die kleinste beliebiges D-Quantil P D ~ ) t D . Bei einer stetigen Variablen X sind der MeZahl mit F (P D dian und die D-Quantile definiert als: F( P ) 0,5 bzw. F( P D ) D .
x Modus. Der Modus der Grundgesamtheit ist der Wert mit der größten Wahrscheinlichkeit pi . Bei stetigen X ist der Modus der Wert, an dem die Dichtefunktion f ( x ) ein Maximum aufweist. Bei bi- oder multimodalen Verteilungen existieren eventuell mehrere Modalwerte. 6.3.5
Streuungsparameter
x Varianz. In der deskriptiven Statistik ist die empirische Varianz definiert als die mittlere quadratische Abweichung der StichprobenDaten vom Mittelwert. Das Analogon in der Wahrscheinlichkeitsrechnung ist der Erwartungswert der quadratischen Abweichung der Zufallsvariablen X von P : V2
E ( X P)2
E ( X 2 ) P2
(6.25)
Das griechische V (Sigma) entspricht dem lateinischen s und bezeichnet die Standardabweichung der Grundgesamtheit. Für diskrete bzw. stetige Zufallsvariable ist die Varianz äquivalent zu:
6
117 6.3 Zufallsvariable
V2
k
¦(x
i
P ) 2 pi
(6.26)
i 1
f
V2
³ ( x P)
2
f ( x)dx
(6.27)
f
Wegen der quadratischen Dimension einer Varianz gilt: Var( aX b)
a 2 Var(X )
(6.28)
Daraus folgt sofort (für a 0 ): Var(b) 0 . Dies beinhaltet die triviale Feststellung: Eine Konstante hat keine Varianz. Für die Summe zweier Zufallsvariablen gilt allgemein: Var( X Y )
Var( X ) Var(Y ) 2 Cov( X , Y )
(6.29)
Die Kovarianz ist definiert als:
Cov( X , Y )
E ( X P x ) (Y P y )
E ( XY ) P x P y
(6.30)
Die Kovarianz ist 0, wenn X und Y unabhängige Variable sind. Für die Summe von mehreren unabhängigen Zufallsvariablen gilt: n
Var( ¦ X i ) i 1
n
¦ Var(X )
(6.31)
i
i 1
Mathematische Herleitung der Rechenregeln zur Varianz Aus der Definition der Varianz ergibt sich unter Berücksichtigung der Rechenregeln (6.23) und (6.24) die Formel (6.25): V2 E (( X P )2 ) E ( X 2 2P X P 2 ) E ( X 2 ) 2P E ( X ) P 2 E ( X 2 ) 2P 2 P 2 E ( X 2 ) P 2 Die Formeln (6.26) und (6.27) folgen dann direkt aus (6.21) bzw. (6.22), indem man x durch ( x P) 2 ersetzt. Für die Variable aX b erhält man aus der Definition der Varianz in (6.25) die Formel (6.28): Var (aX b)
E (aX b aP b) 2
a 2 E ( X P) 2
a 2 Var ( X )
118
Kapitel 6 · Grundlagen der Wahrscheinlichkeitsrechnung
Die zentralen Momente
6.3.6
Weitere Charakterisierungen einer quantitativen Zufallsvariablen gestatten die so genannten Momente EX k und die zentralen Momente E ( X EX ) k (wobei k eine natürliche Zahl ist). Das erste Moment EX haben wir bereits als den Erwartungswert P kennen gelernt. Das zweite zentrale Moment E ( X EX ) 2 ist die Varianz. Aus dem 3. zentralen Moment lässt sich die Schiefe J1 (Gamma) herlei› Formel 4.15, S. 68): ten (z J1
6
E ( X EX ) 3 V 3
(6.32)
Da sich wegen der 3. Potenz negative und positive Abweichungen der x-Werte vom Mittelwert ausgleichen, ergibt sich bei symmetrischen Verteilungen für die Schiefe der Wert 0. Bei linksgipfeligen (rechtsschiefen) Verteilungen ist J1 ! 0 , bei rechtsgipfeligen (linksschiefen) ist J1 0 . Mit dem 4. zentralen Moment wird die Wölbung definiert als J2
E ( X EX ) 4 V 4 3
(6.33)
› Formel 4.17, S. 70). Das 4. zentrale Moment der Normalvertei(z lung ist 3V 4 (dies sei ohne Beweis erwähnt). Mit der Definition nach (6.33) erreicht man, dass die Wölbung einer normalverteilten Zufallsvariablen den Wert 0 annimmt.
6.4
Sätze der Wahrscheinlichkeitsrechnung
6.4.1
Die Tschebyscheff’sche Ungleichung
Von dem russischen Mathematiker Pafnutij Tschebyscheff (18211879) wurde im Jahr 1874 die nach ihm benannte Tschebyscheff’sche Ungleichung hergeleitet. Sie erlaubt eine Abschätzung der Wahrscheinlichkeit, mit der die Zufallsvariable X um mehr als eine feste Zahl vom Erwartungswert P abweicht. Es gilt: P (| X P |! kV) d
1 k2
für alle k ! 0
(6.34)
Diese Ungleichung lässt sich auch in einer anderen Form schreiben, indem man den Faktor kV durch H (Epsilon) ersetzt:
6
119 6.4 Sätze der Wahrscheinlichkeitsrechnung
P (| X P |! H) d
V2
für alle H ! 0
H2
(6.35)
Die Tschebyscheff’sche Ungleichung setzt keine besondere Verteilungsform voraus – sie gilt generell für alle, also für symmetrische und auch für schiefe Verteilungen. Allerdings sind die daraus hergeleiteten Abschätzungen recht grob. Für k 1 ergibt sich aus (6.34) lediglich die triviale Feststellung: P(| X P |! V) d 1
2 und k
Für k
3 berechnet man:
P(| X P |! 2V) d
1 4
P(| X P |! 3V) d
1 9
Demnach liegen bei jeder Verteilung mindestens 8/9 aller Werte in› Abschnitt 4.3.1, S. 64). Wenn genaunerhalb der Grenzen Pr3V (z ere Informationen bezüglich der Verteilungsform vorliegen, sind bessere Abschätzungen möglich. Gauß hat bereits 1821 für symmetrische, eingipfelige Verteilungen eine schärfere Ungleichung nachgewiesen: P (| X P |! kV) d
4 9k 2
für alle k t 2
3 | 1,155
(6.36)
Mathematische Herleitung der Tschebyscheff’schen Ungleichung Zunächst betrachten wir eine stetige Zufallsvariable X mit dem Erwartungswert P, die nur positive Werte annehmen kann. Dann gilt nach der Definition des Erwartungswertes in (6.22) und nach (6.18) für alle c ! 0 : f
³
P
0
xf ( x)dx t
f
³
f
xf ( x)dx t cP
cP
³ f ( x)dx
cP P ( X ! cP)
cP
Daraus folgt: P ( X ! cP) d 1 / c . Wenn man nun anstelle von X die Variable ( X P) 2 mit dem Erwartungswert V 2 betrachtet und für c eine Konstante k 2 einsetzt, erhält man:
P ( EX P) 2 ! k 2V 2 d 1 / k 2 .
Da der Ausdruck in der Klammer gleichbedeutend ist mit: EX P ! kV , folgt daraus die Tschebyscheff’sche Ungleichung in der Form (6.34).
120
Kapitel 6 · Grundlagen der Wahrscheinlichkeitsrechnung
Für k
2 oder k
3 erhält man damit folgende Abschätzungen:
P(| X P |! 2V) d
1 4 | 0,111 P(| X P |! 3V) d | 0,049 9 81
Das Gesetz der großen Zahlen
6.4.2
Es ist intuitiv klar, dass sich der Erwartungswert einer Grundgesamtheit durch einen Stichproben-Mittelwert umso genauer schätzen lässt, je größer der zugrunde liegende Stichprobenumfang ist. Das Gesetz der großen Zahlen ist die mathematisch präzise Formulierung dieses Sachverhalts.
6
Vorab einige Überlegungen: Wir wissen, dass der Mittelwert aus n Werten berechnet wird, die zufällig in die Stichprobe gelangen. Wenn man aus derselben Grundgesamtheit eine andere Stichprobe des Umfangs n ziehen würde, erhielte man andere StichprobenWerte und damit auch einen anderen Mittelwert. Bei einer großen Grundgesamtheit sind eine enorme Vielzahl von Stichproben des Umfangs n und fast ebenso viele verschiedene Mittelwerte denkbar. Demzufolge ist jeder Mittelwert vom Zufall abhängig und lässt sich insofern auffassen als die Realisation einer Zufallsvariablen: n
¦ Xi X
i 1
n
Alle Variablen X i haben den Erwartungswert P und die Varianz V 2 . Für die Funktional-Parameter von X leitet man her: P
E( X ) Var( X ) Vx
V n
(6.37) V2 n
(6.38)
(6.39)
In Abschnitt 7.2.5 (S. 143 f) wird gezeigt, dass die Verteilung der Mittelwerte einer Normalverteilung entspricht. Diese Betrachtung der Zufallsvariablen X ist für jemanden, der sich zum ersten Mal
121 6.4 Sätze der Wahrscheinlichkeitsrechnung
6
mit Wahrscheinlichkeitsrechnung befasst, eine eigenartige Sichtweise. Normalerweise liegt eine konkrete Stichprobe vor, aus der ein einziger Mittelwert resultiert. Wieso spricht man nun von der Verteilung der Mittelwerte, und was bedeuten in diesem Zusammenhang der Erwartungswert und die Standardabweichung von X ? Man muss sich – um einen Mittelwert beurteilen zu können – darüber im Klaren sein, dass dieser Wert zufällig zustande gekommen ist, und dass sich ebenso gut ein anderer aus einer immensen Vielzahl von Möglichkeiten hätte ergeben können. Die Variabilität dieser möglichen Mittelwerte wird durch die Standardabweichung V x quantifiziert. Sie wird deshalb auch als der Standardfehler des Mittelwerts bezeichnet. Dieser ist umso geringer, je kleiner die Standardabweichung der Grundgesamtheit V und je größer der Stichprobenumfang n ist. Aus diesem Grund ermöglichen homogene Grundgesamtheiten mit kleinem V bessere Schätzungen des Erwartungswerts als heterogene Populationen mit großem V . Wir werden in Kapitel 8 (S. 159 ff) bei der Behandlung von Schätzverfahren darauf zurückkommen. Nach diesen theoretischen Überlegungen lässt sich nun das so genannte schwache Gesetz der großen Zahlen herleiten. Es beinhaltet die Aussage, dass sich ein Mittelwert x mit wachsendem Stichprobenumfang dem Erwartungswert P nähert. Mathematisch formuliert man dies folgendermaßen:
X
1 n ¦ Xi o P n i 1 n of
(6.40)
Man sagt auch: Der Mittelwert konvergiert gegen den Erwartungswert. Die schärfere Form – das starke Gesetz der großen Zahlen – besagt, dass diese Annäherung mit einer Wahrscheinlichkeit von nahezu 1 erfolgt. Sei H ! 0 eine beliebige positive Zahl; dann gilt: P | X P | H o 1 n of
(6.41)
Verbal formuliert bedeutet die Formel (6.41), dass die Differenz H zwischen Mittelwert und Erwartungswert beliebig klein gehalten werden kann, wenn n entsprechend groß ist. Einerseits rechtfertigt dieses Gesetz einen hohen Stichprobenumfang. Andererseits besagt es auch, dass ab einer gewissen Größe der Unterschied zwischen Mittelwert und Erwartungswert so gering ist, dass eine Erhöhung des Stichprobenumfangs nicht mehr sinnvoll ist.
122
Kapitel 6 · Grundlagen der Wahrscheinlichkeitsrechnung
Mathematische Herleitung des Gesetzes der großen Zahlen Zunächst berechnen wir den Erwartungswert und die Varianz des Mittelwerts. Mit (6.23) und (6.24) (Seite 116) leitet man her: n 1 n n P E ( X ) E ( ¦ X i / n) ¦ E( X i ) n P n i 1 i 1 Für die Varianz berechnet man mit (6.28) und (6.31): Var( X )
n
Var(¦ X i / n) i 1
1 n2
n
¦ Var( X i ) i 1
n V2 n2
V2 n
Dann folgt mit der Tschebyscheff’schen Ungleichung (6.35):
P | X P |! H d
Var( X )
V2
o 0 nH 2 n o f H Wenn man nun die Wahrscheinlichkeit für das komplementäre Ereignis
6
2
X P H betrachtet, ergibt sich das Gesetz der großen Zahlen nach (6.41).
Zusammenfassung Kapitel 6 Rechenregeln für Wahrscheinlichkeiten: Satz für das komplementäre Ereignis A Satz von der totalen Wahrscheinlichkeit
P ( A) 1 P( A)
P ( A)
P( A B ) P( A B )
P( A B)
Additionssatz
A und B P( A B) A und B P( A B)
P ( A) P ( B ) P ( A B ) disjunkt P ( A) P ( B ) unabhängig P ( A) P( B ) P( A) P ( B )
Rechenregeln für statistische Parameter: Erwartungswert
Varianz
E (aX b)
a EX b n
¦ EX i
E ( X 1 ... X n )
i 1
Var(aX b)
a Var(X )
Var( X Y )
Var(X ) Var(Y ) 2 Cov( X , Y )
2
X und Y unabhängig Var( X Y ) Var(X ) Var(Y )
7
Verteilungen 7.1
Diskrete Verteilungen 125
7.1.1
Das Bernoulli-Experiment 125
7.1.2
Die Binomialverteilung 126
7.1.3
Die Poissonverteilung 131
7.1.4
Die geometrische Verteilung 133
7.1.5
Die hypergeometrische Verteilung 135
7.2
Die Normalverteilung 136
7.2.1
Allgemeine Eigenschaften 136
7.2.2
Die Standardnormalverteilung 138
7.2.3
V-Bereiche und Referenzbereiche 139
7.2.4
Normalisierende Transformationen 141
7.2.5
Der zentrale Grenzwertsatz 143
7.2.6
Die Bedeutung der Normalverteilung 145
7.3
Die Verteilung von Überlebenszeiten 146
7.3.1
Einige wichtige Begriffe 146
7.3.2
Die Exponentialverteilung 148
7.3.3
Die Weibull-Verteilung 150
7.4
Prüfverteilungen 151
7.4.1
Die t-Verteilung 152
7.4.2
Die Chi2-Verteilung 153
7.4.3
Die F-Verteilung 155
125 7.1 Diskrete Verteilungen
7.1
Diskrete Verteilungen
7.1.1
Das Bernoulli-Experiment
7
Im Rahmen medizinischer Fragestellungen befasst man sich häufig mit Beobachtungen, bei denen nur zwei Ergebnisse möglich sind: So interessiert man sich beispielsweise dafür, ob eine Therapie erfolgreich ist oder nicht, oder man beurteilt einen Laborwert danach, ob er physiologisch oder pathologisch ist. Zufallsexperimente einfachster Art mit nur zwei möglichen Ausgängen bezeichnet man als Bernoulli-Experimente, benannt nach dem Schweizer Mathematiker Jakob Bernoulli (1654-1705). Dieses Modell ist anwendbar bei allen qualitativen und quantitativen Merkmalen, deren Ausprägungen in zwei Gruppen oder Klassen eingeteilt sind. Um ein Bernoulli-Experiment formal zu beschreiben, betrachten wir zwei komplementäre Ereignisse A und A . Wir führen eine Zufallsvariable X ein, welche die Werte 1 (falls A eintritt) und 0 (falls A eintritt) annehmen kann. Die dazugehörenden Wahrscheinlichkeiten seien: P ( A)
P( X
1)
p
P ( A)
P( X
0)
q
Nach Formel (6.2) (S. 108) erhalten wir für die Wahrscheinlichkeit des komplementären Ereignisses A : q 1 p
(7.1)
Die Wahrscheinlichkeit p kann – wie bereits in Abschnitt 6.2.2 (S. 104) erwähnt – empirisch geschätzt werden, indem man ein Bernoulli-Experiment hinreichend oft wiederholt und dann die relative Häufigkeit des Ereignisses A als Schätzwert für p verwendet. › Abschnitt 6.4.2, S. i Diese Variante des Gesetzes der großen Zahlen (z z
120 f) findet sich bereits in Bernoullis Schrift „Ars conjectandi“, die erst nach seinem Tod im Jahr 1713 veröffentlicht wurde. Das Neue und Besondere an diesem Werk ist die Idee, die Statistik auf wirtschaftliche und gesellschaftliche Probleme anzuwenden.
Die diskreten Verteilungen, die in den folgenden Abschnitten vorgestellt werden, beschreiben Wahrscheinlichkeitsverteilungen, die sich ergeben, wenn mehrere Bernoulli-Experimente nacheinander
126
Kapitel 7 · Verteilungen
durchgeführt werden. Fragestellungen dieser Art treten bei medizinischen Studien häufig auf. Als Beispiele seien genannt:
ŷ Es werden zehn Patienten behandelt; die Wahrscheinlichkeit für
7
einen Therapieerfolg liegt im Einzelfall bei 80%. Dann stellt sich die Frage, mit welcher Wahrscheinlichkeit eine bestimmte An› Binomialverteizahl von Erfolgen oder Misserfolgen eintritt (z lung, Seite 126 ff). ŷ In einer Notfallzentrale gehen durchschnittlich drei Meldungen pro Nacht ein. Wie groß ist die Wahrscheinlichkeit, dass in einer Nacht kein Notfall, einer oder eine andere Anzahl gemel› Poissonverteilung, Seite 131 ff)? det wird (z ŷ Bei einer Frau wird eine In-Vitro-Fertilisation durchgeführt. Wie hoch ist die Wahrscheinlichkeit, dass die Frau nach einem oder nach zwei Versuchen oder erst später schwanger wird, › wenn die Erfolgswahrscheinlichkeit jedes Mal 40% beträgt (z geometrische Verteilung, Seite 133 ff)? 7.1.2
Die Binomialverteilung
Wenn ein Bernoulli-Experiment mehrfach wiederholt wird und diese Wiederholungen unabhängig voneinander sind, bezeichnet man dies als einen Bernoulli-Prozess. Wenn beispielsweise im Rahmen einer klinischen Studie eine bestimmte Anzahl von Patienten behandelt wird, und das Endereignis „Therapieerfolg“ mit den Ausprägungen „ja“ und „nein“ untersucht wird, dann handelt es sich bei dieser Beobachtungsserie formal um einen Bernoulli-Prozess. Ein solcher Prozess ist folgendermaßen charakterisiert:
ŷ Es werden n unabhängige Bernoulli-Experimente durchgeführt,
die durch gleich verteilte Zufallsvariable X i ( i 1,..., n ) beschrieben werden. ŷ Jedes X i nimmt mit der Wahrscheinlichkeit p den Wert 1 (bei Eintreten des Ereignisses A) und mit der Wahrscheinlichkeit q 1 p den Wert 0 (bei Eintreten von A ) an. ŷ Dann quantifiziert die Zufallsvariable X X 1 X 2 ... X n , wie häufig bei n Experimenten das Ereignis A eingetreten ist. X wird durch eine Binomialverteilung beschrieben. Eine binomialverteilte Zufallsvariable X ist durch die Parameter n und p eindeutig festgelegt und wird mit X ~ B (n, p ) angegeben. Der Erwartungswert und die Varianz von X sind berechenbar als:
7
127 7.1 Diskrete Verteilungen n
¦ EX
E( X )
i
n p
(7.2)
i 1
n
Var( X )
¦ Var( X ) i
n pq
(7.3)
i 1
Beispiel 7.1: Binomialverteilung (Erwartungswert und Varianz) Eine Therapie hat eine Erfolgswahrscheinlichkeit von 80%. Es werden 10 Patienten behandelt. Formal lässt sich dieses Vorgehen auffassen als ein Prozess bestehend aus n 10 Bernoulli-Experimenten mit den möglichen Ergebnissen A (Erfolg) und A (Misserfolg). Die Wahrscheinlichkeiten sind: p P ( A) 0,80 und q P ( A) 0, 20 Die Zufallsvariable X B (10;0,8) quantifiziert die Anzahl der Erfolge. Für den Erwartungswert und die Varianz ergeben sich: P 10 0,8 8,0 nach (7.2) V2
10 0,8 0, 2 1,6
nach (7.3)
Etwas komplizierter ist die Berechnung der Wahrscheinlichkeiten. Die Zufallsvariable X ~ B (n, p ) kann theoretisch jede natürliche Zahl zwischen 0 und n annehmen. Diese Zahl gibt an, wie oft bei n Zufallsexperimenten das Ereignis A eingetreten ist. Die entsprechenden Wahrscheinlichkeiten berechnet man nach folgender Formel:
§ n · k n k für k 0,..., n (7.4) ¨k ¸ p q © ¹ §n· Der Ausdruck ¨¨ ¸¸ (sprich: n über k) wird als Binomialkoeffizient ©k ¹ P( X
k)
bezeichnet. Er quantifiziert die Anzahl der Möglichkeiten, aus einer Menge von n Elementen genau k Elemente auszuwählen, und ist folgendermaßen definiert:
§n· ¨k ¸ © ¹
n! k ! ( n k )!
1 2 ... n (1 ... k ) ((1 ... ( n k ))
(7.5)
Der Zähler dieses Ausdrucks n! (sprich: n Fakultät) bezeichnet das Produkt, das aus allen natürlichen Zahlen von 1 bis n gebildet wird. Entsprechend werden k! und (n k )! im Nenner berechnet. Bezüglich der Formel (7.5) sind folgende Regeln zu beachten:
128
Kapitel 7 · Verteilungen
ŷ Jeder Binomialkoeffizient ist eine natürliche Zahl. ŷ Einen Binomialkoeffizienten berechnet man am einfachsten als einen Bruch mit k natürlichen Zahlen im Zähler (beginnend bei n in absteigender Reihenfolge) und k Zahlen im Nenner (beginnend bei 1 in aufsteigender Reihenfolge). So ist z. B. §10 · ¨¨ ¸¸ ©3¹
10 9 8 1 2 3
120 .
ŷ Für alle p gilt generell: p 0 1 und p1 §n·
§ n ·
p.
§ 10 ·
§ 10 ·
¸¸ ; z. B. ¨ ¸ ¨ ¸ . ŷ Für alle k 0,..., n gilt: ¨¨ ¸¸ ¨¨ ©3¹ ©7¹ ©k ¹ ©n k ¹
7
§ n·
§ n·
© ¹
© ¹
ŷ Per definitionem ist: ¨¨ ¸¸ ¨¨ ¸¸ 1 0 n Mathematische Herleitung der Parameter der Binomialverteilung Wir betrachten den einfachsten Fall n 1 . Nach (6.21) und (6.26) (S. 115 und 117) berechnet man: P 1 p 0 q p und V 2 (1 p )2 p (0 p ) 2 q q 2 p p 2 q pq (q p ) pq Für die Summe X X 1 ... X n gilt nach (6.24) und (6.31): EX np und VarX npq Bei n unabhängigen Wiederholungen beträgt die Wahrscheinlichkeit, dass bei den ersten k Experimenten das Ereignis A und bei den folgenden (n-k) Experimenten das Ereignis A eintritt, p k q nk . Diese Wahrscheinlichkeit ergibt bei allen Kombinationen, bei denen genau k-mal das Ereignis A eintritt. – Jetzt bleibt nur noch zu klären, wie viele Möglichkeiten existieren, aus einer Menge von n Elementen eine Teilmenge von k Elementen auszuwählen. Für das 1. Element gibt es n Auswahlmöglichkeiten, für das 2. verbleiben (n 1) und für das k. Element noch (n k 1) Möglichkeiten – dies ergibt insgesamt n! n (n 1) ... (n k 1) Permutationen. (n k )! Nun spielt aber bei unserer Fragestellung die Reihenfolge, in der die Elemente angeordnet sind, keine Rolle. Es gibt insgesamt k! Möglichkeiten, k verschiedene Elementen anzuordnen. Deshalb muss der obige Quotient durch k! dividiert werden, und man erhält: § n· § n· n! ¨ ¸ Kombinationen und damit: P ( X k ) ¨¨ ¸¸ p k q nk . (k!) (n k )! ¨© k ¸¹ ©k ¹
7
129 7.1 Diskrete Verteilungen
Beispiel 7.2: Binomalverteilung (Wahrscheinlichkeiten) Wir greifen zurück auf das Beispiel 7.1 (S. 127) und berechnen die Wahrscheinlichkeit dafür, dass genau 7 von 10 Patienten erfolgreich therapiert werden. Die Wahrscheinlichkeit, bei den ersten 7 Patienten einen Erfolg und bei den restlichen 3 einen Misserfolg zu erzielen, ist: p 7 q 3 0,87 0, 23 | 0, 0017 . Es gibt jedoch nicht nur eine, sondern insgesamt §10 · ¨ ¸ 120 Möglichkeiten, von 10 Patienten genau 3 auszuwählen. Nach (7.4) ©7¹
beträgt die gesuchte Wahrscheinlichkeit: P ( X
7) 120 0,87 0, 23
0, 2013 .
› Abbildung 7.1, S. 130): Für die anderen Wahrscheinlichkeiten ergibt sich (z P( X
k 0
P( X d k )
k)
1 0,8 0, 2 0
10
10
0, 2
1
10 0,8 0, 2
2
45 0,8 0, 2
3
120 0,8 0, 2
1
2
8
3
10
4 10
9
107
6
4 106
5
8 105
7 10
7
7
0, 0008
0,0009
4
210 0,8 0, 2
6
0, 0055
0,0064
5
252 0,85 0, 25
0, 0264
0,0328
6
210 0,86 0, 24
0, 0881
0,1209
7
120 0,8 0, 2
0, 2013
0,3222
8
45 0,88 0, 22
0,3020
0,6242
9
10 0,8 0, 2
0, 2684
0,8926
4
7
9
1 0,810 0, 20
10
3
1
0,810
0,1074
1
Die Wahrscheinlichkeit, dass bei weniger als 6 Patienten ein Erfolg zu verzeichnen ist, beträgt demnach 3,28%. Anders formuliert: Wenn dieser Fall eintritt, wäre es sinnvoll, nach den Ursachen zu forschen.
Ein Sonderfall stellt die symmetrische Binomialverteilung dar ( p q 0,5 ). Dann vereinfachen sich die obigen Formeln zu: 0,5 n
E( X )
Var( X ) P( X
k)
(7.6)
0, 25 n P( X
(7.7) n k)
§n· n ¨ k ¸ 0,5 © ¹
(7.8)
i Die Schiefe einer Binomialverteilung berechnet sich als J1 ( q p ) / V . z Also ist die Verteilung genau dann symmetrisch ist, wenn p q .
130
Kapitel 7 · Verteilungen
0,4 0,3 0,2 0,1 0
0
1
2
3
4
5
6
7
8
Abb. 7.1 Binomialverteilung mit n 10 und p
9 10
0,8
0,4
7
0,3 0,2 0,1 0 0
1
2
3
4
Abb. 7.2 Binomialverteilung mit n
4 und p
0,5
0,4 0,3 0,2 0,1 0
0
1
2
3
4
5
Abb. 7.3 Poissonverteilung mit O
6
7 2
8
9 10
7
131 7.1 Diskrete Verteilungen
Beispiel 7.3: Symmetrische Binomialverteilung Eine Familie habe vier Kinder, X sei die Anzahl der Jungen. Wir nehmen an, dass mit der Wahrscheinlichkeit von 0,5 ein Junge geboren wird. Nach (7.6) und (7.7) ergeben sich E ( X ) 2 und Var( X ) 1 . Für die Wahrschein› Abbildung 7.2, S. 130): lichkeiten berechnet man nach (7.8) (z P( X k ) P( X d k ) k 1 0,54
0
1 / 16 4
1
4 0,5
2
6 0,5
4
3
4 0,54
0,0625
0,0625
1/ 4
0,25
0,3125
3/8
0,375
0,6875
1/ 4
0,25
0,9375
4
4 1 1 0,5 1 / 16 0,0625 Dieses Modell ist auch beim Münzwurf anwendbar (diese Wahrscheinlichkeiten lassen sich leichter empirisch überprüfen).
7.1.3
Die Poissonverteilung
Der französische Mathematiker Siméon Denis Poisson (1781-1840) hat die Binomialverteilung für den speziellen Fall untersucht, dass die Anzahl der Wiederholungen n groß und die Wahrscheinlichkeit p für das Eintreten des Ereignisses A klein ist. Fragestellungen dieser Art treten in der Medizin häufig auf. So wird etwa bei epidemiologischen Untersuchungen häufig eine umfangreiche Population beobachtet, wobei die Wahrscheinlichkeit, dass bei einem Individuum ein bestimmtes Endereignis (etwa eine Krankheit oder der Tod) eintritt, sehr gering ist. Ein anderes Beispiel stellt der radioaktive Zerfall dar: In einer bestimmten Zeiteinheit zerfällt nur ein minimaler Anteil von Millionen radioaktiver Isotope. Poisson hat nachgewiesen, dass für n t 30 und p d 0,1 die Binomialverteilung durch folgende Grenzverteilung approximiert werden kann:
P( X
k)
O k O e k!
(7.9)
Der Buchstabe e symbolisiert die Euler’sche Zahl, deren Wert ungefähr 2,718 beträgt. Die Formel (7.9) hat gegenüber (7.4) auf Seite 127 den Vorteil, dass sie für große n und kleine k wesentlich leichter zu handhaben ist. Der griechische Buchstabe O (Lambda) repräsentiert den Erwartungswert der Verteilung, für den nach (7.2) gilt: E( X )
O
n p
(7.10)
132
Kapitel 7 · Verteilungen
Nach (7.3) und (7.10) lässt sich die Varianz approximieren durch:
Var( X )
n pq
n
O O (1 ) o O n n n of
(7.11)
Demnach stimmen bei der Poissonverteilung der Erwartungswert und die Varianz überein. Durch den Parameter O ist eine Poissonverteilte Zufallsvariable eindeutig festgelegt; sie wird als X ~ P (O) angegeben. Wegen des kleinen Wertes für p bezeichnet man diese Verteilung auch als die „Verteilung der seltenen Ereignisse“.
7
Beispiel 7.4: Poissonverteilung mit bekanntem p In einer Geburtsklinik werden jährlich n 2.000 Kinder geboren. Die Wahrscheinlichkeit, dass ein Neugeborenes mit einem Down-Syndrom zur Welt kommt, beträgt p 0,001 . Unter der Annahme, dass die Ereignisse unabhängig sind, lässt sich die Anzahl der Neugeborenen mit Down-Syndrom durch eine Poisson-verteilte Zufallsvariable X beschreiben. Für den charakteristischen Parameter gilt: O n p 2.000 0,001 2 . Mit (7.9) berechnet man:
k
P( X
0
2
e
k)
0,135
F (k )
P( X d k )
0,135
0,406 2 e 2 0,271 4 2 e 0, 271 2 0,677 2 8 2 e 0,180 3 0,857 6 16 2 e 0,090 4 0,947 24 32 2 e 0,036 5 0,983 120 64 2 e 0,012 6 0,995 720 Man erkennt, dass die Wahrscheinlichkeiten für wachsendes k sehr schnell › Abbildung 7.3, S. 130). Die Wahrscheinlichkeit, dass pro Jahr abnehmen (z mehr als 6 Kinder mit Down-Syndrom geboren werden, ist nahezu 0. 1
! Für die Berechnung einer Wahrscheinlichkeit nach (7.9) wird nur der z
Erwartungswert Ȝ benötigt. Weitere Angaben (der Parameter n oder die Wahrscheinlichkeit p für das Eintreten eines Ereignisses im Einzelfall) sind nicht erforderlich. Daher kann die Poissonverteilung auch angewandt werden, wenn die Wahrscheinlichkeit p nicht explizit quanti› Beispiel 7.5, S. 133). fizierbar ist (z
7
133 7.1 Diskrete Verteilungen
Beispiel 7.5: Poissonverteilung ohne bekanntes p In einem Notfallzentrum werden durchschnittlich drei Notfälle pro Nacht gemeldet. Dann folgt die Anzahl X der Notfälle pro Nacht einer Poissonverteilung mit dem Erwartungswert O 3 . Mit (7.9) berechnet man: P ( X 0) e 3 0, 050 P ( X 1) 3 e3 0,149 P ( X 2) 4,5 e3 0, 224 P ( X 3) 4,5 e 3 0, 224
P ( X 4) P ( X 5) P ( X 6) P( X
3,375 e 3 0,168 2,025 e 3 0,101 1, 0125 e 3 0,050 ! 6) 0,034
Für X gibt es theoretisch keine obere Grenze. Es ist jedoch unwahrscheinlich, dass in einer Nacht mehr als 6 Notfallmeldungen eingehen. Mathematische Herleitung der Poissonverteilung Diese Verteilung ist ein Grenzfall der Binomialverteilung und kann aus dieser hergeleitet werden. Mit (7.16) und O n p ergibt sich: n
k
§ n · k nk 1 n (n 1) ... (n k 1) k § O · § O · O ¨ 1 ¸ ¨1 ¸ Für ¨ ¸ p q k! nk © n¹ © n¹ ©k ¹ großes n und vergleichsweise kleines k ist das Produkt der k Faktoren des P( X
k)
Zählers ungefähr n k . Aus der Analysis ist bekannt, dass gilt: § O· lim ¨1 ¸ n o f© n¹
n
§ O· e O . Außerdem ist lim ¨ 1 ¸ n of © n¹
Damit erhalten wir für obige Formel: P ( X
k
k)
1. O k O e k!
i Die Poissonverteilung ist immer linksgipfelig, da für die Schiefe gilt: z J1 ( q p ) / V o (1 0) / O 1/ O ! 0 . n of
7.1.4
Die geometrische Verteilung
Die geometrische Verteilung NB (1, p) wird häufig zur Analyse von Wartezeiten verwendet. Sie beschreibt, mit welcher Wahrscheinlichkeit ein Ereignis A in einer Serie von Bernoulli-Experimenten bei der j-ten Beobachtung zum ersten Mal eintritt. Sie lässt sich leicht herleiten als:
P( X
j)
q j 1 p
(7.12)
Dabei wird zugrunde gelegt, dass bei den ersten j 1 Beobachtungen jeweils das Ereignis A (mit der Wahrscheinlichkeit q 1 p ) und bei der j. Beobachtung das Ereignis A (mit der Wahrscheinlichkeit p ) eintritt. Die Anzahl der Einzelexperimente ist also nicht von vornherein festgelegt. Man beachte: Die Erfolgsaussichten bleiben
134
Kapitel 7 · Verteilungen
nach jedem Experiment konstant. Mit (7.12) leitet man her: P ( X n k X ! n) P( X k ) . Die geometrische Verteilung ist also eine gedächtnislose Verteilung und insofern das diskrete Pendant › Abschnitt 7.3.2, S. 148 f). zur Exponentialverteilung (z Beispiel 7.6: Geometrische Verteilung Bei einer In-Vitro-Fertilisation liege die Wahrscheinlichkeit, dass eine Schwangerschaft eintritt, bei p 0, 40 . Dann ist die Anzahl der benötigten Zyklen X geometrisch verteilt. Mit (7.12) berechnet man: P ( X 0) p 0, 40 P ( X 1) q p 0, 24 P ( X 2) q 2 p 0,144
7
P ( X 3) q 3 p 0, 0864 P ( X 4) q 4 p 0,05184 P ( X ! 4) 0, 07776
Die Wahrscheinlichkeit, dass eine Frau mehr als vier Zyklen benötigt, um schwanger zu werden, beträgt also etwa 8%. Die Chance, schwanger zu werden, beträgt bei jedem Versuch 0,40. Die oben genannten Wahrscheinlichkeiten gelten auch nach mehreren erfolglosen Zyklen.
Die geometrische Verteilung lässt sich verallgemeinern zur negativen Binomialverteilung NB(r , p ) . Diese beschreibt, mit welcher Wahrscheinlichkeit das Ereignis A bei der j-ten Beobachtung zum r-ten Mal eintritt. Beispiel 7.7: Negative Binomialverteilung Eine Blutbank benötigt Blut von 10 Personen mit dem Rhesusfaktor positiv. Wie groß ist die Wahrscheinlichkeit, dass man nach der Blutentnahme bei maximal 14 Personen 10 positive Konserven hat? Nach (7.13) berechnet man für X ~ NB(10;0,85) (also r 10 und p 0,85 ): §9· P( X 10) ¨¨ ¸¸ 0,8510 0,1969 ©9¹ §10 · P ( X 11) ¨¨ ¸¸ 0,15 0,8510 0,2953 ©9¹ §11· P( X 12) ¨¨ ¸¸ 0,152 0,8510 0,2436 ©9¹ §12 · ¨¨ ¸¸ 0,153 0,8510 0,1462 ©9¹ §13· P( X 14) ¨¨ ¸¸ 0,154 0,8510 0,0713 ©9¹ Durch Addition erhält man: P ( X d 14) 0,9533 . Das bedeutet, dass mit 95%iger Wahrscheinlichkeit 14 Entnahmen für 10 positive Konserven ausreichen. P( X
13)
135 7.1 Diskrete Verteilungen
7
Unter der Annahme, dass unter den ersten ( j 1) Beobachtungen das Ereignis A genau (r 1) -mal gezählt wird, gilt für die negative Binomialverteilung: P( X
7.1.5
j)
§ j 1· j r r ¨¨ ¸¸ q p für j t r © r 1¹
(7.13)
Die hypergeometrische Verteilung
Die hypergeometrische Verteilung beschreibt n Beobachtungen, bei denen jeweils alternativ die Ereignisse A und A eintreten können. Im Gegensatz zur Binomialverteilung sind diese Beobachtungen jedoch nicht unabhängig voneinander – das Auftreten eines bestimmten Ereignisses beeinflusst die Wahrscheinlichkeiten aller nachfolgenden Ereignisse. i Die Binomial- und die hypergeometrische Verteilung lassen sich durch z zwei unterschiedliche Urnenmodelle veranschaulichen. Gegeben sei eine Urne mit roten und weißen Kugeln; der Anteil roter Kugeln betrage p. Wenn man aus dieser Urne nacheinander n Kugeln zieht, und nach jeder Ziehung die Kugel zurück in die Urne legt, sind die Ziehungen unabhängig voneinander und die Wahrscheinlichkeit, eine rote Kugel zu ziehen, beträgt bei jedem Zug p. Ein solcher Prozess lässt sich durch eine Binomialverteilung beschreiben. Wenn man jedoch die gezogenen Kugeln nicht zurücklegt, ändern sich bei jedem Zug die Wahrscheinlichkeiten. Die Ziehungen sind voneinander abhängig und werden durch eine hypergeometrische Verteilung charakterisiert.
Dieser Verteilung liegen folgende Annahmen zugrunde:
ŷ Insgesamt stehen N Objekte (also endlich viele) zur Verfügung,
von denen genau M die Eigenschaft A und ( N M ) die Eigenschaft A aufweisen. ŷ Von den N Objekten werden n zufällig ausgewählt. Die Zufallsvariable X HG (n; N , M ) gibt an, wie häufig das Ereignis A bei n Beobachtungen auftritt. Die Wahrscheinlichkeiten für k 0,..., n sind:
P( X
k)
§M · §N M · ¨ k ¸¨ n k ¸ © ¹ © ¹ §N· ¨n¸ © ¹
(7.14)
136
Kapitel 7 · Verteilungen
Der Quotient p M / N wird auch als Anteilswert bezeichnet. Damit ist der Erwartungswert der hypergeometrischen Verteilung ähnlich wie bei der Binomialverteilung (Formel 7.2): E( X )
np
n
M N
(7.15)
Für die Varianz gilt: Var( X )
N n n p (1 p ) N 1
(7.16)
Der Faktor ( N n) /( N 1) entspricht der Endlichkeitskorrektur. Falls N im Vergleich zu n sehr groß ist, kann die hypergeometrische Verteilung durch die Binomialverteilung approximiert werden.
7
Beispiel 7.8: Hypergeometrische Verteilung Von den 76 Studenten in Tabelle 2.1 (S. 34 f) sind 21 männlich. Wie groß ist die Wahrscheinlichkeit, dass von 5 zufällig ausgewählten Studenten 2 männlich sind? Nach (7.14) ergibt sich mit N 76 , M 21 , n 5 und k 2 : § 21· § 55 · ¨ ¸ ¨ ¸ 2 3 210 26.235 0, 2982 P ( X 2) © ¹ © ¹ 18.474.840 § 76 · ¨ ¸ ©5¹
7.2
Die Normalverteilung
7.2.1
Allgemeine Eigenschaften
Die Normalverteilung ist für die Statistik und deren praktische Anwendung von grundlegender Bedeutung. Ihre Dichte wird durch die Gauß’sche Glockenkurve dargestellt (sie war ehemals zusammen mit dem Konterfei von Carl Friedrich Gauß auf dem 10-Mark-Schein abgebildet). Die zugrunde liegende mathematische Funktion lautet: f ( x)
1 2S V
( x P) 2 2 e 2V
(7.17)
137 7.2 Die Normalverteilung
7
Eine normalverteilte Zufallsvariable X ist durch den Erwartungswert P und die Standardabweichung V eindeutig charakterisiert. Sie wird deshalb allgemein als X ~ N (P, V 2 ) angegeben (so auch in diesem Buch); andere Autoren verwenden die Schreibweise X ~ N (P, V) . Aus (7.17) lassen sich folgende Eigenschaften der Normalverteilung herleiten:
ŷ Die Glockenkurve ist symmetrisch um den Erwartungswert P; es gilt also: f (P x)
f (P x) .
ŷ Sie hat zwei Wendepunkte bei x P V und x P V . ŷ Ihr Maximum ist an der Stelle x P . ŷ Der Erwartungswert P , der Median und der Modalwert von X stimmen überein.
ŷ Die Dichte f (x) ist für jede reelle Zahl definiert und größer als 0. Für x o rf nähert sie sich asymptotisch der x-Achse.
Der Ausdruck „asymptotisch“ bedeutet in diesem Zusammenhang, dass die Glockenkurve für hinreichend große x-Beträge beliebig nahe an die x-Achse herankommt, ohne diese jedoch zu erreichen. Mathematische Betrachtung der Gauß’schen Glockenkurve Für die Ableitungen von f (x) berechnet man mit der Kettenregel der Diffe§ ( x P) 2 1 · ¨ 2¸. f ( x ) ¨ V4 V ¸¹ V2 © Daraus folgt: Das Maximum (d. h. der Modalwert) ist bei x P ( f ' (P) 0 , f ' ' (P) 0 ); die Wendepunkte bei x P r V ( f ' ' (P r V) 0 ).
rentialrechnung: f ' ( x)
f ( x)
xP
und f ' ' ( x)
Der Nachweis, dass die gesamte Fläche unter der Glockenkurve gleich 1 ist, erfordert die Lösung des bestimmten Integrals über den Ausdruck in Formel (7.17). Um nachzuweisen, dass es sich bei den Parametern P und V 2 tatsächlich um den Erwartungswert bzw. die Varianz handelt, reichen schulmathematische Kenntnisse nicht aus. Deshalb wird an dieser Stelle auf den Beweis verzichtet.
Die spezielle Form der Glockenkurve hängt von der Standardabweichung V ab: Bei kleinem V ist sie schmal und hoch; bei großem V ist › Abbildung 7.4, S. 138). In jedem sie dagegen breit und niedrig (z Fall ist die Gesamtfläche unter der Kurve gleich 1. Die Schiefe J1 ist – wie bei jeder symmetrischen Verteilung – gleich 0. Auch die Wölbung J 2 ist nach (6.33) (S. 118) so definiert, dass sie den Wert 0 annimmt. Die Wahrscheinlichkeit, dass eine normalverteilte Zufallsvariable X einen Wert zwischen zwei Grenzwerten a und b annimmt, berechnet man nach (6.19) (S. 114):
138
Kapitel 7 · Verteilungen
Abb. 7.4 Normalverteilungen mit gleichem Erwartungswert P = 0 und unterschiedlicher Streuung. Obere Kurve: V 0,6 , mittlere Kurve: V 1 , untere Kurve: V 2
P ( a d X d b)
7
0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 -4
1 2S V
-2
b
³e
0
2
4
( x P ) 2 2V 2
dx
F (b) F (a)
(7.18)
a
Diese Wahrscheinlichkeit entspricht der Fläche, die von der Glockenkurve, der x-Achse und den Parallelen zur y-Achse x a und › Abbildung 6.2, S. 114). Die Bestimmung x b begrenzt wird (z eines solchen Intervalls ist allerdings problematisch: Es ist nicht möglich, die Funktion F (x) analytisch aufzulösen, und ein Taschenrechner hilft hier im Allgemeinen auch nicht weiter. Man kann sich jedoch heutzutage – wenn man Zugang zu einem Rechner mit geeigneter Software hat – die gewünschten Werte einfach und schnell berechnen lassen. 7.2.2
Die Standardnormalverteilung
Die Standardnormalverteilung ist eine spezielle Normalverteilung mit dem Erwartungswert 0 und der Varianz 1. Jede normalverteilte Zufallsvariable X N (P, V2 ) lässt sich in die Standardnormalverteilung Z N (0,1) transformieren durch:
Z
X P V
(7.19)
Durch diese Transformation wird die Glockenkurve entlang der xAchse so verschoben, dass der Erwartungswert 0 wird. Außerdem wird die Kurve aufgrund der Division durch ı in ihrer Form so angepasst, dass die Standardabweichung den Wert 1 annimmt.
139 7.2 Die Normalverteilung
7
Wozu kann einen solche Transformation sinnvoll sein?
ŷ Transformierte Werte lassen sich bezüglich ihrer relativen Lage zum Erwartungswert besser beurteilen. So besagt beispielsweise ein einzelner Messwert des Körpergewichts von xi 52 kg alleine nichts darüber aus, ob dieser Wert als normal, hoch oder niedrig einzustufen ist. Wenn jedoch bekannt ist, dass dieser Wert aus einer Population mit P 60 kg und V 6,5 kg stammt, kann xi in zi (52 60) / 6,5 1, 23 transformiert werden. Aus zi geht nun hervor, dass der Messwert xi um 1,23 Standardabweichungen unterhalb des Erwartungswertes liegt. ŷ Um eine bestimmte Wahrscheinlichkeit einer normalverteilten Zufallsvariablen nach Formel (7.18) zu berechnen, ist man ohne geeignete Statistik-Software auf Tabellen angewiesen, in denen die Funktionswerte der Dichte- und der Verteilungsfunktion aufgelistet sind (und die auch heute noch quasi in jedem Statistikbuch zu finden sind). Diesen Tabellen liegt generell die Standardnormalverteilung zugrunde. Die Dichte und die Verteilungsfunktion der Standardnormalverteilung werden üblicherweise mit M( z ) und ) ( z ) bezeichnet. Die griechischen Buchstaben M (klein Phi) und ĭ (groß Phi) entsprechen den lateinischen Buchstaben f bzw. F. In der Tabelle A im Anhang (S. 329) dieses Buches sind diverse z-Perzentile zusammen mit den Funktionswerten M(z ) und ) (z ) aufgelistet. i Eine Tabelle mit Funktionswerten der Standardnormalverteilung wurde z erstmals 1812 von Laplace in „Théorie Analytique des Probabilités“ publiziert. Ihr Umgang erfordert einige Übung, da man die gesuchten Werte nicht immer direkt ablesen kann. Aus Platzgründen enthalten derlei Tabellen nämlich im Allgemeinen nur Funktionswerte für z t 0 . Für negative -z gilt ) ( z ) P( Z d z ) P( Z t z ) 1 ) ( z ) aufgrund der Symmetrie der Glockenkurve. Heutzutage lassen sich mit einer geeigneten Software derlei Wahrscheinlichkeiten für jede beliebige Normalverteilung leicht ermitteln.
7.2.3
V-Bereiche und Referenzbereiche
Obwohl die Normalverteilung theoretisch für alle x zwischen f und f definiert ist, konzentrieren sich die Werte in unmittelbarer Umgebung des Erwartungswertes P. Einige oft benutzte Intervalle und deren Wahrscheinlichkeiten lassen sich generell für jede Normalverteilung angeben. Aus Tabelle 7.1 geht hervor, dass etwa 2/3 › Beispiel 7.9, aller Messwerte innerhalb der Grenzen P r V liegen (z
140
Kapitel 7 · Verteilungen
S. 140 und Abschnitt 4.3.1, S. 64). Die Wahrscheinlichkeit, einen Wert außerhalb des 3V -Bereichs zu finden, beträgt nahezu 0. Deshalb wird die Normalverteilung häufig verwendet, um quantitative, symmetrisch verteilte, eingipfelige Merkmale zu beschreiben – auch wenn der Wertebereich in der Praxis immer eine obere und eine untere Grenze aufweist. Tabelle 7.1 Intervalle und Wahrscheinlichkeiten der Normalverteilung
X : N (P, V )
Intervallgrenzen für Z : N (0,1)
Bezeichnung des Intervalls
Wahrscheinlichkeit p
PV d X d PV
1 d Z d 1
1V-Bereich
0,6827
P 2V d X d P 2V
2 d Z d 2
2V-Bereich
0,9545
P 3V d X d P 3V
3 d Z d 3
3V-Bereich
0,9973
P 1,96V d X d P 1,96V
1,96 d Z d 1,96
95%-Referenzbereich
0,95
P 2,58V d X d P 2,58V
2,58 d Z d 2,58
99%-Referenzbereich
0,99
Intervallgrenzen für 2
7
Für medizinische Fragestellungen sind so genannte Normbereiche › Abbildung 7.5, S. 141) wichtig, die 95% oder Referenzbereiche (z oder 99% aller Werte enthalten. So legt man bei normalverteilten Daten zugrunde, dass ein Wert außerhalb eines bestimmten Referenzbereichs überprüft werden sollte (etwa auf Messfehler, pathologische Besonderheiten etc.). Allerdings muss darauf hingewiesen werden, dass anhand eines Normbereichs keine Entscheidung wie etwa „pathologisch / nicht pathologisch“ getroffen werden kann. Beispiel 7.9: Normalverteilung Das Körpergewicht einer Population X sei normalverteilt mit P 60 kg und V 6,5 kg . Gesucht ist das Intervall um den Erwartungswert, in dem sich mit einer Wahrscheinlichkeit von 95% ein Messwert befindet. Der Tabelle 7.1 ist zu entnehmen, dass dieses Intervall durch P r 1,96V begrenzt ist. Damit berechnet man für die untere bzw. obere Grenze: x1 P 1,96V 47, 26 kg und x2 P 1,96V 72,74 kg . Also gilt: P (1,96 d Z d 1,96) P(47, 26 kg d X d 72,74 kg) 0,95 . Diese Wahrscheinlichkeit lässt sich graphisch darstellen als die Fläche unter der Glockenkurve, bei der an beiden Seiten 2,5% „abgeschnitten“ sind. Jeweils 2,5% aller Personen, die dieser Population angehören, wiegen weniger als 47,26 kg oder mehr als 72,74 kg.
7
141 7.2 Die Normalverteilung
Abb. 7.5 95%-Referenzbereich einer Normalverteilung 95% 2,5 %
2,5 %
Normalisierende Transformationen
7.2.4
Bei den Anwendern der Statistik ist die Normalverteilung aus verschiedenen Gründen recht beliebt. Zum einen lassen sich Referenzbereiche (auch ohne Computer) sehr leicht berechnen; zum anderen setzen – wie wir später sehen werden – viele Verfahren der induktiven Statistik normalverteilte Daten voraus. Leider sind jedoch etliche Merkmale in der Medizin linksgipfelig (rechtsschief) verteilt. Das heißt: Die Dichtefunktion hat einen Gipfel am linken Rand und einen langen Ausläufer an der rechten Seite. Bei empirischen Daten ist dies optisch erkennbar am Histo› Abbildung 4.1b, S. 69). Rechnerisch lässt sich die Verteigramm (z lungsform über die empirische Schiefe nach Formel (4.15) (S. 68) nachprüfen; sie ist bei einer linksgipfeligen Verteilung größer als 0. Eine solche Verteilung entsteht dadurch, dass ein Merkmal nach unten eine natürliche Grenze aufweist, während im oberen Wertebereich die Einflussfaktoren multiplikativ zusammenwirken. Dadurch ist die Variabilität der Messwerte am unteren Rand eingeschränkt, wohingegen im oberen Bereich die Werte durch zufällige Änderungen wesentlich stärker beeinflusst werden. Als Beispiele seien das Körpergewicht der erwachsenen Bevölkerung, der systolische und der diastolische Blutdruck oder die Senkungsgeschwindigkeit von Erythrozyten genannt (jeweils mit 0 als untere Grenze). In diesen Fällen ist es eventuell möglich, durch eine logarithmische Transformation der Originaldaten eine angenäherte Normalverteilung zu erhalten. Man betrachtet also anstelle der X-Variablen die transfomierte Y-Variable Y
ln X
(7.20)
142
Kapitel 7 · Verteilungen
Wenn Y ln X normalverteilt ist, heißt X logarithmisch normalverteilt (oder lognormalverteilt). Dabei ist „ln“ der natürliche Logarithmus zur Basis e (Euler’sche Zahl). Man schreibt abkürzend X ~ LN (P, V 2 ) , wobei P den Erwartungswert und V 2 die Varianz von Y bezeichnen. Eine lognormalverteilte Zufallsvariable X muss positiv sein, da andernfalls die Transformation X o ln X nicht möglich ist. Auf diese Weise werden kleine x-Werte zwischen 0 und 1 in negative y-Werte abgebildet; große x-Werte am rechten Rand der Verteilung werden gestaucht. Die Rücktransformation erfolgt über: X
eY
(7.21)
Die Umrechnungen (7.20) oder (7.21) sind mühelos mit einem Taschenrechner zu bewältigen. Da die e-Funktion streng monoton wachsend ist, gilt für jede Zahl c ! 0 : Y d c ist gleichbedeutend mit X eY d e c . Daraus folgt:
7
P (Y d c)
P( X d e c )
(7.22)
Aus dieser Eigenschaft lassen sich folgende Aussagen herleiten:
ŷ Allgemein lassen sich aus den Quantilen von Y ln X nach ŷ ŷ
ŷ ŷ
Rücktransformation die entsprechenden Quantile von X bestimmen. Aus den Grenzen des Referenzbereichs von Y ergeben sich durch Rücktransformation nach (7.21) die Grenzen des Referenzbereichs von X . Der Median der transformierten Variablen Y ist gleich deren Erwartungswert P (da Y normalverteilt ist). Dann ist der Median der log-normalen Verteilung X gleich e P ; denn wegen (7.22) gilt: P ( X d e P ) P (Y d P) 0,5 . Der Erwartungswert von X ist nicht einfach zu bestimmen; bei › Abdieser Verteilung ist jedoch das geometrische Mittel (z schnitt 4.2.5, S. 61 f) ohnedies das sinnvollere Lagemaß. Aus der Formel (4.4) (S. 62) lässt sich mit elementaren Berechnungen herleiten: Das geometrische Mittel der x-Werte entspricht dem Median e P .
i Wenn sich die 0 oder negative Werte unter den Original-Daten befinden, z bietet sich eine Transformation der Form Y ln( X a) (wobei a eine konstante, positive Zahl ist) an. Bei sehr schiefen Verteilungen mit extrem großen Werten erreicht man eine Normalverteilung eventuell durch 2-faches Logarithmieren: Y ln ln ( X ) . Die optimale Art der Transformation muss empirisch bestimmt werden.
7
143 7.2 Die Normalverteilung
Beispiel 7.10: Lognormalverteilung In einer Population von Kleinkindern werden Konzentrationswerte von Serum-IgM in g/l gemessen. Die Originalwerte X haben folgende Kenngrößen: 0,8 ; x
x
0,7 ; sx
0, 49 ; g x
2,6 ; xmin
0,1 ; xmax
4, 2 .
Aufgrund der Schiefe g x ist davon auszugehen, dass die Daten linksgipfelig (rechtsschief) verteilt sind. Durch Logarithmieren der x-Werte erhält man eine Zufallsvariable Y mit folgenden Kenngrößen: 0,37 ; y
y
0,36 ; s y
0,56 ; g y
0,34 ; ymin
2,303 ; ymax
1, 435 .
Wenn man nun davon ausgeht, dass Y normalverteilt ist mit dem Erwartungswert P y 0,37 und der Standardabweichung V y 0,56 , ergibt sich für den Median und das geometrische Mittel von X: P x
e0,37
0,69 g/l.
Für den 95%-Referenzbereich von Y berechnet man folgende Grenzwerte: y1 P 1,96V 0,37 1,96 0,56 1, 47 und y2
P 1,96V
0,37 1,96 0,56
Innerhalb der Grenzen x1
e
1,47
0,73
0, 23 g/l und x2
e0,73
2, 07 g/l liegen
demnach 95% aller IgM-Werte. Nur 2,5% sind kleiner als 0,23 g/l und 2,5% sind größer als 2,07 g/l.
Weit seltener werden in den Biowissenschaften rechtsgipfelige (linksschiefe) Verteilungen beobachtet. Sie zeichnen sich aus durch › Abeinen langen Anlauf links und einen Gipfel am rechten Rand (z bildung 4.1c, S. 69). Ihre Schiefe ist kleiner als 0. Bei diesen Verteilungen finden sich viele Daten im unteren Wertebereich, während nach oben eine natürliche Grenze existiert. Beispiele sind die Schwangerschaftsdauer, die Tragezeit von Säugetieren oder der Kopfumfang von Neugeborenen. Eine Normalisierung dieser Verteilungen erreicht man durch eine Potenztransformation wie z. B.: Y
X 1,5
(7.23)
Dadurch wird der Gipfel am rechten Rand in die Breite gezogen. Bei besonders stark ausgeprägter Rechtsgipfeligkeit potenziert man mit einem höheren Wert. 7.2.5
Der zentrale Grenzwertsatz
Der zentrale Grenzwertsatz sagt aus, dass – unter sehr allgemeinen Bedingungen – die Summe einer großen Anzahl von Zufallsvariablen normalverteilt ist. Mathematisch präzise formuliert lautet dieser
144
Kapitel 7 · Verteilungen
Satz: Seien X i ( i 1,..., n ) unabhängige, identisch verteilte Zufallsvariablen mit dem Erwartungswert P und der Varianz V 2 . Dann ist die Summe der X i asymptotisch normalverteilt mit dem Erwartungswert n P und der Varianz n V 2 . Das bedeutet wiederum, dass die Variable n
Zn
¦ X i n P i 1
n V
X P V/ n
asymptotisch standardnormalverteilt ist. Daraus ergeben sich unmittelbar einige wichtige Konsequenzen bezüglich der:
7
x Verteilung von Zufallsvariablen. Der zentrale Grenzwertsatz rechtfertigt die Annahme, dass eine Zufallsvariable normalverteilt ist, wenn zahlreiche Einflüsse additiv und unabhängig voneinander zusammenwirken. Aus diesem Grund sind beispielsweise Messfehler normalverteilt. Carl Friedrich Gauß hat dies bereits im Jahre 1794 erkannt und beschrieben; deshalb wird die Normalverteilung ihm zu Ehren auch Gauß-Verteilung genannt. x Verteilung von Mittelwerten. Aus dem Gesetz der großen Zahlen geht hervor, dass die Gesamtheit aller theoretisch denkbaren Mittelwerte, die aus Stichproben des Umfangs n derselben Grundgesamtheit resultieren, den Erwartungswert P und die Varianz V 2 / n hat. Aus dem zentralen Grenzwertsatz folgt nun, dass – falls der Stichprobenumfang n hinreichend groß ist (etwa n t 25 ) – diese Mittelwerte normalverteilt sind (auch wenn die Grundgesamtheit nicht normalverteilt ist). Diese Aussage hat weit reichende Fol› Beispiel 7.11). gen für die Methoden der induktiven Statistik (z x Binomialverteilung. Eine binomialverteilte Zufallsvariable X ~ B (n, p ) lässt sich auffassen als die Summe von n identisch verteilten, unabhängigen Variablen X i , die jeweils die Werte 1 oder 0 (mit den Wahrscheinlichkeiten p bzw. q 1 p ) annehmen können. Nach dem zentralen Grenzwertsatz können eine Binomialverteilung und auch eine Poissonverteilung für hinreichend großes n durch eine Normalverteilung X mit dem Erwartungswert P np und der Varianz V2 npq approximiert werden. Als Faustregel gilt, dass dazu die Ungleichung npq t 9 erfüllt sein muss.
145 7.2 Die Normalverteilung
7
Beispiel 7.11: Verteilung von Mittelwerten Das Körpergewicht weiblicher Studenten habe einen Erwartungswert von P 60 kg und eine Standardabweichung von V 6,5 kg . Wir führen nun folgendes Gedankenexperiment durch: Aus der Grundgesamtheit werden mehrere Stichproben vom Umfang n 30 entnommen und jeweils der Mittelwert bestimmt. Nach dem zentralen Grenzwertsatz sind diese Mittelwerte normalverteilt mit einem Erwartungswert von P x 60 kg und einer Standardabweichung von V x 6,5 / 30 kg 1,19 kg . Wegen der Normalverteilung der x definieren P x r 1,96 V x (60 r 1,96 1,19) kg einen 95%-Referenzbereich, d. h. P (57, 7 kg d x d 62,3 kg) 0,95 . Man wird also bei einer Stichprobe des Umfangs n 30 mit 95%-iger Wahrscheinlichkeit einen Mittelwert zwischen 57,7 und 62,3 kg erhalten; die Wahrscheinlichkeiten, dass der Mittelwert kleiner ist als 57,7 kg oder größer als 62,3 kg, betragen jeweils 2,5%. i Der Zusammenhang zwischen Binomial- und Normalverteilung wurde z von dem französischen Mathematiker Abraham de Moivre (1667-1754) im Jahre 1718 erkannt und in seinem Werk „The doctrine of chances“ beschrieben. De Moivre hat die Normalverteilung sozusagen „entdeckt“. Von Gauß wurde sie einige Jahrzehnte später bei der Erarbeitung seiner Fehlertheorie wiederentdeckt. Es wurde schon früh vermutet, dass die Aussage des zentralen Grenzwertsatzes gilt. Der Beweis für diesen Satz wurde jedoch erst im Jahre 1920 erbracht.
7.2.6
Die Bedeutung der Normalverteilung
Die zentrale Bedeutung der Normalverteilung für die Statistik und deren Anwendung in den Biowissenschaften muss unter verschiedenen Aspekten beurteilt werden. Sie lässt sich ansehen als: x Eine empirische Verteilung. Der belgische Astronom und Physi ker Adolphe Quetelet (1796-1874) gab ein frühes Beispiel für die Normalverteilung eines Merkmals menschlicher Individuen: Ihm war aufgefallen, dass die Daten des Brustumfangs von 5.738 schottischen Soldaten angenähert normalverteilt waren. Der Name „Normalverteilung“ wurde von Francis Galton im Jahr 1880 eingeführt. Einige Wissenschaftler vertraten damals die Auffassung, dass die belebte Natur bei jedem Merkmal die Normalverteilung anstrebe. „Normal“ wird dabei im Sinne von „allgemein üblich“ oder „physiologisch“ verwendet. Wir wissen heute, dass dieser Ansatz nicht stimmt. Es gibt zwar medizinisch relevante Merkmale, die angenähert normalverteilt sind (z. B. die Körpergröße erwachsener Männer
146
Kapitel 7 · Verteilungen
oder erwachsener Frauen). Andere wichtige Merkmale sind jedoch › Abschnitt 7.3). nicht symmetrisch verteilt (z. B. Überlebenszeiten, z x Eine approximative Verteilung. Schiefe Verteilungen lassen sich › Abschnitt eventuell in eine Normalverteilung transformieren (z 7.2.4, S. 141 f). Die Binomial- und auch die Poissonverteilung lassen sich unter gewissen Bedingungen durch die Normalverteilung › Abschnitt 7.2.5, S. 144). approximieren (z x Eine Verteilung für statistische Kennwerte. Nach dem zentralen Grenzwertsatz sind die Mittelwerte aus Stichproben des Umfangs n beliebiger Verteilungen normalverteilt. Bei normalverteilten Grundgesamtheiten sind auch andere Kenngrößen wie z. B. der Median, die Varianz etc. normalverteilt. Ansonsten können allerdings die Verteilungen statistischer Kennwerte von der Normalverteilung abweichen.
7
x Eine Basisverteilung für Prüfverteilungen. Die Normalverteilung bildet die Grundlage für die wichtigsten Prüfverteilungen, die in der › Abschnitt 7.4, S. 151 ff). induktiven Statistik Anwendung finden (z
7.3
Die Verteilung von Überlebenszeiten
7.3.1
Einige wichtige Begriffe
In diesem Abschnitt werden zwei wichtige Verteilungen vorgestellt, die bei Überlebenszeitanalysen benutzt werden. x Überlebenszeit. Das wesentliche Merkmal, das bei diesen Studien untersucht wird, ist die Dauer, die zwischen einem definierten Anfangsereignis und dem Eintritt eines zufallsbedingten Endereignisses vergeht. Diese Zeitspanne wird Überlebenszeit genannt. Die Anfangsereignisse sind beispielsweise die Geburt eines Individuums oder der Beginn einer therapeutischen Maßnahme; bei den Endereignissen handelt es sich zum Beispiel um den Tod eines Patienten, den eingetretenen Heilerfolg, das Ende der Beschwerdefreiheit, das Auftreten eines bestimmten Symptoms oder den Ausfall eines transplantierten Organs. Wenn ein Lebewesen vom Zeitpunkt der Geburt bis zu seinem Tod beobachtet wird, spricht man von Lebensdauer. Dieser Begriff wird auch in der Technik verwendet, wo er die Zeit zwischen dem Betriebsbeginn und dem Ausfall eines Objekts bezeichnet.
147 7.3 Die Verteilung von Überlebenszeiten
7
Der Begriff „Überlebenszeit“ ist also nicht unbedingt gleichbedeutend mit der Zeit, die bis zum Tod eines Individuums vergeht. Wenn wir im Folgenden dennoch das kritische Endereignis mit „Tod“ oder „Sterben“ gleichsetzen, dann geschieht dies deshalb, weil diese Begriffe anschaulicher und prägnanter sind als Formulierungen wie etwa „das Eintreten des kritischen Endereignisses“. x Überlebensfunktion. Sei T eine Zufallsvariable zur Beschreibung einer Überlebenszeit. T kann sinnigerweise nur positive Werte annehmen, die im Folgenden – da es sich um Zeiten handelt – mit dem Buchstaben t (vom lateinischen tempus) symbolisiert werden. Die dazugehörende Verteilungsfunktion F (t ) gibt die Wahrscheinlichkeit an, mit der ein Individuum vor dem Zeitpunkt t stirbt. Daraus ergibt sich die Überlebenswahrscheinlichkeit oder Überlebensfunktion: S (t )
P(T ! t ) 1 F (t )
(7.24)
S (t ) ist also die Wahrscheinlichkeit, dass ein Individuum den Zeitpunkt t überlebt. Der Buchstabe S ist abgeleitet vom englischen Ausdruck „survival function“.
x Bedingte Überlebenswahrscheinlichkeit. Sie quantifiziert die Wahrscheinlichkeit für ein Individuum, das den Zeitpunkt t erreicht hat, eine weitere Zeitspanne der Länge 't (Delta t) zu überleben. Sie lässt sich nach Formel (6.8) (S. 109) berechnen als: P (T ! t 't T ! t )
P (T ! t 't ) P (T ! t )
(7.25)
x Momentane Sterberate r (t ) (auch Hazard-Rate oder im techni schen Bereich Ausfallrate genannt). Sie ist durch folgende Beziehung charakterisiert: r (t )
f (t ) S (t )
(7.26)
Dabei ist f (t ) die Dichtefunktion der Variablen T. Die momentane Sterberate kann für jeden Zeitpunkt t im Beobachtungszeitraum angegeben werden kann.
148
Kapitel 7 · Verteilungen
Mathematische Herleitung der Sterberate Die Sterberate r (t ) basiert auf der bedingten Wahrscheinlichkeit, dass ein Individuum, nachdem es den Zeitpunkt t überlebt hat, im darauf folgenden Zeitintervall der Länge t 't stirbt. Diese Wahrscheinlichkeit ist wegen der Definition von F (t ) und S (t ) : P(t T d t 't ) F (t 't ) F (t ) P (T ! t ) S (t ) Unter der momentanen Sterberate versteht man nun diese Wahrscheinlichkeit bezogen auf ein infinitesimal kleines Zeitintervall der Länge 't : F (t 't ) F (t ) 1 r (t ) lim 't o 0 't S (t ) P (t T d t 't | X ! t )
Für den Differentialquotienten gilt: lim
't o 0
Daraus ergibt sich: r (t )
F (t 't ) F (t ) 't
dF (t ) d (t )
f (t ) .
f (t ) . S (t )
7 7.3.2
Die Exponentialverteilung
Im einfachsten Fall lässt sich die Überlebenswahrscheinlichkeit modellieren als (wobei O ! 0 , O = griechischer Buchstabe lambda): S (t )
P(T ! t )
e Ot
(7.27)
Die Wahrscheinlichkeit, mit der ein Individuum vor dem Zeitpunkt t stirbt, ist demnach: F (t ) 1 S (t )
P(T d t ) 1 e Ot
(7.28)
Eine solche Zufallsvariable T nennt man exponentialverteilt: T Exp (O) . Für die Dichtefunktion ergibt sich: f (t )
F ' (t )
Oe Ot
(7.29)
Die Exponentialverteilung hat einige bemerkenswerte Eigenschaften. Für die bedingte Überlebenswahrscheinlichkeit folgt mit (7.27): P (T ! t 't T ! t )
e O (t 't ) e
Ot
e O't
(7.30)
7
149 7.3 Die Verteilung von Überlebenszeiten
Die Wahrscheinlichkeit, noch eine Zeitspanne der Länge 't zu leben, ist also unabhängig vom Alter (der Überlebenszeit t). Deshalb wird die Exponentialverteilung auch gedächtnislose Verteilung genannt. Wegen dieser Eigenschaft ist die Sterberate über die Zeit konstant; mit (7.26), (7.29) und (7.27) berechnet man nämlich: r (t )
f (t ) S (t )
O e Ot e Ot
O
(7.31)
Deshalb eignet sich die Exponentialverteilung zur Beschreibung von Lebensdauern nicht alternder Objekte oder von Überlebenszeiten bei Individuen, deren Tod unabhängig vom aktuellen Alter eintritt. Typische Beispiele sind die Lebensdauern radioaktiver Teilchen oder das Überleben nach einer schweren Erkrankung mit kurzer Lebenserwartung. Weitere wichtige Kenngrößen sind der Median (der bei Überlebenszeitstudien auch mediane Überlebenszeit genannt wird), der Erwartungswert (auch mittlere Lebensdauer genannt) und die Varianz: ~ 1 ln 2 P (7.32) O 1 P (7.33) O 1 (7.34) V2 O2 Der Median der Exponentialverteilung entspricht der Halbwertszeit – das ist die Zeit, in der sich die Ausgangsmenge halbiert. Beispiel 7.12: Exponentialverteilung Unter Exposition mit einem bestimmten Risikofaktor sterben pro Jahr 20 von 1000 Personen. Nach (7.27) ist also: S (1) e O 0,98 . Daraus ergeben sich (unter der Voraussetzung, dass die Sterberate konstant bleibt): O ln(0,98) 0, 0202 ; P 34,3 (nach 7.32) und P 49,5 (nach 7.33). Die mittlere Lebensdauer von Neugeborenen mit einem Gendefekt betrage 20 Jahre. Nach (7.33) ist also O 0, 05 . Mit (7.27) lässt sich für einen Betroffenen die Wahrscheinlichkeit berechnen, eine bestimmte Zeitspanne zu überleben: S (10) 0, 61 ; S (20) 0,37 ; S (30) 0, 22 .
150
Kapitel 7 · Verteilungen
Die Maßzahlen (7.32) bis (7.34) sind umso größer, je kleiner die momentane Sterberate O ist. Die Schiefe beträgt grundsätzlich 2 – demnach ist die Exponentialverteilung ebenso wie die Lognormalverteilung linksgipfelig. i Der Median lässt sich relativ einfach berechnen, indem man die Funktion z ~ ) 0,5 in (7.28) nach P ~ auflöst. Der Erwartungswert, die Varianz F (P und die Schiefe ergeben sich durch aufwendige Integralrechnungen.
7.3.3
7
Die Weibull-Verteilung
Die Weibull-Verteilung ist nach dem schwedischen Ingenieur Waloddi Weibull (1887-1979) benannt, der damit die Bruchfestigkeit von Werkzeugen beschrieb. Im medizinischen Umfeld wird sie hauptsächlich zur Analyse von Überlebenszeiten verwendet. Eine Zufallsvariable T heißt Weibull-verteilt mit den Parametern O ! 0 und J ! 0 , wenn für ihre Verteilungsfunktion gilt:
F (t ) 1 e Ot
J
für t ! 0
(7.35)
Durch die beiden Parameter O (lambda) und J (gamma) ist die Verteilung eindeutig festgelegt; man schreibt: T WB (O, J ) . Im Vergleich mit (7.28) (S. 148) wird deutlich, dass die Weibull-Verteilung eine Verallgemeinerung der Exponentialverteilung darstellt. Durch den zusätzlichen Parameter J ist sie wesentlich flexibler; die Dichte- und die Überlebensfunktion sowie die Parameter sind allerdings erheblich komplizierter zu berechnen. Aus der Verteilungsfunktion (7.35) leitet man für die Überlebenswahrscheinlichkeit und die Dichte her:
S (t )
P( X ! t ) 1 F (t )
f (t )
F '(t )
OJ t ( J1) e Ot
e Ot
J
J
(7.36) (7.37)
Daraus ergibt sich für die momentane Sterberate: r (t )
f (t ) S (t )
OJ t J 1
(7.38)
7
151 7.4 Prüfverteilungen
Es lassen sich nun drei Fälle unterscheiden:
ŷ Sterberate konstant ( J 1 ). Dieser Spezialfall ist die Exponentialverteilung mit r (t )
O.
ŷ Sterberate monoton wachsend ( J ! 1 ). Eine Weibullverteilung mit J ! 1 ist geeignet, ein Überleben mit Altern zu beschreiben.
ŷ Sterberate monoton fallend ( 0 J 1 ). Diese Verteilung beschreibt ein Überleben mit Regeneration, bei dem mit wachsendem Alter die Sterberate abnimmt. Den Median einer Weibullverteilung berechnet man, indem man die ~ ) 0,5 auflöst; aus (7.35) ergibt sich unter AnwenGleichung F (P dung elementarer Rechenregeln: ~ P
1/ J
§ ln 2 · ¨ ¸ © O ¹
(7.39)
Dieser Parameter gibt an, nach welcher Zeit die Hälfte der Beobachtungseinheiten verstorben ist. i Die Berechnung anderer Parameter (Erwartungswert, Varianz) erfordert z die Kenntnis einer speziellen Funktion (nämlich der so genannten Gamma-Funktion). Ausführliche Informationen zu diesem Thema findet man in [10].
7.4
Prüfverteilungen
Wir wissen, dass nicht nur einzelne Messwerte xi , sondern auch statistische Kennwerte wie etwa der Mittelwert x oder die empirische Standardabweichung s dem Zufall unterliegen und damit als Realisationen einer Zufallsvariablen X bzw. S aufgefasst werden können. Die Prüfverteilungen dienen dazu, die Verteilung von statistischen Kenngrößen zu beschreiben. Die Prüfverteilungen bilden die Grundlage für die Schätz- und Testmethoden der induktiven Statistik. Deren Anwendung setzt zwar nicht unbedingt spezielle Kenntnisse bezüglich der Prüfverteilungen voraus. Mathematisch weniger interessierte Leser können daher diesen Abschnitt 7.4 überschlagen. Allerdings erscheinen die Verfahren der induktiven Statistik logischer und leichter nachvollziehbar, nachdem man sich mit dem theoretischen Hintergrund dieser Verteilungen etwas näher befasst hat.
152
Kapitel 7 · Verteilungen
Die t-Verteilung
7.4.1
Diese Verteilung wurde im Jahre 1908 von dem Engländer William Sealy Gosset (1876-1937) veröffentlicht. Gosset befasste sich mit der Schätzung von Mittelwerten, deren Verteilung nach dem zentralen › Abschnitt 7.2.5, S. 144) durch die standardGrenzwertsatz (z normalverteilte Zufallsvariable Z
X P V/ n
beschrieben wird. In der Praxis ist jedoch der Parameter V meist unbekannt. Deshalb ist die Verteilung von Z zwar theoretisch interessant, aber für praktische Untersuchungen wenig aufschlussreich. Aus diesem Grund ersetzte Gosset das V durch die empirische Standardabweichung s und betrachtete anstelle von Z die Variable
7
T
X P S/ n
(7.40)
Diese Verteilung ging als Student- oder t-Verteilung in die Literatur ein. Sie ist für alle n t 2 (also auch für kleine Stichprobenumfänge) definiert. Dabei muss allerdings vorausgesetzt werden, dass die Einzelbeobachtungen X i , aus denen X und S berechnet werden, normalverteilt sind mit dem Erwartungswert P und der Varianz V 2 . Die t-Verteilung hat ähnliche Eigenschaften wie die Standardnormalverteilung:
ŷ Sie ist symmetrisch um 0, stetig und glockenförmig, ŷ sie kann Werte zwischen f und f annehmen, und ŷ der Erwartungswert ist 0. Es gibt allerdings zwei wesentliche Unterschiede:
ŷ Sie ist nicht direkt abhängig von V (sondern nur von s), ŷ sie ist aber abhängig vom Parameter f, der die Anzahl der Frei-
heitsgrade angibt. Die t-Verteilung nach (7.40) hat f n 1 Freiheitsgrade. Diese Anzahl begründet sich dadurch, dass in die Berechnung der t-Größe n Beobachtungen einfließen, die einer einschränkenden Bedingung (durch die Vorgabe des Mittelwertes x ) unterliegen.
153 7.4 Prüfverteilungen
7
Es existiert also für jeden Freiheitsgrad f eine spezielle t-Verteilung. Die Varianz beträgt f /( f 2) für alle f t 3 und ist damit größer als 1. Demzufolge hat die t-Verteilung für kleine Freiheitsgrade einen flacheren Verlauf als die Standard-Normalverteilung. Für hohe Werte von f geht sie in die Normalverteilung über. Die t-Verteilung spielt eine wichtige Rolle bei der Schätzung und › Kapitel 8 bis 10). Einige Quantile, dem Vergleich von Lagemaßen (z die für Schätz- und Testverfahren wichtig sind, sind in Tabelle B (S. 330) im Anhang aufgelistet. i Gosset war eigentlich als Chemiker bei der bekannten Bierbrauerei Guinz ness angestellt und betrieb Statistik als Hobby. Weil er als Angestellter seiner Firma nicht unter seinem Namen veröffentlichen wollte, benutzte er das Pseudonym „Student“.
7.4.2
Die Chi2-Verteilung
Die Chi2-Verteilung (sprich: Chi-Quadrat, auch mit dem griechischen Buchstaben F 2 geschrieben) beschreibt in ihrer einfachsten Form die Verteilung des Quadrats einer standnormalverteilten Zufallsvariablen Z ~ N (0,1) . Für den Erwartungswert von F12 Z 2 gilt: EZ 2
VarZ ( EZ ) 2
1
(7.41)
Diese Gleichung leitet man aus der Definition der Varianz nach (6.25) (S. 116) her, indem man X durch Z ersetzt. Falls nun mehrere Variablen Z1 ,..., Z n unabhängig voneinander nach N (0,1) verteilt sind, ist deren Quadratsumme ¦ Z i2 F 2 -verteilt mit n Freiheitsgraden oder (anders ausgedrückt): F 2n -verteilt. Wegen (7.41) ist der Erwartungswert dieser Zufallsvariablen gleich
n, die Varianz beträgt 2n und die Schiefe J 1 8 / n . Die F2n -Vertei› Abbildung 7.6, S. 154). Mit lung ist also immer linksgipfelig (z wachsendem n nähert sie sich einer Normalverteilung. Wir betrachten nun n unabhängige, normalverteilte Variable X i N (P, V2 ) . Dann sind die ( X i P ) / V standardnormalverteilt, und demnach gilt für deren Quadratsumme:
154
Kapitel 7 · Verteilungen
Abb. 7.6 Dichtefunktionen von Chi2-Verteilungen mit unterschiedlichen Freiheitsgraden n
n
7
¦ i 1
2
§ Xi P · 2 ¨ V ¸ Fn © ¹
(7.42)
Wenn wir in diesem Ausdruck den Erwartungswert P durch die Variable X ersetzen, erhalten wir eine F 2 -Verteilung mit n 1 Freiheitsgraden, da die X i wegen des Mittelwerts X einer einschränkenden Bedingung unterliegen. Daraus folgt: n
¦ i 1
§ Xi X · ¨ ¸ © V ¹
2
(n 1) S 2 F 2n 1 V2
(7.43)
Der Erwartungswert dieser Variablen ist n 1 , die Varianz beträgt 2( n 1) . Diese Eigenschaften sind fundamental für die Schätzung der Varianz aus einer Stichprobe vom Umfang n . Zahlreiche statistische Tests (insbesondere Homogenitäts- und Unabhängigkeitstests, › Abschnitt 11.1, S. 219 ff) basieren auf der F 2 -Verteilung. Wichz tige Quantile findet man im Anhang in Tabelle E (S. 334). i Die Chi2-Verteilung verdanken wir Forschungen auf dem Gebiet der z Astronomie. Sie geht zurück auf den Physiker und Astronomen Ernst Abbe (1840-1905), der sie erstmals 1863 erwähnt. Abbe war Professor an der Universität in Jena und Direktor der dortigen Sternwarte. Unabhängig von Abbe wurde die Chi2-Verteilung von Friedrich Robert Helmert (1843-1917), der Astronom und Mathematiker war, entdeckt. Sie geriet dann in Vergessenheit, bis sie von Karl Pearson einige Jahre später wiederentdeckt wurde und seither vielfältige Anwendung bei den Verfahren der induktiven Statistik findet.
155 7.4 Prüfverteilungen
7
Die F-Verteilung
7.4.3
Als dritte Prüfverteilung sei die F-Verteilung erwähnt (benannt nach Sir Ronald Aylmer Fisher). Seien S12 und S 22 die Varianzen zweier unabhängiger Stichproben der Umfänge m bzw. n aus zwei normalverteilten Grundgesamtheiten mit derselben Varianz V2. Dann folgt die Variable Fm ,n
S12 S22
(7.44)
einer F-Verteilung mit m 1 Freiheitsgraden im Zähler n 1 Freiheitsgraden im Nenner. Auf dieser Prüfgröße basiert der so genannte F-Test, mit dem die Gleichheit zweier Varianzen überprüft werden kann. Dieser Test findet u. a. Anwendung bei der Varianzanalyse. Die Prüfverteilungen hängen folgendermaßen zusammen: F1,n Fm ,n
tn2 F2m n F 2n m
Zusammenfassung Kapitel 7 ŷ Binomialverteilung: P n p , V n p q ŷ Poissonverteilung: O P V2 n p , V2 n p ŷ Normalverteilung: P r 1,96 V (95%-Referenzbereich) Wichtige Bedeutungen der Normalverteilung:
ŷ ŷ
Empirische Verteilung (Körpergrößen, Messfehler u.a.) Verteilung von Mittelwerten (mit Standardfehler V x V / n )
(7.45) (7.46)
156
Kapitel 7 · Verteilungen
Übersicht 3: Diskrete Verteilungen
7
Name und Bezeichnung der Verteilung
Abschnitt
Anzahl und Art der Beobachtungen
Binomialverteilung B ( n, p )
7.3.1
n unabhängige
Poisson-Verteilung P (O)
7.3.2
n unabhängige n t 30, p d 0,1
geometrische Verteilung NB(1, p)
7.3.3
bis A zum 1. Mal eintritt
negative Binomialverteilung NB(r , p)
7.3.3
bis A zum r. Mal eintritt
hypergeometrische Verteilung HG (n; N , M )
7.3.4
n abhängige
Ereignisse im Einzelexperiment
A mit der Wahrscheinlichkeit p A mit der Wahrscheinlichkeit q 1 p
A und A
Übersicht 4: Stetige Verteilungen Name und Bezeichnung der Verteilung
Abschnitt
X beschreibt
Beispiele
N (P, V 2 )
7.2.1 7.2.3
symmetrisch verteilte Daten, Dichte glockenförmig
Messfehler, Körpergröße
logarithmische Normalverteilung
7.2.4
linksgipfelig verteilte Daten
Körpergewicht, Blutdruck
Exponentialverteilung Exp(O)
7.3.2
Lebensdauern mit konstanter Sterberate
Zerfall radioaktiver Teilchen
Weibullverteilung WB(O, J )
7.3.3
Lebensdauern mit nicht konstanter Sterberate
Überleben mit Altern, Überleben mit Regeneration
Normalverteilung
2
LN (P, V )
8
Schätzverfahren 8.1
Grundlagen 159
8.2
Punktschätzungen 159
8.2.1
Der Begriff der Punktschätzung 159
8.2.2
Kriterien zur Güte einer Schätzung 160
8.2.3
Spezielle Schätzfunktionen 161
8.3
Intervallschätzungen 163
8.3.1
Die Bedeutung eines Konfidenzintervalls 163
8.3.2
Konfidenzintervalle für einen Erwartungswert 165
8.3.3
Konfidenzintervall für eine Wahrscheinlichkeit 167
8.3.4
Konfidenzintervalle für Zusammenhangsmaße 169
8.4
Abschließende Bemerkungen 170
8.4.1
Die Bedeutung des Stichprobenumfangs 170
8.4.2
Zu den Voraussetzungen 172
159 8.1 Grundlagen
8.1
8
Grundlagen
Wir haben im vorangegangenen Kapitel Zufallsvariablen X und deren Verteilungen kennen gelernt und durch charakteristische Parameter beschrieben. Diese Betrachtungen waren allerdings rein theoretischer Natur. Die Eigenschaften von X können in der Regel nicht exakt bestimmt werden, da man sich bei empirischen Untersuchungen normalerweise nur auf eine Stichprobe stützen kann. Man ist also darauf angewiesen, anhand einzelner Stichprobenwerte Informationen bezüglich der Grundgesamtheit zu gewinnen. Dazu dienen die Methoden der induktiven Statistik (auch schließende, analytische oder beurteilende Statistik genannt). Bei diesen Verfahren muss grundsätzlich vorausgesetzt werden, dass eine zufällige Stichprobe vorliegt, die repräsentativ für ein übergeordnetes Kollektiv (die Grundgesamtheit) ist. Oft sind gewisse Eigenschaften von X (etwa der Verteilungstyp) aus Erfahrung bekannt oder ergeben sich aus der Fragestellung, die Studie zugrunde liegt. Die charakteristischen Parameter sind dagegen meist unbekannt. So kann man beispielsweise leicht nachvollziehen, dass sich bei einer klinischen Studie die Anzahl der Patienten, bei denen ein Therapieerfolg zu verzeichnen ist, durch eine Binomialverteilung beschreiben lässt. Es liegt jedoch in der Natur der Sache, dass eine exakte Angabe der Erfolgswahrscheinlichkeit p a priori nicht möglich ist. Man ist daher bemüht, anhand der Stichprobe den oder die unbekannten Parameter der Grundgesamtheit annähernd zu bestimmen. Bisher haben wir kaum Gedanken darüber angestellt, welche Anforderungen an ein Schätzverfahren zu stellen sind und wie die Güte eines Schätzwertes zu beurteilen ist. Diesen Fragen werden wir in den folgenden Abschnitten nachgehen.
8.2
Punktschätzungen
8.2.1
Der Begriff der Punktschätzung
Es liegt intuitiv nahe, die Funktionalparameter einer Grundgesamtheit durch die entsprechenden Kenngrößen der Stichprobe zu schätzen. So erscheint der Mittelwert als Schätzwert für den Erwartungswert geeignet; eine Wahrscheinlichkeit wird durch eine relative Häufigkeit geschätzt. Man nennt ein solches Verfahren, bei dem ein
160
Kapitel 8 · Schätzverfahren
unbekannter Parameter durch einen einzigen Wert geschätzt wird, eine Punktschätzung. Die Schätzfunktion (oder der Schätzer) ist eine Vorschrift, nach der aus den Daten einer Stichprobe des Umfangs n ein angenäherter Wert für den unbekannten Parameter berechnet wird. So lautet z. B. die Schätzfunktion für den Erwartungswert: n
¦ Xi X
i 1
n
(8.1)
Die Werte, die die Schätzfunktion in Abhängigkeit von der jeweiligen Stichprobe annimmt, nennt man Schätzwerte. 8.2.2
8
Kriterien zur Güte einer Schätzung
Die oben erwähnten Punktschätzungen sind nicht so selbstverständlich, wie es auf den ersten Blick scheinen mag. Niemand bezweifelt zwar, dass der Erwartungswert durch den Mittelwert optimal geschätzt wird. Was aber spricht dagegen, bei symmetrischen Verteilungen den Erwartungswert durch den empirischen Median zu schätzen – zumal dies mit weniger Rechenaufwand verbunden wäre? Außerdem ist bisher nicht eindeutig geklärt, weshalb bei der empirischen Varianz oder der Kovarianz durch n 1 dividiert wird (und nicht durch den Stichprobenumfang n ). Um diese Fragen zu beantworten, bedarf es objektiver und nachprüfbarer Eigenschaften, nach denen sich die Güte einer Schätzung beurteilen lässt. Hierzu orientiert man sich an den folgenden vier Kriterien, die von Sir Ronald Aylmer Fisher aufgestellt wurden: x Erwartungstreue. Man kann nicht erwarten, dass eine einzelne Stichproben-Kenngröße den unbekannten Parameter exakt wiedergibt. Allerdings sollte die Schätz-Vorschrift nicht systematisch einen zu hohen oder zu niedrigen Wert liefern. Das Kriterium der Erwartungstreue fordert daher, dass der Durchschnitt (oder genauer: der Erwartungswert) aller theoretisch denkbaren Schätzwerte aus Stichproben des Umfangs n mit dem unbekannten Parameter übereinstimmt. Eine erwartungstreue Schätzung heißt unverzerrt (oder unbiased).
161 8.2 Punktschätzungen
8
x Konsistenz. Es ist außerdem plausibel, von einem guten Schätzer Folgendes zu verlangen: Je größer der Stichprobenumfang n, desto genauer sollte die Schätzung sein. Ein Schätzer ist immer dann konsistent, wenn dessen Varianz für große n gegen 0 geht. x Effizienz. Die Varianz des Schätzers sollte möglichst gering sein. Je geringer sie ist, desto präziser ist die Schätzung. Eine hohe Effizienz bedeutet, dass auch eine kleine Stichprobe einen brauchbaren Schätzwert liefert. Die Effizienz ist insbesondere dann ein wichtiges Kriterium, wenn verschiedene Schätzverfahren verglichen werden. x Exhaustivität. Ein Schätzer ist exhaustiv (oder erschöpfend), wenn er alle Informationen, die in den Daten einer Stichprobe enthalten sind, berücksichtigt. Alle diese Forderungen scheinen plausibel und wünschenswert zu sein; wir werden jedoch sehen, dass sie nicht unbedingt bei allen bekannten Schätzfunktionen erfüllt sind. 8.2.3
Spezielle Schätzfunktionen
x Erwartungswert. Wir wollen die oben genannten Kriterien zu nächst an dem wohl bekanntesten Parameter überprüfen und betrachten dazu den Mittelwert x einer Stichprobe, der den Erwartungswert P der Grundgesamtheit schätzt. Wir wissen durch das Gesetz der großen Zahlen (Abschnitt 6.4.2, S. 120 f), dass gilt: E( X )
P und
Var( X )
V2 o 0 n n of
Demnach ist diese Schätzung erwartungstreu und konsistent. Sie ist auch exhaustiv, da alle Originalwerte xi bei der Schätzung berücksichtigt werden. x Median. Etwas komplizierter liegen die Dinge beim empirischen Median. Man kann zeigen: Falls die Verteilung stetig und symmet~ ~ . In diesem Fall risch ist, ist X ein erwartungstreuer Schätzer für P stimmen aber Erwartungswert und Median überein. Deshalb ist etwa bei Normalverteilungen auch der empirische Median ein erwartungstreuer Schätzer für den Erwartungswert P . Für die Varianz des Medians gilt (dies sei ohne Beweis angeführt): ~ Var( X )
S V2 o 0 2 n n of
(8.2)
162
Kapitel 8 · Schätzverfahren
~ Somit ist X auch eine konsistente Schätzung. Allerdings ist die ~ Varianz von X größer als die Varianz von X ; deshalb ist der ~ Mittelwert der effizientere Schätzer für P . Die Schätzung durch X ist nicht erschöpfend, weil nicht alle Stichprobenwerte in dessen Berechnung einfließen. Der Mittelwert hat also im Vergleich zum empirischen Median die günstigeren Schätzeigenschaften.
x Varianz. Die daraus berechnete Standardabweichung ist bei quan titativen Merkmalen das am häufigsten benutzte Streuungsmaß. Die Varianz wird bekanntlich nach folgender Vorschrift geschätzt: n
¦ ( X i X )2
S2
i 1
(8.3)
n 1
Es lässt sich nachweisen, dass gilt:
E (S 2 )
8
Var(S 2 )
V2
(8.4) 2V 4 o 0 n 1 n of
(8.5)
Demnach ist diese Schätzung erwartungstreu, konsistent und exhaustiv. Die Schätzung der Standardabweichung V durch S ist zwar konsistent, aber merkwürdigerweise nicht erwartungstreu. x Wahrscheinlichkeit. Die Wahrscheinlichkeit p wird über eine relative Häufigkeit geschätzt. Mit Zufallsvariablen X i B (1, p) ergibt sich für den Erwartungswert : n
E ( ¦ X i / n) i 1
n 1 E (¦ X i ) n i1
np n
p
(8.6)
Die Schätzung ist also erwartungstreu. Die Konsistenz ergibt sich aus dem Gesetz der großen Zahlen.
x Parameter der bivariaten Statistik. Man kann nachweisen, dass die Schätzung der Kovarianz erwartungstreu und konsistent ist, ebenso die Schätzung der Parameter der Regressionsgeraden. Die Schätzfunktion für den Pearson’schen Korrelationskoeffizient nach (5.2) (S. 84) ist dagegen nicht erwartungstreu, wohl aber konsistent.
8
163 8.3 Intervallschätzungen
Mathematische Herleitung der Eigenschaften der empirischen Varianz Zunächst muss man sich klar machen: Die empirische Varianz wird aus Stichprobenwerten xi berechnet, die Realisationen von Zufallsvariablen X i sind. Alle X i haben den Erwartungswert P und die Varianz V2 . Für den Erwartungswert der empirischen Varianz erhält man nach einigen Umrechnungen: E §¨ ¦ ( X i X ) 2 ·¸ ©i 1 ¹ n 1 n
E (S 2 )
E §¨ ¦ ( X i P) 2 n( X P) 2 ·¸ ©i 1 ¹ n 1 n
Da nach der Definition der Varianz (Formel (6.25), S. 116) gilt:
E ( X i P) 2
n
V2 , folgt: E (¦ ( X i P)2 )
Var( X i )
Außerdem ist E ( X P) 2
n V2 .
i 1
Var( X ) V 2 / n .
Wenn man dies in die obige Gleichung einsetzt, erhält man Formel (8.4): nV 2 V 2 V2 n 1 Dies ist die formale Rechtfertigung dafür, dass bei der empirischen Varianz E (S 2 )
(n 1) S 2
F2 V2 verteilt mit der Varianz 2(n 1) . Daraus leitet man mit (6.28) (S. 117) die Formel (8.5) her:
durch (n 1) dividiert wird. Nach (7.43), (S. 154) ist die Variable
Var( S 2 )
2(n 1) V 4 (n 1) 2
2V 4 . n 1
Nun gilt nach (6.25) (S.116): Var( X ) E ( X 2 ) P 2 . Wenn man in dieser Gleichung X und P durch S bzw. ES ersetzt, erhält man: Var( S )
E( S 2 ) ( ES ) 2
Daraus folgt: ( ES ) 2
V 2 ( ES ) 2 .
V 2 Var( S ) und damit ES V .
Die empirische Standardabweichung s schätzt also V systematisch zu gering.
8.3
Intervallschätzungen
8.3.1
Die Bedeutung eines Konfidenzintervalls
Wir wissen, dass die gängigen Schätzverfahren günstige Eigenschaften haben und wenden sie an in der Hoffnung, einen brauchbaren Schätzwert zu erhalten. Dennoch sind diese Punktschätzungen in gewisser Weise unbefriedigend. Ein einzelner Schätzwert enthält
164
8
Kapitel 8 · Schätzverfahren
nämlich keine Information darüber, wie sehr er vom „wahren“ Parameter der Grundgesamtheit abweicht. Prinzipiell kann man darüber auch keine exakten Angaben treffen, da der gesuchte Parameter letztlich unbekannt ist. Wir dürfen jedoch bei einem geeigneten Schätzverfahren vermuten, dass er sich in der näheren Umgebung des Schätzwertes befindet. Es geht in diesem Abschnitt darum, diesen unscharfen Ausdruck „nähere Umgebung“ zu präzisieren. In Beispiel 4.1 (S. 56) wurde anhand der Daten von 55 weiblichen Medizinstudenten eine mittlere Körpergröße von xw 169, 45 cm berechnet. Wenn wir diese Gruppe auffassen als eine Stichprobe, dann ist der Mittelwert eine Schätzung für den Erwartungswert der Grundgesamtheit. Wir wissen, dass dieser Mittelwert zufallsbedingt ist. Eine andere Stichprobe des Umfangs n 55 würde andere Daten und einen anderen Mittelwert liefern. Die konkrete Frage, die sich nun stellt, lautet: Welcher Erwartungswert Nj könnte dem besagten Mittelwert zugrunde liegen? Es erscheint durchaus möglich, dass er aus einer Grundgesamtheit mit P 168 cm oder mit P 170 cm resultiert. Wir glauben jedoch nicht, dass der wahre Parameter nur P 160 cm beträgt – obwohl auch diese Möglichkeit nicht ganz ausgeschlossen werden kann. Um Anhaltspunkte bezüglich der Genauigkeit der Schätzung zu gewinnen, konstruiert man nach einem speziellen mathematischen Algorithmus aus den Daten der Stichprobe ein so genanntes Konfidenzintervall (oder einen Vertrauensbereich). Man hofft, bei diesem Verfahren ein Intervall zu erhalten, das den gesuchten Parameter überdeckt. Es ist allerdings möglich, dass die Daten der Stichprobe ein Konfidenzintervall erzeugen, das „daneben liegt“ und den gesuchten Parameter nicht enthält. Diese Irrtumswahrscheinlichkeit wird vor der Bestimmung des Konfidenzintervalls festgelegt. Sie wird mit D bezeichnet und beträgt üblicherweise 5%, in besonderen Fällen auch 1% oder 0,1%. Generell gibt es bei der Konstruktion eines Konfidenzintervalls zwei Möglichkeiten:
ŷ Mit der Wahrscheinlichkeit 1 D erhält man ein Intervall, das
den unbekannten Parameter enthält. Der Wert 1 D wird als Konfidenzwahrscheinlichkeit (oder Konfidenzniveau) bezeichnet. Für die Irrtumswahrscheinlichkeit D 5% beträgt die Konfidenzwahrscheinlichkeit 1 D 95% . ŷ Mit der Wahrscheinlichkeit D erhält man ein Intervall, das den unbekannten Parameter nicht enthält.
165 8.3 Intervallschätzungen
8
Das Konfidenzintervall selbst liefert leider keinen Anhaltspunkt dafür, welche dieser beiden Möglichkeiten eingetreten ist. Es ist deshalb immer notwendig und wichtig, die Irrtumswahrscheinlichkeit D mit anzugeben. In den folgenden Abschnitten wird anhand mehrerer Beispiele das Konstruktionsprinzip eines Konfidenzintervalls erläutert. 8.3.2
Konfidenzintervalle für einen Erwartungswert
Der Erwartungswert ist bei quantitativen Daten in der Regel der wichtigste Parameter. Er wird über den Mittelwert x geschätzt. Ein Konfidenzintervall auf dem Niveau 1 D 95% ist gegeben durch: ª 1,96 V 1,96 V º ;x «x » n n ¼ ¬
(8.7)
Die Wahrscheinlichkeit, dass ein Erwartungswert, der kleiner als die linke oder größer als die rechte Intervallgrenze ist, zu x geführt hat, beträgt jeweils 2,5% – also insgesamt D 5% . ! Die plausibel klingende Aussage „Der Erwartungswert P liegt mit einer z
Wahrscheinlichkeit von 95% innerhalb des Konfidenzintervalls“ ist irreführend. Der Erwartungswert ist zwar unbekannt – er ist jedoch eine feste Größe und nicht vom Zufall abhängig. Dagegen ist das Konfidenzintervall abhängig von der Stichprobe und deshalb vom Zufall mitbestimmt. Eine korrekte Formulierung lautet: „Man erhält mit einer Wahrscheinlichkeit von 95% ein Konfidenzintervall, das den unbekannten Erwartungswert P überdeckt“.
Bei einer Irrtumswahrscheinlichkeit von D 1% ist der Wert 1,96 in (8.7) durch 2,58 zu ersetzen. Theoretisch ist natürlich jede beliebige Irrtumswahrscheinlichkeit denkbar; die Quantile der Standard› Tabelle A normalverteilung sind dementsprechend anzugleichen (z im Anhang, S. 329). Wegen der Symmetrie dieser Verteilung unterscheiden sich die Quantile, die die beiden Intervallgrenzen bestimmen, nur bezüglich ihres Vorzeichens. Allgemein ist ein zweiseitiges Konfidenzintervall auf dem Niveau (1 D) definiert durch die Intervallmitte x und die Grenzen: ª V V º ; x z1 D / 2 « x z1D / 2 » n n¼ ¬
(8.8)
166
Kapitel 8 · Schätzverfahren
Dabei bezeichnet der Index 1 D / 2 das jeweilige Quantil der Standardnormalverteilung. Für D 5% ist z1D / 2 z0,975 1,96 . Mathematische Betrachtung des Konfidenzintervalls für den Erwartungswert Diesem Intervall liegt der zentrale Grenzwertsatz zugrunde. Demnach sind alle theoretisch denkbaren Mittelwerte aus Stichproben des Umfangs n normalverteilt (zumindest für n t 25 ) mit dem Erwartungswert P und der Standardabweichung V / n . Deshalb gilt: X P d 1,96) 0,95 V/ n Die Zahlenwerte sind die Grenzen, die den 95%-Referenzbereich der Standardnormalverteilung definieren (Tabelle 7.1, S. 140). Durch Umformen dieser Ungleichung ergibt sich: 1,96 V 1,96 V P( d X P d ) 0,95 n n Das bedeutet, dass der Abstand zwischen dem Mittelwert und dem Erwartungswert betragsmäßig mit 95%-iger Wahrscheinlichkeit unterhalb von P (1,96 d
8
1,96 V / n liegt. Damit ergibt sich ein Konfidenzintervall nach (8.7).
Bei den Formeln (8.7) und (8.8) wurde stillschweigend vorausgesetzt, dass die Standardabweichung V der Grundgesamtheit bekannt ist. Dies ist aber bei praktischen Untersuchungen fast niemals der Fall. Man könnte notgedrungen das V durch die empirische Standardabweichung s ersetzen. Dies würde aber insbesondere bei kleinen Stichproben – die in den Biowissenschaften eher die Regel als die Ausnahme sind – zu einer weiteren Ungenauigkeit der Schätzung führen. Vor diesem Problem stand Sealy Gosset, als er zu Beginn des 20. Jahrhunderts Mittelwerte für Bieringredenzien schätzen wollte und dabei nur auf kleine Stichproben zurückgreifen konnte. Dies war die Ausgangssituation für die Entwicklung der t-Verteilung. Wenn die Zufallsvariable X normalverteilt ist, lassen sich die Quantile der Standardnormalverteilung in (8.8) ersetzen durch die entsprechenden t-Werte, und man erhält folgendes Konfidenzintervall:
sº tn 1;1D / 2 s t ª ; x n 1;1D / 2 » «x n n ¬ ¼
(8.9)
Ohne eine geeignete Software müssen die Quantile tn 1;1D / 2 in › Tabelle B im Anhang, S. 330). Tabellen nachgeschlagen werden (z Der Faktor s / n in Formel (8.9) ist eine Schätzung für den
8
167 8.3 Intervallschätzungen
Standardfehler des Mittelwerts V / n . Theoretisch sind auch einseitige Konfidenzintervalle konstruierbar, die an einer Seite offen sind: ( f; x
tn 1;1 D s n
]
oder [ x
tn 1;1D s n
;f )
(8.10)
Interessant ist bei diesen Intervallen nur die obere bzw. die untere Grenze. Beispiel 8.1: Konfidenzintervalle für Erwartungswerte Körpergrößen männlicher Studenten (n = 21): Aus xm r sm (182,95 r 7,65)cm ergibt sich für die Konfidenzintervalle: [179, 47 cm ; 186,43 cm] ( D 0,05 ) mit t20;0,975 2, 086 [178,20 cm ; 187,70 cm] ( D 0,01 ) mit t20;0,995 2,845 Körpergrößen weiblicher Studenten (n = 55): Aus xw r sw (169, 45 r 6,31)cm berechnet man: [167,74 cm ; 171,16 cm] ( D 0,05 ) mit t54;0,975 2, 005 [167,18 cm ; 171,72 cm] ( D 0,01 ) mit t54;0,995 2, 670 Man erkennt: ŷ Die Konfidenzintervalle der Frauen sind schmaler als die der Männer. Das liegt zum einen am höheren Stichprobenumfang, zum anderen auch an der geringeren Streuung der Daten. ŷ Die 95%-Intervalle sind schmaler als die 99%-Intervalle. Das liegt an den t-Quantilen, die für D 0,05 kleiner sind als für D 0,01 . i Der Ausdruck t n 1;1 D / 2 ist für Anfänger gewöhnungsbedürftig. Die beiz den Angaben im Index sind notwendig, um den speziellen t-Wert exakt zu kennzeichnen. Der Index f n 1 bezeichnet die Anzahl der Freiheitsgrade (es gibt nämlich für jedes f eine spezielle t-Verteilung), 1 D / 2 gibt das Quantil an.
8.3.3
Konfidenzintervall für eine Wahrscheinlichkeit
Als Punktschätzer für eine Wahrscheinlichkeit p dient bekanntlich eine relative Häufigkeit:
pˆ
X n
(8.11)
Dabei bezeichnet X die Häufigkeit des Ereignisses A bei n Zufallsexperimenten. Die Grenzen eines Konfidenzintervalls für die unbekannte Wahrscheinlichkeit p sind:
168
Kapitel 8 · Schätzverfahren
§ 1 pˆ r ¨ z ¨ 2n 1D / 2 ©
pˆ (1 pˆ ) ·¸ ¸ n ¹
(8.12)
Dabei muss vorausgesetzt werden, dass npˆ ! 5 und n(1 pˆ ) ! 5 . Das bedeutet: Der Stichprobenumfang darf nicht zu klein und die relativen Häufigkeiten sollten nicht zu extrem sein. Das in (8.12) definierte Intervall ist vergleichbar mit dem Konfidenzintervall für den Erwartungswert nach (8.8) auf Seite 165: pˆ entspricht dem Mittelwert, die Wurzel dem Standardfehler der Schätzung. Der Faktor 1 / 2n in (8.12) ist die so genannte Stetigkeitskorrektur.
8
Beispiel 8.2: Konfidenzintervall für eine Wahrscheinlichkeit Der Anteil weiblicher Studenten wird anhand der Daten von Tabelle 2.1 (S. 34 f) mit pˆ 55 / 76 0, 724 geschätzt. Kann man davon ausgehen, dass mehr als die Hälfte der Medizinstudenten weiblich sind – oder ist der höhere Anteil nur zufällig bedingt? Für dass 95%-Konfidenzintervalls erhalten wir nach (8.12): 55 § 1 55 / 76 21/ 76 · r¨ 1,96 ¸¸ . Das Intervall ist also: > 0, 617;0,831@ . ¨ 76 © 152 76 ¹ Aufgrund dieser Schätzung dürfen wir mit größerem Vertrauen annehmen, dass der Anteil der Frauen tatsächlich mehr als 50% beträgt. Worauf ist dies zurückzuführen? Darüber schweigt sich das Konfidenzintervall aus. Mathematische Betrachtung des Konfidenzintervalls für p Dieses Konfidenzintervall basiert auf dem zentralen Grenzwertsatz. Für npq t 9 ist die binomialverteilte Variable X normalverteilt mit P np und V2
› Binomialverteilung,, Abschnitt 7.1.2, S. 127). Also gilt: np(1 p) (z P( z1 D / 2 d
X np np(1 p )
d z1 D / 2 ) 1 D
Durch Umformen ergibt sich dann das Konfidenzintervall: p(1 p) n Das unbekannte p unter der Wurzel wird durch den Schätzwert pˆ ersetzt. Um das Intervall auch für kleinere Stichprobenumfänge konstruieren zu können, wird die Stetigkeitskorrektur 1 / 2n hinzugefügt (wodurch das Intervall um insgesamt den Faktor 1 / n verbreitert wird). Dadurch wird versucht, den Fehler auszugleichen, der beim Übergang von den relativen Häufigkeiten pˆ (diskrete Variable) zur Standardnormalverteilung entsteht. pˆ r z1 D / 2
169 8.3 Intervallschätzungen
8.3.4
8
Konfidenzintervalle für Zusammenhangsmaße
Die Berechnung eines Konfidenzintervalls für den Korrelationskoeffizienten nach Pearson wird hier nicht im Detail beschrieben (zumal diese Berechnungen kaum manuell durchgeführt werden). Der Anwender muss lediglich wissen, dass X und Y bivariat (also 2-dimensional) normalverteilte Zufallsvariable sein sollten. Die Berechnung eines solchen Intervalls ist auch für den Korrelationskoeffizienten nach Spearman bei einem Stichprobenumfang n t 10 möglich. Beispiel 8.3: Konfidenzintervalle für Korrelationskoeffizienten Für den Zusammenhang zwischen Körpergröße und Gewicht weiblicher Stu› Beispiel 5.2, S. 84). Mit einer denten ermittelten wir r 0,5710 ( n 55 , z Statistiksoftware lässt sich folgendes 95%-Konfidenzintervall bestimmen: (0,3835 ; 0,7584). Was besagt dieses? Da beide Intervallgrenzen deutlich größer als 0 sind, können wir einigermaßen sicher sein, dass ein gleichsinniger Zusammenhang existiert. Allerdings wissen wir nicht, ob dieser schwach oder eher stark ist. Für die männlichen Studenten gilt r 0, 4730 ( n 21 ); das Konfidenzintervall ist (0,1634 ; 0,7826). Dieses ist breiter, weil der Stichprobenumfang geringer ist. Die Schätzung ist daher unpräziser.
Auch für die Steigung der Regressionsgeraden können Konfidenzintervalle berechnet werden. Spezielle Voraussetzungen gelten bei der Regression 1. Art, bei der die Ausprägungen der x-Variablen nach Belieben festgelegt werden, sodass zu jedem x j mehrere Werte yij existieren:
ŷ Die Residuen yij y j müssen normalverteilt sein mit dem Erwartungswert 0 ( y j sei der Mittelwert der yij ).
ŷ Die Varianzen der zu den einzelnen x j -Werten gehörenden yij
sollten gleich sein (diese Eigenschaft bezeichnet man als Homoskedastizität).
Dann lässt sich mit einer leistungsfähigen Software für einen fest vorgegebenen x-Wert ein 95%-Vorhersageintervall (Prognoseintervall) für den dazugehörenden y-Wert angeben. Außerdem lassen sich Konfidenzintervalle für die Mittelwerte y j berechnen. Um die Voraussetzungen zu überprüfen, ist es sinnvoll, in einem Koordinatensystem die Residuen gegen die Werte des x-Merkmals aufzutragen. Wenn bei dieser Darstellung Muster erkennbar sind, ist dies ein Hinweis darauf, dass die oben genannten Voraussetzungen nicht erfüllt sind.
170
Kapitel 8 · Schätzverfahren
8.4
Abschließende Bemerkungen
8.4.1
Die Bedeutung des Stichprobenumfangs
Die Präzision einer Schätzung wird ausgedrückt durch die Breite des Konfidenzintervalls. Je schmaler dieses Intervall ist, desto genauer ist die Schätzung. Ein sehr breites Konfidenzintervall ist dagegen für praktische Zwecke unbrauchbar. So beträgt die Breite des nach (8.9) (S. 166) berechneten zweiseitigen Konfidenzintervalls für den Erwartungswert: BK
2 tn 1;1D / 2 s n
(8.13)
Generell sind also drei Faktoren für die Präzision der Schätzung von › siehe auch Beispiel 8.1, S. 167): Bedeutung (z
ŷ Die Irrtumswahrscheinlichkeit D . Für D 5% ergibt sich ein
8
schmaleres Intervall als für D 1% . Ein schmales Intervall lässt sich also erreichen durch eine höhere Irrtumswahrscheinlichkeit und damit zu Lasten der Sicherheit. ŷ Die Standardabweichung s. Je homogener die Grundgesamtheit, desto kleiner sind die Standardabweichung und die Breite des Konfidenzintervalls. ŷ Der Stichprobenumfang n . Die Schätzung ist umso präziser, je höher der Stichprobenumfang ist. Der Anwender hat also die Möglichkeit, über den Stichprobenumfang und die Irrtumswahrscheinlichkeit die Breite eines Konfidenzintervalls zu beeinflussen. Aus (8.13) geht hervor, dass bei vorgegebener Breite der Mindeststichprobenumfang berechnet werden kann – allerdings nur theoretisch. In der Praxis ist die Standardabweichung V nicht bekannt; der empirische Schätzwert s ergibt sich erst, nachdem die Daten der Stichprobe vorliegen. Außerdem kann der t-Wert (der von n abhängig ist) nicht explizit angegeben werden, sondern allenfalls grob geschätzt werden (er beträgt für D 5% und n t 10 ungefähr 2). Aus (8.13) ist außerdem ersichtlich, dass bei gleicher Standardabweichung der vierfache Stichprobenumfang erforderlich ist, um die Breite des Intervalls zu halbieren (da der Stichprobenumfang nur mit n in den Nenner der Formel (8.13) eingeht).
8
171 8.4 Abschließende Bemerkungen
Schließlich sei noch die Breite des Konfidenzintervalls für die Wahrscheinlichkeit p angegeben. Aus (8.12) (S. 168) ergibt sich: BK
2 z1 D / 2
pˆ (1 pˆ ) 1 n n
(8.14)
Auch diese Breite wird durch die Irrtumswahrscheinlichkeit und den Stichprobenumfang bestimmt. Um einen Mindestumfang festlegen zu können, ist zumindest eine grobe Abschätzung der Wahrscheinlichkeit p erforderlich. Analoge Überlegungen gelten für andere Parameter: In jedem Fall sind die Breite des Konfidenzintervalls und die Genauigkeit der Schätzung abhängig vom Stichprobenumfang n und von der Irrtumswahrscheinlichkeit Į. Beispiel 8.4: Konfidenzintervalle in Abhängigkeit vom Stichprobenumfang Von 76 Studenten haben 32 (das sind ungefähr 42%) die Blutgruppe A. Daraus berechnet sich nach (8.12) das Konfidenzintervall (mit D 0,05 ): 32 § 1 32 / 76 44 / 76 · r¨ 1,96 ¸¸ 76 ¨© 152 76 ¹
>0,303;0,539@
Dieses Intervall hat eine Breite von 0,235; die Schätzung ist extrem unpräzise. Wenn man den 4-fachen bzw. 25-fachen Stichprobenumfang zugrunde legen würde, erhielte man (unter Annahme gleich bleibender Verhältnisse) folgende Konfidenzintervalle: 4-facher Umfang (n = 304): > 0,364;0, 478@ 25-facher Umfang (n = 1900): > 0,399;0, 444@
Breite: Breite:
0,114 0,045
Diese Überlegungen zeigen, dass zur Schätzung von Wahrscheinlichkeiten extrem hohe Stichprobenumfänge notwendig sind, um brauchbare Schätzwerte zu erhalten.
Auf ein besonderes Problem sei an dieser Stelle hingewiesen: Bisher wurde vorausgesetzt, dass die Grundgesamtheit unendlich groß ist. Wird nun eine Stichprobe des Umfangs n aus einer endlichen Grundgesamtheit des Umfangs N gezogen, muss der Standardfehler korrigiert werden. Diese Endlichkeitskorrektur ergibt sich aus der › Abschnitt 7.1.5, Varianz der hypergeometrischen Verteilung (z S. 135): Der Standardfehler ist mit dem Faktor ( N n) /( N 1) zu multiplizieren. Die Grenzen des Konfidenzintervalls für den Erwartungswert bei einer endlichen Grundgesamtheit sind demnach:
172
Kapitel 8 · Schätzverfahren
x r tn 1;1 D / 2 s
N n n ( N 1)
(8.15)
Bei großen Grundgesamtheiten mit N / n t 100 nimmt die Endlichkeitskorrektur einen Wert nahe bei 1 an und kann vernachlässigt werden. Mittlerweile steht Statistiksoftware zur Berechnung der notwendigen Stichprobengröße zur Verfügung. Dies entbindet den Anwender jedoch nicht davon, sich im Vorfeld Gedanken über die Größe der schätzenden Parameter und über die Präzision der Schätzung zu machen. Diese Angaben bilden die Basis zur Ermittlung des Stichprobenumfangs. 8.4.2
8
Zu den Voraussetzungen
Die Beispiele in diesem Kapitel machen deutlich, dass die Angabe eines Konfidenzintervalls eine wesentlich bessere Beurteilung des Schätzwertes erlaubt als eine einfache Punktschätzung. Während aber ein Punktschätzer auf einfache Weise aus den Daten der Stichprobe zu berechnen ist, kann die Bestimmung eines Konfidenzintervalls äußerst kompliziert sein. Sie setzt nämlich voraus, dass die Verteilung der Stichproben-Kenngrößen bekannt ist. So wird beispielsweise bei der Berechnung eines Konfidenzintervalls für den Erwartungswert zugrunde gelegt, dass die Zufallsvariable X normalverteilt ist. Es gibt jedoch statistische Kenngrößen (z. B. die Schiefe oder die Wölbung), deren Verteilungen bis heute nicht explizit bekannt sind. In diesen Fällen helfen Computersimulationen weiter. Mit MonteCarlo-Studien werden aus einer bekannten Grundgesamtheit zahlreiche Zufallsstichproben des Umfangs n gezogen und jeweils die interessierende Kenngröße berechnet. Aus all diesen Werten wird dann deren Verteilung simuliert. Mit dieser Technik lässt sich auch überprüfen, ob und inwieweit Verletzungen der Voraussetzungen tolerierbar sind. So kann man beispielsweise zeigen, dass die Schätzung eines Konfidenzintervalls basierend auf der t-Verteilung einigermaßen robust ist gegenüber Abweichungen von der Normalverteilung. Es ist für den Anwender nicht notwendig, die mathematischen Hintergründe genau zu kennen, zumal die Intervalle in aller Regel von einer Statistiksoftware ermittelt werden. Er sollte allerdings in der Lage sein, ein Konfidenzintervall sinnvoll zu interpretieren.
173 8.4 Abschließende Bemerkungen
8
Häufig werden die Bedingungen zur Konstruktion eines Konfidenzintervalls nicht überprüft, sondern stillschweigend als erfüllt vorausgesetzt – sei es aus Bequemlichkeit oder Nichtwissen oder schlicht aus Not, weil keine anderen Schätzverfahren zur Verfügung stehen. Nun bedeutet dieses laxe Vorgehen nicht unbedingt, dass die Schätzung insgesamt unbrauchbar ist – es kommt eben darauf an, wie das Schätzverfahren auf eine Verletzung der Voraussetzungen reagiert. Das Konfidenzintervall liefert Anhaltspunkte bezüglich der Größenordnung eines unbekannten Parameters – nicht mehr und nicht weniger. Die Verfahren der induktiven Statistik sind insgesamt wesentlich komplexer als die Methoden der deskriptiven Statistik. Eine geeignete Software ist hierbei ein sinnvolles Mittel, ohne das manche Berechnungen gar nicht oder nur mit größter Mühe zu bewältigen wären. Es darf jedoch keineswegs dazu führen, dass man allzu sorglos die Voraussetzungen eines Verfahrens ignoriert. Man sollte in jedem Fall darauf achten, dass sie nicht in extremer Weise verletzt sind und die Ergebnisse mit der gebotenen Vorsicht interpretieren.
Zusammenfassung Kapitel 8 Konfidenzintervall für den Erwartungswert: tn1;1D /2 s t sº ª ; x n1;1D /2 » «x n n ¼ ¬
Konfidenzintervall für die Wahrscheinlichkeit:
§ 1 z pˆ r ¨ ¨ 2n 1D / 2 ©
pˆ (1 pˆ ) ·¸ ¸ n ¹
Je schmaler das Konfidenzintervall, desto präziser die Schätzung. Vorteilhaft sind: ŷ hoher Stichprobenumfang, ŷ geringe Streuung, ŷ Irrtumswahrscheinlichkeit D = 0,05 (anstelle D = 0,01).
9
Das Prinzip eines statistischen Tests 9.1
Die Durchführung eines Tests 177
9.1.1
Die Funktion eines statistischen Tests 177
9.1.2
Das Formulieren der Hypothesen 178
9.1.3
Fehlerarten 180
9.1.4
Der Stichprobenumfang 182
9.2
Testentscheidung und Konsequenzen 183
9.2.1
Die Basis der Testentscheidung 183
9.2.2
p-Wert und Konfidenzintervall 185
9.2.3
Die Interpretation eines signifikanten Ergebnisses 186
9.2.4
Die Interpretation eines nicht-signifikanten Ergebnisses 187
9.2.5
Die Manipulation des Testergebnisses 188
9.2.6
Multiples Testen 190
9.3
Klassifikation der Testmethoden 190
177 9.1 Die Durchführung eines Tests
9.1
Die Durchführung eines Tests
9.1.1
Die Funktion eines statistischen Tests
9
Der Fortschritt in einer empirischen Wissenschaft wie der Medizin beruht im Wesentlichen auf Beobachtungen, die ein Arzt bei der Patientenbehandlung oder im Labor macht. Möglicherweise entwickelt er dabei eine Therapie, von der er glaubt, dass sie der herkömmlichen Standardtherapie in irgendeiner Weise überlegen sei, oder er gewinnt neue wissenschaftliche Erkenntnisse. Aus einer Vielzahl von Beobachtungen gepaart mit fachlich-theoretischen Überlegungen entsteht so eine Vermutung und – wenn diese präzise formuliert wird – eine Hypothese. In der Regel ist es nicht möglich, derlei Hypothesen zu beweisen. Ein Forscher wird zwar meist von der Richtigkeit seiner Vermutung überzeugt sein – dies allein kann jedoch kein objektives Kriterium darstellen. Die Überprüfung einer Hypothese hat in zweifacher Hinsicht zu erfolgen:
ŷ Zunächst sollte ein theoretischer Hintergrund erarbeitet werden, um die Hypothese mit sachlichen Argumenten zu untermauern. Dazu bedarf es überwiegend medizinischer Fachkenntnisse und Erfahrungen. Mit Statistik hat dies vorerst nichts zu tun. ŷ Darüber hinaus ist es erforderlich, die Hypothese statistisch abzusichern. Zu diesem Zweck müssen relevante Daten erhoben und mit einer geeigneten Testmethode analysiert werden. In diesem Abschnitt wird das Prinzip eines statistischen Tests anhand eines einfachen Beispiels erläutert, wofür der t-Test für eine Stichprobe herangezogen wird. Wir stellen uns dazu folgende Situation vor: Aus der Fachliteratur ist bekannt, dass das mittlere Geburtsgewicht gesunder Kinder nach einer unauffällig verlaufenden Schwangerschaft 3.500 Gramm beträgt. Ein Mediziner hat die Vermutung, dass Babys, deren Mütter während der Schwangerschaft einem bestimmten Risiko ausgesetzt waren, im Durchschnitt weniger wiegen. Er beschließt, das Geburtsgewicht von 20 solcher Risiko-Babys in seiner Klinik zu messen und den daraus resultierenden Mittelwert mit 3.500 Gramm zu vergleichen. Generell sind nun zwei Möglichkeiten bezüglich der (unbekannten) Ausgangssituation denkbar:
178
Kapitel 9 · Das Prinzip eines statistischen Tests
ŷ Es besteht kein Unterschied zwischen dem mittleren Geburtsgewicht der Risiko-Babys und dem aus der Literatur bekannten Wert von 3.500 Gramm. In diesem Fall würde man bei den 20 Babys ein Durchschnittsgewicht von 3.500 Gramm erwarten. Freilich wird man niemals einen Mittelwert von exakt 3.500 Gramm erhalten. Kleinere Abweichungen muss man tolerieren. ŷ Es besteht ein Unterschied. Dann ist zu erwarten, dass die 20 Kinder durchschnittlich weniger (oder auch mehr) als 3.500 Gramm wiegen, wobei der Unterschied nicht nur zufällig bedingt ist.
9
Diese beiden Aussagen sind komplementär: Sie ergänzen sich und schließen sich gegenseitig aus. Genau eine davon muss also richtig sein. Eine Entscheidung aufgrund des aus der Stichprobe berechneten Mittelwertes fällt mitunter schwer. Wenn der Arzt ein mittleres Geburtsgewicht von 3.480 Gramm ermittelt, wird er kaum schlussfolgern, dass sich das Risiko negativ auf das Geburtsgewicht auswirkt. Wenn er dagegen einen Mittelwert von weniger als 3.000 Gramm erhält, wird er seine Vermutung bestätigt finden. Wo aber ist die Grenze? Welche Abweichungen vom Sollwert 3.500 Gramm sind als zufällig bedingt einzustufen, und ab welchem Punkt muss man davon ausgehen, dass die Abweichung nicht allein durch den Zufall erklärt werden kann? Ein statistischer Test hilft in solchen Situationen weiter. Er funktioniert nach folgendem Prinzip: Man stellt zwei komplementäre Hypothesen auf (siehe oben), wählt einen für die Fragestellung passenden Test und berechnet dann aus den Stichprobendaten nach einem bestimmten mathematischen Algorithmus eine so genannte Testgröße (oder Prüfgröße) und daraus den p-Wert (siehe Abschnitt 9.2.2, S. 185). Dieser p-Wert erlaubt es, eine objektive und nachvollziehbare Entscheidung zugunsten von einer der beiden Hypothesen zu treffen. 9.1.2
Das Formulieren der Hypothesen
Es ist wichtig, die beiden Hypothesen vor der Durchführung des Tests inhaltlich so präzise wie möglich zu formulieren. Erst dadurch wird die konkrete Fragestellung klar definiert. Diejenige Hypothese, die eine innovative Aussage beinhaltet und Althergebrachtes in Frage stellt, bezeichnet man als Alternativhypothese. In unserem Beispiel lautet sie: „Das mittlere Geburtsgewicht der 20 Risiko-Babys hat einen Erwartungswert Nj, der sich von 3.500 Gramm unterscheidet“. Die dazu konkurrierende Aussage nennt
179 9.1 Die Durchführung eines Tests
9
man Nullhypothese: „Das mittlere Geburtsgewicht hat einen Erwartungswert Nj von 3.500 Gramm“. Diese inhaltlichen Aussagen werden nun in statistische Hypothesen übersetzt. In unserem Beispiel lauten sie: H0 :
P
3.500
H1 :
P z 3.500
Die Nullhypothese H 0 beinhaltet ein Gleichheitszeichen; sie ist also eindeutig formuliert. Die Alternativhypothese, die üblicherweise mit H1 (oder mit H A ) bezeichnet wird, ist dagegen sehr allgemein gehalten: Sie vereinigt in sich alle Hypothesen mit Ausnahme der Nullhypothese. Diese Art von Hypothesen, bei denen nichts über die Richtung eines Unterschieds ausgesagt wird, nennt man zweiseitig (oder ungerichtet). Wenn aufgrund inhaltlicher Überlegungen oder Erfahrungen bereits Kenntnisse über die Richtung eines möglichen Unterschiedes vorliegen, ist es eventuell sinnvoll, einseitige (oder gerichtete) Hypothesen zu formulieren. Wenn der Arzt berechtigten Grund zur Annahme hat, dass die Risiko-Babys auf keinen Fall mehr, sondern weniger wiegen als 3.500 Gramm, und dies statistisch absichern möchte, wird er folgende Hypothesen aufstellen: H0 :
P
3.500
H1 :
P 3.500
Eine Testentscheidung lässt nur diese beiden Alternativen zu. Die Möglichkeit P ! 3.500 wird bei dieser Fragestellung gar nicht in Betracht gezogen. ! Oft wird die Nullhypothese bei einseitiger Fragestellung komplementär z
zur Alternativhypothese formuliert (in unserem Beispiel: H 0 : P t 3.500 ). Welche Formulierung das inhaltliche Problem besser beschreibt, bleibt dem Anwender überlassen. Für die Durchführung des Tests ist dies irrelevant: Die Berechnung der Prüfgröße und die Testentscheidung basieren in jedem Fall auf einer eindeutig formulierten Nullhypothese.
Ob eine Fragestellung ein- oder zweiseitig formuliert wird, hat der Versuchsleiter vor der Durchführung des Tests festzulegen. Diese Entscheidung ist aufgrund von spezifisch-fachlichen Überlegungen zu treffen. Sie ist u. a. abhängig von den Konsequenzen einer Fehl› nächster Abschnitt). Falls der Versuchsleiter nicht entscheidung (z sicher ist, ob die Voraussetzungen für eine einseitige Fragestellung vorliegen, ist es zweckmäßiger, die zweiseitige zu wählen.
180
Kapitel 9 · Das Prinzip eines statistischen Tests
9.1.3
9
Fehlerarten
Die Testentscheidung hängt von der Prüfgröße ab; diese wiederum wird aus den Stichprobenwerten ermittelt. Es ist nicht ausgeschlossen, dass das Testverfahren im Einzelfall zu einer Fehlentscheidung führt. Wenn in Wirklichkeit die Nullhypothese richtig ist und man sich fälschlicherweise für die Alternativhypothese entscheidet, liegt ein D-Fehler (oder Fehler 1. Art) vor. Auch dann, wenn sich die Risiko-Babys bezüglich ihres Geburtsgewichts von den anderen nicht unterscheiden würden (wenn also die Nullhypothese tatsächlich zuträfe), könnten allein aufgrund des Zufalls nur leichtgewichtige Babys in die Stichprobe gelangen, deren durchschnittliches Gewicht weit unter 3.500 Gramm läge. Der Arzt würde dann annehmen, dass diese Kinder weniger wiegen und sich irrtümlicherweise für die Alternativhypothese entscheiden. Damit würde er einen D-Fehler begehen (freilich ohne dies zunächst zu bemerken). Ein D-Fehler ist nicht generell vermeidbar – aber er ist kontrollierbar. Dieser Fehler kann nämlich nur bei Gültigkeit der Nullhypothese auftreten, und diese ist eindeutig formuliert. Deshalb ist es möglich, die Wahrscheinlichkeitsverteilung der Prüfgröße explizit anzugeben. Es ist bekannt, dass unter H 0 die Zufallsvariable
X P0
T
S/ n
› Abschnitt 7.4.1, S. 152). Nach dieser Vorschrift bet-verteilt ist (z rechnet man aus den Daten der Stichprobe die Prüfgröße t: t
x P0 s/ n
(9.1)
Diese Prüfgröße t kann generell Werte zwischen f und f annehmen. Die Verteilung dieser Prüfgröße unter der Nullhypothese ist bekannt; es gilt Folgendes:
ŷ Mit 95%-iger Wahrscheinlichkeit erhält man einen Wert der
Prüfgröße zwischen tn 1;D / 2 und tn 1;1D / 2 . Wegen der Symmetrie der t-Verteilung gilt: tn 1;D / 2 tn 1,1D / 2 . ŷ Mit einer Wahrscheinlichkeit von 2,5% nimmt die Prüfgröße einen (positiven) Wert an, der größer ist als tn 1;1D / 2 . ŷ Mit einer Wahrscheinlichkeit von 2,5% nimmt die Prüfgröße einen (negativen) Wert an, der kleiner ist als tn 1;D / 2 tn 1;1D / 2 .
9
181 9.1 Die Durchführung eines Tests
Abb. 9.1 Annahme- und Ablehungsbereich beim t-Test (zweiseitige Fragestellung)
1- α α/2
-tn –1;1– α/2
Annahmebereich
α/2
tn –1;1– α/2
Daraus leitet man folgende objektive Entscheidungsregel her:
ŷ Falls tn 1;D / 2 d t d tn 1;1D / 2 , behält man die Nullhypothese bei.
Diesen Bereich von t bezeichnet man als „Annahmebereich für die Nullhypothese“. ŷ Falls t tn 1;D / 2 tn 1;1D / 2 oder falls t ! tn 1;1D / 2 , lehnt man die Nullhypothese ab und nimmt die Alternativhypothese an. Diese beiden Bereiche werden zusammen als „kritischer Bereich“ oder „Ablehnungsbereich für die Nullhypothese“ bezeichnet. Im kritischen Bereich hat die Prüfgröße also einen Betrag t ! tn 1;1 D / 2 . Die Werte r tn 1;1D / 2 trennen den Annahme- vom kritischen Bereich und werden deshalb als kritische Werte bezeich› Abbildung 9.1). Bei einseitiger Fragestellung ist der kritische net (z Bereich mit der Fläche D zusammenhängend auf einer Seite der Dichtefunktion der t-Verteilung. Die Alternativhypothese H1 :
P ! P0
wird angenommen, falls t ! t n 1;D . Wenn man dagegen die Alternativhypothese formuliert als H1 :
P P0 ,
muss die Prüfgröße t negativ und kleiner als t n 1;D t n 1;1D sein, damit sie angenommen werden kann. Der kritische Wert und damit die Testentscheidung sind also abhängig von der Anzahl der Freiheitsgrade f n 1 , der Irrtumswahrscheinlichkeit D und davon, ob man ein- oder zweiseitig testet.
182
9
Kapitel 9 · Das Prinzip eines statistischen Tests
Diese Vorgehensweise gewährleistet, dass – falls die Nullhypothese wahr ist – mit einer Wahrscheinlichkeit von mindestens 95% eine richtige Entscheidung getroffen wird. Das Risiko einer Fehlentscheidung (also der D-Fehler) beträgt demnach maximal 5%. Theoretisch kann der Anwender eines statistischen Tests die maximale Größe des D-Fehlers nach Belieben festlegen. Um jedoch eine Vergleichbarkeit statistisch abgesicherter Entscheidungen zu ermöglichen, hat sich in den Biowissenschaften ein Schwellenwert von 5% eingebürgert. Diesen Wert bezeichnet man als das D-Niveau oder Signifikanzniveau. Bei besonderen Fragestellungen wählt man D 1% oder D 0,1% , hin und wieder auch D 10% . Die maximale Größe des D-Fehlers sollte vor der Durchführung des Tests festgelegt werden. Nun ist auch umgekehrt möglich, dass in Wirklichkeit die Alternativhypothese richtig ist und man fälschlicherweise die Nullhypothese beibehält. In diesem Fall begeht man einen E-Fehler oder Fehler 2. Art. Dieser lässt sich im Gegensatz zum D-Fehler kaum abschätzen, da die Alternativhypothese nicht explizit vorgegeben ist. Generell gilt: Je mehr sich der unbekannte Erwartungswert Nj und der Sollwert P 0 unterscheiden, und je höher der Stichprobenumfang ist, desto eher lässt sich die Alternativhypothese absichern und desto kleiner ist der E-Fehler. Man kann den E-Fehler durch die Wahl des D-Fehlers beeinflussen. Je größer der Wert für D angenommen wird, umso größer ist der kritische Bereich und umso kleiner ist E. Ein kleiner D-Fehler bedeutet also einerseits, dass man seltener eine richtige Nullhypothese ablehnt. Andererseits geht man ein höheres Risiko ein, die Nullhypothese auch dann beizubehalten, wenn in Wirklichkeit die Alternativhypothese richtig ist. 9.1.4
Der Stichprobenumfang
Dem Stichprobenumfang ist besondere Beachtung beizumessen, da er das Testergebnis massiv beeinflusst. Je kleiner der Stichprobenumfang ist, desto eher wird die Nullhypothese beibehalten. Andererseits gibt ein extrem großer Stichprobenumfang der Nullhypothese keine Chance. Daraus folgt: Jede Alternativhypothese (die auch nur minimal von der Nullhypothese abweicht) lässt sich statistisch absichern, wenn nur der Stichprobenumfang hinreichend groß ist. Demnach könnte man meinen, dass die Testentscheidung bedeutungslos ist. Sie ist es jedoch nicht, wenn der Anwender (der ja in der Regel die Alternativhypothese absichern möchte) vorab darüber
183 9.2 Testentscheidung und Konsequenzen
9
nachdenkt, wie groß der Unterschied zwischen Null- und Alternativhypothese sein sollte, damit ihm eine praktische Bedeutung zukommt, und aufgrund dieser Überlegungen den Stichprobenumfang festlegt. Damit kann man verhindern, dass ein Test nur aufgrund eines hohen Stichprobenumfangs kleinste Unterschiede erkennt, die in Wirklichkeit belanglos sind. Eine Besonderheit stellen sequenzielle Testverfahren dar, bei denen der Stichprobenumfang nicht vor dem Testen als fixe Größe festgelegt, sondern als eine Zufallsvariable aufgefasst wird. Der zu prüfende Parameter wird nicht nur unter der Nullhypothese, sondern auch unter der Alternativhypothese fixiert (dazu muss der Anwender wissen, welche Differenz zwischen Null- und Alternativhypothese klinisch bedeutsam ist). Außerdem werden sowohl Į als auch Evorab bestimmt. Man führt den Test zunächst mit einem minimalen Stichprobenumfang durch, erhöht diesen um 1 und wiederholt diese Prozedur so lange, bis eine Testentscheidung möglich ist. Dieses Verfahren gewährleistet, dass der Stichprobenumfang optimal ist (nicht zu hoch und nicht zu niedrig). Allerdings sind sequenzielle Verfahren in der Praxis nicht immer geeignet. Näheres dazu findet man in [4].
9.2
Testentscheidung und Konsequenzen
9.2.1
Die Basis der Testentscheidung
Ein statistischer Test endet mit einer Entscheidung, die aufgrund des Testergebnisses getroffen wird. Generell gibt es zwei Möglichkeiten:
ŷ Wenn die Prüfgröße im kritischen Bereich liegt, entscheidet man sich für die Alternativhypothese. Ein solches Ergebnis heißt in Abhängigkeit von D schwach-signifikant ( D 10% ), signifikant ( D 5% ), hoch-signifikant ( D 1% ) oder höchst-signifikant ( D 0,1% ). Theoretisch kann diese Entscheidung zwar falsch sein – nämlich dann, wenn in Wirklichkeit die Nullhypothese richtig ist und man dennoch eine Prüfgröße im kritischen Bereich erhält. Man formuliert die Entscheidung als: „Die Nullhypothese wird verworfen“ oder „Die Alternativhypothese wird angenommen“. ŷ Wenn die Prüfgröße im Annahmebereich liegt, entscheidet man sich für die Nullhypothese. Diese Entscheidung ist richtig, wenn die Aussage der Nullhypothese in Wirklichkeit zutrifft. An-
184
Kapitel 9 · Das Prinzip eines statistischen Tests
sonsten ist man einem E-Fehler erlegen. Dieser Fehler kann – insbesondere bei kleinem Stichprobenumfang – sehr groß sein. Eine Prüfgröße im Annahmebereich ist deshalb kein Beleg für die Richtigkeit der Nullhypothese, sondern lediglich ein Hinweis darauf, dass man anhand des vorhandenen Datenmaterials die Nullhypothese nicht ablehnen kann. Man formuliert deshalb sehr vorsichtig: „Die Nullhypothese kann auf dem Signifikanzniveau D nicht verworfen werden“ oder „Es ergibt sich kein Widerspruch zur Nullhypothese“. Die Wahrscheinlichkeit eines Tests, eine richtige Alternativhypothese als solche zu erkennen, ist 1 E . Sie quantifiziert die so genannte Güte, Teststärke, Trennschärfe oder Macht. Auch der englische Ausdruck Power wird häufig verwendet. ! Der Versuchsleiter weiß bei Annahme der Alternativhypothese nie ganz z
9
genau, ob er eine richtige Entscheidung getroffen hat, oder ob er einem D-Fehler erlegen ist. Deshalb klingen Sätze „Mit 95%-iger Sicherheit trifft die Alternativhypothese zu“ oder „Mit einer Wahrscheinlichkeit von weniger als 5% ist die Alternativhypothese falsch“ plausibel. Diese Formulierungen sind zwar weit verbreitet, aber nicht korrekt. Sie würden ja implizieren, dass die vorab konkret formulierte Alternativhypothese meistens richtig, aber zufällig auch einmal falsch sein kann. Einer Hypothese haftet jedoch nichts Zufälliges an – sie ist entweder richtig oder falsch. Zufällig sind die Daten, die in die Stichprobe gelangen, damit auch die Testgröße und die davon abhängige Entscheidung.
Aus diesen Ausführungen geht hervor: Die Nullhypothese ist in der Testtheorie die Basis, von der aus entschieden wird. Es ist wichtig, dafür zu sorgen, dass sie nicht leichtfertig oder grundlos abgelehnt wird. Man ist deshalb vorsichtig und akzeptiert die Alternativhypothese nur dann, wenn die Testgröße in den kritischen Bereich fällt – mit anderen Worten: wenn der Wert der Testgröße mit der Nullhypothese nur schwer zu vereinbaren ist. Tabelle 9.1 Wahrheitstafel: Entscheidungen bei einem statistischen Test
Wirklichkeit Testentscheidung
H 0 wahr
H1 wahr
für H 0
richtige Entscheidung
Fehler 2. Art
1 D
ß
für H1
Fehler 1. Art
Summe
1
richtige Entscheidung 1 ß 1
D
185 9.2 Testentscheidung und Konsequenzen
9.2.2
9
p-Wert und Konfidenzintervall
Vor noch nicht allzu langer Zeit war es üblich, eine Prüfgröße per Hand oder mit einem Taschenrechner zu berechnen. Um zu beurteilen, ob das Ergebnis signifikant war, hatte man den berechneten Wert mit einem kritischen Wert zu vergleichen. In fast jedem Statistiklehrbuch findet man auch heute noch Tabellen, in denen kriti› Anhang, Tabellen A – F, S. 329 ff). sche Werte aufgelistet sind (z Wenn beispielsweise die Prüfgröße, die aus einem t-Test für eine Stichprobe resultiert, betragsmäßig größer ist als das Quantil tn 1;0,975 , kann man davon ausgehen, dass das Testergebnis signifikant ist auf dem Niveau D 0,05 . Wenn die Prüfgröße sogar größer ist als tn 1;0,995 , ist der Unterschied auf dem 1%-Niveau abgesichert (jeweils beim zweiseitigen Testen). Heutzutage ist es üblich, einen statistischen Test mit Hilfe einer geeigneten Software durchzuführen. Diese berechnet außer der Prüfgröße den so genannten p-Wert. Dieser Wert quantifiziert die Wahrscheinlichkeit, dass das gefundene Testergebnis (oder ein noch extremeres Ergebnis) zustande kommt, wenn in Wirklichkeit die Nullhypothese richtig ist. Etwas salopp ausgedrückt ist der p-Wert die Wahrscheinlichkeit dafür, dass das Testergebnis ein reiner Zufallsbefund ist. Wenn p kleiner ist als das zuvor festgelegte Signifikanzniveau Į, wird die Alternativhypothese angenommen – ganz nach dem Motto: Das kann kein Zufall sein! Grundsätzlich ist Folgendes zu beachten:
x Der p-Wert besagt lediglich, ob ein statistisch signifikanter Unterschied existiert. Er enthält jedoch keine Informationen über die Größe dieses Unterschieds. Deshalb ist es sinnvoll, zusätzlich zum p-Wert ein Konfidenzintervall für den zu testenden Parameter zu berechnen. x Grundsätzlich sind alle Werte innerhalb des Konfidenzintervalls für die Größe des Unterschieds in Betracht zu ziehen. Je schmaler dieses Intervall ist, desto präziser ist die Schätzung und desto einfacher ist die Interpretation des Testergebnisses. Problematisch ist es, wenn ein kleiner Stichprobenumfang zu einem nicht-signifikanten Ergebnis und einem breiten Konfidenzintervall führt. In diesem Fall kann keine Aussage darüber getroffen werden, ob es keinen praktisch relevanten Unterschied gibt oder ob dieser nur nicht nachgewiesen werden kann.
186
Kapitel 9 · Das Prinzip eines statistischen Tests
Beispiel 9.1: t-Test für eine Stichprobe Ein Arzt erhält bei einer Beobachtungsstudie mit 20 Babys von Risiko-Patientinnen für das Geburtsgewicht: x r s (3280 r 490) Gramm. Diese Werte sind zu vergleichen mit dem aus der Literatur bekannten Durchschnittswert von 3500 Gramm. Aus den Daten resultieren nach (9.1), S. 180: t
x P0 s/ n
3280 3500 490 / 20
2,0079 und p
0,0591 .
Die kritischen Werte sind t19;0,925 2,093 und t19;0,975 2,093 (für D 5% ; 2-seitiger Test, Tabelle B, S. 330). Demnach müsste man die Nullhypothese beibehalten. Für das 1-seitige Testen hat der kritische Wert den Betrag t19;0,95 1, 729 ; der p-Wert halbiert sich auf 0,0295. Dieses Ergebnis ist signifikant. Das 1-seitige Konfidenzintervall für den Mittelwert ist nach Formel (8.10), S. 167: (0; 3469). Dieses zeigt, dass die 20 Babys durchschnittlich weniger wiegen als 3500 Gramm, dass aber der Unterschied möglicherweise nicht sehr gravierend ist. Beim 1-seitigen Intervall ist nur die obere Grenze interessant.
9
i Beim einseitigen t-Test entspricht der p-Wert dem Integral (also der Fläz che) zwischen der nach (9.1) berechneten Prüfgröße und dem Ende der Dichtefunktion; beim zweiseitigen t-Test verteilt sich diese Fläche gleichmäßig auf beide Enden der Dichtefunktion. Falls das Ergebnis signifikant › Abbilist mit p D , ist diese Fläche ein Teil des kritischen Bereiches (z dung 9.1, S. 181). Es ist in der Regel nicht möglich, die p-Werte eines statistischen Tests manuell zu bestimmen. In den Beispielen der Kapitel 9 bis 11 wurden diese mit Hilfe der Statistiksoftware SAS ermittelt.
9.2.3
Die Interpretation eines signifikanten Ergebnisses
Das Ziel eines statistischen Tests besteht meistens darin, die Alternativhypothese abzusichern. Ob das gelingt, hängt vom p-Wert ab. Ein p-Wert unter 0,05 ist häufig Anlass zu großer Freude! Viele Anwender unterliegen aber allzu menschlichen Schwächen und „über“interpretieren ein Testergebnis subjektiv nach ihren eigenen Vorstellungen. Dies sei an einigen Beispielen verdeutlicht. Das Ergebnis von Beispiel 9.1 erhärtet die These, dass das Geburtsgewicht der Risiko-Babys geringer ist als der allgemeine Durchschnitt. Das Ergebnis allein ist aber kein hieb- und stichfester Beweis (sondern lediglich ein Hinweis) für einen kausalen Zusammenhang. Um diese These zu erhärten, sind weitere Überlegungen fachlicher Art notwendig.
187 9.2 Testentscheidung und Konsequenzen
9
In Beispiel 10.1 (S. 199) wird die Wirkung einer Diät an 10 Probanden getestet; der Unterschied bezüglich des durchschnittlichen Körpergewichts vor und nach der Diät ist statistisch signifikant. Dies heißt jedoch keineswegs, dass sich das Körpergewicht allein wegen der Diät verringert hat. Auch andere Ursachen sind in Betracht zu ziehen (möglicherweise haben die Probanden generell ihren Lebensstil oder ihre Einstellung zu ihrer Gesundheit verändert). In Beispiel 10.5 (S. 212) erhält man mit denselben Daten und einem anderen Testverfahren ein nicht-signifikantes Ergebnis. Hier wäre es allzu leichtfertig, das Ergebnis dahingehend zu interpretieren, als habe die Diät keinen Einfluss auf das Gewicht. Das Ergebnis ist auch bedingt durch die geringe Power des Tests und den kleinen Stichprobenumfang. Generell gilt: Der p-Wert besagt nichts über die Ursachen eines Unterschiedes oder über die Konsequenzen, die sich daraus ergeben. Diese Fragen müssen mit medizinischem Sachverstand geklärt werden; die Statistik hilft dabei nicht weiter. Der Anwender eines statistischen Tests und auch die Leser einer Publikation sollten sich von einem kleinen p-Wert nicht blenden lassen. „Statistische Signifikanz“ ist nicht gleichbedeutend mit „klinischer Relevanz“ oder „wissenschaftlicher Bedeutsamkeit“. 9.2.4
Die Interpretation eines nicht-signifikanten Ergebnisses
Ein nicht-signifikantes Testergebnis kann zweierlei bedeuten. 1: Es gibt keinen relevanten Unterschied, oder 2: Es gibt einen bedeutsamen Unterschied, der sich aber wegen eines zu geringen Stichprobenumfangs nicht statistisch absichern lässt. Ein Konfidenzintervall ist hilfreich, um zu beurteilen, welche Alternative eher zutrifft. Der Test in Beispiel 11.1 (S. 222) wurde durchgeführt, um herauszufinden, ob ein Zusammenhang zwischen Rauchen und Geschlecht besteht. Das Ergebnis „nicht signifikant“ ist mit Vorsicht zu interpretieren. Abgesehen vom nicht allzu hohen Stichprobenumfang ist zu bedenken, dass die Beobachtungseinheiten Medizinstudenten sind. Auf andere Populationen ist das Ergebnis nicht ohne weiteres übertragbar. Wenn man keinen Unterschied erwartet hat, ist ein nichtsignifikantes Testergebnis nicht Aufsehen erregend. Ansonsten sollte man überlegen, ob ein inhaltlicher Fehler vorliegt oder ob die statistische Analyse nicht optimal verlaufen ist.
188
Kapitel 9 · Das Prinzip eines statistischen Tests
Nun gibt es auch Fragestellungen, bei denen die Beibehaltung der Nullhypothese explizit erwünscht ist. Dazu zählen Anpassungstest und Äquivalenztests. Mit einem Anpassungstest soll nachgewiesen werden, dass eine empirische Verteilung mit einer theoretischen › Abschnitt 11.1.7, S. 230 f). In diesen FälVerteilung vereinbar ist (z len ist man bemüht, den E-Fehler möglichst gering zu halten. Dieser lässt sich indirekt durch die Wahl des D-Fehlers beeinflussen. Deshalb setzt man bei einem Anpassungstest meist D 0,10 (statt D 0, 05 ) und entscheidet sich für die Nullhypothese, solange p t 0,10 . Äquivalenztests werden u. a. bei Bioverfügbarkeitsstudien angewandt, um die therapeutische Gleichwertigkeit zweier Behandlungen zu prüfen. Für den Nachweis, dass zwei Verfahren übereinstimmend dieselben Ergebnisse liefern (abgesehen von zufällig bedingten Abweichungen, die für die Praxis unerheblich sind), stehen spezielle Methoden zur Verfügung. Für quantitative Messwerte eignet sich die › Abschnitt 5.2.5, S. 87). Bei qualitativen Bland-Altman-Analyse (z Merkmalen wird üblicherweise ein Kappa-Index berechnet, um den › Abschnitt 14.1.4, S. 293 Grad der Übereinstimung abzuschätzen (z f). Weitere Informationen zu Äquivalenztests findet man in [12].
9
9.2.5
Die Manipulation des Testergebnisses
Ein signifikantes Ergebnis lässt sich leichter publizieren als ein nicht-signifikantes. Um dies zu erreichen, ist einigen Leuten jedes Mittel recht. Einige dieser „Tricks“ werden hier aufgezählt (wobei ausdrücklich betont wird, dass sie nicht zur Nachahmung empfohlen werden).
x Auswahl des Tests. Bei vielen Fragestellungen kommen theore tisch mehrere Testmethoden mit unterschiedlichen Voraussetzungen in Frage. Die oben behandelte Frage, ob das mittlere Geburtsgewicht der 20 Babys mit dem Sollwert von 3.500 Gramm zu vereinbaren ist, kann auch mit dem Wilcoxon-Test oder dem Vorzeichentest über› Abschnitte 10.2.1, S. 205 f, und 10.3.1, S. 211). Man prüft werden (z könnte nun alle in Frage kommenden Tests durchprobieren und dann denjenigen auswählen, dessen p-Wert am besten gefällt (irgendeine Begründung bezüglich der Voraussetzungen lässt sich sicherlich finden). Die Auswahl eines geeigneten Tests muss sehr differenziert erfolgen. Wenn man einen Test anwendet, obwohl seine Voraussetzungen nicht erfüllt sind, nimmt man eine Erhöhung des D-Fehlers in Kauf. Das bedeutet: Der Test lässt mehr Ergebnisse signifikant
189 9.2 Testentscheidung und Konsequenzen
9
werden als dem vorab festgelegten D-Niveau entspricht. Ein solches Testverhalten heißt progressiv. Ein signifikantes Ergebnis ist zwar meist erwünscht – es könnte aber peinlich werden, wenn sich herausstellt, dass der vermeintliche Effekt mit einer wissenschaftlich unsauberen Methode gewaltsam herbeigeführt wurde. Andererseits sollte man die in den Daten enthaltene Information vollständig ausnutzen und einen Test mit einer hohen Power bevorzugen, wenn dessen Voraussetzungen erfüllt sind. Ansonsten besteht die Gefahr, dass ein tatsächlich vorhandener Unterschied nicht erkannt wird. Dies ist höchst ärgerlich für einen Forscher, der ja in der Regel etwas Neues etablieren und deshalb die Alternativhypothese absichern will. Einen Test, der zur Beibehaltung der Nullhypothese tendiert, nennt man konservativ.
x Ein- oder zweiseitiges Testen. Es mag verlockend sein, einseitig zu testen, nachdem man mit dem zweiseitigen Testen einen p-Wert zwischen 0,05 und 0,10 erhalten hat. Dadurch halbiert sich der pWert, und aus einem nicht-signifikanten Ergebnis wird ein signifikantes! Gegen eine einseitige Fragestellung ist nichts einzuwenden, falls sie sachlich begründet ist und falls die Richtung eines möglichen Unterschiedes vor der Datenerhebung festgelegt wird. Es ist aber unehrlich, einseitig zu testen und die Richtung des Unterschieds erst festzulegen, nachdem die Daten vorliegen. Man testet einseitig, wenn man die Richtung eines eventuell vorhandenen Unterschiedes vorab kennt, oder wenn sich Konsequenzen nur bei einer bestimmten Abweichungsrichtung ergeben. Der Anwender sollte sich allerdings fragen, ob wirklich nur eine einzige Abweichungsrichtung interessant ist, oder ob er sich einen Unterschied in einer bestimmten Richtung erhofft und deshalb einseitig testet. Außerdem ist zu berücksichtigen, dass einseitige Tests empfindlicher auf eine Verletzung ihrer Voraussetzungen reagieren als zweiseitige. Weitere Kniffe, mit denen sich Daten oder Testergebnisse „frisieren“ lassen und so zu irreführenden Schlussfolgerungen verleiten, liest man auf unterhaltsame Weise in [5]. Man kann zwar mit derlei Tricks gewaltsam ein signifikantes Ergebnis herbeiführen und dieses mit etwas Glück sogar veröffentlichen. Die wissenschaftliche Arbeit ist damit aber wertlos. Fälschungen könnten bei späteren Verifikationen auffallen und sehr unangenehme Folgen für alle Beteiligten haben. Die beste Methode, zu einem signifikanten Testergebnis zu kommen und einen D-Fehler zu vermeiden, besteht immer noch darin, vor der Datenerhebung die Fragestellung theoretisch zu überdenken und inhaltlich abzusichern.
190 9.2.6
9
Kapitel 9 · Das Prinzip eines statistischen Tests
Multiples Testen
Im klinischen Alltag wird häufig eine große Anzahl von Daten erhoben. Mit einer passenden Software stellen deren Analyse kein nennenswertes Problem dar. So ist man oft geneigt, einen Test nach dem anderen durchzuführen, in der Hoffnung, wenigstens ein einziges signifikantes Ergebnis zu erhalten. Aber: Bei mehrmaligem Testen steigt der D-Fehler enorm an. Bei einem einzelnen Test beträgt die Wahrscheinlichkeit, unter der Nullhypothese richtig zu entscheiden, 1 D ; bei 10 unabhängig durchgeführten Tests liegt diese Wahrscheinlichkeit nur noch bei (1 D)10 . Bei D 5% sind dies etwa 60% – das heißt, der gesamte Fehler 1. Art liegt bei 40%! Es lässt sich mathematisch nachweisen, dass bei k Tests der D -Fehler insgesamt etwa kD beträgt. Beim multiplen Testen wird daher häufig eine Korrektur benutzt. Nach der Bonferroni-Korrektur wird ein einzelnes Testergebnis erst dann als signifikant gewertet, wenn der p-Wert kleiner als D / k ist. Der Nachteil dieses Verfahrens liegt allerdings darin, dass sich dadurch der E-Fehler enorm erhöht. Das Problem des multiplen Testens kann dadurch entschärft werden, dass man nicht wahllos jeden Test durchführt, der theoretisch denkbar ist, sondern dass man vorab die konkrete Fragestellung präzise formuliert und dann überlegt, welche Tests dem inhaltlichen Problem angemessen sind. Häufig ist es sinnvoll, anstatt mehrerer einfacher Tests ein komplexeres Verfahren zu verwenden (so z. B. eine Varianzanalyse statt mehrerer t-Tests), da dies eine effizientere Datenanalyse ermöglicht. Zum Schluss sei betont: Es ist selbstverständlich legitim, ein signifikantes Ergebnis anzustreben und zu veröffentlichen. Dies sollte aber nicht durch Manipulation der Daten oder unsachgemäßer Handhabung der Verfahren, sondern aufgrund einer ordentlichen Versuchsplanung erzielt werden. Die statistische Analyse ist dann nur noch das „Tüpfelchen auf dem i“.
9.3
Klassifikation der Testmethoden
Es gibt diverse Testverfahren für die unterschiedlichsten Fragestellungen. Diese lassen sich nach mehreren Aspekten einteilen:
x Anzahl der Stichproben. Man unterscheidet 1-Stichprobentests, 2-Stichproben- und Mehrstichprobentests. Bei den 1-Stichprobentests wird eine empirische Kenngröße (z. B. ein Mittelwert) mit
191 9.3 Klassifikation der Testmethoden
9
einem vorgegebenen Sollwert verglichen. Mehrere Stichproben werden bezüglich eines bestimmten Parameters (z. B. dem Mittelwert) miteinander verglichen. In diesem Buch werden hauptsächlich 1und 2-Stichprobentests behandelt.
x Art der Stichproben. Zwei oder mehrere Stichproben können verbunden oder unverbunden sein. Verbundene (oder abhängige) Stichproben haben immer denselben Umfang; zwei verbundene Stichproben werden auch paarig genannt. Jeder Wert der einen Stichprobe bildet mit einem Wert der anderen Stichprobe inhaltlich ein Paar. Verbundene Stichproben werden untersucht, wenn ein bestimmtes Merkmal im Laufe einer Therapie an Patienten zu mehreren Zeitpunkten erfasst wird. Unverbundene (oder unabhängige) Stichproben sind bezüglich ihrer Beobachtungseinheiten unabhängig voneinander; ihre Umfänge können unterschiedlich sein. Solche Stichproben treten bei klinischen Studien auf, in denen zwei oder mehr Therapien an unterschiedlichen Patientengruppen angewandt und verglichen werden. x Funktion des Tests. Diesbezüglich lassen sich Tests einteilen in:
ŷ Lagetests zum Vergleich von Lagemaßen; ŷ Dispersionstests zur Prüfung von Streuungsmaßen; ŷ Wahrscheinlichkeitstests zum Vergleich einer relativen Häufigkeit mit einer vorgegebenen Wahrscheinlichkeit;
ŷ Homogenitätstests zum Vergleich mehrerer Stichproben bezüglich einer Häufigkeitsverteilung;
ŷ Unabhängigkeitstests, um die Unabhängigkeit zweier Merkmale zu überprüfen;
ŷ Anpassungstests, bei denen eine empirische Verteilung mit einer theoretischen (z. B. Normalverteilung) verglichen wird;
ŷ Tests zum Vergleich von Überlebenszeitkurven.
x Prüfgrößen. Danach unterscheidet man u. a. t-Tests, Rang summentests, Vorzeichentests, Chi2-Tests und Binomialtests. In den beiden nächsten Kapiteln werden Tests behandelt, die sich zum Nachweis einfacher Zusammenhänge eignen. Dadurch wird das Basiswissen vermittelt, das zum Verständnis komplexerer Verfahren erforderlich ist. Zu diesen zählen Mehrstichprobentests und multiple Testmethoden, die den Zusammenhang zwischen einer Zielgröße und mehreren Einflussgrößen untersuchen. Es würde den Rahmen dieses Buches sprengen, derlei Verfahren ausführlich zu behandeln. Interessierten Lesern seien [1,], [2], [3], [6] und [11] empfohlen.
192
Kapitel 9 · Das Prinzip eines statistischen Tests
Übersicht 5: Statistische Tests Funktion des Tests
Bezeichnung
Lagetest für eine Stichprobe
t-Test Wilcoxon-Test Vorzeichentest
Abschn.
10.1.1 10.2.1 10.3.1
Median-Test
X (normalverteilt) X (symmetrisch verteilt) Variable X Differenz X Y (normalverteilt) Differenz X Y (symmetrisch verteilt) Differenz X Y X und Y (normalverteilt mit gleicher Varianz) X und Y (normalverteilt) X und Y (gleiche Verteilungsform) X und Y (ordinal skaliert)
Dispersionstest
F-Test
2 Varianzen
10.1.5
Unabhängigkeitstest
t-Test
Korrelationskoeffizient
10.1.6
Binomialtest
Alternativmerkmal
11.2.1
Chi2-Test
Merkmal mit k Ausprägungen
11.1.5
Lagetest für zwei verbundene Stichproben
t-Test Wilcoxon-Test Vorzeichentest
t-Test Lagetest für zwei unverbundene Stichproben
9
Testgegenstand (und Voraussetzungen)
Welch-Test
U-Test
Wahrscheinlichkeitstest
10.1.2 10.2.2 10.3.2 10.1.3 10.1.4 10.2.3 11.1.2
Homogenitätstest für zwei unverbundene Stichproben, Unabhängigkeitstest
Vierfeldertest Chi2-Test Fisher’s exakter Test
2 Alternativmerkmale 2 qualitative Merkmale
11.1.1 11.1.3
2 qualitative Merkmale
11.2.2
Homogenitätstest für zwei verbundene Stichproben
McNemar-Test
Alternativmerkmal
11.1.6
Anpassungstest
Chi2Anpassungstest
empirische Verteilung
11.1.7
Vergleich von Überlebenszeiten
Logrank-Test
Überlebenszeitkurven
11.1.8
193 9.3 Klassifikation der Testmethoden
Zusammenfassung Kapitel 9 Fehler beim statistischen Test: Į-Fehler: Nullhypothese ist korrekt; Alternativhypothese wird fälschlicherweise angenommen E-Fehler: Alternativhypothese ist korrekt; Nullhypothese wird fälschlicherweise beibehalten Der optimale Stichprobenumfang hängt von mehreren Parametern ab: 1. vom Į-Fehler (üblich ist Į = 0,05), 2. vom E-Fehler (üblich ist E = 0,20), 3. von der Art der Daten und deren Skalenniveau, 4. von der Streuung der Daten, 5. vom speziellen Test und 6. von der Größe des nachzuweisenden Effekts. Ein Testergebnis wird als statistisch signifikant bezeichnet, wenn der pWert kleiner ist als 0,05. Aber: Der p-Wert enthält keine Informationen ŷ bezüglich der Größe eines Unterschiedes oder der Stärke eines Zusammenhangs; ŷ über die Ursachen, die zum Testergebnis geführt haben; ŷ darüber, ob der nachgewiesene Zusammenhang kausal bedingt ist; ŷ über die klinische Relevanz oder die wissenschaftliche Bedeutung des Testergebnisses. p-Wert versus Konfidenzintervall: ŷ Der p-Wert informiert über die statistische Signifikanz. ŷ Das Konfidenzintervall informiert über die Größe des Effekts. ŷ Beide Informationen sind wichtig!
9
10
Lagetests 10.1
t-Tests 197
10.1.1
Der t-Test für eine Stichprobe 197
10.1.2
Der t-Test für zwei verbundene Stichproben 198
10.1.3
Der t-Test für zwei unverbundene Stichproben 199
10.1.4
Der Welch-Test 200
10.1.5
Die Voraussetzungen der t-Lagetests 202
10.1.6
Andere Anwendungen des t-Tests 204
10.2
Rangsummentests 205
10.2.1
Der Wilcoxon-Test für eine Stichprobe 205
10.2.2
Der Wilcoxon-Test für zwei verbundene Stichproben 206
10.2.3
Der U-Test von Mann und Whitney 208
10.2.4
Vergleich zwischen Rangsummentests und t-Tests 210
10.3
Vorzeichentests 211
10.3.1
Der Vorzeichentest für eine Stichprobe 211
10.3.2
Der Vorzeichentest für zwei verbundene Stichproben 212
10.3.3
Vergleich mit anderen Lagetests 212
10.4
Ausblick auf komplexere Methoden 213
10.4.1
Mehrstichprobentests 213
10.4.2
Multiple Methoden 214
197 10.1 t-Tests
10.1
10
t-Tests
t-Tests sind die bekanntesten und beliebtesten Lagetests. Sie eignen sich zum Vergleich von Mittelwerten. Diese Tests setzen theoretisch normalverteilte Grundgesamtheiten voraus. Man bezeichnet sie als parametrische Tests, da bei bekannter Verteilung der Zufallsvariablen nur noch bestimmte Parameter (z. B. Erwartungswerte) überprüft werden. Beispiele für Fragestellungen, die sich mit einem tTest bearbeiten lassen:
ŷ t-Test für eine Stichprobe (Abschnitt 10.1.1): Ein Anwendungsbeispiel findet man in Abschnitt 9.1 (S. 186): Das mittlere Geburtsgewicht von 20 Risiko-Babys wird mit einem Sollwert verglichen. ŷ t-Test für zwei verbundene Stichproben (Abschnitt 10.1.2, S. 198): Dieser Test wird gerne für „Vorher-Nachher-Vergleiche“ eingesetzt (etwa um zwei Mittelwerte, die vor und nach einer Therapie bei denselben Patienten ermittelt wurden, zu vergleichen). ŷ t-Test für zwei unverbundene Stichproben (Abschnitt 10.1.3, S. 199): Damit lassen sich die Mittelwerte zweier unabhängiger Stichproben (z. B. zwei Therapiegruppen) miteinander vergleichen. Dieser Lagetest ist eines der am häufigsten angewandten Testverfahren bei medizinischen Fragestellungen. 10.1.1 Der t-Test für eine Stichprobe Dieser Test vergleicht den Mittelwert x einer Stichprobe mit einem vorgegeben Wert P 0 . Er setzt voraus, dass
ŷ die Stichprobenwerte xi Realisationen einer normalverteilten Zufallsvariablen X ~ N (P, V 2 ) sind.
Dieser Test wurde ausführlich in Abschnitt 9.1 (S. 177 ff) behandelt. Die Prüfgröße berechnet sich nach Formel (9.1) (S. 180) aufgrund des Mittelwerts und der Standardabweichung der Stichprobe als: t
x P0 s/ n
198
Kapitel 10 · Lagetests
10.1.2 Der t-Test für zwei verbundene Stichproben Dies ist ein Lagetest zum Vergleich der Erwartungswerte zweier verbundener Stichproben. Er setzt formell voraus:
ŷ zwei verbundene Stichproben des Umfangs n mit Wertepaaren ŷ
( xi , yi ) , die aus Grundgesamtheiten mit den Erwartungswerten P1 und P 2 stammen; Differenzen d i xi yi , die Realisationen einer normalverteilten Zufallsvariablen D mit dem Erwartungswert į (Delta) sind.
Die Hypothesen lauten bei zweiseitiger Fragestellung: G
H0 :
0
H1 :
Gz0
bzw. bei einseitiger Fragestellung: G!0
H1 :
(oder G 0 )
Unter der Nullhypothese erwartet man für die Differenzen d i den Mittelwert d 0 . Die Prüfgröße berechnet sich analog zu (9.1) als t
10
d sd / n
(10.1)
Dabei bezeichnet s d die empirische Standardabweichung der Differenzen d i . Die Nullhypothese wird abgelehnt, falls t ! t n 1;1 D / 2 bzw. falls t ! tn 1;1D (bei 2-seitiger bzw. 1-seitiger Fragestellung). Mit einem Konfidenzintervall lässt sich die Größe des „wahren“ › Formel 8.9, S. 166): Unterschieds abzuschätzen (z t n 1;1D / 2 s d t n 1;1D / 2 s d º ª ;d «d » n n ¬ ¼
Falls einseitig getestet wird, benutzt man die Formeln nach (8.10), um ein halboffenes Intervall zu konstruieren. i Bei praktischen Anwendungen werden die Prüfgröße, der p-Wert und z das Konfidenzintervall in aller Regel von einer Statistiksoftware ermittelt (wobei bei Publikationen die Prüfgröße meist gar nicht angegeben wird). Dennoch wird in den Beispielen der Kapitel 10 und 11 die Berechnung der jeweiligen Prüfgröße aus didaktischen Gründen durchgeführt.
199 10.1 t-Tests
10
Beispiel 10.1: t-Test für zwei verbundene Stichproben In Beispiel 10.3 (S. 207) sind die Körpergewichte von 10 Personen aufgelistet, die vor und nach einer Diät gemessen wurden. Die Mittelwerte sind 93,9 kg (vorher) und 91,2 kg (nachher). Die mittlere Differenz ist (2,68 ± 3,32) kg. Dies ergibt nach (10.1) die Prüfgröße t 2,55 . Aus Tabelle B (S. 330) entnimmt man t9;0,975 2,262 als kritischen Punkt (der p-Wert beträgt 0,0312). Der Unterschied ist also signifikant auf dem Niveau D 0,05 . Das Konfidenzintervall für die Differenz ist: [0,302 ; 5,058]. Eventuell ist der durchschnittliche Unterschied mit 300 Gramm minimal; er könnte jedoch auch mehrere kg betragen. Das Testergebnis ist zwar signifikant – ein höherer Stichprobenumfang würde aber zu einem kleineren Konfidenzintervall und zu einer genaueren Schätzung führen.
10.1.3 Der t-Test für zwei unverbundene Stichproben Die Prämissen dieses Tests sind folgende:
ŷ Es liegen zwei unverbundene Stichproben der Umfänge n1 und n2 mit den Mittelwerten x und y vor;
ŷ die Daten beider Stichproben entstammen normalverteilten Grundgesamtheiten mit derselben Varianz, also X ~ N (P1, V 2 ) und Y ~ N (P 2 , V 2 ) .
Beide Verteilungen sollten demnach dieselbe Form haben und sich höchstens bezüglich ihrer Erwartungswerte unterscheiden. Die Nullhypothese lautet: H 0 : P1 P 2 . Die Prüfgröße ist: t
xy 1 1 s n1 n2
(10.2)
Dabei ist s 2 die „mittlere“ Varianz, die aufgrund der Annahme gleicher Varianzen durch eine gewichtete Mittelung aus den beiden empirischen Varianzen s12 und s 22 berechnet wird: s2
( n1 1) s12 ( n2 1) s22 n1 n2 2
(10.3)
Da in die Berechnung von t zwei unabhängige Mittelwerte einfließen, beträgt die Anzahl der Freiheitsgrade f n1 n2 2 . Die Grenzen des zweiseitigen Konfidenzintervalls sind:
200
Kapitel 10 · Lagetests
x y r tn1 n2 2;1D / 2 s
1 1 n1 n2
Bei gleichen Stichprobenumfängen n obigen Formeln zu:
t
s2
10
xy s 2/n s12 s22 2
n1
n2 vereinfachen sich die
(10.4)
(10.5)
Beispiel 10.2: t-Test für zwei unverbundene Stichproben Für die Körpergrößen männlicher und weiblicher Studenten ergeben sich Mittelwerte von xm 182,95 cm bzw. xw 169,45 cm . Ist dieser Unterschied nur zufällig bedingt oder kann man ihn als signifikant werten? Mit den Standardabweichungen sm 7,645 cm bzw. sw 6,309 cm und den Stichprobenumfängen n1 21 und n2 55 berechnet man nach (10.3): 20 7, 6452 54 6,3092 s2 cm 2 44,842 cm 2 74 Daraus ergibt sich für die Prüfgröße nach (10.2): 182,95 169, 45 13,50 t 7,89 44, 482 44, 482 1,7108 21 55 Die Anzahl der Freiheitsgrade beträgt f 21 55 2 74 . Der kritische Wert t74;0,975 1,993 ist wesentlich kleiner als die Prüfgröße. Wegen p 0,0001 ist das Ergebnis hoch signifikant. Für die mittlere Differenz ergibt sich folgendes Konfidenzintervall: [10,075 cm ; 16,921 cm]. Man beachte, dass – bedingt durch den hohen Wert für f – der kritische Wert dieses Beispiels nahe beim entsprechenden Quantil der Standardnormalverteilung 1,96 liegt. Die kritischen Werte sind betragsmäßig umso größer, je kleiner die Stichprobenumfänge sind.
10.1.4 Der Welch-Test Der Welch-Test ist eine Alternative zum t-Test für zwei unverbundene Stichproben. Die Voraussetzungen sind dahingehend abgeschwächt, dass die Gleichheit der Varianzen (die so genannte Homoskedazität) der beiden Grundgesamtheiten nicht vorausgesetzt wird.
201 10.1 t-Tests
10
Mathematische Herleitung der Prüfgröße beim t-Test für zwei unverbundene Stichproben Die Prüfgröße beschreibt die Verteilung der Differenz X Y , die aus den Mittelwerten der beiden Stichproben berechnet wird. Unter der Nullhypothese sind die Differenzen normalverteilt mit dem Erwartungswert 0. Für deren Varianz gilt: Var ( X Y )
Var X Var Y
V2 V2 . n1 n2
Die unbekannte Varianz V 2 wird geschätzt durch das gewichtete Mittel der beiden Stichproben-Varianzen nach Formel (10.3). Wenn man diese Terme in (7.40) (S. 152) einsetzt, erhält man eine Prüfgröße nach (10.2).
Die empirischen Stichprobenvarianzen s12 und s 22 sind Schätzwerte für die Varianzen der Grundgesamtheiten. Die Prüfgröße berechnet sich analog zu Formel (10.2) als: t
xy s12 s22 n1 n2
(10.6)
Die Anzahl der Freiheitsgrade ermittelt man nach: f
( s12 / n1 s22 / n2 ) 2 ( s12 / n1 ) 2 ( s22 / n2 ) 2 n1 1 n2 1
(10.7)
Meist wird sich mit dieser Formel keine ganze Zahl ergeben; in diesem Fall rundet man auf die nächst kleinere, ganze Zahl ab. In vielen Situationen stellt sich die Frage, ob der t-Test oder der Welch-Test geeigneter ist. Da beim Welch-Test weniger Voraussetzungen zu berücksichtigen sind, könnte man geneigt sein, diesen zu bevorzugen (wenn etwa die Varianzen der Grundgesamtheit unbekannt sind oder die Gleichheit aus anderen Gründen nicht angenommen werden kann). Doch Vorsicht: Wenn die Bedingungen des t-Tests erfüllt sind, hat der Welch-Test eine geringere Power. Dann kann es passieren, dass der klassische t-Test ein Ergebnis zur Annahme der Alternativhypothese liefert, während der Welch-Test mit denselben Daten zur Beibehaltung der Nullhypothese führt. Außerdem sollte man sich Gedanken bezüglich der Interpretation des Testergebnisses machen. Beim Welch-Test werden ungleiche Vari-
202
Kapitel 10 · Lagetests
anzen und damit verschiedene Verteilungsformen angenommen. Ein Vergleich der dazugehörenden Erwartungswerte erinnert an den berühmten Vergleich zwischen Birnen und Äpfeln. Eine sinnvollere Strategie besteht in der Regel darin, Fragestellungen zu behandeln, bei denen man annähernd gleichförmige Verteilungen voraussetzen darf und den Welch-Test nur in begründeten Ausnahmefällen zu verwenden. i Die Problematik, Mittelwerte zu vergleichen, ohne dass gleiche Varianz zen der Grundgesamtheiten vorausgesetzt werden, wurde von B. L. Welch im Jahre 1937 beschrieben. Dieser Test ist auch unter dem Namen „t-Test nach Satterthwaite“ bekannt.
10.1.5 Die Voraussetzungen der t-Lagetests
10
t-Lagetests sind im Allgemeinen recht beliebt, obwohl sie strenge Voraussetzungen beinhalten (u. a. Normalverteilung). Leider sind jedoch viele Merkmale in der Medizin nicht normalverteilt; hin und wieder hat man es mit Merkmalen zu tun, deren Verteilung unbekannt ist. Wie lässt sich nun die Normalverteilung überprüfen? Streng genommen gar nicht – denn die Forderung nach Normalverteilung bezieht sich auf die Grundgesamtheit, und diese ist in der Regel nicht konkret vorgegeben. Man kann lediglich anhand der Stichprobe überprüfen, ob gewisse Argumente für oder gegen die Normalverteilung sprechen. x Histogramm. Dieses informiert auf einen Blick, ob die Daten der Stichprobe symmetrisch oder eher schief verteilt sind. x Mittelwert und Median. Falls diese beiden Parameter stark voneinander abweichen, spricht dies für eine schiefe Verteilung. x Schiefe und Kurtosis. Beide Parameter müssten – falls die Daten normalverteilt sind – Werte um 0 annehmen. x Anpassungstest. Hin und wieder wird empfohlen, „zur Sicher heit“ die Normalverteilung mit einem Anpassungstest zu überprüfen. Der Nutzen dieses Vorgehens ist jedoch zweifelhaft. Wenn die mit einem Anpassungstest ermittelte Prüfgröße in den Annahmebereich fällt, ist damit die Normalverteilung keineswegs abgesichert, sondern lediglich nicht ausgeschlossen. Insbesondere bei kleinen Stichproben kann der E-Fehler so groß sein, dass ein solches Ergebnis als Bestätigung für die Normalverteilung höchst unzuverlässig ist.
203 10.1 t-Tests
10
Allerdings ist der t-Test robust (also unempfindlich) gegenüber Abweichungen von der Normalverteilung. Dies bedeutet: Trotz geringfügiger Verletzungen seiner Voraussetzungen bleiben die Wahrscheinlichkeiten für Fehlentscheidungen (also der D-Fehler und der E-Fehler) nahezu konstant. Folgendes ist zu beachten: x t-Test für eine Stichprobe. Er ist mit Vorsicht zu handhaben. Per fekt symmetrische Verteilungen (oder gar Normalverteilungen) gibt es in der Natur eigentlich nicht. Bei Stichproben des Umfangs n t 10 genügt es, wenn die Daten annähernd symmetrisch verteilt sind. Für n t 25 kann man davon ausgehen, dass die Stichprobenmittelwerte nach dem zentralen Grenzwertsatz normalverteilt sind (auch wenn die Messwerte anders verteilt sind). Bei kleineren Stichproben sollte man allerdings, wenn keine Normalverteilung vorliegt, auf einen anderen Lagetest ausweichen – etwa auf den Wilcoxon-Test für eine › Abschnitt 10.2.1, S. 205) oder den Vorzeichentest (z › Stichprobe (z Abschnitt 10.3.1, S. 211). x t-Test für zwei verbundene Stichproben. Für n t 10 ist es ausrei chend, wenn die Differenzen d i annähernd symmetrisch verteilt sind. Diese Einschränkung ist nicht allzu stark. Die Voraussetzung ist bereits erfüllt, wenn die Variablen X und Y ungefähr die gleiche Verteilungsform haben. Asymmetrien werden durch die Bildung der Differenzen ausgeglichen. Bei kleinen Stichproben empfiehlt sich › Abschnitt 10.2.2, S. 205 f); für nicht der Wilcoxon-Test (z symmetrische Verteilungen steht der Vorzeichentest zur Verfügung › Abschnitt 10.3.2, S. 212). (z x t-Test für zwei unverbundene Stichproben. Dieser Test zum Ver gleich zweier Erwartungswerte ist außerordentlich beliebt, obwohl seine Voraussetzungen formal sehr streng sind. Manche Anwender umgehen dieses Problem, indem sie die einschränkenden Prämissen schlicht missachten. Andere treffen umfangreiche Vorarbeiten, indem sie mit zwei „Vortests“ die Voraussetzungen (Gleichheit der Varianzen und Normalverteilung) überprüfen. Dass mit einem Anpassungstest die Normalverteilung nicht nachzuweisen ist, wurde bereits oben erwähnt. Ähnlich verhält es sich mit dem F-Test, der üblicherweise zur Prüfung der Gleichheit zweier Varianzen herangezogen wird (dieser Test ist benannt nach Sir Ronald Fisher und basiert auf der in Abschnitt 7.4.3 (S. 155) genannten F-Verteilung). Bei einem kleinen Stichprobenumfang bedeutet die Beibehaltung der Nullhypothese mitnichten, dass die Varianzen übereinstimmen. Andererseits wird ein hoher Stichprobenumfang fast immer zur Ablehnung der Nullhypothese führen, da sich damit auch geringe Abwei-
204
Kapitel 10 · Lagetests
chungen der beiden Varianzen nachweisen lassen. Man sollte bei diesem t-Test vor allem darauf achten, dass
ŷ beide Stichprobenumfänge mindestens 10 (bei nicht symmetrischen Verteilungen 20) betragen und ähnlich groß sind, und
ŷ die Zufallsvariablen X und Y ungefähr denselben Verteilungstyp haben. Dies lässt sich über die empirischen Kenngrößen oder eine graphische Darstellung überprüfen. Bei ungeplanten, wahllos durchgeführten Datensammlungen mag dies schwierig sein – ein sorgfältiges Studiendesign kann jedoch Einiges dazu beitragen, dass diese Voraussetzungen erfüllt sind. Was sollte man tun, wenn die Voraussetzungen nicht erfüllt sind? Hier bieten sich zwei Möglichkeiten an:
ŷ Man kann versuchen, nicht normalverteilte Daten in geeigneter
› Abschnitt 7.2.4, S. 141 f). Wenn Weise zu transformieren (z man linksgipfelige (rechtsschiefe) Daten logarithmiert, ist dies oft doppelt hilfreich: Die logarithmierten Daten sind eher normalverteilt und die Varianzen eher annähernd gleich. ŷ Man kann auf einen Test mit schwächeren Voraussetzungen ausweichen, z. B. den U-Test, der keine spezielle Vorteilung vor› Abschnitt 10.2.3, S. 208 f) oder den Median-Test (z › aussetzt (z Abschnitt 11.1.2, S. 223).
10
10.1.6 Andere Anwendungen des t-Tests Der t-Test ist keineswegs nur als Lagetest nützlich. Um zu testen, ob sich ein empirischer Korrelationskoeffizient nach Pearson signifikant von 0 unterscheidet, berechnet man folgende Prüfgröße: t
r 1 r2 n2
(10.8)
Dieses t hat n 2 Freiheitsgrade. Falls t ! tn 2;1D , entscheidet man sich für die Alternativhypothese. In diesen Fällen wird man in der Regel einseitig testen, da die Richtung eines Zusammenhangs (gleich- oder gegensinnig) vorab bekannt sein dürfte. Darüber hinaus ist es sinnvoll, Konfidenzintervalle für ein empirisch ermitteltes r und auch für die Parameter der Regressionsgeraden anzugeben. Die › Abschnitt 8.3.4, S. 169). Voraussetzungen dafür sind recht streng (z
205 10.2 Rangsummentests
10
Aus Gleichung (10.8) geht hervor: Je größer der Betrag des empirischen Korrelationskoeffizienten r und je größer der Stichprobenumfang n, desto größer ist der Betrag der Prüfgröße t und desto eher wird die Alternativhypothese angenommen. Das nach (10.8) berechnete t dient übrigens gleichzeitig zur Überprüfung des Steigungskoeffizienten der Regressionsgeraden. Der t-Test hat also mehrere Anwendungsmöglichkeiten und dabei einschränkende Voraussetzungen. Glücklicherweise sind t-Tests robust: Mit Monte-Carlo-Studien wurde nachgewiesen, dass geringfügige Verletzungen der Prämissen (insbesondere der Normalverteilung) tolerierbar sind.
10.2
Rangsummentests
Diese Tests werden alternativ zu den t-Lagetests verwendet. Sie haben weniger strenge Voraussetzungen: Es handelt sich um verteilungsfreie (oder nicht-parametrische) Tests, die keine bestimmte Verteilungsform voraussetzen. Die Prüfgrößen werden nicht aus den Original-Messwerten, sondern aus deren Rangzahlen berechnet. Daher lassen sich diese Tests unter Umständen auch für ordinal-skalierte Merkmale verwenden. Sie basieren auf einer Methode des Mathematikers Frank Wilcoxon (1892-1965). 10.2.1 Der Wilcoxon-Test für eine Stichprobe Dieser Test überprüft, ob der Median einer Stichprobe von einem ~ abweicht. Die Nullhypothese lautet also: vorgegeben Sollwert P 0 H0 :
~ P
~ P 0
~ der Median der Grundgesamtheit, zu der die Stichprobe Dabei ist P gehört. Die Testdurchführung lässt sich wie folgt beschreiben:
ŷ Zunächst wird für jeden Stichprobenwert die Differenz zum Sollwert berechnet. Stichprobenwerte, die mit dem Sollwert übereinstimmen, werden eliminiert. ŷ Die Differenzen werden nun nach der Größe ihres Betrags in aufsteigender Reihenfolge sortiert und mit Rangzahlen versehen. Die betragsmäßig kleinste Differenz erhält die Rangzahl 1, die größte die Rangzahl n.
206
Kapitel 10 · Lagetests
ŷ Wenn zwei oder mehr identische Differenzbeträge auftreten,
› Beiordnet man jeder Differenz eine mittlere Rangzahl zu (z spiel 10.3, S. 207). Man spricht dabei von verbundenen Rängen. ŷ Dann werden die Rangzahlen der negativen Differenzen und die Rangzahlen der positiven Differenzen aufaddiert. Diese beiden Rangsummen bezeichnet man mit R bzw. R . ŷ Die Prüfgröße R ist die kleinere der beiden Rangsummen. ŷ In Tabelle C (z› Anhang, S. 331) findet man kritische Werte in Abhängigkeit vom Stichprobenumfang n und dem D-Niveau. Die Nullhypothese wird abgelehnt, falls die Prüfgröße nicht größer ist als der kritische Wert. Für Stichprobenumfänge n ! 25 ist die Prüfgröße unter H 0 approximativ normalverteilt mit dem Erwartungswert n(n 1) / 4 und der Varianz n(n 1)(2n 1) / 24 . Der Wertebereich von R erstreckt sich zwischen 0 und n(n 1) / 4 . Der Extremfall R 0 besagt, dass sich die beiden Rangsummen maximal unterscheiden. Alle Stichprobenwerte sind dann kleiner (oder alle größer) als der Sollwert. Unter der Nullhypothese erwartet man dagegen gleiche Rangsummen der Größe n(n 1) / 4 . Bei diesem Test weisen also (anders als beim tTest) kleine Prüfgrößen auf große Unterschiede hin.
10
x Zu den Voraussetzungen. Dieser Test setzt zwar keine Normal verteilung voraus, wohl aber eine symmetrische Verteilung. Falls diese Voraussetzung grob verletzt ist, bietet sich der Vorzeichentest › Abschnitt 10.3.1, S. 211). für eine Stichprobe als Alternative an (z 10.2.2 Der Wilcoxon-Test für zwei verbundene Stichproben Dieser Test ist das Pendant zum t-Test für zwei verbundene Stichproben mit jeweils dem Umfang n. Es werden die beiden Mediane verglichen; die Nullhypothese lautet: ~ H0 : P 1
~ P 2
Das Testverfahren funktioniert ähnlich wie beim 1-Stichprobentest:
ŷ Für jedes Merkmalspaar werden aus den Stichprobenwerten die Differenzen d i
x i y i gebildet.
ŷ Differenzen, die gleich 0 sind, werden eliminiert. ŷ Die Werte d i werden nach der Größe ihres Betrags in aufsteigender Reihenfolge sortiert und mit Rangnummern versehen.
10
207 10.2 Rangsummentests
ŷ Dann addiert man separat die Rangzahlen der positiven und die Rangzahlen der negativen Differenzen.
ŷ Die kleinere Summe ist die Prüfgröße R. Die kritischen Werte › Anhang, S. 331). findet man in Tabelle C (z
Beispiel 10.3: Wilcoxon-Test für zwei verbundene Stichproben Zehn Personen nehmen sechs Monate lang eine Diät zu sich. Die Werte bezüglich des Körpergewichts vor und nach der Diät xi bzw. yi (in kg) sind in der folgenden Tabelle wiedergegeben. Mit dem Wilcoxon-Test für zwei verbundene Stichproben soll überprüft werden, ob sich das durchschnittliche Gewicht geändert hat. Rangzahlen Rangzahlen xi yi d i xi y i i für d i ! 0 für d i 0 1 2 3 4 5 6 7 8 9 10
92,7 86,2 102,1 85,9 96,3 90,2 87,5 98,0 89,9 110,2
85,8 83,4 98,3 83,6 91,1 92,7 88,6 98,7 87,1 102,9
6,9 2,8 3,8 2,3 5,2 -2,5 -1,1 -0,7 2,8 7,3
9 5,5 7 3 8 4 2 1 5,5 10
R 48 R 7 Zur Kontrolle berechnet man die Summe aus R und R ; sie ergibt 55. Dies stimmt überein mit der Summe der Zahlen 1 bis 10 (die sich allgemein als n(n 1) / 2 berechnet). Weil die Differenzbeträge der Beobachtungseinheiten 2 und 9 übereinstimmen, werden verbundene Ränge zugewiesen. Die Prüfgröße ist R 7 . Für D 5% und n 10 ermittelt man 8 als kritischen Wert › Tabelle C, S. 331). Da R kleiner ist als 8, wird (bei 2-seitiger Fragestellung) (z die Alternativhypothese angenommen (p = 0,0371).
Wie beim Wilcoxon-Test für eine Stichprobe, schwankt auch dieses R zwischen 0 und n( n 1) / 4 . R n(n 1) / 4 entsteht, wenn sich die Differenzen symmetrisch um 0 verteilen (maximale Übereinstimmung). R 0 ergibt sich, wenn alle Differenzen größer oder alle kleiner als 0 sind (größtmöglicher Unterschied). x Zu den Voraussetzungen. Diese sind bei vielen praktischen An wendungen annähernd erfüllt. Bei zwei verbundenen Stichproben kann man nämlich oft davon ausgehen, dass die Zufallsvariablen X und Y annähernd die gleiche Verteilungsform aufweisen, und dass
208
Kapitel 10 · Lagetests
deshalb die Differenzen d i symmetrisch verteilt sind. Falls mehrere Differenzen in ihrem Betrag übereinstimmen, bildet man verbundene Ränge. 10.2.3 Der U-Test von Mann und Whitney Dieser Test stellt eine Alternative zum t-Test für zwei unverbundene Stichproben dar. Dabei werden zwei Mediane miteinander vergli~ P ~ . Die Stichprobenumchen; die Nullhypothese lautet: H 0 : P 1 2 fänge seien n1 und n2 ; diese müssen nicht identisch sein. Der U-Test verlangt Zufallsvariable X und Y, die etwa die gleiche Verteilungsform haben. Symmetrie oder gar Normalverteilung werden nicht vorausgesetzt. Insofern basiert dieser Test auf wesentlich schwächeren Voraussetzungen als der t-Test. Er wird folgendermaßen durchgeführt:
ŷ Alle Werte aus beiden Stichproben werden in aufsteigender Reihenfolge sortiert und mit Rangzahlen versehen.
ŷ Danach addiert man für jede Stichprobe separat die entsprechenden Rangzahlen und bezeichnet die Summen als R1 bzw. R2 . Daraus berechnet man: U1
10
U2
n1 (n1 1) R1 2 n (n 1) R2 n1 n2 2 2 2
n1 n2
(10.9)
ŷ Es lässt sich nachweisen, dass gilt: U1 U 2 n1 n2 . ŷ Die Testgröße wird berechnet als U min(U1 ,U 2 ) . ŷ Wenn U kleiner ist als der kritische Wert oder gleich diesem (z› Tabelle D, Anhang, S. 332 f), wird die Nullhypothese abgelehnt.
Für größere Stichproben (mindestens 10 pro Gruppe) ist die Prüfgröße unter der Nullhypothese normalverteilt mit dem Erwartungswert n1 ( n1 n2 1) / 2 und der Varianz n1 n2 / 6 (wobei n1 den kleineren Umfang bezeichnet). Die Prüfgröße U erstreckt sich zwischen 0 und n1 n2 / 2 . Je näher U bei 0 liegt, umso mehr unterscheiden sich die beiden Stichproben und umso eher wird die Alternativhypothese angenommen.
10
209 10.2 Rangsummentests
Beispiel 10.4: U-Test von Mann und Whitney Es soll nachgewiesen werden, dass männliche Studenten im Durchschnitt ein höheres Körpergewicht haben als weibliche. Dazu werden 10 Studenten und 12 Studentinnen aus dem in Tabelle 2.1 (S. 34 f) auflisteten Personenkreis zufällig ausgewählt. Da man beim Merkmal „Körpergewicht“ nicht unbedingt von einer Normalverteilung ausgehen kann, benutzt man den U-Test. Die Werte und Ränge der Daten sind in der folgenden Tabelle aufgelistet: Stichprobe 1 (Männer, n1 10 ) Stichprobe 2 (Frauen, n2 12 ) Gewicht 62 69 70 72 75 75 80 83 86 93
Rang 9 13 14 15,5 17,5 17,5 19 20 21 22
R1
168,5
Gewicht 51 52 52 53 55 57 60 61 63 64 67 72
Rang 1 2,5 2,5 4 5 6 7 8 10 11 12 15,5 R2 84,5
Mit (10.9) ergibt sich: U1 6,5 und U 2 113,5 . Also ist U 6,5 . Aus Tabelle D (S. 332 f) entnimmt man für den kritischen Wert 29 (zweiseitiger Test, D 5% ). Da die Prüfgröße wesentlich kleiner ist, ist der Unterschied abgesichert. Der p-Wert beträgt 0,0005. Wenn man mit denselben Daten einen tTest durchführt, ergibt sich p < 0,0001. Ein Anwendungsbeispiel für ein ordinal skaliertes Merkmal: Die Tabelle 2.1 enthält Daten bezüglich der Einstellung zu alternativen Heilverfahren mit Ausprägungen zwischen -3 (totale Ablehnung) bis +3 (uneingeschränkte Zustimmung). Die Mediane betragen 0 (Männer) und 2 (Frauen). Mit dem UTest ergibt sich p = 0,0005. Offenbar haben die weiblichen Studenten eine positivere Einstellung als ihre männlichen Kommilitonen.
Verbundene Ränge sind unproblematisch, wenn sie innerhalb einer Stichprobe auftreten. Verbundene Ränge, die beide Stichproben betreffen, reduzieren die Power des Tests. Sie lassen sich bei stetigen Merkmalen durch eine hohe Messgenauigkeit vermeiden. i Manche Autoren nennen diesen Test „Wilcoxon-test for 2 samples“. z Wilcoxon und die Statistiker Mann und Whitney haben ihre Tests nahezu zeitgleich veröffentlicht. Formal handelt es sich um dasselbe Verfahren.
210
Kapitel 10 · Lagetests
Mathematische Herleitung der Prüfgröße U Zunächst berechnen wir die Summe der Prüfgrößen. Aus (10.9) folgt: n (n 1) n2 (n2 1) U1 U 2 2n1n2 1 1 ( R1 R2 ) 2 Da die Summe der Rangzahlen R1 und R2 der Summe aller Zahlen von 1 bis (n1 n2 )(n1 n2 1) . Wenn man diesen Aus2 druck in die obige Formel einsetzt, erhält man U1 U 2 n1 n2 . n1 n2 entspricht, gilt: R1 R2
Welche Werte können U 1 und U 2 annehmen? Wir gehen zunächst von folgendem Extremfall aus: Jedes Element xi der 1. Stichprobe ist kleiner als jedes beliebige Element y j der 2. Stichprobe. In diesem Fall unterscheiden sich die beiden Stichproben maximal. Dann haben die xi die Ränge 1 bis n1 und die y j die Ränge n1 1 bis n1 n2 . Es gilt also: R1 n1 (n1 1) / 2 und damit nach (10.9): U1 n1 n2 , U 2 0 und U min(U1,U 2 ) 0 . Wenn die Ränge in den beiden Stichproben gleich verteilt sind, verhalten sich die Rangsummen wie die Stichprobenumfänge, also n1 / n2 R1 / R2 . In diesem Fall ist U U1 U 2 n1 n2 / 2 .
10.2.4 Vergleich zwischen Rangsummentests und t-Tests
10
Rangsummentests haben schwächere Voraussetzungen als t-Tests und damit ein breiteres Anwendungsspektrum. Die Ränge haben nämlich die günstige Eigenschaft, dass sie von Datenmanipulationen unberührt bleiben, solange dabei die Reihenfolge der Daten nicht verändert wird. Deshalb eignen sich auch Daten, die nur als Prozentangaben vorliegen, für Rangsummentests. Außerdem können diese Tests für quantitativ-diskrete und ordinal-skalierte Merkmale (z. B. klinische Scores) verwendet werden. Andererseits sind t-Tests außerordentlich beliebt, und zwar aus mehreren Gründen:
ŷ Ein Rangsummentest wertet nur die Reihenfolge der Daten aus. Dies ist nicht für alle Fragestellungen sinnvoll.
ŷ Der t-Test nutzt dagegen die in den Daten enthaltenen Informationen vollständig aus; er hat eine höhere Power. Rangsummentests sind dagegen eher konservativ. So kann es vorkommen, dass man mit dem t-Test ein statistisch signifikantes Ergebnis erhält, während der entsprechende Rangsummentest mit denselben Daten zur Beibehaltung der Nullhypothese führt. ŷ Mittels der t-Verteilung lassen sich nicht nur p-Werte ermitteln, sondern auch Konfidenzintervalle berechnen. Diese sind sehr hilfreich, um die Größe eines Unterschiedes zu beurteilen.
211 10.3 Vorzeichentests
10.3
10
Vorzeichentests
10.3.1 Der Vorzeichentest für eine Stichprobe Die Nullhypothese ist dieselbe wie beim Wilcoxon-Test: Es wird untersucht, ob der Median einer Stichprobe mit einem vorgegebenen Sollwert vereinbar ist. Das Testverfahren ist einfach:
ŷ Man beurteilt jeden Stichprobenwert danach, ob er größer oder kleiner als der Sollwert ist und ordnet ihm dementsprechend ein positives oder ein negatives Vorzeichen zu. ŷ Werte, die mit dem Sollwert identisch sind, werden eliminiert. ŷ Man zählt die Anzahl der positiven und die Anzahl der negativen Vorzeichen; die kleinere Zahl ist die Prüfgröße k. Falls die Nullhypothese zutrifft, erwartet man, dass die Anzahl der positiven und die der negativen Vorzeichen übereinstimmen. ŷ Die Testentscheidung trifft man nach einem Vergleich mit dem kritischen Wert in Tabelle F (S. 335) im Anhang. Die Bezeichnung Vorzeichentest ist darauf zurückzuführen, dass in die Berechnung der Prüfgröße nur die Vorzeichen der Differenzen einfließen. Es wird also nur die Richtung der Abweichungen vom Sollwert berücksichtigt (nicht deren Betrag wie beim t-Test oder deren Rang wie beim Wilcoxon-Test). Daher ist der Vorzeichentest auch bei ordinal skalierten Merkmalen anwendbar. Die Prüfgröße ist unter der Nullhypothese binomialverteilt mit dem Erwartungswert n 0,5 . Schranken für den Annahmebereich findet man in Tabelle F. Notfalls kann man mit einem Taschenrechner bei einem kleinen Stichprobenumfang den Annahmebereich ermitteln, indem man nach (7.8) (S. 129) die einzelnen Wahrscheinlichkeiten
P( X
k)
§n· ¨¨ ¸¸ 0,5 n ©k ¹
berechnet und damit einen Annahmebereich für die Prüfgröße k (also die Anzahl der positiven oder negativen Vorzeichen) konstruiert. Bei größeren Stichprobenumfängen ( n t 36 ) lässt sich die Binomialverteilung durch eine Normalverteilung mit dem Erwartungswert n 0,5 und der Varianz n 0, 25 approximieren. Die Schranken für den Annahmebereich sind dann: 0,5 n r (1,96 0,25 n 0,5)
212
Kapitel 10 · Lagetests
10.3.2 Der Vorzeichentest für zwei verbundene Stichproben Mit diesem Test werden Vergleiche einfachster Art durchgeführt. Es wird lediglich vorausgesetzt, dass die Zufallsvariablen der beiden Stichproben in irgendeiner Weise vergleichbar sind (etwa: Der Zustand nach der Therapie ist besser als vor der Therapie) – ohne dass die Differenz exakt quantifiziert werden müsste. Jedem Beobachtungspaar kann dann ein positives oder ein negatives Vorzeichen zugeordnet werden. Die Nullhypothese lautet: P( X Y )
P( X ! Y )
0,5
Unter der Nullhypothese müssten etwa gleich viele Beobachtungspaare ein negatives bzw. ein positives Vorzeichen erhalten. Das Testverfahren ist ähnlich wie beim Vorzeichentest für eine Stichprobe:
ŷ Man ordnet jedem Beobachtungspaar das passende Vorzeichen zu. Paare, deren Stichprobenwerte sich nicht unterscheiden, werden nicht berücksichtigt. ŷ Man zählt die Anzahl der positiven und der negativen Vorzeichen. Die kleinere Zahl ist die Prüfgröße. ŷ Die Testentscheidung trifft man nach einem Vergleich mit den kritischen Werten in Tabelle F (S. 335).
10
Beispiel 10.5: Vorzeichentest In den Beispielen 10.1 (S. 199) und 10.3 (S. 207) wurde das Körpergewicht von n 10 Personen vor und nach einer Diät miteinander verglichen. Mit dem tTest und dem Wilcoxon-Test für zwei verbundene Stichproben ergaben sich signifikante Ergebnisse (p = 0,0312 bzw. p = 0,0371). Wenn wir den Vorzeichentest anwenden, findet man mit Hilfe der Tabelle F als Annahmebereich das Intervall zwischen den Zahlen 2 und 8. Die Prüfgröße k 3 (es gibt 3 negative und 7 positive Vorzeichen bei den Differenzen) liegt also innerhalb des Annahmebereichs; demnach muss die Nullhypothese beibehalten werden. Der p-Wert beträgt p = 0,3438.
10.3.3 Vergleich mit anderen Lagetests Ein Vorzeichentest beinhaltet quasi keine Voraussetzungen. Allerdings nutzt er bei weitem nicht alle Informationen der Stichprobendaten aus. Aus diesem Grund hat dieser Test eine wesentlich geringere Power als der entsprechende t-Test oder Rangsummentest. Wegen seiner Rechenökonomie findet er häufig als „Schnelltest“
213 10.4 Ausblick auf komplexere Methoden
10
Verwendung. Ein Wissenschaftler, dem es ja meist darum geht, die Alternativhypothese abzusichern, sollte daher den Vorzeichentest meiden und statt dessen – sofern die Voraussetzungen erfüllt sind – den passenden t-Test oder Wilcoxon-Test anwenden. i Ein Vorzeichentest basiert auf der Analyse von Häufigkeiten. Formal z handelt es sich dabei um einen Binomialtest, mit dem getestet wird, ob eine relative Häufigkeit mit der Wahrscheinlichkeit p 0,5 vereinbar ist › Abschnitt 11.2.1, S. 233 f). (z ! Als Lagetest für zwei unverbundene Stichproben eignet sich auch der auf z › Abschnitt 11.1.2, S. 223). der Chi2-Verteilung basierende Median-Test (z
10.4
Ausblick auf komplexere Methoden
10.4.1 Mehrstichprobentests Die t-Lagetests und die Rangsummentests sind auf eine oder zwei Stichproben beschränkt. In der medizinischen Forschung stellt sich hin und wieder das Problem, dass mehr als zwei Stichproben zu vergleichen sind (etwa wenn bei einer Therapiestudie zwei unterschiedliche Dosen eines Medikaments mit einem Placebo verglichen werden). Um mehr als zwei unverbundene Stichproben bezüglich einer quantitativen Zielgröße zu vergleichen, bieten sich an:
x 1-faktorielle Varianzanalyse. Dies ist eine Erweiterung des t-Tests für mehr als zwei unverbundene Stichproben. Die Varianzanalyse setzt – ebenso wie der klassische t-Test – normalverteilte Grundgesamtheiten mit gleichen Varianzen voraus. Die Methode beruht auf dem Vergleich der Varianz „zwischen den Gruppen“ (das ist die Varianz der Mittelwerte) und der Varianz „innerhalb der Gruppen“. › AbDer Quotient dieser Varianzen folgt einer F-Verteilung (z schnitt 7.4.3, S. 155). Er nimmt den Wert 1 an, falls alle Mittelwerte identisch sind. Je mehr die Mittelwerte streuen, desto größer wird F und desto eher wird die Alternativhypothese angenommen. x Kruskal-Wallis-Test. Dieser Rangsummentest ist eine Erweite rung des U-Tests für mehr als zwei Stichproben. Diese Verfahren können nur globale Unterschiede nachweisen. Ein signifikantes Ergebnis zeigt lediglich an, dass nicht alle Erwartungswerte identisch sind. Aus dem p-Wert geht jedoch nicht hervor, wo die Unterschiede liegen. Freilich könnte man mit t-Tests (nach einer Varianzanalyse) oder U-Tests (nach einem Kruskal-Wallis-Test) be-
214
Kapitel 10 · Lagetests
liebig viele 2-Stichproben-Vergleiche durchführen. Diese Vergleiche sind jedoch nicht ganz unproblematisch, weil es sich dabei um mul› Abschnitt 9.2.6, S. 190). Dennoch ist der tiples Testen handelt (z Anwender daran interessant, diese Unterschiede herauszufinden und nachzuweisen. Dazu bieten sich folgende Möglichkeiten an:
ŷ Man überlegt sich vor der Testdurchführung, welche Stichprobenvergleiche interessant sind und beschränkt die Anzahl der paarweisen Vergleiche auf ein Mindestmaß. ŷ Man verwendet die Bonferroni-Korrektur (z› Abschnitt 9.2.6, S. 190). Der Nachteil dieser Methode liegt darin, dass die Power gering wird und sich Unterschiede kaum mehr nachweisen lassen. ŷ Für die Varianzanalyse wurden mehrere Verfahren für paarweise Mittelwert-Vergleiche entwickelt. Eine bekannte Methode ist der Scheffé-Test: Er vergleicht alle Stichproben paarweise miteinander und gewährleistet dabei dennoch, dass bei jedem Vergleich das Į-Signifikanzniveau eingehalten wird. Allerdings ist dieses Verfahren eher konservativ. Für den Vergleich von mehr als zwei verbundenen Stichproben bezüglich eines quantitativen Merkmals eignen sich:
10
x Varianzanalyse mit Messwiederholungen. Während der t-Test für zwei verbundene Stichproben geeignet ist für einen einfachen Vorher-Nachher-Vergleich, können mit einer Varianzanalyse mehr als zwei Zeitpunkte verglichen werden. x Friedman-Test. Dieser Test basiert auf der Analyse von Rangsum men. Er ist eine Verallgemeinerung des Wilcoxon-Tests für mehr als zwei verbundene Stichproben. 10.4.2 Multiple Methoden Bei multiplen Methoden wird der Einfluss mehrerer Einflussgrößen auf eine Zielgröße simultan untersucht. Diese Verfahren ermöglichen eine wesentlich effizientere Analyse als univariate Methoden, bei denen nur eine Einflussgröße berücksichtigt wird.
x Zwei- oder mehrfaktorielle Varianzanalyse. Möglicherweise hängt die Zielgröße nicht nur von einer Gruppierungsvariablen (z. B. der Therapieform), sondern darüber hinaus von weiteren qualitativen Faktoren (Geschlecht, Schweregrad der Krankheit etc.) ab. Für derlei Fragestellungen eignen sich mehrfaktorielle Varianzanalysen.
215 10.4 Ausblick auf komplexere Methoden
10
x Varianzanalyse mit Messwiederholungen. Auch bei diesen Verfahren können mehrere Gruppierungs- und Messwiederholungsfaktoren involviert werden. x Multiple Regressionsanalyse. Diese Methode wird verwendet, wenn die quantitative Zielgröße von mehreren quantitativen Einflussgrößen bestimmt wird. x Allgemeines lineares Modell. Damit ist es möglich, den Einfluss mehrerer Faktoren, die sowohl quantitativ als auch qualitativ sein können, zu untersuchen. Am Ende wird eine lineare Gleichung erstellt, mit der ein Wert für die Zielgröße in Abhängigkeit der signifikanten Einflussfaktoren geschätzt werden kann. Diese Gleichung hat die Form: y
a0 a1 x1 a 2 x2 ... ak xk
(10.10)
Bei diesem Ansatz werden qualitative Merkmale durch so genannte › Beispiel 2.5, S. 28); Alternativmerkmale Dummy-Variable ersetzt (z lassen sich einfach durch die Ziffern 0 und 1 codieren. Eine leistungsfähige Software unterstützt den Anwender bei der Wahl der Variablen, die in das Modell aufgenommen werden, und bei der Bestimmung der Regressionskoeffizienten. i Bei allen Varianz- und Regressionsanalysen ist das bereits erwähnte z › Abschnitt 5.3.3, S. 91 f) geeignet, um die Güte des Bestimmtheitsmaß (z
Modells zu quantifizieren. Dieses Maß ist der prozentuale Anteil der durch das Modell erklärten Varianz bezogen auf die Gesamtvarianz der y-Werte. Je größer das Bestimmtheitsmaß, desto besser ist das Modell.
Es sei hinzugefügt, dass die technische Anwendung dieser Verfahren mit einer geeigneten Software (z. B. mit SAS) kein nennenswertes Problem darstellt. Dennoch sollte ein Anwender über den mathematischen Hintergrund und auch über deren Grenzen zumindest in Grundzügen Bescheid wissen, um sie sinnvoll anzuwenden und die Ergebnisse interpretieren zu können. Wer sich dafür interessiert, möge auf geeignete Literatur zurückgreifen ([2], [3], [6] oder [11]).
216
10
Kapitel 10 · Lagetests
Zusammenfassung Kapitel 10 t-Lagetests ŷ setzen normalverteilte Daten voraus; ŷ sind jedoch robust gegenüber geringer Verletzungen ihrer Voraussetzungen. Um einen Unterschied mit einem t-Test abzusichern, sind vorteilhaft: ŷ Ein hoher Stichprobenumfang, ŷ ein großer Unterschied zwischen den Mittelwerten, ŷ eine geringe Streuung der Daten, ŷ die Berechnung eines Konfidenzintervalls, um die Größe des Unterschieds zu quantifizieren. Rangsummentests bieten sich an ŷ wenn die Daten nicht normalverteilt sind (insbesondere bei kleinen Stichproben), ŷ bei quantitativ diskreten Merkmalen mit wenigen Ausprägungen, ŷ bei ordinal skalierten Merkmalen, ŷ wenn Messwerte ungenau erfasst sind. Rangsummentests ŷ haben eine geringere Power als t-Tests; ŷ die Angabe eines Konfidenzintervalls ist nicht sinnvoll. Vorzeichentests ŷ dienen als Schnelltests; ŷ haben eine geringere Power als t-Tests oder Rangsummentests.
11
Tests zum Vergleich von Häufigkeiten 11.1
Chi2-Tests 219
11.1.1
Der Chi2-Vierfelder-Test 219
11.1.2
Der Median-Test 223
11.1.3
Der Chi2-Test für k A Felder 224
11.1.4
Assoziationsmaße für qualitative Merkmale 225
11.1.5
Der Chi2-Test für eine Stichprobe 227
11.1.6
Der McNemar-Test 228
11.1.7
Der Chi2-Anpassungstest 230
11.1.8
Der Logrank-Test 232
11.2
Andere Testverfahren 233
11.2.1
Der Binomialtest für eine Stichprobe 233
11.2.2
Fishers exakter Test 235
11.2.3
Ausblick auf die logistische Regression 236
219
11
11.1 Chi2-Tests
11.1
Chi2-Tests
Chi2-Tests dienen zur Analyse von Häufigkeitsunterschieden. Da sich Häufigkeiten bei jeder Merkmalsart und jedem Skalenniveau ermitteln lassen, sind Chi2-Tests sehr vielseitig anwendbar, wie die folgenden Beispiele zeigen:
ŷ Chi2-Vierfeldertest (z› Abschnitt 11.1.1): Er wird z. B. verwen-
ŷ ŷ ŷ
ŷ
ŷ
det, um zwei Therapiegruppen bezüglich ihrer Erfolgsraten zu vergleichen. Wenn die Merkmale mehr als zwei Ausprägungen › haben, eignet sich der Chi2-Test in einer allgemeineren Form (z Abschnitt 11.1.3, S. 224 f). › Abschnitt 11.1.2, S. 223 f): Dies ist eine spezielle Mediantest (z Form des Vierfeldertests, der sich für quantitative oder ordinal skalierte Merkmale eignet. › Abschnitt 11.1.5, S. 227): Er Chi2-Test für eine Stichprobe (z vergleicht die relativen Häufigkeiten einer Stichprobe mit vorgegebenen, theoretischen Wahrscheinlichkeiten. › Abschnitt 11.1.6, S. 228 ff): Dies ist ein Test McNemar-Tests (z für zwei verbundene Stichproben. Er bietet sich bei Cross-OverStudien an, wenn jeder Patient mit zwei Therapien behandelt wird, die zu vergleichen sind. › Abschnitt 11.1.7, S. 230 f). Einige statisChi2-Anpassungstest (z tische Verfahren setzen eine bestimmte Verteilung voraus (etwa die Normalverteilung bei t-Tests oder Varianzanalysen). Mit einem Anpassungstest lässt sich eine solche Bedingung überprüfen. › Abschnitt 11.1.8, S. 232). Damit lassen sich die Logrank-Test (z Überlebenszeiten mehrerer Gruppen verglichen.
11.1.1 Der Chi2-Vierfelder-Test Im einfachsten Fall untersucht der Chi2-Test die Unabhängigkeit zweier Alternativmerkmale. Er wird deshalb als Chi2-Unabhängigkeitstest bezeichnet. Hierfür gibt es in der klinischen und epidemiologischen Forschung zahlreiche Anwendungsbeispiele, wie etwa: › Gibt es einen Zusammenhang zwischen Rauchen und Geschlecht (z Beispiel 11.1, S. 222)? Oder: Hängt das Auftreten einer Krankheit von einem speziellen ätiologischen Faktor ab?
220
Kapitel 11 · Tests zum Vergleich von Häufigkeiten
Tabelle 11.1 Vierfeldertafel beim Chi2-Vierfelder-Test
B
A a
B Randsummen
c
d
ac
bd
A b
Randsummen n1 a b n2
n
cd
abcd
Diesem Test liegen zugrunde eine Stichprobe des Umfangs n und die Häufigkeiten, die sich aus der Betrachtung zweier Alternativmerkmale ergeben. Die Ausprägungen der Merkmale seien A und A bzw. B und B . Insgesamt gibt es dann vier Kombinationsmöglichkeiten mit den Häufigkeiten a , b , c und d , die sich anschaulich in › Tabelle 11.1). einer Vierfeldertafel darstellen lassen (z Unter der Nullhypothese sind die relevanten Ereignisse unabhängig voneinander; deshalb gilt nach dem Multiplikationssatz: H0 :
P( A | B)
P ( A)
Unter der Nullhypothese H 0 müsste also annähernd gelten: a ab
11
ac n
(11.1)
Dagegen besagt die Alternativhypothese H1 , dass eine Abhängigkeit besteht. Die wesentliche Idee eines Chi2-Tests ist folgende: Die beobachteten Häufigkeiten a , b , c und d werden verglichen mit den Häufigkeiten, die unter der Nullhypothese zu erwarten sind. Dazu berechnet man für jede Häufigkeit den Quotienten
( beobachtete Häufigkeit - erwartete Häufigkeit) 2 erwartete Häufigkeit
( B E )2 E
Die Summe dieser vier Quotienten bildet die Prüfgröße. Die unter H 0 zu erwartende Häufigkeit für a ergibt sich aus Formel (11.1) aus den Randsummen (a b) , (a c) und n; die anderen Erwartungshäufigkeiten leitet man analog her und erhält die Häufigkeiten in Tabelle 11.2. Die Prüfgröße berechnet sich als:
F2
n ( ad bc ) 2 ( a b)( a c )( c d )(b d )
(11.2)
11
221 11.1 Chi2-Tests
Tabelle 11.2 Beobachtete und erwartete Häufigkeiten beim Vierfelder-Test
Summe
beobachtete Häufigkeit B
unter H0 erwartete Häufigkeit E
( B E )2 / E
a
(a b)(a c) / n
( ad bc ) 2 n ( a b)( a c)
b
(a b)(b d ) / n
(ad bc ) 2 n ( a b)(b d )
c
(c d )(a c) / n
(ad bc) 2 n (c d )(a c)
d
(c d )(b d ) / n
(ad bc ) 2 n ( c d )(b d )
n
n
F2
Die Prüfgröße ist annähernd F 2 -verteilt mit einem Freiheitsgrad. Unter der Nullhypothese erwartet man, dass alle beobachteten Häufigkeiten mit den erwarteten übereinstimmen; in diesem Extremfall wäre F2 = 0. In der Praxis ist natürlich immer damit zu rechnen, dass F2 > 0. Kleinere Abweichungen von 0 sind mit der Nullhypothese durchaus noch vereinbar; hohe Werte der Prüfgröße sprechen gegen die Nullhypothese. Die Prüfgröße ist umso größer, je mehr die beobachteten von den erwarteten Häufigkeiten abweichen. Das Testverfahren wird wie folgt durchgeführt:
ŷ Aus den absoluten Häufigkeiten wird nach (11.2) die Prüfgröße F2 berechnet. ŷ Falls der Wert der Prüfgröße innerhalb des Intervalls [0, F12;1D ] liegt, wird die Nullhypothese auf dem D -Niveau beibehalten. › Tabelle E, Anhang, S. 334). Für D 5% ist F12;0,95 3,841 (z
Man kann den Vierfelder-Test auch dahingehend interpretieren, dass er bei zwei unabhängigen Stichproben relative Häufigkeiten vergleicht (er überprüft, ob ein bestimmtes Merkmal in den beiden Stichproben gleich verteilt ist). So lässt sich etwa die Situation in Beispiel 11.1 (S. 222) auch so beschreiben: Es werden zwei unverbundene Stichproben (bestehend aus männlichen bzw. weiblichen Studenten) hinsichtlich des Merkmals „Rauchgewohnheiten“ verglichen. Dies ist ein anderer Ansatz, der jedoch formal mit demselben Testverfahren untersucht wird. Man spricht in diesem Fall vom Chi2-Homogenitätstest.
222
Kapitel 11 · Tests zum Vergleich von Häufigkeiten
Beispiel 11.1: Vierfeldertest Bei der Stichprobe unserer n 76 Studenten betrachten wir die Alternativmerkmale Rauchen und Geschlecht. Es ergeben sich folgende Werte: beobachtete Häufigkeiten erwartete Häufigkeiten Raucher Nichtraucher Raucher Nichtraucher a 7 b 14 Männer 21 5,5 15,5 21 c 13 d 42 Frauen 55 14,5 40,5 55 20 56 76 20 56 76 Es ist nicht erstaunlich, dass die erwarteten Häufigkeiten keine ganzen Zahlen sind. Es handelt sich um theoretische Häufigkeiten, die aus den Randsummen berechnet werden und zum Vergleich mit den beobachteten Häufigkeiten dienen. Von den Männern rauchen 33%, von den Frauen 24%. Ist der Unterschied nun so gravierend, dass man die Nullhypothese („Es besteht kein Zusammenhang zwischen Rauchen und Geschlecht“) verwerfen kann? Die Prüfgröße ist nach (11.2) (S. 220): 76 (7 42 14 13)2 F2 0, 7370 21 55 20 56 Dieser Wert ist kleiner als der kritische Wert 3,841 – d. h. anhand der Stichprobe ist kein Zusammenhang zwischen den beiden Merkmalen nachzuweisen. Der p-Wert beträgt 0,3906; das Konfidenzintervall für die Differenz (Anteil Männer - Anteil Frauen) ist [-0,13 ; 0,33]. Der Raucheranteil der Männer könnte also um 33% über dem der Frauen liegen; er könnte ebenso gut 13 % geringer sein.
11
x Einseitiges Testen. Bisher wurde stillschweigend vorausgesetzt, dass beim Vierfelder-Test zweiseitig geprüft wird. Nun sind auch einseitige Fragestellungen denkbar wie etwa: „Rauchen mehr Männer als Frauen?“ (oder umgekehrt). Hier wird formal geprüft, ob die Häufigkeit a signifikant größer (bzw. kleiner) ist als die unter der Nullhypothese zu erwartende Häufigkeit. Einseitige Testverfahren sind bei Chi2-Tests allerdings problematisch, weil die Richtung eines Unterschieds durch das Quadrieren der Abstände (B–E) eliminiert wird. Dennoch ist beim Vierfelder-Test eine einseitige Prüfung möglich, indem man als kritischen Wert F12;12D zugrunde legt. Man geht bei diesem Ansatz davon aus, dass – grob formuliert – unter der Nullhypothese die beobachtete Häufigkeit a mit jeweils 50%-iger Wahrscheinlichkeit größer bzw. kleiner ist als die dazugehörende Erwartungshäufigkeit. Das entspricht jeweils dem Anteil D. Ein einseitiger Test ist allerdings nur dann statthaft, wenn man aufgrund von Vorkenntnissen die Richtung eines Unterschiedes genau kennt – sonst hat man eine Irrtumswahrscheinlichkeit von 2D. Theoretisch ist dieser Test interessant; praktisch sollte man ihn meiden.
223 11.1 Chi2-Tests
11
Mathematische Betrachtung der Chi2-Prüfgröße beim Vierfelder-Test Die Berechnung der Prüfgröße als Summe aller ( B E ) 2 / E erscheint plausibel. Je mehr eine beobachtete Häufigkeit B von der erwarteten Häufigkeit E abweicht, umso größer wird dieser Quotient. Die Division durch E erfolgt, um der Tatsache Rechnung zu tragen, dass die Abweichung ( B E ) umso schwerer wiegt, je kleiner die Erwartungshäufigkeit E ist. Mit elementaren Rechenregeln lassen sich dann die Häufigkeiten in Tabelle 11.2 herleiten. Wieso ist unter der Nullhypothese die Summe der ( B E ) 2 / E F 2 -verteilt? Dazu betrachten wir die Häufigkeiten a und c . a ist unter H 0 binomialverteilt mit dem Erwartungswert n1 p und der Varianz n1 p(1 p) (wobei p P ( A) ). Auch c ist binomialverteilt mit dem Erwartungswert n2 p und der Varianz n2 p(1 p) . Unter H 0 hat D a / n1 c / n2 den Erwartungswert 0 und 2 sD p (1 p )(1 / n1 1 / n2 ) als Varianz. Folglich ist D / s D standardnormalverteilt. Demnach folgt ( D / sD ) 2 einer F 2 -Verteilung mit einem Freiheitsgrad › Abschnitt 7.4.2, S. 153 f). Wenn man in ( D / sD ) 2 einsetzt: p (a c) / n , (z n1 a b und n2 c d , erhält man nach einigen Umrechnungen die Prüfgröße nach (11.2).
x Zu den Voraussetzungen. Beim Vierfelder-Test sollte jede der er warteten Häufigkeit mindestens 5 betragen; keine der beobachteten Häufigkeiten darf 0 sein. Falls diese Anforderungen verletzt sind, › S. 235 f). bietet sich Fisher’s exakter Test als Alternative an (z 11.1.2 Der Median-Test Die Anwendung des Vierfelder-Tests ist nicht beschränkt auf Alternativmerkmale. Mit diesem Test lassen sich auch zwei unabhängige Stichproben bezüglich eines ordinal skalierten oder eines quantitativen Merkmals vergleichen. Die Nullhypothese lautet in diesem Fall: H0 :
~ P 1
~ P 2
Das Testverfahren lässt sich wie folgt beschreiben:
ŷ Man bildet aus den Daten beider Stichproben den gemeinsamen x. empirischen Median ~ ŷ Dann ermittelt man die Häufigkeiten entsprechend der Vierfeldertafel (Tabelle 11.3). ŷ Die Prüfgröße berechnet man nach (11.2). ŷ Falls der Wert der Prüfgröße innerhalb [0, F12;1D ] liegt, wird die Nullhypothese beibehalten.
224
Kapitel 11 · Tests zum Vergleich von Häufigkeiten
Tabelle 11.3 Vierfeldertafel beim Median-Test d~ x
!~ x
Stichprobe 1
a
b
n1
ab
Stichprobe 2
c
d
n2
cd
ac
bd
n
abcd
Beispiel 11.2: Mediantest Es soll getestet werden, ob sich die Klausurergebnisse von n1 21 männlichen und n2 55 weiblichen Studenten unterscheiden (Daten in Tabelle 2.1, S .34 › Abbildung f)). Von allen n 76 Werten ergibt sich der Median x 8,5 (z 3.2, S. 44). Man erhält man folgende Vierfeldertafel: x ƶ !~ x 11 21 Männer 10 27 55 Frauen 28 38 76 ƶ 38 Aus diesen Häufigkeiten ergibt sich eine Prüfgröße von F2
76 (10 27 11 28) 2 21 55 38 38
0, 0658
Dieser Wert ist wesentlich kleiner als F12;0,95 3,841 – ein Unterschied ist nicht nachzuweisen. Wer hätte etwas Anderes erwartet? Der p-Wert ist 0,7976. Übrigens: Man könnte diese Fragestellung auch mit dem U-Test von Mann und Whitney überprüfen; damit ergibt sich p = 0,5858.
11
i Man muss nicht unbedingt den Median als Schnittpunkt wählen, um die z Gesamtstichprobe zu teilen. Wenn es der Fragestellung angemessen ist, ist theoretisch jeder andere Wert möglich. Im Beispiel der Klausur könnte auch die Frage interessieren, ob sich Männer und Frauen bezüglich der Nicht-Bestehensquote unterscheiden. Dann wäre es sinnvoll, den Anteil der Männer und Frauen, die weniger als 6 Punkte haben, zu vergleichen.
Der Median-Test hat gegenüber dem t-Test und dem U-Test den Vorteil, dass er gleiche Verteilungsformen der Zufallsvariablen nicht voraussetzt. Allerdings wertet er weniger Informationen aus und hat demzufolge eine geringere Power. 11.1.3 Der Chi2-Test für k A Felder Dies ist eine Verallgemeinerung des Vierfelder-Unabhängigkeitstests dahingehend, dass die beiden betrachteten Merkmale nicht nur jeweils zwei, sondern k Ausprägungen A1 ,..., Ak bzw. A Ausprägungen
225 11.1 Chi2-Tests
11
B1 ,..., BA aufweisen. Dann erhält man bei der Darstellung der Häufigkeiten eine Kontingenztafel mit k A Feldern im Innern. Die Nullhypothese besagt, dass kein Zusammenhang zwischen den beiden Merkmalen besteht. Dieser Test funktioniert nach dem bereits beschriebenen Prinzip: Es werden die beobachteten mit den erwarteten Häufigkeiten verglichen. Seien nij die Anzahl der Stichprobenelemente mit der Ausprägungskombination Ai und B j und eij die unter H0 erwarteten Häufigkeiten. Dann berechnet sich die Prüfgröße als F2
k
A
¦¦ i 1 j 1
( nij eij ) 2 eij
(11.3)
Sie hat (k 1) (A 1) Freiheitsgrade (dies bedeutet, dass man im Innern der Kontingenztafel (k 1) (A 1) Häufigkeiten unter Beibehaltung der Randsummen ändern kann). Die erwarteten Häufigkeiten eij berechnet man aus den Randsummen. Kritische Werte in Abhängigkeit der Anzahl der Freiheitsgrade findet man in Tabelle E › Anhang, S. 334). (z Dieser Test lässt sich auch auffassen als ein Homogenitätstest: Er überprüft, ob ein Merkmal mit A Ausprägungen in k Stichproben homogen verteilt ist. In jedem Fall wird vorausgesetzt, dass die erwarteten Häufigkeiten mindestens 5 betragen (oder dass zumindest der Anteil der erwarteten Häufigkeiten, die kleiner als 5 sind, 20% nicht überschreitet). Wenn diese Bedingung nicht erfüllt ist, kann man versuchen, dies durch Zusammenlegen von mehreren Ausprägungen oder Klassen zu erreichen. Ersatzweise kann man den exak› Abschnitt 11.2.2, S. 235 f ). ten Test nach Fisher anwenden (z i Es gibt Varianten dieses Tests (Cochrane-Armitage-Trend-Test und z Mantel-Haenszel-Test), die sich eignen, wenn eines der beiden Merkmale ordinal skaliert ist (siehe auch [4] oder [11]).
11.1.4 Assoziationsmaße für qualitative Merkmale Mit dem Chi2-Unabhängigkeitstest lässt sich die Existenz einer Assoziation zwischen zwei nominal skalierten Merkmalen nachweisen. Über dessen Stärke macht das Testergebnis jedoch keine Angaben. Es wurden mehrere Assoziationskoeffizienten entwickelt, um die Stärke eines solchen Zusammenhangs zu quantifizieren.
226
Kapitel 11 · Tests zum Vergleich von Häufigkeiten
x Phi-Koeffizient. Er eignet sich, um den Zusammenhang zwischen zwei Alternativmerkmalen zu beschreiben und ist definiert als: I
F2 n
(11.4)
Dieser Koeffizient ist 0 bei vollkommener Unabhängigkeit der Merkmale. Falls b c 0 , nimmt I den Wert 1 an (wie sich leicht anhand der Formel (11.2), S. 220 nachvollziehen lässt). In diesem Fall kann man nämlich aufgrund eines Merkmals das andere präzise vorhersagen. Ansonsten ist I kleiner als 1. Der Phi-Koeffizient ist signifikant größer als 0, falls das Ergebnis des Vierfeldertests signifikant ist. Beispiel 11.3: Chi2-Assoziationsmaße In einer klinisch-kontrollierten Studie werden jeweils 50 Patienten mit einem neuen Medikament bzw. mit dem herkömmlichen Standardmedikament behandelt. Die Therapien sind in a 35 (neu) bzw. c 25 (Standard) Fällen erfolgreich und demnach in b 15 bzw. d 25 Fällen nicht erfolgreich. Mit einem Chi2-Test erhält man: F 2 4,1667 und p 0, 0412 . Die Stärke des Zusammenhangs wird quantifiziert durch I 4,1667 /100 0, 2041 . Die Odds › Abschnitt 3.3.2, S. 50). Der Zusammenhang ist zwar signifiRatio ist 2,33 (z kant, aber eher schwach. Die Differenz der Erfolgsraten beträgt 20%; das 95%Konfidenzintervall liegt zwischen 1,2% und 38,8%.
11
x Cramérs Index. Dieses Maß (vorgestellt im Jahre 1946) ist eine Verallgemeinerung von I für k A -Kontingenztafeln: CI
F2 n ( R 1)
(11.5)
wobei R min(k , A) . Es ist leicht nachvollziehbar, dass dieser Index für R 2 mit I identisch ist.
x Kontingenzkoeffizient von Pearson. Dieser im Jahre 1904 vorge stellte Koeffizient ist das älteste und bekannteste Assoziationsmaß: CC
F2 n F2
(11.6)
11
227 11.1 Chi2-Tests
Es lässt sich nachweisen, dass der Maximalwert von CC gleich Cmax ( R 1) / R ist. Ein Nachteil dieses Koeffizienten ist, dass er 1 nie erreichen kann und deshalb schwer zu interpretieren ist. 11.1.5 Der Chi2-Test für eine Stichprobe Bei diesem Test wird die Häufigkeitsverteilung einer Stichprobe mit einer vorgegebenen Verteilung verglichen. Seien ni die beobachteten und ei die unter der Nullhypothese erwarteten Häufigkeiten. Dann berechnet sich die Prüfgröße als:
F2
k
¦ i 1
(ni ei ) 2 ei
(11.7)
Die Anzahl der Freiheitsgrade beträgt k 1 (wobei k die Anzahl der Ausprägungen ist). Beispiel 11.4: Vergleich der Häufigkeiten einer Stichprobe Wir greifen zurück auf das Beispiel 6.3 (S. 104) und prüfen, ob die empirisch ermittelten Häufigkeiten mit den erwarteten übereinstimmen.
Blutgruppe
Wahrscheinlichkeit
ni
ei
(ni ei ) 2 / ei
0 A B AB
40 % 45 % 10 % 5%
31 32 9 4
30,4 34,2 7,6 3,8
0,0118 0,1415 0,2579 0,0105
Die Prüfgröße beträgt also 0,4218; die Anzahl der Freiheitsgrade ist 3. Der pWert ist 0,9357; die beobachteten Häufigkeiten sind also in keiner Weise auffällig. Auf ähnliche Weise lässt sich nachprüfen, ob der Anteil der Frauen signifikant von 50% abweicht:
Geschlecht
Wahrscheinlichkeit
ni
ei
(ni ei ) 2 / ei
männlich weiblich
50 % 50 %
21 55
38 38
7,6053 7,6053
Hier ist die Prüfgröße 15,2105; die Anzahl der Freiheitsgrade ist 1; p < 0,0001. Damit ist abgesichert, sich dass signifikant mehr Frauen als Männer Medizin studieren.
228
Kapitel 11 · Tests zum Vergleich von Häufigkeiten
11.1.6 Der McNemar-Test Dies ist ein Häufigkeitstest für zwei verbundene Stichproben, die hinsichtlich eines Alternativmerkmals zu vergleichen sind. Diese treten beispielsweise dann auf, wenn Patienten mit zwei verschiedenen Therapien nacheinander behandelt werden und das Merkmal „Therapieerfolg“ mit den Ausprägungen „ja“ und „nein“ untersucht wird. Der Stichprobenumfang n lässt sich folgendermaßen aufteilen: Tabelle 11.4 Vierfeldertafel beim McNemar-Test
Stichprobe 2
A
Stichprobe 1 A A a b
A
c
d
Die Nullhypothese besagt: Die Stichproben stimmen bezüglich der Häufigkeitsverteilung überein. Das bedeutet, dass a b a c oder einfacher: b c . Die Häufigkeiten, die für die Gleichheit der Stichproben sprechen, sind a und d. Die Häufigkeiten b und c repräsentieren Unterschiede. Je mehr diese vom Durchschnittswert (b c) / 2 abweichen, desto mehr spricht für die Alternativhypothese. Der Test wird nach folgendem Prinzip durchgeführt:
ŷ Zunächst werden die Häufigkeiten der Vierfeldertafel ermittelt. ŷ Danach berechnet man die Prüfgröße nach:
11
(b c ) 2 (11.8a) bc Falls der Wert der Prüfgröße mehr als F12;1D beträgt, wird die Alternativhypothese angenommen. F2
ŷ
Die Prüfgröße nach (11.8a) wird für b c d 30 durch eine Stetigkeitskorrektur etwas verkleinert: F2
( b c 1) 2 bc
(11.8b)
Im Übrigen setzt auch dieser Test voraus, dass die erwartete Häufigkeit (b c ) / 2 mindestens 5 beträgt.
229 11.1 Chi2-Tests
11
Beispiel 11.5: McNemar-Test Bei 20 Patienten wird ein schmerzstillendes Präparat (Verum) mit einem Placebo verglichen. Jeder Patient wird mit beiden Therapien behandelt, wobei zwischen den Behandlungsphasen eine längere, therapiefreie Phase liegt. Die Patienten wissen nicht, wann sie mit dem Placebo bzw. dem Verum behandelt werden. Sie beurteilen die Wirkung folgendermaßen: Wirkung des Placebos schwach stark a 3 b 2 Wirkung schwach c 11 d 4 des Verums stark ( 2 11 1) 2
Als Prüfgröße berechnet man: F 2
4,923 ! 3,841 . 2 11 Der p-Wert ist 0,0265. Deshalb wird die Alternativhypothese angenommen. Das Verum zeigt in 15 von 20 Fällen eine starke Wirkung, das Placebo nur 6 Mal. Das Konfidenzintervall für diese Wirkungsdifferenz ist [0,17 ; 0,73].
Mathematische Herleitung der Chi2-Prüfgröße beim McNemar-Test Unter der Nullhypothese wird für jede der beiden Häufigkeiten b und c der Wert (b c) / 2 erwartet. Dann berechnet man die Prüfgröße nach (11.2) als: 2
2
bc· § bc· § ¸ ¨b ¸ ¨c 2 ¹ © 2 ¹ 2 © F bc 2 Nach Ausmultiplizieren und Addieren erhält man die Formel (11.8a). i Die Stetigkeitskorrektur ist erforderlich, weil die Häufigkeiten b und c z diskrete Werte darstellen, während F2 eine stetige Variable ist. In der Literatur werden unterschiedliche Stetigkeitskorrekturen vorgeschlagen. In jedem Fall wird dadurch die Prüfgröße etwas verkleinert, um zu verhindern, dass man allzu leichtfertig die Nullhypothese ablehnt.
Abschließend noch einige Hinweise zum McNemar-Test:
x Nullhypothese: Es wird nicht behauptet, dass es gar keinen Unter schied zwischen den Stichproben gibt (in diesem Fall wäre zu erwarten, dass die Häufigkeiten b und c gleich 0 sind). Die Nullhypothese besagt lediglich, dass unterschiedliche Beurteilungen in beiden Richtungen („Verum besser“ bzw. „Placebo besser“) gleich häufig sind, sodass man unter der Nullhypothese b c erwarten würde. x Stichprobenumfang: In die Berechnung der Prüfgröße fließt nicht der volle Stichprobenumfang ein, sondern lediglich die Häufigkeiten b und c. Allerdings kommt im Konfidenzintervall für die › Beispiel 11.5) der gesamte Umfang n zur Geltung. Differenz (z
230
Kapitel 11 · Tests zum Vergleich von Häufigkeiten
x Verallgemeinerung auf qualitative Merkmale: Der McNemar Test setzt ein Alternativmerkmal voraus. Bei einem Merkmal mit mehr als zwei Ausprägungen entsteht anstelle der Vierfeldertafel eine Matrix. Der Symmetrietest von Bowker [4] überprüft, ob diese Matrix symmetrisch ist. x Verallgemeinerung auf mehrere verbundene Stichproben: Wenn Patienten mehrfach nacheinander auf ein Alternativmerkmal hin untersucht werden, bietet sich der Q-Test von Cochran an [4]. 11.1.7 Der Chi2-Anpassungstest
11
Mit einem Anpassungstest wird überprüft, ob die empirische Verteilung einer Stichprobe vereinbar ist mit einer vermuteten, theoretischen Verteilung. Dabei kann jede Verteilung, die dem inhaltlichen Problem angemessen ist, vorgegeben werden. Wie bei allen Chi2-Tests werden auch bei einem Anpassungstest die beobachteten mit den erwarteten Häufigkeiten verglichen. Die erwarteten Häufigkeiten werden berechnet, indem man – unter Annahme einer theoretischen Verteilung – für jede Ausprägung (Klasse oder Gruppe) die entsprechende Wahrscheinlichkeit bestimmt und diesen Wert mit dem Stichprobenumfang multipliziert. Die Anzahl der Freiheitsgrade beträgt f k 1 r . Dabei ist k die Anzahl der gegebenen Klassen. Diese Anzahl wird um 1 reduziert, weil generell eine Restriktion durch den Stichprobenumfang gegeben ist. Außerdem wird die Anzahl der Freiheitsgrade eingeschränkt durch die Anzahl r der Parameter, die zur Berechnung der erwarteten Häufigkeiten erforderlich sind. Die Anzahl der Freiheitsgrade ist also auch abhängig von der Verteilung, die man unter der Nullhypothese zugrunde legt:
ŷ Gleichverteilung: ŷ Poissonverteilung: ŷ
f k 1 f k 2 Hier wird ein Parameter – nämlich der Erwartungswert O – über den Mittelwert der Stichprobe geschätzt; daher ist r 1 . Normalverteilung: f k 3 Diese Verteilung ist durch r 2 Parameter – nämlich den Erwartungswert und die Varianz – charakterisiert.
Häufig wird ein Anpassungstest vor der Anwendung des t-Tests eingesetzt, um empirische Daten dahingehend zu überprüfen, ob sie einer normalverteilten Grundgesamtheit entstammen. In diesen besonderen Fällen ist man daran interessiert, die Nullhypothese beizubehalten. Also ist man bemüht, den E-Fehler möglichst klein zu
231 11.1 Chi2-Tests
11
halten. Eine Möglichkeit, indirekt Einfluss auf den E-Fehler zu nehmen, besteht darin, den D-Fehler zu vergrößern. Deshalb ist es üblich, bei einem Anpassungstest D 0,10 festzulegen und die Alternativhypothese ab p ! 0,10 anzunehmen. Man muss sich klar machen, dass das Testergebnis eines Anpassungstests auf Normalverteilung, das zur Beibehaltung der Nullhypothese führt, keinesfalls als Beweis zu werten ist, dass die Grundgesamtheit wirklich normalverteilt ist. Man sollte hier nur vorsichtige Formulierungen verwenden wie etwa: „Nichts spricht gegen die Normalverteilung der Grundgesamtheit“. Beispiel 11.6: Anpasssungstest Verdünntes Blut wird in eine Zählkammer gefüllt. Diese ist in zahlreiche Quadrate identischer Fläche eingeteilt. Davon werden 80 Quadrate zufällig ausgewählt, um unter dem Mikroskop die darin enthaltenen Erythrozyten zu zählen. Dabei werden zwischen 0 und 12 Erythrozyten pro Quadrat gefunden. Es soll nun überprüft werden, ob diese Häufigkeiten die Annahme einer Poissonverteilung rechtfertigen. Zunächst wird aus den gegebenen Häufigkeiten ein Mittelwert 5,9125 berechnet, der als Schätzer für den Erwartungswert O dient. Mit Formel (7.9) (S. 131) lassen sich dann die theoretischen Wahrscheinlichkeiten und daraus (indem man mit 80 multipliziert) die erwarteten Häufigkeiten berechnen. Da diese mindestens 5 betragen müssen, werden die ersten und die letzten Klassen zusammengefasst. Die Nullhypothese lautet: Die Anzahl der Erythrozyten folgt einer Poisson-Verteilung. k 0–2 3 4 5 6 7 8 9 10 – 12 Summe
beobachtete Häufigkeit B 5 7 11 12 16 10 7 5 7 80
erwartete Häufigkeit E 5,28 7,46 11,02 13,03 12,84 10,85 8,02 5,27 5,61 79,37
( B E )2 / E
0,01485 0,02785 0,00004 0,08167 0,77682 0,06607 0,12884 0,01346 0,34440 F 2 1, 45400
Die Anzahl der Freiheitsgrade ist 9 2 7 . Es gilt F 72;0,90 12,017 (Tab. E, Anhang). Da die berechnete Prüfgröße kleiner ist, wird die Nullhypothese beibehalten. Der p-Wert beträgt 0,9839.
i Bei stetigen Verteilungen bietet sich als Alternative zum Chi2-Anpasz sungstest der Kolmogoroff-Smirnov-Test an. Er beruht auf dem Vergleich einer empirischen Verteilungsfunktion mit der Verteilungsfunktion einer theoretischen Verteilung (z. B. der Normalverteilung). Für kleine Stichproben ist der Kolmogoroff-Smirnov-Test besser geeignet als der Chi2› [11]). Anpassungstest (z
232
Kapitel 11 · Tests zum Vergleich von Häufigkeiten
11.1.8 Der Logrank-Test Schließlich sei noch der ebenfalls auf der Chi2-Verteilung basierende Logrank-Test erwähnt, der zum Vergleich von Überlebenszeiten angewandt wird. Dabei werden die Überlebensfunktionen zweier S1 (t ) und S 2 (t ) unverbundener Stichproben verglichen. Das Besondere an diesem Test ist, dass auch zensierte Daten (die häufig bei › Abschnitt 2.4, S. 31) angemessen Überlebenszeitstudien auftreten; z berücksichtigt werden. Mit dem Logrank-Test wird beispielsweise überprüft, ob sich eine Therapie oder ein prognostischer Faktor auf die Überlebenszeit oder allgemein auf die Zeit bis zum Eintreten eines bestimmten Endereignisses auswirkt. Ein Beispiel für die Darstellung einer Über› Abbildung 15.1, lebenszeitkurve findet man in Abschnitt 15.2.3 (z S. 320). Um zwei Kurven zu vergleichen, ermittelt man zunächst die Anzahl der aufgetretenen Endereignisse b1 und b2 in den Stichproben; außerdem berechnet man die Anzahl der Endereignisse e1 und e2 , die man erwarten würde, wenn die beiden Kurven identisch wären. Die Teststatistik für den Logrank-Test ist:
F2
11
(b1 e1 ) 2 (b2 e2 ) 2 e1 e2
(11.9)
Die Häufigkeiten b1 und b2 werden durch einfaches Zählen ermittelt. Die Berechnung der Erwartungshäufigkeiten ist komplizierter. Dazu betrachtet man beide Stichproben gemeinsam und notiert die Zeitpunkte ti ( i 1,..., k ), zu denen in einer der beiden Stichproben ein Endereignis stattfindet und die Anzahl der dazugehörenden Ereignisse d i . Dann ist k
e1
n1i 1i n2i
¦ di n i 1
k
e2
n2i 1i n2i
¦ di n i 1
(11.10)
n1i und n2i sind die Beobachtungseinheiten der 1. bzw. der 2. Stichprobe, die zum Zeitpunkt ti noch leben. Die Quotienten n1i /( n1i n2i ) und n2i /( n1i n2i ) entsprechen den Anteilen in der jeweiligen Stichprobe. Der Logrank-Test ist auch anwendbar auf mehr als zwei Gruppen. Detaillierte Erläuterungen dazu findet man in [12].
233 11.2 Andere Testverfahren
11.2
11
Andere Testverfahren
11.2.1 Der Binomialtest für eine Stichprobe Die Geschichte dieses Tests begann in den Jahren 1710-1712, als der englische Wissenschaftler John Arbuthnot beim Studium von Kirchenbüchern feststellte, dass bei 82 Jahrgängen Knabengeburten häufiger eingetragen waren als Mädchengeburten. Aufgrund der hohen Fallzahlen kam er zu dem Schluss: Das kann kein Zufall sein! Der Binomialtest ist die geeignete Methode, um eine solche Vermutung objektiv zu überprüfen. Arbuthnot hätte dazu folgende Hypothesen aufstellen müssen: H0 : H1 :
Die Wahrscheinlichkeit p für eine Knabengeburt ist gleich der Wahrscheinlichkeit für eine Mädchengeburt, oder formal: p 1 / 2 Die Wahrscheinlichkeiten sind unterschiedlich. Es gilt also: p z 1/ 2 .
Ein Binomialtest basiert auf sehr einfachen Annahmen:
ŷ Es liegt eine Stichprobe mit n Beobachtungseinheiten vor; ŷ die Stichprobenwerte sind Ausprägungen eines Alternativmerkmals. Der Test überprüft, ob die relative Häufigkeit der Ausprägung A mit einer vorgegebenen Wahrscheinlichkeit p0 vereinbar ist. Die Hypothesen lauten also: H0 : H1 :
p p0 p z p0
(bei zweiseitiger Fragestellung)
Zur Testentscheidung gelangt man folgendermaßen:
ŷ Zunächst werden in der Stichprobe die Beobachtungseinheiten
mit der Ausprägung A gezählt; deren Anzahl sei X. Die relative Häufigkeit pˆ X / n ist ein Schätzwert für die Wahrscheinlichkeit p der Grundgesamtheit. ŷ Unter der Nullhypothese ist diese Anzahl X binomialverteilt mit dem Erwartungswert np0 . Mit der Formel (7.8) (Seite 129) lassen sich nun die Wahrscheinlichkeiten P ( X k ) berechnen. Damit lässt sich dann ein Bereich konstruieren, in den X bei Gültigkeit der Nullhypothese mit einer Wahrscheinlichkeit von 1 D 95% fallen würde. Bei einem nicht allzu hohen Stichprobenumfang genügt dazu ein Taschenrechner.
234
Kapitel 11 · Tests zum Vergleich von Häufigkeiten
Falls n hinreichend groß ist mit np0 (1 p0 ) t 9 , lässt sich die Binomialverteilung von X durch eine Normalverteilung mit dem Erwartungswert np0 und der Varianz np0 (1 p0 ) approximieren. Dann ist auch pˆ X / n normalverteilt mit dem Erwartungswert p0 und der Varianz p0 (1 p0 ) / n . Daraus folgt, dass die Prüfgröße Z
pˆ p0 p0 (1 p0 ) n
(11.11)
einer Standardnormalverteilung folgt. Der kritische Punkt ist 1,96 (für D 5% , zweiseitige Fragestellung). Bei einer anderen Irrtumswahrscheinlichkeit Į ist dieser Wert durch z1D / 2 entsprechend anzupassen; bei einseitiger Fragestellung ist er durch r z1D zu erset› Tabelle A, Anhang S. 329). zen (z Beispiel 11.7: Binomialtest Von n 76 Studenten sind k 55 weiblich. Ist diese Häufigkeit vereinbar mit der Hypothese, dass gleich viele Männer und Frauen Medizin studieren? Die Nullhypothese lautet: p 0,5 . Der Schätzwert ist pˆ 55 / 76 0, 72 . Da np0 (1 p0 ) 76 0,5 0,5 19 t 9 , kann man die Binomialverteilung von X durch eine Normalverteilung mit dem Erwartungswert P 76 0,5 38 und der Varianz V 2 n 0,52 19 approximieren. Für die Prüfgröße nach (11.11) berechnet man mit p0 0,5 : 55 / 76 0,5 z 3,900 0, 25 / 76
11
Dieser Wert ist deutlich größer als 1,96 – also wird die Alternativhypothese angenommen (mit p < 0,0001) Während der p-Wert besagt, dass das Ergebnis › Beispiel 8.2, signifikant ist, informiert das Konfidenzintervall > 0, 617;0,831@ (z S. 168) darüber, in welcher Größenordnung der Anteil weiblicher Studenten angenommen werden kann. ! Anstelle des Binomaltests kann auch der Chi2-Test für eine Stichprobe z
› Abschnitt mit einem 2-fach gestuften Merkmal verwendet werden (z 11.1.5, S. 227 f).
235 11.2 Andere Testverfahren
11
11.2.2 Fishers exakter Test Wenn die Voraussetzungen des Vierfelder-Tests oder auch des Chi2Tests für k A Felder nicht erfüllt sind (wenn die erwarteten Häufigkeiten zu klein sind), kann man alternativ Fishers exakten Test verwenden. Dieser Test heißt „exakt“, weil der p-Wert als Prüfgröße direkt berechnet wird. Er funktioniert im Vierfelderfall nach folgendem Prinzip:
ŷ Man ordnet die Vierfeldertafel so an, dass die kleinste Häufigkeit oben links steht (sie entspricht dann der Häufigkeit a). Die Wahrscheinlichkeit für diese Situation berechnet sich nach: P
( a b)!( c d )!( a c )!(b d )! n ! a ! b ! c ! d !
(11.12)
ŷ Falls diese Wahrscheinlichkeit größer ist als D, ist der Test beendet – die Nullhypothese wird beibehalten.
ŷ Ansonsten bildet man für noch extremere Situationen weitere Vierfeldertafeln, indem man unter Beibehaltung der Randsummen die Häufigkeit a schrittweise um 1 reduziert (und die anderen Häufigkeiten im Innern der Tabelle anpasst), bis man a = 0 erhält. Für jede dieser Situationen berechnet sich die Einzelwahrscheinlichkeit nach (11.12). ŷ Die so berechneten Einzelwahrscheinlichkeiten werden addiert. Diese Summe gibt an, wie groß die Wahrscheinlichkeit ist, die Ausgangssituation oder eine noch extremere Situation zu erhalten. Bei der 1-seitigen Fragestellung entspricht dies dem p-Wert. ŷ Bei einer 2-seitigen Fragestellung wird der p-Wert der 1-seitigen Fragestellung verdoppelt. ŷ Falls der berechnete p-Wert kleiner ist als D, wird die Nullhypothese zugunsten der Alternativhypothese abgelehnt. Fishers exakter Test kann nicht nur für Vierfeldertafeln, sondern theoretisch für beliebig große Kontingenztafeln angewandt werden. Allerdings kann er rechnerisch sehr aufwendig werden, sodass selbst ein leistungsstarkes Statistikprogramm mitunter lange Zeit benötigt, um den p-Wert zu ermitteln. i Bei der 2-seitigen Fragestellung kann man den p-Wert auch nach einem z anderen Algorithmus berechnen. Dazu werden unter Beibehaltung der Randsummen Einzelwahrscheinlichkeiten für alle theoretisch möglichen Tabellen berechnet. Alle Wahrscheinlichkeiten, die kleiner sind als die Wahrscheinlichkeit der ursprünglichen Tabelle, werden dann addiert. Die auf unterschiedliche Weise berechneten p-Werte werden sich in aller Regel jedoch nur marginal unterscheiden.
236
Kapitel 11 · Tests zum Vergleich von Häufigkeiten
Beispiel 11.8: Fishers exakter Test Zwei Gruppen von Patienten werden bezüglich einer neuen Therapie verglichen. Es soll getestet werden, ob sich die Misserfolgsquoten der beiden Therapien unterscheiden (zweiseitige Fragestellung). Es ergeben sich folgende Häufigkeiten: Misserfolg Erfolg a 0 b 8 Therapie 1 8 8! 8! 5! 11! P( a 0) 0,0128 c 5 d 3 Therapie 2 8 16! 0! 8! 5! 3! 16 5 11 Eine ebenso extreme Situation wäre gegeben, wenn a 5 und c 0 ; auch in diesem Fall wäre P( a 5) 0,0128 . Die Summe dieser beiden Wahrscheinlichkeiten ergibt 0,0256 0,05 . Also wird die Nullhypothese für D 5% abgelehnt.
Mathematische Herleitung der Wahrscheinlichkeiten bei Fisher’s exaktem Test Es sind n Beobachtungseinheiten (z. B. Patienten) gegeben; davon haben a c eine bestimmte Eigenschaft (z. B. Therapie nicht erfolgreich). Von n Patienten werden zufällig a b (z. B. für Therapie 1) ausgewählt; davon haben a Patienten einen Misserfolg. Unter der Nullhypothese folgt a einer hypergeometrischen Verteilung HG ( a b; n, a c) . Mit (7.27) berechnet man:
P( X
11
a)
§a c· § n a c· ¨¨ ¸¸ ¨¨ ¸¸ © a ¹ ©a b a¹ § n · ¨¨ ¸¸ ©a b¹
§ a c· §b d · ¸¸ ¨¨ ¸¸ ¨¨ © a ¹ © b ¹ § n · ¨¨ ¸¸ © a b¹
Nach Einsetzen der Binomialkoeffizienten ergibt sich (11.12).
11.2.3 Ausblick auf die logistische Regression In Abschnitt 10.4.2 (S. 215) wurde das Allgemeine Lineare Modell vorgestellt, mit dem der Einfluss mehrerer qualitativer und quantitativer Merkmale auf eine quantitative Zielgröße untersucht werden kann. Bei derlei Zielgrößen handelt es sich meist um Messwerte aus dem klinischen Bereich, aus dem Labor oder um Zeitmessungen. In der medizinischen Forschung hat man es häufig jedoch auch mit qualitativen, oft auch mit einfachen Alternativmerkmalen als Zielgrößen zu tun. Dies betrifft Fragestellungen, die sich mit „ja“ oder „nein“ beantworten lassen, wie zum Beispiel „Therapie erfolgreich“, „Krankheit bricht aus“ oder „Patient überlebt“. Am Ende lie-
237 11.2 Andere Testverfahren
11
gen zwei Gruppen vor, die zu vergleichen sind. Um diese Gruppen bezüglich eines qualitativen Merkmals zu testen, verwendet man in der Regel den in diesem Kapitel vorgestellten Chi2-Test oder Fisher’s exakten Test; bei einem quantitativen Merkmal bietet sich der t-Test › Abschnitte 10.1.3 und 10.2.3, S. 199 ff und oder der U-Test an (z 208 ff). Mit diesen Tests lassen sich Unterschiede zwischen den Gruppen absichern; allerdings können damit keine Wahrscheinlichkeiten für ein bestimmtes Endereignis berechnet werden. Außerdem handelt es sich um einfache Tests, die nur den Einfluss eines einzigen Merkmals berücksichtigen. Die logistische Regression ist ein multiples Verfahren, mit dem es möglich ist, die Wahrscheinlichkeit für das Auftreten eines bestimmten Endereignisses basierend auf mehreren Einflussgrößen zu modellieren. Diese Einflussgrößen können sowohl qualitativ als auch quantitativ sein. Im einfachsten Fall ist die Zielgröße binär; es ist jedoch auch möglich, ordinal oder nominal skalierte Zielgrößen mit mehreren Ausprägungen zu untersuchen. Bei diesem Verfahren wird eine mathematische Gleichung aufgestellt, mit der die Wahrscheinlichkeit für das Auftreten eines Ereignisses A (z. B. „Die Therapie ist erfolgreich“) in Abhängigkeit von mehreren signifikanten Einflussgrößen für jeden Einzelfall geschätzt werden kann: P ( A)
exp(a0 a1 x1 ... a k xk ) 1 exp(a0 a1 x1 ... ak xk )
(11.13)
Diese auf den ersten Blick seltsam scheinende Formel gewährleistet, dass in jedem Fall eine Wahrscheinlichkeit ermittelt wird, die zwischen 0 und 1 liegt. Nominal skalierte Merkmale lassen sich durch › Beispiel 2.5, S. 28). Die Güte des Dummy-Variablen darstellen (z Modells wird wesentlich bestimmt durch die in das Modell aufgenommen Variablen. Diese Wahl muss sowohl unter statistischen als auch unter medizinisch-fachlichen Aspekten erfolgen. Die Berechnung der Regressionskoeffizienten ai ist ohne eine leistungsstarke Statistiksoftware kaum durchführbar. Die logistische Regression ist in der medizinischen Forschung sehr vielseitig verwendbar. Ausführliche Informationen und weitere Hinweise zur Analyse von kategorialen Daten findet man in [1], [2] und [6].
238
Kapitel 11 · Tests zum Vergleich von Häufigkeiten
Zusammenfassung Kapitel 11 Chi2-Tests analysieren Häufigkeiten. Varianten: ŷ Chi2-Vierfeldertest ŷ Mediantest ŷ Chi2-Test für k A -Kontingenztafeln ŷ Chi2-Test zum Vergleich der Häufigkeiten einer Stichprobe ŷ McNemar-Test (für 2 verbundene Stichproben) ŷ Anpassungstest ŷ Logrank-Test (zum Vergleich von Überlebenszeiten). Voraussetzung der Chi2-Tests: Alle unter der Nullhypothese zu erwartenden Häufigkeiten sind t 5 . Fishers exakter Test: Alternative für den Chi2-Vierfeldertest oder den Chi2-Test für k A -Kontingenztafeln.
11
12
Epidemiologische Studien 12.1
Aufgaben und Ziele der Epidemiologie 241
12.2
Der Inhalt epidemiologischer Studien 242
12.3
Studiendesigns 243
12.3.1 Deskriptiv – analytisch 243 12.3.2 Transversal – longitudinal 244 12.3.3 Retrospektiv – prospektiv 245 12.3.4 Beobachtend – experimentell 246 12.3.5 Monozentrisch – multizentrisch 247
12.4
Epidemiologische Maßzahlen 248
12.4.1 Maßzahlen für Krankheitshäufigkeiten 248 12.4.2 Weitere Maßzahlen der Demographie 251 12.4.3 Sterbetafeln 252
12.5
Fehlerquellen 254
12.5.1 Zufällige Fehler 254 12.5.2 Systematische Fehler 256 12.5.3 Confounding 257
12.6
Die Studienplanung 258
12.6.1 Die Bedeutung der Planung 258 12.6.2 Komponenten der Planung 260
241 12.1 Aufgaben und Ziele der Epidemiologie
12.1
12
Aufgaben und Ziele der Epidemiologie
Die Epidemiologie ist die Lehre von der Entstehung und der Verbreitung von Krankheiten und deren Bekämpfung. Ursprünglich bezog sich dieser Begriff nur auf Infektionserkrankungen. Gerade beim Bekämpfen der großen Seuchen in den vergangenen Jahrhunderten haben Epidemiologen große Erfolge erzielt. Auch heute noch sind bei ansteckenden, sich schnell ausbreitenden Krankheiten Epidemiologien gefragt, um geeignete Kontrollmaßnahmen zu ergreifen. Mittlerweile befasst sich die Epidemiologie generell mit allen Erkrankungen, die von allgemeinem Interesse sind (so zum Beispiel auch mit Diabetes mellitus oder Krebserkrankungen). Die Aufgaben und Ziele der Epidemiologie sind vielfältig. Sie umfassen:
ŷ das Untersuchen der Verbreitung von Krankheiten in einer Population;
ŷ das Erkennen der Ursachen und Risikofaktoren einer Krankheit; ŷ das Untersuchen des natürlichen Verlaufs einer Krankheit und die Bestimmung relevanter prognostischer Faktoren;
ŷ die Evaluation präventiver, diagnostischer und therapeutischer Maßnahmen. Im Gegensatz zu anderen medizinischen Disziplinen ist in der Epidemiologie nicht ein einzelner Patient als Individuum Gegenstand des Interesses; vielmehr sollen gesundheitsrelevante Zustände und Ereignisse einer ganzen Population oder einer speziellen Subpopulation untersucht werden. Dennoch profitieren sowohl die Ärzte als auch die Patienten von den Ergebnissen epidemiologischer Studien. Es gehört nämlich zum Berufsbild jedes praktisch tätigen Arztes, Risiken zu erkennen und die Patienten entsprechend zu beraten, Diagnosen zu stellen, geeignete Therapien anzuordnen, Präventionsmaßnahmen durchzuführen und den Verlauf einer Krankheit zu prognostizieren. Die Epidemiologie ist eine interdisziplinäre Wissenschaft. Eine enge Zusammenarbeit mit Wissenschaftlern anderer Fachrichtungen ist notwendig, um die Erkenntnisse, die aus epidemiologischen Studien hervorgehen, zu deuten und praktische Konsequenzen daraus zu ziehen. Dies betrifft in erster Linie die kurative Medizin: Um die Aussagen epidemiologischer Studien in der Praxis umsetzen zu können, ist es wichtig, dass jeder Arzt deren Struktur, Stärken und Einschränkungen kennt. Darüber hinaus gibt es Berührungspunkte mit der Biologie, mit Ernährung- und Sozialwissenschaften. Aufgrund der Erkenntnisse, die aus epidemiologischen Studien resultieren,
242
Kapitel 12 · Epidemiologische Studien
werden schließlich Grundlagen für gesundheitspolitische Entscheidungen geschaffen. Seit den 1990er Jahren ist in Deutschland Public Health (Gesundheitswissenschaften) als wissenschaftliche Disziplin etabliert. Die Vertreter dieses Fachs setzen die Erkenntnisse aus epidemiologischen Studien um, um die Gesundheit einer Population umfassend zu fördern und nachhaltig zu verbessern. Dies wiederum erfordert eine Kooperation mit Politik- und Wirtschaftswissenschaften. Eine wesentliche Bedeutung für epidemiologische und klinische Studien hat die Statistik inne: Statistische Analysen sind ein unentbehrliches Hilfsmittel, um Zusammenhänge aufzudecken und Kausalitäten nachzuweisen. ! Der Inhalt der Kapitel 12 bis 15 bezieht sich nicht nur auf groß angelegte z
epidemiologische und klinische Studien, sondern ist für kleinere Forschungsvorhaben (etwa Doktorarbeiten) ebenso relevant.
12.2
Der Inhalt epidemiologischer Studien
Studien, die in der epidemiologischen Forschung durchgeführt werden, lassen sich nach inhaltlichen Aspekten in folgende Gruppen einteilen:
12
x Risikostudien. Diese Studien haben zum Ziel zu klären, welche ätiologischen Faktoren das Auftreten einer Krankheit kausal beeinflussen. Derlei Studien können retrospektiv als Fall-Kontroll-Studie oder prospektiv als Kohortenstudie durchgeführt werden. Risikostudien können aber auch als Querschnittstudie oder als Populationsstudie angelegt sein. In jedem Fall handelt es sich um Beobachtungsstudien. In Kapitel 13 (S. 265 ff) wird ausführlich auf die verschiedenen Designs eingegangen. x Diagnosestudien. Der Gegenstand dieser Studien sind diagnosti sche Tests, die dazu dienen, erkrankte Personen von nicht erkrankten zu trennen. Ziel dieser Studien ist das Ermitteln der Sensitivität und Spezifität eines diagnostischen Verfahrens. In Abschnitt 14.1 (S. 287 ff) wird dieser Studientypus vorgestellt. x Präventionsstudien. Sie haben zum Ziel, den Nutzen einer präventiven Maßnahme (z. B. einer Impfung oder eines Früherkennungsprogramms) zu evaluieren. In Abschnitt 14.2 (S. 297 ff) wird dieses Thema erörtert.
243 12.3 Studiendesigns
12
x Therapiestudien. Im weiteren Sinne zählen zu epidemiologischen Studien auch Therapiestudien, die allerdings meist nicht als beobachtende, sondern als randomisierte klinische Studien durchgeführt werden. Dabei werden zwei oder mehr Patientengruppen, die unterschiedlich therapiert werden, miteinander verglichen. Diese Studien haben im Gegensatz zu den oben genannten Studientypen experimentellen Charakter. Detaillierte Erläuterungen findet man in Abschnitt 15.1 (S. 305 ff). x Prognosestudien. Auch diese Studien werden – ebenso wie Thera piestudien – an erkrankten Patienten durchgeführt. Sie sind in der Regel als Beobachtungsstudien angelegt. Häufig wird dabei der zeitliche Verlauf einer Krankheit bis zu einem bestimmten Endereignis (z. B. Tod oder Heilung eines Patienten) untersucht. Dieses Thema ist Gegenstand des Abschnitts 15.2 (S. 317 ff). i Der Begriff „epidemiologische Studie“ wird vielfach gleichbedeutend mit z „Risikostudie“ verwendet. Dies hat historische Gründe: Ursprünglich befasste sich die Epidemiologie mit der Erforschung von Risikofaktoren bei Infektionskrankheiten. In diesem Buch wird jedoch die Bezeichnung „epidemiologische Studie“ – entsprechend dem weit gefassten Aufgabengebiet der epidemiologischen Forschung – in einem allgemeineren Sinne verwendet: Er umfasst alle oben genannten Studientypen.
12.3
Studiendesigns
Epidemiologische Studien lassen sich formal nach folgenden Aspekten klassifizieren: 12.3.1 Deskriptiv – analytisch x Deskriptive Studien. Diese Studien sind rein beschreibend. Die zugrunde liegenden Daten werden ausgewertet, ohne dass zeitliche oder kausale Zusammenhänge hergeleitet werden können. Beispiele hierfür sind Register, in denen Informationen zu einem bestimmten Thema systematisch gesammelt und aufbereitet werden (etwa Krebsregister, Geburten- oder Sterberegister). Außerdem zählen zu diesem Studientypus Fallberichte, Fallserien, Populationsstudien und › Abschnitt 13.2, S. 268 ff). Deskriptive StuQuerschnittstudien (z dien sind exploratorisch: Sie können nur Hinweise auf Auffälligkeiten und mögliche Zusammenhänge geben; daraus lassen sich eventuell Hypothesen generieren. Diese sollten dann im Rahmen einer analytischen Studie überprüft werden.
244
Kapitel 12 · Epidemiologische Studien
x Analytische Studien. Wichtige Erkenntnisse der epidemiologi schen Forschung basieren auf analytischen Studien. Dazu zählen › Abschnitt 13.3, S. 270 ff), KohortenstuFall-Kontroll-Studien (z › Abschnitt 13.4, S. 275 ff) und klinisch kontrollierte dien (z › Abschnitt 15.1, S. 305 ff). Sie dienen zur ÜberTherapiestudien (z prüfung von Hypothesen und sind damit konfirmatorisch: Zusammenhänge zwischen einer Zielgröße und einer (oder mehreren) Einflussgrößen sollen inhaltlich hergeleitet und statistisch abgesichert werden. Das Studiendesign kann beobachtend oder experi› Abschnitt 12.3.4. S. 246 f). mentell sein (z Die Übergänge zwischen deskriptiven und analytischen Studien sind fließend. Wenn verschiedene Register miteinander verknüpft wer› Abschnitt 13.2.4, S. 169), den (so genannte Populationsstudien, z kann die deskriptive Studie in eine analytische übergehen. Häufig bilden die Erkenntnisse aus einer einfachen, deskriptiven Studie die Basis für eine nachfolgende, analytische Studie. 12.3.2 Transversal – longitudinal
12
x Transversale Studien. Eine transversale Studie (Querschnittstu die) ist eine Momentaufnahme einer Population, bei der eine oder mehrere Eigenschaften der Studienteilnehmer erfasst werden. Ein› Abschnitt 13.2.2, fachste Transversalstudien sind etwa Fallserien (z › Abschnitt S. 268 ). Ein anderes Beispiel ist eine Prävalenzstudie (z 13.2.3, S. 269), bei der die Prävalenz einer Krankheit zu einem bestimmten Zeitpunkt festgestellt wird. Möglicherweise werden dabei noch weitere Merkmale erfasst (z. B. ob die Studienteilnehmer einem besonderen Risikofaktor ausgesetzt sind). Man kann dann zwar versuchen, einen statistischen Zusammenhang zwischen Krankheit und Risikofaktor herzuleiten; kausale oder zeitliche Zusammenhänge können jedoch nicht nachgewiesen werden. – Transversale Studien eignen sich für Zustandsbeschreibungen, jedoch nicht, um zeitliche Abläufe zu untersuchen. Sie sind überwiegend deskriptiv. x Longitudinale Studien. Diese Studien (auch Längsschnittstudien genannt) haben zum Ziel, einen zeitlichen Verlauf zu beschreiben oder einen zeitlichen Zusammenhang herzuleiten. Sie sind insofern analytisch. Dazu zählen Fall-Kontroll-Studien (S. 270 ff), Kohortenstudien (S. 275 ff) und klinisch kontrollierte Studien (S. 305 ff). Longitudinale Studien lassen sich außerdem danach unterscheiden, ob sie retrospektiv oder prospektiv ausgerichtet sind.
245 12.3 Studiendesigns
12
12.3.3 Retrospektiv – prospektiv x Retrospektive Studien. Retrospektiv heißt „zurückblickend“. Man ermittelt zunächst die Ausprägungen der Zielgröße und versucht dann, die Ausprägungen einer oder mehrerer Einflussgrößen zu erfassen. Das Paradebeispiel sind Fall-Kontroll-Studien, bei denen eine Gruppe erkrankter Personen (Fälle) mit einer Gruppe nicht erkrankter (Kontrollen) dahingehend verglichen wird, ob und welchen Risikofaktoren die Teilnehmer in der Vergangenheit ausgesetzt › Abschnitt 13.3, S. 270 ff). waren (z Bei retrospektiven Studien sind die relevanten Ereignisse zu einem Zeitpunkt geschehen, als die konkrete Fragestellung der Studie noch gar nicht vorlag. Die Daten sind entweder dokumentiert (etwa in Krankenakten) oder müssen durch Befragungen (Interviews, Fragebogen) erhoben werden. Der Vorteil dieser Studienart liegt auf der Hand: Man braucht nicht auf das Eintreten der interessierenden Endereignisse zu warten, und kann deshalb relativ schnell Ergebnisse erhalten. Dem stehen jedoch mitunter gravierende Nachteile gegenüber, die in erster Linie die Datenqualität betreffen. Es besteht im Nachhinein keine Möglichkeit, auf die Auswahl der Beobachtungseinheiten und der zu erfassenden Merkmale sowie auf die Mess- und Dokumentationstechniken Einfluss zu nehmen. Unvollständige oder falsche Angaben in Krankenblättern (z. B. Arzneimittelanamnese, klinische Befunde) lassen sich in der Regel nicht ergänzen oder korrigieren (oft bleiben sie gänzlich unbemerkt). Wenn man Personen nach zurückliegenden Ereignissen befragt, ist man auf deren Erinnerungsvermögen angewiesen und kann keinesfalls sicher sein, korrekte und vollständige Informationen zu erhalten. Derlei Fehler könnten zu einem Bias führen, der die Ergebnisse der Studie verzerrt und zu unzulässigen › Abschnitt 12.5.2, S. 256). Schlussfolgerungen verleitet (z Retrospektive Studien können wertvolle Hinweise auf mögliche Zusammenhänge liefern. Gegebenenfalls sind sie der Anlass zu einer nachfolgenden prospektiven Studie. Sie lassen sich – sofern man sich auf vollständig und richtig erfasste Daten stützen kann – auch bei der Qualitätskontrolle einsetzen (z. B. um den Erfolg einer therapeutischen Maßnahme oder die Häufigkeiten von Komplikationen zu ermitteln). x Prospektive Studien. Prospektiv bedeutet „vorausschauend“. Bei diesen Studien ermittelt man zunächst die Einflussgrößen und wartet ab, bis das interessierende Endereignis eintritt. Die Untersuchungsrichtung ist somit logischer als bei retrospektiven Studien.
246
Kapitel 12 · Epidemiologische Studien
Prospektive Studien sind üblicherweise so angelegt, dass sich die Daten überwiegend nach Studienbeginn ergeben. Der Versuchsleiter hat dabei Kontrollmöglichkeiten bezüglich der Stichprobe, der zu erfassenden Merkmale, der Messmethoden und der Dokumentation. Dem Vorteil der hohen Datenqualität steht als Nachteil ein erhöhter Zeitbedarf gegenüber. Kohortenstudien sind die bekanntesten prospektiven Studien. Viele › Risiko- und Prognosestudien sind als Kohortenstudien angelegt (z Abschnitte 13.4, S. 275 ff und 15.2, S 317 ff). Experimente und › Abschnitt 15.1, S. randomisierte Studien (z. B. Therapiestudien, z 305 ff) sind in jedem Fall prospektiv. ! Die Begriffe „prospektiv“ und „retrospektiv“ werden vielfach auch dazu z
verwendet, die Art der Datenerhebung zu beschreiben. Eine prospektive Studie bezeichnet dabei ein Design, bei dem die Daten erst nach Studienbeginn erhoben werden, während bei einer retrospektiven Studie die Daten zu Studienbeginn bereits erfasst worden sind. Diese unterschiedlichen Bedeutungen sind manchmal etwas verwirrend – etwa bei der Be› Abschnitt 13.4.5, S. 280). zeichnung „retrospektive Kohortenstudie“ (z Deren Untersuchungsrichtung ist prospektiv (da von den Einflussgrößen auf die Zielgröße geschlossen wird), die Art der Datenerhebung ist jedoch retrospektiv.
12.3.4 Beobachtend – experimentell
12
x Beobachtende Studie. Der Versuchsleiter nimmt in Bezug auf die interessierenden Eigenschaften der Untersuchungseinheiten eine passive Rolle ein – er beobachtet, dokumentiert und wertet die Daten aus. Er greift aber nicht aktiv in das Geschehen ein, und er versucht nicht, die Studienteilnehmer in irgendeiner Weise zu beeinflussen. Beobachtende Studien können sehr einfach und rein deskriptiv konzipiert sein (z. B. als Fallserie). Sie können jedoch auch als Longitudinalstudie angelegt sein und – wenn mehrere Merkmale erfasst und analysiert werden – wertvolle Hinweise auf mögliche Zusammenhänge geben und damit analytischen Charakter annehmen (z. B. Fall-Kontroll-Studie oder Kohortenstudie). Risikostudien und Prognosestudien sind in aller Regel als beobachtende Studien angelegt. x Experimentelle Studie. Bei einem Experiment (oder einer Interventionsstudie) gibt der Versuchsleiter die Ausprägungen der Einflussgrößen zumindest teilweise vor. Experimentelle Studien sind in jedem Fall analytisch und prospektiv. Der Versuchsleiter hat op-
247 12.3 Studiendesigns
12
timale Einflussmöglichkeiten auf die Stichproben, auf die Datenerhebung und -auswertung. In der forschenden Medizin steht dabei meist eine nicht-menschliche Population (z. B. Tiere oder Zellkulturen) im Mittelpunkt. Bei Experimenten in der Humanmedizin werden üblicherweise eine Experimental- und eine Kontrollgruppe miteinander verglichen. Diese Studien sind ethisch nicht unproblematisch. Ein typisches Beispiel stellen randomisierte klinische Studien dar, bei denen mehrere Therapiegruppen (z. B. Verum und Placebo) verglichen werden, wobei die Art der Therapie vom Versuchsleiter › Abschnitt 15.1, S. 305 ff). Aber auch vorgegeben wird (z › Abschnitt 14.2, S. 297 ff) oder DiagnosePräventionsstudien (z › Abschnitt 14.1, S. 287 ff), bei denen alle oder ein Teil der studien (z Teilnehmer im Rahmen der Studie einer präventiven Maßnahme (etwa einem Screening) bzw. einem diagnostischen Test unterzogen werden, sind experimentell. Eine Sonderform stellen quasi-experimentelle Studien dar: Hier ist die Zuteilung zur Experimental- oder Kontrollgruppe durch natürliche Eigenschaften der Partizipanten vorgegeben. Im englischen Sprachgebrauch bezeichnet man dieses Design als „randomization by nature“. 12.3.5 Monozentrisch – multizentrisch x Monozentrische Studie. Bei monozentrischen Studien werden die Patienten oder Probanden aus einer einzigen Institution (z. B. einer Klinik) rekrutiert. x Multizentrische Studie. Bei seltenen Krankheiten mag es schwie rig sein, in einer einzigen Institution eine ausreichende Zahl von Teilnehmern zu rekrutieren. In diesen Fällen bieten sich multizentrische Studien an, bei denen Patienten aus mehreren Einrichtungen zusammengefasst und gemeinsam analysiert werden. Diese Studienart hat den Vorteil, dass die Menge der Studienteilnehmer heterogener und die Ergebnisse eher verallgemeinerbar sind. Allerdings ist es bei diesem Design mitunter schwierig, die Patienten in gleicher Weise zu beobachten und zu behandeln. Derlei Ungleichheiten können zu einem Informationsbias führen und die Ergebnisse › Abschnitt 12.2.5, S. 255 ff). verzerren (z
248
12.4
Kapitel 12 · Epidemiologische Studien
Epidemiologische Maßzahlen
12.4.1 Maßzahlen für Krankheitshäufigkeiten Die Bemühungen der Epidemiologie sind darauf ausgerichtet, dem gehäuften Auftreten von Krankheiten in einer Bevölkerung durch Risikoerkennung und Prävention vorzubeugen. Wenn es dennoch zu unerwarteten Krankheitsausbrüchen kommt, sind die Epidemiologen bemüht, eine weitere Ausbreitung zu verhindern. Bezüglich der Verbreitung einer Krankheit unterscheidet man:
ŷ Epidemie. Darunter versteht man einen Anstieg von Krankheitsfällen einer Krankheit, das örtlich und zeitlich begrenzt ist. Dies betrifft insbesondere Infektionskrankheiten. ŷ Pandemie. Wenn sich eine Krankheit länder- oder gar kontinentübergreifend ausbreitet (aber zeitlich begrenzt ist), spricht man von Pandemie. So waren beispielsweise die Pest, die sich im 14. Jahrhundert über ganz Europa ausbreitete, oder die Spanische Grippe zu Beginn des 20. Jahrhunderts Pandemien. Ein aktuelles Beispiel ist AIDS. ŷ Endemie. Dies ist eine Krankheit, die in gewissen Regionen permanent gehäuft auftritt (wie zum Beispiel die Malaria in tropischen Ländern). Um untersuchen zu können, ob und inwieweit die oben genannten Ziele erreicht werden, muss die Häufigkeit von Krankheiten erfasst werden. Dazu stehen mehrere Maßzahlen zur Verfügung:
12
x Prävalenz (im engeren Sinne: Punktprävalenz).. Dies ist der rela tive Krankenbestand zu einem bestimmten Zeitpunkt – also die Wahrscheinlichkeit P( K t ) für eine beliebige Person aus der Population, zum Zeitpunkt t erkrankt zu sein. Dieses Maß beschreibt also eine Momentaufnahme. Es eignet sich für Krankheiten, die chronisch sind oder wiederholt auftreten; es wird üblicherweise im Rahmen einer Querschnittstudie bestimmt. Die Punktprävalenz muss immer zusammen mit dem Zeitpunkt angegeben werden, auf den sie sich bezieht. Es handelt sich dabei nicht um einen Zeitpunkt im physikalischen Sinne, sondern meist um einen bestimmten Tag oder Monat oder auch um ein Ereignis während der Lebenszeit eines Menschen (etwa die Geburt). Die Kenntnis der Prävalenz ist eine wertvolle Hilfe für die Bedarfsplanung im Öffentlichen Gesundheitswesen.
249 12.4 Epidemiologische Maßzahlen
12
x Periodenprävalenz. Das Bestimmen einer Punktprävalenz kann bei Krankheiten von sehr kurzer Dauer methodische Schwierigkeiten mit sich bringen. Dann mag es sinnvoll sein, anstelle der Punktprävalenz eine Periodenprävalenz zu bestimmen, die sich auf einen längeren Zeitraum bezieht. Dabei werden alle Personen berücksichtigt, die zu Beginn, während oder am Ende des Beobachtungszeitraums erkrankt waren (üblicherweise im Rahmen einer Kohortenstudie). Eine spezielle Form stellt die Lebenszeitprävalenz dar: Sie quantifiziert die Wahrscheinlichkeit einer Person, krank geboren zu werden oder einmal im Laufe des Lebens zu erkranken. x Inzidenz. Dies ist die Neuerkrankungsrate, also die Wahrschein lichkeit P (K ) für eine beliebige Person, während einer Beobachtungszeit zu erkranken. Dabei geht man von einer Population aus, deren Mitglieder zu Beginn des Beobachtungszeitraumes nicht erkrankt sind. Die Inzidenz wird immer in Verbindung mit einem Zeitraum (z. B. ein bestimmtes Jahr oder die Dauer eines Klinikaufenthaltes) angegeben. Dieses Maß hat nur Aussagekraft bei Erkrankungen, die bei einer Person während der Beobachtungszeit maximal einmal auftreten. Bei länger andauernden Krankheiten lässt sich die Prävalenz aus der Inzidenz berechnen nach: Prävalenz = Inzidenz · durchschnittliche Dauer Diese Gleichung erklärt, weshalb viele chronische Krankheiten zwar eine geringe Inzidenz, aber dennoch eine hohe Prävalenz aufweisen. Während die Inzidenz angibt, wie groß das Erkrankungsrisiko für eine einzelne Person ist, informiert die Prävalenz über die Auswirkungen einer Krankheit auf die Gesamtpopulation. Beispiel 12.1: Prävalenz und Inzidenz Im Dezember 2009 lebten in Deutschland etwa 67.000 HIV-positive Menschen; dies entspricht bei einer Gesamtbevölkerung von 82 Millionen 8,17 von 10.000 (Prävalenz). Bei Asthma beträgt die jährliche Inzidenz aller Kinder und Jugendlichen zwischen 6 und 16 Jahren 3/1.000; die durchschnittliche Dauer beträgt etwa 11 Jahre. Dann lässt sich nach obiger Formel ermitteln, dass 33 von 1.000 Personen in dieser Altersgruppe zu einem bestimmten Zeitpunkt an Asthma erkrankt sind (Prävalenz). Prävalenzen werden gerne bei neugeborenen Kindern angegeben, da sich hier Inzidenzen schwer schätzen lassen. Die Prävalenz von Fehlbildungen bei neugeborenen Kindern in Deutschland beträgt etwa 6,5%.
250
Kapitel 12 · Epidemiologische Studien
x Krankheitsspezifische Mortalität. Darunter versteht man die Sterberate – also die Wahrscheinlichkeit P ( K T ) , während der Beobachtungszeit an der Krankheit K zu erkranken und daran zu versterben. x Letalität. Die Sterberate der Erkrankten ist die bedingte Wahr scheinlichkeit P( T | K ) . Die Angabe der Letalität ist nur sinnvoll für Erkrankungen, deren Beginn und Ende innerhalb des Beobachtungszeitraums liegen. Nach dem Multiplikationssatz 6.9 (S. 110) gilt: P( K T )
P( K ) P( T | K )
(12.1)
oder in Worten: Mortalität = Inzidenz · Letalität i Unter einer Rate versteht man eine auf eine Zeiteinheit bezogene Messz größe. In diesem Sinne stellen die Inzidenz, die Mortalität und die Letalität ebenso wie die Natalität und die Fertilitätsziffer (nächster Abschnitt) Raten dar. Bei der Punktprävalenz handelt es sich dagegen um eine Proportion (hier ist der Zähler ein Teil des Nenners). Die Angabe der Bezugspopulation ist bei diesen Maßzahlen unbedingt erforderlich. Man stellt sie entweder als Prozentzahl dar oder – wenn diese sehr gering ist – als relative Häufigkeit bezogen auf 1.000, 10.000 oder mehr Personen.
Beispiel 12.2: Letalität und Mortalität Ignaz Semmelweis ermittelte für den April des Jahres 1846 in der Ärzte-Abteilung des Wiener Gebärhauses, dass 24% der gebärenden Frauen während des Klinikaufenthaltes an Kindbettfieber erkrankten (Inzidenz) und von den Erkrankten 80% verstarben (Letalität). Mit Formel (12.1) berechnet man daraus eine Mortalität von etwa 19%.
12
x Morbidität. Dieser Begriff ist in der Literatur unterschiedlich de finiert: Teilweise wird er synonym für Prävalenz, teilweise synonym für Inzidenz verwendet. Bei Infektionskrankheiten sind außerdem folgende Wahrscheinlichkeiten von Bedeutung: x Kontagionsindex. Dieser Index gibt die Wahrscheinlichkeit an, dass sich eine nicht immune Person, die mit dem Erreger in Kontakt kommt, infiziert. Er ist also ein Maß für die Ansteckungsfähigkeit. x Manifestationsindex. Dies ist die Wahrscheinlichkeit, mit der eine infizierte Person manifest erkrankt (die Krankheitsbereitschaft). Je kleiner dieser Index ist, desto mehr Infektionsfälle verlaufen klinisch stumm.
251 12.4 Epidemiologische Maßzahlen
12
Beispiel 12.3: Kontagionsindex und Manifestationsindex Bei Masern beträgt der Kontagionsindex fast 100%; der Manifestationsindex liegt bei etwa 95%. Das heißt: Fast alle Personen, die mit dem Virus in Kontakt kommen, infizieren sich. Davon erkranken 95% manifest, während 5% der Infektionen klinisch stumm verlaufen.
Schließlich sei noch angemerkt, dass all diese Maßzahlen keineswegs Naturkonstanten sind, die – nachdem man sie einmal bestimmt hat – für alle Zeit ihren Wert behalten. Es handelt sich vielmehr um Größen, die abhängig sind von den sozialen Rahmenbedingungen sowie den aktuellen diagnostischen und therapeutischen Möglichkeiten. Mit besseren diagnostischen Mitteln werden mehr Krankheitsfälle erkannt – dadurch steigt die Inzidenz. Wenn für eine Krankheit eine bessere Therapie zur Verfügung steht, werden mehr Personen überleben – damit steigt bei chronischen Erkrankungen die Prävalenz, während die Mortalität und die Letalität sinken. Weitere interessante Hinweise findet man in [7]. 12.4.2 Weitere Maßzahlen der Demographie Zur Beschreibung demographischer Charakteristika werden außer den oben genannten folgende Wahrscheinlichkeiten verwendet: x Natalität. Das ist die Geburtenrate (auch Geburtenziffer genannt), also der Anteil lebend geborener Kinder im Verhältnis zur Gesamtpopulation während eines Beobachtungszeitraums. Sie ist abhängig von der Altersstruktur der beobachteten Population. Ein hoher Altenanteil impliziert automatisch eine niedrige Geburtenrate. x Fertilitätsziffer. Dieses Maß beschreibt die Fruchtbarkeitsziffer – das ist die Zahl der Lebendgeborenen im Verhältnis zur Anzahl der Frauen im gebärfähigen Alter (bezogen auf ein Jahr). Sie ist (anders als die Natalität) unabhängig von der Altersstruktur der Population. x Pearl-Index. Dies ist ein Maß bezüglich der Sicherheit einer Ver hütungsmethode. Zu dessen Schätzung müssen hinreichend viele Frauen, die eine bestimmte Verhütungsmethode anwenden, über einen längeren Zeitraum beobachtet werden. Der Index wird bestimmt, indem die Anzahl der ungewollten Schwangerschaften im Verhältnis zur Anzahl der beobachteten Zyklen mit dem Faktor 1.200 multipliziert wird. Er gibt somit an, wie viele von 100 Frauen in einem Jahr ungewollt schwanger werden (wobei davon ausgegangen wird, dass eine nicht-schwangere Frau zwölf Zyklen pro Jahr hat).
252
Kapitel 12 · Epidemiologische Studien
x Sterbeziffer. Dies ist die Gesamtmortalität – also der Anteil der im Beobachtungszeitraum Verstorbenen. Darüber hinaus gibt es spezifische Sterbeziffern, etwa für Neugeborene oder bezogen auf bestimmte Krankheiten. Beispiel 12.4: Geburten- und Sterbeziffer Im Jahre 2004 betrug die Geburtenziffer im EU-Durchschnitt 10,9 pro 1.000 Einwohner. In Deutschland wurden damals 8,5 Kinder pro 1.000 Einwohner geboren – das war eine der niedrigsten Geburtenziffern der Länder der Europäischen Union. Wenn man bedenkt, dass die Sterbeziffer 10,4 Personen pro 1.000 Einwohner betrug, bedeutet das einen Bevölkerungsrückgang um 1,9 Personen je 1.000 Einwohner. Dieser Rückgang konnte durch Zuwanderungen teilweise ausgeglichen werden. Die Fertilitätsrate lag bei 46 Geburten pro 1.000 Frauen im gebärfähigen Alter.
12.4.3 Sterbetafeln Eine Sterbetafel beschreibt die Verteilung von Lebensdauern. Sie basiert auf folgenden Häufigkeiten: A 0 : Anzahl von Lebendgeborenen innerhalb eines Beobachtungszeitraums (z. B. in einem bestimmten Jahr)
A x : Anzahl der Personen, die ihren x-ten Geburtstag erleben und danach noch unbestimmte Zeit leben. Dann ist dx
12
A x A x 1
die Anzahl der Lebendgeborenen, die zwischen ihrem x-ten und (x+1)-ten Geburtstag sterben. Der Einfachheit halber wird die Lebensdauer als diskretes Merkmal aufgefasst mit den Ausprägungen x (Anzahl der erreichten Lebensjahre) und den absoluten Häufigkeiten d x . Die Sterbeziffern sind die altersspezifischen Mortalitätsraten qx
d x / A x ( x = 0,..., Z ) .
Ein Wert q x drückt die Wahrscheinlichkeit aus, dass jemand, der seinen x-ten Geburtstag erlebt hat, vor seinem (x+1)-ten Geburtstag stirbt. Dabei ist Z das letzte in der Sterbetafel berücksichtige Alter. Man nimmt also an: A Z1 0 (oft wird Z 100 gesetzt). Die durchschnittliche Lebenszeit (oder Lebenserwartung) eines Neugeborenen lässt sich schätzen als:
12
253 12.4 Epidemiologische Maßzahlen
e0
1 1 2 A0
Z
¦A
(12.2)
x
x 1
Die Lebenserwartung eines x-jährigen berechnet sich analog als:
ex
1 1 2 Ax
Z
¦A
(12.3)
y
y x 1
Die Verteilungsfunktion F (x) gibt den relativen Anteil der Lebendgeborenen an, deren Sterbealter kleiner als x ist: F ( x) 1
Ax A0
für 0 d x d Z
(12.4)
Die Sterbetafel in Tabelle 12.1 (S. 254) beinhaltet – getrennt für männliche und weibliche Personen – die Lebenserwartungen zu Beginn des 20. Jahrhunderts im damaligen deutschen Reich. Bei neueren Sterbetafeln sind die Sterbeziffern und Lebenserwartungen nicht alle exakt (da einige Personen, deren Lebenserwartung aufgelistet ist, noch leben). Sie werden deshalb aufgrund von Erfahrungswerten aus vergangenen Jahren geschätzt. Mathematische Herleitung der Lebenserwartung Die Anzahl der Personen, die x Jahre alt werden (und vor dem (x+1). Geburtstag sterben), beträgt d x . Damit ist die mittlere Lebensdauer bei A 0 Lebendgeborenen leicht herleitbar als:
e0
Z
¦ x d x / A 0 . Nach der Definition von d x und
x 0
unter Berücksichtigung von A Z1
0 ergibt sich daraus: Z
e0
0( A 0 A1 ) 1( A1 A 2 ) 2(A 2 A 3 ) ... Z(A Z A Z1 ) A0
¦A
x
x 1
A0
Üblicherweise wird zu e0 der Term ½ addiert, da man annimmt, dass die Lebensdauer eines Menschen, der im Jahr nach seinem x-ten Geburtstag stirbt, durchschnittlich x 1 / 2 beträgt. Der Anteil der Lebendgeborenen, die maximal das Alter x erreichen, ist
x 1
¦d i 0
i
/ A0
(A 0 A x ) / A 0
1 A x / A 0 . Daraus folgt (12.4).
254
Kapitel 12 · Epidemiologische Studien
Tabelle 12.1: Sterbetafel aus den Jahren 1901/10, entnommen aus dem Statistischen Jahrbuch der Bundesrepublik Deutschland. Die Tafel enthält folgende Angaben: Anzahl A x der Personen, die das Alter x erreichen, Sterbeziffern qx 1000 und Lebenserwartung e x in Jahren.
x 0 1 2 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
männliche Bevölkerung bezogen auf 100.000 lebend geborene Personen Ax qx 1000 ex 100.000 202,34 44,82 79.766 39,88 55,12 76.585 14,92 56,39 74.211 5,28 55,15 72.827 2,44 51,16 72.007 2,77 46,71 70.647 5,04 42,56 68.881 5,13 38,59 67.092 5,56 34,55 65.104 6,97 30,53 62.598 9,22 26,64 59.405 12,44 22,94 55.340 16,93 19,43 50.186 23,57 16,16 43.807 32,60 13,14 36.079 47,06 10,40 27.136 69,36 7,99 17.586 106,40 5,97 8.987 157,87 4,38 3.212 231,60 3,18 683 320,02 2,35
weibliche Bevölkerung bezogen auf 100.000 lebend geborene Personen Ax qx 1000 ex 100.000 170,48 48,33 82.952 38,47 57,20 79.761 14,63 58,47 77.334 5,31 57,27 75.845 2,56 53,35 74.887 3,02 49,00 73.564 4,22 44,84 71.849 5,37 40,84 69.848 5,97 36,94 67.679 6,86 33,04 65.283 7,71 29,16 62.717 8,54 25,25 59.812 11,26 21,35 55.984 16,19 17,64 50.780 24,73 14,17 43.540 39,60 11,09 34.078 62,06 8,45 23.006 98,31 6,30 12.348 146,50 4,65 4.752 217,39 3,40 1.131 295,66 2,59
12 12.5
Fehlerquellen
Sowohl zufällige als auch systematische Fehler können ein Ergebnis beeinflussen. Systematische Fehler werden auch Bias genannt. 12.5.1 Zufällige Fehler Zufällige Fehler (random errors) sind durch die Variabilität der Studienteilnehmer bedingt. Man unterscheidet:
255 12.5 Fehlerquellen
12
ŷ Interindividuelle Variabilität. Bei mehreren Beobachtungseinheiten erhält man beim Messen eines bestimmten Parameters (z. B. des Blutdrucks) bekanntlich unterschiedliche Ergebnisse – auch dann, wenn die zu untersuchende Stichprobe eine weitgehend homogene Population darstellt. ŷ Intraindividuelle Variabilität. Selbst bei einer einzigen Beobachtungseinheit ergeben sich beim Messen einer Größe unter ähnlichen Bedingungen (etwa zu verschiedenen Zeitpunkten) unterschiedliche Werte. Da sich diese Variabilitäten nicht eliminieren lassen, sind zufällige Fehler generell nicht vermeidbar. Sie lassen sich aber bei einer sorgfältigen Versuchsplanung kontrollieren und reduzieren. Bei der Erörterung der Schätzmethoden in Kapitel 8 (S. 159 ff) wurde darauf hingewiesen, dass ein hoher Stichprobenumfang und eine geringe Streuung der Daten dazu beitragen, den zufälligen Fehler klein zu halten. Man sollte deshalb darauf achten, dass die Stichproben bezüglich wichtiger Einflussgrößen homogen sind. Dies lässt sich erreichen durch:
x Selektion oder Restriktion. Man rekrutiert die Studienteilnehmer nur aus einer bestimmten Subgruppe der Grundgesamtheit. Die Ergebnisse sind dann allerdings nur eingeschränkt auf diese spezielle Population übertragbar. x Stratifizierung (Schichten). Man fasst mehrere Beobachtungsein heiten, die sich bezüglich eines oder mehrerer Merkmale ähneln, in einer Schicht zusammen (etwa nach Geschlecht oder Alter). Innerhalb einer solchen homogenen Schicht ist der zufällige Fehler reduziert; Unterschiede in der Zielgröße sind dann klarer erkennbar. Der zufällige Fehler lässt sich anhand eines Konfidenzintervalls kontrollieren. Während der p-Wert die Irrtumswahrscheinlichkeit quantifiziert (also die Wahrscheinlichkeit dafür, dass ein nachgewiesener Effekt nur zufällig zustande gekommen ist), informiert das Konfidenzintervall über die Größe dieses Effekts. Je heterogener die Stichprobe ist, desto ungenauer ist die Schätzung und desto breiter › Abschnitt 8.3, S. 163 ff). Es ist von Vorist das Konfidenzintervall (z teil, wenn die Zielgröße exakt messbar ist und eine geringe Streuung aufweist.
256
Kapitel 12 · Epidemiologische Studien
12.5.2 Systematische Fehler Während zufällige Fehler das Ergebnis einer Studie unsicher machen, verfälschen systematische Fehler (Bias) ein Versuchsergebnis in eine bestimmte Richtung und verleiten zu fehlerhaften Schlüssen. Deshalb ist es sehr wichtig, Bias bei epidemiologischen Studien aufzuspüren bzw. durch ein geschicktes Studiendesign zu vermeiden. Man unterscheidet im Wesentlichen zwei Arten von Bias:
x Selektionsbias. Dieser Bias entsteht bei der Rekrutierung der Stu dienteilnehmer vor oder während der Studie. Er kann dazu führen, dass sich die Studienteilnehmer systematisch von der Population unterscheiden, die der Fragestellung zugrunde liegt. Ein solcher Fehler ist beispielsweise zu befürchten, wenn bestimmte Personen bevorzugt an einer Studie teilnehmen (Freiwilligen-Bias) oder die Teilnahme verweigern (Nonresponse-Bias), oder wenn Teilnehmer während einer laufenden Studie ausscheiden („Drop Outs“ oder Loss to follow up“). Diesen Bias kann man entgegenwirken, indem man bereits bei der Studienplanung darauf achtet, repräsentative Stichproben zu rekrutieren und während der Studie einen intensiven Kontakt zu allen Studienteilnehmern pflegt.
12
x Informationsbias. Dieser Bias entsteht bei der Informationsge winnung. Wenn fehlerhafte Daten der Einfluss- oder Zielvariablen erhoben werden, kann dies zu einer Verzerrung der Ergebnisse führen. Die Ursachen können vielfältig sein: Systematische Erfassungsfehler, Übertragungsfehler, uneinheitliche Methoden zur Informationsgewinnung, durch Erwartungshaltungen verursachte Fehleinschätzungen, lückenhafte Beobachtung der Studienteilnehmer, schlecht ausgefüllte Fragebögen zählen zu diesem Fehlertypus ebenso wie bewusst oder unbewusst falsche oder unvollständige Angaben der Studienteilnehmer. Standardisierte Erhebungsinstrumente und Plausibilitätskontrollen tragen dazu bei, diese Fehler zu vermeiden. Es versteht sich von selbst, dass die Messgeräte einwandfrei funktionieren müssen, die Messverfahren valide und die messende Person in der Lage sein sollte, die Messungen durchzuführen. i Die Qualität einer quantitativen Messmethode wird anhand dreier Gütez kriterien beurteilt: Die Reliabilität beschreibt, inwieweit Messwiederholungen, die unter identischen Bedingungen durchgeführt werden, identische Ergebnisse liefern. Die Objektivität gibt an, inwieweit die Messergebnisse von der messenden Person abhängen. Die Validität quantifiziert die Richtigkeit des Messinstruments. Es gibt spezielle statistische Verfahren (u. a. Bland-Altman-Analyse, S. 87), mit denen sich diese Kriterien überprüfen lassen.
257 12.5 Fehlerquellen
12
Informationsbias können auch beim Vergleich zweier Gruppen auftreten. Hier muss auf Beobachtungsgleichheit und Behandlungsgleichheit geachtet werden: Alle Studienteilnehmer müssen zeitgleich, von denselben Personen und mit denselben Untersuchungsmethoden beobachtet werden. Bei klinischen Studien müssen alle Patienten in gleicher Weise behandelt werden (abgesehen von der Therapieform). Hier ist die Blindung das Mittel der Wahl. Optimal ist eine doppelblinde Studie, bei der weder der untersuchende Arzt noch die Patienten über die Therapie im Einzelfall informiert sind › Abschnitt 15.1.4, S. 309 f). Dadurch sollen autosuggestive Ein(z flüsse auf beiden Seiten ausgeschaltet werden. Es ist ein Manko multizentrischer Studien, dass die Beobachtungs- und Behandlungsgleichheit nur eingeschränkt gewährleistet werden können. 12.5.3 Confounding Confounder sind verzerrende Störgrößen, die einen Zusammenhang verfälschen und somit adäquate Maßnahmen verhindern oder fehlleiten können. Confounder stehen in Zusammenhang mit der Einflussgröße und wirken sich damit indirekt auf die Zielgröße aus. Ein Beispiel mag dies verdeutlichen: Die Erkrankung an Down-Syndrom ist mit dem Geburtenrang assoziiert: Kinder mit Down-Syndrom haben oft mehrere ältere Geschwister, während erstgeborene Kinder weitaus seltener betroffen sind. Dieser Zusammenhang ist jedoch nicht kausal. Die eigentliche Ursache stellt das Alter der Mutter dar, das als Confounder sowohl mit dem Geburtenrang als auch mit dem Erkrankungsrisiko zusammenhängt. Neben dem Alter stellen das Geschlecht, Rauch- und Trinkgewohnheiten und der sozioökonomische Status häufig Confounder bei epidemiologischen Studien dar. Confounder können bewirken, dass sich zwei zu vergleichende Gruppen a priori in wesentlichen Charakteristika unterscheiden. Dieser Fall liegt beispielsweise dann vor, wenn Patienten bei einer Therapiestudie so verteilt werden, dass die Patienten der einen Gruppe nur leicht erkrankt und die Patienten der anderen Gruppe schwer erkrankt sind. Da der Schweregrad der Krankheit eine wichtige Determinante für die Wirkung einer Therapie ist, könnte ein Vergleich der beiden Gruppen zu falschen Schlussfolgerungen verleiten. Der Krankheitsstatus wäre ein Confounder, der einen Unterschied zwischen den beiden Therapiegruppen vortäuscht oder verzerrt. Ein Vergleich ist jedoch nur dann sinnvoll, wenn die Gruppen zu Beginn der Studie strukturgleich sind. Folgende Gegenmittel werden eingesetzt, um Confounder zu kontrollieren:
258
Kapitel 12 · Epidemiologische Studien
ŷ Randomisation (z› Abschnitt 15.1.3, S. 307): Bei dieser Methode (die vor allem bei klinisch kontrollierten Studien angewandt wird) erfolgt die Gruppenzuteilung allein durch den Zufall. Dadurch werden alle Störgrößen (also auch unbekannte) gleichmäßig verteilt. ŷ Matchen (z› Abschnitt 13.3.3, S. 272): Bei diesem Verfahren (das häufig bei Fall-Kontroll-Studien durchgeführt wird) wird zu jedem Fall eine passende Kontrolle gesucht, die bezüglich relevanter Faktoren (etwa sozioökonomischer Status oder Geschlecht) mit dem Fall übereinstimmt. Dies setzt freilich voraus, dass Confounder, nach denen gematcht wird, bekannt sind. ŷ Restriktion. Man beschränkt die Studie auf eine bestimmte Subgruppe und hält so den Confounder konstant. ŷ Multiple statistische Analyse. Confounder sollten als Covariable bei der statistischen Analyse berücksichtigt werden. Dies setzt freilich voraus, dass mögliche Confounder vorab bekannt sind und erfasst werden, und dass ein multiples statistisches Modell verwendet wird, mit dem erklärende Einflussgrößen zusammen mit möglichen Confoundern simultan analysiert werden. Es sei darauf hingewiesen, dass es mitunter schwierig ist, darüber zu befinden, ob eine Einflussgröße kausal mit der Zielgröße zusammenhängt oder ob der Zusammenhang durch einen Confounder vorgetäuscht wird. In Abschnitt 13.5 (S. 281 f) werden Kriterien genannt, mit denen sich Kausalitäten überprüfen lassen. Selektions- und Informationsbias sowie Confounding sind bei einer guten Versuchsplanung weitgehend vermeidbar. Insbesondere muss – wenn mehrere Gruppen zu vergleichen sind – unbedingt auf Beobachtungs- und Strukturgleichheit geachtet werden.
12 12.6
Die Studienplanung
12.6.1 Die Bedeutung der Planung Studien in der epidemiologischen und klinischen Forschung sind in der Regel mit einem hohen organisatorischen, zeitlichen und finanziellen Aufwand verbunden. Dies trifft – wenngleich in geringerem Maße – auch für Doktorarbeiten zu. Die Ergebnisse dieser Studien werden in der Regel publiziert und dienen anschließend zahlreichen Ärzten als Entscheidungshilfen bei der Behandlung ihrer Patienten. Es ist daher essenziell wichtig, dass die Ergebnisse valide sind.
259 12.6 Die Studienplanung
12
Die Güte und praktische Relevanz einer Studie lassen sich anhand von zwei Kriterien beurteilen:
x Interne Validität. Eine Studie ist intern valide, wenn deren Ergebnisse und die daraus gezogenen Schlussfolgerungen für die Personen, die an der Studie partizipierten, korrekt sind. Die interne Validität ist unbedingt notwendig, aber nicht hinreichend dafür, dass die Studie sinnvoll und praktisch relevant ist. x Externe Validität. Darunter versteht man die Generalisierbarkeit oder die Verallgemeinerbarkeit der Studienergebnisse. Ein Arzt, der die Ergebnisse einer Studie zur Kenntnis nimmt, möchte natürlich wissen, ob und inwieweit diese auf seine Patienten übertragbar sind. Eine Studie mit hoher interner Validität kann völlig in die Irre führen, wenn deren Ergebnisse auf die falschen Patienten übertragen werden. Daher stellt sich die Frage: Für welches Patientenkollektiv sind die Ergebnisse gültig? Kann man von der untersuchten Stichprobe (z. B. Patienten mit Psoriasis in einer bestimmten Klinik) auf die interessierende Grundgesamtheit schließen, und wie ist diese beschaffen (etwa Psoriasis-Patienten in ganz Deutschland, in Europa oder gar weltweit)? Bei solchen Schlussfolgerungen muss man sehr vorsichtig sein. Die interne und die externe Validität und damit die Anwendbarkeit einer Studie werden in hohem Maße von einer sorgfältigen und detaillierten Planung bestimmt. ! Der Imperativ einer guten Planung wird gerne vergessen, wenn es darum z
geht, schnell Ergebnisse für eine Dissertation oder eine attraktive wissenschaftliche Tagung zu bekommen. Es ist sicherlich einfach, eine bekannte Labormethode mechanisch an einer kleinen Stichprobe einzusetzen oder für eine so genannte „klinische Doktorarbeit“ ohne wesentliche Vorbereitungen staubige Krankenakten zu ziehen. Bei derlei Vorgehen kommen jedoch zumeist nur schlechte Studien heraus. Auch spektakuläre Ergebnisse einer neuen Labormethode können nur kurz über ein mangelhaftes Studiendesign hinwegtäuschen. Was nutzt es beispielsweise, Zytokinpolymorphismen zu untersuchen, wenn keine Klarheit über die Repräsentativität der gewählten Stichprobe besteht? Was nutzen Unmengen von aus Patientenakten entnommenen Daten, wenn keine Fragestellung vorgegeben ist oder sich die vorgegebene Fragestellung damit nicht beantworten lässt?
260
Kapitel 12 · Epidemiologische Studien
12.6.2 Komponenten der Planung Das Ziel einer Studie besteht im Allgemeinen darin, auswertbare Daten zu gewinnen, die dazu dienen, eine vorgegebene Fragestellung zu beantworten. Zu Beginn stehen folgende Überlegungen:
x Ziel der Studie. Zunächst ist zu klären: Wie lautet die Hauptfragestellung? Keine Studie sollte begonnen werden, wenn die exakte Fragestellung nicht bekannt ist. Aufbauend auf eigenen oder fremden Vorstudien muss dann die Fragestellung als Hypothese formuliert und theoretisch abgesichert werden.
12
x Ziel- und Einflussgrößen. Da die Einflussgrößen in funktionalem Zusammenhang zur Zielgröße stehen, resultieren Erkenntnisse bezüglich der Zielgröße aus den Einflussgrößen. Die Zielgröße selbst und die erklärenden Einflussgrößen ergeben sich inhaltlich aus der Fragestellung. Darüber hinaus ist es sinnvoll, wichtige Begleitmerk› Abschnitt 2.3.2, S. 23 ff), um Confounding zu male zu erfassen (z vermeiden. Natürlich ist es unmöglich, alle denkbaren Einflussgrößen zu erfassen. Bei deren Auswahl muss man abwägen zwischen dem, was wünschenswert ist und dem, was praktisch realisierbar erscheint. Je mehr Merkmale berücksichtigt werden, desto aufwendiger wird die Studie, desto komplexer sind die Analysemethoden und desto schwieriger gestaltet sich die Interpretation der Ergebnisse. Es ist deshalb sinnvoll, sich zunächst auf wenige Faktoren zu konzentrieren. Bekannte Confounder sollten bei der Datenanalyse berücksichtigt werden! Außerdem ist es wichtig, alle Ziel- und Einflussgrößen und deren Eigenschaften (u. a. die Skalenniveaus) genau anzugeben. Antworten auf all diese Fragen sind nicht zuletzt abhängig davon, ob die Daten bereits vorliegen (wie bei retrospektiven Studien) oder erst nach Studienbeginn erhoben werden (wie bei den meisten prospektiven Studien). x Wahl eines statistischen Modells. Jede Analysemethode ist nur unter einschränkenden Voraussetzungen anwendbar; es werden also bestimmte Eigenschaften der zu untersuchenden Merkmale angenommen. Ein statistisches Modell kann die Wirklichkeit zwar niemals vollständig widerspiegeln; es sollte sie aber unter bestmöglicher Ausnutzung aller zur Verfügung stehenden Informationen optimal beschreiben. Der Anwender eines statistischen Verfahrens muss sich im Vorfeld überlegen, ob dessen Voraussetzungen erfüllt sind und ob die Hypothesen der inhaltlichen Fragestellung angemessen sind.
261 12.6 Die Studienplanung
12
Ein multiples Modell, bei dem mehrere Einflussgrößen simultan ausgewertet werden, ermöglicht eine effizientere Datenanalyse und liefert weit mehr Erkenntnisse als zahlreiche einfache Tests, die lediglich den Zusammenhang zwischen zwei Merkmalen überprüfen. Bei der technischen Umsetzung einer komplexen Methode ist ein leistungsstarkes Statistikprogramm notwendig und sinnvoll. Bei der Datenanalyse und der Interpretation der Ergebnisse sind sowohl medizinische als auch biomathematische Fachkenntnisse gefragt. Es empfiehlt sich daher, frühzeitig den Rat eines Biomathematikers einzuholen.
x Ethik. Nicht alles, was unter statistischen Gesichtspunkten sinn voll und machbar ist, ist auch ethisch vertretbar. Deshalb müssen Studien, bei denen Patienten oder gesunde Probanden involviert sind (insbesondere randomisierte Therapiestudien), von einer Ethikkommission begutachtet werden. x Logistische Überlegungen. Ist die Studie unter den vorgegebenen Bedingungen durchführbar? Stehen genügend Ressourcen an Zeit, Geld, Personal etc. zur Verfügung? Kann die Anzahl der benötigten Patienten in absehbarer Zeit rekrutiert werden? Sind die notwendigen Messgeräte vorhanden und funktionieren sie einwandfrei? Planungsfehler können zu einem späteren Zeitpunkt kaum noch korrigiert werden. Deshalb ist es extrem wichtig, die oben angesprochenen Fragen im Vorfeld zu beantworten. ! Diese Tipps mögen sich bitte auch Doktoranden zu Herzen nehmen. Es z
kommt leider immer wieder vor, dass Studenten mit großem Eifer eine Dissertation beginnen und dann nach etlichen Monaten oder sogar Jahren feststellen, dass die Arbeit so wie vorgesehen nicht durchzuführen ist. Nur mit einer guten Versuchsplanung (und einem kompetenten Betreuer) lässt sich ein solches Desaster vermeiden. Detaillierte und nützliche Informationen zu diesem Thema findet man in [14].
262
Kapitel 12 · Epidemiologische Studien
Übersicht 6: Studientypen Studientypus Risikostudie
Diagnosestudie Präventionsstudie Therapiestudie
Prognosestudie
Einflussgrößen Risikofaktoren (z. B. Umweltfaktoren, genetische oder verhaltensbedingte Faktoren) Krankheitsstatus präventive Maßnahme (Impfen oder Screening) Therapieform (Arznei, chirurg. Eingriff, Diät)
Krankheit oder andere prognostische Faktoren
Zielgrößen
Abschnitt
Krankheit, Tod
Kap. 13
Ergebnis eines diagnostischen Tests
14.1
Krankheit
14.2
Wirkung einer Therapie Endzustand (Heilung, Remission, Progression, Tod); Zeit bis zum Eintreten eines Ereignisses
Zusammenfassung Kapitel 12 Studiendesigns: ŷ deskriptiv - analytisch ŷ transversal - longitudinal ŷ retrospektiv - prospektiv ŷ beobachtend - experimentell ŷ monozentrisch – multizentrisch
12
Epidemiologische Maßzahlen: ŷ Punktprävalenz (relativer Krankenbestand) ŷ Periodenprävalenz ŷ Inzidenz (Neuerkrankungsrate) ŷ Mortalität (Sterberate bezogen auf eine Population) ŷ Letalität (Sterberate bezogen auf die Erkrankten) Fehlerquellen bei epidemiologischen Studien: ŷ zufällige Fehler (random error) ŷ Selektionsbias ŷ Informationsbias ŷ Confounding
15.1
15.2
13
Risikostudien 13.1
Einleitung 265
13.1.1
Die Bedeutung von Risikostudien 265
13.1.2
Wichtige Begriffe 266
13.2
Deskriptive Studien 268
13.2.1
Fallberichte 268
13.2.2
Fallserien 268
13.2.3
Prävalenzstudien 269
13.2.4
Populationsstudien 269
13.3
Fall-Kontroll-Studien 270
13.3.1
Grundlagen 270
13.3.2
Auswahl der Fälle und der Kontrollen 270
13.3.3
Matchen 272
13.3.4
Bias 273
13.3.5
Die Odds Ratio 274
13.3.6
Anwendungen und Grenzen 275
13.4
Kohortenstudien 275
13.4.1
Grundlagen 275
13.4.2
Effektmaße 276
13.4.3
Inzidenzmaße 278
13.4.4
Bias 279
13.4.5
Spezielle Kohortenstudien 280
13.5
Der Nachweis einer Kausalität 281
265 13.1 Einleitung
13.1
13
Einleitung
13.1.1 Die Bedeutung von Risikostudien Viele Menschen haben ein großes Interesse daran zu erfahren, welchen potentiellen Risikofaktoren sie ausgesetzt sind und wie hoch gegebenenfalls ihr persönliches Risiko ist, eine bestimmte Krankheit zu entwickeln. Für den Arzt kann die Kenntnis möglicher Risikofaktoren eines Patienten in mehrfacher Weise von Nutzen sein:
ŷ Vorhersage. Falls ein gesicherter Zusammenhang zwischen einer Krankheit und einem ätiologischen Faktor besteht, lässt sich im Einzelfall die Wahrscheinlichkeit für das Eintreten einer Krankheit abschätzen. ŷ Prävention. Sollte es sich um ein vermeidbares Risiko handeln (z. B. Nikotinabusus), kann der Arzt dem Patienten raten, seine Lebensweise zu ändern. Andernfalls (z. B. bei einem genetisch bedingten Faktor) kann er Vorsorgemaßnahmen treffen, um dessen Auswirkungen zu kontrollieren oder abzuschwächen. ŷ Diagnose. Die Kenntnis, welcher Risikogruppe ein Patient ange› hört, kann in einem diagnostischen Prozess sehr wichtig sein (z Beispiel 14.1, S. 290). Das Wissen um Faktoren, die mit einer Krankheit assoziiert sind, ist nicht zuletzt von gesundheitspolitischem Interesse. Falls eine größere Population einem Risikofaktor ausgesetzt ist, kann dessen Beseitigung maßgeblich dazu beitragen, das Auftreten neuer Krankheitsfälle zu verhindern. Ignaz Philipp Semmelweis gelang es beispielsweise um die Mitte des 19. Jahrhunderts, durch hygienische Maßnahmen die durch Kindbettfieber verursachte Mortalität drastisch zu senken (das Personal musste sich mit Chlorkalk die Hände desinfizieren). John Snow sorgte um das Jahr 1850 durch die Schließung eines Brunnens dafür, dass die Bewohner eines Londoner Bezirks nicht mehr an Cholera erkrankten. Der Zusammenhang zwischen einer Erkrankung und einem Risikofaktor ist jedoch meist nicht so klar und eindeutig. Die meisten Krankheiten haben multiple Ursachen, und ein einzelner Faktor (z. B. Rauchen) begünstigt nicht nur das Auftreten einer, sondern diverser Krankheiten. Andere Gründe liegen in der mitunter langen Zeitdauer, die zwischen Exposition und Ausbruch der Krankheit vergeht (z. B. bei Krebs) oder deren geringer Inzidenz. Ein praktisch tätiger Arzt ist daher auf Studien angewiesen, in denen der Einfluss eines Risikofaktors untersucht und beschrieben wird.
266
Kapitel 13 · Risikostudien
13.1.2 Wichtige Begriffe Zunächst soll die Bedeutung einiger häufig verwendeter Begriffe dargelegt werden. x Risiko. Darunter versteht man die Wahrscheinlichkeit eines unerwünschten Ereignisses. Häufig benutzte Risiken in der Medizin › Abschnitt 12.4.1, S. 248 f). sind die Inzidenz und die Mortalität (z x Exposition. Eine Person gilt als exponiert, wenn sie mit einem Risikofaktor in Kontakt gekommen ist oder mit ihm behaftet ist. Die Exposition kann zu einem bestimmten Zeitpunkt stattfinden (z. B. Kontakt mit einem Infektionserreger); sie kann sich aber auch über einen längeren Zeitraum oder die gesamte Lebenszeit eines Menschen erstrecken. Beispiele hierfür sind Jahre langer Zigarettenkonsum oder die Expression eines Gens, das das Auftreten einer bestimmten Krankheit begünstigt. x Risikofaktoren oder ätiologische Faktoren. Dies sind Merkmale, die mit einem erhöhten Erkrankungsrisiko kausal assoziiert sind. Sie stellen immer eine Ursache für die Krankheit dar. Risikofaktoren können erblich sein oder aus dem Umfeld stammen (etwa Erreger von Infektionskrankheiten oder Umweltgifte). Andere sind sozial geprägt (z. B. psychische Belastungen) oder verhaltensbedingt (z. B. Rauchen, Alkoholkonsum). Durch das Eliminieren des Risikofaktors wird das Erkrankungsrisiko reduziert. x Risikoindikatoren. Dies sind Merkmale, die mit einem erhöhten Erkrankungsrisiko assoziiert sind, die aber nicht ursächlich zum › Beispiel 13.1). Ausbruch der Krankheit beitragen (z
13
Beispiel 13.1: Risikofaktor und Risikoindikator Alkohol ist als Risikofaktor für das Auftreten einer Psoriasis (Schuppenflechte) identifiziert. Ein mit dem Alkoholkonsum assoziierter Faktor ist der Nikotinkonsum. Wenn in einer Fall-Kontroll-Studie nachgewiesen wird, dass Nikotinkonsum in Zusammenhang mit Psoriasis steht, mag es nahe liegend erscheinen, diese Assoziation als kausal anzusehen. In Wirklichkeit ist das Rauchen jedoch nur ein Risikoindikator. Präventionsmaßnahmen, die auf eine Verringerung des Nikotinkonsums ausgelegt wären, würden nicht zu einer Reduktion der Neuerkrankungen an Psoriasis führen.
Das Entstehen einer Krankheit ist in den seltensten Fällen monokausal. Fast immer tragen mehrere Ursachen zum Entstehen einer Krankheit bei. Man unterscheidet:
267 13.1 Einleitung
13
ŷ Notwendige Ursache. Ein Risikofaktor stellt eine notwendige Ursache dar, wenn ohne ihn die relevante Krankheit nicht ausbrechen kann. So ist beispielsweise das HIV eine notwendige Ursache für den Ausbruch von AIDS; eine Infektion mit onkogenen Humanen Papillomaviren gilt als notwendige Ursache für das Entstehen eines Zervixkarzinoms. Wenn es gelingt, eine notwendige Ursache zu beseitigen, wird der Ausbruch einer Krankheit verhindert. ŷ Hinreichende Ursache. Deren Vorhandensein ruft eine Krankheit unweigerlich hervor. ŷ Teilursache. Meist besteht eine hinreichende Ursache aus mehreren Teilursachen, die zusammentreffen müssen, damit es zum Krankheitsausbruch kommt. Eine einzelne Teilursache führt jedoch in aller Regel nicht zum Ausbruch der Krankheit. Typische Teilursachen sind das Alter, unzureichende medizinische Versorgung oder ein schwaches Immunsystem. Wenn eine Teilursache beseitigt wird, wird das Erkrankungsrisiko reduziert. ŷ Latenzzeit (Inkubationszeit). Diese Begriffe beziehen sich auf Infektionskrankheiten. Man versteht darunter die symptomlose Zeit, die von der Ansteckung bis zum Krankheitsausbruch vergeht. ŷ Induktionsperiode. Dies ist die Zeitdauer, die zwischen dem Auftreten einer Teilursache und der manifesten Erkrankung vergeht. Häufig wird diese Zeitspanne als Latenzzeit bezeichnet. Dies ist nicht ganz korrekt: Eine Induktionsperiode bezieht sich auf eine bestimmte Teilursache; die Latenzzeit ist mit einer bestimmten Krankheit assoziiert. Beispiel 13.2: Notwendige und hinreichende Ursachen Eine nicht-immune Person, die mit dem Masernvirus in Kontakt kommt, wird unweigerlich an Masern erkranken. Daher bilden diese beiden Faktoren zusammen eine hinreichende Ursache für den Ausbruch der Krankheit. Jeder einzelne Faktor stellt eine Teilursache dar. Der Kontakt mit dem Masernvirus ist außerdem eine notwendige Ursache, denn ohne diesen Kontakt kann ein Mensch nicht an Masern erkranken. Rauchen stellt bekanntlich ein Risikofaktor für das Entstehen eines Lungenkarzinoms dar. Diese Ursache ist aber weder notwendig (denn es gibt auch Nichtraucher, die an Lungenkrebs erkranken) noch hinreichend (manche Zeitgenossen rauchen bis an ihr Lebensende, ohne je ein Karzinom zu entwickeln). Die Induktionsperiode kann einige Jahrzehnte dauern.
268
13.2
Kapitel 13 · Risikostudien
Deskriptive Studien
13.2.1 Fallberichte Ein Fallbericht ist eine ausführliche Beschreibung eines interessanten Einzelfalls oder einiger weniger Fälle. Er eignet sich:
ŷ um Krankheitsbilder, die erstmals beobachtet werden, einer akademischen Öffentlichkeit vorzustellen,
ŷ um einen Hinweis auf einen möglichen Risikofaktor der beschriebenen Erkrankung zu geben,
ŷ um ungewöhnliche oder typische Manifestationen einer Krankheit zu beschreiben. Fallberichte beinhalten bedingt durch die niedrige Patientenanzahl keine statistische Analyse. Dem Leser eines solchen Berichts fällt es mitunter schwer zu beurteilen, ob hier eine relevante Neuentdeckung oder nur ein zufälliges Aufeinandertreffen mehrerer seltener Ereignisse beschrieben wird. Diverse Krankheitsbilder wurden aufgrund eines Fallberichts bekannt. So gab es in den 1980er Jahren aufgrund eines Berichtes über das Auftreten von Kaposisarkomen bei jungen männlichen Homosexuellen in New York erste Hinweise auf eine neue Infektion. Demnach können Fallberichte Anhaltspunkte auf mögliche Zusammenhänge zwischen einem Krankheitsbild und einem potentiellen Risikofaktor liefern – insbesondere dann, wenn aufgrund eines solchen Berichts weitere, ähnlich gelagerte Fälle bekannt werden. Der vermutete Zusammenhang muss dann im Rahmen einer nachfolgenden analytischen Studie überprüft werden. 13.2.2 Fallserien
13
Eine Fallserie unterscheidet sich von einem Fallbericht durch die Anzahl der involvierten Patienten. Es handelt sich um eine einfache deskriptive Studie an einer größeren Gruppe von Personen, die an einer bestimmten Krankheit leiden und darüber hinaus einige Besonderheiten aufweisen. So hat beispielsweise im Jahre 1941 ein Chirurg aus New Orleans namens Alton Ochsner (1896-1981) eine Fallserie veröffentlicht, in der er nachwies, dass fast alle in den USA an Lungenkrebs operierten Patienten Raucher waren. Er stellte daraufhin die Hypothese auf, dass Rauchen mit Lungenkrebs assoziiert sei. Dies war damals eine umstrittene Aussage, die mittlerweile aufgrund weiterer Studien eindrucksvoll bestätigt wurde.
269 13.2 Deskriptive Studien
13
Dieses Beispiel zeigt, dass Fallserien durchaus in der Lage sind, Hypothesen zu generieren. Es ist auch möglich, einfache statistische Maßzahlen zu ermitteln. Das große Manko von Fallserien ist das Fehlen einer Vergleichsgruppe. Ochsner konnte nur aufgrund der ihm bekannten Tatsache, dass andere Leute weit weniger rauchen als die von ihm beschriebenen Patienten, seine Hypothese aufstellen. Allerdings reichen zu deren Bestätigung Fallserien nicht aus. 13.2.3 Prävalenzstudien Eine Prävalenzstudie ist eine Querschnittstudie, in der bei jedem Teilnehmer erfasst wird, ob er an einer bestimmten Erkrankung leidet und ob er exponiert ist. Ein Beispiel bestünde darin, die Mitglieder einer Population danach zu untersuchen, ob sie eine koronare Herzkrankheit haben und ob gleichzeitig ihr Blutdruck erhöht ist. Der Anteil der Erkrankten entspricht der Prävalenz. Man kann mit einer geeigneten Analysemethode (z. B. einem Chi2-Test) untersuchen, ob ein statistischer Zusammenhang zwischen der Exposition und der Krankheit besteht und diesen mittels eines Assoziations› Abschnitt 3.3.2, S. 50). maßes wie der Odds Ratio quantifizieren (z Wenn eine Assoziation nachgewiesen wird, sollte dieses Ergebnis jedoch vorsichtig interpretiert werden:
ŷ Die Prävalenz ist kein Maß für das Risiko, die Krankheit zu entwickeln.
ŷ Es werden nur Personen erfasst, die die Krankheit überlebt haben. Todesfälle bleiben unberücksichtigt. Fälle, bei denen ein schneller Heilerfolg eintritt, sind meist unterrepräsentiert. Die Prävalenz einer Krankheit wird deshalb oft unterschätzt. ŷ Mit dieser Studienform lässt sich nicht direkt nachweisen, dass die Exposition der Krankheit vorausging. Prävalenzstudien sind überwiegend deskriptiv. Sie sind keineswegs ausreichend, zeitliche oder kausale Zusammenhänge abzusichern; sie können allenfalls Hinweise liefern. In erster Linie eignen sie sich zur Erfassung von chronischen Krankheiten. 13.2.4 Populationsstudien Populationsstudien unterscheiden sich von anderen Risikostudien dadurch, dass nicht Individuen, sondern Gruppen oder Länder die Beobachtungseinheiten darstellen. Andere Bezeichnungen sind aggregative, ökologische oder Korrelationsstudien. Ein Beispiel stellt eine Studie dar, in der nachgewiesen wurde, dass eine
270
Kapitel 13 · Risikostudien
gegensinnige Korrelation zwischen dem Weinkonsum eines Landes und der kardialen Mortalität besteht. In Italien und in Frankreich, wo traditionsgemäß viel Wein getrunken wird, ist diese Mortalität wesentlich niedriger als etwa in Australien und den USA, wo der Weinkonsum deutlich geringer ist. Populationsstudien können Hinweise auf mögliche Zusammenhänge geben. Rückschlüsse auf Individuen sind jedoch äußerst problematisch, da Confounding nicht ausgeschlossen werden kann.
13.3
Fall-Kontroll-Studien
13.3.1 Grundlagen Bei diesem Studientypus werden Fälle (Patienten, die an einer bestimmten Krankheit leiden) und Kontrollen (Personen, die von dieser Krankheit nicht betroffen sind) bezüglich eines oder mehrerer ätiologischer Faktoren miteinander verglichen. Fall-Kontroll-Studien sind retrospektiv und analytisch. Die Untersucher eruieren durch Befragungen, anhand von Patientenakten oder dokumentierten Laborbefunden für jeden Fall und für jede Kontrolle, ob die betreffende Person in der Vergangenheit exponiert war. Es bietet sich an, nicht nur einen, sondern mehrere potentielle Risikofaktoren zu untersuchen. 13.3.2 Auswahl der Fälle und der Kontrollen
13
Die Fälle werden meist aus Kliniken oder aus Arztpraxen rekrutiert. Es ist sinnvoll, neu diagnostizierte Fälle in die Studie aufzunehmen (Inzidenzfälle). Wenn die Patienten bereits seit längerer Zeit erkrankt sind (Prävalenzfälle), besteht die Gefahr, dass überwiegend Langzeitüberlebende berücksichtigt werden. Es ist ferner wichtig, darüber nachzudenken, für welche Population die Fallgruppe repräsentativ ist. Die Auswahl der Kontrollen ist weitaus schwieriger. Einerseits sollten die Kontrollen den Fällen ähneln, damit Vergleiche zwischen den Gruppen sinnvoll erscheinen. Andererseits sollte die Kontrollgruppe repräsentativ für alle nicht erkrankten Personen der Population sein, um Rückschlüsse zu ermöglichen. Selbstverständlich darf unter den Kontrollen niemand an der zu untersuchenden Krankheit leiden. Es wurden mehrere Strategien entwickelt, um Kontrollen zu rekrutieren:
271 13.3 Fall-Kontroll-Studien
13
ŷ Populationsbasierter Ansatz. Die Kontrollen wählt man aus der Allgemeinbevölkerung. Im Idealfall geschieht dies in Form einer Zufallsstichprobe, etwa anhand zufällig ausgewählter Telefonnummern. Problematisch ist jedoch, dass diese Personen im Allgemeinen wenig Interesse an der Studie haben und daher häufig nicht kooperativ sind. Ferner ist zu bedenken, dass diese Kontrollen zwar repräsentativ für die Allgemeinbevölkerung sein mögen, dass sie aber nicht ohne weiteres mit den Fällen vergleichbar sind. ŷ Krankenhausbasierter Ansatz. Diese Form bietet sich an, wenn es sich bei den Fällen um Patienten eines Krankenhauses handelt. Die Kontrollen werden in der Regel nicht zufällig aus den Krankenhaus-Patienten ausgewählt. Man versucht vielmehr › Abschnitt 13.3.3, S. 272) zu erreichen, dass durch Matchen (z sich die Gruppen der Fälle und der Kontrollen bezüglich wichtiger Einflussfaktoren ähneln. Bei diesem Ansatz ist darauf zu achten, dass die Diagnose der Kontrollen mit dem zu untersuchenden Risikofaktor nicht assoziiert sein sollte. Wenn etwa ein Zusammenhang zwischen einer Krebsart und Rauchen nachgewiesen werden soll und als Kontrollgruppe Patienten mit koronarer Herzkrankheit gewählt würden, könnten sich unter den Kontrollen (ebenso wie unter den Fällen) überdurchschnittlich viele Raucher befinden. Es wäre dann schwierig, den interessierenden Zusammenhang abzusichern. Allerdings stellt sich beim Krankenhaus-basierten Ansatz das Problem, dass die Kontrollen nicht unbedingt repräsentativ für die Allgemeinbevölkerung sind. Eine weitere Schwierigkeit entsteht mitunter dadurch, dass nicht alle Krankenhausärzte motiviert sind, ihre Patienten als Kontrollen zur Verfügung zu stellen und die Kontrollen selbst mitunter wenig Interesse an der Studie zeigen. ŷ Kontrollen aus dem Umfeld der Fälle. Manchmal ist es sinnvoll, zu jedem Fall den Partner, ein Geschwister oder einen Freund als Kontrollperson heranzuziehen. Es ist anzunehmen, dass diese Kontrollen in vielen Eigenschaften mit dem passenden Fall über› paarweises Matching, Abschnitt 13.3.3, S. 272) einstimmen (z und außerdem eine größere Kooperationsbereitschaft zeigen. ŷ Mehrere Kontrollgruppen. Eine andere Strategie besteht darin, mehrere Kontrollgruppen unterschiedlicher Herkunft zu wählen und diese Kontrollen miteinander zu vergleichen. Systematische Fehler aufgrund der Auswahl der Kontrollen sind dann eher erkennbar. Diese Vorgehensweise ist freilich entsprechend aufwendig.
272
Kapitel 13 · Risikostudien
13.3.3 Matchen Eine potentielle Schwierigkeit bei Fall-Kontroll-Studien ist gegeben, wenn sich die beiden Gruppen – Fälle und Kontrollen – außer bezüglich der zu untersuchenden Risikofaktoren in anderen wichtigen Eigenschaften unterscheiden. Wenn beispielsweise die Fälle im Durchschnitt wesentlich älter sind als die Kontrollen und außerdem häufiger einer Exposition ausgesetzt waren, lässt sich nicht zweifelsfrei erkennen, ob die Krankheit durch die Exposition oder durch das höhere Alter verursacht wurde. Dieses Problem kann dadurch gelöst werden, dass nach wichtigen Kriterien (z. B. dem Alter) gematcht wird. Man unterscheidet: x Paarweises (individuelles) Matching. Dabei wird für jeden Einzelfall eine passende Kontrolle gesucht, die mit dem Fall in einigen relevanten Merkmalen übereinstimmt. Auf diese Weise erhält man strukturgleiche Gruppen bezüglich der gematchten Merkmale. Diese Methode wird üblicherweise angewandt, wenn die Kontrollen aus Krankenhauspatienten ausgewählt werden. Häufig erfolgt die paarweise Zuordnung nach Geschlecht und Alter. Wenn Geschwister als Kontrollen herangezogen werden, wird automatisch nach genetischen Faktoren gematcht. Bei Partnern als Kontrollen wird nach sozio-ökonomischen Status gematcht. x Gruppen-Matching. Bei diesem Ansatz wird die Kontrollgruppe so zusammengestellt, dass die Häufigkeitsverteilungen eines bestimmten Merkmals bei den Fällen und den Kontrollen annähernd identisch sind. Wenn beispielsweise die Gruppe der Fälle aus 70% Männern besteht, versucht man, eine Kontrollgruppe zu rekrutieren, bei denen der Anteil der Männer ebenso hoch ist. Die Faktoren, nach denen sinnvollerweise gematcht wird, sind abhängig von der Fragestellung. Folgendes ist zu beachten:
13
ŷ Praktische Probleme entstehen, wenn nach zu vielen Faktoren gematcht werden soll. Es ist dann schwierig oder gar vollkommen unmöglich, passende Kontrollen zu rekrutieren. ŷ Konzeptionelle Probleme ergeben sich dadurch, dass ein Merkmal, nach dem gematcht wurde, nicht mehr als potentieller Risikofaktor evaluiert werden kann. Wenn beispielsweise in der Fallund der Kontrollgruppe die Altersverteilung identisch ist, kann nicht mehr überprüft werden, ob das Alter in Zusammenhang mit der Krankheit steht. Deshalb sollte nur nach bereits bekannten Risikofaktoren gematcht werden.
273 13.3 Fall-Kontroll-Studien
13
13.3.4 Bias Fall-Kontroll-Studien sind anfällig für diverse systematische Fehler:
ŷ Selektionsbias. Dieser Fehler tritt auf, wenn sich die Fall- und die Kontrollgruppe in wesentlichen Eigenschaften (außer der zu untersuchenden Krankheit) unterscheiden. Dies könnte das Endresultat der Studie entscheidend beeinflussen. Matching ist eine Methode, diesem Bias zu begegnen. Falls dies nicht möglich ist, sollte man versuchen, diesen Bias durch eine geschickte statistische Analyse aufzudecken. ŷ Informations-Bias 1. Eine Fall-Kontroll-Studie birgt in sich die Gefahr eines Recall-Bias, eine besondere Form des Informationsbias. Dieser Bias betrifft das unterschiedliche Erinnerungsvermögen von Fällen und Kontrollen: Fälle, die von der Krankheit unmittelbar betroffen sind, können sich an zurückliegende Ereignisse oft wesentlich besser erinnern als Kontrollen. Eine › Beispiel Mutter, die ein krankes Kind zur Welt gebracht hat (z 13.3), wird sich etwa an außergewöhnliche Ereignisse zu Beginn ihrer Schwangerschaft wesentlich besser entsinnen als eine Mutter mit einem gesunden Baby, die derlei Vorkommnisse möglicherweise längst vergessen hat. Dies könnte zu einer Überschätzung eines Risikofaktors führen. Beispiel 13.3: Fall-Kontroll-Studie Wir betrachten eine hypothetische Studie, in der 50 Frauen, die ein krankes Baby zur Welt gebracht haben (Fälle), befragt werden, ob sie zu Beginn ihrer Schwangerschaft ein bestimmtes Medikament eingenommen hatten. Ihnen werden 50 Frauen gegenübergestellt, die ein gesundes Baby geboren haben (Kontrollen), und ebenfalls befragt. Es ergibt sich folgendes Bild: Da es sich um zwei verbundene Stichproben handelt, berechnet man: Fälle Kontrollen exponiert OR b / c 9,333 (Abschnitt exponiert ja nein 13.3.5). Dies impliziert, dass Frauen, ja a=7 b = 28 die dem Risikofaktor ausgesetzt wanein c=3 d = 12 ren, ein 9,3-fach erhöhtes Risiko hatten. Das Konfidenzintervall erstreckt sich zwischen 2,8 und 30,7. Mit dem McNemar-Test erhält man p 0,0001 . Damit ist der Zusammenhang zumindest statistisch abgesichert.
274
Kapitel 13 · Risikostudien
ŷ Informations-Bias 2. Eine andere Art von Informationsbias liegt vor, wenn Partner oder Freunde als Kontrollen fungieren oder anstelle der Fälle (z. B. nach deren Tod) befragt werden. Sie tendieren häufig dazu, negative Eigenschaften „ihres Falles“ absichtlich zu verschweigen oder zu verharmlosen. Auch betroffene Fälle geben nicht immer uneingeschränkt die Wahrheit preis – etwa wenn ihnen Fragen gestellt werden, die sie als peinlich empfinden. ŷ Confounding. Diese Gefahr ist bei Fall-Kontroll-Studien besonders groß. Wenn ein statistischer Zusammenhang zwischen einer Krankheit und einem Faktor nachgewiesen wird, folgt daraus nicht notwendigerweise, dass dieser Zusammenhang kausal ist. Es › Beispiel 13.1, könnte sich um einen Risikoindikator handeln (z S. 266). 13.3.5 Die Odds Ratio x Statistische Analyse. Im einfachsten Fall untersucht man den Zu sammenhang zwischen zwei Alternativmerkmalen. Geeignete Methoden, um einen solchen Zusammenhang abzusichern, sind der › Abschnitte 11.1.1, Chi2-Vierfeldertest oder Fisher’s exakter Test (z S. 219 ff und 11.2.2, S. 235 f). Bei Fall-Kontroll-Studien ist es üblich, zusätzlich die Odds Ratio als Annäherung für das relative Risiko an› Abschnitt 3.3.2, S. 50). gegeben (z ! Das relative Risiko lässt sich bei Fall-Kontroll-Studien nicht direkt ermitz
teln, da die Ausgangsgruppen nach dem Krankheitsstatus und nicht nach der Exposition gebildet werden. Deshalb können absolute Risiken für Exponierte und Nicht-Exponierte nicht bestimmt werden.
13
Bei paarweisem Matchen verwendet man anstelle des Vierfeldertests › Abschnitt 11.1.6, S. 228 f). Die Odds Ratio den McNemar-Test (z wird in diesem Fall als der Quotient b / c bestimmt (wobei b die Anzahl der Paare, bei denen nur der Fall exponiert ist und c die Anzahl der Paare, bei denen nur die Kontrolle exponiert ist). Die Odds Ratio ist 1, falls kein Zusammenhang zwischen der Erkrankung und der Exposition besteht. Sie ist größer als 1, wenn mehr Fälle als Kontrollen exponiert sind. Um beurteilen zu können, ob der Zusammenhang signifikant und epidemiologisch relevant ist, sollten zusätzlich ein Konfidenzintervall angegeben und der p-Wert ermittelt werden.
275 13.4 Kohortenstudien
13
Wenn mehr als ein potentieller Risikofaktor zu analysieren ist, bietet › Abschnitt 11.2.3, S. 236 f) an. sich die Logistische Regression (z Diese multiple Methode ist insbesondere bei Fall-Kontroll-Studien sehr mächtig:
ŷ Mehrere Einflussgrößen (qualitative und auch quantitative wie etwa das Alter) können simultan analysiert werden;
ŷ die Wirkung einer Einflussgröße lässt sich adjustieren (so können mögliche Confounder erkannt werden);
ŷ für jede Einflussgröße lässt sich die dazugehörende Odds Ratio mit Konfidenzintervall berechnen. 13.3.6 Anwendungen und Grenzen Fall-Kontroll-Studien sind unverzichtbar für die Erforschung von Risikofaktoren. Ein immenser Vorteil liegt darin, dass man nicht Jahre oder Jahrzehnte lang warten muss, bis man genügend „Fälle“ rekrutiert hat, sondern auf bereits erkrankte Personen zurückgreifen kann. Ergebnisse liegen deshalb relativ schnell vor. Dies ist besonders wichtig bei Risikofaktoren mit langer Induktionsperiode und Krankheiten mit geringer Inzidenz. Die Nachteile liegen wie bei allen retrospektiven Studien in der eventuell mangelhaften Datenqualität. Außerdem sind Fall-Kontroll-Studien sehr anfällig für Bias verschiedener Art. Die Odds Ratio ist eine Annäherung für das relative Risiko, falls die Inzidenz der Erkrankung gering ist (maximal 1%). Diese Bedingung ist glücklicherweise bei vielen Krankheiten, die mit Fall-Kontroll-Studien untersucht werden, erfüllt. Bei Kohortenstudien, die von Exponierten und Nicht-Exponierten ausgehen, › Abschnitt lassen sich wesentlich mehr Effektmaße berechnen (z 13.4.2, S. 276 ff).
13.4
Kohortenstudien
13.4.1 Grundlagen Eine Kohortenstudie ist eine prospektive, longitudinale Studie (auch Follow-Up-Studie genannt), bei der eine große Gruppe (Kohorte) von Personen, die in unterschiedlicher Weise exponiert und nicht erkrankt sind, eine Zeit lang beobachtet wird. x Vorteile. Anhand des Beispiels 13.4 (S. 276) werden die Vorteile einer Kohortenstudie unmittelbar deutlich:
276
Kapitel 13 · Risikostudien
ŷ Man kann die Inzidenzen für exponierte und nicht-exponierte Personen direkt ermitteln und vergleichen. Deshalb werden diese Studien auch als Inzidenzstudien bezeichnet. ŷ Die Studie folgt derselben Logik wie die klinische Fragestellung: Man geht von den Einflussgrößen aus, wartet ab und analysiert schließlich, bei welchen Personen und zu welchem Zeitpunkt die Krankheit eintritt. ŷ Die Studienteilnehmer werden kontinuierlich beobachtet. Die Gefahr eines Recall-Bias aufgrund mangelnden Erinnerungsvermögens der Teilnehmer (wie bei Fall-Kontroll-Studien) besteht daher nicht. x Nachteile. Im Vergleich zu Fall-Kontroll-Studien gibt es anderer seits deutliche Nachteile:
ŷ Es dauert unter Umständen sehr lange, bis hinreichend viele Krankheitsfälle eingetreten sind. Dies gilt insbesondere für Ursachen mit langer Induktionsperiode. ŷ Die Studie erfordert – speziell bei Krankheiten mit geringer Inzidenz – extrem viele Teilnehmer. ŷ Sie kann daher sehr aufwendig und teuer sein, da oft Tausende von Personen etliche Jahre lang in regelmäßigen Abständen untersucht werden müssen.
13
Beispiel 13.4: Kohortenstudie Ein bekanntes Beispiel ist die so genannte Framingham-Studie bezüglich kardiovaskulärer Krankheiten. Sie wurde im Jahr 1948 in der Stadt Framingham (USA) begonnen und umfasste etwa 5.100 Einwohner, die zu Beginn der Studie zwischen 30 und 60 Jahre alt waren und keine kardiovaskulären Krankheiten hatten. Die Studie dauerte mehr als 30 Jahre; die Studienteilnehmer wurden regelmäßig alle zwei Jahre bis zum Auftreten einer kardiovaskulären Erkrankung, dem Tod des Teilnehmers bzw. bis zum Studienende untersucht. Dabei wurden mehrere potentielle Einflussfaktoren studiert: Rauchen, Adipositas, Bluthochdruck, erhöhte Cholesterinwerte, Alter u. a. Es wurde nachgewiesen, dass das Risiko, eine koronare Herzkrankheit zu entwickeln, mit zunehmendem Alter, erhöhtem Blutdruck, erhöhtem Cholesterinspiegel, Zigaretten- und Alkoholabusus sowie Übergewicht assoziiert ist.
13.4.2 Effektmaße Um zu eruieren, ob ein bestimmter Faktor tatsächlich mit einem erhöhten Erkrankungsrisiko assoziiert ist, erscheint es sinnvoll, die Gruppen der Exponierten und der Nicht-Exponierten miteinander
277 13.4 Kohortenstudien
13
zu vergleichen. Das Erkrankungsrisiko bei Vorliegen eines Faktors R entspricht der Wahrscheinlichkeit P ( K | R ) . P( K | R ) ist also die Wahrscheinlichkeit, dass bei Nicht-Vorhandensein des Faktors R die Krankheit entsteht. Es lassen sich folgende Effektmaße berechnen:
ŷ Absolute Risikoreduktion (zuschreibbares oder attributables Risiko). Dies ist die Differenz ARR
P( K | R) P( K | R )
(13.1)
Die ARR gibt an, in welchem Maß die Erkrankungswahrscheinlichkeit durch den Risikofaktor erhöht wird.
ŷ Number Needed to Treat (NNT). Diese Anzahl wird sehr einfach berechnet nach: NNT
1 / ARR
(13.2)
Die NNT wurde ursprünglich für Therapiestudien entwickelt, um darzustellen, wie viele Personen durchschnittlich behandelt werden müssen, damit eine von der Behandlung profitiert. Bei Risikostudien quantifiziert die NNT die Anzahl der Personen, die vom Risikofaktor befreit werden müssen, damit eine profitiert.
ŷ Relatives Risiko. Darunter versteht man den Quotienten RR
P( K | R) P( K | R )
(13.3)
Wenn es sich bei R tatsächlich um einen Risikofaktor handelt, ist das relative Risiko größer als 1. Um dies beurteilen zu können, ist die Angabe eines Konfidenzintervalls sinnvoll. Man kann theoretisch auch bei Kohortenstudien die Odds Ratio als Annäherungsmaß berechnen. Da bei diesem Studiendesign das relative Risiko jedoch direkt ermittelt werden kann, ist die Angabe der Odds Ratio nicht unbedingt notwendig.
ŷ Relative Risikoreduktion. Dieses Maß ist definiert als: RRR
P( K | R) P( K | R ) P( K | R)
(13.4)
! Bei der Interpretation eines relativen Risikos ist zu beachten, dass durch z
die Quotientenbildung die absoluten Risiken nicht mehr erkennbar sind. Die relativen Risiken in Beispiel 13.5 (S. 278) sind sehr hoch. Sie verschweigen jedoch, dass das Risiko an Lungenkrebs zu erkranken generell gering ist (auch für Raucher).
278
Kapitel 13 · Risikostudien
Die Wahrscheinlichkeit des Auftretens einer Krankheit kann durch › Abschnitt 11.2.3, S. die Logistische Regression ermittelt werden (z 236 f). Dieses multiple Verfahren ermöglicht es, mehrere Faktoren zu berücksichtigen und deren komplexe Wechselwirkungen zu untersuchen. Anhand der Merkmale, die einen statistisch signifikanten Einfluss auf die Zielgröße haben, lässt sich dann im Einzelfall die Wahrscheinlichkeit berechnen, dass die Krankheit eintritt. Beispiel 13.5: Effektmaße In der Kohortenstudie von Doll und Hill (Doll, R.; Hill, A.B.: Mortality in relation to smoking: ten years’ observations of British doctors. Brit. Med. J. 1964; 1: 1399 – 1410) wurde bei 40.000 britischen Ärzten die Auswirkung des Faktors „Rauchen“ auf die Mortalitätsrate bei Lungenkrebs untersucht. Seien R das Ereignis, dass eine Person mindestens 25 Zigaretten pro Tag raucht und T das Ereignis, innerhalb eines Jahres an Lungenkrebs zu sterben. Die Autoren ermittelten P(T | R) 2,27 ‰ für Raucher und P(T | R ) 0,07 ‰, für Nichtraucher. Demnach beträgt das zuschreibbare Risiko ARR 2, 20 ‰. Die Mortalität setzt sich zusammen aus dem Anteil 2,20‰, der dem Rauchen zuzurechnen ist, und dem kleineren Anteil 0,07‰, der auf andere Ursachen zurückzuführen ist. Daraus ergibt sich: NNT 1 / 0,0022 | 455 . Wenn 455 starke Raucher das Rauchen aufgeben würden, würde durchschnittlich einer pro Jahr weniger an Lungenkrebs sterben. Das relative Risiko berechnet sich nach (13.3) als 2, 27 / 0,07 | 32 . Also ist für einen Raucher das Risiko, innerhalb eines Jahres an Lungenkrebs zu sterben, etwa 32mal so groß wie für einen Nichtraucher. Die relative Risikoreduktion nach (13.4) beträgt 97%. Das Risiko, an Lungenkrebs zu sterben, kann demnach um 97% gesenkt werden, falls das Rauchen aufgeben wird. Oder anders formuliert: Wenn ein Mensch an Lungenkrebs stirbt, dann ist dies zu 97% auf das Rauchen zurückzuführen.
13.4.3 Inzidenzmaße
13
Die im vorigen Abschnitt erwähnte Wahrscheinlichkeit P ( K R ) wird als kumulative Inzidenz bezeichnet (weil sich die neuen Fälle über die Zeit kumulieren). Deren Bestimmung erfordert eine gewisse Stabilität der beobachteten Population. Normalerweise ist jedoch davon auszugehen, dass die Population dynamischen Prozessen unterliegt. Nicht jedes Individuum kann über denselben Zeitraum beobachtet werden. Außerdem muss quasi bei jeder prospektiven Studie einkalkuliert werden, dass einige Teilnehmer vorzeitig ausscheiden (so genannte Studienabbrecher oder Drop Outs).
279 13.4 Kohortenstudien
13
Dann mag die Inzidenzdichte eine Alternative darstellen: Der Zähler dieses Maßes enthält die Anzahl aller während der Beobachtungszeit neu aufgetretenen Krankheitsfälle. Den Nenner bildet die so genannte Personenzeit – das ist die Summe der Beobachtungszeiten aller Individuen. Jedes Individuum wird so lange beobachtet, bis das interessierende Endereignis (Krankheit oder Tod) festgestellt wird. Falls dieses Ereignis nicht eintritt, endet die Beobachtungszeit am Ende der Studie bzw. zu dem Zeitpunkt, an dem die betreffende Person vorzeitig ausscheidet. Die Inzidenzdichte ist – im Gegensatz zur kumulativen Inzidenz – keine Wahrscheinlichkeit. Sie gibt an, wie viele Neuerkrankungen in einer bestimmten Zeiteinheit eintreten und ist insofern vergleichbar mit einer Erkrankungs-Geschwindigkeit oder mit der Hazard› Abschnitt 7.3.1, S. 147). Dabei spielt die Zeit eine besondere Rate (z Rolle. Für derlei Fragestellungen stehen spezielle Auswertemecha› Abschnitte 15.2.3 und 15.2.4, S. 318 ff). nismen zur Verfügung (z 13.4.4 Bias Studienabbrecher (Drop Outs) können zu einem Selektionsbias führen, wenn die Gründe des Ausscheidens mit der Zielgröße in Zusammenhang stehen. Ferner kann es passieren, dass Teilnehmer ihre Gewohnheiten im Laufe der Zeit ändern (wenn etwa aus einem ehemals starken Raucher ein Nichtraucher wird). Dies sollte bei der Auswertung und der Interpretation der Ergebnisse unbedingt berücksichtigt werden. Eine besondere Art von Informationsbias tritt auf, wenn Studienteilnehmer, die stark exponiert sind, häufiger oder gründlicher untersucht werden als andere Personen, bei denen das Eintreten einer Krankheit weniger erwartet wird. Dies kann zu verzerrten Ergebnissen führen. Probleme können auch dadurch entstehen, dass sich die Diagnosetechniken im Laufe der Zeit ändern oder dass die ursprüngliche Fragestellung an Relevanz verliert. Ein letzter Hinweis: Nicht jede Kohortenstudie muss Jahrzehnte dauern, ehe Ergebnisse vorliegen. Wenn die Induktionsperiode kurz ist (z. B. Erkrankung eines Neugeborenen infolge einer mütterlichen Infektion während der Schwangerschaft), kann die Studie nach wenigen Monaten beendet sein. Dennoch bleibt festzuhalten, dass der zeitliche Aufwand wesentlich höher ist als bei einer Fall-KontrollStudie.
280
Kapitel 13 · Risikostudien
13.4.5 Spezielle Kohortenstudien
13
Die Population, die bei Kohortenstudien untersucht wird, wird meist in der Gegenwart zusammengestellt und dann über einen längeren Zeitraum beobachtet („begleitende Kohortenstudie“). Auf die damit verbundenen Problematiken (die insbesondere bei langen Induktionsperioden oder Krankheiten mit geringer Inzidenz auftreten) wurde bereits hingewiesen. Bei Studien, die auf eine sehr lange Zeit geplant sind, weiß der Versuchsleiter manchmal nicht, ob er das Ende der Studie überhaupt erleben wird. Es ist aber auch denkbar, Kohortenstudien „mit Verspätung“ durchzuführen: Man startet in der Vergangenheit und greift zur Erfassung der Exposition und der Zielgröße auf bereits dokumentierte Daten zurück. Diese wertet man dann prospektiv aus (die Art der Datenerfassung ist jedoch retrospektiv). Dieses Design nennt man historische Kohortenstudie. Andere Bezeichnungen sind retrospektive Kohortenstudie oder Kohortenstudie mit zurückverlegtem Ausgangspunkt. Dieser Studientyp wird gerne in der Arbeitsmedizin verwendet (wenn z. B. Bergwerksarbeiter und Büroangestellte auf das Vorhandensein einer Silikoselunge untersucht werden). Der Vorteil besteht darin, dass die Zeit zwischen der Exposition und dem Auftreten der Krankheit nicht abgewartet werden muss. Andererseits ist auf die Qualität der Daten nicht immer Verlass. Eine weitere Besonderheit stellen die so genannten eingebetteten (nested) Fall-Kontroll-Studien dar. Ein solche Studie beginnt wie eine Kohortenstudie in der Gegenwart. Zu Beginn werden von allen Studienteilnehmern Daten erhoben, Blut- oder Urinproben entnommen und in geeigneter Weise aufbewahrt. Wenn nach einiger Zeit genügend Krankheitsfälle aufgetreten sind, werden diese zu einer „Fallgruppe“ zusammengefasst; aus den nicht erkrankten Teilnehmern wird eine überschaubare Kontrollgruppe gebildet. Erst wenn diese beiden Gruppen definiert sind, werden deren Daten und Laborproben analysiert. Dieses Studiendesign ist wesentlich weniger aufwendig als eine begleitende Kohortenstudie, bei der alle Teilnehmer untersucht werden. Außerdem ist die Datenqualität besser als bei Fall-Kontroll-Studien, da die Daten erhoben und die Proben entnommen werden, ehe die Krankheit eingetreten ist.
281 13.5 Der Nachweis einer Kausalität(((
13.5
13
Der Nachweis einer Kausalität
Eine kausale Beziehung zwischen einem Risikofaktor und einer Krankheit kann am ehesten durch ein Experiment nachgewiesen werden, bei dem die Hälfte der Teilnehmer nach Randomisation einem Risiko ausgesetzt wird und die andere Hälfte nicht. Aus ethischen Gründen ist dies jedoch nicht vertretbar. Laborexperimente (z. B. mit Ratten) können hier, obwohl sie in einem anderen biologischen System arbeiten, Hinweise zur Kausalität geben. In seltenen Fällen bietet sich ein quasi-experimentelles Design an: Dies unterscheidet sich von einem „echten“ Experiment dadurch, dass die Zuordnung zur Experimental- bzw. Kontrollgruppe aufgrund natürlicher Eigenschaften der Studienteilnehmer erfolgt. Ein Beispiel: Eine quasi-experimentelle Studie eignet sich zum Nachweis, dass das radioaktive Edelgas Radon ein Risikofaktor für Lungenkrebs darstellt. Die zu vergleichenden Gruppen sind auf natürliche Weise vorgegeben: Die Radongruppe setzt sich aus Personen zusammen, die aufgrund ihrer Wohn- oder Arbeitsplatzsituation dem Risikofaktor ausgesetzt sind; die Kontrollgruppe besteht aus Personen, die nicht exponiert sind. Die Ergebnisse eines quasiExperiments können jedoch durch Confounding verzerrt sein. Ansonsten ist man auf Beobachtungsstudien angewiesen. Den höchsten Level nach den Richtlinien der Evidenzbasierten Medizin haben dabei Kohortenstudien. Diese sind – wenn sie sorgfältig geplant und durchgeführt werden – am wenigsten anfällig für systematische Fehler (Bias) und lassen am ehesten Schlussfolgerungen bezüglich Kausalitäten zu. Das bedeutet jedoch nicht, dass die anderen Studienformen überflüssig oder generell minderwertig wären. Kohortenstudien sind in der Regel sehr aufwendig. Sie werden deshalb erst dann durchgeführt, wenn – etwa aufgrund von Fall-Kontroll-Studien – gesicherte Hinweise auf eine Assoziation zwischen einer Krankheit und einer Exposition vorliegen. Im Jahre 1939 brachte der bereits erwähnte Alton Ochsner eine Lawine ins Rollen, als er einen Fallbericht veröffentlichte, in dem er einen Zusammenhang zwischen Lungenkrebs und Rauchen vermutete und zwei Jahre später eine Fallserie zum selben Thema publizierte. Dies war der Anlass für Doll und Hill, eine Fall-Kontroll-Studie durchzuführen (1952 publiziert). Diese wiederum war die Basis für eine extrem aufwendige Kohorten› Beispiel 13.5, S. 278, erstmals 1964 publiziert). studie (z Man kann mit Beobachtungsstudien nicht zweifelsfrei eine Kausalität nachweisen. Dennoch können statistische Analysen behilflich sein, um Kausalitäten aufzudecken. Von Sir Austin Bradford
282
Kapitel 13 · Risikostudien
Hill wurden im Jahre 1963 einige Kriterien aufgestellt, die helfen können bei der Entscheidung, ob ein Faktor tatsächlich kausal mit der Krankheit zusammenhängt und somit eine Teilursache darstellt, oder ob es sich lediglich um einen Risikoindikator handelt. Folgende Argumente sprechen für eine Kausalität:
ŷ Stärke der Assoziation: Je stärker ein statistischer Zusammenhang ist, desto mehr spricht für eine kausale Beziehung.
ŷ Plausibilität: Der Zusammenhang muss biologisch plausibel sein. ŷ Kohärenz: Die Interpretation des Zusammenhangs darf in keinem Widerspruch zum aktuellen Stand der Forschung stehen.
ŷ Zeitliche Sequenz: Eine mögliche Ursache muss der Krankheit zeitlich vorausgehen.
ŷ Spezifität des Effekts: Ein Faktor ist spezifisch, wenn er mit genau einer Krankheit assoziiert ist. Dieses Kriterium ist nützlich bei Infektionskrankheiten (so führt beispielsweise das Masernvirus zum Auftreten der Masern und zu keiner anderen Krankheit). Bei Erkrankungen mit vielen Ursachen (z. B. Herz-Kreislauf-Erkrankungen) ist dieses Kriterium dagegen wertlos. ŷ Dosis-Wirkungs-Beziehung: Wenn dieses Kriterium erfüllt ist, kann dies als Hinweis auf eine Kausalität gewertet werden. ŷ Konsistenz: Die Ergebnisse der Studie müssen wiederholbar sein (in anderen Studientypen und in anderen Populationen). ŷ Reversibilität: Das Risiko einer Erkrankung sinkt, wenn die Exposition entfällt. ŷ Experimentelle Evidenz: Dieses Kriterium bezieht sich auf die Überprüfbarkeit der Hypothese. Dies betrifft die statistische Analyse, das Studiendesign und die oben genannten Kriterien.
13
Es lässt sich leicht nachvollziehen, dass all diese Kriterien (außer der Spezifität) beim Zusammenhang „Rauchen und Lungenkrebs“ erfüllt sind. Man sollte sich darüber klar sein, dass diese Kriterien nur eine Orientierungshilfe und keinen eindeutigen Beleg für oder gegen eine kausale Beziehung darstellen. Die Frage, ob ein Faktor und eine Krankheit kausal zusammenhängen, kann in der Regel nur vorläufig und nicht endgültig beantwortet werden kann. i Ausführliche Informationen zu Risikostudien findet man in [7]. z
283 13.5 Der Nachweis einer Kausalität(((
Zusammenfassung Kapitel 13 Deskriptive Risikostudien: ŷ Fallberichte ŷ Fallserien ŷ Prävalenzstudien ŷ Populationsstudien Analytische Risikostudien: ŷ Fall-Kontroll-Studie
Studiendesign retrospektiv
Effektmaße nur Odds Ratio
ŷ Kohortenstudie
prospektiv
zuschreibbares Risiko, NNT, relatives Risiko, relative Risikoreduktion, Odds Ratio
Kriterien für einen kausalen Zusammenhang: ŷ Stärke der Assoziation zwischen Krankheit und Risikofaktor ŷ Biologische Plausibilität ŷ Kohärenz ŷ Zeitliche Sequenz ŷ Spezifität des Effekts ŷ Dosis-Wirkungs-Beziehung ŷ Konsistenz ŷ Reversibilität ŷ Experimentelle Evidenz
13
14
Studien zu Diagnostik und Prävention 14.1
Diagnosestudien 287
14.1.1
Die Validität eines diagnostischen Tests 287
14.1.2
Vorhersagewerte 289
14.1.3
Die ROC-Analyse 291
14.1.4
Die Reliabilität eines diagnostischen Tests 293
14.1.5
Die Anwendung eines diagnostischen Tests in der Praxis 295
14.2
Präventionsstudien 297
14.2.1
Formen der Prävention 297
14.2.2
Der Nutzen einer Impfmaßnahme 298
14.2.3
Der Nutzen eines Screenings 299
14.2.4
Bias 300
287
14
14.1 Diagnosestudien
14.1
Diagnosestudien
14.1.1 Die Validität eines diagnostischen Tests Die Diagnosestellung gehört zu den wichtigsten Aufgaben eines praktisch tätigen Arztes. Dazu bedient er sich neben seinen Fachkenntnissen und seiner persönlichen Erfahrung eines oder mehrerer diagnostischer Testverfahren. Dies kann ein technisch aufwendiger Labortest sein; es kann sich jedoch auch um eine klinische Untersuchung, ein bildgebendes Verfahren, Informationen aus der Anamnese oder aus einem Gespräch mit dem Patienten handeln. Jedes diagnostische Verfahren wird eingesetzt, um größere Sicherheit bezüglich des Krankheitsstatus eines Patienten zu gewinnen. Das Ziel einer Diagnosestudie besteht darin, die Güte eines diagnostischen Verfahrens zu evaluieren. Diese Studien sind nicht nur für die klinische Praxis, sondern auch für die epidemiologische Forschung sehr wichtig. Letzten Endes basieren die Ergebnisse aller Studien auf diagnostischen Verfahren, da diese die Voraussetzung für das Erkennen oder Ausschließen einer Krankheit sind. Zu den Gütekriterien eines diagnostischen Tests zählen die Validität und die Reliabilität. Die Reliabilität ist ein Maß für die Reprodu› zierbarkeit der Testergebnisse unter ähnlichen Bedingungen (z Abschnitt 14.1.4, S. 293 f). Die Validität ist die Fähigkeit, zwischen Kranken und Gesunden zu unterscheiden. Sie wird bestimmt durch die Sensitivität und die Spezifität: x Sensitivität. Dies ist die bedingte Wahrscheinlichkeit P (T | K ) , dass der Test bei einer kranken Person richtig (also positiv) reagiert. x Spezifität. Darunter versteht man die bedingte Wahrscheinlich keit P(T | K ) , dass eine nicht-erkrankte Person ein richtiges (also negatives) Testergebnis erhält. Im Idealfall – wenn alle Testergebnisse korrekt sind – nehmen beide Wahrscheinlichkeiten den Wert 1 an. In der Praxis muss man leider damit rechnen, dass sich hin und wieder ein falscher Befund ergibt. Wenn der Test die Krankheit eines Patienten übersieht, erhält man ein falsch negatives Ergebnis. Die Wahrscheinlichkeit dafür ergibt sich aus der Sensitivität. Da nämlich T und T komplementäre Ereignisse sind, berechnet man mit (6.2) (Abschnitt 6.2.4, S. 108): P (T | K ) 1 P (T | K )
(14.1)
288
Kapitel 14 · Studien zu Diagnostik und Prävention
In analoger Weise lässt sich aus der Spezifität die Wahrscheinlichkeit für ein falsch positives Ergebnis ermitteln:
P(T | K ) 1 P(T | K )
(14.2)
Um im Rahmen einer Diagnosestudie die Sensitivität und die Spezifität ermitteln zu können, müssen folgende Voraussetzungen gegeben sein:
ŷ Es muss ein so genannter Goldstandard verfügbar sein, mit dem sich der wahre Krankheitsstatus der Studienteilnehmer feststellen lässt. In der Regel ist dies ein aufwendiges, teures oder kompliziertes Verfahren (z. B. eine Biopsie). Im medizinischen Alltag wird selten ein Goldstandard benutzt. Man ist vielmehr bemüht, Ersatzverfahren einzusetzen – wohl wissend, dass diese weniger genau, dafür aber einfacher in der Anwendung und mitunter weniger riskant sind als der Goldsstandard. ŷ Es müssen hinreichend viele kranke und nicht-erkrankte Personen sowohl mit dem zu evaluierenden Test als auch mit dem Goldstandard diagnostiziert werden. ŷ Der Arzt, der die Befunde des neu zu evaluierenden Verfahrens interpretiert, sollte verblindet sein. Das heißt: Er darf den wahren Krankheitsstatus und andere klinische Informationen der Testteilnehmer nicht kennen. Nur dann ist gewährleistet, dass die Befunde unvoreingenommen und objektiv beurteilt werden. Beide Kenngrößen – Sensitivität und Spezifität – sollten zusammen mit einem Konfidenzintervall angegeben werden, damit die Genauigkeit der Schätzungen beurteilt werden kann. Manchmal werden auch Likelihood-Quotienten benutzt, um die Güte eines diagnostischen Tests zu beschreiben. Der positive Likelihood-Quotient ist die Wahrscheinlichkeit, dass eine kranke Person einen positiven Befund erhält, dividiert durch die Wahrscheinlichkeit, dass sich dieser Befund bei einer gesunden Person ergibt:
14
LH
P(T K ) P(T K )
Sensitivität 1 Spezifität
(14.3)
Analog ist der negative Likelihood-Quotient definiert als: LH
P(T K ) P(T K )
1 Sensitivität Spezifität
(14.4)
289
14
14.1 Diagnosestudien
Wenn ein Likelihood-Quotient einen Wert nahe bei 1 annimmt, ist der Test unbrauchbar. Als grobe Orientierung gilt: Bei einem leistungsfähigen Test sollten der positive Quotient größer als 3 und der negative kleiner als 1/3 sein. Der Vorteil dieser Quotienten liegt darin, dass sie für jeden denkbaren Testbefund ermittelt werden können und über die einfache Klassifizierung „pathologisch“ und „nicht pathologisch“ hinaus gehen. 14.1.2 Vorhersagewerte Für den behandelnden Arzt und die betroffenen Patienten sind nicht so sehr die Sensitivität und die Spezifität als vielmehr die Vorhersagewerte (oder prädiktiven Werte) interessant – das sind die Wahrscheinlichkeiten, dass das Testergebnis den richtigen Krankheitsstatus anzeigt. Unter dem positiven Vorhersagewert versteht man die bedingte Wahrscheinlichkeit P( K | T ) ; der negative Vorhersagewert ist die bedingte Wahrscheinlichkeit P( K | T ) . Mit dem BayesTheorem (6.12) (S. 110) leitet man her: P( K|T )
P( K ) P( T| K ) P( K ) P( T | K ) P( K ) P( T | K )
(14.5)
P( K |T )
P( K ) P( T| K ) P( K ) P( T | K ) P( K ) P( T | K )
(14.6)
Während die Prävalenz P( K ) die Wahrscheinlichkeit bezeichnet, erkrankt zu sein, bevor das Testergebnis bekannt ist, ist der positive Vorhersagewert die Wahrscheinlichkeit, erkrankt zu sein, nachdem das positive Ergebnis vorliegt. Deshalb wird die Prävalenz auch „apriori-Wahrscheinlichkeit“ genannt, während der positive Vorhersagewert als „a-posteriori-Wahrscheinlichkeit“ bezeichnet wird. An Beispiel 14.1 (S. 290) wird deutlich, dass die Vorhersagewerte stark von der Prävalenz abhängen. Ein positiver Befund kann sich auch bei gesunden Personen ergeben aufgrund von Einflüssen, die in keinem Zusammenhang mit der relevanten Krankheit stehen. Deshalb ist bei geringer Prävalenz (wenn weitaus mehr gesunde als kranke Personen getestet werden) oft nur ein kleiner Teil der positiven Befunde auf die zu diagnostizierende Krankheit zurückzuführen. Der negative Vorhersagewert nimmt dagegen in allen Populationen einen Wert nahe bei 1 an. Während also bei einem negativen Befund die Krankheit praktisch ausgeschlossen werden kann, ist ein positiver Befund weitaus schwieriger zu interpretieren.
290
Kapitel 14 · Studien zu Diagnostik und Prävention
Beispiel 14.1: Sensitivität, Spezifität und Vorhersagewerte Wir greifen zurück auf den HIV-Test in Beispiel 6.9 (S. 111): Ein HIV-Test habe eine Sensitivität von 99% und eine Spezifität von 99,5%. Der positive und der negative Likelihood-Quotient sind nach (14.3) bzw. (14.4): LH 0,99 / 0,005 198 ; LH 0, 01 / 0,995 0, 01 . Diese Zahlen besagen: Die Wahrscheinlichkeit, dass eine infizierte Person einen positiven Befund (bzw. negativen) erhält, ist 198 (bzw. 1/100) mal so hoch wie die Wahrscheinlichkeit bei einer nicht-infizierten Person. In Abhängigkeit von der Prävalenz ergeben sich mit den Formeln (14.5) und (14.6) folgende Vorhersagewerte:
14
Population
Prävalenz
ohne Risiko (Rechenbeispiel) homosexuelle Männer Drogenabhängie (Rechenbeispiel)
0,00001 0,0001 0,001 0,01 0,1
positiver Vorhersagewert 0,00198 0,01942 0,16541 0,66667 0,95652
negativer Vorhersagewert 1,00000 1,00000 0,99999 0,99990 0,99888
Die Anwendung eines diagnostischen Tests kann bei klinischen Anwendungen zu Problemen führen, wenn die Zugehörigkeit zu einer Risikogruppe und damit die Prävalenz nicht bekannt sind. Problematisch ist dies vor allem bei Screening-Untersuchungen, wo die Prävalenz in der Regel sehr niedrig ist. Bei besonderen Risikogruppen oder in Spezialkliniken sind dagegen die Prävalenz und damit auch die Aussagekraft des Tests höher. In jedem Fall ist ein positiver Befund lediglich als Hinweis zu werten, dass die Krankheit vorliegen könnte. Um eine sichere Diagnose zu stellen, bedarf es weiterer Untersuchungen. Leider sind sich viele Anwender darüber nicht im Klaren und interpretieren ein positives Testergebnis intuitiv so, als seien Zweifel an der Erkrankung eines Patienten quasi ausgeschlossen. Sie folgern naiv, dass – wenn mit 99%-iger Wahrscheinlichkeit aus der Bedingung „Krankheit vorhanden“ die Aussage „Testergebnis positiv“ folgt – auch der Umkehrschluss gilt: dass also aus einem positiven Ergebnis mit 99%-iger Sicherheit auf die Krankheit geschlossen werden kann. Dabei unterliegen sie jedoch einer kognitiven Täuschung – sei es aufgrund von Selbstüberschätzung, Bequemlichkeit oder einfach nur wegen mangelnder Erfahrung im Umgang mit Wahrscheinlichkeiten (siehe dazu [5] und [8]). Um ein Testergebnis zu beurteilen, bedarf es jedoch weniger Intuition als vielmehr fachlicher Fähigkeiten und solider Statistik-Kenntnisse.
291
14
14.1 Diagnosestudien ! In einigen Publikationen taucht der Begriff „accuracy“ im Zusammenz
hang mit diagnostischen Tests auf. Dies bezeichnet die Wahrscheinlichkeit, dass eine beliebige Person, die sich dem Test unterzieht, einen korrekten Befund erhält. Allerdings ist dieses Maß für praktische Anwendungen wenig geeignet, da es von der Prävalenz abhängt und keine Information bezüglich der Vorhersagewerte beinhaltet.
14.1.3 Die ROC-Analyse Viele Testergebnisse beruhen auf physikalischen Messungen im Labor. Bei solchen Größen handelt es sich in der Regel um stetige Merkmale – und nicht, wie bisher angenommen wurde, um Alternativmerkmale mit den Ausprägungen „positiv“ und „negativ“. Um eine binäre Testentscheidung zu ermöglichen, wird eine Trenngröße W (griechischer Buchstabe tau) festgelegt – das ist ein Schwellenwert, der den pathologischen vom physiologischen Bereich trennt. Der Messwert einer Person, die sich dem Test unterzieht, wird mit diesem Schwellenwert verglichen. Ist er größer als W, spricht man von einem positiven, ansonsten von einem negativen Befund. Der Wert von W beeinflusst die Sensitivität, die Spezifität und damit auch die Vorhersagewerte. Jedem Schwellenwert sind eindeutige Werte für die Sensitivität und die Spezifität zugeordnet. Wenn man nun für jeden Schwellenwert den Anteil der falsch positiven (1 – Spezifität) gegen den Anteil der richtig positiven (Sensitivität) in ein Koordinatensystem einträgt und diese Punkte miteinander verbindet, entsteht die so genannte › Abbildung 14.1, S. 293). ROC ist die Abkürzung für ROC-Kurve (z „Receiver Operating Characteristic“. Dieser Begriff stammt aus der Nachrichtentechnik und bedeutet Signalerkennung. Aus dem Beispiel 14.2 (S. 292) und der Abbildung 14.1 geht hervor: Je höher die Sensitivität, desto geringer ist die Spezifität. Dies ist leicht nachvollziehbar. Bei einem geringen Schwellenwert erhalten zahlreiche Personen ein positives Testergebnis. Dadurch werden einerseits viele Kranke (richtig) positiv und andererseits zahlreiche Gesunde (falsch) positiv klassifiziert. Dies ist gleichbedeutend mit einer hohen Sensitivität und einer hohen Wahrscheinlichkeit für falsch positive Ergebnisse, was wiederum mit einer niedrigen Spezifität einhergeht. Ein hoher Schwellenwert ergibt dagegen für die meisten gesunden und für relativ viele kranke Personen einen negativen Befund (hohe Spezifität, hohe Wahrscheinlichkeit für falsch negative Ergebnisse und geringe Sensitivität). Schwellenwerte, die gut zwischen Kranken und Gesunden diskriminieren, findet man in der oberen linken Ecke der ROC-Kurve.
292
Kapitel 14 · Studien zu Diagnostik und Prävention
Beispiel 14.2: ROC-Analyse Eignet sich der Kreatininkinase-Wert zur Diagnose eines akuten Myokardinfarkts? In einer Studie ergaben sich bei Infarkt-Patienten Werte zwischen 90 und 10280, während Patienten mit anderen Herzbeschwerden Werte zwischen 25 und 370 aufwiesen. Die Sensitivität und die Spezifität sind abhängig von unterschiedlichen Schwellenwerten: Sensitivität Spezifizität Summe W in % in % Wenn man die 100 48 80 148 Sensitivität und 100 57 90 157 die Spezifität als 96 62 100 158 gleich wichtig er96 75 achtet, wäre 120 171 W = 300 der opti96 84 150 180 male Schwellen93 91 200 184 wert. Die Fläche 93 94 250 187 unter der ROC93 97 300 190 Kurve (AUC) 85 98 320 183 beträgt 0,94 70 99 350 169 › Abb. 14.1). (z 63 100 380 163 55 100 400 155
Die Güte eines diagnostischen Tests lässt sich durch die Fläche unter der ROC-Kurve (im englischen Sprachgebrauch als AUC = area under the curve bezeichnet) quantifizieren. Nur bei einem Test, bei dem falsche Befunde ausgeschlossen sind, ist diese Fläche gleich 1. Eine AUC von 0,5 besagt, dass der diagnostische Test nicht besser ist als zufällige Zuweisungen „krank“ oder „gesund“. In diesem Fall entspricht die ROC-Kurve der Diagonalen, die sich von der linken unteren bis zur rechten oberen Ecke erstreckt.
14
Die Frage nach dem optimalen Schwellenwert lässt sich nicht allgemein beantworten. Er ist abhängig von den Konsequenzen, die sich aus falschen Testbefunden ergeben. Ein falsch negativer Befund kann fatale Folgen für den Patienten haben: Dieser wähnt sich zunächst gesund und wird möglicherweise zu spät oder gar nicht therapiert. Falsch positive Befunde belasten die betreffenden Personen und führen zu nachfolgenden Behandlungen, die unnötig, teuer und mitunter gefährlich sind.
293
14
14.1 Diagnosestudien
Abb. 14.1 ROC-Kurve für einen Test zur Diagnose eines Myokardinfarkts (Beispiel 14.2). Eingezeichnet sind (1–Spezifität) auf der x–Achse und die Sensitivität auf der y–Achse für unterschiedliche Schwellenwerte.
Auf eine hohe Sensitivität legt man Wert, wenn ŷ es sich um eine Krankheit mit schwerwiegenden (oder gar lebensbedrohlichen) Folgen für den Patienten handelt, ŷ eine Erfolg versprechende Therapie zur Verfügung steht, ŷ falsch positive Befunde mit vertretbarem Aufwand und ohne allzu große Belastungen für die betreffende Person geklärt werden können. Eine hohe Spezifität ist anzustreben, wenn ŷ keine Therapie mit Aussicht auf Besserung bekannt ist, ŷ die Therapie zu unverhältnismäßig hohen finanziellen Belastungen für den Patienten oder das Gesundheitswesen führt, ŷ die Therapie mit schweren Nebenwirkungen behaftet ist, ŷ die Nachfolgeuntersuchungen mit erheblichen Risiken oder psychischen Belastungen für den Patienten verbunden sind. Ein optimaler Schwellenwert beruht also nicht nur auf wahrscheinlichkeitstheoretischen, sondern auch auf medizinischen, ökonomischen und ethischen Überlegungen. Ein Arzt muss bei der Interpretation eines Testbefundes in jedem Fall berücksichtigen, dass dieses unter Umständen auch von einem mehr oder weniger willkürlich festgelegten Schwellenwert abhängt. 14.1.4 Die Reliabilität eines diagnostischen Tests Neben der Validität spielt die Reproduzierbarkeit (Reliabilität) bei der Bewertung eines diagnostischen Tests eine wichtige Rolle – also die Frage: Inwieweit ist der Test zuverlässig und wiederholbar?
294
Kapitel 14 · Studien zu Diagnostik und Prävention
Viele Testbefunde sind durch subjektive Einschätzungen des jeweiligen Untersuchers geprägt oder hängen von anderen Rahmenbedingungen ab. Beispiele hierfür stellen klinische Schweregradscores wie etwa der PASI (Psoriasis Area and Severity Index) dar. Es ist keineswegs selbstverständlich, dass wiederholte Beurteilungen desselben Zustands durch unterschiedliche Beobachter jeweils zum selben Ergebnis führen. Es ist auch nicht garantiert, dass derselbe Beobachter, der einen Patienten zu verschiedenen Zeitpunkten untersucht, jedes Mal denselben Befund erhält. Der N-Koeffizient nach Cohen (lj: griechischer Buchstabe Kappa) findet Verwendung, um – wie in Beispiel 14.3 – den Grad der Übereinstimmung zwischen zwei Beobachtern (interindividuelle Variabilität) zu messen. Diese Zahl quantifiziert also, inwieweit die Befunde von der untersuchenden Person abhängen und stellt damit ein Maß für die Objektivität einer Methode dar. Der N-Koeffizient kann außerdem verwendet werden, um den Grad der Übereinstimmung der Beurteilungen desselben Beobachters zu zwei verschiedenen Zeitpunkten (intraindividuelle Variabilität) zu messen. Er ist definiert als: N
p o pe 1 pe
(14.7)
Dabei sind po und pe die Anteile der übereinstimmenden Urteile, die man beobachtet hat bzw. die man rein zufällig erwarten würde (o und e stehen für „observed“ bzw. „expected“). Dieser Koeffizient quantifiziert demnach den Anteil von Übereinstimmungen, der über das hinausgeht, was man unter dem Zufall erwarten würde. Wenn zwei Beobachter in allen Urteilen übereinstimmen, ist N 1 . Falls die Anzahl der Übereinstimmungen der Zufallserwartung entspricht, ist N 0 . Theoretisch kann N auch negative Werte annehmen (dieser Fall ist aber praktisch bedeutungslos). N ! 0,60 zeigt eine gute, N ! 0,80 eine exzellente Übereinstimmung jenseits des Zufalls an.
14
Es gibt außerdem einen erweiterten lj-Koeffizienten, der sich eignet, um mehr als zwei Beobachter zu vergleichen. Außerdem wurde ein gewichteter N-Koeffizient entwickelt, mit dem Abweichungen je nach ihrem Schweregrad unterschiedlich gewichtet werden können. i Diese Maßzahlen sind ausführlich in [4] beschrieben. Zur weiteren Lekz türe sei das Handbuch [7] empfohlen. Um die Reliabilität bei quantitativen Messverfahren zu evaluieren, eignet sich das Bland-Altman-Verfah› Abschnitt 5.2.5, S. 87). ren (z
295
14
14.1 Diagnosestudien
Beispiel 14.3: Kappa-Koeffizient 100 Röntgenbilder werden von zwei Radiologen unabhängig voneinander bewertet. Es ergeben sich folgende Beurteilungen (in Klammer die Häufigkeiten, die rein zufällig zu erwarten sind): Beobachter A erwartete Häufigkeiten Beobachter B normal pathologisch 6 40 (30) 10 (20) 50 normal e11 e21 50 60 / 100 30 e12 e22 50 40 / 100 20 30 (20) 50 pathologisch 20 (30) 6
60
Daraus ergibt sich:
40 po
100
(40 30) / 100 0,70 , pe
(30 20) / 100 0,50 . Die
Untersucher haben also in 70% der Fälle übereinstimmend geurteilt; der Anteil der rein zufällig zu erwartenden Übereinstimmungen beträgt 50%. 0,70 0,50 Daraus resultiert nach Formel (14.3) N 0, 40 . Der Grad der 1 0,50 Übereinstimmung ist also recht schwach.
14.1.5 Die Anwendung eines diagnostischen Tests in der Praxis Die Sensitivität und die Spezifität beschreiben die Güte eines diagnostischen Verfahrens aus der Sicht des Forschers, der den Test entwickelt. Mitunter erweist sich ein diagnostisches Verfahren in der Praxis als ungeeignet – trotz hoher Werte für Sensitivität und Spezifität. Dies kann vielfältige Gründe haben:
ŷ Interpretation des Testbefundes. Es ist bekannt, dass ein Testbefund nicht immer den korrekten Krankheitsstatus anzeigt. Die Vorhersagewerte informieren darüber, inwieweit man sich auf › Abschnitt 14.1.2, S. 289 f). einen Befund verlassen kann (z Wenn die Prävalenz gering ist, kann der positive Vorhersagewert – trotz hoher Werte für Sensitivität und Spezifität – extrem › Beispiel 14.1, S. 290). Ohne die Kenntnis, ob der gering sein (z Patient einer Risikogruppe angehört und wie hoch deren Prävalenz ist, ist ein Testbefund kaum zu interpretieren. ŷ Patientenspektrum. Die Sensitivität und die Spezifität sind unabhängig von der Prävalenz. Andererseits bleibt festzuhalten, dass die Beurteilung der Testbefunde teilweise subjektiven Einflüssen der behandelnden Ärzte unterliegt, und dass die Patienten, bei denen ein diagnostisches Verfahren in der Praxis eingesetzt wird, andere Charakteristika aufweisen als Personen, die an einer diagnostischen Studie teilnehmen. Dies gilt sowohl für die erkrankten Patienten als auch für nicht-erkrankte Probanden.
296
Kapitel 14 · Studien zu Diagnostik und Prävention
Davon werden wiederum die Sensitivität, die Spezifität und damit auch die Vorhersagewerte beeinflusst. ŷ Informationsbias. Wenn ein Arzt aufgrund einer klinischen Untersuchung den Eindruck gewinnt, dass der Patient erkrankt ist, wird er versuchen, diesen Verdacht anhand des Testbefundes zu bestätigen. Umgekehrt wird er, wenn er glaubt der Patient sei nicht erkrankt, den Testbefund eventuell weniger aufmerksam begutachten. Deshalb sollten die Beurteiler bei einer diagnosti› Abschnitt 14.1.1, S. 288 f). schen Studie verblindet sein (z Diese Überlegungen zeigen, dass ein einzelnes Testergebnis normalerweise nicht ausreicht, um sich auf eine Diagnose festzulegen. Um den Diagnoseprozess effizienter zu gestalten, werden in der Praxis häufig mehrere Tests durchgeführt (multiples Testen). Dabei sind grundsätzlich zwei Vorgehensweisen denkbar:
x Parallele Tests. Im klinischen Bereich oder bei Notfallpatienten werden oft mehrere Tests gleichzeitig (genauer: innerhalb einer kurzen Zeitspanne) angewandt. Ein Patient gilt als testpositiv, sobald bereits ein einziger Test einen positiven Befund ergibt. Dies führt zu einer hohen Sensitivität. Die Wahrscheinlichkeit, eine Krankheit zu übersehen, ist bei diesem Prozedere gering. Allerdings ergeben sich dabei auch einige falsch positive Befunde. x Sequenzielle (oder serielle) Tests. Diese Strategie wird verwendet, wenn eine schnelle Diagnosestellung nicht erforderlich ist. Man beginnt mit einem einfachen, leicht anwendbaren Test. Nur bei einem positiven Befund führt man einen weiteren, aufwendigeren Test durch. Wenn das zweite Ergebnis negativ ist, gilt der Patient als testnegativ. Ansonsten wird eventuell ein zusätzlicher Test herangezogen. Dieses Prozedere ist zeitintensiver als das parallele Testen; andererseits beansprucht es weniger Laborkapazität. Es führt zu einer größeren Spezifität und zu einer geringeren Sensitivität.
14
Schließlich sollte sich ein Arzt bei seiner Entscheidungsfindung nicht ausschließlich auf die Ergebnisse diagnostischer Tests verlassen, sondern auch seine individuelle Erfahrung, sein persönliches Urteilsvermögen sowie seine fachspezifischen Kenntnisse mit einfließen lassen.
297
14
14.2 Präventionsstudien
14.2
Präventionsstudien
14.2.1 Formen der Prävention Im allgemeinen Sprachgebrauch versteht man unter Prävention eine Maßnahme, die einer unerwünschten Entwicklung zuvorkommen soll. In diesem Sinne ist nahezu jede Tätigkeit eines Arztes als Prävention aufzufassen. In einem engeren Sinne werden unter diesem Begriff ärztliche oder gesundheitspolitische Maßnahmen zusammengefasst, die der Verhütung oder Früherkennung von Krankheiten dienen. Man unterscheidet drei Ebenen der Prävention:
ŷ Primäre Prävention. Mit diesen Maßnahmen soll das Auftreten einer Krankheit durch das Ausschalten der Ursachen verhindert werden. Die Zielgruppe sind gesunde Individuen. Diese können selbst durch eine gesunde Lebensweise oder körperliche Aktivität zur Stärkung des Immunsystems dazu beitragen, die Inzidenz bestimmter Krankheit zu senken. Ein Arzt betreibt primäre Prävention, etwa wenn er Patienten vor dem Eintreten einer Krankheit über bestimmte Risiken informiert, oder wenn er jemanden impft. Ein Beispiel stellt die Impfung eines jungen Mädchens gegen HPV 16 oder 18 dar mit dem Ziel, das Auftreten von Gebärmutterhalskrebs zu verhindern. Auch kommunale Einrichtungen leisten primäre Prävention, etwa wenn sie für sauberes Trinkwasser oder hygienisch einwandfreie Lebensmittel sorgen. Aufklärungskampagnen, die Menschen zum verantwortungsbewussten Umgang mit Genussmitteln sensibilisieren sollen, fallen ebenfalls unter diese Kategorie. ŷ Sekundäre Prävention. Diese Form der Prävention hat zum Ziel, eine Entwicklungsstörung oder eine Krankheit im Frühstadium zu erkennen, sodass rechtzeitig interveniert werden kann, um die Progression oder den Tod zu verhindern. Dazu werden Screening-Untersuchungen durchgeführt, meist in Arztpraxen oder anderen medizinischen Institutionen. Anders als bei der primären Prävention wird jeder Teilnehmer gezielt auf das Vorhandensein einer Krankheit oder einer Störung untersucht. Beispiele sind Krebsfrüherkennungsuntersuchungen wie etwa die Mammographie oder der PAP-Abstrich, durch den Vorstufen des Gebärmutterhalskrebses erkannt werden sollen. Auch Früherkennungsuntersuchungen, die bei Kindern durchgeführt werden, sind eine Form der sekundären Prävention.
298
Kapitel 14 · Studien zu Diagnostik und Prävention
ŷ Tertiäre Prävention. Dieser Begriff bezieht sich auf manifest gewordene Krankheiten. Er umfasst Maßnahmen, mit denen deren Folgeerscheinungen begrenzt werden sollen (dazu zählen Rehabilitation oder Unterstützung durch Selbsthilfegruppen). Wichtig ist dies vor allem bei letalen Krankheiten wie Krebs oder AIDS. Der Tod kann durch diese Form der Prävention in aller Regel zwar nicht verhindert werden; durch eine adäquate medizinische Betreuung können jedoch die Lebensqualität verbessert und eventuell der Todeszeitpunkt hinausgezögert werden. Im Allgemeinen wird die Notwendigkeit präventiver Maßnahmen kaum in Frage gestellt. Dies betrifft insbesondere die Formen der primären Prävention, die im Laufe der vergangenen Jahrzehnte dazu geführt haben, dass viele Krankheiten nunmehr ausgerottet sind oder zumindest rückläufige Fallzahlen aufweisen. Ebenso wenig wird über tertiäre Präventionsmaßnahmen diskutiert. Niemand bestreitet, dass die bestmögliche Unterstützung manifest erkrankter Menschen ethisch geboten erscheint. Andererseits wird in den letzten Jahren über die Notwendigkeit von einigen Präventionsmaßnahmen (insbesondere Impfungen und Screenings) teilweise heftig diskutiert. Deshalb erscheint es sinnvoll, deren Nutzen anhand von geeigneten Maßzahlen zu evaluieren. 14.2.2 Der Nutzen einer Impfmaßnahme Der Nutzen einer solchen Schutzmaßnahme lässt sich durch folgende Zahlen quantifizieren:
ŷ Basisreproduktionszahl: Sie gibt an, wie viele Menschen eine
erkrankte Person durchschnittlich ansteckt, wenn kein Mitglied der Population gegen die betreffende Krankheit immun ist. ŷ Nettoreproduktionszahl: Diese Zahl informiert, wie viele Menschen ein Infizierter durchschnittlich ansteckt, nachdem ein (bekannter) Teil der Population PI immun ist. Sie berechnet sich aus der Basisreproduktionszahl R0 als:
14
R
(1 PI ) R0
(14.8)
Wenn die Nettoreproduktionszahl R kleiner als 1 ist, wird sich die Krankheit nicht weiter ausbreiten und mit der Zeit gänzlich ausgerottet werden. Mit (14.8) lässt sich berechnen, wie groß der Anteil der Immunisierten sein muss, damit dieses Ziel erreicht wird: PI min
( R0 1) / R0
(14.9)
299
14
14.2 Präventionsstudien
Der Anteil PI min stellt die kritische Immunisierungsschwelle oder die Schwelle zur Herdenimmunität dar. Wenn dieser Anteil überschritten wird, wird die betreffende Krankheit in der Population aussterben. Der Erfolg einer Impfkampagne kann also (falls die Basisreproduktionszahl bekannt ist) im Vorfeld abgeschätzt werden. Beispiel 14.4: Reproduktionszahlen Die Basisreproduktionszahl bei Keuchhusten beträgt etwa R0 15 . Wenn der Anteil PI 90% einer Population immun ist, beträgt der Anteil der Empfänglichen 10%. Die Nettoreproduktionszahl berechnet sich dann nach (14.8) als 15 0,10 1,5 . Aus (14.9) ergibt sich PI min 14 /15 0,933 . Das heißt: Es müssen mindestens 93,3% einer Population immun sein, damit sich die Krankheit nicht weiter ausbreitet.
14.2.3 Der Nutzen eines Screenings Auch bei sekundären Präventionsmaßnahmen, insbesondere bei Screening-Untersuchungen, wird weithin die Meinung vertreten, dass sie in keinem Fall schaden können. Die zugrunde liegende Idee ist einleuchtend: Krankheiten sollen bereits in der präklinischen Phase entdeckt werden, ehe der Patient die ersten klinischen Symptome bemerkt. Zu diesem Zeitpunkt kann eine therapeutische Intervention eventuell verhindern, dass die Krankheit sich weiter ausbreitet und in ein Stadium gelangt, in dem eine Heilung nicht mehr möglich ist. Dies klingt so überzeugend, dass eine genaue Überprüfung der Effizienz eines Screenings überflüssig erscheint. Andererseits haben Screening-Untersuchungen offensichtliche Nachteile: Man denke nur an falsch positive oder falsch negative Befunde und deren Konsequenzen, an die mit manchen Untersuchungen verbundenen Risiken, Unannehmlichkeiten oder an die Kosten. Aus diesen Gründen erscheinen Studien geboten, mit denen sich die Validität und die Effizienz einer Screening-Maßnahme objektiv beurteilen lassen. Die Validität eines Screenings wird (ebenso wie bei einem diagnostischen Test) durch die Sensitivität und die Spezifität beschrie› Abschnitt 14.1.1, S. 287 ff). In der Praxis sind jedoch die Vorben (z hersagewerte interessanter: Sie geben an, inwieweit man sich auf › Abschnitt 14.1.2, S. 289 ff). Daeinen Testbefund verlassen kann (z bei ist zu bedenken, dass die Prävalenz der untersuchten Population in der Regel sehr gering ist. Daher ist der positive Vorhersagewert sehr klein, was wiederum problematisch bei der Interpretation eines Befundes ist. Die Effizienz lässt sich beschreiben, indem man die
300
Kapitel 14 · Studien zu Diagnostik und Prävention
Effektmaße aus Abschnitt 13.4.2 (S. 276 ff) berechnet. An Beispiel 14.5 wird deutlich, dass der Nutzen oft kleiner ist als vielfach angenommen wird. Beispiel 14.5: Screening Die Bedeutung der Maßzahlen in Abschnitt 13.4.2 in Zusammenhang mit Screening-Methoden sei an folgendem Beispiel verdeutlicht. Zugrunde liegen die Ergebnisse von 10 randomisierten Studien, die durchgeführt wurden, um zu ermitteln, ob die regelmäßige Teilnahme am Mammographie-Screening das Risiko verringert, an Brustkrebs zu sterben (Kerlikowske K: Efficacy of screening mammography among women aged 40 to 49 years and 50 to 59 years: Comparision of relative and absolute benefit, Journal of the National Cancer Institute Monographs, 22, 79-86, 1997). Insgesamt hatten 500.000 Frauen in Europa und Nord-Amerika teilgenommen. Das Risiko, innerhalb des Beobachtungszeitraums von 10 Jahren an Brustkrebs zu versterben, betrug 3,6 / 1000 (ohne Screening) bzw. 2,9 / 1000 (mit Screening). Daraus ergibt sich: ARR 0,0007 ; NNT 1.429 ; RR 1,24 und RRR 0,19 . Welches Maß eignet sich zur Darstellung des Nutzens? Die ARR macht deutlich, dass das Risiko durch Screening nur minimal gesenkt werden kann. Noch prägnanter kommt dies in der NNT zum Ausdruck: Wenn sich 1.429 Frauen regelmäßig screenen lassen, wird durchschnittlich eine profitieren und vom Tod durch Brustkrebs bewahrt bleiben. Das RR zeigt, dass dieses Risiko für Frauen ohne Screening etwa 1,24 mal so hoch ist wie für Frauen in der Screening-Gruppe – allerdings kommt nicht zum Ausdruck, dass diese Risiken generell sehr gering sind. Gänzlich irreführend ist die RRR. Sie suggeriert, dass 19% aller Frauen vom Screenen profitieren – in Wirklichkeit beziehen sich die 19% nur auf die Frauen, die ohne Screening an Brustkrebs sterben würden. ! Die NNT (Number Needed to Treat) wird bei Screeningprogrammen auch z
als NNS (Number Needed to Screen) bezeichnet. Weitere Ausführungen zu Screening-Untersuchungen findet man in [8].
14.2.4 Bias
14
Bei Studien zu Präventionsmaßnahmen gibt es eine Reihe spezifischer, systematischer Fehler (Bias):
x Freiwilligenbias. Dies ist eine besondere Form des Selektionsbias. Er kann auftreten, wenn ein Vergleich durchgeführt wird zwischen Personen, die sich freiwillig einer Impfung oder einer Früherkennungsmaßnahme unterziehen, und einer Gruppe von Personen, die dies nicht tun. Die Individuen der beiden Gruppen unterscheiden sich möglicherweise – sei es bezüglich ihres Lebensstils oder des fa-
301
14
14.2 Präventionsstudien
miliären Risikos oder aus anderen Gründen. Verzerrte Ergebnisse wären dabei vorprogrammiert. Um diesen Bias zu vermeiden, sollte der Nutzen einer präventiven Maßnahme im Rahmen einer randomisierten Studie evaluiert wer› Abschnitt 15.1.3, S. 307). Bei diesem Studiendesign entscheiden (z det allein der Zufall, ob ein Teilnehmer an einem Früherkennungsprogramm teilnimmt oder nicht. Reine Beobachtungsstudien könnten zu unzulässigen Schlussfolgerungen führen.
x Lead Time Bias. Bei Patienten mit nicht heilbaren Tumoren, die sich einem Screening-Test unterziehen, werden die Tumore früher entdeckt als bei anderen Patienten. Die Diagnose wird also vorverlegt. Die Überlebenszeit hat sich aufgrund des Screenings nicht verlängert, wohl aber die Zeit zwischen Diagnose und Tod. Dies darf aber in keinem Fall als Verlängerung der Lebenszeit interpretiert werden. In Wirklichkeit hat das Screening eher geschadet, da dadurch ein Teil unbeschwerter Lebenszeit verloren gegangen ist. x Length Time Bias. Durch Screening-Untersuchungen werden vor allem langsam wachsende, wenig aggressive Tumore mit langer präklinischer Phase und guten Chancen auf Heilung aufgespürt. Aggressive Tumore mit schlechter Prognose werden dagegen häufig von den Patienten selbst bemerkt. Dies könnte zu der falschen Schlussfolgerung verleiten, die besseren Heilungschancen bei den langsam wachsenden Tumoren seien allein dem Screening zu verdanken. x Bias durch Überdiagnose. Dies ist eine extreme Form des Length Time Bias. Er entsteht dadurch, dass Erkrankungen bekannt werden, die ohne Screening niemals diagnostiziert worden wären. Dieser Fall kann eintreten, wenn Karzinome entdeckt werden, die zu Lebzeiten des Patienten gar nicht symptomatisch werden würden (weil der Patient vorher an einer anderen Ursache stirbt) oder wenn Tumore erfasst werden, die sich ohne Screening zurückbilden würden. Zusammenfassend bleibt festzuhalten: Der Nutzen eines Screenings ist abhängig von der Prävalenz und der Art der Erkrankung sowie von den zur Verfügung stehenden gesundheitsökonomischen Ressourcen. Darüber hinaus spielen Kriterien wie Sicherheit, Kosten, einfache Anwendung und Akzeptanz eine wichtige Rolle. Leider ist die Durchführung von randomisierten Studien, die den Nutzen belegen könnten, aus verschiedenen Gründen problematisch: Diese Studien müssten sehr viele Teilnehmer umfassen und etliche Jahre dauern, um verlässliche Ergebnisse zu erhalten. Nicht jeder Proband wird gerne den Zufall entscheiden lassen, ob er regelmäßig gescreent
302
Kapitel 14 · Studien zu Diagnostik und Prävention
werden soll oder nicht. Da die Nützlichkeit eines Screenings von den meisten potentiellen Teilnehmern kaum in Zweifel gezogen wird, mag es schwierig sein, sie von der Notwendigkeit solcher Studien zu überzeugen.
Zusammenfassung Kapitel 14 Gütekriterien eines diagnostischen Tests: ŷ Sensitivität (Wahrscheinlichkeit für positiven Befund bei Erkrankung) ŷ Spezifität (Wahrscheinlichkeit für negativen Befund bei NichtErkrankung) Vorhersagewerte: ŷ positiver (Wahrscheinlichkeit, dass bei einem positiven Befund die Krankheit vorliegt) ŷ negativer (Wahrscheinlichkeit, dass bei einem negativen Befund Krankheit nicht vorliegt) Formen der Prävention: ŷ primäre (um das Entstehen einer Krankheit zu verhindern) Zielgruppe: gesunde Personen ŷ sekundäre (um eine Krankheit frühzeitig zu erkennen) Zielgruppe: Personen ohne klinische Symptomatik ŷ tertiäre (um Folgeerscheinungen bei manifesten Krankheiten zu begrenzen) Zielgruppe: Manifest erkrankte Patienten Bias bei Screenings: ŷ Freiwilligenbias ŷ Lead Time Bias (bzgl. Überlebenszeit) ŷ Length Time Bias (bzgl. Heilungschancen) ŷ Bias durch Überdiagnose
14
15
Studien zu Therapie und Prognose 15.1
Therapiestudien 305
15.1.1
Einleitende Bemerkungen 305
15.1.2
Die Phasen einer Arzneimittelstudie 306
15.1.3
Randomisation 307
15.1.4
Verblindung 309
15.1.5
Vergleichsgruppen 310
15.1.6
Das Studienprotokoll 311
15.1.7
Protokollverletzungen 312
15.1.8
Die statistische Analyse 314
15.1.9
Studien zur Nicht-Unterlegenheit 315
15.1.10 Alternative Designs 315
15.2
Prognosestudien 317
15.2.1
Einleitende Bemerkungen 317
15.2.2
Die Beschreibung einer Prognose 318
15.2.3
Die Kaplan-Meier-Methode 318
15.2.4
Die Evaluierung prognostischer Faktoren 321
15.3
Evidenzbasierte Medizin 322
15.3.1
Grundlagen 322
15.3.2
Evidenzbasierte Fallberichte 323
15.3.3
Die Cochrane Collaboration 325
15.3.4
Die Zukunft der evidenzbasierten Medizin 325
305 15.1 Therapiestudien
15.1
15
Therapiestudien
15.1.1 Einleitende Bemerkungen Wenn bei einem Patienten eine Krankheit diagnostiziert wird, stellt sich fast immer die Frage nach einer wirksamen und sicheren Therapie. Dies ist eine Maßnahme, die den Gesundheitszustand des Patienten verbessern soll: ein Medikament, ein chirurgischer Eingriff, eine Diät oder auch eine Psychotherapie. Bei der Verordnung einer Therapie stützt sich der Arzt zumeist auf die Ergebnisse von Studien, in denen deren Nutzen nachgewiesen wurde. Manche Therapien wurden entwickelt aufgrund von theoretischen Überlegungen zu den Krankheitsmechanismen, andere Therapien basieren auf zufälligen Beobachtungen oder langjährigen Erfahrungen eines Arztes. Trotz einer immensen Vielfältigkeit an Arzneimitteln und Medizinprodukten besteht auch heute noch Bedarf an der Entwicklung neuer Therapien: Etwa für Krankheiten, die bisher noch nicht in zufrieden stellender Weise therapierbar sind (AIDS, viele Autoimmunerkrankungen oder das metabolische Syndrom) oder auch, um bei vorhandenen Therapieformen eine bessere Compliance oder eine niedrigere Nebenwirkungsrate zu erzielen. In jedem Fall müssen die Wirksamkeit, die Sicherheit und die Verträglichkeit einer formalen Prüfung unterzogen und mittels einer klinischen Studie untersucht werden. Man unterscheidet nach dem Untersuchungsgegenstand:
ŷ Arzneimittelstudien: Hier stehen Arzneimittel im Fokus. Die Entwicklung eines Medikaments umfasst normalerweise vier › Abschnitt 15.1.2, S. 306). Das Ziel dieser klinische Phasen (z Studien besteht darin, klinische und pharmakologische Wirkungen nachzuweisen und Nebenwirkungen zu untersuchen. ŷ Medizinproduktestudien: Im Rahmen dieser Studien wird die Wirkung von Medizinprodukten untersucht. Dazu zählen Instrumente, Messapparate und Stoffe, die zu medizinischen Zwecken an Menschen eingesetzt werden (Herzschrittmacher, Beatmungsgeräte, chirurgische Instrumente, In-vitro-Diagnostika). ŷ Freie Studien: Dies betrifft OP-Verfahren und Psychotherapien. Wenn eine Therapie an Menschen getestet wird, kann dies mit Risiken verbunden sein – insbesondere dann, wenn nicht genügend Erfahrungen über Wirkung und Nebenwirkungen vorliegen. Andererseits ist es nicht weniger problematisch, unter dem Deckmantel
306
Kapitel 15 · Studien zu Therapie und Prognose
der Ethik Patienten Arzneimittel zukommen zu lassen, deren Wirksamkeit und Sicherheit nicht vorher untersucht worden sind. Die Voraussetzungen zur Durchführung einer Therapiestudie sind daher sehr streng und in mehreren Gesetzesvorlagen verankert, u. a. im Arzneimittelgesetz (AMG) und im Medizinproduktegesetz (MPG). In die neusten Fassungen des AMG sind die Leitlinien zur Durchführung von Therapiestudien nach der „Good Clinical Practice“ (GCP) mit aufgenommen worden. Damit müssen diese international anerkannten Qualitätsanforderungen bei der Durchführung von Arzneimittelstudien zur Anwendung kommen. Ferner muss eine Therapiestudie vor Beginn von einer Ethikkommission begutachtet werden. Diese Kommission muss die Relevanz des Forschungsvorhabens beurteilen und abwägen, ob der zu erwartende Nutzen und die mit der Therapie verbundenen Risiken in einer sinnvollen Relation stehen. Studien, die eine Zulassung eines Arzneimittels beinhalten, müssen zudem der zuständigen Landesbehörde (Regierungspräsidium) und dem Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) oder dem Paul-Ehrlich-Institut (Bundesinstitut für Impfstoffe und biomedizinische Arzneimittel) gemeldet werden. Das Wohl der Patienten und der Probanden hat dabei immer Priorität. Der verantwortliche Arzt oder Versuchsleiter ist verpflichtet, jeden Teilnehmer über das Ziel der Studie, über mögliche Risiken und über den zu erwartenden Aufwand aufzuklären und vor Studienbeginn dessen Einverständnis einzuholen. Niemand darf gegen seinen Willen gezwungen werden, an einer solchen Studie teilzunehmen, und niemand darf benachteiligt werden, wenn er seine Teilnahme verweigert. Jeder Patient hat auch das Recht, nach Studienbeginn ohne Angabe von Gründen sein Einverständnis zurückzuziehen. 15.1.2 Die Phasen einer Arzneimittelstudie Bei der Entwicklung eines Arzneimittels sind mehrere Phasen zu durchlaufen:
ŷ Präklinische Phase. Im Tierversuch werden Hinweise auf den
15
Wirkmechanismus ermittelt und Informationen bezüglich Akutund Langzeittoxikologie erhoben. ŷ Phase I. Gesunde Probanden werden mit dem neuen Arzneimittel behandelt, um Fragen zur Pharmakokinetik und Pharmakodynamik, zur Verträglichkeit, zur Wirkung und zu Nebenwirkungen zu klären.
307 15.1 Therapiestudien
15
ŷ Phase II. Danach wird das Arzneimittel an einzelnen Patienten eingesetzt. In dieser Phase wird das Therapiekonzept überprüft (Phase IIa); außerdem sollen Informationen zur Therapiedosis und zu Nebenwirkungen gewonnen werden (Phase IIb). Diese Phase kann mehrere Hundert Patienten umfassen. ŷ Phase III. In Phase III wird eine größere Patientengruppe, die die neue Therapie erhält, mit einer Kontrollgruppe verglichen (diese Phase kann mehrere Jahre dauern und mehrere Tausend Patienten umfassen). Die Ziele bestehen darin, ein Sicherheitsprofil zu erstellen, eine Nutzen-Risiko-Beziehung sowie eine Dosis-Wirkungs-Beziehung zu ermitteln. Wenn alle Phasen I bis III erfolgreich abgeschlossen sind, kann die Zulassung des Arzneimittels beantragt werden. ŷ Phase IV. Sie beginnt mit der Zulassung und besteht, solange die Therapie auf dem Markt ist. Sie dient der Dokumentation seltener Nebenwirkungen und der Abgrenzung der Indikation. Es ist die Aufgabe der Pharmakoepidemiologie, diese Nebenwirkungen zu erfassen und zu analysieren. Jede Phase I bis IV ist im strengen Sinne klinisch kontrolliert (also experimentell), da der Studienleiter nicht nur beobachtet, sondern interveniert, indem er eine Therapie verabreicht. 15.1.3 Randomisation Klinisch kontrollierte Studien der Phase III sind quasi auf Patientenpopulationen beruhende Experimente, deren Ziel darin besteht, die Wirksamkeit oder die Sicherheit eines Arzneimittels durch einen direkten Vergleich (z. B. mit der bisherigen Standardtherapie oder einem Placebo) nachzuweisen. Auch bei anderen Therapieformen werden gerne Vergleichsstudien durchgeführt, um die Wirksamkeit nachzuweisen. Diese Studien sind analytisch, longitudinal und prospektiv. Es ist sinnvoll, die zu vergleichenden Gruppen nach einem Zufallsverfahren zu bilden. Dann entscheidet in jedem Einzelfall ausschließlich der Zufall, welcher Behandlungsgruppe der Patient zugewiesen wird. Dieses Verfahren bezeichnet man als Randomisation. Damit soll erreicht werden, dass die Gruppen strukturgleich sind – und zwar nicht nur bezüglich bekannter, sondern auch bezüglich unbekannter Einflussfaktoren. Hierin liegt ein wesentlicher Unterschied zu einer Kohortenstudie, bei der die Zuordnung zu einer Gruppe von bestimmten Eigenschaften des individuellen Teilnehmers abhängig ist (z. B. ob er Raucher oder Nichtraucher ist) und nicht von einem Zufallsverfahren bei Studienbeginn.
308
Kapitel 15 · Studien zu Therapie und Prognose
Die Randomisation bietet den Vorteil, dass ein Selektionsbias vermieden wird. Dieser könnte entstehen, wenn Patienten durch den behandelnden Arzt bewusst oder unbewusst – etwa aufgrund ihrer Prognose – einer bestimmten Therapiegruppe zugeordnet werden würden. Darüber hinaus gewährleistet die Randomisation eine hohe interne Validität: Bei strukturgleichen Gruppen zu Beginn der Studie ist klar, dass Unterschiede zwischen den Gruppen, die am Ende der Studie nachgewiesen werden, tatsächlich durch die Therapien bedingt sind. Eine Verzerrung der Ergebnisse durch Confounder ist weitgehend ausgeschlossen. Folgendes ist zu jedoch bedenken:
ŷ Randomisation führt nicht automatisch zu gleich großen Gruppen. Dies kann insbesondere bei kleinen Studien problematisch sein. ŷ Es ist keineswegs garantiert, dass die zu vergleichenden Gruppen bezüglich aller Einflussfaktoren strukturgleich sind. Es gibt einige spezielle Designs, um dem entgegenwirken: x Blockbildung. Dabei werden die Patienten in kleine Blöcke einer fixen Größe eingeteilt – und zwar so, dass innerhalb jedes Blocks gleich viele Patienten auf die einzelnen Therapiegruppen verteilt sind. Wenn etwa die beiden Therapien A und B zu vergleichen sind, kann man mit 6er-Blöcken arbeiten, in denen jeweils 3 Patienten einer der beiden Therapien zugeordnet werden. Jeder Block wird vorab zufällig ausgewählt (z. B. BAABBA). Durch die Blockbildung erreicht man, dass die beiden Therapiegruppen am Ende der Studie den gleichen Umfang haben. Außerdem werden Zwischenauswertungen erleichtert.
15
x Stratifizierung. Bei der stratifizierten Randomisation werden die Patienten zunächst in homogene Schichten (oder Strata) eingeteilt. Eine Schicht besteht aus Patienten, die sich bezüglich wichtiger Einflussfaktoren gleichen oder zumindest ähneln. Bei klinischen Studien ist es oft angebracht, Schichten nach der speziellen Diagnose, dem Alter oder dem Geschlecht zu bilden (und zwar dann, wenn bekannt ist, dass die spezielle Diagnose oder das Alter den Therapieerfolg entscheidend beeinflussen). Dann wird innerhalb jeder Schicht blockweise randomisiert (damit sichergestellt ist, dass die zu vergleichenden Therapiegruppen in jeder Schicht gleich groß sind). Dadurch erreicht man, dass die Therapiegruppen weitgehend homogen sind bezüglich der Merkmale, nach denen stratifiziert wurde. Es ist sinnvoll, die Datenanalyse für jede Schicht getrennt durchzuführen und danach zu vergleichen. Dieses Verfahren wird
309 15.1 Therapiestudien
15
häufig bei multizentrischen Studien angewandt, wobei die Strata mit den einzelnen Zentren identisch sind. x Minimisation. Diese Methode eignet sich eher für kleine Studien. Die Zuweisung erfolgt nur beim ersten Patienten rein zufallsbedingt. Jeder nachfolgende Patient wird dann so zugeordnet, dass die Gruppen bestmöglich hinsichtlich vorab festgelegter Merkmale ausbalanciert werden. Um dem Zufall weiterhin eine Chance zu geben, wird hin und wieder die gewichtete Randomisation verwendet: Dabei wird jeder Patient mit einer vorab festgelegten Wahrscheinlichkeit (die größer ist als 0,5) der Gruppe mit der größten Imbalance zugeordnet. Details zu diesem Design findet man in [12]. Randomisierte Studien sind für wissenschaftliche Fragestellungen sehr wichtig und beobachtenden Studien überlegen. Nur dieser Studientypus ist geeignet, um die Frage nach kausalen Zusammenhängen zuverlässig zu beantworten. Englische Bezeichnungen für diesen Studientypus sind „randomized clinical trial“ oder auch „randomized controlled trial“ mit der Abkürzung RCT. i Die erste randomisierte, doppelblinde Studie wurde 1948 in England z durchgeführt. Dabei wurden die beiden Therapien „Streptomycin“ und „Bettruhe“ zur Behandlung der Lungentuberkulose miteinander verglichen. Diese Studie ist eng mit dem Namen des englischen Epidemiologen Sir Austin Bradford Hill (1897-1991) verbunden. Hill hatte die Randomisation als Basiselement des Therapievergleichs als erster erkannt.
15.1.4 Verblindung Ein Arzt, der eine bestimmte Therapie favorisiert, hat eine Erwartungshaltung und könnte deshalb – wenn auch unbewusst – die Zielgrößen manipulieren, wenn er die Therapieform im Einzelfall kennt. Ebenso ist ein Patient in seiner Wertung möglicherweise beeinflusst, wenn er weiß, womit er therapiert wird. Um derartige Fehlerquellen zu vermeiden, sollte – wann immer dies möglich ist – die Studie verblindet werden. Idealerweise kennen weder der Patient noch der behandelnde Arzt die Therapie, die im Einzelfall verwendet wird. Ein solches Design heißt doppelblind. Diese Vorgehensweise gewährt eine objektive und unvoreingenommene Beurteilung einer Therapie und trägt damit zur Beobachtungsgleichheit und Behandlungsgleichheit bei. Dies bedeutet: Jeder Patient wird in gleicher Weise beobachtet und behandelt (abgesehen von den unterschiedlichen Therapieformen). Gelegentlich wird eine Studie sogar dreifachblind durchgeführt. Dann hat auch die mit der
310
Kapitel 15 · Studien zu Therapie und Prognose
Datenanalyse befasste Person keine Kenntnis bzgl. der einzelnen Therapieformen. Leider sind manche Studien schwer oder gar nicht doppelblind durchführbar – z. B. wenn ein chirurgischer Eingriff mit einer konservativen Therapie verglichen wird. Studien, bei denen nur der Arzt (aber nicht der Patient) die Therapieform kennt, heißen einfachblind. Einfachblind kann auch bedeuten, dass der Patient (aber nicht der Arzt) über die Behandlungsform informiert ist. Dieser Fall mag eintreten, wenn verschiedene Diäten verglichen werden. Eine Studie, bei der sowohl der behandelnde Arzt als auch die Patienten wissen, welche Therapieform angewandt wird, heißt offen. Der Studienleiter sollte sich bemühen, eine Therapiestudie doppelblind zu planen, wann immer dies realisierbar erscheint – auch wenn eine blinde Studie organisatorisch wesentlich schwieriger durchzuführen ist als eine offene Studie. Die so genannte DoubleDummy-Technik ermöglicht ein doppelblindes Design auch dann, wenn zwei Medikamente in unterschiedlicher Applikation (z. B. oral und subkutan) gegeben werden: Dann wird in jeder Gruppe eines der beiden Medikamente als Placebo verabreicht. Allerdings muss angemerkt werden, dass ein solches Studiendesign aufwendig, teuer und logistisch herausfordernd ist. Bei einer doppelblinden Studie muss sichergestellt sein, dass sich der behandelnde Arzt im Notfall umgehend über die spezielle Therapie eines Patienten informieren kann. Dafür wird ein versiegelter Notfallumschlag mit dem Namen des Patienten und Informationen über dessen Therapie bereitgelegt. Einschränkend muss hinzugefügt werden, dass eine vollständige Verblindung bis zum Ende der Studie nicht immer realisierbar ist. Häufig treten im Laufe einer Studie Therapieeffekte oder Nebenwirkungen auf, die beim Arzt oder beim Patienten einen Verdacht aufkommen lassen. Dennoch sollten eine Verblindung und eine objektive Auswertung der erhobenen Daten angestrebt werden. Notfalls sollte wenigstens ein verblindeter Beobachter herangezogen werden, um den Therapieerfolg am Ende der Studie unvoreingenommen zu beurteilen. Dieses Design nennt man beobachterblind.
15
15.1.5 Vergleichsgruppen Wenn sich nach einer therapeutischen Maßnahme der Zustand eines Patienten verbessert hat, ist dies nicht unbedingt allein auf den Einfluss der Therapie zurückzuführen. Auch unspezifische Effekte könnten dafür maßgebend sein: etwa der natürliche Krankheitsver-
311 15.1 Therapiestudien
15
lauf oder der Hawthorne-Effekt, der dadurch entsteht, dass sich die Patienten besser fühlen, wenn ihnen Aufmerksamkeit geschenkt wird. Nicht zuletzt kann der Placebo-Effekt wesentlich zur Verbesserung des Befindens beitragen. Der Nutzen einer Therapie kann daher nur im direkten Vergleich ermessen werden. Die Qualität einer Studie wird nicht zuletzt durch die Vergleichsgruppe bestimmt. Theoretisch sind denkbar:
ŷ Standardtherapie. Falls eine Standardtherapie bereits etabliert ist, sind andere Vergleichsgruppen wissenschaftlich und ethisch nicht vertretbar. ŷ Placebo. Ein Placebo (Scheinmedikament, das sich im Aussehen, Geschmack und Geruch nicht von der wirksamen Substanz unterscheidet) als Vergleich sollte nur dann verwendet werden, wenn keine Standardtherapie zur Verfügung steht und keine ethischen Bedenken gegeben sind. ŷ Historische Kontrollgruppe. Auf eine historische Kontrollgruppe (also eine Gruppe, die in der Vergangenheit behandelt wurde) greift man zurück, wenn keine Standardtherapie existiert und ein Placebovergleich ethisch nicht zu rechtfertigen ist. Diese Vorgehensweise ist angebracht bei Krankheiten, die ohne Behandlung unweigerlich zum Tod oder zu einer dramatischen Verschlechterung des Zustands der betroffenen Patienten führen würden. Historische Kontrollen sind jedoch problematisch, vor allem dann, wenn sich auch andere Faktoren im Laufe der Zeit ändern (z. B. durch verfeinerte Diagnostik oder verbesserte Begleittherapien). Beobachtungsgleichheit ist dann nicht mehr gegeben. Historische Kontrollen tendieren dazu, den Wirkungseffekt der neuen Therapie zu überschätzen. 15.1.6 Das Studienprotokoll Wegen der hohen Qualitätsansprüche und der strengen Voraussetzungen sollte ein ausführliches Studienprotokoll mit folgendem Inhalt angefertigt werden:
ŷ Name und Ziel der Studie ŷ Studiendesign (z. B. Angaben zu Randomisation und Verblindung sowie beteiligte Kliniken oder Institutionen)
ŷ Zeitplan (Beginn, Rekrutierungs- und Untersuchungszeitraum sowie geplantes Ende der Studie)
312
Kapitel 15 · Studien zu Therapie und Prognose
ŷ Behandlung. Die zu evaluierende Therapie und die Vergleichsŷ ŷ
ŷ
ŷ
ŷ ŷ ŷ
behandlung müssen vollständig beschrieben werden. Dazu zählen auch die Dauer und Dosierung der Anwendungen. Einschlusskriterien. Sie legen fest, unter welchen Voraussetzungen Patienten in die Studie aufgenommen werden. Es ist ferner wichtig, deren Einverständnis zur Teilnahme zu dokumentieren. Ausschlusskriterien. Sie beziehen sich auf Patienten, die zwar alle Einschlusskriterien erfüllen, aber dennoch von der Studie ausgeschlossen werden müssen (etwa weil ein erhöhtes Risiko besteht oder eine weitere Krankheit vorliegt). Abbruchkriterien. Sie geben an, unter welchen Bedingungen einzelne Patienten von der laufenden Studie ausgeschlossen werden oder die Studie vorzeitig abgebrochen wird. Dieser Fall könnte eintreten, wenn unerwartete, gravierende Nebenwirkungen beobachtet werden. Angaben zur Biometrie. Diese beinhalten die primären und sekundären Zielgrößen, die zu überprüfende Hypothese, Angaben zu den Stichproben, die statistischen Analysemethoden sowie die benötigte Anzahl von Patienten oder Probanden. Mögliche Mängel der Studie. Falls nicht alle Qualitätskriterien optimal erfüllt sind (z. B. Doppelblindheit), muss dies dokumentiert und begründet werden. Besondere Angaben (etwa Kostenträger oder Auftraggeber) Angaben zur ethischen und rechtlichen Basis. Dazu zählen die Stellungnahme der Ethikkommission sowie die Beschreibung, in welcher Weise die Patienten oder Probanden über die Studie informiert wurden und welche Versicherungen abgeschlossen werden.
Die Festlegung der Ein- und Ausschlusskriterien soll die interindividuelle Variabilität der Patienten verringern. Anhand dieser Kriterien lässt sich beurteilen, auf welchen Personenkreis die Ergebnisse der › externe Validität, Abschnitt 12.6.1, S. Studie übertragbar sind (z 259). 15.1.7 Protokollverletzungen
15
Die Randomisation wird durchgeführt, um strukturgleiche Gruppen zu erhalten. Idealerweise bleiben die Patienten bis zum Ende der Studie in der ihnen anfangs zugewiesenen Gruppe, werden wie vorgesehen therapiert und stehen bis zur letzten Untersuchung zur Verfügung.
313 15.1 Therapiestudien
15
Die Realität sieht jedoch häufig anders aus. Es ist keineswegs sichergestellt, dass die Studie mit den anfangs erstellten, strukturgleichen Gruppen protokollgemäß zu Ende geführt werden kann. So kann es passieren, dass Patienten vorzeitig ausscheiden (Drop Outs). Dies ist nicht allzu problematisch, wenn deren Anzahl gering ist und der Grund dafür in keinem Zusammenhang mit dem interessierenden Endereignis steht. Ein weit größeres Problem ergibt sich, wenn Patienten ausscheiden oder die Therapiegruppe wechseln aus Gründen, die mit der anfangs zugeteilten Therapie assoziiert sind: Wegen vermeintlicher Wirkungslosigkeit, unangenehmer Nebenwirkungen oder auf Anraten ihres Arztes. Es wurden mehrere Analysemethoden entwickelt, um diese Protokollverletzungen zu handhaben:
ŷ Intention to Treat (ITT). Bei diesem Verfahren werden alle Patienten in die Analyse einbezogen, und zwar in der Gruppe, zu der sie anfangs randomisiert worden sind. Dies setzt voraus, dass auch die Studienabbrecher wenigstens zur Enduntersuchung erscheinen. ŷ As Treated (AT). Dieser Ansatz wertet die Patienten danach aus, welche Therapie sie – eventuell nach einem Wechsel – zuletzt erhalten haben. Studienabbrecher werden dabei nicht berücksichtigt. ŷ Per Protocol (PP). Dieses Prinzip verlangt, dass alle nicht protokollgemäß behandelten Patienten (also Abbrecher und Wechsler) von der Analyse ausgeschlossen werden. Der Vorteil der ITT-Analyse besteht darin, dass die Strukturgleichheit der Gruppen bis zum Ende der Studie gewahrt bleibt. Nachteilig ist jedoch, dass Unterschiede zwischen den Therapien verwässert werden. Allerdings ist zu bedenken, dass sich normalerweise nicht alle Patienten an die Therapieempfehlungen halten, wodurch die durchschnittliche Wirksamkeit abgeschwächt wird. Insofern beschreibt die ITT-Analyse einen Effekt, der in der Praxis zu erwarten ist (im Englischen wird dies „effectiveness of treatment“ genannt). Mit den AT- und PP-Analysen treten Unterschiede zwischen den Gruppen deutlicher in Erscheinung. Diese Strategien beschreiben eher die biologische Wirksamkeit (englisch: clinical efficacy). Allerdings ist bei diesen Ansätzen die durch die Randomisation erzielte Strukturgleichheit am Ende der Studie nicht mehr gegeben. Es kann daher keineswegs geschlussfolgert werden, dass ein nachgewiesener Unterschied allein durch die Therapie bedingt ist.
314
Kapitel 15 · Studien zu Therapie und Prognose
Man sollte versuchen, durch sorgfältige Studienplanung Protokollverletzungen weitestgehend zu vermeiden. Es ist darüber hinaus empfehlenswert, während der Studie einen intensiven Kontakt zu den Patienten zu pflegen, um eine gute Compliance (Art, wie die Patienten den ärztlichen Anweisungen folgen) zu erzielen. 15.1.8 Die statistische Analyse Die Voraussetzungen für die statistische Analyse sind optimal, wenn strukturgleiche Gruppen vorliegen, die sich lediglich bezüglich der Therapie unterscheiden. Geeignete Analysemethoden sind abhängig von der Zielgröße.
ŷ Quantitative Zielgröße (z. B. Blutsenkung in mmHg). Zum Ver-
gleich zweier Therapiegruppen eignet sich ein t-Test für unverbundene Stichproben oder der U-Test von Mann und Whitney › Abschnitte 10.1.3 und 10.2.3). Wenn mehr als zwei Gruppen (z zu vergleichen sind, können stattdessen eine 1-faktorielle Vari› anzanalyse oder der Kruskal-Wallis-Test verwendet werden (z Abschnitt 10.4.1). Mit einem multiplen Verfahren (Allgemeines lineares Modell) lassen sich mehrere Einflussgrößen simultan › Abschnitt 10.4.2). Damit können eventuell voranalysieren (z handene Ungleichheiten der Gruppen (die trotz Randomisation auftreten können) ausgeglichen werden. ŷ Binäre Zielgröße (z. B. Erfolg eingetreten: ja / nein). Für den Vergleich mehrerer Therapiegruppen bieten sich ein Chi2-Test oder der exakte Test nach Fisher an. Als multiples Modell steht › Abschnitte 11.1.1, die Logistische Regression zur Verfügung (z 11.2.1 und 11.2.3). ŷ Zeitdauer als Zielgröße (z. B. Zeit zwischen Therapiebeginn und Heilung). Diese Zeiten sind bei den meisten Studien teilweise zensiert. Zu deren Analyse eignen sich die Kaplan-MeierMethode und der Logrank-Test sowie das Cox-Regressionsmo› Abschnitte 15.2.3 und 15.2.4). dell als multiple Methode (z
15
Es ist nicht unbedingt trivial, eine adäquate Zielgröße festzulegen. Generell ist bei deren Wahl abzuwägen zwischen dem, was praktisch realisierbar ist und dem, was klinisch relevant erscheint. Aus statistischer Sicht eignen sich Merkmale, die präzise messbar und innerhalb eines absehbaren Zeitrahmens erfassbar sind (z. B. Laborwerte). Relevant sind jedoch oft andere Merkmale wie etwa die Lebensqualität oder die Überlebenszeit. Bei klinischen Studien werden häufig › AbSurrogatmerkmale anstelle von klinischen Endzuständen (z
315 15.1 Therapiestudien
15
schnitt 2.4, S. 30) untersucht, um Studien schneller abschließen und publizieren zu können. Surrogatmerkmale werden hin und wieder auch dann verwendet, wenn die Analyse der primären klinischen Zielgröße den Erwartungen nicht gerecht wird. Der kritische Leser einer Publikation sollte sich fragen, ob die Verwendung eines Surrogatmerkmals gerechtfertigt ist und ob die Schlussfolgerungen statthaft sind. ! Wenn bei einer neuen Therapie mit schweren Nebenwirkungen zu rechz
nen ist, kann – analog zur NNT – die so genannte NNH (Number Needed to Harm) berechnet werden. Sie gibt an, wie viele Patienten zu behandeln sind, damit durchschnittlich einer aufgrund der neuen Therapie Schaden erleidet. Die NNT sollte möglichst gering, die NNH dagegen hoch sein.
15.1.9 Studien zur Nicht-Unterlegenheit Beim Vergleich zweier Therapien geht es nicht immer darum, einen signifikanten Unterschied nachzuweisen. Wenn beispielsweise bekannt ist, dass eine neue Therapie weniger Nebenwirkungen hat, einfacher zu applizieren oder preiswerter ist als eine Vergleichstherapie, oder dass eine bessere Compliance zu erwarten ist, muss nicht zusätzlich gefordert werden, dass sie auch in ihrer Wirksamkeit überlegen ist. Bei derlei Fragestellungen würde der Nachweis genügen, dass die neue Therapie mindestens genauso wirksam ist wie die Standardtherapie. Ein signifikantes Testergebnis wird demnach nicht unbedingt angestrebt. Es ist andererseits nicht statthaft, ein nicht-signifikantes Testergebnis dahingehend zu interpretieren, dass die zu vergleichenden Therapien äquivalent seien. Der Nicht-UnterlegenheitsNachweis basiert auf der Konstruktion eines Konfidenzintervalls für › Abschnitt 9.2.2, die Wirkungsdifferenz der beiden Therapien (z S. 185). Man muss sich vorab überlegen, ab welcher Größe ein Unterschied als klinisch bedeutsam angesehen wird. Ausführliche Hinweise findet man in [12]. 15.1.10 Alternative Designs Randomisierte klinische Studien sind sehr aufwendig und unterliegen strengen Vorschriften. Sie sind zwar wegen der Strukturgleichheit der Gruppen intern valide; wegen der strengen Ein- und Ausschlusskriterien mangelt es ihnen aber häufig an externer Validität –
316
Kapitel 15 · Studien zu Therapie und Prognose
das heißt, es ist mitunter problematisch, die Ergebnisse auf andere Patientengruppen zu übertragen. Ferner ist zu bedenken, dass die Randomisation nicht immer praktisch umsetzbar ist. Manche Patienten verweigern sie, weil sie wünschen, dass ihr Arzt über die Therapie entscheidet. Bei Notfallpatienten ist eine Randomisation (verbunden mit der Aufklärung und der Einwilligung des Patienten) nicht möglich. Aus diesen Gründen ist es sinnvoll, Alternativen zu diskutieren. x Nicht-randomisierte klinische Studien. Bei diesen Studien entscheiden der behandelnde Arzt oder der Patient, welche Therapie angewandt wird. Dieses Design ist zwar auch experimentell; der Nachteil besteht darin, dass keine Strukturgleichheit gewährleistet werden kann. Mit einem multiplen statistischen Verfahren lassen sich jedoch Unterschiede zwischen den Vergleichsgruppen ausbalancieren (allerdings nur für bekannte Einflussfaktoren).
15
x Cross-Over-Design. Bei diesem Design wird jeder Patient mit zwei unterschiedlichen Therapien behandelt. Die Therapien können gleichzeitig (Blockversuche; z. B. bei paarigen Organen) oder zeitlich versetzt durchgeführt werden. Jeder Patient stellt also seine eigene Kontrolle dar. Idealerweise sollte die Zuordnung der Therapien randomisiert erfolgen. Wenn die Therapien nacheinander verabreicht werden, ist auf eine therapiefreie Übergangsphase zu achten, um Überhangeffekte zu vermeiden. Dieses Studiendesign erfordert statistische Auswertungsmethoden für verbundene Stichproben. Zur Analyse eines quantitativen Merkmals bietet sich der t-Test oder der › Abschnitte 10.1.2, Wilcoxon-Test für verbundene Stichproben an (z S. 198 und 10.2.2, S. 206); bei einem Alternativmerkmal eignet sich › Abschnitt 11.1.6, S. 228). der McNemar-Test (z Bei einer Cross-Over-Studie werden weit weniger Patienten als bei einer zweiarmigen Studie benötigt. Dieses Design ist allerdings ungeeignet bei progredienten Erkrankungen und bei Krankheiten, bei denen eine der beiden Therapien zur Heilung oder zur nachhaltigen Besserung des Gesamtzustands führt. Anwendungsmöglichkeiten sind gegeben bei chronischen Krankheiten wie z. B. rheumatischen Erkrankungen oder bei chronischen Hauterkrankungen wie etwa Neurodermitis, wo lediglich eine Milderung der Symptome zu erwarten ist. x Kohortenstudien. Es handelt sich um Beobachtungsstudien, bei denen der Studienleiter die Therapieform nicht vorgibt. Falls neben der Therapie weitere Faktoren evaluiert werden, lassen sich diese Studien auch auffassen als Prognosestudien, bei denen die Therapie
317 15.2 Prognosestudien
15
als ein potentieller Einflussfaktor analysiert wird. Dieses Vorgehen birgt jedoch – ebenso wie nicht-randomiserte klinische Studien – die Gefahr eines Selektionsbias in sich. x Studien ohne direkte Vergleichsgruppe. Das denkbar einfachste Design, um die Wirkung einer Therapie zu überprüfen, besteht darin, einen einfachen Vorher-Nachher-Vergleich durchzuführen. Vereinzelt wird in Fallberichten oder Fallserien über zumeist erfolgreiche therapeutische Interventionen berichtet. Allerdings ist die Aussagekraft solcher Studien gering: Wegen der fehlenden Vergleichsgruppe kann schwer beurteilt werden, worauf eine Verbesserung des Zustands zurückzuführen ist. Ersatzweise kann man eine historische Kontrollgruppe oder eine Vergleichsgruppe aus der Literatur heranziehen. Diese Designs sind jedoch wegen der mangelhaften Beobachtungsgleichheit problematisch und sollten nur in begründeten Ausnahmefällen verwendet werden (etwa wenn ein direkter Vergleich aus ethischen Gründen nicht akzeptabel ist). x Retrospektive Studien. Falls die Daten für zwei Therapiegruppen bereits vorliegen, ist auch ein Vergleich denkbar, der retrospektiv durchgeführt wird. Allerdings ist anhand der Dokumentationen in der Regel nicht erkennbar, welche Beweggründe in die Therapieentscheidung des behandelnden Arztes eingeflossen sind. Deshalb sind die Ergebnisse dieser Studien mit Vorsicht zu bewerten. Dieser Studientypus bietet sich am ehesten bei freien Studien, aber kaum bei Arzneimittel- und Medizinproduktestudien an. i Ausführliche Hinweise bezüglich der Planung, Vorbereitung und praktiz schen Durchführung von Arzneimittelstudien findet man in [13]. Dieses Buch enthält auch die Deklaration des Weltärztebundes von Helsinki und Auszüge aus dem Arzneimittelgesetz.
15.2
Prognosestudien
15.2.1 Einleitende Bemerkungen Viele akute Krankheiten haben, vor allem wenn sie gut therapierbar sind, einen zeitlich begrenzten Verlauf. Chronische Krankheiten können hingegen das Leben eines Patienten nachhaltig beeinflussen (insbesondere wenn sie mit einer hohen Mortalität oder einer starken Beeinträchtigung der Lebensqualität einhergehen). In diesen Fällen ist es für den Patienten wichtig, Informationen bezüglich seiner Prognose zu erhalten. Der Begriff klinischer Verlauf bezeichnet
318
Kapitel 15 · Studien zu Therapie und Prognose
die Prognose, wenn eine adäquate Behandlung erfolgt. Dagegen versteht man unter dem natürlichen Verlauf die Prognose ohne medizinische Intervention. Prognosestudien werden in Angriff genommen, um einerseits eine Prognose über eine geeignete Maßzahl quantifizieren zu können und andererseits, um Prognosefaktoren zu finden, die den Verlauf einer Krankheit beeinflussen. Bei Kenntnis wichtiger Prognosefaktoren ist es eventuell möglich, Vorhersagen im Einzelfall zu treffen. Es ist üblich, derlei Studien als Kohortenstudien durchzuführen. Dabei wird eine Gruppe von Personen, die an einer bestimmten Krankheit leiden, prospektiv beobachtet, und zwar solange, bis ein definiertes Endereignis eintritt. Dies kann der Tod des Patienten sein; es kann sich jedoch auch um ein anderes, für den Patienten wichtiges Ereignis handeln. Bei Studien in der Onkologie wird beispielsweise häufig die Zeit bis zum Auftreten eines Rezidivs oder bis zum Eintreten einer Remission analysiert. Hin und wieder werden auch zusammengesetzte Endpunkte untersucht (z. B. Tod oder Auftreten eines Rezidivs). Der Startzeitpunkt, ab dem ein Patient beobachtet wird, muss ebenfalls klar definiert sein (etwa der Zeitpunkt der Diagnose oder des Behandlungsbeginns). 15.2.2 Die Beschreibung einer Prognose Häufig wird die Prognose mittels einer Rate ausgedrückt, wie etwa der 5-Jahres-Überlebensrate, der Letalität, der Mortalität, der Remissions- oder der Rezidivrate. Eine andere Form der Darstellung ist die mediane Überlebenszeit, die die Zeitspanne angibt, die die Hälfte der Kohorte überlebt. Sie hat den Vorteil, dass sie – im Gegensatz zur mittleren Überlebenszeit – bereits dann berechnet werden kann, nachdem die Hälfte der Studienteilnehmer verstorben ist. All diese Maßzahlen sind leicht einprägsam. Andererseits sind sie wenig informativ. So ist beispielsweise aus der 5-Jahres-Überlebensrate nicht ersichtlich, wie groß die Wahrscheinlichkeit ist, eine andere Zeitspanne zu überleben. Detaillierte Analysemethoden werden in den folgenden Abschnitten vorgestellt.
15
15.2.3 Die Kaplan-Meier-Methode Um das Überleben einer Kohorte für jeden Zeitpunkt bis zum Ende der Studie zu beschreiben, müsste man die Kohorte solange beobachten, bis der letzte Patient verstorben ist. Dies ist in den meisten
319 15.2 Prognosestudien
15
Fällen aber nicht möglich, da man bei derlei Studien mit Studienabbrechern (Drop Outs) rechnen muss. Außerdem ist anzunehmen, dass zum Zeitpunkt der Datenanalyse nicht bei jedem Patienten das › AbEndereignis eingetreten ist. Diese Zeiten nennt man zensiert (z schnitt 2.4, S. 31). Es würde das Studienergebnis verzerren, wenn man alle Patienten mit zensierten Zeiten von der Analyse ausschließen würde. Zwei Biostatistiker – Edward M. Kaplan und Paul Meier – haben im Jahre 1958 die nach ihnen benannte Kaplan-Meier-Methode entwickelt, welche die Informationen aller Patienten (also auch die unvollständigen Angaben) so weit wie möglich berücksichtigt. Diese Methode wird häufig bei Überlebenszeitanalysen angewandt. Der Begriff Überlebenszeitanalyse wird dabei ganz allgemein verwendet, um die Zeit zwischen einem definierten Anfangs- und einem bestimmten Endereignis zu untersuchen. Die Kaplan-Meier-Methode lässt sich wie folgt beschreiben:
ŷ Die Studie startet mit n Patienten. Diese Anzahl reduziert sich im Laufe der Zeit, da Patienten ausscheiden (weil das kritische Endereignis eintritt oder auch aus anderen Gründen). ŷ Die Zeiten, zu denen Endereignisse stattfinden, werden ermittelt und mit t1 t 2 ... t k bezeichnet. Die Anzahl der Patienten, die zu diesen Zeitpunkten ausscheiden, sei d1 , d 2 etc. ŷ Die Anzahl der Patienten, die unmittelbar vor einem Zeitpunkt ti noch in der Studie involviert sind, sei ni . ŷ Die Überlebensfunktionen S (ti ) P(t ! ti ) werden für jeden Zeitpunkt ti ( i 1,..., k ) geschätzt nach: Sˆ (ti )
n di n1 d1 n2 d 2 ... i n1 n2 ni
(15.1)
Wenn es keine zensierten Daten gibt, ist ni 1 ni d i . Dann lässt sich der Bruch in (15.1) kürzen und man erhält Sˆ (ti ) ni 1 / n (mit n n1 ). Dies ist also die Zahl derer, die den Zeitpunkt ti überlebt haben, im Verhältnis zu der Gesamtzahl der Patienten, die zu Beginn an der Studie teilnehmen. In dieser Form ist die Schätzung einfach und unmittelbar einleuchtend. Wenn – wie in Beispiel 15.1 (S. 320) – bei einigen Patienten das Endereignis am Ende der Studie noch nicht eingetreten ist, kann die Überlebensfunktion nur bis zum Zeitpunkt der letzten zensierten Beobachtung geschätzt werden. Die graphische Darstellung der Wahrscheinlichkeiten S (ti ) in Abhängigkeit der Zeitpunkte ti er› Abbildung 15.1, S. 320). gibt die Überlebenskurve (z
320
Kapitel 15 · Studien zu Therapie und Prognose
Beispiel 15.1: Kaplan-Meier-Methode Nach einer Organtransplantation wurden bei 10 Patienten die Überlebenszeiten in Tagen ermittelt. Nach 160 Tagen wurde die Studie beendet. Bei 7 Patienten konnte der Zeitpunkt des Endereignisses ermittelt werden (nach 20, 35, 62, 91, 91, 128 und 148 Tagen). Ein Patient brach nach 98 Tagen die Studie ab; zwei Patienten lebten am Ende der Studie noch. Mit diesen Angaben erhält man (unter Berücksichtigung des zensierten Wertes nach 98 Tagen) folgende Schätzwerte für S (ti ) : Zeiten
ni
di
ni d i
Sˆ (ti )
t1
20
10
1
9
9 / 10
t2
35
9
1
8
0,9 8 / 9
0,8
t3
62
8
1
7
0,8 7 / 8
0,7
t4
91
7
2
5
0,7 5 / 7
0,5
t5
128
4
1
3
0,5 3 / 4
0,375
t6
148
3
1
2
0,375 2 / 3
0,9
0,25
Abb. 15.1 empirische Überlebenskurve (Beispiel 15.1). Zensierte Daten sind durch einen Asterisk dargestellt.
Überlebenswahrscheinlichkeit
Es leuchtet ein, dass die Schätzung nach Formel (15.1) (Seite 319) mit wachsendem t schlechter wird, da zu jedem neuen Beobachtungszeitpunkt ti weniger Patienten zur Verfügung stehen. 1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
* ** 0
15
20
40 60 80 100 120 140 160 Überlebenszeit in Tagen
321 15.2 Prognosestudien
15
Mathematische Herleitung der Überlebenszeiten Unmittelbar vor dem Zeitpunkt t1 stehen n1 Beobachtungseinheiten zur Verfügung, zum Zeitpunkt t1 sterben d1 Patienten. Die Wahrscheinlichkeit, t1 zu überleben, wird geschätzt als: n1 d1 Sˆ (t1 ) n1 Die Wahrscheinlichkeit, den Zeitpunkt t2 zu überleben, ist nach (6.9), S. 110: S (t2 )
P(t ! t2 )
P (t ! t1 ) P (t ! t2 | t ! t1 )
Der erste Faktor wird geschätzt über Sˆ (t1 ) (siehe oben); den zweiten schätzt man analog. So ergibt sich: Sˆ (t 2 )
n1 d1 n2 d 2 . n1 n2
Durch sukzessives Wiederholen erhält man schließlich die Formel (15.1).
15.2.4 Die Evaluierung prognostischer Faktoren › Abschnitt 11.1.8. S. 232) können zwei Mit dem Logrank-Test (z oder mehrere Gruppen, die sich bezüglich einer Einflussgröße (z. B. der Therapieform oder des Krankheitsstadiums) unterscheiden, verglichen werden. Dieser Test ist geeignet, um Unterschiede zwischen den Überlebenskurven zu erkennen. Ein signifikanter Unterschied weist darauf hin, dass die Gruppierungsvariable prognostisch relevant sein könnte. Im Jahre 1972 wurde von dem britischen Statistiker David Cox eine multiple Methode vorgestellt, die es ermöglicht, eine Kombination von prognostischen Faktoren ausfindig zu machen, die den Endzustand eines Patienten in optimaler Weise vorhersagt. Mit diesem Cox-Proportional-Hazards-Modell wird die in Formel (7.26) (S. 147) definierte Hazard-Rate in Abhängigkeit von einer oder mehreren Einflussgrößen als Hazard-Funktion modelliert. Dies entspricht der momentanen Sterberate. Für zwei Patienten oder Populationen kann dann der Quotient der jeweiligen Hazard-Funktionen bestimmt werden. Diese so genannte Hazard-Ratio ist ein Maß für das relative Risiko. Die Hazard-Ratio kann für jeden Zeitpunkt berechnet werden und ermöglicht dadurch – im Gegensatz zu einfachen Maßzahlen wie der 5-Jahres-Überlebensrate – Prognosen für jeden einzelnen Zeitpunkt. Die Kaplan-Meier-Methode und das Cox-Regressionsmodell ermöglichen Überlebenszeitanalysen auch dann, wenn zensierte Daten vorliegen. Bei der Planung einer Überlebenszeitstudie ist generell zu beachten:
322
Kapitel 15 · Studien zu Therapie und Prognose
ŷ Anfang und Ende des Beobachtungszeitraums sollten möglichst exakt definiert sein.
ŷ Bei der Planung des Stichprobenumfangs muss einkalkuliert werden, dass einige Daten möglicherweise zensiert werden.
ŷ Die Beobachtungszeit sollte ausreichend lang bemessen sein, damit bei möglichst vielen Patienten das interessierende Endereignis eintritt. ŷ Wenn Patienten vorzeitig aus der Studie ausscheiden, sollten die Gründe dafür in keinem Zusammenhang mit der Prognose stehen. Ansonsten könnten die Drop Outs zu fehlerhaften Schlussfolgerungen führen. i Für weitere Informationen bezüglich der Analyse von Ereigniszeiten sei z auf [7] und [12] verwiesen.
15.3
Evidenzbasierte Medizin
15.3.1 Grundlagen
15
Warum gehört ein Abschnitt zu Evidenzbasierter Medizin (EBM) in ein Lehrbuch für Biomathematik und Epidemiologie? EBM ist mit den Methoden der Klinischen Epidemiologie und der Biomathematik eng verbunden. Ohne Kenntnisse dieser Methoden können wissenschaftliche Arbeiten nicht kritisch interpretiert werden – und diese Evaluierung stellt eine Grundlage der EBM dar. Evidenzbasierte Medizin (Evidence Based Medicine) ist eine Medizin, die sich nicht nur an Intuition, unsystematischen individuellen Erfahrungen eines Arztes (auch nicht eines Chefarztes) oder im besten Fall an veralteten Lehrbüchern orientiert, sondern versucht, ärztliche Entscheidungen auf wissenschaftliche und objektive Belege (und so ist das englische Wort „evidence“ zu verstehen) zu gründen. Nach dem britischen Epidemiologen David Sackett (geboren 1934) ist EBM der gewissenhafte, ausdrückliche und vernünftige Gebrauch der gegenwärtig besten externen, wissenschaftlichen Evidenz in der medizinischen Versorgung individueller Patienten. Systematische Übersichtsarbeiten mit Metaanalysen und einzelne randomisierte, klinische Therapiestudien sind die Basis für eine solche Vorgehensweise, und es erscheint sinnvoll, dass sich ein Arzt bei der Patientenbehandlung an den Ergebnissen aller ihm zur Verfügung stehenden, relevanten Studien von guter Qualität orientiert.
323 15.3 Evidenzbasierte Medizin
15
Dies hört sich selbstverständlich an, ist aber in der Realität nicht einfach umzusetzen. Die Ergebnisse aus der medizinischen Forschung und die daraus hervorgehenden Publikationen vermehren sich rasant. In der knapp bemessenen Lesezeit ist dies von einem einzelnen Arzt nicht mehr zu bewältigen. EBM bietet durch ein struktu› riertes Vorgehen Hilfe bei der ärztlichen Entscheidungsfindung (z Abschnitt 15.3, S. 322 ff). Dabei muss der behandelnde Arzt nicht in jedem Einzelfall die Originalliteratur lesen. Häufig kann er mittlerweile auf gute Sekundärliteratur zurückgreifen, in der Kollegen die gesamte, verfügbare Literatur zu einer bestimmten Fragestellung (z. B. „Wie behandle ich die Psoriasis am besten?“) nach den Gesichtspunkten der EBM gesichtet und analysiert haben. Darüber hinaus stellt die evidenzbasierte Bewertung medizinischer Literatur einen wichtigen Beitrag zur Qualitätsverbesserung und Qualitätssicherung in der Klinik und in der Gesundheitsversorgung dar. Aus diesen Gründen hat die EBM in den letzten Jahren an Bedeutung gewonnen und findet sowohl in der klinischen Praxis als auch im Bereich der Leitlinienentwicklung zunehmend Einzug. Leitlinien der höchsten Stufe setzen eine nach evidenzbasierten Gesichtspunkten durchgeführte Evaluation der Literatur voraus. 15.3.2 Evidenzbasierte Fallberichte EBM fokusiert sich auf den individuellen Patienten, für den es gilt, die bestmögliche Diagnostik bzw. Therapie auszuwählen. Aufbauend auf dem Konzept von David Sackett erfolgt ein mehrstufiges Vorgehen. An erster Stelle steht die Formulierung einer klinischen Fragestellung. Die weiteren Schritte geben den weitgehend standardisierten Prozess der Entscheidungsfindung an. Diese basiert auf der kritischen Bewertung der gefunden Literatur; dabei werden die Res› Abschnitt 15.3.3, S. 325), sourcen der Cochrane Collaboration (z jedoch auch anderer medizinischer Datenbanken genutzt. Am Ende steht die Überprüfung der getroffenen Entscheidung. Dies soll an einem Beispiel verdeutlicht werden: Ein Patient, der unter verstärktem Schwitzen im Bereich der Achseln leidet (Hyperhidrose), stellt sich in der Praxis eines Dermatologen vor. Damit ergibt sich die Fragestellung: Wie kann dieser Patient am wirksamsten und nebenwirkungsärmsten behandelt werden? Ein Arzt, der diese Entscheidung nur auf seinen eigenen, individuellen Erfahrungen aufbaut, wird dem Patienten eine Therapie empfehlen, die er selbst schon mehrfach erfolgreich angewandt hat, ohne über Alternativen nachzudenken. So wird ein Arzt aus einer operativen Klinik dem
324
Kapitel 15 · Studien zu Therapie und Prognose
Patienten eher eine operative Therapie (z. B. Schweißdrüsenexzision) empfehlen als ein Arzt, der in einer eher konservativ orientierten Klinik tätig ist. Ein Arzt, der hingegen versucht, eine evidenzbasierte Therapieentscheidung zu treffen, wird vor seiner Entscheidung auf eine systematische Übersichtsarbeit zur Behandlung des verstärkten Schwitzens zurückgreifen wollen. Falls eine solche Arbeit nicht existiert, muss Originalliteratur herangezogen werden. In erster Linie wird man sich dabei auf randomisierte klinische Studien stützen, die man z. B. der Cochrane- oder der Medline-Datenbank entnehmen kann. Tabelle 15.1 Struktur eines evidenzbasierten Fallberichtes
15
1.
Fragestellung
Wie behandle ich diesen Patienten am besten (Ziel der Aktion, sinnvolle Handlungsoption und Alternativen)?
2.
Suchstrategie (Literaturrecherche)
Welche Datenbanken durchsuche ich? Welche Suchbegriffe verwende ich? Wie kombiniere ich diese Suchbegriffe?
3.
Kritische Evaluierung der Wie gut sind diese Grundlagen gefundenen Arbeiten (interne Validität, klinische Relevanz)?
4.
Therapieentscheidung
Basierend auf individueller Erfahrung des Arztes (interne Evidenz) und aktueller Literatur (externe Evidenz) in Anbetracht der Anwendung im konkreten Fall
5.
Begründung und Diskussion
War die Entscheidung richtig? Welche Konsequenzen ergeben sich daraus?
Die Therapieentscheidung bei einem individuellen Patienten wird sich auf die Ergebnisse dieser Literaturrecherche stützen, jedoch auch individuelle Faktoren in Betracht ziehen. Man wird etwa eine Therapie, die anfangs dreimal pro Woche in der Klinik durchgeführt werden muss (wie die Iontophoresebehandlung bei Hyperhidrose), keinem Patienten anbieten, der 100 km entfernt wohnt. Am Ende steht dann die Reflexion des behandelnden Arztes, ob er die Therapieentscheidung basierend auf EBM-Kriterien gefällt hat, oder ob er sich von anderen Faktoren hat beeinflussen lassen.
325 15.3 Evidenzbasierte Medizin
15
15.3.3 Die Cochrane Collaboration Die Cochrane Collaboration (CC) hilft, dem Arzt die bestmögliche Evidenz für eine Therapieentscheidung zur Verfügung zu stellen. Die CC ist eine internationale Organisation, deren Ziel die Erstellung, Verbreitung und regelmäßige Aktualisierung systematischer Übersichtsarbeiten zu diagnostischen und therapeutischen Fragestellungen ist. Systematische Übersichtsarbeiten, die nach den Kriterien der CC erstellt werden, werden im Gegensatz zu den klassischen Übersichtsarbeiten, die u. a. durch individuelle Erfahrungen und Netzwerke geprägt sind, strukturiert erstellt. Ziel der Strukturierung durch Richtlinien und Kontrollinstanzen ist es, die Ergebnisse der Übersichtsarbeit so objektiv und so nachvollziehbar wie möglich zu gestalten. Sind genügend vergleichbare Arbeiten zu einer Fragestellung vorhanden, steht am Ende eine Metaanalyse. Dies ist eine besondere Form der statistischen Auswertung, die vergleichbare Arbeiten zusammenfasst. Die Anzahl der von der CC erstellten systematischen Übersichtsarbeiten wächst zunehmend. › Im Logo der CC ist eine Metaanalyse grafisch dargestellt (z Abbildung 15.2, S. 326). Die kleine Raute im linken, unteren Teil des Kreises zeigt die gemeinsame Schätzung resultierend aus der Synthese aller vergleichbaren Studien zu einem bestimmten Thema, die in der Metaanalyse berücksichtigt werden. Die Arbeiten der CC bedeuten im Kontext der EBM einen wichtigen Beitrag, um fundierte, wissenschaftlich hochwertige Antworten zu Fragen aus der klinischen Praxis mit hoher Validität und minimaler Verzerrung (Bias) zu erhalten. 15.3.4 Die Zukunft der evidenzbasierten Medizin Evidenzbasierte Medizin wird in naher Zukunft nicht mehr wegzudenken sein. Sie wird gefördert durch das Bestreben nach Qualitätssicherung und die Notwendigkeit der Verwaltung eingeschränkter Ressourcen. Sie erfordert klinisch interessierte Mediziner, die sich nicht scheuen, kritische Fragen zu stellen und an alten und neuen Dogmen (z. B. „Schokolade verschlechtert eine Akne“ oder „Kartoffel-Reis-Diät hilft bei einer physikalischen Urtikaria“) zu rütteln und auch ihre Zeit opfern, um diese Fragen zu beantworten. Durch die Identifikation von Forschungsdefiziten werden neue Fragen auftauchen, die in sorgfältig geplanten, analytischen epidemiologischen Studien überprüft werden müssen.
326
Kapitel 15 · Studien zu Therapie und Prognose
Die EBM soll den Arzt bei seinen Entscheidungen unterstützen. Nach Sackett ist sie zu verstehen als eine Kunst, bei der Behandlung eines individuellen Patienten die richtigen Fragen zu stellen und diese durch eine strukturierte Zusammenfassung der neuesten Erkenntnisse aus der medizinischen Forschung zu beantworten. Jedoch sollten immer bei der Umsetzung die eigene klinische Erfahrung des Arztes wie auch das Patientenverständnis mit berücksichtigt werden. Wenn z. B. der Arzt die Krankheit nicht richtig diagnostiziert, hilft die beste Literaturrecherche nicht weiter. Wenn der Arzt eine Therapieentscheidung fällt, die nicht zum Verständnis des Patienten von seiner Krankheit passt, wird diese Entscheidung vom Patienten nicht akzeptiert werden und wegen mangelnder Compliance nicht zum gewünschten Erfolg führen. Zusammenfassend lässt sich schlussfolgern, dass die ärztliche Entscheidungsfindung auf drei Säulen beruht:
ŷ Auf dem erworbenen Wissen und der klinischen Erfahrung des behandelnden Arztes (interne Evidenz);
ŷ auf den Bedürfnissen des Patienten; ŷ auf dem aktuellen Stand der Forschung (externe Evidenz). i Als Einführung in die Methoden der EBM sei [9] empfohlen. z
Abb. 15.2 Logo der Cochrane Collaboration
15
Zusammenfassung Kapitel 15 Phasen einer Arzneimittelstudie: ŷ Präklinische Phase (Wirkungsmechanismus, Toxikologie) ŷ Phase I (Verträglichkeit, Pharmakokinetik, Pharmakodynamik) ŷ Phase II (Therapiekonzept, Dosisfindung) ŷ Phase III (Sicherheitsprofil, Nutzen-Risiko-Beziehung, KostenNutzen-Beziehung) ŷ Phase IV (seltene Nebenwirkungen, Abgrenzen der Indikation) Qualitätskriterien: ŷ Randomisation ŷ Verblindung ŷ Vergleichsgruppe
Anhang
Anhang Tabelle A: Dichte- und Verteilungsfunktion der Standardnormalverteilung 329 Tabelle B: Quantile der t-Verteilung 330 Tabelle C: Kritische Werte für den Wilcoxon-Test 331 Tabelle D: Kritische Werte für den U-Test 332 Tabelle E: Quantile der Chi2-Verteilung 334 Tabelle F: Kritische Werte für den VorzeichenTest 335 Glossar Englisch - Deutsch 336 Abkürzungen – Abbreviations 340 Weiterführende Literatur 341 Nützliche Internet-Adressen 342
Tabelle A: Dichte- und Verteilungsfunktion der Standardnormalverteilung
Anhang
329
Tabelle A: Dichte- und Verteilungsfunktion der Standardnormalverteilung z 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6
Es gilt: Beispiel:
M (z )
) (z )
0,3989 0,3970 0,3910 0,3814 0,3683 0,3521 0,3332 0,3123 0,2897 0,2661 0,2420 0,2179 0,1942 0,1714 0,1497 0,1295 0,1109
0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452
z 1,645 1,7 1,8 1,9 1,96 2,0 2,1 2,2 2,3 2,4 2,5 2,58 2,6 2,7 2,8 2,9 3,0
M (z )
) (z )
0,1031 0,0940 0,0790 0,0656 0,0584 0,0540 0,0440 0,0355 0,0283 0,0224 0,0175 0,0143 0,0136 0,0104 0,0079 0,0060 0,0044
0,9500 0,9554 0,9641 0,9713 0,9750 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9951 0,9953 0,9965 0,9974 0,9981 0,9987
M( z ) M( z ) und ) ( z ) 1 ) ( z ) I(1) I(1) 0, 2420 ) (1, 0) 0,8413 ) (1, 0) 1 0,8413 0,1587
330
Anhang · Tabelle B:
Quantile der t-Verteilung
Tabelle B: Quantile der t-Verteilung f 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
t f ;0,90
t f ;0,95
t f ;0,975
t f ;0,99
t f ;0,995
3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,299 1,296 1,294 1,292 1,291 1,290
6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,676 1,671 1,667 1,664 1,662 1,660
12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,009 2,000 1,994 1,990 1,987 l,984
31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,403 2,390 2,381 2,374 2,368 2,364
63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,678 2,660 2,648 2,639 2,632 2,626
f = Anzahl der Freiheitsgrade
Tabelle C: Kritische Werte für den WilcoxonTest
331
Anhang
Tabelle C: Kritische Werte für den Wilcoxon-Test n 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 n
Irrtumswahrscheinlichkeit D bei 2-seitiger Fragestellung 0,10 0 2 3 5 8 10 13 17 21 25 30 35 41 47 53 60 67 75 83 91 100 110 119 130 140 151 0,05
0,05 0 2 3 5 8 10 13 17 21 25 29 34 40 46 52 58 65 73 81 89 98 107 116 126 137 0,025
0,02 0 1 3 5 7 9 12 15 19 23 27 32 37 43 49 55 62 69 76 84 92 101 110 120 0,01
0,01 0 1 3 5 7 9 12 15 19 23 27 32 37 42 48 54 61 68 75 83 91 100 109 0,005
Irrtumswahrscheinlichkeit D bei 1-seitiger Fragestellung
Die Nullhypothese wird abgelehnt, wenn die Prüfgröße gleich dem kritischen Wert oder kleiner als dieser ist.
332
Anhang · Tabelle D:
Tabelle D: 1 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
0 0
Kritische Werte für den U-Test
Kritische Werte für den U-Test (2-seitige Fragestellung, D 0,05 ) 2
3
0 0 0 0 1 1 1 1 1 2 2 2 2 3 3 3 3 3 4 4 4 4 5 5 5 5 5 6 6 6 6 7 7
0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10 11 11 12 13 13 14 14 15 15 16 16 17 17 18 18
4 0 1 2 3 4 4 5 6 7 8 9 10 11 11 12 13 14 15 16 17 17 18 19 20 21 22 23 24 24 25 26 27 28 29 30 31 31
5
6
7
8
9
10
2 3 5 6 7 8 9 11 12 13 14 15 17 18 19 20 22 23 24 25 27 28 29 30 32 33 34 35 37 38 39 40 41 43 44 45
5 6 8 10 11 13 14 16 17 19 21 22 24 25 27 29 30 32 33 35 37 38 40 42 43 45 46 48 50 51 53 55 56 58 59
8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74
13 15 17 19 22 24 26 29 31 34 36 38 41 43 45 48 50 53 55 57 60 62 65 67 69 72 74 77 79 81 84 86 89
17 20 23 26 28 31 34 37 39 42 45 48 50 53 56 59 62 64 67 70 73 76 78 81 84 87 89 92 95 98 101 103
23 26 29 33 36 39 42 45 48 52 55 58 61 64 67 71 74 77 80 83 87 90 93 96 99 103 106 109 112 115 119
Die Zahlen in der Vorspalte und der Kopfzeile bezeichnen die Umfänge der beiden Stichproben.
Anhang
333 Tabelle D: Kritische Werte für den U-Test
Tabelle D:
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Kritische Werte für den U-Test (2-seitige Fragestellung, D 0,05 )
11
12
13
14
15
16
17
18
19
20
30 33 37 40 44 47 51 55 58 62 65 69 73 76 80 83 87 90 94 98 101 105 108 112 116 119 123 127 130 134
37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101 105 109 113 117 121 125 129 133 137 141 145 149
45 50 54 59 63 67 72 76 80 85 89 94 98 102 107 111 116 120 125 129 133 138 142 147 151 156 160 165
55 59 64 69 74 78 83 88 93 98 102 107 112 117 122 127 131 136 141 146 151 156 161 165 170 175 180
64 70 75 80 85 90 96 101 106 111 117 122 127 132 138 143 148 153 159 164 169 174 180 185 190 196
75 81 86 92 98 103 109 115 120 126 132 137 143 149 154 160 166 171 177 183 188 194 200 206 211
87 93 99 105 111 117 123 129 135 141 147 154 160 166 172 178 184 190 196 202 209 215 221 227
99 106 112 119 125 132 138 145 151 158 164 171 177 184 190 197 203 210 216 223 230 236 243
113 119 126 133 140 147 154 161 168 175 182 189 196 203 210 217 224 231 238 245 252 258
127 134 141 149 156 163 171 178 186 193 200 208 215 222 230 237 245 252 259 267 274
Die Nullhypothese wird abgelehnt, wenn die Prüfgröße gleich dem kritischen Wert oder kleiner als dieser ist.
334
Anhang · Tabelle E:
Quantile der Chi2-Verteilung
Tabelle E: Quantile der Chi2-Verteilung f
F 2f ;0,90
F 2f ;0,95
F 2f ;0,975
F 2f ;0,99
F 2f ;0,995
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256 51,805 63,167 74,397 85,527 96,578 107,565 118,498
3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773 55,759 67,505 79,082 90,531 101,879 113,145 124,342
5,024 7,378 9,348 11,143 12,833 14,449 16,013 17,535 19,023 20,483 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 35,479 36,781 38,076 39,364 40,647 41,923 43,194 44,461 45,722 46,979 59,342 71,420 83,298 95,023 106,629 118,136 129,561
6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 45,963 48,278 49,588 50,892 63,691 76,154 88,379 100,425 112,329 124,116 135,807
7,879 10,597 12,838 14,860 16,750 18,548 20,278 21,955 23,589 25,188 26,757 28,300 29,819 31,319 32,801 34,267 35,719 37,156 38,582 39,997 41,401 42,796 44,181 45,559 46,928 48,290 49,645 50,993 52,336 53,672 66,766 79,490 91,952 104,215 116,321 128,299 140,169
f = Anzahl der Freiheitsgrade Vierfeldertest, McNemar-Test und Mediantest: Chi2-Test für k A -Kontingenztafeln: Chi2-Test für eine Stichprobe (Merkmal mit k Ausprägungen):
f f
1 (k 1) (A 1)
f
k 1
Anhang
335
Tabelle F: Kritische Werte für den VorzeichenTest
Tabelle F: Kritische Werte für den Vorzeichen-Test n 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
n
Irrtumswahrscheinlichkeit D bei 2-seitiger Fragestellung 0,05 1 1 1 2 2 2 3 3 3 4 4 5 5 5 6 6 6 7 7 8 8 8 9 9 10
5 6 7 7 8 9 9 10 11 11 12 12 13 14 14 15 16 16 17 17 18 19 19 20 20 0,025
0,02 0 1 1 1 1 2 2 2 3 3 3 4 4 5 5 5 6 6 6 7 7 8 8 8 9
0,01 6 6 7 8 9 9 10 11 11 12 13 13 14 14 15 16 16 17 18 18 19 19 20 21 21
0,01
0 0 1 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 6 7 7 7 8 8
6 7 7 8 9 10 10 11 12 12 13 14 14 15 16 16 17 18 18 19 19 20 21 21 22 0,005
Irrtumswahrscheinlichkeit D bei 1-seitiger Fragestellung
Die Nullhypothese wird abgelehnt, wenn die Prüfgröße außerhalb der angegebenen Schranken liegt.
336
Anhang · Glossar Englisch - Deutsch
Glossar Englisch - Deutsch 2 by 2 table 2-tailed (2-sided) hypothesis accuracy adjusted alternative hypothesis analysis of variance arbitrary attributable risk average bar chart bias bimodal biostatistics carry over effect case control study case report case report form case series censored data coefficient of determination coefficient of variation characteristic cohort study compliance component cause composite endpoint conditional probability confidence interval confounder contingency table correlation coefficient cross over cross-over-design cumulative frequency curvilinear regression cutoff point / value degree of freedom density function dependent variable distribution drop out effectiveness (of treatment)
Vierfeldertafel 2-seitige Fragestellung Genauigkeit, Richtigkeit adjustiert Alternativhypothese Varianzanalyse willkürlich zuschreibbares Risiko Durchschnitt Balken-, Stabdiagramm systematischer Fehler zweigipfelig Biostatistik nachhaltige Wirkung einer Therapie Fall-Kontroll-Studie Fallbericht Patientenerhebungsbogen Fallserien zensierte Daten Bestimmtheitsmaß Variationskoeffizient Merkmal Kohortenstudie Akzeptanz der Behandlung Teilursache (einer Krankheit) kombinierter Endpunkt bedingte Wahrscheinlichkeit Konfidenzintervall verzerrende Störgröße Kontingenztafel Korrelationskoeffizient Therapiewechsler Überkreuzungsstudie Summenhäufigkeit nichtlineare Regression Schwellenwert Freiheitsgrad Dichtefunktion abhängige Variable Verteilung Abbrecher, Ausfall Wirkung einer Behandlungsstrategie
337
Anhang
Glossar Englisch - Deutsch
(clinical) efficacy eligible endpoint estimator event evidence evidence based case report experimental study false positive / negative follow up follow up study frequency Gaussian distribution general linear model goodness (of fit) Hazard rate incidence independent variable inferential statistics informed consent insignificant intercept interquartile range least-square-method level of significance life table life table analysis longitudinal study (individual) matching mean median follow up period mode mortality rate necessary cause noising factor non-inferiority null hypothesis observation observational study odds ratio origin outcome outlier p-value
(biologische) Wirksamkeit die Einschlusskriterien erfüllend Zielgröße Schätzer Ereignis wissenschaftlicher Nachweis, Beleg EBM-basierte Fallbericht Experiment falsch positiv / negativ Nachbeobachtungszeit Verlaufsuntersuchung Häufigkeit Normalverteilung allgemeines lineares Modell Güte (der Anpassung) Ausfallrate Inzidenz unabhängige Variable Inferenzstatistik Einverständniserklärung nicht signifikant Achsenabschnitt, Basiswert Interquartilsabstand Methode der kleinsten Quadrate Signifikanzniveau Sterbetafel Überlebenszeitanalyse longitudinale Studie (paarweise) Zuordnung Mittelwert, Erwartungswert mediane Nachuntersuchungszeit Modalwert, Modus Mortalität, Sterblichkeit(srate) notwendige Ursache (einer Krankh.) unverzerrende Störgröße Nichtunterlegenheit Nullhypothese Beobachtung Beobachtungsstudie Chancenverhältnis Nullpunkt Zielgröße, Therapieergebnis Ausreißer p-Wert
338
Anhang · Glossar Englisch - Deutsch
paired samples pie chart population power precision prediction predictive value prevalence probability random experiment random sample random variable randomisation randomized clinical trial randomized controlled trial range rank ratio recurrence rate reference interval regression line reliability repeated measures research residual variance review risk safety sample sample size sampling method scatter plot sensitivity significance level skewed distribution slope specificity stem-and-leaf-diagram standard deviation standard error of the mean statistical inference steering committee stratification student’s test
verbundene Stichproben Kreisdiagramm Grundgesamtheit, Population Trennschärfe, Teststärke Genauigkeit, Präzision Vorhersage Vorhersagewert Prävalenz Wahrscheinlichkeit Zufallsexperiment Zufallsstichprobe Zufallsvariable Randomisation, Zufallszuteilung randomisierte klinische Studie randomisierte kontrollierte Studie Spannweite Rang, Rangzahl Verhältnis Rezidivrate Referenzbereich Regressionsgerade Zuverlässigkeit, Reproduzierbarkeit Messwiederholungen Forschung Restvarianz (nicht erklärte) Übersichtsartikel Risiko, Risikofaktor Sicherheit Stichprobe Stichprobenumfang Stichprobenverfahren Punktwolke Sensitivität Signifikanzniveau schiefe Verteilung Steigung (einer Geraden) Spezifität Stamm-und-Blatt-Diagramm Standardabweichung Standardfehler des Mittelwerts statistische Schlussweise Studienbegleitkommission Stratifizierung t-Test
339
Anhang
Glossar Englisch - Deutsch
study subject sufficient cause surveillance survey survival analysis survival probability survival rate threshold ties tolerability transversal study treatment treatment lag trial true positive / negative type I / II error unbiased uncorrelated unimodal validity value variability variance vital statistics washout period withdrawal
Studie, Untersuchung Proband, Testperson, Objekt hinreichende Ursache (einer Krankh.) Überwachung Erhebung Überlebenszeitanalyse Überlebenswahrscheinlichkeit Überlebensrate Schwellenwert verbundene Ränge Verträglichkeit Querschnittstudie Behandlung Wirkungsverzögerung Untersuchung, Studie richtig positiv / negativ Fehler 1. / 2. Art unverzerrt (frei von system. Fehler) unkorreliert, ohne Zusammenhang eingipfelig Richtigkeit, Validität Wert Variabilität Varianz Bevölkerungsstatistik therapiefreie Zwischenphase Studienabbruch, Abbrecher
340
Anhang · Abkürzungen - Abbreviations
Abkürzungen - Abbreviations AMG ANOVA ANCOVA AR ARR AT AUC BfArM CC CI CRF CV EBM GCP HR ITT MANOVA MPG NNH NNS NNT NS OR PEI PP QoL RCT RR RRR SD SEM
Arzneimittelgesetz analysis of variance analysis of covariance attributable risk absolute risk reduction as treated area under the curve Bundesinstitut für Arzneimittel und Medizinprodukte Cochrane Collaboration confidence interval case report form coefficient of variation evidence based medicine Good Clinical Practice Hazard ratio intention to treat multivariate analysis of variance Medizinproduktegesetz Number Needed to Harm Number Needed to Screen Number Needed to Treat not significant odds ratio Paul-Ehrlich-Institut per protocol quality of life randomized clinical (controlled) trial relative risk relative risk reduction standard deviation standard error of the mean
341
Anhang
Weiterführende Literatur
Weiterführende Literatur 1. Andreß HJ, Hagenaars JA, Kühnel S: Analyse von Tabellen und kategorialen Daten. Springer-Verlag Berlin, Heidelberg, New York, 1997 2. Backhaus K, Erichson B, Plinke W, Weiber R: Multivariate Analysemethoden, 11. Auflage. Springer-Verlag Berlin, Heidelberg, New York, 2006 3. Bortz J: Statistik für Human- und Sozialwissenschaftler, 6. Auflage. Springer-Verlag Berlin, Heidelberg, New York, 2005 4. Bortz J, Lienert GA: Kurzgefasste Statistik für die klinische Forschung, 3. Auflage. Springer-Verlag Berlin, Heidelberg, New York, 2008 5. Dubben HH, Beck-Bornholdt HP: Der Hund, der Eier legt. Erkennen von Fehlinformation durch Querdenken, 4. Auflage. Rowohlt Taschenbuch Verlag, Reinbek bei Hamburg, 2006 6. Fahrmeir L, Kneib T, Lang S: Regression. Modelle, Methoden und Anwendungen, 2. Auflage. Springer-Verlag Berlin, Heidelberg, New York, 2009 7. Fletcher RH, Fletcher SW: Klinische Epidemiologie. Grundlagen und Anwendung, 2. Auflage, Verlag Hans Huber, Bern, Schweiz, 2007 8. Gigerenzer G: Das Einmaleins der Skepsis. Über den richtigen Umgang mit Zahlen und Risiken. Berliner Taschenbuch Verlag, 2004 9. Greenhalgh T: Einführung in die Evidence-Based Medicine. Kritische Beurteilung klinischer Studien als Basis einer rationalen Medizin. Verlag Hans Huber Bern, 2003 10. Hartung J, Elpelt B, Klösener KJ: Statistik. Lehr- und Handbuch der angewandten Statistik, 15. Auflage. Oldenbourg-Verlag München, Wien, 2009 11. Sachs L, Hedderich J: Angewandte Statistik, 12. Auflage. Springer-Verlag Berlin, Heidelberg, New York, 2009 12. Schumacher M, Schulgen G: Methodik klinischer Studien. Methodische Grundlagen der Planung, Durchführung und Auswertung. 3. Auflage, Springer-Verlag Heidelberg, 2008 13. Stapff M: Arzneimittelstudien. Ein Handbuch zur Durchführung von klinischen Prüfungen für Ärzte und medizinisches Assistenzpersonal, 3. Auflage. W. Zuckschwerdt-Verlag, München, Wien, New York, 2004 14. Weiß C, Bauer AW: Promotion. Die medizinische Doktorarbeit von der Themensuche bis zur Dissertation, 3. Auflage. ThiemeVerlag Stuttgart, 2008
342
Anhang · Nützliche Internet-Adressen
Nützliche Internet-Adressen x Gesellschaften und Institutionen: Statistisches Bundesamt
www.destatis.des
Bundesinstitut für Arzneimittel und Medizinprodukte
www.bfarm.de
Paul-Ehrlich-Institut
www.pei.de
Robert-Koch-Institut
www.rki.de
World Health Organization Regional Office for Europe
www.euro.who.int/hfadb
Deutsche Region der Internationalen Biometrischen Gesellschaft
www.biometrischegesellschaft.de
Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
www.dgepi.de
Arbeitsgemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften
www.awmf-online.de
Deutsches Cochrane-Zentrum
www.cochrane.de
x Informationen zu Doktorarbeiten: www.doktorandenboerse.info www.medidiss.de x Statistiksoftware: SAS: SPSS: Medcalc:
www.sas.de www.spss.de www.medcalc.be
343
Anhang
x Sonstiges: Informationen zu klinischen Studien
www.bundesaerztekammer.de
Informationen zu Tierexperimenten
www.verbraucherzentrale.de
Abteilung für Medizinische Statistik , Biomathematik und Informationsverarbeitung der Medizinischen Fakultät Mannheim, Universität Heidelberg
www.ma.uniheidelberg/inst/biom
Lehrbuchprogramm des Springer-Verlags www.lehrbuch-medizin.de mit kommentierten MC-Aufgaben und weiteren Informationen
345
Index
Sach- und Personenregister
Sach- und Personenregister Į-Fehler 180, 183, 189 f a-posteriori-Wahrscheinlichkeit 110 a-priori-Wahrscheinlichkeit 110 Abbe, Ernst 154 Abbruchkriterien 312 Abstandsskala siehe Intervallskala Achenwall, Gottfried 5 Additionssatz 108, 110 Allgemeines lineares Modell 215 Alternativhypothese 178 f, 183 f Alternativmerkmale 24, 96, 107, 219, 226, 236, 274 Annahmebereich 181, 184 Anpassungstest 188, 192, 202, 230 f Antike 6 Apgar-Score 29 Äquivalenztest 188 Arbuthnot, John 5, 233 Area under the curve 292 arithmetisches Mittel 55 f Arzneimittelgesetz 306, 317 Arzneimittelstudie 305-307 As treated 313 Assoziation 48-51, 282 Assoziationsmaße 50, 97, 225 Aufklärung (Zeitalter) 8 Ausfallrate 147 Ausprägungsliste 28 f, 103 Ausreißer 30, 41, 56, 58, 66, 86 Ausschlusskriterien 312 Axiome von Kolmogoroff 107 ß-Fehler 182 Bacon, Francis 8 Balkendiagramm 43 f, 50 f Basisreproduktionszahl 298 Bayes, Thomas 110 Bayes-Theorem 110 f, 289 Begleitmerkmal 22, 260 Behandlungsgleichheit 257, 309 Beobachtungseinheit 21 Beobachtungsgleichheit 257, 309
Beobachtungsstudie siehe Studie,
beobachtende Bernoulli, Jakob 125 Bernoulli-Experiment 125 f Bernoulli-Prozess 126 Bestimmtheitsmaß 91 f, 215 Bevölkerungsstatistik 5 Bias 256 f - Diagnosestudien 296 - Fall-Kontroll-Studien 273 f - Kohortenstudien 279 - Präventionsstudien 300 f Binomialkoeffizient 127 f Binomialtest 233 f Binomialverteilung 126-130, 135, 144, 156 - negative 134, 156 - symmetrische 129 Biomathematik 11 f Biometrie 11 f, 312 Biostatistik 11 Bland-Altman-Analyse 87, 188, 294 Blockbildung 308 Blockdiagramm 43 Blutgruppe 104 Bonferroni-Korrektur 190, 214 Box-and-Whisker-Plot 72 f Brustkrebs 300
Chadwick, Edwin 9 Chi2-Anpassungstest 230 f Chi2-Homogenitätstest 221, 224 f Chi2-Tests 219-232, 269, 314 Chi2-Test für eine Stichprobe 227 Chi2-Unabhängigkeitstest 219, 224 f Chi2-Verteilung 153 f Chi2-Vierfeldertest 219-223, 274 Cochrane-Armitage-Trend-Test 225 Cochrane Collaboration 323, 325 Cofaktor 22 Compliance 314 Computersimulation 105, 172
346
Sach- und Personenregister
Confounder 23, 87, 257 f, 274 f, 308 Covariable 22 Cox, David 6, 321 Cox-Regressionsmodell 314, 321 Cramérs Index 226 Cross-Over-Design 316
Deduktive Methode 13 Demographie 5, 251 f Determinationskoeffizient 92 f deterministisch 101 Dezilabstand 66 Dezile 60 Diagnosestudie 242, 247, 287-296 Diagnostische Tests 287-296 - parallele 296 - sequenzielle 296 - serielle 296 Diagramm 20, 43 f Dichte(funktion) 113 - empirische 42 - Exponentialverteilung 148 - Normalverteilung 136 - Standardnormalverteilung 139 - Weibullverteilung 150 Dichtemittel siehe Modus Differenzmenge 106 Dispersionsmaße siehe
Streuungsmaße Dispersionstest 192 Dissertation 16, 259, 261 Doktorarbeit 242, 258 f Dokumentationsfehler 66 Dosis-Wirkungs-Beziehung 282, 307 Dosisfindung 59 Dosiswirkungskurve 48 Double-Dummy-Technik 310 Drop Outs 256, 278, 313, 319, 322 Dummy-Variable 28, 215, 237 Durchschnitt 55
Effektmaße 276 f, 300 Effizienz einer Schätzung 161 Einflussgröße 22, 245, 260 - erklärende 22, 260 Einschlusskriterien 312
Einzelfalldarstellung 15 Elementarereignis 102, 112 Endemie 248 Endereignis 318 f Endlichkeitskorrektur 136, 171 Entscheidungsfindung 4, 323, 326 Epidemie 248 Epidemiologie 9, 241 f Ereignisse 102 f - disjunkte 106-108 - komplementäre 106 f - sichere 103 - unabhängige 110 - unmögliche 103 Erfassungsfehler 256 Ergebnismenge 102 erklärte Varianz 91 f Erwartungstreue 160 Erwartungswert 115 f, 118, 161, 165-167 - Binomialverteilung 126 f - Chi2-Verteilung 153 - Exponentialverteilung 149 - hypergeometrische Verteilung 136 - Normalverteilung 137 - Poissonverteilung 131 - t-Verteilung 152 - von Mittelwerten 120 Ethik 261, 293, 312 Ethikkommission 306 Euler’sche Zahl 131 Evidenz 282, 322, 324, 326 Evidenzbasierte Medizin 281, 322326 Exhaustivität 161 Experiment 7, 14, 246, 281 Experimentalgruppe 247 Exponentialverteilung 148-150, 156 Exposition 266, 272, 274, 279 Extrapolation 89 Exzess siehe Wölbung
F-Test 203
F-Verteilung 155, 203, 213 Faktor 22 - ätiologischer 242, 266
347
Index
Sach- und Personenregister
- prognostischer siehe
Prognosefaktor Fall-Kontroll-Studie 242, 244-246, 270-275 - eingebettete 280 Fallbericht 243, 268, 317 - evidenzbasierter 323 f Fälle 270 f Fallserie 243, 268, 317 falsche Angaben 31, 245 falsch negativer Befund 287, 292 falsch positiver Befund 111, 288, 292 f Fehlentscheidung 4, 182 Fehler - 1. Art siehe D-Fehler - 2. Art siehe ß-Fehler - systematischer 256 f - zufälliger 254 f Fertilitätsziffer 251 Fisher, Ronald Aylmer 6, 9, 155, 160, 203, 314 Fishers exakter Test 235 f, 274 Follow-Up-Studie 275 formale Korrelation 86 Formmaße 68-71 Fragestellung siehe Hypothese Fraktile 60 Freiheitsgrade - Anpassungstest 230 - Chi2-Verteilung 153, 225, 230 - F-Verteilung 155 - t-Verteilung 152 f, 167, 181, 199, 201, 204 - Varianz 64 Freiwilligenbias 256, 300 Friedmantest 214
Galen aus Pergamon 7 Galilei, Galileo 6 f Galton, Francis 88, 145 Gauß, Carl Friedrich 6, 119, 136, 144 f Gauß’sche Glockenkurve 136-138 Geburtenziffer siehe Fertilitätsziffer Gemeinsamkeitskorrelation 87 geometrische Verteilung 133 f, 156
geometrisches Mittel 61 f, 142 Geschichte der med. Statistik 4-11 Gesetz der großen Zahlen 104, 120 f, 125 Gleichverteilung 230 Goldstandard 288 Good clinical practice 306 Gosset, Sealy 6, 152 f, 166 graphische Darstellungen 43-45, 50 f, 68, 72 f Graunt, John 5 Grundgesamtheit 19 f, 74, 159 Gruppen-Matching 272 Güte - diagnostischer Test 287 f, 292 - Schätzung 160 f - statistisches Modell 93, 215, 237, 260 - statistischer Test siehe Power - Studie 259
Hahnemann, Christian 10 Halbwertszeit 149 harmonisches Mittel 62 Häufigkeiten - absolute 39 f - kumulative 46 - relative 39 f - zweidimensionale 48 f Häufigkeitspolygon 44 f Häufigkeitsverteilung 39, 41 f, 45, 227 Hawthorne-Effekt 311 Hazard-Rate 147, 279, 321 Hazard-Ratio 321 Helmert, Friedrich Robert 154 Helsinki, Deklaration von 8, 317 Herdenimmunität 299 Herzkrankheit, koronare 276 Hill, Austin 278, 281 f, 309 Hippokrates von Kos 7 Histogramm 44 f, 56, 202 Homogenitätstest 192, 221 Homoskedazität 169, 200 Huygens, Christiaan 6, 115 hypergeometrische Verteilung 135 f, 156, 171, 236
348
Sach- und Personenregister
Hypothese 13, 19, 178 f, 243, 260 - einseitige 179, 189, 222 - zweiseitige 179, 189
Identifikationsnummer 32 Impfung 242, 297 f Induktionsperiode 267, 275 f, 279 f Induktive Methode 14 Informationsbias 256, 273 f, 279, 296 Inhomogenitätskorrelation 86 Inkubationszeit 267 Intention to treat 313 Interdezilbereich 66 Interquartilsbereich 67 Intervallschätzung 163-173 Intervallskala 25 f, 36, 75 Interventionsstudie 246 Inzidenz 249 f, 266, 275 f - kumulative 278 Inzidenzdichte 279 Inzidenzfälle 270 Inzidenzstudie 276 Irrtumswahrscheinlichkeit 102, 164 f, 170, 181, 222
Jenner, Edward 9 Kaplan-Meier-Methode 314, 318320 Kappa-Koeffizient 188, 294 f Karnofsky-Skala 29 Kausalität siehe Zusammenhang,
kausaler Kenngrößen 20, 55
siehe Maßzahlen Klassenanzahl 41 Klassenbildung 40 f Klassenbreite 41 Kohärenz 282 Kohortenstudie 242, 244, 246, 275280, 316, 318 - begleitende 280 - historische 280 - retrospektive 246, 280 Kolmogoroff, Andrej 6, 107 Kolmogoroff-Smirnov-Test 231
Konfidenzintervall 163-173, 185 f, 198, 210, 255, 315 - Erwartungswert 165-167, 170 - Korrelationskoeffizient 169 - Wahrscheinlichkeit 167 f, 171 Konfidenzwahrscheinlichkeit 164 Konsistenz 161, 282 Kontagionsindex 250 Kontingenz 48 Kontingenzkoeffizient 226 Kontingenztafel 48 f, 225, 235 Kontrollen 270 f Kontrollgruppe 247, 270 f - historische 311, 317 Korrelationsanalyse 80-87 Korrelationskoeffizient - nach Pearson 82, 84 f, 169, 204 - nach Spearman 94 f, 169 Korrelationsstudie 269 Kovarianz 82 f, 117, 162 Krankenbestand siehe Prävalenz Krankheitsursache siehe Ursache Krankheitsverlauf - klinischer 317 - natürlicher 310, 318 Kreisdiagramm 43 f kritischer Bereich 181 kritischer Wert 181 Kruskal-Wallis-Test 213 Kurtosis siehe Wölbung
Laborexperiment 281 Lagemaße 55-62, 72 Lageparameter 115 f Lagetest 192, 197-215 Längsschnittstudie 244 Laplace, Pierre Simon de 6, 103, 139 Latenzzeit 267 Lead Time Bias 301 Lebensdauer 146, 149, 252 Lebenserwartung 252-254 Lebenszeitprävalenz 249 Leitlinienentwicklung 323 Length Time Bias 301 Letalität 250 Likelihood-Quotient 288 f Linder, Arthur 11
349
Index
Sach- und Personenregister
Liste 32 Lognormalverteilung 142 f, 150, 156 Logrank-Test 232, 314, 321 Louis, Pierre Charles Alexandre 9 Lungenkrebs 267 f, 277 f, 281 f
Manifestationsindex 250 Mammographie 297, 300 Mantel-Haenszel-Test 225 Martini, Paul 11 Maßzahlen - bivariate Datenbeschr. 82-97 - Demographie 251 f - epidemiologische 248-251 - univariate Datenbeschr. 55-71 Matchen 258, 271 f Maximum 57, 66 McNemar-Test 228 f, 274, 316 Median 57 f, 116, 161 f - Exponentialverteilung 150 - Lognormalverteilung 142 - Normalverteilung 137 - Weibullverteilung 151 Median-Test 223 f mediane Überlebenszeit 149, 318 Medizinproduktegesetz 306 Medizinproduktestudien 305 Mehrstichprobentests 191, 213 Mendel, Gregor Johann 10 Merkmale 21-29, 112 - abhängige 80, 88 f - binäre 24 - dichotome 24 - diskrete 26, 39 f, 66, 210 - kategoriale 24 - qualitative 24, 36, 96, 225 f - quantitative 25, 36, 46, 56, 72, 82, 314 - stetige 26, 40f - unabhängige 80, 88 f Merkmalsausprägungen 21, 28 f Merkmalsträger 21 Messniveau 24 Metaanalyse 322, 325 Methode der kleinsten Quadrate 57, 90 metrische Skala 25
Minimisation 309 Minimum 57, 66 Mittelwert 55 f, 120, 144, 161 f mittlere Abw. vom Median 67 modale Klasse 61 Modalwert siehe Modus Modus 40, 61, 116 Moivre, de Abraham 145 Momente 118 Monte-Carlo-Studie 172, 205 Morbidität 250 Mortalität 250, 266 multiple Methode 11, 191, 214 f, 237, 258, 261, 314 multiples Testen - diagnostisch 296 - statistisch 190 Multiplikationssatz 110
Natalität 251 Naturwissenschaften 3, 7, 14 Nebenwirkungen 307, 312 Nettoreproduktionszahl 298 Neuerkrankungsrate siehe Inzidenz Nicht-Unterlegenheit 315 NNH 315 NNS 300 NNT 277, 300, 315 Nominalskala 24, 26, 36, 75 Nonresponse-Bias 256 Nonsenskorrelation 86 Normalverteilung 64, 70, 118, 136146, 156, 202, 205, 230 Normbereich siehe Referenzbereich Nullhypothese 179, 183 f Number needed to harm siehe NNH Number needed to screen siehe NNS Number needed to treat siehe NNT Objektivität 256 Ochsner, Alton 268 f, 281 Odds ratio 50, 226, 269, 273-275 Ordinalskala 24, 26, 36, 46, 75 p-Wert 178, 185-190, 198, 210, 213, 255
350
Sach- und Personenregister
paarweise Zuordnung siehe
Matchen Pandemie 248 Pascal, Blaise 6 Pearl-Index 251 Pearson, Karl 6, 88, 154 Per Protocol 313 Periodenprävalenz 249 Perzentile 60 Pharmakoepidemiologie 307 Phasen - einer Arzneimittelstudie 306 f - einer medizinischen Studie 13 f Phi-Koeffizient 226 Placebo 311 Plausibilität 66, 256, 282 Poisson, Siméon Denis 131 Poissonverteilung 131 f, 144, 156, 230 Politische Arithmetik 6 Populationsstudie 242 f, 269 f Power 184, 201, 210 prädiktiver Wert siehe
Vorhersagewert Prävalenz 248 f, 269, 289 f, 295, 299, 301 Prävalenzfälle 270 Prävalenzstudie 244, 269 Prävention 297 f - primäre 297 - sekundäre 297 - tertiäre 298 Präventionsstudie 242, 247, 297-302 Präzision - einer Messung 65 - einer Schätzung 170 f probabilistisch 101 Prognosefaktor 232, 318, 321 Prognoseintervall 169 Prognosestudie 243, 246, 317-322 Protokollverletzung 312 f Prozentangaben 40 Prüfgröße 178 - Binomialtest 234 - Chi2-Test 220, 225, 227 - Fishers exakter Test 235 - McNemar-Test 228
- t-Test 180, 198 f, 201, 204 - U-Test 208 - Wilcoxon-Test 206 f Prüfverteilungen 146, 151-155 Public Health 242 punktbiseriale Korrelation 96 Punktprävalenz 248 Punktschätzung 159-163 Punktwolke 80-82, 85
Q-Test von Cochran 230 Qualitätssicherung 323 Quantile 59 f, 116 - der t-Verteilung 166, 185 Quartil 59 f - mittleres 60 - oberes 59 - unteres 59 Quartilsabstand 67 Querschnittstudie 242-244, 269 Quetelet, Adolphe 145 Quote 50 Randomisation 258, 281, 307-309, 316 Rangkorrelation 94 f - nach Kendall 95 Rangliste 57 Rangskala siehe Ordinalskala Rangsummentest 205-210, 213 Ratioskala siehe Verhältnisskala Rauchen 265-269, 278 Recall-Bias 273, 276 Rechteckdiagramm 43 Referenzbereich 139 f, 142 Register 19, 243 f Regression - 1. Art 90 f - 2. Art 90 f - lineare 88-91 - logistische 236 f, 275, 278 - multiple 90, 215 - nicht-lineare 93 Regressionsanalyse 88-93, 215 Regressionsgerade 81, 88-91, 162, 204 Regressionskoeffizient 89
351
Index
Sach- und Personenregister
Relevanz, klinische 187, 259, 324 Reliabilität 256, 287, 293 f Reproduzierbarkeit 293 f Residualvarianz 91 f Residuen 91, 169 Restriktion 255, 258 Reversibilität 282 Rhesusfaktor 104 Risiko 266, 277 - attributables 277, 300 - relatives 274 f, 277, 300 - zuschreibbares 277, 300 Risikofaktor 265-267, 272 f, 277, 281 Risikoindikator 266, 274 Risikoreduktion 277, 300 Risikostudie 242, 246, 265-283 ROC-Analyse 291-293 ROC-Kurve 291-293
ı-Bereich 139 f Sackett, David 322, 326 Satz von der totalen Wahrscheinlichkeit 108 Säulendiagramm 43, 72 Schätzfunktion 160-162 Schätzwert 160 Scheffé-Test 214 Scheinkorrelation 86 Schichten 255, 308 Schiefe 68-70, 118, 141, 143, 202 - Binomialverteilung 129 - Chi2-Verteilung 153 - Exponentialverteilung 150 - Normalverteilung 137 - Poissonverteilung 133 Schnittmenge 106 Schwellenwert 291 f Scores, klinische 24, 29 Screening 247, 297, 299-302 Selektion 255 Selektionsbias 256, 273, 279, 300, 308 Selektionskorrelation 86 Semmelweis, Ignaz Philipp 9 f, 265 Sensitivität 111, 287 f, 291-296, 299 sequentielles Testverfahren 183
Signifikanzniveau 182 Skalenniveau 24 f Skalentransformation 26 f Snow, John 9, 265 Spannweite 66 Spearman, Charles 94 Spezifität 111, 287 f, 291-296, 299 Staatsbeschreibung 5 Stabdiagramm 43 Stamm-und-Blatt-Diagramm 44 f Standardabweichung 63 f, 116, 137, 162, 170 Standardfehler des Mittelwerts 121, 167 Standardnormalverteilung 138 f Standardtherapie 311 Statistik - bivariate 79-97, 162 - deskriptive 5, 12, 20, 103 - explorative 12 - induktive 6, 12, 21, 51, 74, 97, 102, 159-237 - medizinische 11 - univariate 55-74 Statistisches Jahrbuch 5, 254 Sterberate 147, 150 f, 321 Sterbetafel 252-254 Sterbeziffer 252-254 Stetigkeitskorrektur 168, 228 Stichproben 19 f, 74, 190 f - abhängige siehe verbundene - paarige siehe verbundene - repräsentative 19, 74, 159 - unabhängige siehe
unverbundene - unverbundene 191, 199 f, 203, 208 - verbundene 191, 198, 203, 206 - zufällige 19 Stichprobenraum 102 Stichprobenumfang 22, 39, 41, 74, 121, 160 f, 170, 182 f, 255, 322 Stochastik 11 f Störgröße 23, 257 f - nicht-verzerrende 23 - verzerrende 23, 257 siehe
Confounder
352
Sach- und Personenregister
Strata 308 Stratifizierung 255, 308 Streuungsmaße 63-67, 72 Streuungsparameter 116 Strichliste 40 Strukturgleichheit 257, 272, 307 f Student-Verteilung siehe t-
Verteilung Studie - aggregative 269 - analytische 244 - beobachtende 246 f, 281, 316 - beobachterblinde 310 - deskriptive 243, 268-270 - diagnostische siehe
Diagnosestudie -
doppelblinde 257, 309 dreifachblinde 309 einfachblinde 310 epidemiologische 241-243 experimentelle 14, 246, 307 exploratorische 243 freie 305 klinisch kontrollierte 244, 307 konfirmatorische 244 longitudinale 244 monozentrische 247 multizentrische 247, 257, 309 nicht randomisierte 316 offene 310 ökologische 269 prospektive 14, 245 f quasi-experimentelle 247, 281 randomisierte 243, 247, 300 f, 322 - retrospektive 13, 245, 317 - transversale 244 Studienabbrecher siehe Drop Outs Studiendesign 243-247, 311 Studienplanung 258-261 Studienprotokoll 311 f Summenhäufigkeiten 46 f Summenzeichen 39 Surrogatmerkmal 30, 314 Süßmilch, Johann Peter 5 Symmetrietest von Bowker 230
t-Test 197-205, 210 - für eine Stichprobe 177-181, 197, 203 - für 2 unverbundene Stichproben 199 f, 203, 314 - für 2 verbundene Stichproben 198, 203, 316 - nach Satterthwaite 202 - nach Welch 200 f - zur Prüfung eines Korrelationskoeffizienten 204 f t-Verteilung 152 f Tabelle 20, 32 Teilursache 267 Test - diagnostischer 287-296 - konservativer 189 - nicht-parametrischer 205 - paralleler 296 - parametrischer 197 - progressiver 189 - sequenzieller 183, 296 - serieller 296 - statistischer 177-191 - verteilungsfreier 205 Testentscheidung 183 f Testergebnis - nicht signifikantes 187 f, 315 - signifikantes 186 f Testgröße siehe Prüfgröße Teststärke siehe Power Therapiestudie 243 f, 305-317, 322 Totalerhebung 19 Transformationen 141-143, 204 Trennschärfe siehe Power Tschebyscheff, Pafnutij 118 Tschebyscheff’sche Ungleichung 118 f
U-Test von Mann und Whitney 208 f, 314 Überlebensfunktion 147, 232, 319 Überlebensrate 318 Überlebenswahrscheinlichkeit 147 f, 150 Überlebenszeit 146, 232, 318
353
Index
Sach- und Personenregister
Überlebenszeitstudie 31, 232, 319, 321 Übersichtsarbeit 325 Unabhängigkeitstest 192, 219 ungenaue Definitionen 31 Untersuchungseinheit 21 unvollständige Angaben 31, 245 Urliste 55 Ursache 266 f - hinreichende 267 - notwendige 267
Validität - einer Messmethode 256 - eines diagnostischen Tests 287 f - eines Screenings 299 - externe 259, 312, 315 - interne 259, 324 Variabilität - interindividuelle 255, 294, 312 - intraindividuelle 255, 294 Variable 21 Varianz 63, 116, 118, 162 f - Binomialverteilung 126 f - Chi2-Verteilung 153 - empirische 63 - Exponentialverteilung 149 - hypergeometrische Verteilung 136 - Normalverteilung 137 - Poissonverteilung 132 - t-Verteilung 153 - von Mittelwerten 120, 144, 152 Varianzanalyse 213 f Variation Ratio 67 Variationsbreite 66 Variationskoeffizient 65 - relativer 65 Venn, John 105 Venn-Diagramm 105 Verblindung 309 f verbundene Ränge 94, 206, 209 Vereinigungsmenge 106 Vergleichsgruppe 269, 310 f, 316 f Verhältnisskala 25 f, 36, 75 Verteilung - diskrete 125-136, 156
-
eingipfelige 61, 64, 119 gedächtnislose 134, 149 geometrische 133 f, 156 hypergeometrische 135 f, 156, 171, 236 - linksgipfelige 68, 118, 141, 204 - mehrgipfelige 61 - rechtsgipfelige 68, 118, 143 - schiefe 56, 58, 64, 70, 119, 146 - stetige 156 - symmetrische 56, 58, 64, 68, 118 f, 203 - U-förmige 61, 71 - von Mittelwerten 121, 144 - von Überlebenszeiten 146-151 Verteilungsfunktion 113 - diskrete Verteilung 113 - empirische 46 f, 60 - Exponentialverteilung 148 - Standardnormalverteilung 139 - Sterbealter 253 - stetige Verteilung 114 f - Weibull-Verteilung 150 Vertrauensbereich siehe
Konfidenzintervall Vierfeldertafel 49, 220, 235 Vierfeldertest 219-223 Visuelle Analogskala 29 Vollerhebung 19 Vorher-Nachher-Vergleich 214, 317 Vorhersagewert 111, 289, 299 - negativer 289 - positiver 289, 295, 299 Vorzeichentest - für eine Stichprobe 211 - für 2 verbundene Stichproben 212
Wachstumserscheinung 61 Wahrheitstafel 184 Wahrscheinlichkeit 101-105, 113, 162, 233 - bedingte 109 f - nach Kolmogoroff 107 - nach Laplace 103 f, 107 - objektive 101 - subjektive 101
354
Sach- und Personenregister
Wahrscheinlichkeitsfunktion 113 Wahrscheinlichkeitsrechnung 6, 12, 101-111 Wahrscheinlichkeitstest 192 Wartezeiten 133 Weber, Erna 11 Weibull, Waloddi 150 Weibull-Verteilung 150 f, 156 Welch-Test 200 f Wilcoxon, Frank 205 Wilcoxon-Test - eine Stichprobe 205 - 2 verbundene Stichproben 206 f, 316 Wölbung 70 f, 118, 202 - Normalverteilung 137
z-Transformation 138 zensierte Daten 31, 59, 232, 314, 319 zentrale Momente 118 zentraler Grenzwertsatz 143 f, 152 Zentralwert siehe Median Zielgröße 22, 245, 255, 260, 314 Zufall 3 f, 14 f, 101 Zufallsexperiment 102, 125 Zufallsstichprobe 271
siehe Stichprobe, zufällige Zufallsvariable 21, 112, 159 - diskrete 112 f - stetige 113 f Zusammenhang - funktionaler 79 - gegensinniger 81, 83, 89, 95 - gleichsinniger 81, 83, 89, 95 - kausaler 87, 186, 258, 274, 282 - linearer 81-85, 88 - monotoner 95 - nicht-linearer 93 - stochastischer 79