Mathematik I - IV J. Baumeister1 Skript zu den Vorlesungen Mathematik I - IV in den Semestern WS 96/97, SS 97, WS 97/98,...
339 downloads
1527 Views
2MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Mathematik I - IV J. Baumeister1 Skript zu den Vorlesungen Mathematik I - IV in den Semestern WS 96/97, SS 97, WS 97/98, SS 98 an der Johann Wolfgang Goethe–Universit¨at Frankfurt am Main
1
Dies sind noch unvollst¨andige und oberfl¨ achlich korrigierte Aufzeichnungen! Kleine Teile davon wurde nicht vorgetragen.
Inhaltsverzeichnis Einleitung 1 Mengen und Abbildungen 1.1 Aussagen . . . . . . . . 1.2 Mengen . . . . . . . . . 1.3 Abbildungen . . . . . . . 1.4 Nat¨ urliche Zahlen . . . . 1.5 Die Umkehrabbildung . 1.6 Relationen . . . . . . . .
1 . . . . . .
2 Elemente der Kombinatorik 2.1 Ganze Zahlen . . . . . . . 2.2 Abz¨ahlen . . . . . . . . . . 2.3 Permutationen . . . . . . 2.4 Kombinationen . . . . . . 2.5 Ordnungen . . . . . . . . . 2.6 Sortieren . . . . . . . . . .
. . . . . . . . . . . .
3 Elemente der Zahlentheorie 3.1 Primzahlen . . . . . . . . . 3.2 Teilbarkeit . . . . . . . . . . 3.3 Euklidischer Algorithmus . . 3.4 Diophantische Gleichungen . 3.5 Der kleine Satz von Fermat 3.6 Kongruenzen . . . . . . . . 3.7 Das RSA–Schema . . . . . . 4 Reelle Zahlen 4.1 Algebraische Eigenschaften 4.2 Anordnungsaxiom . . . . . 4.3 Axiom der Vollst¨andigkeit 4.4 Konvergenz von Folgen . . 4.5 Intervallschachtelung . . . 4.6 Reihen . . . . . . . . . . . 4.7 Gleitkommazahlen . . . .
. . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
1
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . .
1 1 4 9 14 22 25
. . . . . .
28 28 30 34 37 41 43
. . . . . . .
47 47 51 53 60 61 65 70
. . . . . . .
74 74 79 83 87 97 103 107
Baumeister: Mathematik I - IV / Stand: Juli 1998
2
5 Elementare Wahrscheinlichkeitsrechnung 5.1 Versuch, Ereignis, Zufall . . . . . . . . . . 5.2 Laplace–Wahrscheinlichkeit . . . . . . . . 5.3 Einige Beispiele . . . . . . . . . . . . . . . 5.4 Wahrscheinlichkeit: Der endliche Fall . . . 5.5 Bedingte Wahrscheinlichkeiten . . . . . . . 5.6 Produkt von Wahrscheinlichkeitsr¨aumen . 6 Reelle Funktionen und Stetigkeit 6.1 Reelle Funktionen . . . . . . . . . 6.2 Grenzwerte von Funktionen . . . 6.3 Stetigkeit . . . . . . . . . . . . . 6.4 S¨atze u ¨ber stetige Funktionen . .
. . . .
. . . .
7 Zufallsgr¨ oßen und Verteilungen 7.1 Axiomatische Wahrscheinlichkeit . . 7.2 Zufallsgr¨oßen . . . . . . . . . . . . . 7.3 Das schwache Gesetz der großen Zahl 7.4 Spezielle Verteilungen . . . . . . . . .
. . . . . . . .
. . . . . . . .
8 Differential– und Integralrechnung 8.1 Differenzierbarkeit . . . . . . . . . . . . 8.2 Mittelwertsatz und Taylorsche Formel . . 8.3 Funktionenfolgen und Funktionenreihen . 8.4 Integration . . . . . . . . . . . . . . . . . 8.5 Integration und Differentiation . . . . . . 8.6 Spezielle Funktionen . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . .
111 . 111 . 114 . 116 . 122 . 127 . 132
. . . .
134 . 134 . 136 . 139 . 141
. . . .
146 . 146 . 149 . 158 . 159
. . . . . .
168 . 168 . 175 . 180 . 185 . 191 . 195
9 Geometrie und Algebra 200 9.1 Herausbildung der axiomatischen Geometrie . . . . . . . . . . . . . . . . . 200 9.2 Zirkel und Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 9.3 Geometrie, Symmetrie, Invarianz . . . . . . . . . . . . . . . . . . . . . . . 220 10 Gruppen, K¨ orper, Polynome 10.1 Gruppen . . . . . . . . . . . . . . . . . 10.2 Untergruppen . . . . . . . . . . . . . . 10.3 Permutationsgruppen . . . . . . . . . . 10.4 K¨orper . . . . . . . . . . . . . . . . . . 10.5 Komplexe Zahlen . . . . . . . . . . . . 10.6 Nullstellen von Polynomen . . . . . . . 10.7 Konstruierbarkeit mit Zirkel und Lineal
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
226 226 233 237 242 245 252 256
11 Euklidische Geometrie in der Ebene 11.1 Die euklidische Ebene . . . . . . . . . 11.2 S¨atze in der euklidischen Ebene . . . 11.3 Bewegungen und orthogonale Gruppe 11.4 Wege und Kurven . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
261 261 276 283 289
. . . .
Baumeister: Mathematik I - IV / Stand: Juli 1998
3
11.5 Kegelschnitte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 11.6 Vektorr¨aume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302 12 Absolute Geometrie der Ebene 12.1 Einf¨ uhrung . . . . . . . . . . . . 12.2 Inzidenzaxiome . . . . . . . . . . 12.3 Abstandsaxiome . . . . . . . . . . 12.4 Anordnungsaxiome . . . . . . . . 12.5 Bewegungsaxiom . . . . . . . . . 12.6 S¨atze der absoluten Geometrie . . 12.7 Winkelmaße . . . . . . . . . . . . 12.8 Das Parallelenaxiom in der Ebene
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
305 . 305 . 307 . 311 . 314 . 317 . 320 . 326 . 331
13 Etwas angewandte lineare Algebra 13.1 Ausgleichsrechnung . . . . . . . . . . . . . 13.2 Matrizen und lineare Gleichungen . . . . . 13.3 Eliminationsverfahren . . . . . . . . . . . . 13.4 Euklidische Geometrie des Raums . . . . . 13.5 Die orthogonale Gruppe . . . . . . . . . . 13.6 Kegelschnitte . . . . . . . . . . . . . . . . 13.7 Minkowski–Raum und Relativit¨atstheorie . 13.8 Sph¨arische Geometrie und Astronomie . . 13.9 Hyperbolische Geometrie . . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
338 338 343 349 356 363 365 377 381 394
14 Iterationsverfahren 14.1 Nullstellen, Kurvendiskussion, Fixpunkte 14.2 Das Newtonverfahren im Reellen . . . . 14.3 Fixpunktiteration und Chaos . . . . . . 14.4 Iteration im Komplexen . . . . . . . . . 14.5 Iteration von Drehschrumpfungen . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
399 399 409 412 419 423
. . . . . .
427 . 427 . 432 . 434 . 439 . 445 . 447
. . . . .
448 . 448 . 458 . 463 . 468 . 471
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . .
15 Verschl¨ usselte Botschaften 15.1 Problemstellung . . . . . . . . . . . . . . . . . . . 15.2 Entdecken und Korrigieren von Fehlern . . . . . . 15.3 Lineare Codes . . . . . . . . . . . . . . . . . . . . 15.4 Kryptographie . . . . . . . . . . . . . . . . . . . . 15.5 Public key – Kryptosysteme . . . . . . . . . . . . 15.6 Elektronische Unterschrift und elekronisches Geld 16 Graphentheorie 16.1 Graphen und ihre Diagramme 16.2 Ebene Graphen . . . . . . . . 16.3 B¨aume . . . . . . . . . . . . . 16.4 Der Heiratssatz . . . . . . . . 16.5 Gewichtete Graphen . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
Baumeister: Mathematik I - IV / Stand: Juli 1998 17 Elementare Statistik 17.1 Merkmale . . . . . . . . . 17.2 Statistische Parameter . . 17.3 Paare von Messungen . . . 17.4 Die Normalverteilung . . . 17.5 Sch¨atzen von Parametern 17.6 Testen . . . . . . . . . . . Literatur
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
4
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
474 . 474 . 477 . 479 . 481 . 483 . 484 i
Einleitung Bei der Vorlesungssequenz Mathematik I, II, III handelt es sich um die fachwissenschaftliche Ausbildung der Lehrer f¨ ur • Grundschulen mit Wahlfach Mathematik (L1) • Haupt- und Realschulen (L2) • Sonderschulen mit Wahlfach Mathematik (L5) Erg¨anzt werden sollen diese Vorlesungen im 4. Studiensemester durch eine aus dem Veranstaltungsangebot des Fachbereiches frei zu w¨ahlende Veranstaltung. (Im vorliegenden Fall wird wohl eine Veranstaltung zu konstruktiven Aspekten der Mathematik angeboten werden.) Die Ausbildung von Lehrern in einem Unterrichtsfach umfaßt fachdidaktische und fachwissenschaftliche Anteile. Es ist sicher angeraten, in der Lehrerausbildung der unteren Schulstufen die fachdidaktische Komponente st¨arker zu betonen als die fachwissenschaftliche. Dies sollte bei der Auswahl des Stoffes und der Darstellung dazu f¨ uhren, daß eine enge Beziehung zu den Inhalten des Schulunterrichtes besteht. Allerdings verlangen die Herausbildung von Urteils– und Kritikf¨ahigkeit und des Verst¨andnisses f¨ ur die Probleme des Lehrens und Lernens breite und tiefe Kenntnisse der Inhalte und Methoden des Fachs, in wesentlichen Z¨ ugen auch u ¨ ber die relevanten Themen der n¨achsth¨oheren Schulstufe. F¨ ur das Fach Mathematik bedeutet dies, daß der k¨ unftige Lehrer im Laufe seines Studiums Elemente der Arithmetik, Geometrie, Algebra und Stochastik kennenlernen und sich exemplarisch mit Anwendungsbereichen der Mathematik auseinandersetzen soll. Die Vorlesungssequenz Mathematik I, II, III gibt die Vorlage daf¨ ur ab. In der fachdidaktischen Ausbildung wird vor allem die Frage behandelt, wie Mathematik gelehrt werden soll, in der fachwissenschaftlichen Ausbildung steht die Frage, welche Mathematik soll erarbeitet werden, um sie kompetent lehren zu k¨onnen, im Vordergrund. Diese Frage nach den Inhalten kann nicht rein innermathematisch beantwortet werden, dazu ist auch die Frage nach dem wozu“ zu kl¨aren. ” Der Mathematikunterricht an allgemeinbildenden Schulen (bis zum Abitur) hat zweierlei zum Ziel: Erstens, beizutragen zur Sicherung der Studierf¨ahigkeit, zweitens den Auftrag zur Allgemeinbildung zu erf¨ ullen. Der Beitrag zur Studierf¨ahigkeit soweit es sich um Wissensvermittlung handelt kann bei Schulstufen bis zur 10. Klasse hinten anstehen, der Auftrag zur Allgemeinbildung steht klar im Vordergrund. Dazu ist zun¨achst die Frage I
Baumeister: Mathematik I / Stand: Januar 1997
II
Mathematikunterricht und Allgemeinbildung zu diskutieren. Die Diskussion dieser Fragestellung ist ziemlich aktuell. Sie wurde kr¨aftig angeschoben durch die Habilitationsschrift Allgemeinbildung und Mathematik“ von ” Hans Werner Heymann (Universit¨at Bielefeld). Die ¨argerliche publizistische Ausweidung seiner (acht) Thesen hat seinen Ansatz vollkommen verf¨alscht (Siehe hierzu: H. Vollrath: Die a¨rgerlichen 7 Jahre, DMV-Mitteilungen, 1/96). Als Antwort auf die Schieflage in der ¨offentlichen Diskussion kann der Aufsatz Mathematikuntericht und Allgemeinbil” dung“ von H. Winter (siehe DMV-Mitteilungen 2/96) angesehen werden. Er schreibt zur Allgemeinbildung Zur Allgemeinbildung soll hier das an Wissen, Fertigkeiten und Einstellungen gez¨ahlt werden, was jeden Menschen als Individuum und Mitglied von Gesellschaften in einer wesentlichen Weise betrifft, was f¨ ur jeden Menschen unabh¨angig von Beruf, Geschlecht, Religion u.a. von Bedeutung ist. Das ist nat¨ urlich keine Definition, es m¨ ußten hierzu mindestens noch Konzepte von den m¨oglichen Bestimmungen des Menschen aufgezeigt werden. und folgert daraus f¨ ur den Mathematikunterricht Der Mathematikunterricht sollte anstreben, die folgenden drei Grunderfahrungen, die vielf¨altig miteinander verkn¨ upft sind, zu erm¨oglichen: (1) Erscheinungen der Welt um uns, die uns alle angehen oder angehen sollten, aus Natur, Gesellschaft und Kultur, in einer spezifischen Art wahrzunehmen und zu verstehen, (2) mathematische Gegenst¨ande und Sachverhalte, repr¨asentiert in Sprache, Symbolen, Bildern und Formeln, als geistige Sch¨opfungen, als eine deduktiv geordnete Welt eigener Art kennen zu lernen und zu begreifen, (3) in der Auseinandersetzung mit Aufgaben Probleml¨osef¨ahigkeiten, die u ¨ber die Mathematik hinaus gehen, (heuristische F¨ahigkeiten) zu erwerben. (Unter (1) sind u.a. die Fragen der Mathematisierung und Anwendbarkeit von Mathematik subsumiert, bei (2) steht mehr die innere Welt der Mathematik im Vordergrund, bei (3) ist der formale Bildungswert der Mathematik angesprochen.) Hinzugef¨ ugt werden sollte zu den oberen Forderungen wohl noch, daß der Mathematikunterricht den kritischen Umgang mit (angeblich) exakten Daten ein¨ uben sollte; die Ehrfurcht vor Zahlen und mathematisch Verbr¨amtem muß abgebaut werden. Die Stochastik kann hier viel leisten. Was sollte also in dieser Vorlesungssequenz Mathematik I - III vermittelt werden: 1. Fachliche Kenntnisse. 2. Mathematische Modellbildung und Anwendbarkeit. 3. Bild der Mathematik als lebende Wissenschaft.
Baumeister: Mathematik I / Stand: Januar 1997
III
Wichtig erscheint dabei – dies wird in neuerer Zeit immer mehr so gesehen – Mathematik nicht als fertiges Theoriegeb¨aude zu vermitteln, sondern auch die historische Genese der Ideen darzulegen. Otto Toeplitz in der Einleitung zu Die Entwicklung der Infinitesimal” rechnung“, 1894: Ich will aus der Historie nur die Motive f¨ ur die Dinge, die sich hernach ” bew¨ahrt haben, herausgreifen. Nicht um die Geschichte handelt es sich, sondern um die Genesis der Probleme, der Tatsachen und Beweise, um die entscheidenden Wendepunkte dieser Genesis“ Zur Bedeutung (der Physikgeschichte) in Lehre und Unterricht bemerkt der Physiker und Philosoph Ernst Mach: “Die Resultate einer Wissenschaft, zu deren Aufbau die Geistesarbeit von Jahrtausenden erforderlich war, sollte nicht in einer Darstellung vorgef¨ uhrt werden, welche den Eindruck macht, als ob es sich durchwegs um l¨angst bekannte und auf naheliegenden Schlußfolgerungen beruhende Dinge handelte, und den Studenten (Sch¨ uler) nicht ahnen l¨aßt, welche Unkenntnis, welche Zweifel und Irrt¨ umer jahrhundertelang u ¨ber manchen Fragen walteten und mit welchen Schwierigkeiten die hervorragendsten M¨anner (!) der Wissenschaft zu den heute so einfach scheinenden Ergebnissen gelangt sind . . .“ Felix Klein (1849 – 1925) – er wird uns im Zusammenhang mit der Geometrie noch begegnen – hat sich intensiv mit Fragen des Mathematikunterrichtes (an den Gymnasien) befaßt. Die sogenannten Meraner Vorschl¨age“ des Jahres 1905 gehen auf Kleins Intention ” zur¨ uck. Er forderte damals f¨ ur den Gymnasialunterricht: 1. Psychologisch richtige Unterrichtsweise. 2. St¨arkung des Anschauungsverm¨ogens und Erziehung zum funktionalen Denken mittels des geometrisch gefaßten Funktionsbegriffs. 3. Ber¨ ucksichtigung der Anwendungen. Diese Forderungen sind wohl auch heute noch aktuell. In unserer Darstellung der Gebiete Arithmetik, Geometrie, Algebra, Stochastik versuchen wir ein spiralf¨ormigen Aufbau: in jedem Semester werden Objekte und Strukturen aus jedem der obigen Gebiete vorgestellt. Am Ende des zweiten Semesters werden die wesentlichen Grundz¨ uge der Theorie dann skizziert sein. Das vorliegende Skriptum kann Lehrb¨ ucher zu den einzelnen Themen nicht ersetzen. Es soll lediglich dazu dienen, den Stoff der Vorlesung schwerpunktm¨aßig festzuhalten. Die Aufzeichnungen sind vorl¨aufig, oberfl¨achlich korrigiert und daher mit wachem Ver” stand“ zu gebrauchen. Beleitende Literatur k¨onnten die Skripten von F¨ uhrer [19], Engel [12, 13, 14], G¨ unther [24] und die Lehrb¨ ucher von Scheid [43, 45], Blankenagel [7] und Maibaum [36] sein.
Baumeister: Mathematik I / Stand: Januar 1997
IV
Der p¨adagogische Gesichtspunkt der Mathematik kommt in unserer Veranstaltung gar nicht zum Tragen. Von D. Hilbert (1862 – 1943) (In: Wissen und mathematisches Denken, Vorlesungsmitschrift, 1922/23), von dem im Zusammenhang mit Geometrie noch viel zu h¨oren sein wird, stammt folgende Zusammenfassung: ¨ Selbstvertrauen auf die eigenen Kr¨afte, kritischer Blick, Energie in der Uber” windung von Schwierigkeiten, die zun¨achst un¨ ubersteigbar scheinen, beharrlich auf das Ziel gerichteter Wille, sind ethische Kr¨afte und Qualit¨aten, die zu wecken es kein besseres Mittel gibt als die Besch¨aftigung mit der Mathematik.“ Eine Definition f¨ ur Was ist (die) Mathematik“ ist nur schwerlich zu geben. Ein Ver” such: “Mathematik ist die Wissenschaft, die sich mit Zahl– und Raumvorstellungen und deren logischer Begr¨ undung befaßt.“ Dies ist eine mehr aus historischer Sicht formulierte Definition, eine etwas auf moderne Entwicklungen ausgerichtete Definition k¨onnte sein: “Mathematik studiert in abstrakter Form Strukturen, die von Objekten und Ph¨anomenen abgeleitet sind.“ Bei Meschkowski [36] lesen wir: F¨ ur die Hochschulen ist die Mathematik die “Wissenschaft von den formalen Systemen“. Bei J.D. Barrow 1 werden vier Aufassungen von Mathematik aufgelistet. Der Formulismus definiert die Bedeutung der Mathematik als die Menge aller Herleitungen, die sich aus allen m¨oglichen Schlußregeln gewinnen lassen. Diese so definierte Mathematik reibt sich an der Tatsache, daß K. G¨odel (1906 – 1978) zeigte, daß es Aussagen geben muß, deren Wahrheit oder Falschheit sich niemals aus den Beweisen ableiten l¨aßt. Der Inventionismus sieht die Mathematik als eine rein menschliche Erfindung; Mathematik ist das, was Mathematiker tun. In der platonischen Deutung existiert Mathematik unabh¨angig von Mathematikern. Die Mathematik ist eine Form objektiver allgemeing¨ ultiger Wahrheit. Der Grund, warum die Mathematik bei der Beschreibung der Wirkungsweise so erfolgreich ist, liegt darin, daß die Welt im Grunde mathematisch ist. Die meisten Naturwissenschaftler und Mathematiker handeln so, als ob der Platonismus wahr sei. Der Konstruktivismus wurde gegen Ende des neunzehnten Jahrhunderts entwickelt, als durch die Paradoxa der Mengenlehre das Gef¨ uhl aufkam, es k¨onnten sich Fehler und Widerspr¨ uchlichkeiten einschleichen, wenn wir mit Begriffen wie dem Unendlichen umgehen. Die Beschr¨ankung des logischen Beweises auf die Aussage des Konstruktivisten l¨aßt so vertraute Beweisverfahren wie den indirekten Beweis nicht zu. Der Konstruktivist definiert die Dinge durch den Vorgang, durch den sie ausgef¨ uhrt oder konstruiert werden k¨onnen. Als Ersatz f¨ ur den Versuch einer umfassenden Beschreibung und Definition — ohne Mathematik getrieben zu haben, w¨are sie auch ziemlich sinnlos — skizzieren wir die Wurzeln der Wissenschaft Mathematik“. ” ¨ Die Wurzeln der Mathematik sind in den alten Kulturen der Babylonier, Agypter, Inder und Chinesen, also der vorhellenistischen Zeit, zu suchen. In diesen Kulturen u ¨ berwiegt der empirische Ansatz; Rechenkunst schl¨agt sich nieder in Rezepten und Analogiebetrachtungen. ¨ In der Mathematik der Babylonier, Agypter, Inder und Chinesen finden wir noch keine 1
Barrow J.D., Theorien f¨ ur alles, Rororo,1994
Baumeister: Mathematik I / Stand: Januar 1997
V
Mathematik-Sprache. Es werden jeweils die Zeichen und Werte der Alltagssprache verwendet, die Arithmetik“ wird nach unterschiedlichen Zahlensystemen abgewickelt, die ” Objekte der Betrachtung sind stets sehr konkreter Natur (Ausmessen von B¨oschungen, Ermitteln von Entfernungen, Fl¨achenberechnungen von Feldern, Handelsrechnungen, ...). ¨ Die Ergebnisse der Uberlegungen werden im allgemeinen nur als Rechenvorschrift f¨ ur ein konkretes Zahlenbeispiel mitgeteilt. Offen bleibt, wie man auf die Vorschrift gekommen ist, und wie man sich davon u ¨ berzeugt hat, daß sie die richtigen“ Ergebnisse liefert. Es ” liegt offenbar ein rein induktives Vorgehen vor. (In weitestem Sinne kann in stochastischen ¨ Uberlegungen der erfolgreiche Versuch erkannt werden, Fakten, die an einer Stichprobe beobachtet wurden, G¨ ultigkeit zuzuordnen und damit induktivem Schließen mathematischen Gehalt zu geben). Beispiel 0.1 Die Berechnung der Fl¨ache eines Trapezes (Kanal!) ist den Babyloniern gel¨aufig. In diesem Zusammenhang wird dann eine Fl¨achenformel f¨ ur das allgemeine Viereck mit den Seitenl¨angen a, b, c, d (in Reihenfolge) wohl in einem Analogschluß angegeben: F =
a+c b+d · 2 2
Diese Formel liefert nur f¨ ur das Rechteck einen richtigen Wert!
2
Beispiel 0.2 Das sogenannte chinesische Restproblem findet sich in einem Rechenbuch von Sun Tse um 300 v.Chr.: Wir haben eine Anzahl von Gegenst¨anden, wissen aber nicht genau wieviele. Z¨ahlen wir sie zu dreien ab, so behalten wir 2 u ¨ brig, z¨ahlen wir sie zu je 5 ab, so behalten wir 3 u ¨brig, z¨ahlen wir sie zu je 7 ab, so behalten wir 2 u ¨ brig. Wieviele Gegenst¨ande sind es? Sun verschafft sich 3 Zahlen: a = 70 : Eigenschaft: Rest 0 bei Division durch 5, 7, Rest 1 bei Division mit 3. b = 21 : Eigenschaft: Rest 0 bei Division durch 3, 7, Rest 1 bei Division durch 5. c = 15 : Eigenschaft: Rest 0 bei Division durch 3, 5, Rest 1 bei Division durch 7. Dann stellt Sun fest, daß die Zahl z = 2a + 3b + 2c = 233 die verlangte Eigenschaft hat und daß man noch beliebige Vielfache von 3 · 5 · 7 abziehen darf. Sun erh¨alt als kleinste L¨osung 23. Dieses Vorgehen ist eine Fassung des Beweises zum sogenannten chinesichen Restsatzes, den wir im Zusammenhang mit Teilbarkeit und Restklassen beweisen werden, f¨ ur die vorliegende Beispielsituation. L. Euler (1707 – 1783) und C.F. Gauß (1777 – 1855) haben sich damit intensiv besch¨aftigt. 2 Beispiel 0.3
Baumeister: Mathematik I / Stand: Januar 1997
VI
In altindischen Aufzeichnungen findet sich eine Rechenvorschrift f¨ ur die Diagonale in einem Quadrat: Man verl¨angere das Maß (der Quadratseite) um seinen dritten Teil und √ ” 1 diesen um seinen vierten Teil, weniger 34 dieses vierten Teils“ . Dies besagt, daß f¨ ur 2 der (N¨aherungs-) Wert 1 1 1 1 1 1 1+ + · − · · 3 4 3 34 4 3 angegeben wurde. (Man beachte, daß hier nur Stammbr¨ uche, d.h. Br¨ uche der Form 1 1 1 1 1 , , , · · · , vorkommen.) Ohne den Korrekturwert“ · erh¨ a lt man als N¨aherungswert 2 3 4 34 4·3 ” 17 , einen Wert, der auch bei den Babyloniern verwendet wurde. 12 Das Problem der Wurzel aus√2 wird bei der Entwicklung der Mathematik eine große Rolle spielen. (Irrationalit¨at von 2). 2 Die griechische Mathematik beginnt sich von der ¨agyptischen und babylonischen Mathematik abzusetzen. In der hellenistischen Kultur verliert die Mathematik ihre alleinigen empirischen“ Charakter, sie wird zu einer – seinerzeit der – axiomatisch–deduktiven ” Wissenschaft, in der nicht n¨ utzliche Anwendbarkeit im Vordergrund steht, sondern Erkenntnis um ihrer selbst willen. Zur Frage nach dem “Wie“ kommt auch die Frage nach dem “Warum“. Fortan ist der Beweis das Kernst¨ uck des mathematischen Denkens. Neben das Problemdenken tritt das Systemdenken. Die Eigenentwicklung zeigt sich in einer klaren Auseinanderhaltung der logischen Bestandteile Definition, Postulat, Axiom, Satz. Etwa gibt es bei Euklid die folgende Definition: Gerade ist eine Zahl, die sich halbieren l¨aßt, und ungerade ist eine Zahl, die sich nicht ” halbieren l¨aßt, oder die sich um eine Einheit von einer geraden Zahl unterscheidet.“ Bei Euklid liegt die deduktive Methode der Mathematik fertig vor. Sie wird in den drei vorangegangenen Jahrhunderten von Thales an Schritt f¨ ur Schritt erarbeitet. Aufschluß dar¨ uber gibt ein Kommentar von Proklos (410 – 485) zum Hauptwerk von Euklid (Elemente). Etwa ist hier zu lesen: Thales hat erkannt und ausgesprochen, daß die Basiswinkel im gleichschenk” ligen Dreieck gleich sind“. (Dies deutet noch nicht endg¨ ultig auf das Vorhandensein eines Beweises hin. In nachweisbarer Form hat der Beweis Einzug in die Mathematik mit Hippokrates (um 440 v. Chr.) gehalten (Nachweis, daß sich zwei Kreisfl¨achen wie die Quadrate ihrer Durchmesser verhalten)). Parallel zur Herausbildung des deduktiven Charakters der Mathematik und damit verkn¨ upft gibt es die wissenschaftlichen Anf¨ange in der Philosophie (Zeno (490? – 430? v. Chr., Sokrates (469 – 399 v. Chr.), Platon (427? – 347? v. Chr.). Die Lehren von Platon u ¨ber das Wesen der Mathematik beeinflußt die Aussage der Mathematiker und Philosophen in einem Zeitraum, der mehr als zwei Jahrtausende umfaßt. Nach Platon sind die Erkenntnisse der Mathematik “Einblicke in das Reich der Ideen“. (Mit der Idee Kreis, mit der Idee Gerade, mit der Idee Zahl hat es der Mathematiker zu tun, nicht mit den von Menschenhand geschaffenen Bildern dieser Ideen.) Man spricht einem platonischen Verst¨andnis (siehe oben) vom Wesen der Mathematik. Eine Kl¨arung der Begriffe in der Theorie der Zahlen“ und der Geometrie“ war dann ” ” urs¨achlich f¨ ur eine erste Krise der Mathematik: Es gibt Strecken, die kein gemeinsames
Baumeister: Mathematik I / Stand: Januar 1997
VII
Maß besitzen, sie sind inkommensurabel. Es gibt also Streckenpaare, die nicht ganzzahlige Vielfache einer Einheitstrecke“sind. Euklid bringt den Beweis daf¨ ur, daß die Diago” nale d und die Seite s eines Quadrates inkommensurabel sind. Dieser Beweis ist zugleich einer der ersten indirekten Beweise. Er l¨auft so: ¨ Wir wissen (aus dem Satz des Pythagoras, der schon bei den Babyloniern und Agyptern 2 2 bekannt war) : d = 2s Annahme: d und s sind kommensurabel, Dann gibt es ganze Zahlen p, q mit d:s=p:q (Vor Eudoxos (408? – 355? v. Chr.) werden nur die ganzen Zahlen als “Zahlen“ im eigentlichen Sinne bezeichnet, gebrochene Zahlen werden auf dem Wege u ¨ ber Verh¨altnisse eingef¨ uhrt. Eudoxos hat als erster das sogenannte Axiom der Meßbarkeit formuliert; es wird uns als Archimedisches Axiom der Anordnung bei der Einf¨ uhrung der reellen Zahlen begegnen.) Es kann vorausgesetzt werden, daß p und q nicht beide gerade Zahlen sind. Aus d2 = 2s2 folgt p2 = 2q 2 . Daraus folgt nach der Lehre von geraden und ungeraden Zahlen (siehe Euklid), daß p nicht ungerade sein kann; es ist also p = 2p0 . Dann ist aber q 2 = 2p02 , also auch q eine gerade Zahl. Damit ist ein Widerspruch zur Eingangsvoraussetzuing, daß von den Zahlen p, q nicht beide gerade sind, hergeleitet und die Annahme ist nicht haltbar. Ein indirekter Beweis geht von der zu beweisenden Tatsache aus, um aus der Annahme des Gegenteils einen Widerspruch herzuleiten. Die zu beweisende Tatsache muß also vorher bekannt sein oder wenigstens vermutet werden. Wie kommt man (oder wie kommen die Mathematiker vor Euklid) zu einer solchen Vermutung der Inkommensurabilit¨at? Dies k¨onnte durch das Vorgehen der wechselseitigen Wegnahme erfolgt sein. Beispiel 0.4 Sei s die Seitenl¨ange eines Quadrats und sei d die L¨ange der zugeh¨origen Diagonalen. Wir nehmen Kommensurabilit¨at an: s = pe , d = qe , p, q ganze Zahlen. Wir bilden ein Quadrat mit Seitenl¨ange s1 = d − s und Diagonale d1 = s − s1 . Es gilt dann 1 s1 = d − s < s , 2 3 da bekannt ist, daß d < 2 s ist. Ferner haben s1 und d1 wieder das gemeinsame (Eich-)Maß e. So fortfahrend erhalten wir schließlich eine Seitenl¨ange eines Quadrats, die kleiner als das Eichmaß e ist (Dieser Sachverhalt der geometrischen Abnahme war bei Euklid schon bekannt), Dies f¨ uhrt dann zu einem Widerspruch. 2
Baumeister: Mathematik I / Stand: Januar 1997
VIII
Beispiel 0.5 Eine andere Deutung ist die, daß die Entdeckung der Inkommensurabilit¨at das Ergebnis des Interesses f¨ ur das geometrische Mittel m von a, b gewesen ist. Die Bestimmungsgleichung f¨ ur m ist a : m = m : b Wie groß ist das geometrische Mittel der Zahlen 1 und 2 ? Im Altertum waren drei Mittelwerte bekannt. Seien etwa a, b nat¨ urliche Zahlen (die Definition ist nicht darauf beschr¨ankt!): Arithmetisches Mittel b − m = m − a Geometrisches Mittel a : m = m : b Harmonisches Mittel b : a = (b − m) : (m − a) Im Bericht von Nikomachos (um 100) werden Mittelwerte mit Staatsformen in Verbindung gebracht. Das arithmetische Mittel wird mit der Herrschaft einer kleinen Gruppe verglichen, weil das Verh¨altnis der beiden kleineren Zahlen gr¨oßer ist, als das der gr¨oßeren Zahlen (m : a > b : m). Das harmonische Mittel entspricht der Herrschaft der Vornehmen (Großen), da das Verh¨altnis der gr¨oßeren Zahlen gr¨oßer ist als das der kleineren (b : m > m : a). Eine ausgewogene und gerechte Herrschaftsform stellt das geometrische Mittel dar, weil beide Verh¨altnisse gleich sind (b : m = m : a). 2 √ Die Irrationalit¨at von 2 zerst¨orte die Pythagoreische Philosophie, daß alle Verh¨altnisse durch ganze Zahlen bestimmt sind. Daß die Griechen nach der Entdeckung der Irrationalit¨at nicht das System der irrationalen Zahlen aufgebaut haben, ist wohl der Tatsache zuzuschreiben, daß sie das System der rationalen Zahlen nicht in “passender“ Form hatten: Sie lagen ja nur als Verh¨altnis von ganzen Zahlen vor, weil der geometrisch–philosophische Stil der griechischen Mathematik dies so festschrieb. Eine Abl¨osung ist erst bei Diophantos von Alexandria (um 250) zu erkennen, wenn erstmals der Stil der reinen Mathematik deutlich wird; Ausdruck davon ist das erstmalige Auftreten einer selbst¨andigen Notation. Das Irrationalit¨atsproblem wurde schließlich erst endg¨ ultig von A. Cauchy (1789 – 1857) gekl¨art. Bei Archimedes (287? – 212 v. Chr.) ist schon ein umfassendes Geb¨aude vorhanden: Kegelschnitte, Fl¨acheninhaltsberechnungen, physikalische Anwendungen. Es waren auch schon die drei ber¨ uhmten mathematischen Probleme des Altertums formuliert: 1. Dreiteilung des Winkels (Teilung eines Winkels in drei gleiche Teile.) 2. Verdoppelung des W¨ urfels (Konstruktion einer Seite eines W¨ urfels, dessen Volumen zweimal so groß ist wie das gegebene Dreieck.) Es wird das Delische Problem genannt. 3. Quadratur des Kreises (Konstruktion eines Quadrates mit einer Fl¨ache, die der Fl¨ache eines gegebenen Kreises gleich ist.)
Baumeister: Mathematik I / Stand: Januar 1997
IX
Als Konstruktionshilfsmittel waren nur Zirkel und Lineal zugelassen! Zu allen drei Problemen werden wir einen theoretischen Ansatz f¨ ur die Erkenntnis liefern, daß die Probleme nicht l¨osbar sind. Zur Bedeutung des Beitrags der R¨omer zur Mathematik hat jemand bemerkt: Der einzige Beitrag, den die R¨omer zur Mathematikgeschichte geleistet haben, war der, daß ein r¨omischer Soldat den Archimedes erschlagen hat. Diese u ¨ berpointierte Auffassung bringt zum Ausdruck, daß Fortschritte in der theoretischen Mathematik bei den R¨omern nicht zu finden sind, ihr Interesse galt mehr den praktischen Anwendungen. Fortschritte in der Mathematik zeichneten sich erst wieder ab, nachdem mit dem Islam ¨ ¨ Ubersetzungen der Lehrb¨ ucher der Griechen, Agypter, Inder und Babylonier ins Abendland kamen. Hier sind zu nennen: Leonardo da Pisa (1180? – 1250?), genannt Fibonacci, N. Oresme (1323? – 1382), M. Stiefel (1487? – 1567), Regiomontanus (1436 – 1476), N. Tartaglia (1500? – 1557), G. Cardano (1501 –1576). Die Anf¨ange der neuzeitlichen Mathematik zeichnen sich an der Wende zum 17. Jahrhunderts ab. Hier sind zu nennen: F. Vi`ete (1540 – 1603), J. Neper (1550 – 1617). Es entstehen Logarithmentafeln, mathematische Zeichensprache und es zeichnet sich eine konsequente Mathematisierung in der Physik ab: W. Snellius (1580 – 1626) entdeckt das Brechungsgesetz und begr¨ undet eine geometrische Optik, T. Brahe (1546 – 1601) wertet die astronomischen Beobachtungen des Mars aus und schafft damit die Basis f¨ ur die Aufstellung der Keplerschen Gesetze (J. Keppler (1571 – 1630)), G. Galilei (1564 – 1642) begr¨ undet die mathematische Behandlung naturwissenschaftlicher Fragen mit seiner Hinwendung zum Kausaldenken und zur experimentellen Arbeit. Die dramatische Wende brachte dann das 17. Jahrhundert mit dem Wirken von P. Fermat (1601 – 1665), B. Pascal (1623 – 1662), R. Descartes (1596 – 1650), C. Huygens (1629 – 1695), I. Newton (1643 – 1727), G.W. Leibniz (1646 – 1716). Leibniz hat Gedanken zur axiomatischen Begr¨ undung des Rechnens mit nat¨ urlichen Zahlen, zur Durchleuchtung der euklidischen Axiome in der Geometrie und zur Begr¨ undung einer symbolischen Logik formuliert, Gedanken, die erst im 19. Jahrhundert wieder aufgenommen wurden. Diese Entwicklungen der Mathematik der neueren Zeit und eine genauere Analyse des Ansatzes von Euklid in der Geometrie skizzieren wir im Zusammenhang mit den entsprechenden Gebieten. Soviel wollen wir hier schon festhalten: Mathematisierung erh¨ alt eine u ¨ berragende Rolle. Mathematisierung k¨onnen wir etwa so zusammenfassen: • Aufspaltung der S¨atze (Hauptausagen) in Axiome und Theoreme. ¨ • Uberpr¨ ufung der Axiome auf Evidenz. • Formulierbarkeit der S¨atze in einer der mathematischen Zeichensprache nachgebildeten Pr¨azisionssprache.
Ohne zus¨atzliche Zeichen kommt die Mathematik nicht aus. Wir versuchen, neben den noch einzuf¨ uhrenden Symbolen mit dem lateinischen und dem griechischen Alphabet auszukommen. Hier ist das griechische Alphabet:
Baumeister: Mathematik I / Stand: Januar 1997
1
A, α
Alpha
I, ι
Jota
P, ρ
Rho
B, β
Beta
K, κ
Kappa
Σ, σ
Sigma
Γ, γ
Gamma
Λ, λ
Lambda
T, τ
Tau
∆, δ
Delta
M, µ
My
Υ, υ
Ypsilon
E, , ε
Epsilon
N, ν
Ny
Φ, φ
Phi
Z, ζ
Zeta
Ξ, ξ
Xi
X, χ
Chi
H, η
Eta
O, o
Omikron
Ψ, ψ
Psi
Θ, θ, ϑ
Theta
Π, π
Pi
Ω, ω
Omega
Kapitel 1 Mengen und Abbildungen In diesem Kapitel geben wir eine Einf¨ uhrung in die heute u ¨bliche Sprache der Mathematik, soweit sie hier Verwendung findet. Diese Sprache hat sich erst allm¨ahlich entwickelt, bezeichnenderweise sehr viel sp¨ater als die meisten konkreten Gebiete der Mathematik (Zahlentheorie, Algebra, Analysis, Topologie,. . . ). Sie hat sich als n¨otig erwiesen, um Gedanken, Argumente, Ergebnisse allgemeing¨ ultig zu u ¨bermitteln.
1.1
Aussagen
Der Begriff “Aussage“ ist wie der noch zu besprechende Mengenbegriff ein mathematischer Grundbegriff. Er soll hier nicht definiert, sondern nur beschrieben werden: Eine Aussage ist ein “sprachliches Gebilde“, bei dem feststeht, ob ihm Wahrheit (w) oder Falschheit (f) zukommt. Beispiele: 2 ist eine gerade Zahl Ein Hund ist kein Tier Brasilien ist ein Entwicklungsland Die Staße X ist naß 2999991 − 1 ist eine Primzahl Die erste Aussage ist wahr, die zweite Aussage ist falsch, der Wahrheitsgehalt der dritten Aussage h¨angt von einer Definition eines Entwicklungslandes ab. Die vierte Aussage kann auf ihren Wahrheitsgehalt mit “physikalischen“ Mitteln gepr¨ uft werden, der Wahrheitsgehalt der letzten Aussage ist offen: 2999991 − 1 ist eine Primzahl oder sie ist keine, die “Instanz“, die dies entscheiden kann, ist noch zu finden. Die Sache mit den Aussagen und mit der Ermittlung des Wahrheitsgehalts ist so einfach nicht. Epimenides sagte: Alle Kreter sind L¨ugner und h¨oren nicht auf zu l¨ugen. Nun war er selbst ein Kreter; wenn er also die Wahrheit sagte, log er, und wenn er log, k¨onnte es sein, daß er die Wahrheit sagte. Nicht aus Vorliebe f¨ ur subtile Gedankenspielereien unternahm es der englische Philosoph und Mathematiker (und engagierter Kriegsgegner in Ost und West und Nobelpreisgewinner f¨ ur Literatur (1950)) Bertrand Russell (1872 – 1970) nach Vorarbeiten von G. Boole (1815 – 1864) zu Beginn unseres Jahrhunderts, dieses ber¨ uhmte R¨atsel zu l¨osen, sondern
1
Baumeister: Mathematik I / Stand: Oktober 1996
2
weil das logische Problem der Wahrheit mit großer Dringlichkeit in den Aufmerksamkeitsbereich der Mathematiker trat. Wie unterscheidet der Mathematiker das Wahre vom Falschen? F¨ ur B. Russel geht es darum, die Logik neu zu schaffen; die Schwierigkeiten, die auf der Ebene der mathematischen Begriffe aufgetreten waren, mußten durch die Untersuchung allgemeiner, abstrakter logischer Begriffe gekl¨art werden. Damit wurde nach der Aristotelischen Logik (Aristoteles (384 – 322 v. Chr.)) ein neuer innermathematischer Ansatz zur Logik gemacht. F¨ ur die Formulierung unserer Aussagen von mathematischem Gehalt ben¨otigen wir Verabredungen, Sprechweisen, Symbole und eine griffige Notation. Dabei wollen wir aber nicht in die Tiefen der mathematischen Grundlagen (Mengenlehre, Logik) eintauchen, sondern geben uns mit einem “naiven“ Standpunkt zufrieden. Er f¨ uhrt zu keinerlei Konflikten, da wir uns stets mit ziemlich konkreten Objekten besch¨aftigen. Argumentationen in der Mathematik beruhen darauf, daß ein Zusammenhang zwischen Aussagen hergestellt wird, daß Aussagen verkn¨ upft werden. Als logische Verkn¨ upfungen (Junktoren) verwenden wir: Junktor
Sprechweise
Symbol
Konjunktion
. . . und . . .
∧
Alternative
. . . oder . . .
∨
Implikation
wenn . . ., dann . . .
=⇒
¨ Aquivalenz
. . . genau dann, wenn . . .
⇐⇒
Durch logische Verkn¨ upfung zweier Aussagen P,Q ensteht eine dritte Aussage R. Um den Wahrheitsgehalt dieser zusammengesetzten Aussage geht es dann. Bestimmt wird die Aussage R dadurch, welcher Wahrheitswert ihr f¨ ur die verschiedenen Kombinationen von (w) und (f) f¨ ur die Aussagen P und Q zukommt. Die folgende Wahrheitstafel zeigt, wie die oben angef¨ uhrten Aussageverkn¨ upfungen definiert sind: P
Q
P ∧ Q P ∨ Q P =⇒ Q P ⇐⇒ Q
(w) (w)
(w)
(w)
(w)
(w)
(w)
(f)
(f)
(w)
(f)
(f)
(f)
(w)
(f)
(w)
(w)
(f)
(f)
(f)
(f)
(f)
(w)
(w)
Man beachte insbesondere die Wahrheitstafel zu P =⇒ Q: Ist P falsch, so ist die Implikation P =⇒ Q wahr, unabh¨angig vom Wahrheitsgehalt von Q. Bei den eben betrachteten Aussageverkn¨ upfungen wurden stets zwei Aussagen miteinander verkn¨ upft. Man nennt diese Verkn¨ upfungen zweistellige oder bin¨ are Aussageverkn¨ upfungen. Als einstellige “Verkn¨ upfung“ ben¨otigen wir noch die Negation einer Aussage P, in Zeichen ¬ P. Ihre Wahrheitstafel ist
Baumeister: Mathematik I / Stand: Oktober 1996 P
¬P
(w)
(f)
(f)
(w)
3
Halten wir einige logische Gesetze (Tautologien) fest (P,Q seien Aussagen): (G1) (P =⇒ Q) ⇐⇒ (¬ Q =⇒ ¬ P) (G2) ¬ (P ∧ Q) ⇐⇒ ¬ P ∨ ¬ Q (G3) ¬ (P ∨ Q) ⇐⇒ ¬ P ∧ ¬ Q (G4) (P =⇒ Q) ⇐⇒ (¬ P ∨ Q) Von der Richtigkeit der Aussagen (G1), . . . ,(G4) u ¨ berzeugen wir uns, indem wir die Wahrheitstafeln erstellen. Etwa zu (G1): P
Q
P =⇒ Q ¬ P ¬ Q ¬ Q =⇒ ¬ P
(P =⇒ Q) ⇐⇒ (¬ Q =⇒ ¬ P)
(w) (w)
(w)
(f)
(f)
(w)
(w)
(w)
(f)
(f)
(f)
(w)
(f)
(w)
(f)
(w)
(w)
(w)
(f)
(w)
(w)
(f)
(f)
(w)
(w)
(w)
(w)
(w)
Das Gesetz (G1) sagt uns, daß wir die G¨ ultigkeit der Aussage P =⇒ Q nachweisen k¨onnen, indem wir die Aussage ¬ Q =⇒ ¬ P verifizieren (Beweis durch Kontraposition). Die Wahrheitstafel zu P =⇒ Q ist identisch mit der Wahrheitstafel zu ¬ P ∨ Q. Die Aussage ¬ P ∨ Q vermeidet das der Umgangssprache nahestehende “folgt“ in P =⇒ Q. Der Widerspruchsbeweis basiert auf dem Gesetz (G4) zusammen mit (G3). Dem Nach√ weis von Euklid, daß 2 nicht rational ist, liegt dieses Gesetz zugrunde: P : a reelle Zahl, a2 = 2 . Q : a ist irrational, d.h. a ist reell, aber nicht rational. Aus der Annahme P ∧ ¬ Q leiten wir durch logisches Schließen (g¨ ultige Aussageverkn¨ upfungen) eine Aussage ab, die nicht wahr ist. Also kann die Annahme P ∧ ¬ Q, welche ja ¨aquivalent mit ¬ (P =⇒ Q) ist, nicht wahr sein; P =⇒ Q ist also wahr. F¨ ur die Verkn¨ upfungen ∧ und ∨ gelten Tautologien, die wir im n¨achsten Abschnitt u ¨ ber Mengen in anderem Kleide wiederfinden werden (P,Q,R seien Aussagen): (G5) P ∧ Q ⇐⇒ Q ∧ P , P ∨ Q ⇐⇒ Q ∨ P (G6) (P ∧ Q) ∧ R ⇐⇒ P ∧ (Q ∧ R) , (P ∨ Q) ∨ R ⇐⇒ P ∨ (Q ∨ R)
Baumeister: Mathematik I / Stand: Oktober 1996
4
(G7) P ∧ (P ∨ Q) ⇐⇒ P , P ∨ (P ∧ Q) ⇐⇒ P (G8) P ∧ (Q ∨ R) ⇐⇒ (P ∧ Q) ∨ (P ∧ R) (G9) P ∨ (Q ∧ R) ⇐⇒ (P ∨ Q) ∧ (P ∨ R) Sprechweisen: (G5): Kommutativgesetze, G(6): Assoziativgesetze, G(7): Verschmelzungsgesetz, G(8),G(9): Distributivgesetze. Die G¨ ultigkeit von G(5) , . . . , G(9) belegt man wieder mit Hilfe von Wahrheitstafeln. Etwa zu (G8) in nicht vollst¨andiger Aufz¨ahlung: R
Q ∨ R
(w) (w)
(f)
(w)
(w)
(w)
(f)
(w)
(w)
(f)
(w)
(w)
(w)
(f)
(w)
(w)
(f)
(w) (w)
(w)
(f)
(f)
(f)
(f)
(f)
(f)
(f)
(f)
(f)
(f)
(f)
P
Q
(f)
P ∧ (Q ∨ R) P ∧ Q P ∧ R P ∨ (P ∧ Q)
In Definitionen weisen wir mathematischen Objekten manchmal Eigenschaften mit einem ¨ definierenden Aquivalenzzeichen : ⇐⇒ zu, etwa: Objekt O hat Eigenschaft E : ⇐⇒ Aussage A u ¨ ber das Objekt O ist wahr (gilt). Ein Beweis eines Satzes mit Voraussetzung (V) und Behauptung (B) ist eine Kette von Implikationen, ausgehend von der Aussage (V) bis zur Aussage (B): (V ) =⇒ . . . =⇒ (B) Das indirekte Beweisverfahren stellt sich dann so dar: (V ) ∧ ¬(B) =⇒ . . . =⇒ Q Hierbei ist mit Q eine Aussage erreicht, die nicht wahr ist.
1.2
Mengen
Den Begriff der Menge wollen und k¨onnen und sollten wir hier ebenso wie die obigen Junktoren nicht im Sinne der mathematischen Grundlagen einf¨ uhren. Er dient uns nur als Hilfsmittel f¨ ur eine m¨oglichst kurze Notation von konkreten Mengen. Von G. Cantor (1845 – 1912), dem Begr¨ under der Mengenlehre, haben wir folgende Definition: Eine Menge ist eine Zusammenfassung bestimmter wohlunterschiedener Objekte unserer Anschauung oder unseres Denkens – welche Elemente der Menge genannt werden – zu einem Ganzen.
Baumeister: Mathematik I / Stand: Oktober 1996
5
Eine Menge besteht also aus Elementen, kennt man alle Elemente der Menge, so kennt man die Menge. Beispiele, die wir noch genauer studieren werden, sind: IN ZZ Q 0 IR
:= := := :=
Menge Menge Menge Menge
der der der der
nat¨ urlichen Zahlen ganzen Zahlen rationalen Zahlen reellen Zahlen
Man kann eine Menge dadurch bezeichnen, daß man ihre Elemente zwischen zwei geschweifte Klammern (Mengenklammern) schreibt. Die Zuordnung eines Elements zu einer Menge erfolgt mit dem Zeichen “ ∈“. Geh¨ort ein Objekt x nicht zu einer Menge M, so schreiben wir x ∈ / M. Es hat sich als zweckm¨aßig erwiesen, den Mengenbegriff so aufzufassen, daß eine Menge aus gar keinem Element bestehen kann. Dies ist dann die leere Menge, das Zeichen daf¨ ur ist ∅ = leere Menge . Ein bequemes Hilfsmittel beim Nachdenken u ¨ber Mengen sind die Venn–Diagramme, bei denen in der Zeichenblattebene Gebiete zur Darstellung von Mengen benutzt werden: Durch Kurven umschlossenes Gebiete stellen Mengen A, B, . . . dar. Solche Darstellungen sind sehr gut geeignet, formale Argumente f¨ ur einen zu beweisenden Sachverhalt zu finden. Das Hinschreiben der Elemente kann auf zweierlei Weisen geschehen. Hat die Menge nur ganz wenige Elemente, so kann man sie einfach alle hinschreiben, durch Kommata getrennt, auf die Reihenfolge kommt es dabei nicht an, etwa: {1, 2, 3} = {2, 3, 1} = {3, 3, 1, 2} . Abgek¨ urzt verf¨ahrt man oft auch so: Elemente, die man nicht nennt aber gut kennt, werden durch Punkte angedeutet, etwa: {1, 2, 3, 4, 5, 6, 7, 8} = {1, 2, . . . , 8} = {1, . . . , 8} . Man nennt diese Art, Mengen hinzuschreiben, zu definieren, die Umfangsdefinition. Die zweite M¨oglichkeit besteht darin, Objekte einer Menge als Elemente dadurch zuzuordnen, daß man ihnen eine charakterisierende Eigenschaft zuweist. Ist E eine Eigenschaft, die jedes Objekt x einer Menge M hat oder nicht hat, so bezeichne {x ∈ M|x hat die Eigenschaft E} die Menge aller Elemente von M, die die Eigenschaft E haben; etwa IN 0 := {x ∈ ZZ |x nicht negativ} . Man nennt diese Art, Mengen hinzuschreiben, zu definieren, die Inhaltsdefinition. Von diesen beiden Definitionen ist die Inhaltsdefinition die wichtigere, denn die Umfangsdefinition kann auf die Inhaltsdefinition zur¨ uckgef¨ uhrt werden; andersherum ist dies nicht immer m¨oglich.
Baumeister: Mathematik I / Stand: Oktober 1996
6
Wichtig beim Hinschreiben von Mengen ist, daß stets nachgepr¨ uft werden kann, ob ein spezielles Objekt einer in Frage stehenden Menge angeh¨ort oder nicht; in der Definition von Cantor ist dies festgehalten. (Dies korrespondiert mit dem ausgeschlossenen Dritten). Nun haben wir schon viele Worte zu einem recht einfachen Sachverhalt gemacht. ¨ ... Ahnlich ist es mit der Notation der Mengenlehre. Sie ist so einfach, daß sie schon an der Grundschule gelehrt werden kann. Was manchmal seitenlang in einem Vorwort zu einem Lehrbuch steht, paßt schon in ganz wenige S¨atze: Mit p ∈ F wird ausgedr¨ uckt, daß p ein Element der Menge F ist, und mit F ⊂ G, daß jedes Element von F ebenso ein Element von G ist. Haben wir zwei Mengen A und B, dann ist A ∩ B die Menge, die jene Elemente enth¨alt, die sowohl zu A als auch zur Menge B geh¨oren; mit A ∪ B ist die Menge gemeint, die jene Elemente enth¨alt, die zur Menge A, B oder zu beiden geh¨oren; und A0 ist die Menge jener Elemente, die nicht zu A geh¨oren. Eine Menge, die keine Elemente enth¨alt, ist eine leere Menge und wird mit ∅, manchmal auch mit {} angegeben, geschweifte Klammern ohne Inhalt. Ende des Mini-Kurses. Poulos, J.A.: Von Algebra bis Zufall, Campus, Frankfurt, 1992 Den obigen Mini-Kurs bringen wir noch in eine “anst¨andige“ Form: Definition 1.1 Seien A, B Mengen. (a) A ⊂ B : ⇐⇒ (x ∈ A =⇒ x ∈ B)
(Teilmenge)
(b) A = B : ⇐⇒ (A ⊂ B und B ⊂ A)
(Gleichheit)
(c) A ∩ B := {x|x ∈ A und x ∈ B} := {x|x ∈ A, x ∈ B}
(Durchschnitt)
(d) A ∪ B := {x|x ∈ A oder x ∈ B}
(Vereinigung)
2 Das Symbol “ :=“ haben wir als definierendes Gleichsetzen von Mengen eingef¨ uhrt. Die N¨ utzlichkeit der leeren Menge ∅ wird deutlich bei der Definition des Durchschnitts. Hier ist ja der Fall, daß A ∩ B kein Element enth¨alt, sicherlich nicht auszuschließen. Nun ist es n¨ utzlich, einige abk¨ urzende Rechenregeln zur Hand zu haben. Rechenregeln: Seien A, B, C Mengen. (R1) A ⊂ B, B ⊂ C =⇒ A ⊂ C
(Transitivit¨at)
(R2) A ∪ (B ∪ C) = (A ∪ B) ∪ C
(Assoziativgesetz)
Baumeister: Mathematik I / Stand: Oktober 1996 (R3) A ∩ (B ∩ C) = (A ∩ B) ∩ C
7 (Assoziativgesetz)
(R4) A ∪ B = B ∪ A
(Kommutativgesetz)
(R5) A ∩ B = B ∩ A
(Kommutativgesetz)
(R6) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
(Distributivgesetz)
(R7) A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
(Distributivgesetz)
Beweis von (R6): Wir haben zu zeigen: A ∩ (B ∪ C) ⊂ (A ∩ B) ∪ (A ∩ C), (A ∩ B) ∪ (A ∩ C) ⊂ A ∩ (B ∪ C) . Sei x ∈ A ∩ (B ∪ C). Dann gilt: x ∈ A, x ∈ B ∪ C . Daraus folgt: x ∈ A ∩ B oder x ∈ A ∩ C, je nachdem, ob x ∈ B und/oder x ∈ C. Daraus schließen wir: x ∈ (A ∩ B) ⊂ (A ∩ C). F¨ ur den Beweis der anderen Inklusion lese man die eben vorgef¨ uhrten Beweisschritte r¨ uckw¨arts. In der Mathematik werden oft Aussageformen verwendet. Dies sind Aussagen, die Variablen (Leerstellen, Platzhalter) enthalten, die anzeigen, wo Objekte einer Grundmenge G eingesetzt werden k¨onnen. Erf¨ ullungsmenge oder L¨ osungsmenge einer Aussageform ist die Menge aller Elemente aus G, welche die Aussage zu einer wahren Aussage machen. Hier m¨ogen folgende Beispiele gen¨ ugen, wir werden sp¨ater fortw¨ahrend damit vertraut gemacht. Beispiel 1.2 G := {x|x Tier} . F¨ ur x ∈ G : P (x) : x ist ein Frosch; Q(x) : x hat nackte Haut; R(x) : x ist behaart. Erf¨ ullungsmenge von P (x) ∧ Q(x) ist die Menge {x|x Frosch} .
2
Beispiel 1.3 L¨ose die quadratische Gleichung x2 − 4x + 3 = 0 u 0 . Gesucht ist also die Menge ¨ ber den rationalen Zahlen G := Q L := {x ∈ G|E(x)} , wobei E(x) die Aussage x2 − 4x + 3 = 0 ist wahr bedeutet. Offenbar gilt L = {1, 3} . Ein wichtiges Konstruktionsverfahren f¨ ur Mengen ist die Produktbildung:
2
Baumeister: Mathematik I / Stand: Oktober 1996
8
Definition 1.4 Seien A, B Mengen. (a) Sind a ∈ A, b ∈ B, so heißt (a, b) das zugeordnete geordnete Paar (bezogen auf die Reihenfolge “zuerst A, dann B“). (b) Zwei Paare (a, b), (a0, b0) mit a, a0 ∈ A, b, b0 ∈ B, heißen gleich genau dann, wenn a = a0 , b = b0 . (c) Die Menge A × B := {(a, b)|a ∈ A, b ∈ B} heißt das kartesische Produkt von A, B .
2 Wir haben folgende Rechenregeln: Seien A, B, C Mengen: (R8) A × (B ∪ C) = (A × B) ∪ (A × C) . (R9) A × (B ∩ C) = (A × B) ∩ (A × C) . Es ist klar, daß wir das kartesische Produkt auf mehr als zwei “Faktoren“ ausdehnen k¨onnen. Etwa korrespondiert ein (g¨ ultiger) Lottoschein mit den Elementen der Menge {x = (x1, x2 , x3, x4, x5, x6 ) ∈ Z × · · · × Z|x1 , . . . , x6 sind paarweise verschieden}; dabei ist Z = {1, 2, 3, . . . , 49}. Definition 1.5 Sei A eine Menge. Die Potenzmenge von A ist die Menge der Teilmengen von A einschließlich der leeren Menge: P OT (A) := {B|B ⊂ A} .
2 Beispiel 1.6 Sei A := {p, q, r}. Wie sieht die Potenzmenge P OT (A) aus? Wir haben P OT (A) = {∅, {p}, {q}, {r}, {p, q}, {q, r}{p, r}, {p, q, r}}
2 Man beachte, daß es unserer Verabredung nicht widerspricht, daß Elemente von Mengen selbst wieder Mengen sein k¨onnen. Beispiel 1.7
Baumeister: Mathematik I / Stand: Oktober 1996
9
In der Wahrscheinlichkeitstheorie benutzt man Mengen, um unsichere Ereignisse, also Ereignisse, deren Eintreffen vom Zufall mitbestimmt ist, darzustellen. Dazu u ¨ berlegen wir uns sp¨ater noch wichtige Bausteine einer Theorie, n¨amlich der Wahrscheinlichkeitstheorie und der Statistik, zusammengefaßt unter dem Thema Stochastik. Hier geben wir nur einen kleinen Hinweis. Zwei W¨ urfel werden gleichzeitig geworfen. Der m¨ogliche Ausgang des W¨ urfelns ist ein Element aus Ω := IN 6 × IN 6 mit IN 6 := {1, 2, 3, 4, 5, 6}. Interessiert man sich f¨ ur eine Doppelsechs oder eine W¨ urfelsumme gr¨oßer als sechs, so wird man folgende Mengen hinschreiben: A := {(x, y) ∈ Ω|x = y = 6} , B = {(x, y) ∈ Ω|x + y => 6} . Als Wahrscheinlichkeit f¨ ur eine Doppelsechs bzw. f¨ ur das Eintreten des Ereignisses A etwa 1 wird man die Zahl p = 36 erwarten. 2
1.3
Abbildungen
Mit Abbildungen dr¨ ucken wir den mathematischen Sachverhalt aus, daß es zwischen zwei Objekten eine klar definierte Abbh¨angigkeit gibt. Wiederum behandeln wir den Begriff auf der Ebene einer naiven Auffassung, auf der Ebene einer fundierten Mengenlehre l¨aßt sich der Begriff der Abbildung ebenso wie der Umgang mit Mengen auf eine sicherere Basis stellen. Definition 1.8 Seien A, B, C, D Mengen. (a) Eine Abbildung f von A nach B ist eine Vorschrift, durch die jedem a ∈ A genau ein f(a) ∈ B zugeordnet wird; A heißt Definitionsbereich, B heißt Wertebereich von f. (b) Zwei Abbildungen f : A −→ B, g : C −→ D heißen gleich, wenn A = C, B = D, f(x) = g(x) f¨ur alle x ∈ A gilt.
2 Das Werden des Abbildungsbegriffs zu einem wohldefinierten zentralen Begriff der Mathematik hat ca. 100 Jahre gedauert. Das Wort “Funktion“ hat wohl G.H. Leibniz (1646 – 1716) aus dem Lateinischen in die Mathematik eingef¨ uhrt. Die Notation f(x) f¨ ur den Funktionswert geht auf A.C. Clairaut ( 1713 – 1765) zur¨ uck, einen ersten konzeptionellen Versuch unternahm L. Euler (1707 – 1783) mit der Definition Eine Funktion einer ver¨anderlichen Gr¨oße ist ein analytischer Ausdruck, der auf irgendeine Weise aus der ver¨anderlichen Gr¨oße und aus Zahlen oder konstanten Gr¨oßen zusammengesetzt ist.
Baumeister: Mathematik I / Stand: Oktober 1996
10
Die heutzutage u undeten Men¨bliche Definition (siehe oben) ist auf der Basis einer begr¨ genlehre im wesentlichen die von P.G.L. Dirichlet (1805 – 1859) gegeben Definition: Eine Variable ist ein Symbol, das irgendein Element einer Menge von Zahlen darstellt. Sind zwei Variablen x, y so aufeinander bezogen, daß wenn immer x ein Wert zugeordnet ist, automatisch durch irgendeine Regel der Variablen y ein Wert zugeordnet ist, sprechen wir von einer Funktion von x. Einw¨ande beziehen sich auf die implizit nur sprachlich formulierte Abh¨angigkeit und den nicht konstruktiv geforderten Abh¨angigkeitsbegriff. Sei f eine Abbildung von A nach B. Wir schreiben daf¨ ur f : A −→ B , x 7−→ f(x) oder f : A 3 x 7−→ f(x) ∈ B oder kurz f : A −→ B . (Wir verwenden meist f¨ ur Abbildungen zwischen Mengen von Zahlen das Wort “Funktion“. Dahinter steckt kein Tiefsinn.) Beispiel 1.9 • Die Zuordnung Person 7−→ Vorname kann nicht zu einer Abbildung ausgebaut werden, da manche Personen mehrere Vornamen besitzen. • Die Zuordnung Person 7−→ Vater kann als Abbildung formuliert werden. (Dazu ist noch Definitions– und Wertebereich festzulegen.) • Ein EKG gibt die Spannung zwischen Herzbasis und Herzspitze als Funktion der Zeit wieder. • Bekannte Funktionen, die wir in der Geometrie noch kennenlernen werden, sind Translationen, Streckungen, Drehungen, Spiegelungen.
2 Beispiel 1.10 Ein Stein f¨allt in einen Schacht, den Aufprall h¨ort man nach 5 Sekunden. Was ist die Tiefe d des Schachts? Hier sind, bevor wir die Aufgabe l¨osen k¨onnen, sinnvollerweise zwei Funktionen zu ermitteln: die Fallstrecke sf und die Schallaufzeit sr in Abh¨angigkeit von der Zeit t. Fallstrecke sf in Abh¨angigkeit von der Zeit t: 1 sf (t) := gt2 2
Baumeister: Mathematik I / Stand: Oktober 1996
11
Hier kommen die Konstanten 12 und g (Erdbeschleunigung/9.81 m/sec2) und die (unabh¨angige) Variable t (Zeit) vor; der Definitionsbereich der Abbildung sf ist damit der Halbstrahl der nichtnegativen reellen Zahlen. Das physikalische Gesetz (eigentlich eine Beobachtung), das der Formel f¨ ur sf zugrundeliegt, wurde von G. Galilei (1564 – 1642) ¨ aufgestellt. Seine Uberlegungen f¨ uhren auch zur Formel f¨ ur die Laufzeit sr des Schalls in Abh¨angigkeit von der Zeit t: sr (t) = v · t Hier ist v die Schallgeschwindigkeit (v = 340 m/sec). Gesucht sind zur L¨osung der Aufgabe also die Zeiten t1, t2 mit sf (t1) = sr (t2) , t1 + t2 = 5 . Die Tiefe des Schachts ergibt sich damit als d = sf (t1 ) = sr (t2) . Die konkrete Rechnung f¨ uhrt auf eine quadratische Gleichung; man erh¨alt t1 ∼ 4.68 sec und d ∼ 108 m . 2 Definition 1.11 Sei f : A −→ B eine Abbildung. Die Menge graph(f) := {(a, b) ∈ A × B|a ∈ A, b = f(a)}
2
heißt der Graph von f.
Beispiel 1.12 An folgender Funktion, die in der Analysis gelegentlich als Gegenbeispiel Verwendung findet, wollen wir eine weitere Form des Hinschreibens einer Funktion kennenlernen. Betrachte ( 1 , falls x ∈ Q 0 f : IR −→ IR , x 7−→ . 0 , falls x ∈ IR \ Q 0 Wie soll man den Graph hinzeichnen?
2
Definition 1.13 Sei A eine Menge. Dann nennt man die Abbildung idA : A 3 x 7−→ x ∈ A die Identit¨ at auf A. (Manchmal lassen wir den Index A weg und schreiben einfach 2 id, wenn klar ist, um welches A es sich handelt.)
Baumeister: Mathematik I / Stand: Oktober 1996
12
Definition 1.14 Seien A, B Mengen. Dann heißt die Abbildung π1 : A × B 3 (a, b) 7−→ a ∈ A die Projektion auf den ersten Faktor.
2
Es sollte klar sein, daß entsprechend auch die Projektionen auf beliebige Faktoren in einem kartesischen Produkt erkl¨art sind. Definition 1.15 Sei f : X −→ Y eine Abbildung und seien A ⊂ X, B ⊂ Y . Dann heißt die Menge f(A) := {f(x)|x ∈ A} die Bildmenge von A oder das Bild von A, und die Menge f −1 (B) := {x ∈ X|f(x) ∈ B} heißt die Urbildmenge von B oder einfach das Urbild von B.
2
Rechenregel sind (f : X −→ Y, A1, A2 ⊂ X, B1 , B2 ⊂ Y ): (R1) A1 ⊂ A2 =⇒ f(A1) ⊂ f(A2) (R2) f(A1 ∪ A2) = f(A1) ∪ f(A2) (R3) f(A1 ∩ A2) ⊂ f(A1) ∩ f(A2) (R4) B1 ⊂ B2 =⇒ f −1 (B1 ) ⊂ f −1 (B2 ) (R5) f −1 (B1 ∪ B2) = f −1 (B1 ) ∪ f −1 (B2 ) Beweisen wir etwa (R5). Da eine Gleichheit von Mengen behauptet wird, sind zwei Inklusionen zu verifizieren. Zu f −1 (B1 ∪ B2 ) ⊂ f −1 (B1) ∪ f −1 (B2 ) . Sei x ∈ f −1 (B1 ∪ B2 ) . Also gilt f(x) ∈ B1 ∪ B2 . Ist f(x) ∈ B1 , dann ist x ∈ f −1 (B1 ) ⊂ f −1 (B1) ∪ f −1 (B2 ) . Ist f(x) ∈ B2 , dann ist x ∈ f −1 (B2) ⊂ f −1 (B1 ) ∪ f −1 (B2 ) . Zu f −1 (B1) ∪ f −1 (B2 ) ⊂ f −1 (B1 ∪ B2 ) . Sei x ∈ f −1 (B1 ) ∪ f −1 (B2 ) . Ist x ∈ f −1 (B1), dann ist f(x) ∈ B1 ⊂ B1 ∪ B2 , d.h. x ∈ f −1 (B1 ∪ B2) . Ist x ∈ f −1 (B2 ), dann ist f(x) ∈ B2 ⊂ B1 ∪ B2 , d.h. x ∈ f −1 (B1 ∪ B2 ) . Wir f¨ uhren noch Quantoren ein. Damit k¨onnen wir dann viele Resultate und Definitionen noch kompakter hinschreiben.
Baumeister: Mathematik I / Stand: Oktober 1996
13
Notation Sprechweise ∀a ∈ A
“f¨ ur alle Elemente a in A“
∃a ∈ A
“es existiert a in A“
∃1 a ∈ A
“es existiert genau ein a in A“
∀a (P (a))
“f¨ ur alle Elemente a in A ist P (a) wahr“
∀a (P (a))
“f¨ ur alle Elemente a in A gilt P (a)“
Bemerkung 1.16 Unter Benutzung der eben eingef¨ uhrten Quantoren l¨aßt sich die Wohldefiniertheit einer Abbildung f : A −→ B so hinschreiben: ∀a, a0 ∈ A (a = a0 =⇒ f(a) = f(a0)) oder
∀a, a0 ∈ A (f(a) 6= f(a0 ) =⇒ a 6= a0) .
2
In der folgenden Definition verwenden wir die kompakte Quantoren – Schreibweise, nicht immer wollen wir so verfahren, da dann der Text ziemlich “unleserlich“ w¨ urde. Definition 1.17 Sei f : X −→ Y eine Abbildung. (i) f injektiv : ⇐⇒ ∀x, x0 ∈ X (x 6= x0 =⇒ f(x) 6= f(x0 )) (ii) f surjektiv : ⇐⇒ ∀y ∈ Y ∃x ∈ X (y = f(x)) (iii) f bijektiv : ⇐⇒ f injektiv und surjektiv.
2 Man vergleiche (i) aus Definition 1.17 mit der Umformulierung der Wohldefiniertheit in Bemerkung 1.16. Machen wir noch einen Ausblick (siehe Beispiel 1.7)! In der Wahrscheinlichkeitstheorie benutzt man Mengen, um unsichere Ereignisse, also Ereignisse, deren Eintreffen vom Zufall mitbestimmt ist, darzustellen. Man stellt sich einen Zufallsmechanismus vor, der bei Bet¨atigung einen Punkt in einer (problemabh¨angigen) Menge Ω spezifiziert. Die Menge {Z ∈ A} bezeichnet das Ereignis, daß der spezifizierte Punkt in der Teilmenge A von Ω liegt. Das Ereignis, daß Z außerhalb von A spezifiziert, ist Ω\A := {Z ∈ / A} , das Komplement¨arereignis zu {Z ∈ A} . Das Ereignis, daß sowohl {Z ∈ A} als auch {Z ∈ / A} eintrifft, ist {Z ∈ A} ∩ {Z ∈ / A} .
Baumeister: Mathematik I / Stand: Oktober 1996
14
Es sei nun f eine Abbildung auf Ω mit Werten in irgendeiner Menge E . Wenn der Zufallsmechanismus Z bet¨atigt wird, liefert uns f(Z) einen Punkt in E . Wenn Z den Punkt ω realisiert, dann nimmt f(Z) den Wert f(ω) an. Betrachten wir speziell f := 1A , d.h. (
1A(Z) :=
1 , falls {Z ∈ A} eintrifft. 0 , falls {Z ∈ / A} eintrifft.
˜ von E bezeichnet {f(Z) ∈ E} ˜ das Ereignis, daß der f–Wert F¨ ur eine beliebige Menge E ˜ des von Z spezifizierten Punktes in E liegt. Beispiel 1.18 Zehn M¨ unzen werden geworfen; 1 steht f¨ ur Kopf, 0 steht f¨ ur Wappen. Der “Zufallsvektor“ (Z1 , Z2 , . . . , Z10 ) nimmt Werte in Ω := Ω10 := {0, 1} × {0, 1} × . . . × {0, 1} an; Ω besteht aus 210 = 1024 Punkten. Wenn die i–te M¨ unze Kopf zeigt, dann soll dem Spieler der Betrag ai ausgezahlt werden. Die Auszahlungen f¨ ur die verschiedenen i werden addiert. Sein Gesamtgewinn ist dann also f(Z) := a1 Z1 + a2Z2 + · · · + a10Z10 . Nehmen wir an, daß alle ai gleich 1 sind. Die H¨aufigkeit der 1 ist dann der zuf¨allige Gesamtgewinn H10 = Z1 + Z2 + · · · + Z10 . Das Ereignis, daß mindestens 8 der M¨ unzen “Zahl“ zeigen, kann man folgendermaßen notieren: {Z1 + Z2 + · · · + Z10 ≥ 8} , oder {H10 ∈ {8, 9, 10}} .
2
Da wir noch keine mathematischen Objekte kennen – die Schulkenntnisse wollen wir hier als nicht ausreichend fundiert ansehen – fehlt uns auch noch Beispielmaterial. Diesem Umstand wollen wir abhelfen, indem wir uns nun die nat¨ urlichen Zahlen in axiomatischer Weise verschaffen. Daraus lassen sich dann viele Objekte ableiten, ja die ganze elementare Zahlentheorie steht dann zur Betrachtung offen.
1.4
Natu ¨ rliche Zahlen
Die erste mathematische Erfindung“ d¨ urfte wohl das Z¨ahlen von Gegenst¨anden gewesen ” sein: Jedem Gegenstand einer Familie von Gegenst¨anden wird der Reihe nach ein Strich auf einem Aufzeichnungsbrett“ zugeordnet, einer bestimmten Anzahl von Strichen wird ” ein Zahlwert (Eins, Zwei,. . .) bzw. eine Zahl (1,2,. . .) zugeordnet. (Diese Zahlen stehen f¨ ur die Kardinalzahlen im Gegensatz zu den sogenannten Ordinalzahlen Erster (erster Strich), Zweiter, . . ..) Diese Zahlen bezeichnen wir als nat¨ urliche Zahlen. Sie sind (nach dieser Auffassung) also eine Konstruktion unseres Handelns und Denkens; nach R. Dedekind (1831
Baumeister: Mathematik I / Stand: Oktober 1996
15
– 1916) gemacht vom menschlichem Geist“. Als Fundament f¨ ur die Mathematik sind ” die nat¨ urlichen Zahlen ausreichend, alle“ anderen konkreten Objekte der Mathematik ” lassen sich dann mit Definition durch Abstraktion erfinden. Also kommt es darauf an, die nat¨ urlichen Zahlen als existierende Menge IN zu akzeptieren. Von Kronecker (1823 – 1891) ist u ¨berliefert: Die nat¨ urlichen Zahlen hat der liebe Gott gemacht, alles andere ist Menschenwerk. Was sind aber nun die strukturellen Eigenschaften der nat¨ urlichen Zahlen, auf die es ankommt? Wir gehen zur¨ uck zur T¨atigkeit des Z¨ahlens. Stets beginnen wir mit einem ersten Gegenstand, wir ordnen ihm die Zahl 1 zu. Haben wir nun eine Reihe von Gegenst¨anden gez¨ahlt und ist n die Anzahl dieser gez¨ahlten Gegenst¨ande, dann entscheiden wir, ob noch ein weiterer Gegenstand zu z¨ahlen ist; wenn ja, ordnen wir ihm die Zahl n + 1 zu, n + 1 ist also Nachfolgezahl von n; zur Strichliste haben wir einen Strich hinzugef¨ ugt. Diese Skizze f¨ uhrt uns zur Definition der nat¨ urlichen Zahlen, wie Peano (1858 – 1932) sie gegeben hat: Definition 1.19 Es gibt eine Menge IN , ein Element 1 ∈ IN und eine Abbildung σ : IN −→ IN (Nachfolgerabbildung) mit: (P1) σ ist injektiv. (P2) 1 ∈ / σ(IN ). (P3) Ist M eine Teilmenge von IN mit 1 ∈ M und gilt (m ∈ M =⇒ σ(m) ∈ M), dann gilt M = IN . Diese Menge IN heißt Menge der nat¨ urlichen Zahlen.
2
Ist m = σ(n), so heißt m Nachfolger von n und n Vorg¨ anger von m. (P2) besagt, daß das Element 1 keinen Vorg¨anger hat. (P3) dr¨ uckt aus, daß eine Teilmenge M schon die nat¨ urlichen Zahlen darstellen muß, wenn gilt: (A1) 1 ∈ M;
(A2) n ∈ M =⇒ σ(n) ∈ M .
Man beachte, daß wir die Definition der nat¨ urlichen Zahlen mit Existenz verkn¨ upft haben und nicht das Z¨ahlen zur Definition herangezogen haben. Sp¨ater, wenn wir zum Z¨ahlen auf mathematischer Ebene zur¨ uckkommen, werden Zahlen zum Z¨ahlen gebraucht. In den nat¨ urlichen Zahlen IN sollten wir, wenn die axiomatische Einf¨ uhrung wohlgelungen ist, eine Addition wiederentdecken k¨onnen. Dazu eine Vorbereitung. Lemma 1.20 Es gilt IN = 1 ∪ σ(IN ) Beweis:
Baumeister: Mathematik I / Stand: Oktober 1996
16
Sei M := 1 ∪ σ(IN ). Es gilt M ⊂ IN und: (1) 1 ∈ M ; (2) ist n ∈ M, so ist σ(n) ∈ σ(M) ⊂ M , da M ⊂ IN . (Beachte: σ(M) ⊂ σ(IN ) ⊂ M.) Also ist nach (P3) M = IN . Die Addition wird nun unter Ber¨ ucksichtigung von Lemma 1.20 so eingef¨ uhrt: (
n + m :=
σ(n) σ(n + m) ¯
, falls m = 1 ; n, m ∈ IN . , falls m = σ(m) ¯
(Beachte, daß m ¯ in der Definition wegen Lemma 1.20 existiert und eindeutig bestimmt ist, da σ injektiv ist.) Damit ist nun die Addition f¨ ur alle nat¨ urlichen Zahlen wohldefiniert. Betrachte dazu M := {m ∈ IN |n + m ist definiert f¨ ur alle n ∈ IN } . Es ist 1 ∈ M und ist m ∈ M, so ist n + m, σ(n + m) = n + σ(m) definiert, also σ(m) ∈ M. Nach (P3) ist M = IN . Wir haben nun also eine Abbildung + : IN × IN 3 (n, m) 7−→ n + m ∈ IN , die die Eigenschaften der Addition haben sollte. Dies belegen folgende Rechenregeln: (R1) (m + n) + k = m + (n + k) f¨ ur alle m, n, k ∈ IN . (R2) m + n = n + m f¨ ur alle m, n ∈ N. (R3) m + n = m + k =⇒ n = k (m, n, k ∈ IN ). Wir beweisen exemplarisch (R1). Dazu beweisen wir zun¨achst als Vorstufe zu (R2): (R0) m + 1 = 1 + m , m ∈ IN . Sei M := {m ∈ IN |m + 1 = 1 + m} Klar, 1 ∈ M. Sei nun m ∈ M; wir haben σ(m) + 1 = σ(σ(m)) = σ(m + 1) = σ(1 + m) = 1 + σ(m) und folgern daraus σ(m) ∈ M. Also ist M = IN und (R0) ist bewiesen. Nun zum Beweis von (R1) Sei M := {k ∈ IN |(m + n) + k = m + (n + k) f¨ ur alle m, n ∈ IN } Nach (R0) gilt (m + n) + 1 = σ(m + n) = m + σ(n) = m + (n + 1)
Baumeister: Mathematik I / Stand: Oktober 1996
17
Also ist 1 ∈ M. Sei k ∈ M. Dann ist (m + n) + σ(k) = = = = = =
σ((m + n) + k) σ(m + (n + k)) m + σ(n + k) m + ((n + k) + 1) m + (n + (k + 1)) m + (n + σ(k))
Also ist auch σ(k) ∈ M. Das Beweisprinzip, das auf (P3) beruht, haben wir nun schon ausgiebig eingesetzt. Es wird Vollst¨ andige Induktion genannt, da es die Probiermethode “Es ist A(1) wahr, es ist A(2) wahr, es ist . . .“ zu einem vollst¨andigen Beweis von “Aussage A(n) gilt f¨ ur jedes n ∈ IN“ ausbaut. Bevor wir dies ausformulieren, wollen wir aber nun die Nachfolgeabbildung σ durch die Addition mit 1 ersetzen, wie wir dies in der Definition der Addition vorbereitet haben. Statt σ(n) schreiben wir meist n0 . Dies hat seinen Grund darin, daß σ(n) ja f¨ ur den Nachfolger von n steht. Dieser Zahlwert entsteht auf dem Aufzeichnungsbrett durch Hinzuf¨ ugung eines weiteren Strichs. (Hier wird das Bestreben deutlich, f¨ ur einen Sachverhalt stets eine einpr¨agsame und die Argumentation st¨ utzende Bezeichnung zu w¨ahlen.) Das Prinzip der vollst¨ andigen Induktion stellt sich dann so dar.: Sei A(n) f¨ ur jedes n ∈ IN eine Aussage. Diese Aussage gilt f¨ ur alle n ∈ IN , falls gilt: Induktionsbeginn: A(1) ist wahr. Induktionsschluß: Ist A(n) wahr, dann ist auch A(n + 1) wahr. Klar, man hat ja nur die Menge M := {n ∈ IN |A(n) ist wahr} einzuf¨ uhren und darauf (P3) anzuwenden. H¨aufig wird “Sei A(n) wahr“ als Zwischenschritt “Induktionsverankerung“ oder “Induktionsannahme“ formuliert; wir verzichten darauf. Bisher haben wir das Beweisprinzip Vollst¨andige Induktion“ nur f¨ ur die Aufkl¨arung ” der inneren Struktur der nat¨ urlichen Zahlen verwendet. Nun wollen wir dieses Prinzip umfassender verwenden. Als Kurzschreibweise verwenden wir (A Menge): A1 := A , An+1 := A × An , n ∈ IN . Hierbei haben wir das Prinzip der induktive Definition verwendet: Induktiver Beginn: A1 := A . Induktiver Schluß: (An definiert =⇒ An+1 := A × An ist definiert)
Baumeister: Mathematik I / Stand: Oktober 1996
18
Diese Art zu definieren basiert auf der vollst¨ andigen Induktion. Als weiteres Beispiel f¨ ur die induktive Definition f¨ uhren wir die Definition des Summenzeichens an. Wir setzen: n X
ai := a1 , f¨ ur n = 1 ,
i=1
n+1 X
ai := an+1 +
i=1
n X
ai , f¨ ur n ≥ 1 ;
i=1
dabei sind etwa a1, . . . , an+1 ∈ X := IN ; sp¨ater k¨onnen wir diese Definition auch f¨ ur allgemeinere Mengen X u ¨ bernehmen. Damit sind nun die Mengen 0 n , n ∈ IN , IN n , ZZ n , Q erkl¨art, falls wir die Existenz von ZZ , Q 0 hier schon hinnehmen. Ebenso etwa 6 N49 := {1, . . . , 49} , N49 := (N49)6 , 6 NLotto := {x = (x1, . . . , x6) ∈ N49 |x1 , . . . , x6 paarweise verschieden}.
Ist A eine Menge und x ∈ An , n ∈ IN , so gibt es x1 , . . . , xn ∈ A mit x = (x1, . . . , x2). Dies ist die Schreibweise als n-Tupel der Elemente in An . Dabei haben wir die Schreibweise schon naheliegend verk¨ urzt; wir haben ja zun¨achst nur zweistellige Paarklammern (·, ·) definiert. Wir sollten nun auch die Multiplikation in den nat¨ urlichen Zahlen definieren k¨onnen. Es liegt nahe, dies wieder mit dem Prinzip der induktiven Definition zu erledigen: m · 1 := m , m · (n + 1) := m · n + m Damit ist die Abbildung · : IN × IN 3 (m, n) 7−→ m · n ∈ IN wohldefiniert. Das Prinzip der induktiven Definition k¨onnen wir nun auch verwenden, um die Potenzschreibweise im Bereich der nat¨ urlichen Zahlen einzuf¨ uhren. Wir setzen f¨ ur alle a ∈ IN : a1 := a , an+1 := a · an Es gilt dann etwa: an+m = an · am, (an )m = an·m , a, n, m ∈ IN . Nun ist es an der Zeit, zur u uckzukehren. Dies geschieht ¨blichen Notation 1, 2, 3, . . . zur¨ durch 1, 2 := σ(1), 3 := σ(2), . . . . Die Rechenarten +, · vertragen sich dann mit der neuen Schreibweise, etwa: 1 + 7 = 8, 15 · 3 = 45, . . . . Den Multiplikationspunkt · lassen wir mitunter weg.
Baumeister: Mathematik I / Stand: Oktober 1996
19
Beispiel 1.21 Von G.F. Gauß (1777 – 1855) wird berichtet, daß er die Besch¨aftigungstherapie“ seines ” Lehrers Addiert mal die ersten 100 Zahlen“ durch folgenden Trick“ zunichte gemacht ” ” hat: Er addiert die erste und die letzte Zahl: Ergebnis 101. Er addiert die zweite und die vorletzte Zahl: Ergebnis 101. Also kann man das verlangte Resultat durch 1 + 2 + · · · + 100 = 50 × 101 = 5050 erhalten. L¨ost man sich von den konkreten Zahlen, ist also zu beweisen: 2
n X
i = n(n + 1)
i=1
Der Beweis mittels vollst¨andiger Induktion sieht so aus: Induktionsbeginn: Die Formel ist offenbar richtig f¨ ur n = 1. Induktionsschluß: Die Formel sei richtig f¨ ur n. Wir zeigen damit die Richtigkeit der Formel f¨ ur n + 1 so: 2
n X
i = 2
i=1
n X
i + 2(n + 1)
i=1
= n(n + 1) + 2(n + 1) = (n + 1)(n + 2)
2 Beispiel 1.22 Den Pythagoreern (Pythagoras, 580 – 501 v.Chr.) war bekannt, daß die Quadratzahlen die Summe ungerader Zahlen sind, d.h. 1+
n X
(2i + 1) = (n + 1)2 , n ∈ IN .
i=1
Sie hatten daf¨ ur einen geometrischen Beweis; lese ihn aus der folgenden Figurensequenz ab!
•
• • ◦ •
• • • ◦ ◦ • ◦ ◦ •
• ◦ ◦ ◦
• ◦ ◦ ◦
Der Beweis mittels vollst¨andiger Induktion sieht so aus (in abgek¨ urzter Notation): n = 1 : Klar.
• ◦ ◦ ◦
• • • •
Baumeister: Mathematik I / Stand: Oktober 1996
20
n+1: 1+
n+1 X
(2i + 1) = 1 +
i=1
n X
(2i + 1) + (2(n + 1) + 1)
i=1
= n2 + 4n + 4 = (n + 2)2
2 Das Beweisprinzip der vollst¨andigen Induktion findet sich in logisch einwandfreier Darstellung bei F. Maurolico (1494 – 1575). Auch die Kleiner–Beziehung finden wir in IN wieder. Dabei lassen wir uns von der Anschauung leiten, daß einer k¨ urzeren Strichliste einige Striche hinzuzuf¨ ugen sind, um sie einer gegebenen l¨angeren Strichliste gleichzumachen. Definition 1.23 Seien m, n ∈ IN . (a) m < n : ⇐⇒ ∃x ∈ IN (m + x = n) (b) m ≤ n : ⇐⇒ m < n oder m = n (c) m > n : ⇐⇒ n < m (d) m ≥ n : ⇐⇒ n ≤ m
2 Folgerung 1.24 Ist n ∈ IN , n 6= 1, dann ist n > 1 . Beweis: Ist n 6= 1, dann ist n ∈ σ(IN ) nach Lemma 1.20. Also gibt es x ∈ IN mit n = x + 1 . Dies zeigt 1 < n . Satz 1.25 F¨ur m, n ∈ IN gilt genau eine der folgenden Aussagen: m < n , m = n , m > n. Beweis: Setze Mm := {x ∈ IN |n + x = m}. Wir untersuchen die beiden F¨alle Mm 6= ∅ und Mm = ∅ . Ist Mm 6= ∅, dann gibt es x ∈ IN mit n + x = m , also n < m .
Baumeister: Mathematik I / Stand: Oktober 1996
21
Wir beweisen mit vollst¨andiger Induktion (bez¨ uglich m) die folgende Behauptung: Ist Mm = ∅, dann ist trifft genau eine der folgenden Aussagen zu: n > m, n = m . m = 1 : Ist n 6= 1 = m, dann ist nach Folgerung 1.24 n > 1 = m . m + 1 : Sei also Mm+1 = ∅. Dann ist auch Mm := {y ∈ IN |n + y = m} = ∅, da sonst f¨ ur y ∈ Mm sofort x := y + 1 ∈ Mm+1 folgt. Also gilt nach Induktionsvoraussetzung genau eine der Aussagen n > m, n = m . n = m ist nicht m¨oglich, da sonst 1 ∈ Mm+1 w¨are. Also wissen wir nun n > m, und es gibt daher z ∈ IN mit m + z = n. Ist z = 1, dann ist m + 1 = n, ist z > 1 (siehe Folgerung 1.24), dann ist 1 + u = z mit einem u ∈ IN und wir haben (m + 1) + u = m + (1 + u) = n, d.h. n > m + 1 . Damit ist nun gezeigt, daß eine der Aussagen mn eintritt. Bleibt die Unvertr¨aglichkeit von zweien der Aussagen zu zeigen, etwa von m = n und m > n Wenn m = n und m > n gilt, dann gibt es x ∈ IN mit m + x = m. Mit vollst¨andiger Induktion folgt sofort, daß diese Gleichheit f¨ ur kein m ∈ IN gelten kann. Wir haben folgende Rechenregeln: (R1) k < m , m < n =⇒ k < m.
(Transitivit¨at)
(R2) m < n =⇒ m + k < n + k f¨ ur alle k ∈ IN . (R3) k < m =⇒ k + 1 ≤ m Der folgende Satz wird der Satz u urlichen Zahlen genannt. ¨ber die Wohlordnung der nat¨ Satz 1.26 Jede nichtleere Teilmenge IN enth¨alt ein kleinstes Element (bez¨uglich ≤) Beweis: Sei A(n), n ∈ IN , die folgende Aussage: Enth¨alt V ein m ∈ IN mit m ≤ n, so besitzt V ein kleinstes Element. Klar, A(1) gilt, da jedes Element in IN nicht kleiner als 1 ist. Es gelte nun A(n); wir zeigen damit A(n + 1). Enth¨alt V ein Element m ≤ n, so auch ein kleinstes Element, da A(n) gilt. Anderenfalls enth¨alt V die Zahl n + 1, da V ja nach Voraussetzung ein Element m ≤ n + 1 enth¨alt. In diesem Fall ist n + 1 kleinstes Element von V . Ein etwas nat¨ urlicherer“ Beweis von Satz 1.26 ist: Sei m ∈ M. W¨ahle in 1, . . . , m das ” kleinste Element m∗ aus M (bez¨ uglich ≤ ) aus. Diese Auswahl ist m¨oglich, da nach Satz 1.25 die Elemente 1, . . . , m bez¨ uglich ihrer Gr¨oße nach verglichen werden k¨onnen. Da die nar¨ urlichen Zahlen n ≥ m nicht als kleinste Elemente von M in Frage kommen, ist m∗ das kleinste Element von M .
Baumeister: Mathematik I / Stand: Oktober 1996
22
Beispiel 1.27 Beweise, daß f¨ ur jede nat¨ urliche Zahl n gilt: (n + 3)2 > 3(n + 3) + n Wir betrachten dazu die Aussage A(n) : (n + 3)2 > 3(n + 3) + n und beweisen die G¨ ultigkeit der Aussage f¨ ur jedes n ∈ IN nach dem Induktionsprinzip. Induktionsbeginn: A(1) ist wahr, da 42 > 12 + 1 ist. Induktionsschluß: Sei A(n) wahr. ((n + 1) + 3)2 = = > > =
((n + 3) + 1)2 (n + 3)2 + 2(n + 3) + 1 3(n + 3) + n + 2(n + 3) + 1 3(n + 3) + n + 1 + 3 3(n + 4) + n + 1
Also folgt aus der G¨ ultigkeit der Aussage A(n) die G¨ ultigkeit der Aussage A(n + 1). Die Aussage A(n) ist nach dem Induktionsprinzip nun f¨ ur alle n ∈ IN bewiesen. Man sieht, daß die Ungleichung (n + 3)2 > 3(n + 3) + n , n ∈ IN , direkt auch ohne den R¨ uckgriff auf das Induktionsprinzip bewiesen werden kann! Die Aufgabe kann offenbar auch so formuliert werden: Beweise A0(n) : n2 > 3n + n − 3 , n ∈ IN , n > 3 . Der Induktionsbeginn sieht dann so aus: A0(4) ist richtig, da 42 > 12 + 1 ist.
1.5
2
Die Umkehrabbildung
Definition 1.28 Seien f : X −→ Y, g : Y −→ Z Abbildungen. Die Hintereinanderausf¨ uhrung oder Komposition g ◦ f der Abbildungen f, g ist erkl¨art durch g ◦ f : X 3 x 7−→ g(f(x)) ∈ Z .
2 Der Grund f¨ ur die Reihenfolge zuerst g, dann f“ in der Schreibweise von g ◦ f, obwohl ja ” g nach f“ angewendet wird, ist der, daß ein Bild unter der zusammengesetzten Abbil” dung g ◦f gerade g(f(x)) ist. (Es gibt durchaus Mathematiker, die mit dieser Schreibweise unzufrieden sind.)
Baumeister: Mathematik I / Stand: Oktober 1996
23
Beispiel 1.29 Auf der Menge M := {x|x lebender Mensch} k¨onnen wir die Abbildung v : M −→ M, v(x) := Vater von x erkl¨aren (siehe Beispiel 1.9). Die Hintereinanderausf¨ uhrung von v und v ergibt die Groß” vaterabbildung (v¨aterlicherseits)“ g = v ◦ v : M 3 x 7−→ v(v(x)) ∈ M,
2
da g(x) nun der Großvater von x v¨aterlicherseits ist. Beispiel 1.30 Betrachte auf IN die Abbildungen f : IN 3 n 7−→ n + 1 ∈ N, g : IN 3 n 7−→ n2 − n + 41. Wir stellen fest, daß g ◦ f : IN 3 n −→ n2 + n + 41
2
ist. Rechenregeln sind (f : X −→ Y, g : Y −→ Z, h : Z −→ W Abbildungen): (R7) idY ◦ f = f ◦ idX (R8) h ◦ (g ◦ f) = (h ◦ g) ◦ f
(Assoziativgesetz)
Man beachte aber, daß f¨ ur die Hintereinanderausf¨ uhrung von Abbildungen ein Kommutativgesetz ( f ◦ g = g ◦ f) nicht gilt. Dies sieht man etwa mit f : IN 3 x 7−→ x + 1 ∈ IN , g : IN 3 x 7−→ x3 ∈ IN , da (f ◦ g)(x) = x3 + 1 , (g ◦ f)(x) = (x + 1)3 , x ∈ IN , gilt. Satz 1.31 Sei f : X −→ Y eine Abbildung und sei B := f(X). Dann gilt: (a) f ist injektiv ⇐⇒ ∃g : B −→ X(g ◦ f = idX ) (b) f ist surjektiv ⇐⇒ ∃g : Y −→ X(f ◦ g = idY ) (c) f ist bijektiv ⇐⇒ ∃g : Y −→ X(g ◦ f = idX , f ◦ g = idY ) Beweis:
Baumeister: Mathematik I / Stand: Oktober 1996
24
Zun¨achst eine Vor¨ uberlegung. Sei y ∈ B . Dann ist f −1 ({y}) 6= ∅ ; w¨ahle xy ∈ f −1 ({y}) . Damit definieren wir gˆ : B 3 y 7−→ gˆ(y) := xy ∈ X . Zu (a). Sei f injektiv. Wir setzen g := gˆ . Da f injektiv ist, gilt f −1 ({y}) = xy f¨ ur jedes y ∈ B . Sei x ∈ X, y := f(x) . Dann ist also x = xy und wir haben ur alle x ∈ X . (g ◦ f)(x) = g(f(x)) = gˆ(f(xy )) = xy = x = idX (x) f¨ Sei nun g : B −→ X mit g ◦ f = idX . Seien x, x0 ∈ X mit f(x) = f(x0 ). Dann ist x = idX (x) = g(f(x)) = g(f(x0 )) = idX (x0 ) = x0 , was wir zeigen wollten. Zu (b). Sei f surjektiv. Wir setzen g := gˆ und beachten B = Y . Dann ist (f ◦ g)(y) = f(ˆ g (y)) = f(xy ) = y = idY (y) . Die Umkehrung ist trivial. Zu (c). Gibt es g mit den notierten Eigenschaften, dann ist nach (a) und (b) die Bijektivit¨at von f klar. Sei nun f bijektiv. Dann gibt es nach (a) und (b) Abbildungen ga : Y −→ X und gb : Y −→ X mit ga ◦ f = idX , f ◦ gb = idY . Wir zeigen ga = gb und sind dann fertig. Unter Verwendung der eben angef¨ uhrten Identit¨aten folgt: ga = ga ◦ idY = ga ◦ (f ◦ gb ) = (ga ◦ f) ◦ gb = idX ◦ gb = gb .
Was wir in der Vor¨ uberlegung zum Beweis von Satz 1.31 hingeschrieben haben, sieht harmlos aus: F¨ ur jedes y ∈ B haben wir x ∈ X gew¨ahlt mit f(x) = y. Daß dies m¨oglich ist, mag einleuchtend erscheinen, doch hat die Erfahrung gezeigt, daß im Umgang mit unendlichen Mengen nichts als selbstverst¨andlich angenommen werden sollte. Das Auswahlaxiom – von E. Zermelo (1871 – 1953) und A. Fr¨ankel (1891 – 1965) wurde ein Axiomensystem (ZF–System) f¨ ur die Mengenlehre begr¨ undet – ist so bedeutsam, weil die Beweise zahlreicher S¨atze der Mengenlehre von seiner Anerkennung abh¨angen. Von P. Cohen wurde 1963 gezeigt, daß dieses Axiom unabh¨angig von den restlichen Axiomen des ZF–Systems ist, es kann also durch die anderen ZF–Axiome weder widerlegt noch bewiesen werden. Die Abbildung g aus (c) in Satz 1.31 ist eindeutig bestimmt, denn ist g0 : Y −→ X eine weitere Abbildung mit g 0 ◦ f = idX , f ◦ g 0 = idY , dann folgt
g = g ◦ idY = g ◦ (f ◦ g 0 ) = (g ◦ f) ◦ g 0 = idX ◦ g 0 = g 0 .
Baumeister: Mathematik I / Stand: Oktober 1996
25
Dies f¨ uhrt zu Definition 1.32 Sei f : −→ Y eine bijektive Abbildung. Dann heißt die nach Satz 1.31 existierende Abbildung g : Y −→ X mit g ◦ f = idX , f ◦ g = idY die Umkehrabbildung von f. Wir schreiben daf¨ur f −1 . 2 Nun haben wir zweimal das Symbol f −1 erkl¨art. Dies sollte jedoch keine Schwierigkeiten bereiten, da aus dem Zusammenhang heraus wohl immer klar wird, ob die Umkehrabbildung oder eine spezielle Urbildmenge gemeint ist. Im n¨achsten Kapitel werden wir uns intensiv mit bijektiven Abbildungen besch¨aftigen, wenn wir die Elemente einer Menge z¨ahlen werden. Beispiel 1.33 Weder die Vater noch die Großvaterabbbildung sind injektiv, beide sind auch nicht sur2 jektiv, da nicht alle V¨ater bzw. Großv¨ater noch am Leben sind. Das Auffinden einer Umkehrabbildung f −1 zu f ist meist eine Frage der Aufl¨osung der Gleichung y = f(x) nach der Variable x, was zu x = f −1 (y) f¨ uhrt. Betrachte als heuristischen Hinweis etwa 1 y = f(x) := 2x − 1 ⇐⇒ x = (y + 1), 2 d.h. 1 f −1 (y) = (y + 1). 2 Eine surjektive Abbildung f : X −→ Y kann man eventuell zu einer bijektiven Abbildung ab¨andern, indem man den Definitionsbereich x verkleinert. Dies f¨ uhrt dann zum Objekt eingeschr¨ankte“ Abbildung: ” Definition 1.34 Sei f : X −→ Y eine Abbildung und sei A ⊂ X. Dann heißt f|A : A 3 x 7−→ f(x) ∈ Y die Einschr¨ ankung von f auf A.
1.6
2
Relationen
Das Gleichheitszeichen “ =“ verwenden wir in einer Menge unter der stillschweigenden Annahme der folgenden Regeln: x = x ; x = y =⇒ y = x ; x = y, y = z =⇒ x = z .
Baumeister: Mathematik I / Stand: Oktober 1996
26
Dies nehmen wir zum Anlaß f¨ ur Definition 1.35 ¨ Sei X eine Menge. Eine Teilmenge R ⊂ X × X heißt Aquivalenzrelation auf X, falls gilt: (i) (x, x) ∈ R f¨ur alle x ∈ X
(Reflexivit¨at)
(ii) (x, y) ∈ R =⇒ (y, x) ∈ R
(Symmetrie)
(iii) (x, y), (y, z) ∈ R =⇒ (x, z) ∈ R
(Transitivit¨at)
2 Es ist also hier das in der Mathematik so beherrschende Prinzip der Verallgemeinerung durch Abstraktion angewendet. Daß das Umgehen mit Gleichheit/Ungleichheit“ nicht ” ganz unproblematisch ist, hat Euklid veranlaßt, diesbez¨ uglich seiner Entwicklung der Geometrie Axiome voranzustellen, die so formuliert sind, daß sie auch in anderen Disziplinen sinnvolle Aussagen ergeben: 1. Dinge, die demselben Dinge gleich sind, sind einander gleich. 2. F¨ ugt man zu Gleichem Gleiches hinzu, so sind die Summen gleich. 3. Nimmt man von Gleichem Gleiches hinweg, so sind die Reste gleich. 4. Was zur Deckung miteinander gebracht werden kann, ist einander gleich. 5. Das Ganze ist gr¨oßer als sein Teil. ¨ Liegt mit R auf X eine Aquivalenzrelation vor, so schreiben f¨ ur (x, y) ∈ R R
x ∼ y oder kurz x ∼ y . ¨ Die Bedeutung einer Aquivalenzrelation liegt darin, daß man damit die Menge X in Klassen (B¨ undel) einteilen kann, eine Einteilung, die eventuell gr¨ober ist, als die Aufteilung in einelementige Mengen, und die bez¨ uglich eines “Merkmales“ doch noch aussagekr¨aftig ist. Die Klasseneinteilung geschieht durch R
[x] := {y ∈ X|y ∼ x} , x ∈ X , und X/ R := {[x]|x ∈ X} . ¨ Die Objekte [x] heißen Aquivalenzklassen, x heißt Repr¨ asentant der Klasse [x] . Man R beachte, daß jedes y ∈ X mit y ∼ x als Repr¨asentant f¨ ur [x] Verwendung finden kann. Das folgende Lemma zeigt, daß X durch “ ∼ “ in disjunkte Klassen zerlegt wird.
Baumeister: Mathematik I / Stand: Oktober 1996
27
Lemma 1.36 ¨ Sei X eine Menge und sei R eine Aquivalenzrelation auf X. Dann gilt: (a) F¨ur jedes x ∈ X gibt es [y] ∈ X/ R mit x ∈ [y] . (b) Es ist x ∼ y genau dann, wenn [x] = [y] gilt. ¨ (c) Zwei Aquivalenzklassen besitzen genau dann nichtleeren Durchschnitt, wenn sie gleich sind. Beweis: Zu (a). Klar: x ∈ [x] f¨ ur alle x ∈ X wegen der Reflexivit¨at von “∼“. Zu (b). Sei x ∼ y . Sei u ∈ [x]. Dann ist u ∼ x und aus der Symmetrie und der Transitivit¨at folgt u ∼ y, d.h. u ∈ [y]. Also ist [x] ⊂ [y] gezeigt. Die Aussage [y] ⊂ [x] folgt v¨ollig analog. Ist [x] = [y] dann ist x ∼ y, da wir x ∈ [y] = [x] haben. Zu (c). Unter Beachtung der Transitivit¨at, der Symmetrie von “∼“ und (b) folgt z ∈ [x] ∩ [y] ⇐⇒ z ∼ x, z ∼ y ⇐⇒ x ∼ y ⇐⇒ [x] = [y] was zu beweisen war. Beispiel 1.37 Betrachte auf IN die Kleiner–Gleich“ – Relation ” n ∼ m :⇐⇒ n ≤ m, d.h. R := {(n, m) ∈ IN × IN |n ≤ m} Die Reflexivit¨at und Transitivit¨at sind erf¨ ullt, nicht jedoch die Symmetrie. Also liegt hier ¨ 2 keine Aquivalenzrelation vor. Beispiel 1.38 Sei Keine Gruppe von Kindern. Wir erkl¨aren darauf eine Relation durch x ∼ y : ⇐⇒ x, y haben diesselbe Blutgruppe ¨ (Blutgruppen sind: A, AB, B, O). In der Tat liegt eine Aquivalenzrelation vor. Dadurch wird die Gruppe der Kinder in 4 Klassen eingeteilt. Wenn wir nun auf K die Abbildung f : K 3 x 7−→ f(x) := Blutgruppe von x ∈ {A, B, AB, O} betrachten, dann ist die Abbildung bei einer großen Gruppe meist surjektiv, aber nicht injektiv. Wenn wir aber f als Abbildung auf den Klassen betrachten, dann wird die so entstehende Abbildung f : K/∼ 3 [x] 7−→ f(x) ∈ {A, B, AB, O} injektiv.
2
Kapitel 2 Elemente der Kombinatorik Kombinatorik bedeutet Kunst des Z¨ahlens“. Sie besch¨aftigt sich mit M¨oglichkeiten, die ” Anzahl der Elemente bei endlichen Mengen zu bestimmen. Hier stellen wir das kleine Einmaleins der Kombinatorik vor. Die Resultate sind interessant und hilfreich beim Einstieg in die Wahrscheinlichkeitstheorie. Beim Abz¨ahlen ist es n¨ utzlich, eine Anzahl wegnehmen zu k¨onnen, subtrahieren k¨onnen. Wir stellen daher zun¨achst die ganzen Zahlen bereit.
2.1
Ganze Zahlen
Skizzieren wollen wir den Konstruktionsweg von den nat¨ urlichen Zahlen zu den ganzen ¨ Zahlen. Wir sehen dabei die N¨ utzlichkeit des Begriffs der Aquivalenzrelation. ¨ Auf IN × IN l¨aßt sich eine Aquivalenzrelation durch R := {((m, n), (k, l)) ∈ IN 2 × IN 2 |m + l = n + k} ¨ einf¨ uhren. Man best¨atigt leicht, daß in der Tat eine Aquivalenzrelation vorliegt. Die Zuordnung eines Paares (m, n) zu einer Klasse [(k, l)] geschieht unter dem Gesichtspunkt, daß die Differenz m−n gleich der Differenz k−l ist. Dies liefert den Zusammenhang zur Menge der ganzen Zahlen ZZ , wenn wir sie schon als bekannt voraussetzten. Also sollte etwa [(n, n)] f¨ ur 0 , [(n + 1, n)] f¨ ur 1 , [(n, n + 1)] f¨ ur − 1 , [(n + n, n)] f¨ ur n , [(n, n + n)] f¨ ur − n , stehen. Der Weg, ausgehend von der Kenntnis der nat¨ urlichen Zahlen, die ganzen Zahlen zu konstruieren, ist also vorgezeichnet: ¨ Man f¨ uhrt ZZ als Menge der Aquivalenzklassen (IN × IN )/R ein. Vervollst¨andigt wird dieser Schritt durch die Beobachtung, daß durch [(m, n)] ⊕ [(k, l)] := [(m + k, n + l)] eine “Addition“ und durch [(m, n)] [(k, l)] := [(m · k + n · l, m · l + n · k)] 28
Baumeister: Mathematik I / Stand: Dezember 1996
29
eine “Multiplikation“ eingef¨ uhrt wird. Die Anordnung der ganzen Zahlen spiegelt sich in [(m, n)] [(k, l)] : ⇐⇒ m + l < n + k wieder. Hierbei sei “ <“ bei den nat¨ urlichen Zahlen bekannt. Beachte bei diesen Definitionen stets, daß [(m, n)] f¨ ur m − n steht. Bemerkung 2.1 ¨ Wenn man mit Aquivalenzklassen neue Objekte unter Verwendung von Repr¨asentanten f¨ ur die Klassen definiert, hat man sich zu vergewissern, daß die Definition vom Repr¨asentanten f¨ ur die Klasse unabh¨angig ist. Dies ist oben bei der Definition der Addition, Multiplikation und Kleiner–Beziehung der Fall. Bei der Addition etwa bedeutet dies, nachzuweisen, daß [(m, n)]⊕[(k, l)] = [(m0, n0)]⊕[(k 0, l0 )] ist, falls [(m, n)] = [(m0, n0 )] , [(k, l)] = [(k 0, l0)] gilt. Dies sieht man mit Hilfe der Identit¨aten m + n0 = m0 + n , k + l0 = k 0 + l sofort ein. 2 Wir k¨onnen nun statt die Existenz der nat¨ urlichen Zahlen axiomatisch zu fordern, die ganzen Zahlen axiomatisch einf¨ uhren. Wir tun dies durch Anf¨ uhrung von Eigenschaften, die das u ¨bliche Rechnen in den ganzen Zahlen m¨oglich machen. (Wir legen dabei nicht Wert auf ein minimales Ger¨ ust von Axiomen.) Es gibt eine Menge ZZ mit einem Element 0 ∈ ZZ , Abbildungen ZZ × ZZ 3 (a, b) 7−→ a + b ∈ ZZ , (Addition) ZZ × ZZ 3 (a, b) 7−→ a · b ∈ ZZ , (Multiplikation) und eine Vergleichsoperation ≤ mit folgenden Eigenschaften: 1. (a + b) + c = a + (b + c) f¨ ur alle a, b, c ∈ ZZ . 2. a + 0 = 0 + a f¨ ur alle a ∈ ZZ . 3. ∀ a ∈ ZZ ∃1 (−a) ∈ ZZ (a + (−a)) = 0 = ((−a) + a) . 4. a + b = b + a f¨ ur alle a, b ∈ ZZ . 5. (a · b) · c = a · (b · c) f¨ ur alle a, b, c ∈ ZZ . 6. a · b = b · a f¨ ur alle a, b ∈ ZZ . 7. a · (b + c) = a · b + a · c f¨ ur alle a, b, c ∈ ZZ .
(Assoziativgesetz) (0 ist neutrales Element) ((−a) ist Negatives von a) (Kommutativgesetz) (Assoziativgesetz) (Kommutativgesetz) (Distributivgesetz)
8. IN ⊂ ZZ , 1 6= 0 , ZZ = IN ∪{0} ∪ − IN . 9. 1 · a = a , 0 · a = 0 f¨ ur alle a ∈ ZZ . 10. a ≤ b ⇐⇒ b + (−a) ∈ IN ∪{0} .
(1 ist neutrales Element)
Baumeister: Mathematik I / Stand: Dezember 1996
30
Dies deckt sich mit obiger Konstruktion. Zur Abk¨ urzung f¨ uhren wir noch die Subtraktion durch ZZ × ZZ 3 (a, b) 7−→ a − b := a + (−b) ∈ ZZ ein, schreiben meist kurz ab f¨ ur a · b und vereinbaren a < b f¨ ur a ≤ b, a 6= b . Damit k¨onnen wir nun in ZZ und IN genauso rechnen, wie wir es gewohnt sind. Bemerkung 2.2 Der Weg von den ganzen Zahlen ZZ zu den rationalen Q 0 und von den rationalen Zahlen Q 0 zu den reellen Zahlen IR kann ¨ahnlich vollzogen werden; wir kommen sp¨ater darauf zur¨ uck. 2
2.2
Abz¨ ahlen
Als Prototyp“ einer Menge mit n Elementen steht uns IN n := {1, . . . , n} zur Verf¨ ugung. ” Damit wollen wir erkl¨aren, wann eine Menge n Elemente besitzt. Als Vorbereitung beweisen wir Satz 2.3 Sei A eine Menge, seien m, n ∈ IN , und seien φ : A −→ IN n , ψ : A −→ IN m bijektiv. Dann gilt n = m . Beweis: Wir beweisen mit vollst¨andiger Induktion die Aussage Zu n ∈ IN gibt es f¨ ur 1 ≤ m < n keine injektive Abbildung g : IN n −→ IN m . n = 1 : Klar, da IN n = {1}, IN m = ∅ f¨ ur m < n . n + 1 : Annahme: Es gibt eine injektive Abbildung g : IN n+1 −→ IN m , 1 ≤ m < n + 1 . Da g injektiv ist und IN n+1 mindestens die Elemente 1,2 enth¨alt, ist 1 < m . Sei k := g(n + 1) . Offenbar gibt es eine Bijektion f : IN m −→ IN m mit f(i) = i f¨ ur i 6= k, m und f(k) = m, f(m) = k . Nun ist (f ◦ g)| IN n : IN n −→ IN m−1 injektiv, wobei also 1 ≤ m − 1 < n gilt. Dies ist im Widerspruch zur Induktionsannahme. Nachdem nun die obige Aussage bewiesen ist, ist die Behauptung des Satzes schnell gezeigt. Annahme: Es gibt eine bijektive Abbildungen φ : A −→ IN n , ψ : A −→ IN m , n 6= m . O.E. sei etwa n > m . Da ψ◦φ−1 : IN n −→ IN m bijektiv ist, haben wir einen Widerspruch zur obigen Aussage.
Baumeister: Mathematik I / Stand: Dezember 1996
31
Definition 2.4 Sei X eine Menge, X 6= ∅ . (a) M heißt endlich, wenn es ein N ∈ IN und eine bijektive Abbildung ξ : M −→ {1, . . . , N} gibt. Da nach Satz 2.3 die Zahl N eindeutig bestimmt ist, ist die Schreibweise #M := N wohldefiniert. (b) M heißt abz¨ ahlbar unendlich, wenn es eine bijektive Abbildung ξ : M −→ IN gibt. Wir schreiben dann #M = ∞ . (c) M heißt abz¨ ahlbar, wenn M endlich oder abz¨ahlbar unendlich ist.
2 Unmittelbar aus der Definition liest man ab, daß IN n n Elemente besitzt und IN abz¨ahlbar unendlich ist; die Identit¨at ist ja jeweils die passende Bijektion. Klar, der leeren Menge ordnen wir die Elementanzahl 0 zu, d.h. #∅ := 0 . Die obige Definition sagt also, daß wir die Elemente einer (endlichen) Menge M gez¨ahlt haben, wenn wir eine Bijektion φ : M −→ {1, . . . , N} gefunden haben; das Z¨ahlergebnis ist #M := N . Man beachte, daß es Mengen gibt, die nicht abz¨ahlbar sind. Ein wichtiges Beispiel ist M := IR . Das Cantorsche Diagonalisierungsverfahren, das u ¨ blicherweise in der Analysis im Zusammenhang mit der Dezimalbruchentwicklung vorgestellt wird, belegt dies; wir kommen darauf zur¨ uck. Satz 2.5 Sei X eine Menge mit #X = n ∈ IN . Dann gilt #P OT (X) = 2n . Beweis: Wir beweisen die Aussage X Menge mit #X = n =⇒ #P OT (X) = 2n durch vollst¨andige Induktion nach n . n=1: Hier ist X = {x} und daher P OT (X) = {∅, {x}}, #P OT (X) = 2 . (Wir h¨atten auch mit n = 0 beginnen k¨onnen. Hier ist X = ∅ und daher P OT (X) = {∅}, #P OT (X) = 1 = 20 .) n+1: Es ist etwa X = {a1, . . . , an+1 } . Setze X 0 := {a1, . . . , an } . Die Induktionsannahme besagt #P OT (X 0 ) = 2n . Sei nun A eine Teilmenge von X . Ist an+1 ∈ A, dann ist A = {an+1 } ∪ A0 mit A0 ∈ P OT (X 0 ) . Ist an+1 ∈ / A, dann ist A ∈ P OT (X 0 ) . Dies zeigt #P OT (X) = 2n +2n = 2n+1 .
Baumeister: Mathematik I / Stand: Dezember 1996
32
Definition 2.6 Sei A eine endliche nichtleere Menge. A* bezeichne die Menge {2} ∪
∞ [
An
n=1
der endlichen Folgen von Elementen von A; die Elemente von A* werden A−W¨ orter genannt, das Symbol 2 bezeichnet das sogenannte leere Wort. Die Menge A wird in diesem Zusammenhang ein Alphabet genannt; die Elemente von A sind der Zeichenvorrat f¨ur die W¨orter. Einem Element w ∈ A* mit w ∈ An wird die L¨ ange n zugesprochen; wir nennen es ein n−Wort. Das leere Wort 2 hat die L¨ange 0. 2 Im Spezialfall A = {0, 1} spricht man bei A* von bin¨ aren W¨ ortern. Bemerkung 2.7 Sei X = {x1 , . . . , xn } eine Menge mit n Elementen. Jeder Teilmenge von X, d.h. jedem Element der Potenzmenge von X, entspricht eindeutig ein n−Wort aus dem Alphabet {0, 1} : (
X ⊃ A ←→ b1 b2 . . . bn , wobei bi =
1 0
, falls xi ∈ A , falls xi 6∈ A
Also ist die Anzahl der Elemente von P OT (X) gleich der Anzahl der m¨oglichen bin¨aren n−Worte. Diese k¨onnen wir so abz¨ahlen: Es gibt wn n−W¨orter und wn+1 (n + 1)−W¨orter. Wir sortieren die (n + 1)−W¨orter nach dem 1. Buchstaben: Genau wn W¨orter beginnen mit 0, genau wn W¨orter beginnen mit 1. Daher gilt: wn+1 = 2 · wn , w1 = 2 . Daraus folgt die Formel wn = 2n , n ∈ IN , die wir in Satz 2.5 anders bewiesen haben.
2
Bemerkung 2.8 Es gilt heute als gesicherte Tatsache, daß die Erbanlagen von Pflanzen und Tieren durch die DNS (Desoxyribonukleins¨aure) in den Chromosomen u ¨bertragen werden. Man konnte zeigen, daß die DNS aus einer langen Kette besteht, die aus 4 Bausteinen, die durch die Buchstaben A,T,G,C dargestellt werden k¨onnen, aufgebaut ist. Vererbung besteht daher aus langen Nachrichten, die in Worten (Str¨angen) aus einem Vierbuchstabenalphabet geschrieben werden k¨onnen; das Ergebnis einer Genom–Analyse ist also so hinschreibbar. Wenn Zellen sich teilen, werden diese Nachrichten kopiert, wobei zuf¨allige Fehler gemacht werden. Diese Fehler nennt man Mutationen. Die neuen Zellen oder die neuen Individuen sind daher von ihren Vorfahren ein bißchen verschieden und mehr oder weniger lebens– und fortpflanzungsf¨ahig. Dann erh¨alt die nat¨ urliche Auslese einige Individuen und verwirft die weniger tauglichen oder weniger gl¨ ucklichen. 2
Baumeister: Mathematik I / Stand: Dezember 1996
33
Mitunter ben¨otigen wir Definition 2.9 Sei X eine Menge und seien A, B Teilmengen von X. Dann heißt die Menge C|| A := {x ∈ X|x ∈ / A} das Komplement von A in X und A\B := {x ∈ A|x ∈ / B} die Differenzmenge von A, B . 2 Wir haben nun folgende Rechenregeln (A, B, C Mengen): (R1) Ist B Teilmenge der endlichen Menge A, so gilt: #A = #A\B + #B . (R2) #(A ∪ B) = #A + #B − #(A ∩ B) . (R3) #(A ∪ B ∪ C) = #A + #B + #C − #(A ∪ B) − #(A ∩ C) − #(B ∩ C) + #(A ∩ B ∩ C) . Wir zeigen zun¨achst die Regel (R2) f¨ ur den Spezialfall A ∩ B = ∅ . Ist A = ∅ oder B = ∅, so ist nichts zu beweisen. Sei nun #A = m, #B = n, mit m ≥ 1, n ≥ 1. Nach Definition gibt es Bijektionen ϕ : A −→ IN m , ξ : B −→ IN n Wir konstruieren die Bijektion ζ : A ∪ B −→ IN n+m durch (
ζ(x) :=
ϕ(x) ξ(x) + m
, falls x ∈ A , falls x ∈ B
Die Voraussetzung A ∩ B = ∅ sichert, daß ζ wohldefiniert und bijektiv ist. Also gilt #(A ∪ B) = m + n. Aus diesem eben bewiesenen Spezialfall folgt (R1), da A = (A\B) ∪ B und (A\B) ∩ B = ∅ ist. Der Beweis zu (R2) in der allgemeinen Situation l¨auft nun so: Wir haben die disjunkte Zerlegung A ∪ B = A\(A ∩ B) ∪ (A ∩ B) ∪ B\(A ∩ B) und damit #(A ∪ B) = #(A\(A ∩ B) + #(A ∩ B) + #(B\(A ∩ B)) Mit Regel (R1) folgt die Behauptung. Nach diesen Formeln k¨onnen wir darauf vertrauen, daß wir endliche Mengen nach unserem anschaulichen Verst¨andnis abz¨ahlen d¨ urfen. Die Formel (R2) etwa hat dabei ihre Begr¨ undung darin, daß in der Vereinigung A ∪ B die Elemente doppelt gez¨ahlt werden, die in A ∩ B liegen. Diese Doppelz¨ahlung wird ber¨ ucksichtigt durch die Subtraktion von #(A ∩ B).
Baumeister: Mathematik I / Stand: Dezember 1996
34
Beispiel 2.10 Eine Z¨ahlung ergab, daß an einem Sommertag die Brauchwasserzubereitung in 1000 ¨ (803) vorgenommen H¨ausern mit Gas (265 Haushalte), Sonnenenergie (51 Haushalte), Ol wurde. Bei einer Umfrage gaben 287, 843 bzw. 919 Haushalte an, Gas oder Sonnenenergie ¨ bzw. Gas oder Ol ¨ benutzt zu haben. Zeige, daß diese Angaben bzw. Sonnenenergie oder Ol fehlerhaft sein m¨ ussen. Die L¨osung geht so: G : = {x|x Haushalt}; #G = 1000. A := {x ∈ G|x nutzt Gas}; #A = 265. B := {x ∈ G|x nutzt Sonnenenergie}; #B = 51. ¨ #C = 803 C := {x ∈ G|x nutzt Ol}; Die Angaben entsprechen #(A ∪ B) = 287, #(A ∩ B) = 265 + 51 − 287 = 29, #(B ∩ C) = 11, #(C ∩ A) = 149 . Aus der Formel (R3) ergibt sich #(A ∩ B ∩ C) = 1183 − 1119 = 70 > #B . Dies widerspricht aber der Tatsache, daß A ∩ B ∩ C ⊂ B gilt.
2
Sind A, B endliche Mengen, dann gilt f¨ ur das kartesische Produkt die Formel (R4) #(A × B) = #B · #B Dies liest man etwa an folgendem Rechteckschema ab (#A = m, #B = n): a1 a2 .. . am
2.3
b2 ··· bn (a1, b2) · · · (a1, bn) (a2, b2) · · · (a2, bn) .. .. . . (am , b1) (am , b2) · · · (am , bn) b1 (a1, b1 ) (a2, b1 ) .. .
Permutationen
W¨ahle eine Menge M mit n Elementen. Wir wollen f¨ ur den Sachverhalt W¨ahle Elemente von M unter den Gesichtspunkten Anzahl, Reihenfolge“ aus ” die damit verbundenen Anzahlprobleme (auf wieviele Arten ist dies m¨oglich?) studieren. Definition 2.11 Eine r−Permutation (ohne Wiederholung) der Elemente einer n−elementigen Menge M ist eine injektive Abbildung von {1, . . . , r} nach M. 2
Baumeister: Mathematik I / Stand: Dezember 1996
35
Sei M = {x1 , . . . , xn} mit #M = n. Aus der Definition 2.11 folgt sofort, daß r ≤ #M sein muß, wenn es r−Permutationen geben soll, weil das Bild von {1, . . . , r} unter einer injektiven Abbildung sicher r Elemente besitzt. Ist σ eine r−Permutation, so entspricht dieser Abbildung σ das geordnete Tupel (xσ(1), . . . , xσ(r) ) . Umgekehrt, hat man eine Menge B := {xi1 , . . . , xir } mit #B = r, so geh¨ort dazu die r−Permutation σ : {1, . . . , r} 3 j 7−→ xij ∈ M. Damit ist wohl klar, daß die Definition 2.11 unserer Anschauung von der Auswahl von r Elementen unter Ber¨ ucksichtigung der Reihenfolge entspricht. Satz 2.12 Sei M eine Menge mit n Elementen, sei r ≤ n. Die Anzahl P (n, r) der r−Permutationen ist P (n, r) = n(n − 1) · · · (n − r + 1) Beweis: Sei M := {x1 , . . . , xn } . Wie k¨onnen wir eine r−Permutation σ hinschreiben? F¨ ur das Bild σ(1) stehen n Elemente zur Verf¨ ugung. Sind die Bilder σ(1), . . . , σ(r − 1) festgelegt, so stehen f¨ ur σ(r) wegen der geforderten Injektivit¨at nur die Elemente in M\{xσ(1) , . . . , xσ(r−1) } zur Verf¨ ugung, also n − (r − 1) Elemente. Dies bedeutet nun: P (n, 1) = n; P (n, r) = P (n, r − 1) · (n − r + 1) Daraus folgt durch sukzessives Ausmultiplizieren oder induktiv P (n, r) = n(n − 1) · · · (n − r + 1) Der Spezialfall r = n f¨ uhrt zur Bezeichnungsweise n! := n(n − 1) · · · 2 · 1 Sprich n Fakult¨ at“ f¨ ur n! . Wir erg¨anzen mit der Vereinbarung ” 0! := 1 G.W. Leibniz (1646 – 1716) liebte es, zahlenm¨aßige Zusammenh¨ange in Form von Tabellen und Tafeln darzustellen. Beispielsweise f¨ ugte er seiner Arbeit “Dissertatio de Arte Combinatoria“ aus dem Jahre 1966, in der mit seinem Titel auch die Bezeichnung Kombinatorik (lateinisch combinatio: Zusammenfassung von Dingen) vorpr¨agte, eine Tabelle der Fakult¨aten 1! bis 24! = 620448401733239439360000 an.
Baumeister: Mathematik I / Stand: Dezember 1996
36
Definition 2.13 Eine Permutation der Menge M mit n Elementen ist eine n−Permutation.
2
Folgerung 2.14 Sei M eine Menge mit n Elementen. (a) Jede Permutation der Menge M ist bijektiv. (b) Die Anzahl P (n, n) der Permutationen der Menge M ist n! Beweis: Zu (a). Da das Bild einer n−Permutation von M n Elemente enth¨alt, und da #M = n gilt, ist jede n−Permutation sogar surjektiv. Zu(b) Folgt aus Satz 2.12. Beachte, daß wir P (n, r) auch so hinschreiben k¨onnen: P (n, r) =
n! (n − r)!
Diese Zahl ist kein wirklicher Bruch, sondern eine nat¨ urliche Zahl! Beispiel 2.15 Man bestimme die Anzahl z der vierziffrigen Zahlen, deren Ziffern alle verschieden sind; 0 darf als erste Ziffer nicht vorkommen. F¨ ur die erste Ziffer gibt es 9 M¨oglichkeiten: 1, 2, . . . , 9 . F¨ ur die Besetzung der verbleibenden drei Zahlen gibt es dann jeweils noch P (9, 3) M¨oglichkeiten. Also z = 9 · P (9, 3) = 4536
2 F¨ ur die eben diskutierte Fragestellung gibt es die Interpretation durch ein Urnenexperiment In einer Urne befinden sich n Objekte, n¨amlich die n Elemente von M. Man nimmt der Reihe nach jeweils ein Element aus der Urne, ohne es wieder zur¨ uckzulegen. Dann bilden r gezogene Elemente in der Reihenfolge, in der sie gezogen wurden, eine r−Permutation der Menge M. Eine duale Interpretation ist: Jedem Element von M entspricht eine Schachtel; wir haben also n Schachteln. Es werden nun der Reihenfolge nach r Objekte auf die n Schachteln verteilt und zwar so, daß eine Schachtel h¨ochstens ein Objekt enth¨alt.
Baumeister: Mathematik I / Stand: Dezember 1996
37
Definition 2.16 Eine r−Permutation mit Wiederholung einer Menge M ist eine Abbildung τ : {1, . . . , r} −→ M.
2
Satz 2.17 Sei M eine Menge mit n Elementen. Die Anzahl W (n, r) der r−Permutationen mit Wiederholungen ist W (n, r) = nr . Beweis: F¨ ur jedes Bild einer Abbildung τ : {1, . . . , r} −→ M stehen alle n Elemente der Menge M zur Verf¨ ugung. Also wird durch W (n, r) gerade die Menge M r abgez¨ahlt. Diese hat nach der Produktregel nr Elemente. Die Interpretation der r−Permutationen mit Wiederholung als Urnenexperiment ist folgende: Man nimmt der Reihe nach jeweils ein Element aus der Urne, insgesamt r Elemente, legt sie aber jeweils nach dem Ziehen wieder in die Urne zur¨ uck. Die duale Interpretation als Schachtelexperiment ist die Verteilung von r Objekten auf n Schachteln, wobei jede Schachtel beliebig viele Elemente aufnehmen kann.
2.4
Kombinationen
Im letzten Abschnitt haben wir Auswahlen betrachtet, sodaß die Reihenfolge der Elemente von Relevanz war und verschiedene Reihenfolgen verschieden zu z¨ahlen waren. Wenn wir nun keine R¨ ucksicht auf die Anordnung nehmen, kommen wir zum Begriff der Kombination (der Elemente). Definition 2.18 Eine r−Kombination von M ist die Auswahl einer Teilmenge von M, bestehend aus r Elementen. 2 Man beachte, daß f¨ ur M := {1, . . . , n} 1 ··· r 1 ··· r
!
,
1 ··· r r ··· 1
unterschiedliche r−Permutationen sind, w¨ahrend {1, . . . , r}, {r, . . . , 1} identische Teilmengen mit r Elementen sind.
!
Baumeister: Mathematik I / Stand: Dezember 1996
38
Satz 2.19 Die Anzahl C(n, r) der r−Kombinationen einer Menge M mit n Elementen ist C(n, r) =
n! r!(n − r)!
Beweis: Wir wissen P (n, r) =
n! . Jeder r−Kombination entsprechen aber nach Folgerung (n − r)! 2.14 r! verschiedene r−Permutationen, woraus P (n, r) = r! C(n, r)
folgt. Die Interpretation als Urnenexperiment kann man etwa so sehen: Man ziehe r Elemente ohne Zur¨ ucklegen und vergesse die Reihenfolge der gezogenen Elemente. Die Interpretation als Schachtelexperiment ist so: Man verteile r Objekte auf n Schachteln, sodaß in jeder Schachtel h¨ochstens ein Objekt liegt. Einordnungen heißen a¨quivalent (oder werden nicht unterschieden), wenn sie durch eine Permutation der Objekte ineinander u uhrt werden k¨onnen. ¨ bergef¨ Wir f¨ uhren die folgende Bezeichnung !
n n! := (n, r ∈ IN , r ≤ n) r r!(n − r)! ein und nennen diese Zahlen Binominalkoeffizienten. n kann auch interpretiert werden als die Anzahl der bin¨aren W¨orter mit r Einsen und r n − r Nullen. Aus dieser Interpretation oder aus der Definition folgt sofort !
!
!
!
!
n n n n n n = =1, = =n, = 0 n 1 n−1 r n−r
!
(2.1)
Sortiert man die Teilmengen der n−elementigen Menge M nach der Anzahl ihrer Elemente, so liefert die Summenregel !
!
!
n n n + + ··· + = 2n , 0 1 n
(2.2)
da links und rechts der Identit¨at die Anzahl aller Teilmengen von M steht (siehe Satz 2.5). Sortieren wir die n r n−W¨orter mit r Einsen und n − r Nullen nach der 1. Ziffer: − 1 n− W¨orter, mit 0 beginnen n − 1 n−W¨orter. Also Mit 1 beginnen n r r−1 !
!
!
n n−1 n−1 = + r r−1 r Zusammen mit der Randbedingung“ ” Dreieck so dar:
(2.3)
n = n = 1, stellt man dies im Pascalschen 0 n
Baumeister: Mathematik I / Stand: Dezember 1996
39
1 1
1
1
2
1 1
3
4
1
1
3
1
6
5
4
10
1
10
...
5
...
1
...
Diese Anordnung der Binomialkoeffizienten findet sich wohl erstmals bei B. Pascal (1623 – 1622), der auch eine erste Addiermaschine erfand.
Die Bezeichnung von n r als Binomialkoeffizient stammt aus folgendem Satz: Satz 2.20 F¨ur a, b ∈ ZZ und n ∈ IN gilt: n
(a + b) =
!
n X
n j n−j ab . j
j=0
Beweis: Die Multiplikation der n Faktoren (a + b), · · · , (a + b) kann so erfolgen, daß man f¨ ur jedes j, 0 ≤ j ≤ n, aus j Klammern a und aus n − j Klammern b ausw¨ahlt; dies kann auf n j j n−j Arten geschehen. Daher ist der Koeffizient von a b im ausgerechneten Produkt n j . Der Beweis mittels vollst¨andiger Induktion sieht so aus: n = 1 : Klar. n+1: (a + b)n+1 = (a + b)(a + b)n ! n X n j n−j = (a + b) ab j=0 j =
!
n X j=0
=
!
n n j+1 n−j X n j n−j+1 a b + ab j j=0 j
n+1 X k=1
!
!
!
n X n n j n−j+1 k n−(k−1) a b + ab k−1 j=0 j
!
!!
!
=
n n n+1 X b + 0 k=1
=
n n + 1 n+1 X n + 1 k n+1−k n + 1 n+1 b + a b + a 0 k n+1 k=1
!
=
n+1 X k=0
!
n n + k−1 k
n + 1 k n+1−k a b k
!
n n+1 ak bn+1−k + a n !
Baumeister: Mathematik I / Stand: Dezember 1996
40
Im Satz 2.20 haben wir a, b, ∈ ZZ angenommen, da wir bisher nur den Zahlbereich ZZ zur Verf¨ ugung haben. Wenn Q 0 und IR zur Verf¨ ugung stehen, l¨aßt sich der Satz sofort auch dort (und nicht nur dort) verwenden. Wichtig daf¨ ur ist nur, daß es eine Multiplikation · gibt, bei der a · b = b · a gilt. Eine Verallgemeinerung ist X
(a1 + · · · + ar ) = n
j1 +···+jr =n
wobei
!
n aj1 · · · ajrr , j1 · · · jr 1
(2.4)
!
n n! := j1 ! · · · jr ! j1 · · · jr gesetzt ist. Die Summe in 2.4 hat n + nr − 1 Summanden.
(2.5)
Anschaulich bedeutet die Binominalformel (a + b)2 = a2 + 2ab + b2 f¨ ur n = 2, daß sich die Fl¨ache des Quadrats mit Kantenl¨ange a + b zerlegen l¨aßt in zwei Quadrate mit den Kantenl¨angen a bzw. b und zwei Rechtecke mit den Seitenl¨angen a und b. Fertige eine Skizze dazu! Beispiel 2.21 Beim Bridge-Spiel erh¨alt ein Spieler 13 Karten aus einem Spiel aus 52 Karten. F¨ ur einen Spieler sind also ! 52 ≈ 1012 13 Kartenzusammenstellungen m¨oglich. Die Wahrscheinlichkeit“ eine ganz bestimmte Hand“ zu ” ” erhalten, ist f¨ ur einen Spieler also etwa 10−12 . 2 Beispiel 2.22 Beim Lotto wird bei einer Ziehung aus der Menge {1, . . . , 49} eine 6–elementige Teilmenge ausgew¨ahlt. Daher ist die Anzahl der m¨oglichen Ziehungen !
49 = 13983816 6
2
Nun wollen wir bei der Auswahl einer Teilmenge aus einer Menge mit n Elementen auch noch Wiederholungen zulassen. Dies f¨ uhrt zu Definition 2.23 Eine r−Kollektion ist eine r−fache Auswahl eines Elements aus der Menge M, wobei jedes Element mehrfach ausgew¨ahlt werden darf. 2
Baumeister: Mathematik I / Stand: Dezember 1996
41
Satz 2.24 Die Anzahl K(n, r) der r−Kollektionen aus einer n−elementigen Menge ist !
n+r−1 K(n, r) = r
Beweis: Eine r−Kollektion σ wird repr¨asentiert durch eine Wahl von Vielfachheiten m1, . . . , mn ∈ IN 0 mit 0 ≤ mi ,
n X
mi = r,
i=1
wobei mi die Anzahl angibt, wie oft das Element xi ∈ M in der Kollektion σ vorkommt. Der r−Kollektion entsprechen also bin¨are (r + (n − 1))–W¨orter, wobei eine Null Platzhalter f¨ ur ein Element aus der Menge M ist und eine Eins ein Platzhalter f¨ ur einen Trennbuchstaben ist, der die mi – Teilw¨orter voneinander trennt. Davon gibt es nach Satz 2.19 ! ! r + (n − 1) r + (n − 1) = n−1 r W¨orter. Die Interpretation als Urnenexperiment kann man etwa so sehen: Man ziehe r Elemente mit Zur¨ ucklegen und vergesse die Reihenfolge der gezogenen Elemente. Die Interpretation als Schachtelexperiment ist so: Man verteile r Objekte auf n Schachteln und lege innerhalb jeder Schachtel eine Anordnung fest. Dies ergibt n+r−1 n(n + 1) · · · (n + r − 1) = r! r
!
m¨ogliche Einordnungen. Zwei solche Einordnungen werden nun gleichgesetzt, wenn sie durch eine Permutation der r Elemente ineinander u uhrt werden k¨onnen. In diesem ¨ bergef¨ n + r − 1 Sinne gibt es dann Einordnungen. r Beispiel 2.25 Man m¨ochte 12 Flaschen Wein kaufen; zur Verf¨ ugung stehen 3 Weinsorten. Wie viele M¨oglichkeiten l gibt es, 12 Flaschen auszuw¨ahlen? Nach Satz 2.24 ist die Antwort !
!
14 14 l= = = 91 . 2 12
2.5
2
Ordnungen
Bei den nat¨ urlichen Zahlen haben wir das Ungleichungszeichen “≤“ kennengelernt. Es hat die Eigenschaften x ≤ x ; (x ≤ y und y ≤ x) =⇒ y = x ; x ≤ y, y ≤ z =⇒ x ≤ z ;
Baumeister: Mathematik I / Stand: Dezember 1996
42
und x, y ∈ IN =⇒ (x ≤ y oder y ≤ x). Wir nehmen dies zum Anlaß f¨ ur Definition 2.26 Sei X eine Menge. Eine Teilmenge O ⊂ X × X heißt Halbordnung von X, falls gilt: (i) F¨ur alle x ∈ X gilt (x, x) ∈ O. (ii) (x, y) ∈ O , (y, x) ∈ O =⇒ y = x . (iii) (x, y), (y, z) ∈ O =⇒ (x, z) ∈ O . Ist zus¨atzlich noch (iv) F¨ur alle x, y ∈ X gilt (x, y) ∈ O oder (y, x) ∈ O erf¨ullt, dann heißt O eine Ordnung von X.
2 O
Meist schreibt man bei Vorliegen einer Halbordnung O statt (x, y) ∈ O auch x ∼ y oder kurz x ≤ y . Die u ¨bliche “Kleiner–Gleich–Beziehung“ in IN ist also eine Ordnung. Beispiel 2.27 Ist X eine Menge, dann ist in P(X) eine Halbordnung O definiert durch (A, B) ∈ O : ⇐⇒ A ≤ B : ⇐⇒ A ⊂ B . Beachte, daß nur in trivialen F¨allen eine Ordnung vorliegt.
2
Beispiel 2.28 Ordnungen sind: x liegt stromabw¨arts von y in einem Flußtal, lexikographische Ordnung (im W¨orterbuch), hierarchische Ordnungen (?)(Vorgesetztenverh¨altnis). 2 Ist ≤ eine Halbordnung auf der nichtleeren Menge X, so k¨onnen wir bei zwei Elementen x, y ∈ X nicht immer sagen, daß sie vergleichbar sind, d.h. nicht immer k¨onnen wir behaupten: x ≤ y oder y ≤ x. Eine Kette nennen wir eine Teilmenge X 0 von X, in der dies m¨oglich ist: x ≤ y oder y ≤ x f¨ ur alle x, y ∈ X 0 . Daran schließt sich ein Beweisprinzip an, das tief mit den Grundlagen der Mathematik (Auswahlaxiom, Kontinuumshypothese) verkn¨ upft ist. Wir f¨ ugen es ohne weitere Kommentierung an; es wird das Lemma von Zorn genannt:
Baumeister: Mathematik I / Stand: Dezember 1996
43
Satz 2.29 Sei X eine nichtleere Menge mit Halbordnung ≤ . Es gelte: Zu jeder Kette X 0 von X gibt es ein Element x ∈ X (obere Schranke) mit x0 ≤ x f¨ur alle x0 ∈ X 0 . Dann gibt es ein Element x∗ ∈ X (maximales Element) mit x ≤ x∗ f¨ur alle x ∈ X . Dieses Beweisprinzip hat ¨ahnlichen Stellenwert wie die vollst¨andige Induktion. Man versucht aber dieses Prinzip aus grunds¨atzlichen Erw¨agungen (Mangel an Konstruktivit¨at) soweit wie m¨oglich zu vermeiden.
2.6
Sortieren
Sei M eine endliche Menge mit einer Ordnung ≤ . Sortieren heißt, die Elemente von m so anzuordnen, daß sie bzgl. der Ordnung ≤ eine aufsteigende Elementfolge bilden. Ist M = {a1, . . . , an}, so ist also eine bijektive Abbildung σ : {1, . . . , n} −→ {1, . . . , n} zu finden mit aσ(i) ≤ aσ(j) , falls i ≤ j; die gew¨ unschte Anordnung ist dann aσ(1), . . . , aσ(n) Sortierverfahren werden ben¨otigt etwa bei: Einordnen von Schl¨ usseln im Werkzeugkasten, Ordnen der erhaltenen Karten beim Skatspiel, Sortieren von Dateien der Gr¨oße nach. Gesichtspunkte f¨ ur die Leistungsf¨ahigkeit eines Sortierverfahrens sind: Schnelligkeit. Wieviele Rechenoperationen (Vergleiche, Umstellen) in Abh¨angigkeit von n sind n¨otig? Dieser Aufwand wird Laufzeitkomplexit¨ at des Verfahrens genannt. Speicherplatz. Im allgemeinen kann man sich die Elemente der Menge abgelegt in F¨achern vorstellen. Beim Sortieren kann es sinnvoll sein, Zusatzf¨acher zu benutzen. Der Bedarf an F¨achern in Abh¨angigkeit von n ist die Speicherplatzkomplexit¨ at des Verfahrens. Sei nun eine Menge M = {a1 , . . . , an } vorgegeben. Wir denken uns die Elemente a1, . . . , an jeweils einzeln in einem Feld (von F¨achern) abgelegt. Wir sortieren dieses Feld, indem wir die Elemente in den F¨achern solange austauschen, bis sie angeordnet in den F¨achern liegen. Sortieren durch Ausw¨ ahlen (Selection–sort). Hier geht man folgendermaßen vor: • Finde das kleinste Element und tausche es gegen das an der ersten Stelle befindliche Element (1. Schleife). • Fahre in dieser Weise jeweils auf dem Rest des Feldes, das noch nicht sortiert ist fort (i–te Schleifen).
Baumeister: Mathematik I / Stand: Dezember 1996
44
Man stellt leicht fest, daß in der i–ten Schleife n−i Vergleiche und eventuell ein Austausch anfallen: Wegen (siehe Beispiel 1.21) n−1 X
1 (n − i) = n(n − 1) 2 i=1
gilt f¨ ur die Komplexit¨at: 2 ∼ n2 Vergleiche, ∼ n Austausche.
Auf den Aufwand“ − 12 n bei den Vergleichen und −1 beim Austauschen kann man ” f¨ ur große n verzichten; ∼“ bedeutet diese Vernachl¨assigung. (Wir verwenden diese ” Abk¨ urzung auch im folgenden.) Hierzu ein Beispiel, wobei hier die Elemente die Buchstaben des Alphabets in ihrer alphabetischen Ordnung sind. Anwendung von Selection–sort auf unser Beispiel EXAMPLE ergibt: EXAMPLE AXEMPLE AEXMPLE AEEMPLX AEELPMX AEELMPX Sortieren durch Einf¨ ugen (Insert–sort). Betrachte die Elemente der Reihe nach und f¨ uge jedes an seinem richtigen Platz zwischen den bereits betrachteten ein, wobei diese sortiert bleiben. Das gerade bestimmte Element wird eingef¨ ugt, indem die gr¨oßeren Elemente um eine Position nach rechts geschoben werden und das betrachtete Element auf dem frei gewordenen Platz eingef¨ ugt wird. Anwendung von Insert–sort auf unser Beispiel EXAMPLE ergibt: EXAMPLE EXAMPLE AEXMPLE AEMXPLE AEMPXLE AELMPXE AEELMPX Man stellt fest, daß f¨ ur die Laufzeitkomplexit¨at gilt: ∼
n2 n2 Vergleiche , ∼ Austausche 2 4
Sortieren durch Austausch (Bubble–sort) Durchlaufe immer wieder das Feld und vertausche jedesmal, wenn es notwendig ist, benachbarte Elemente; wenn beim Durchlauf kein Austausch mehr n¨otig ist, ist das Feld sortiert. Anwendung von Bubble–sort auf unser Beispiel EXAMPLE ergibt:
Baumeister: Mathematik I / Stand: Dezember 1996
45
EXAMPLE EAXMPLE AEXMPLE AEMXPLE AEMPXLE AEMPLXE AEMLPXE AELMPXE AELMPEX AELMEPX AELEMPX AEELMPX Man stellt fest, daß f¨ ur die Laufzeitkomplexit¨at gilt: n2 n2 ∼ Vergleiche , ∼ Austausche . 2 2 Quick–sort Dies ist der wohl am meisten angewendete Sortieralgorithmus. Seine Idee geht auf C.A.R. Hoare (1960) zur¨ uck. Es ist ein Vorgehen, das vom Typ “Teile und Herrsche“ (divide et impera, divide and conquer) ist und auf einem Zerlegen des Feldes in zwei Teile und anschließendem Sortieren der Teile unabh¨angig voneinander beruht. Auf die Teile kann nun diese Idee wieder angewendet werden: Das Verfahren ist rekursiv, d.h. es ruft sich selbst (auf kleinerer Stufe) wieder auf. Eine entscheidende Bedeutung kommt der Zerlegung eines Feldes zu. Es soll (zweckm¨aßigerweise) so erfolgen, daß gilt: Wird das Feld mit Hilfe des Elements ar zerlegt, so soll dies bedeuten: (1) ar befindet sich an seinem endg¨ ultigen Platz; (2) f¨ ur alle j < r gilt aj ≤ ar ; (3) f¨ ur alle j > r gilt aj ≥ ar . Bei jedem rekursiven Schritt wird eine solche Zerlegung ben¨otigt. Wie findet man eine solche Zerlegung? Hier ist die Realisierung: • W¨ahle irgendein ar . • Durchsuche das Feld von links, bis ein Element gefunden ist, das nicht kleiner als ar ist, und durchsuche das Feld von rechts, bis ein Element gefunden ist, das nicht gr¨oßer als ar ist. Tausche die so gefundenen Elemente. • Wiederhole den obigen Suchprozess solange, bis sich die Suche von links und rechts bei einem Element trifft. Nun ist das Element ar mit dem Element zu tauschen, bei dem sich sich die Suche von links und rechts getroffen hat.
Baumeister: Mathematik I / Stand: Dezember 1996
46
Ist das Feld nun zerlegt (Start), das Startfeld ist also nun a1, . . . , ar , . . . , an , wird das Sortierverfahren auf die Teile a1, . . . , ar−1 und ar+1, . . . , an angewendet; als trennende Elemente k¨onnen nun etwa die Elemente ar−1 und an verwendet werden. Anwendung von Quick–sort auf unser Beispiel EXAMPLE ergibt (M ist beim Start das trennende Element): EXAMPLE EEAMPLX EEALPMX EEALMPX EEAL EEA AEE A E
E
M PX L M P X L M P X L M P X
AEELMPX Das Beste, was bei Quick–sort passieren k¨onnte, ist daß jede Zerlegung des Feldes genau halbiert wird. Dann w¨ urde die Anzahl Cn der von Quick–sort ben¨otigten Vergleiche der rekurrenten Beziehung vom Typ “Teile und Herrsche“ gen¨ ugen (n gerade!): Cn = 2C n2 + n . Dabei ist 2C n2 der Aufwand f¨ ur das Sortieren der zwei halbierten Felder und n der Aufwand f¨ ur die Zerlegung. Induktiv folgt daraus Cn = n log2 n . F¨ ur den allgemeinen Fall zeigt eine etwas aufwendigere Analyse Cn = 2n ln n . log2 n ist der Logarithmus zur Basis 2, d.h. log2 ist die Umkehrfunktion der Funktion a 7−→ 2a . ln n ist der nat¨ urliche Logarithmus, d.h. ln ist die Umkehrfunktion der Funktion a a 7−→ e mit der Eulerschen Zahl e . Wir werden dies in der Analysis besprechen. Jedenfalls gilt: 2n ln n = 1.38 log2 n . Das bisher beschriebene Verfahren kann noch verbessert werden (Beseitigung der Rekursion auf Kosten von “Keller–Feldern“, Verarbeitung kleiner Felder ohne Zerlegung, Auswahl des erzeugenden Elements). Eine wichtige Begriffsbildung ist die Laufzeitkomplexit¨ at im Mittel eines Verfahrens. Damit ist hier gemeint, wieviele Rechenschritte ein Sortierverfahren ben¨otigt, wenn es auf ein “zuf¨allig“ vorsortiertes Feld angewendet wird. Diese Begriffsbildung k¨onnen wir erst diskutieren, wenn wir wissen, was “zuf¨allig“ heißen soll, und wie ein “zuf¨allig“ vorsortiertes Feld hergestellt werden kann. Hier spielen Zufallszahlengeneratoren eine Rolle.
Kapitel 3 Elemente der Zahlentheorie Zahlentheorie untersucht Eigenschaften ganzer Zahlen; insbesondere der nat¨ urlichen Zahlen. Die interessanten Eigenschaften ergeben sich im wesentlichen aus der Tatsache, daß die Division in den ganzen Zahlen nicht uneingeschr¨ankt ausf¨ uhrbar ist. Wir stellen Resultate vor, die zwar schon lange bekannt sind, aber immer noch von großem Interesse bei Anwendungen sind. In einem weiteren Kapitel u ¨ ber algebraische Strukturen werden wir verwandte Fragestellungen finden. Den Abschluß bildet eine Anwendung der Resultate in der Kunst der Verschl¨ usselung von Nachrichten.
3.1
Primzahlen
In diesem Abschnitt kommen wir ausschließlich mit den Eigenschaften der ganzen Zahlen aus, wie sie sich aus der axiomatischen Einf¨ uhrung der nat¨ urlichen Zahlen mittels der Peano-Axiome ergaben; insbesondere haben wir die Rechenarten“ +, −, ·, ≤, < zur ” Verf¨ ugung. Definition 3.1 Sei n ∈ IN . m ∈ IN heißt ein Teiler von n (oder n ist ein Vielfaches von m), falls es k ∈ IN gibt mit n = km. Wir schreiben dann m|n. Ist m kein Teiler von n, so schreiben wir m 6 | n. 2 Definition 3.2 Eine Zahl p ∈ IN heißt Primzahl, falls p 6= 1 und 1 und p die einzigen Teiler von p sind. 2 ¨ Uber die Existenz unendlich vieler Primzahlen wußte schon Euklid Bescheid. Die gr¨oßte Zahl, von der man zur Zeit L. Eulers (1707 – 1783) wußte, daß sie eine Primzahl ist, ist 231 − 1, eine Zahl mit 10 Stellen. Zur Vorbereitung Euklid’s Beweises von der Existenz unendlich vieler Primzahlen geben wir an:
47
Baumeister: Mathematik I / Stand: Januar 1997
48
Folgerung 3.3 Sei n ∈ IN , n ≥ 2. Sei T := {m ∈ IN |m ≥ 2, m|n} . Dann besitzt T ein (bez¨uglich ≤) kleinstes Element p und p ist eine Primzahl. Beweis: Sicherlich ist n ∈ T . Klar, nach dem Wohlordnungssatz besitzt T ein kleinstes ELement p ∈ IN , p ≥ 2. Annahme: p ist keine Primzahl. Dann gibt es l ∈ IN , 2 ≤ l < p, mit l|p. Dann teilt aber l auch n, da p|n gilt, und l ist kleiner als p. Dies ist ein Widerspruch zur Konstruktion von p. Satz 3.4 Es gibt unendlich viele Primzahlen. Beweis: Annahme: Es gibt nur endlich viele Primzahlen. Seien p1 , . . . , pr diese Primzahlen. Setze N := p1 · · · pr + 1. Dann ist N ∈ IN und N ≥ 2. Da N > pi f¨ ur jedes i = 1, . . . , r ist, ist N keine Primzahl. Also besitzt N nach Folgerung 3.3 einen Teiler p, der selbst Primzahl ist. Da offenbar N durch keine der Zahlen pi teilbar ist, ist p verschieden von p1 , . . . , pr . Dies ist ein Widerspruch. Dies ist der euklidische Beweis von der Existenz unendlich vieler Primzahlen. Einen anderen Beweis gab L. Euler (1737). Er st¨ utzt sich auf Argumente der Analysis und auf die Primfaktorzerlegung nat¨ urlichere Zahlen (siehe Satz 3.24). Bemerkung 3.5 Man h¨ ute sich davor, aus dem Beweis zu Satz 3.4 den Schluß zu ziehen, daß die Zahl N := p1 · · · pr , wobei p1 , · · · , pr die ersten r Primzahlen sind, eine Primzahl ist. Etwa: 2 · 3 · 5 · 7 · 11 + 1 = 2311 , 2 · 3 · 5 · 7 · 11 · 13 + 1 = 30031 = 59 · 509 .
2 Seien p1 , p2 , . . . die Primzahlen. Aus dem euklidischen Beweis zu Satz 3.4 schließen wir, daß f¨ ur die n + 1–te Primzahl pn+1 gilt: 2 ≤ pn+1 ≤ p1 · · · pn + 1 Wegen p1 = 2 folgt mit vollst¨andiger Induktion 2 ≤ pn ≤ 22
n−1
, n ∈ IN .
Die obere Schranke ist doch recht pessimistisch, wie wir an der Primzahlfolge/Schrankenfolge sehen k¨onnen 2/2; 3/4; 5/16; . . . Gibt es eine Formel zur Erzeugung von (allen) Primzahlen? Im konstruktiven Verst¨andnis nicht!
Baumeister: Mathematik I / Stand: Januar 1997
49
Beispiel 3.6 Sei f : IN 0 3 n 7−→ n2 + n + 41 ∈ IN . Man kann verifizieren, daß f(n) f¨ ur n = 0, 1, 2, . . . , 39 eine Primzahl ist. F¨ ur n = 40, n = 41 trifft dies nicht zu: f(40) = 41 · 41 , f(41) = 41 · 43 .
2 Beispiel 3.7 Lange Zeit glaubte man, daß die Zahlen n
Fn := 22 + 1, n ∈ IN , stets Primzahlen sind; man nennt sie Fermatsche Zahlen. F¨ ur n = 0, 1, 2, 3, 4 trifft dies zu: F0 = 3, F1 = 5, F2 = 17, F3 = 257, F4 = 65537 Im Jahre 1733 widerlegte L. Euler mit dem Beispiel F5 = 4294967297 = 641 · 6700417 die Vermutung. Bisher hat man keine weitere Zahl Fn als Primzahl erkannt, im Gegenteil, die Vermutung ist nun, daß keine Fermatzahl Fn , n ≥ 5, eine Primzahl ist (siehe Beispiel 15.13 und Anhang). Die kleinste Fermatzahl, von der man derzeit noch nicht weiß, ob sie eine Primzahl ist oder nicht, ist die Zahl F24. Beispielsweise ist F18 = 13631489 · k , wobei k eine Zahl mit 78906 Stellen ist. C.F. Gauss (1777 – 1855) hat bewiesen, daß ein regelm¨aßiges n–Eck genau dann mit Zirkel und Lineal konstruiert werden kann, wenn n die Form n = 2r p1 · · · pk hat, wobei p1 , . . . , pk verschiedene Fermatsche Primzahlen oder 1 sind. Beispielsweise ist das regelm¨aßige 65537–Eck mit Zirkel und Lineal konstruierbar; die Konstruktion wurde von J. Hermes 1879 in G¨ottingen hinterlegt. 2 Wie kann man bei gegebener Zahl n entscheiden, ob es sich um eine Primzahl handelt oder nicht? Liegt eine große Zahl vor, so ist die Aufgabe schwierig. Die Probiermethode, n sukzessive auf Teiler zu untersuchen, kann man sehr schnell als sehr zeitraubend“ erken” nen. Aktualit¨at erhielt die Frage bei der Suche nach Primzahltests in der Kryptologie. In der Kryptologie besch¨aftigt man sich mit der Verschl¨ usselung von Nachrichten zum Zwecke der Geheimhaltung und mit der Entschl¨ usselung zum Zwecke der Aufdeckung von Nachrichten. Im Abschnitt 3.6 werden wir daf¨ ur den sogenannten RSA-Algorithmus skizzieren. Seine Qualit¨at beruht wesentlich auf der Tatsache, daß es schwierig ist, von einer (großen) nat¨ urlichen Zahl die Teiler zu ermitteln. ¨ Ein Primzahltest leitet sich aus der Aquivalenz n Primzahl ⇐⇒ n|((n − 1)! + 1)
Baumeister: Mathematik I / Stand: Januar 1997
50
¨ ab; wir wollen sie hier nicht beweisen. Diese Aquivalenz wird als “Satz von Wilson“ bezeichnet. Schon G.W. Leibniz (1646 – 1716) hat diesen Satz vermutet. Etwa 100 Jahre sp¨ater hat ihn J. Wilson nachentdeckt, der erste vollst¨andige Beweis stammt von J.L. Lagrange (1736 – 1813). Man sieht schnell, daß, was den Rechenaufwand betrifft, nicht viel gewonnen ist. Werden wir etwas bescheidener und fragen danach, wie wir eine Primzahltafel modera” ter“ Gr¨oße herstellen k¨onnen. Von Eratosthenes (276 – 194 v.Chr.; er war der erste, der den Erdumfang “berechnete“) stammt der folgende Algorithmus zur Konstruktion einer Primzahlfolge: Sieb des Eratosthenes: EIN : Liste der nat¨ urlichen Zahlen. p := 2 Schritt 1 : Trage p in die Primzahlliste ein. Schritt 2 : Streiche alle Vielfachen von p hinter der Zahl p . Schritt 3 : Sei q die erste der nicht hinter p gestrichenen Zahlen. Setze p := q, gehe zu Schritt 1. AUS : Liste von Primzahlen. Es bleibt zu verifizieren, daß die so aufgebaute Liste in der Tat eine Liste von Primzahlen ist. Dies ist klar: Die Zahl q aus Schritt 3 ist eine Primzahl, denn sonst w¨are sie als Vielfaches einer vorangegangenen Zahl schon gestrichen. Jede Primzahl siebt als erste Zahl ihr eigenes Quadrat aus, z.B. 7 siebt als erste Zahl 72 aus, da 2·7, 3·7, 4·7, 5·7, 6·7 als Vielfache von 2, 3, 5 schon gestrichen sind. Wenn man mit p siebt, dann startet man mit p2 und streicht jede p−te Zahl. Aber p2 + p, p3 + 3p, . . . sind gerade und daher schon gestrichen. Daher kann man in Schritten von 2p fortschreiten. Um alle Primzahlen bis 120 zu bekommen, muß man nur mit 2, 3, 5, 7 sieben, da 112 > 120 ist.
2 3 4 5 6
7 8 9 10 11 12
13 14 15 16 17 18
19 20 21 22 23 24
25 26 27 28 29 30
31 32 33 34 35 36
37 38 39 40 41 42
43 44 45 46 47 48
49 50 51 52 53 54
55 56 57 58 59 60
61 62 63 64 65 66
67 68 69 70 71 72
73 74 75 76 77 78
79 80 81 82 83 84
85 86 87 88 89 90
91 97 103 109 92 98 104 110 93 99 105 111 94 100 106 112 95 101 107 113 96 102 108 114
115 116 117 118 119 120
In der Liste der Primzahlen sind auch Primzahlzwillinge zu entdecken, d. h. Primzahlpaare, die nur durch eine gerade Zahl getrennt sind: 3 — 5/5 — 7/11 — 13/17 — 19/29 — 31/41 — 43/59 — 61 Es ist nicht bekannt, ob es unendlich viele Primzahlzwillinge gibt. Unter den Zahlen 1 – 1000 etwa gibt es 168 Primzahlen und 35 Primzahlzwillinge.
Baumeister: Mathematik I / Stand: Januar 1997
3.2
51
Teilbarkeit
Teiler einer nat¨ urlichen Zahl haben wir schon eingef¨ uhrt. Eine Erweiterung der Begriffsbildung ist Definition 3.8 Seien a, b ∈ ZZ . Wir sagen, daß a die Zahl b teilt, wenn es k ∈ ZZ gibt mit b = ka. Wir schreiben daf¨ur a|b und sagen auch b ist durch a teilbar. Ist b nicht durch a teilbar, so schreiben wir a 6 | b. 2 Folgerung 3.9 Seien a, b, c ∈ ZZ . Damit gilt: 1. a|a; a|b und b|a =⇒ a = ±b; a|b und b|c =⇒ a|c. 2. d|a und d|b =⇒ d|(ax + by) f¨ur alle x, y ∈ ZZ . 3. a|b und a|(b + c) =⇒ a|c. Beweis: Zu 1. a|a, da a = 1 · a. Es gibt k, l ∈ ZZ mit b = ka, a = lb. Ist b = 0, dann ist a = 0 und nichts ist mehr zu zeigen. Sei nun b 6= 0; o.E. b > 0. Dann folgt aus b = klb offenbar kl ∈ IN , kl = 1 und damit k = ±1, l = ±1. Wir haben b = ka, c = lb mit k, l ∈ ZZ . Daraus folgt c = lb = lka, also a|c. Zu 2. Wir haben a = kd, b = ld. Seien x, y ∈ ZZ . Dann gilt ax + by = kdx + ldy = (kx + ly)d; also d|(ax + by) . Zu 3. Wir haben b = ka, b + c = la mit k, l ∈ ZZ . Daraus folgt c = la − b = la − ka = (l − k)a, also a|c. Bei Teilbarkeitsfragen in ZZ k¨onnen wir uns o.E. immer auf positive Teiler, d.h. auf Teiler in IN , zur¨ uckziehen, da von den zwei Zahlen a, −a stets eine in IN liegt (falls a 6= 0). Ist eine Zahl b nicht durch a teilbar, so kann man Teilbarkeit mit Rest untersuchen. Satz 3.10 F¨ur alle a ∈ ZZ , b ∈ IN gibt es eindeutig bestimmte Zahlen q, r ∈ ZZ mit a = bq + r und 0 ≤ r < b. Beweis: Wir beweisen zun¨achst die Existenz von q, r f¨ ur a ≥ 0 durch vollst¨andige Induktion: a = 0 : q := r := 0 .
Baumeister: Mathematik I / Stand: Januar 1997
52
a + 1 : Ist a + 1 < b, so gilt a + 1 = 0b + (a + 1) und wir sind fertig. Ist a + 1 ≥ b, so folgt aus der Induktionsvoraussetzung a + 1 − b = qb + r mit q ∈ ZZ , 0 ≤ r < b. Also a + 1 = (q + 1)b + r. Die Existenz folgt f¨ ur a < 0 aus der Anwendung der eben bewiesenen Aussage auf −a gem¨aß −a = q 0 b + r0 , 0 ≤ r0 < b durch
(
a=
(−q 0 − 1)b + (b − r0 ) , falls r0 6= 0 (−q 0)b , falls r0 = 0
Um die Eindeutigkeit zu beweisen, nehmen wir ein zweites Zahlenpaar q 0, r0 mit a = bq 0 + r0 , 0 ≤ r0 < b. wobei o.E. r ≥ r0 sei. Dann ist 0 ≤ r − r0 < b, r − r0 = b(q − q 0), q − q 0 ≥ 0, und dies ist nur mit q 0 − q, r = r0 vertr¨aglich. Fragt man nach gemeinsamen Teilern zweier ganzer Zahlen a, b, so interessiert insbesondere der gr¨oßte dieser gemeinsamen Teiler. Dabei k¨onnen wir uns dann auf positive Teiler beschr¨anken, denn 1 ist stets ein gemeinsamer Teiler von a und b. Definition 3.11 Seien a, b ∈ ZZ , die nicht beide 0 sind. Eine Zahl d ∈ IN heißt gr¨ oßter gemeinsamer Teiler von a, b genau dann, wenn gilt: (1) d|a , d|b. (2) Ist d0 ∈ IN ein Teiler von a und b, so teilt d0 auch d. Wir schreiben d = ggT (a, b) = a u b .
2
Es ist sofort klar, daß der gr¨oßte gemeinsame Teiler d gem¨aß Definition 3.11 eindeutig bestimmt ist dank der Tatsache, daß wir d ∈ IN gefordert haben. Bemerkung 3.12 In ZZ k¨onnten wir bei der Einf¨ uhrung des gr¨oßten gemeinsamen Teilers von a, b auch so vorgehen: Schreibe T (a, b) := {t ∈ ZZ | t|a, t|b} hin und bestimme a u b als gr¨oßtes Element (bzgl. ≤) von T (a, b). In allgemeineren Strukturen – vielleicht lernen wir solche noch kennen – ist wegen des Fehlens einer Wohlordnung dieses Vorgehen nicht m¨oglich; beachte, daß wir in Definition 3.11 diese tats¨achlich nicht verwendet haben. 2 Es sollte klar sein, wie nun der gr¨oßte gemeinsame Teiler von endlich vielen ganzen Zahlen erkl¨art ist.
Baumeister: Mathematik I / Stand: Januar 1997 Beispiel 3.13 6 u 10 = 2, 6 u 10 u 30 = 2, 6 u 10 u 15 = (6 u 10) u 15 = 6 u (10 u 15) = 1 .
53
2
Definition 3.14 Seien a, b ∈ ZZ . Gilt a u b = 1 , so nennen wir a, b teilerfremd.
2
Lemma 3.15 Seien a, b ∈ ZZ , nicht beide Null. Dann gilt: a u b = (−a) u b = (−a) u (−b) = a u (−b) . Beweis: Wir beweisen etwa die erste Gleichheit. Diese folgt aber aus der einfachen Beobachtung, daß d ein Teiler von a und b genau dann ist, wenn d ein Teiler von −a und b ist. Im n¨achsten Abschnitt stellen wir einen Algorithmus f¨ ur die Berechnung des gr¨oßten gemeinsamen Teilers bereit.
3.3
Euklidischer Algorithmus
Von Nikomachos (um 100 n.Chr.) wird folgendes Vorgehen, den gr¨oßten gemeinsamen Teiler zu berechnen, aufgeschrieben. Beachte, daß es wegen Lemma 3.15 ausreicht, den gr¨oßten gemeinsamen Teiler f¨ ur Zahlen in IN 0 := IN ∪{0} zu berechnen. Wir schreiben das Vorgehen von Nikomachos in algorithmischer Form“ auf: ” Algorithmus von Nikomachos EIN
a, b ∈ IN 0 mit b > 0.
Schritt 0 a0 := a, b0 = b. Schritt 1 Ist a0 = b0, gehe zu AUS . ( 0
0
0
0
Schritt 2 Ist a 6= b , setze (a , b ) :=
(a0 − b0 , b0) , falls a0 > b0 ; (a0, b0 − a0 ) , falls a0 < b0
gehe zu Schritt 1. AUS Gebe d := a0 als gr¨oßten gemeinsamen Teiler aus. Die Verifikation, daß der Algorithmus in der Tat den gr¨oßten gemeinsamen Teiler von a, b liefert, folgt aus der Tatsache, daß in Schritt 2 der gr¨oßte gemeinsame Teiler nicht ver¨andert wird, d.h. ( 0
0
0
0
a u b = a u b mit (a , b ) :=
(a − b, b) , falls a > b (a, b − a) , falls a < b
Baumeister: Mathematik I / Stand: Januar 1997
54
F¨ ur a > b etwa folgt dies so: Ist d ein Teiler von a und b, dann ist nach Regel 2 aus Folgerung 3.9 d ein Teiler von b und a − b. Umgekehrt, ist d ein Teiler von a − b und b, so ist d ein Teiler von a und b nach Regel 3. aus Folgerung 3.9. Die Endlichkeit des Algorithmus, d.h. die Tatsache, daß schließlich der Schritt 1 mit dem Sprung nach AUS verlassen wird, folgt so: In jedem Durchlauf von Schritt 2 verringert sich die Summe a0 + b0 entweder um b0 oder um a0 . Da die Menge IN 0 ein kleinstes Element besitzt, erreicht man also schließlich den Fall (Schritt 1) a0 = b0 und damit a u b = a0 u b0 = a0 . Man kann auch schon dann abbrechen, wenn a0 gleich 1 oder b0 gleich 1 ist, denn dann ist der gr¨oßte gemeinsame Teiler von a0 , b0 offenbar b0 bzw. a0 . Beispiel 3.16 78 u 35 = 43 u 35 = 8 u 35 = 8 u 27 = 8 u 19 = 8 u 11 = 8u3=5u3=2u3=2u1=1u1=1
2 Wir stellen fest, daß beim Ablauf des Algorithmus ziemlich oft ein Teilschritt wiederholt wird; oben etwa: 8 u 35 = 8 u 27 = 8 u 19 = 8 u 11 = 8 u 3 Dies legt eine Beschleunigung nahe. Der euklidische Algorithmus (um 300 v. Chr.) leistet dies. Er beruht auf dem folgenden Lemma 3.17 Sei a ∈ ZZ und b ∈ IN . Dann folgt aus der Darstellung a = qb + r , q ∈ ZZ , die Aussage a u b = b u r. Beweis: Ist d ein Teiler von a, b, dann ist d ein Teiler von b und r und umgekehrt (siehe oben). Wir d¨ urfen also im Vorgehen von Nikomachos von der gr¨oßeren Zahl a ein Vielfaches von b subtrahieren. Am zweckm¨aßigsten ist es, das gr¨oßtm¨ogliche Vielfache zu subtrahieren. Dies ergibt den euklidischen Algorithmus, der schon Eudoxos (408? – 355? v. Chr.) bekannt war. Euklidischer Algorithmus: EIN a, b ∈ ZZ mit b > 0. Schritt 0 a0 := a, b0 := b .
Baumeister: Mathematik I / Stand: Januar 1997
55
Schritt 1 (a0, b0) := (b0 , r), wobei a0 = qb0 + r mit 0 ≤ r < b0 ist. Schritt 2 Ist r = 0, gehe zu AUS. Ist r 6= 0, gehe zu Schritt 1. AUS d := a0 = a u b . Die Aussage, daß d der gr¨oßte gemeinsame Teiler von a, b ist, falls die Situation r = 0 erreicht wird, folgt aus dem Lemma 3.17. Bleibt noch zu kl¨aren, daß die Situation r = 0 in endlich vielen Schritten wirklich erreicht wird. Dies folgt aber aus der Tatsache, daß f¨ ur zwei aufeinanderfolgende Schritte (a0, b0 ) , (a00, b00) gilt:
0 ≤ b00 < b0 , b0, b00 ∈ IN 0 .
Also muß schließlich das Verfahren bei r = 0 abbrechen. Wir geben dem Euklidischen Algorithmus, von dem wir schon wissen, daß der Schritt 1 nur endlich oft durchlaufen wird, eine explizite Fassung: r0 := a , r1 := b r0 = q1r1 + r2 , 0 < r2 < r1 , r1 = q2r2 + r3 , 0 < r3 < r2 , .. .. . . rk−1 = qk rk + rk+1 , 0 < rk+1 < rk , rk = qk+1 rk+1 In dieser Darstellung ist rk+1 = d = a u b. Beispiel 3.18 a = 36667 , b = 12247. 36667 12247 12173 74 Also gilt: 36667 u 12247 = 37 .
= = = =
2 · 12247 + 12173 1 · 12173 + 74 164 · 74 + 37 2 · 37
2
Beachte: Da a1 u a2 u · · · u an = a1 u (a2 u · · · u an ) gilt, ist klar, daß wir nun auch ein Verfahren haben, das den gr¨oßten gemeinsamen Teiler von a1, . . . , an bereitstellt: Man hat es nur mehrmals anzuwenden. Eine wichtige Eigenschaft des Euklidischen Algorithmus ist das sogenannte Lemma von Bezout:
Baumeister: Mathematik I / Stand: Januar 1997
56
Satz 3.19 Seien a, b ∈ IN . Dann gibt es Zahlen s, t ∈ ZZ mit a u b = sa + tb Beweis: Die Aussage folgt dadurch, daß wir den euklidischen Algorithmus in der expliziten Fassung r¨ uckw¨arts lesen. Wir strukturieren dies, indem wir nachrechnen, daß f¨ ur 0 ≤ i ≤ k + 1 gilt: ri = si a + ti b , si , ti ∈ ZZ . i = 0 : s0 := 1, t1 := 0. i = 1 : s1 := 0, t1 := 1. Nun setzen wir si+1 := si−1 − qi si , ti+1 := ti−1 − qi ti , 2 ≤ i ≤ k.
(3.1)
Dann gilt die obige Aussage offenbar. Beispiel 3.20 Wir betrachten wieder Beispiel 3.18. F¨ ur das Tupel (ri , qi , si , ti ) haben wir dann nach (3.1) die folgende Sequenz (× bedeutet uninteressant oder nicht definiert): (36667, ×, 1, 0), (12247, 2, 0, 1), (12173, 1, 1, −2), (74, 164, −1, 3), (37, ×, 165, −494). Also haben wir 37 = 36667 u 12247 = 165 · 36667 − 494 · 12247
2
Beispiel 3.21 Im Buch liber abacci“ von Leonardo von Pisa, genannt Fibonacci (1180? - 1250?), wird ” die Vermehrung eines Kaninchenpaares in folgender Weise in Abh¨angigkeit von der Zeit beschrieben: Ein zur Zeit t = 0 geborenes Kaninchenpaar wirft vom 2. Monat an in jedem Monat ein weiteres Paar. Die Nachkommen folgen dem Vorbild der Eltern. Alle Kaninchen u ¨ berleben. Damit ergibt sich rekursiv folgende Vorschrift f0 := f1 := 1 fn+1 := fn + fn−1 , n ∈ IN . Die Zahlen fn , n ∈ IN , nennt man Fibonacci–Zahlen. Sie haben viele sch¨one, interessante Eigenschaften. Wir f¨ uhren einige an:
Baumeister: Mathematik I / Stand: Januar 1997 1.
n P i=1
2.
n P i=1
57
fi = fn+2 − 1 f¨ ur alle n ∈ IN ; fi2 = fn · fn+1 f¨ ur alle n ∈ IN ;
2 3. fn · fn+2 − fn+1 = (−1)n+1 f¨ ur alle n ∈ IN ; 2 4. fn2 + fn+1 = f2n+1 f¨ ur alle n ∈ IN ; 2 − fn2 = f2n+2 f¨ ur alle n ∈ IN ; 5. fn+2
6. fn =
n P n − i
i
i=0
f¨ ur alle n ∈ IN ;
7. ggT (fn , fn+1 ) = 1 f¨ ur alle n ∈ IN ; ur alle n, m ∈ IN , m > 1; 8. fm+n = fm−1 · fn + fm · fn+1 f¨ 9. fm·n ist durch fm teilbar f¨ ur alle n, m ∈ IN ; 10. ggT (m, n) = d =⇒ ggT (fm , fn) = fd f¨ ur alle n, m ∈ IN . Wir beweisen hier nur 7., da die Aussage im Zusammenhang mit dem euklidischen Algorithmus von Interesse ist. Wir tun dies induktiv. n = 1 : Klar. n + 1 : Mit den Regeln (3.9) ergibt sich fn+1 u fn+2 = fn+1 u (fn+1 + fn ) = fn+1 u fn = 1 . Gilt nun f¨ ur die Zahlen r0, . . . , rk , rk+1 , rk+1 = 1, rk = 2 · rk+1 , rk−1 = 1 · rk + rk+1 , . . . , r1 = b, r0 = a , so l¨auft offenbar der euklidische Algorithmus besonders langsam. Dies ergibt, daß die Eingabe a := fk+2 , b := fk+1 diesen schlechtm¨oglichsten Fall realisiert; der euklidische Algorithmus erzeugt hier die Zahlenfolge r0 = fk+2 , r1 = fk+1 , r2 = fk , . . . , rk+1 = fk+2 u fk+1 .
2
Der euklidische Algorithmus gilt als ein recht schneller Algorithmus. Um den gr¨oßten gemeinsamen Teiler d von a, b auszurechnen, ist etwa soviel Aufwand wie f¨ ur die Multiplikation von a und b n¨otig. Er findet vielf¨altig Anwendung in der mathematischen Informatik. Folgerung 3.22 Seien a, m ∈ IN mit a u m = 1 . Dann gibt es b ∈ ZZ mit m|(ab − 1) . Beweis:
Baumeister: Mathematik I / Stand: Januar 1997
58
Wir wissen aus dem Lemma von Bezout 1 = ax + my mit x, y ∈ ZZ . Setze b := x . Dann ist ab − 1 = −my = m(−y) . Die obige Folgerung k¨onnen wir so lesen, daß bei Teilerfremdheit von a und m zu a eine Zahl b existiert, die die Gleichung a·b = 1 bis auf ein Vielfaches von m l¨ost. Als weitere Folgerung erhalten wir nun das Lemma von Euklid: Folgerung 3.23 Teilt eine Primzahl ein Produkt a1 · · · ar positiver nat¨urlicher Zahlen, so teilt p wenigstens einen der Faktoren a1 , . . . , ar . Beweis: O.E. sei r = 2. Also haben wir a1 a2 = kp mit k ∈ IN . Teilt p die Zahl a1 nicht, dann ist p u a1 = 1 und es gibt nach Satz 3.19 s, t ∈ ZZ mit 1 = sp + ta1. Daraus folgt a2 = spa2 + ta1a2 = p(sa2 + tk). Also teilt p die Zahl a2 . Bevor wir den Hauptsatz der elementaren Zahlentheorie, die Primfaktorzerlegung, beweisen, formulieren noch eine Schreibweise/Vereinbarung. Das Produkt von Zahlen a1 , . . . , an+1 definieren wir induktiv 0 Y
ai := 1 (leeres Produkt) ,
i=1
1 Y
ai := a1
(einfaches Produkt) ,
i=1 n+1 Y i=1
ai := an+1 ·
n Y
ai .
i=1
Satz 3.24 Jede nat¨urliche Zahl n ≥ 2 l¨aßt sich bis auf die Reihenfolge der Faktoren eindeutig als Produkt von Primzahlen darstellen. Beweis: Die Existenz einer Darstellung f¨ ur n ∈ IN beweisen wir induktiv: F¨ ur n = 2 ist dies nach der obigen Vereinbarung u ¨ber das einfache Produkt klar. n + 1 : Ist n + 1 eine Primzahl, dann ist nach Vereinbarung u ¨ber das einfache Produkt nichts mehr zu zeigen. Anderenfalls gilt n + 1 = pm mit 1 < p, m < n + 1. O.E. k¨onnen wir nun annehmen nach Lemma 3.3, daß n einen Teiler p besitzt, der eine Primzahl ist; also n + 1 = pm mit 1 < p, m < n + 1 . Nach Induktionsvoraussetzung: m = p2 · · · pr , p2 , . . . , pr Primzahlen . Dann liegt in n + 1 = pp2 · · · pr
Baumeister: Mathematik I / Stand: Januar 1997
59
eine Zerlegung von n + 1 in Primfaktoren vor. Zur Eindeutigkeit: Sei n = p1 · · · pr = q1 · · · qs mit Primzahlen p1 , . . . , pr , q1, . . . , qs . Durch Induktion u ¨ ber n zeigen wird, daß r = s und nach Umnumerierung p1 = q1 , . . . , pr = qr gilt. p1 teilt das Produkt q1 · · · qs und damit einen der Faktoren q1 , . . . , qs . Also etwa nach Umnumerierung p1 |q1. Da q1 Primzahl ist, ist p1 = q1. Also (K¨ urzungsregel) p2 · · · pr = q2 · · · qs =: m Da m < n gilt, sagt die Induktionsannahme r = s, p2 = q2, . . . , pr = qs nach eventueller Umnumerierung und wir sind fertig. Bemerkung 3.25 Die Eindeutigkeit der Primfaktorzerlegung ist ein Resultat, das auf wesentlich auf Folgerung 3.23 (Lemma von Euklid) basiert. Die Existenz der Primfaktorzerlegung konnte von Euklid noch nicht bewiesen werden. Erst C.F. Gauss (1777 – 1855) publizierte dieses Ergebnis, das allerdings lange vor herher schon zum Allgemeinwissen der Mathematik geh¨orte. Man sollte sich h¨ uten, sie als Selbstverst¨andlichkeit hinzunehmen, die keines Beweises bedarf. M¨oglicherweise lernen wir noch Strukturen kennen, wo zwar die Existenz einer Primfaktorzerlegung gezeigt werden kann, nicht jedoch die Eindeutigkeit. Beachte aber, daß nahezu gleiche Zahlen eine sehr verschiedene Primfaktorzerlegung besitzen k¨onnen: 370273 = 43 · 79 · 109 , 370277 = 17 · 23 · 947 , 370279 = 7 · 13 · 13 · 313 .
2
Definition 3.26 Seien a, b ∈ ZZ , die nicht beide 0 sind. Eine Zahl k ∈ IN heißt kleinstes gemeinsames Vielfaches von a, b genau dann, wenn gilt: (1) a|k , b|k . (2) Sind a, b Teiler von k 0 ∈ IN , so ist k ein Teiler von k 0 . Wir schreiben k = kgV (a, b) = a t b .
2
Bemerkung 3.27 Das kleinste gemeinsame Vielfache von Zahlen a, b ∈ IN ist die kleinste Zahl m ∈ IN , f¨ ur die a|m , b|m gilt. Kennt man die Primfaktorzerlegung von a und b, so kann man es sehr einfach ablesen (,wie u 2 ¨ brigens auch den gr¨oßten gemeinsamen Teiler). Die Herstellung der Primfaktorzerlegung einer (großen) Zahl ist kein leichtes Unterfangen. Auf der Tatsache, daß die L¨osung dieser Aufgabe im allgemeinen sehr aufwendig ist, beruhen Verschl¨ usselungsverfahren; siehe Abschnitte 3.1 und 3.6).
Baumeister: Mathematik I / Stand: Januar 1997
3.4
60
Diophantische Gleichungen
Lineare Gleichungen der Form a 1 x1 + · · · + a n xn = c mit a1 , . . . , an , c ∈ ZZ nennt man diophantische Gleichungen (Diophantos von Alexandria (um 300 v. Chr.)). Eine solche Gleichung l¨osen, heißt ein Tupel (x∗1 , . . . , x∗n) ∈ ZZ n zu finden, so daß die Gleichung erf¨ ullt wird, wenn wir x∗i and die Stelle von xi setzen. (Man mache sich den Unterschied zwischen der symbolischen Notation der Gleichung und der Identitat, die beschreibt, daß nach dem Einsetzen des Tupels die Gleichung erf¨ ullt wird, klar.) Wichtig ist: Wir suchen ganzzahlige L¨osungen. Bei der Untersuchung beschr¨anken wir uns auf den Fall n = 2, der allgemeine Fall l¨aßt sich darauf zur¨ uckf¨ uhren. Sei also die Gleichung ax + by = c (a, b, c ∈ ZZ )
(3.2)
vorgelegt. (In R¨ uckgriff auf die Schulmathematik oder in Vorgriff auf noch Kommendes: Diese Gleichung l¨osen heißt also, Punkte auf der Geraden ax + by = c in IR2 zu finden, die ganzzahlige Koordinaten besitzen.) Satz 3.28 Die diophantische Gleichung (3.2) ist genau dann l¨osbar, wenn a u b ein Teiler von c ist. Beweis: Ist das Paar (x, y) ∈ ZZ 2 eine L¨osung von (3.2), dann ist offenbar jeder Teiler von a und b auch ein Teiler von ax + by (siehe Folgerung 3.9), also von c. Damit folgt (a u b)|c. Sei nun d := a u b ein Teiler von c, also c = kd mit k ∈ ZZ . Mit dem euklidischen Algorithmus erhalten wir s, t ∈ ZZ mit d = sa + tb. Dann l¨ost aber (ks, kt) ∈ ZZ 2 die diophantische Gleichung (3.2). Beispiel 3.29 Sei die diophantische Gleichung 36667x + 12247y = 111 vorgelegt. Aus Beispiel 3.20 wissen wir, daß 37 = 36667 u 12247 = 165 · 36667 − 494 · 12247 gilt. Daraus erhalten wir als eine L¨osung (495, −1482) Gibt es auch eine L¨osung in IN × IN ? Wir erg¨anzen das obige Resultat:
2
Baumeister: Mathematik I / Stand: Januar 1997
61
Satz 3.30 Sei (x0, y0) eine L¨osung von (3.2). Dann sind alle L¨osungen von (3.2) gegeben durch (x0 + b0 t, y0 − a0t) , t ∈ ZZ , wobei a = a0 d, b = b0 d mit d = a u b ist. Beweis: Durch Einsetzen u uft man f¨ ur t ∈ ZZ , daß (x0 + b0t, y0 − a0t) eine L¨osung von (3.2) ¨berpr¨ ist. Sei nun (x1, y1 ) eine beliebige L¨osung von (3.2). Dann folgt durch Subtraktion a(x1 − x0) + b(y1 − y0 ) = 0 und
a0(x1 − x0 ) = b0 (y0 − y1 ).
Es folgt daraus a0|(y0 −y1 ), da a0 u b0 = 1 ist. Damit existiert ein t∗ ∈ ZZ mit y0 −y1 = t∗a0. Daraus entsteht a0(x1 − x0) = b0a0t∗ oder
x1 − x0 = b0 t ∗ .
Dies zeigt
(x1, y1 ) = (x0 + b0t∗, y0 − a0t∗)
und (x1, y1) ist von der angegebenen Form. Beispiel 3.31 Betrachte die diophantische Gleichung aus Beispiel 3.29 36667x + 12247y = 3 mit der L¨osung (x0 , y0) := (495, −1482) Da d = 37, 36667 = 991 · 37 und 12247 = 331 · 37 ist, ergibt sich als L¨osungsmenge (495 + 331t, −1482 − 991t) , t ∈ ZZ . Man stellt fest, daß es keine L¨osung in IN × IN gibt.
3.5
Der kleine Satz von Fermat
1640 erkannte P. Fermat (1601 - 1665) die Richtigkeit des folgendes Satzes:
2
Baumeister: Mathematik I / Stand: Januar 1997
62
Satz 3.32 Ist p ∈ IN eine Primzahl, dann teilt p die Differenz ap − a f¨ur jedes a ∈ IN . Beweis: Wir wollen induktiv die Richtigkeit der Aussage A(n): Der Satz ist richtig f¨ ur alle a ≤ n beweisen. n = 1 : A(1) ist wahr wegen 1p − 1 = 0. n + 1 : Sei a + 1 ≤ n + 1. (Wir starten naheliegenderweise mit a + 1 ≤ n + 1 statt mit a ≤ n + 1 .) Wir haben !
!
p p−1 p (a + 1) − (a + 1) = (a − a) + a + ··· + a 1 p−1 p
p
p Da p| i f¨ ur 1 ≤ i ≤ p − 1 gilt – siehe nachfolgende Bemerkung 3.33) – und da p ein Teiler von ap − a ist nach Induktionsvoraussetzung, folgt p|((a + 1)p − (a + 1)).
Bemerkung 3.33 Ist p eine Primzahl, dann teilt p jede Zahl im Pascalschen Dreieck in der p–ten Zeile mit Ausnahme der Randzahlen, d.h. !
p p| f¨ ur 1 ≤ i ≤ p − 1 . i p p! Dies folgt aus i = ∈ IN unter Beachtung der Tatsache, daß i! und (p − i)! i!(p − i)! Teiler von (p − 1)! sein m¨ ussen, da p eine Primzahl ist. 2
Der Satz von Fermat wurde 1761 von L. Euler (1707 – 1783) erweitert zur Aussage (Satz von Euler– Fermat) a ∈ IN , a u m = 1 =⇒ m|(aϕ(m) − 1) wobei ϕ die Eulersche ϕ–Funktion ist: ϕ(m) := #{k ∈ IN |1 ≤ k ≤ m, k u m = 1} ; diese Funktion z¨ahlt die zu m teilerfremden Zahlen zwischen 1 und m . Ist nun m = p eine Primzahl, dann ist ϕ(m) = p − 1 und der Satz von Euler–Fermat geht in den Fermatschen Satz u ¨ber, denn: Ist a u p = 1, dann gilt also p|(ap−1 − 1), also auch p|(ap − a) . Ist a u p = d 6= 1, dann ist a = kp mit k ∈ ZZ und wir haben offensichtlich p|(ap − a) . Beispiel 3.34
Baumeister: Mathematik I / Stand: Januar 1997
63
Es gilt: ϕ(1) = 1 , ϕ(2) = 1 , ϕ(3) = 2 , ϕ(4) = 2 , ϕ(6) = 2 , ϕ(10) = 4 , ϕ(15) = 8 . Der Satz von Euler sagt uns dann, daß 6 die Zahl 5ϕ(6) − 1 = 24 teilt. Er sagt uns aber auch, daß 851 ein Teiler von 31792 − 1 ist, denn 31792 − 1 = 3122·36 − 1 = 31ϕ(23·37) − 1 = 31ϕ(851) − 1 .
2 Bemerkung 3.35 F¨ ur n = 2 wissen wir, daß die Gleichung x2 + y 2 = z 2 unendlich viele L¨osungen (x, y, z) ∈ IN × IN × IN besitzt, n¨amlich die pythagoreischen Zahlen, die sich schon bei den Babyloniern finden (siehe unten). Der große Satz von Fermat ist folgende Aussage: F¨ ur n ∈ IN , n ≥ 3, hat die Gleichung xn + y n = z n keine L¨osung (x, y, z) ∈ IN × IN × IN . Dieser Satz, von dem Fermat behauptete, daf¨ ur einen gar wundersamen Beweis zu haben, wurde 1994 nach vielen, vielen Fehlversuchen unter Verwendung eines umfangreichen Theoriengeb¨audes von Wiles bewiesen. F¨ ur n = 4 hat Frenicle de Bessy (1602? – 1675?) bereits 1676 einen Beweis vorgelegt, den Beweis f¨ ur n = 3 hat dann L. Euler geliefert. Eine Idee dabei war, mit der Substitution 2 x =: u, y 2 =: v, z 2 =: w den Zusammenhang mit den pythagoreischen Zahlentripeln zu schaffen. Damit waren dann auch die F¨alle n = 3s, n = 4s, s ∈ IN , erledigt. Die weitreichensten Fortschritte vor Wiles hat E.E. Kummer (1810 – 1893) erzielt, indem er den Satz u.a. f¨ ur alle Primzahlen n, 2 < n < 100, bewies. 2 Die oben erw¨ahnten pythogoreischen Zahlen wollen wir nun finden. Sie sind definiert als L¨osungen der Gleichung x2 + y 2 = z 2 (x, y, z ∈ IN ) (3.3) Es gen¨ ugt die L¨osungen (x, y, z) mit x u y u z = 1 zu kennen, denn nat¨ urlich ist mit einem pythagoreischen Tripel (x0, y0 , z0) und einem beliebigen t ∈ ZZ auch (tx0, ty0, tz0) eine L¨osung von (3.3). Gilt nun x u y u z = 1 und x2 + y 2 = z 2, dann gilt sogar x u y = 1, x u z = 1, y u z = 1, denn ist etwa d ein Teiler von x und y, dann ist d auch Teiler von z und damit ein Teiler von x, y, z. Speziell folgt daraus, daß nicht jede der drei Zahlen x, y, z gerade sein kann und daß zwei ussen. Also ist entweder x oder y gerade, da z nicht der drei Zahlen x, y, z ungerade sein m¨ gerade sein kann, denn: Ist z gerade, so ist 4 ein Teiler von z 2 und daher 4 ein Teiler der
Baumeister: Mathematik I / Stand: Januar 1997
64
Summe der beiden notwendigerweise ungeraden Zahlen x2, y 2. Die urspr¨ ungliche Aufgabe ist also reduziert auf die Suche nach allen paarweise teilerfremden Zahlentripeln (x, y, z) ∈ IN 3 , die der Gleichung (3.3) gen¨ ugen und in denen y gerade ist. Diese Zahlentripel nennt man primitive pythagoreische Zahlen. Also k¨onnen wir nun setzen: x = 2u + 1, y = 2v, z = 2w + 1 Die Gleichung (3.3) kann man umformen zu y 2 = z 2 − x2 = (z − x)(z + x) Daraus erh¨alt man 4v 2 = (2w + 2u + 2)(2w − 2u) = 4(w + u + 1)(w − u). Wegen x u z = 1 gilt auch (w + u + 1) u (w − u) = 1, denn aus
1 1 w + u + 1 = (z + x) , w − u = (z − x) 2 2 – hier stehen keine eigentlichen Br¨ uche! – w¨ urde f¨ ur einen Teiler d von w + u + 1, w − u folgen z + x = 2kd, z − x = 2ld,
also z = (k + l)d, x = (k − l)d, im Widerspruch zu x u z = 1. Damit folgt nun mit v 2 = (w + u + 1)(w − u) , daß w + u + 1, w − u Quadrate von Zahlen sein m¨ ussen: w + u + 1 =: a2, w − u =: b2 , hierbei gilt wiederum a u b = 1. Man erh¨alt z + x = 2a2, z − x = 2b2 , x = a2 − b2, y = 2ab, z = a2 + b2. Nun gilt f¨ ur jedes Tripel (x, y, z) := (a2 − b2 , 2ab, a2 + b2) , a, b ∈ IN
(3.4)
auch stets die Gleichung (3.3). Damit werden in (3.4) alle primitiven pythagoreischen Zahlen angegeben durch (a2 − b2, 2ab, a2 + b2 ), a u b = 1, 2 6 | (a − b), a, b ∈ IN . (Die Forderung 2 6 | (a − b) ber¨ ucksichtigt zusammen mit a u b = 1 , daß x nicht gerade ist.)
Baumeister: Mathematik I / Stand: Januar 1997
3.6
65
Kongruenzen
Definition 3.36 Sei a, b ∈ ZZ und sei m ∈ ZZ , m 6= 0. Wir sagen, a ist kongruent b modulo m und schreiben a ≡ b mod m oder kurz a ≡ b (m) , falls m ein Teiler von a − b ist. Die Zahl m heißt Modul der Kongruenz.
2
Da a − b genau dann durch m teilbar ist, wenn a − b durch −m geteilt wird, vereinbaren wir, daß der Modul m eine positive ganze Zahl ist. Lemma 3.37 F¨ur a, b ∈ ZZ , m ∈ IN sind ¨aquivalent: (a) a ≡ b mod m (b) a = qm + r, b = q 0m + r0 , 0 ≤ r, r0 < m =⇒ r = r0 . Beweis: (a) =⇒ (b) Sei also a = qm + r, b = q 0m + r0 , 0 ≤ r, r0 < m; sei etwa r ≥ r0 . Da a ≡ b mod m gilt, gibt es k ∈ ZZ mit mk = a − b. Daraus folgt mk = a − b = qm + r − q 0m − r0 = (q − q 0 )m + r − r0 und wir erhalten m|(r − r0 ) und wegen 0 ≤ r − r0 < m sogar r = r0 . (b) =⇒ (a) Mit Hilfe von Division mit Rest erhalten wir die Darstellungen a = qm + r , b = q 0m + r0 , 0 ≤ r, r0 < b. Daraus folgt dann mit (b) m|(b − a), also a ≡ b mod m. Der Grund, daß man die Teilbarkeitsbedingung m|(a − b) durch Kongruenzen darstellt, ist der Vorteil, daß mit Kongruenzen ¨ahnlich gerechnet werden kann wie mit Gleichungen. Es gelten die folgenden Rechenregeln: (R1) a ≡ a mod m . (R2) a ≡ b mod m =⇒ b ≡ a mod m. (R3) Aus a ≡ b mod m, b ≡ c mod m, folgt a ≡ c mod m. (R4) a ≡ b mod m, c ≡ d mod m =⇒ ac ≡ bd mod m.
Baumeister: Mathematik I / Stand: Januar 1997
66
(R5) a · c ≡ b mod m, c ≡ d mod m =⇒ ad ≡ b mod m. ur alle n ∈ IN . (R6) a ≡ b mod m =⇒ an ≡ bn mod m f¨ (R7) na ≡ nb mod m , d = n u m =⇒ a ≡ b mod m/d. (R8) na ≡ nb mod m , 1 = n u m =⇒ a ≡ b mod m. Beweisen wir etwa (R6): Wir haben m = kd, n = ld mit k, l ∈ IN und k u l = 1 . Aus m|n(a−b) folgt sm = n(b−a) mit s ∈ IN . Wir haben also sk = l(b − a) und daraus folgt nun, daß k = m/d ein Teiler von b − a ist. Folgerung 3.38 Seien a, b ∈ ZZ , m1 , . . . , mr ∈ IN . Dann sind ¨aquivalent: (a) a ≡ b mod mj , 1 ≤ j ≤ r. (b) a ≡ b mod k mit k = m1 t · · · t mr . Beweis: l l Q Q α β Sei mit der Primfaktorzerlegung etwa a = pj j , b = pj j mit Primzahlen p1 , . . . , pl j=0
j=0
und α1, β1, . . . , αl , βl ∈ IN 0 . Dann gilt offenbar k = a t b =
l Q j=0
max{αj ,βj }
pj
. Daraus liest
man die Behauptung leicht ab. Satz 3.39 Seien a, b ∈ ZZ , m ∈ IN . Die Kongruenz ax ≡ b mod m
(3.5)
(a u m)|b.
(3.6)
ist l¨osbar, genau dann, wenn gilt. Die Anzahl der L¨osungen von (3.5) modulo m ist gleich a u m, falls die L¨osbarkeitsbedingung (3.6) erf¨ullt ist. Beweis: Die Kongruenz (3.5) ist l¨osbar genau dann, wenn die diophantische Gleichung ax − my = b l¨osbar ist. Aus Satz 3.28 folgt die Behauptung u ¨ ber die L¨osbarkeit. Sei nun x0 eine L¨osung der Kongruenz (3.5). Aus Satz 3.30 folgt, daß die L¨osungen x von (3.5) so dargestellt werden k¨onnen: x = x0 + m0 t , t ∈ ZZ , wobei m0 d = m mit d = a u m ist.
Baumeister: Mathematik I / Stand: Januar 1997
67
Daraus liest man ab, daß es modulo m nur die L¨osungen x0, x0 + m0 , . . . , x0 + (d − 1)m0 gibt. Beispiel 3.40 Sei n ∈ IN geschrieben im Zehnersystem: n=
l X
ak 10k (a0, . . . , al ∈ IN 0 .)
k=0
Sei q(n) :=
l P
ak die Quersumme von n.
k=0
Dann gilt: n − q(n) =
l X
ak (10k − 1) =
k=0
l X
ak (10k − 1)
k=1
Da 10k ≡ 1 mod 9 f¨ ur alle k ∈ IN gilt, haben wir n − q(n) ≡ 0 mod 9 Dies bedeutet, daß wir die Teilbarkeit von n durch 9 ablesen k¨onnen aus der Teilbarkeit 2 der Quersumme durch 9 (Neunerprobe). Der folgende Satz ist grundlegend f¨ ur die Algorithmustheorie. Satz 3.41 Seien m1, . . . , mk ∈ IN paarweise teilerfremd und seien a1 , . . . , ak ∈ ZZ . Dann existiert eine L¨osung des Kongruenzsystems x ≡ ai mod mi , 1 ≤ i ≤ k, und alle L¨osung sind kongruent modulo M := m1 · · · mk (Eindeutigkeit modulo M). Beweis: Q Setze m0i := mj . Sei i ∈ {1, . . . , k}; Wegen mi u m0i = 1 gibt es Zahlen ri , ri0 ∈ ZZ , so j6=i
daß
mi ri + m0i ri0 = 1;
setze ei := m0i ri0 . Damit gilt (
ei ≡
1 , mod mi 0 , mod mj , i 6= j
und x :=
r X i=1
ai ei
Baumeister: Mathematik I / Stand: Januar 1997
68
l¨ost das Kongruenzsystem. Ist y eine weitere L¨osung, so gilt mi |(y − x) f¨ ur alle i = 1, . . . , k , und damit m1 · · · mk |(y − x), ur i 6= j. da mi u mj f¨ Der obige Satz ist der Chinesische Restsatz. Der Beweis ist konstruktiv, denn es wird ein praktikables Vorgehen beschrieben, wie man zur L¨osung des Kongruenzensystems u ¨ ber die Verwendung des euklidischen Algorithmus kommt. Man beachte, daß die dabei zu berechnenden Zahlen e1, . . . , ek nur von den Moduli m1, . . . , mk , aber nicht von den Resten a1, . . . , ak abh¨angen. In Beispiel 0.2 haben wir eine konkrete Fassung des obigen Beweises kennengelernt. Wir schreiben es neu auf, andere konkrete Beispiele f¨ ur den chinesischen Restsatz findet man bei Brahmagupta (598 – ?) und Fibonacci (1180? – 1250?). Beispiel 3.42 Das Kongruenzsystem lautet: x ≡ 2 mod 3 , x ≡ 3 mod 5 , x ≡ 2 mod 7 Es sind hier also: m1 = 3, m2 = 5, m3 = 7, a1 = 2, a2 = 3, a3 = 2. Wir erhalten
m01 = 35, m02 = 21, m03 = 15
und e1 = −35, e2 = 21, e3 = 15. Also ist x ≡ 23 mod 105
2
die eindeutige L¨osung
Im Kapitel u uck. Er erh¨alt ¨ber Algebra kommen wir auf den chinesischen Restsatz zur¨ dort eine algebraische Fassung. Betrachte eine Kongruenz ax ≡ b mod m mit a u m = 1 .
(3.7)
Mit dem Satz von Euler–Fermat k¨onnen wir diese Kongruenz unter Beachtung von aφ(m) ≡ 1 mod m umwandeln in x ≡ aφ(m)−1 b mod m . (3.8)
Baumeister: Mathematik I / Stand: Januar 1997
69
Da die Berechnung von aφ(m) bei großem Modul m sehr m¨ uhsam sein kann, zerlegen wir den Modul in teilerfremde Faktoren m = m1 · · · mk (etwa in die in m aufgehenden Primzahlen) und betrachten die k Kongruenzen ax ≡ b mod mi , i = 1, . . . , k .
(3.9)
Nun kann man diese Kongruenzen umwandeln in Kongruenzen, f¨ ur die der chinesische Restsatz “zust¨andig“ ist: x ≡ ai mod mi , i = 1, . . . , k ;
(3.10)
dies kann etwa erneut mit dem Satz von Euler–Fermat erfolgen. Hat man diese gel¨ost, hat man auch die urspr¨ ungliche Kongruenz (3.7) gel¨ost. Daß man zur L¨osung der Kongruenzen (3.10) nicht unbedingt den im Beweis zum chinesischen Restsatz aufgezeigten Weg gehen muß, soll folgendes Beispiel zeigen. Beispiel 3.43 Betrachte die Kongruenz 1193x ≡ 367 mod 31500 .
(3.11)
Man zerlegt 31500 = 4 · 7 · 9 · 125 und erh¨alt nach einiger Rechnung das “aquivalente“ Kongruenzensystem x ≡ 3 mod 4 , x ≡ 1 mod 7 , x ≡ 5 mod 9 , x ≡ 44 mod 125 . (Etwa zur Kongruenz x ≡ 3 mod 4 : Ist 1193x ≡ 367 mod 31500, dann ist 1193x ≡ 367 mod 4 und daher x = 367 − 4k − 1192x mit k ∈ ZZ . Daraus liest man 4|x − 3 ab.) Der chinesische Restsatz sagt, es gibt eine L¨osung x. Aus der ersten Kongruenz folgt x = 3 + 4t , t ∈ ZZ . Eingesetzt in die zweite Kongruenz ergibt sich f¨ ur t 3 + 4t ≡ 1 mod 7 bzw. t ≡ 3 mod 7 , also t = 3 + 7s , s ∈ ZZ , und x = 15 + 28s , s ∈ ZZ . Eingesetzt in die dritte Kongruenz ergibt sich f¨ ur s 15 + 28s ≡ 5 mod 9 bzw. s ≡ 8 mod 9 , also s = 8 + 9r , r ∈ ZZ , und x = 239 + 252r , r ∈ ZZ . Eingesetzt in die vierte Kongruenz ergibt sich f¨ ur r 239 + 252r ≡ 44 mod 125 bzw. r ≡ 90 mod 125 , also r = 90 + 125q , q ∈ ZZ , und x = 22919 + 252 · 125q , q ∈ ZZ . Eine L¨osung der betrachteten Kongruenz ist also x = 22919 .
2
Baumeister: Mathematik I / Stand: Januar 1997
3.7
70
Das RSA–Schema
Das RSA-Schema ist ein Chiffriersystem. Es wurde 1977 von Ronald Rivest, Adi Shamir, Leonard Adleman vorgeschlagen. Es beruht auf dem kleinen Satz von Fermat und stellt eine L¨osung folgender Aufgabe dar: Ein Absender A m¨ochte an einen Empf¨anger B eine Nachricht m aus einer endlichen Menge M von Nachrichten u ¨ bermitteln, und zwar geheim. Die prinzipielle L¨osung sieht so aus: A verschl¨ usselt (kodiert) dazu die Nachricht mittels des ¨offentlichen Schl¨ ussels K des Empf¨angers B, der auf der Menge M der Nachrichten injektiv operiert, also: K : M −→ M Dann sendet A an B die verschl¨ usselte Nachricht K(m) (anstelle von m). Der Empf¨anger B entschl¨ usselt (dekodiert) mittels seines geheimen Schl¨ ussels D, der ebenso auf der Menge der Nachrichten operiert, also: D : M −→ M Die Schl¨ ussel sollten so zusammenpassen, daß D(K(m)) = m gilt, und zwar f¨ ur die gesamte Menge der m¨oglichen Nachrichten. Dies bedeutet: D = K −1 Da der Schl¨ ussel K ¨offentlich ist, kann man sich auch D verschaffen und Geheimhaltung ist ¨ nicht m¨oglich. Die Uberraschung mit dem RSA-Schema ist nun die, daß Geheimhaltung im praktischen Sinne doch m¨oglich ist, da die Schl¨ ussel K, D so gew¨ahlt sind, daß die praktische Bestimmung von D aus K mit einem nicht zu bew¨altigenden Rechenaufwand einhergeht. Das RSA-Schema stellt sich so dar: • Jede Nachricht wird dargestellt in Form einer oder mehrerer nat¨ urlicher Zahlen m ∈ {0, . . . , n − 1} =: M. (In der Praxis hat man die konkreten Nachrichten in die zul¨assigen Nachrichten aus M umzuwandeln (Kodes (ASCII–Kode, . . .)). • W¨ahle s ∈ IN und kodiere mit Ks : M 3 m 7−→ ms mod n ∈ M • W¨ahle t ∈ IN und dekodiere gem¨aß Dt : M 3 m 7−→ mt mod n ∈ M
Baumeister: Mathematik I / Stand: Januar 1997
71
Man beachte, daß die Auswertung von Ks bzw. Dt (Potenzierung) im allgemeinen sehr effizient realisiert werden kann, w¨ahrend das Auffinden der k–ten Wurzel mod n, die ben¨otigt wird, um Dt aus Ks zu finden, schwierig ist. Voraussetzungen, die sicherstellen, daß die Schl¨ ussel zusammenpassen, ist: n = p · q , p, q Primzahlen , 1 < s < ϕ(n), s u ϕ(n) = 1, ts ≡ 1 mod ϕ(n).
(3.12)
Dies geht aus dem folgenden Lemma hervor: Lemma 3.44 Seien die Voraussetzungen (15.1) erf¨ullt. Dann gilt Dt ◦ Ks = id. Beweis: Wir wissen st = 1 + kϕ(n) mit k ∈ ZZ . Wir zeigen zun¨achst ur alle m ∈ {0, . . . , n − 1}. mst − m ≡ 0 mod p f¨
(3.13)
Sei m ∈ {0, . . . , n − 1}. Wir wollen dies aus dem Satz von Fermat schließen. Allerdings fehlt die Voraussetzung m u p = 1. Kl¨aren wir daher den Fall m u p 6= 1. Hier ist, da p Primzahl ist, p ein Teiler von m; also m ≡ 0 mod p. Wenn p ein Teiler von m ist, dann ist p sicherlich ein Teiler von mst , d.h. mst ≡ 0 mod p und mst ≡ m mod p. Nun zeigen wir die Behauptung (15.2) f¨ ur den Fall m u p = 1 mit dem Satz von Fermat: mst ≡ ≡ ≡ ≡ ≡
m1+kϕ(n) mod p mmkϕ(n) mod p m(m(p−1))k·(q−1) mod p m1k·(q−1) mod p m mod p
Analog folgt mst − m ≡ 0 mod q Daraus ergibt sich mit p|(mst − m) , q|(mst − m), da p, q verschiedene Primzahlen sind, daß pq|(mst − m) gilt. Dies bedeutet aber mit n = pq mst ≡ m mod n
Baumeister: Mathematik I / Stand: Januar 1997
72
Nachdem wir nun gezeigt haben, daß das RSA-Schema korrekt arbeitet, bleibt zu fragen, ob es auch brauchbar im Sinne der Geheimhaltung ist. Jedermann kennt die ¨offentlichen Schl¨ usselzahlen, also die Zahlen n und s; kein Teilnehmer muß sich p, q und ϕ(n) merken. Um den Geheimtext entschl¨ usseln zu k¨onnen, m¨ ußte jemand die Zahl t berechnen. Dazu reicht es auch, die Zahl ϕ(n) zu kennen, denn mit Hilfe des euklidischen Algorithmus kann man dann eine Zahl t berechnen; siehe Folgerung 3.22. Die Zahl ϕ(n) kennt man, wenn man die Primfaktorzerlegung von n kennt. Denn dann ist n = pq und ϕ(n) = (p − 1)(q − 1). Umgekehrt, wenn man n und ϕ(n) kennt, dann kennt man sogar die Primfaktorzerlegung von n, denn aus pq = n , (p − 1)(q − 1) = ϕ(n) , errechnet man q
p + q = n − ϕ(n) + 1
p − q = ± (n − ϕ(n) + 1)2 − 4n. Es ist also ganz einfach mit dem Auffinden des geheimen Schl¨ ussels Dt , wenn man n faktorisieren kann. Und hier liegt die St¨arke des RSA-Schemas: Es ist ein schwieriges Problem, eine große Zahl zu faktorisieren. Zum Faktorisierungsproblem ! Naheliegend ist, f¨ ur alle Zahlen m ∈ {2, . . . , n − 1} durchzuprobieren, ob sie ein Teiler von n ist oder nicht. Nat¨ urlich muß man nicht alle Zahlen durchprobieren. Man kann sich auf die Primzahlen beschr¨anken und man muß auch nur die Zahlen von 2 bis zu einem m mit m2 ≥ n testen. Denn ist n = pq , so ist p2 ≤ n oder q 2 ≤ n. Das ist ein sicheres Verfahren, aber ein sehr, sehr langwieriges. Zum Beispiel muß man, um eine 200–stellige Zahl zu testen, im schlimmsten Fall die Primzahlen zwischen 2 und 10100 durchprobieren. Nach dem Primzahlsatz, den wir sp¨ater noch kennenlernen werden, bedeutet dies, etwa 1098 Zahlen durchprobieren zu m¨ ussen. Beispiel 3.45 Im Jahre 1990 wurde eine der meistgesuchten Faktorisierungen gefunden: Die neunte 9 Fermatzahl F9 = 22 + 1 = 2512 + 1 wurde in Primfaktoren zerlegt: F9 = 2424833 · k mit einem k ∈ ZZ . Die L¨osung gelang, indem man das Problem in kleine Portionen aufteilte und h¨appchenweise l¨oste. 2 Es ist festzuhalten: Bisher hat niemand einen guten/schnellen Faktorisierungsalgorithmus gefunden und man hofft (im Interesse der Geheimhaltung), daß auch in Zukunft kein schneller Algorithmus gefunden wird. Wie soll man den Schl¨ ussel w¨ahlen? In der heutigen Rechnertechnologie ist es m¨oglich, 200 2 2 n ∼ 10 , p ∼ n , q ∼ n zu realisieren. Die Wahl von s darf nicht zu klein ausfallen, da sonst ein verschl¨ usselter Text identisch mit dem Text selbst sein kann, d.h. daß ms = m f¨ ur eine Nachricht m sein kann. Solche “Fixpunkte“ von Ks haben zu tun mit kleinen Primteilern von p − 1 bzw. q − 1 .
Baumeister: Mathematik I / Stand: Januar 1997
73
Bemerkung 3.46 Eine Anwendung des RSA–Schemas ist die elektronische Unterschrift. Ein Nachrichtengeber A beglaubigt seine ¨offentliche Mitteilung m an einen Empf¨anger B durch Hinzuf¨ ugen der kodierten Nachricht Ks (m) ; Ks ist ein nur A bekannter Schl¨ ussel. Ein Empf¨anger kann mit dem o¨ffentlichen Dekodierer Dt von A die Gleichung m = Dt (Ks (m)) u ufen. Ist sie erf¨ ullt, hat der Empf¨anger die Sicherheit, daß die Nachricht von A ¨berpr¨ stammt. 2
Kapitel 4 Reelle Zahlen Bisher haben wir uns nur im Zahlbereich IN oder ZZ aufgehalten. In diesem Kapitel stellen wir diejenigen Eigenschaften der reellen Zahlen zusammen, die im weiteren allein verwendet werden; wir werden die reellen Zahlen also nicht aus IN u 0 konstruieren. ¨ ber Q IR sei nun eine Menge. Diese Menge wird am Ende dieses Kapitels durch drei Axiomengruppen vollst¨andig charakterisiert sein.
4.1
Algebraische Eigenschaften K¨ orperaxiom
IR ist ein kommutativer K¨ orper, d.h.: Es gibt Abbildungen + : IR × IR 3 (x, y) 7−→ x + y ∈ IR , · : IR × IR 3 (x, y) 7−→ x · y ∈ IR , ein Nullelement 0 und ein Einselelement 1 mit 1 6= 0. Damit gilt f¨ ur alle x, y, z ∈ IR : (1) Assoziativit¨at der Addition: (x + y) + z = x + (y + z) (2) Neutralit¨at des Nullelements: x + 0 = x = 0 + x (3) Existenz des Negativen: Es gibt eine Zahl −x ∈ IR mit (−x) + x = 0 = x + (−x) (4) Kommutativit¨at der Addition: x + y = y + x (5) Assoziativit¨at der Multiplikation: (x · y) · z = x · (y · z) (6) Neutralit¨at des Einselements: 1 · x = x = x · 1 (7) Existenz des Inversen: Ist x 6= 0, so gibt es eine Zahl x−1 ∈ IR mit x−1 · x = 1 = x · x−1 (8) Kommutativit¨at der Multiplikation: x · y = y · x (9) Distributivgesetz: x · (y + z) = x · y + x · z, (y + z) · x = y · x + z · x
74
Baumeister: Mathematik I / Stand: Februar 1997
75
Hiermit haben wir die algebraischen Eigenschaften der reellen Zahlen festgelegt. Die Abbildung + steht daher f¨ ur die Addition, Die Abbildung · steht f¨ ur die Multiplikation. Die Eigenschaften, die wir als Grundrechenarten +, −, ·, : kennen, sind damit erkl¨art: die Subtraktion “−“ ergibt sich aus der Definition des Negativen, die Division ist mit “ −1“ eingef¨ uhrt. Subtraktion: F¨ ur x, y ∈ IR schreiben wir: x − y := x + (−y) Division: F¨ ur x ∈ IR, y ∈ IR, y 6= 0, schreiben wir: x : y :=
x := xy −1 y
Aus den obigen Axiomen lesen wir ab, daß mit der Regel Multiplikation hat Vorrag vor ” der Addition“ an vielen Stellen Klammern weggelassen werden d¨ urfen. Ferner ist es u ¨ blich, ¨ an Stellen, wo die Ubersichtlichkeit nicht leidet, auch den Punkt · f¨ ur die Multiplikation wegzulassen. Bemerkung 4.1 Eine Menge IK mit einem Nullelement 0 und einem Einzelelement 1 6= 0, auf der eine Addition und Multiplikation mit den obigen Eigenschaften (1) – (9) gegeben ist, heißt also ein K¨orper. In den K¨orpereigenschaften spiegelt sich der algebraische Aspekt der reellen Zahlen wieder. Die Menge IK := Q 0 der rationalen Zahlen, die wir zwar noch nicht genauer definiert haben, ist ein K¨orper, die ganzen Zahlen ZZ sind kein K¨orper, da die inversen Elemente bez¨ uglich der Multiplikation fehlen. Weitere Beispiele werden wir noch kennenlernen. Die Theorie der K¨orper beginnt im wesentlichen mit E. Galois (1811 – 1832) und N.H. Abel (1802 – 1829) mit der Erweiterung der K¨orper Q, 0 IR um L¨osungen algebraischer Gleichungen (K¨orpererweiterung), allerdings noch in einer Formulierung, der mengentheoretische Sprechweisen nicht zur Verf¨ ugung stehen. R. Dedekind (1831 – 1916) f¨ uhrte dann die Begriffe “K¨orper“, “Moduln“ 1811 ein, 1893 gab dann H. Weber (1842 – 1913) dem Wort “K¨orper“ den gleichen allgemeinen Sinn, den es heute hat. 2 Beispiel 4.2 Die Menge IF 2 := {n, e} ist ein K¨orper, wenn wir die Verkn¨ upfungen durch die folgenden Tafeln erkl¨aren: + n e
·
n
n e
n n n
e
e n
e
n e n e
Damit haben wir auch einen “kleinsten“ K¨orper angegeben. Klar, n steht f¨ ur 0, e steht f¨ ur 1. 2
Baumeister: Mathematik I / Stand: Februar 1997
76
Im K¨orperaxiom ist nicht festgelegt, daß 1 und 0 mit den Eigenschaften (2) bzw. (6) ¨ eindeutig bestimmt sind. Dies ist jedoch der Fall, wie folgende Uberlegung etwa zu 0 zeigt: Seien also 0, 00 ∈ IR Elemente mit ur alle x ∈ IR . x + 0 = x = 0 + x , x + 00 = x = 00 + x f¨ Daraus folgt sofort
0 = 0 + 00 = 00 .
Die Eindeutigkeit des Negativen und Inversen ist ebenfalls schon in den Axiomen einge¨ baut, wie etwa folgende Uberlegung zum Inversen zeigt: Seien zu x ∈ IR, x 6= 0, zwei Elemente y, z gegeben mit x· y = 1 = y · x ,x· z = 1 = z · x Dann folgt sofort: y = y · 1 = y · (x · z) = (y · x) · z = 1 · z = z. Hier sind nun einige elementare Folgerungen, die uns beim Rechnen mit reellen Zahlen helfen. Wir lernen daraus auch, wie man aus Axiomen kleine S¨atze entwickelt: Folgerung 4.3 Seien x, y, z ∈ IR . Wir haben: (1) x + y = x + z =⇒ y = z . (2) 0 · x = 0 = x · 0 . (3) x · y = 0 =⇒ x = 0 oder y = 0 . (4) (−1) · (−1) = 1 . (5) (−x) · y = −x · y = x · (−y) . (6) (−x) · (−y) = x · y . Beweis: Zu (1): x+y =x+z
=⇒ =⇒ =⇒ =⇒
(−x) + (x + y) = (−x) + (x + z) ((−x) + x) + y = ((−x) + x) + z 0+y = 0+z y=z
Zu (2): 0 · x + x · x = (0 + x) · x = x · x = 0 + x · x . Mit (1) folgt 0 · x = 0. Zu (3): Sei x · y = 0 und x 6= 0. Dann folgt mit (2) 0 = x−1 (xy) = (x−1 x)y = 1y = y. Zu (4): 0 = 1 + (−1). Mit (2) folgt: 0 = (−1)(1 + (−1)) = −1 + (−1)(−1), d.h. 1 = (−1)(−1).
Baumeister: Mathematik I / Stand: Februar 1997
77
Zu (5): xy + (−x)y = (x + (−x))y = 0y = 0. Also − xy = (−x)y. Zu (6): (−x)(−y) = (−1)x(−1)y = (−1)(−1)xy = 1xy = xy. In den reellen Zahlen sollten wir die nat¨ urlichen Zahlen wiederentdecken. Wir definieren einen Kandidaten daf¨ ur induktiv: M sei die Teilmenge von IR, f¨ ur die gilt: 1 ∈ M; x ∈ M =⇒ x + 1 ∈ M Betrachte dazu die Abbildung σ : M 3 x 7−→ x + 1 ∈ M Klar, M ist nun eine Menge, in der es ein Element 1 und eine injektive Abbildung (siehe (1) aus Folgerung 4.3) gibt mit: 1 ∈ M; x ∈ M =⇒ σ(x) ∈ M. Wir k¨onnen also M mit IN gleichsetzen. Damit ist auch ZZ gefunden. Die Anordnung in IN bzw. ZZ wollen wir hier noch nicht diskutieren. Rationale Zahlen kennen wir als (gek¨ urzte) Br¨ uche ganzer Zahlen, genauer als Objekte a mit a ∈ ZZ , b ∈ IN . b Also setzen wir nun
Q 0 0 := {(a, b)|a ∈ ZZ , b ∈ IN }. Klar, das Paar (n, 1) steht f¨ ur den unechten Bruch n 1 . Ein Problem entdecken wir sofort: 0 in Q 0 gibt es (4, 2), (2, 1), . . . . Dies sind zwar Br¨ uche“, aber als rationale Zahlen sollten wir sie gleichsetzen. Wir errei” ¨ chen dies durch eine Aquivalenzrelation: Wir setzen (a, b) ∼ (a0, b0) : ⇐⇒ ab0 = a0b und definieren Q 0 := {[(a, b)]|a ∈ ZZ , b ∈ IN }, ¨ wobei [(a, b)] eine Klasse bez¨ uglich der obigen Aquivalenzrelation ist. (Auf den Beweis, ¨ daß eine Aquivalenzrelation vorliegt, verzichten wir hier, er ist offensichtlich.) Nun ist Q 0 wieder als Teilmenge von IR auszumachen durch die Gleichsetzung mit dem Bild der injektiven Abbildung τ :Q 0 3 [(a, b)] −→ ab−1 ∈ IR . ¨ (Wohldefiniertheit und Injektivit¨at folgen einfach aus der Definition der Aquivalenzrelation); es ist also doch “erlaubt“, rationalen Zahlen als Br¨ uche a mit a ∈ ZZ , b ∈ IN b anzusehen.
Baumeister: Mathematik I / Stand: Februar 1997
78
Die in den Axiomen festgehaltenen Grundrechenarten“ gestatten es, Summen- und ” Produktzeichen auf den Zahlenbereich IR auszuweiten. F¨ ur reelle Zahlen a1, . . . , an ∈ IR ist erkl¨art: n X
aj := a1 ,
j=1 n Y
n X
aj :=
j=1
aj := a1 ,
j=1
n Y
n−1 X
aj + an .
j=1
aj := an ·
j=1
n−1 Y
aj
j=1
Ein Spezialfall davon ist die Potenzschreibweise: F¨ ur x ∈ IR : x0 := 1 , xn+1 := x · xn , n ∈ IN 0 . F¨ ur x ∈ IR , x 6= 0 : x−n := (x−1 )n , n ∈ IN .
Satz 4.4 Die Menge Q 0 der rationalen Zahlen ist abz¨ahlbar. Beweis: Wir schreiben die rationalen Zahlen, d.h. die Paare (a, b), a ∈ ZZ , b ∈ IN , in folgendem Schema auf: (1, 1) −→ . (1, 2) ↓ % (1, 3) . (1, 4) ↓ % (1, 5) .. .
(3, 1) −→ % . (2, 2) (3, 2) . % (2, 3) (3, 3) % . (2, 4) (3, 4) (2, 1)
(4, 1) · · · (4, 2) · · · (4, 3) · · · (4, 4) · · ·
···
Die Pfeile deuten an, in welcher Reihenfolge wir die Paare nun abz¨ahlen. Ein einmal abgez¨ahltes Paar wird nicht mehr ber¨ ucksichtigt. Die Fortschreibung des Binominalsatzes auf den Zahlbereich IR ist Satz 4.5 Seien x, y ∈ IR, n ∈ IN . Dann gilt: n
(x + y) =
n X j=0
!
n j n−j xy j
Beweis: Der Beweis von Satz 2.20 kann sofort u ¨bernommen werden.
Baumeister: Mathematik I / Stand: Februar 1997
4.2
79
Anordnungsaxiom Anordnungsaxiom
In IR gibt es eine Menge P (P ⊂ IR), so daß gilt: (1) F¨ ur jedes x ∈ IR gilt genau eine der folgenden Aussagen: x ∈ P , x = 0 , −x ∈ P . (1) Ist x ∈ P und y ∈ P, so folgt x + y ∈ P . (2) Ist x ∈ P und y ∈ P, so folgt x · y ∈ P .
(Monotonie der Addition) (Monotonie der Multiplikation)
Definition 4.6 Wir setzen f¨ur x, y ∈ IR . x>0 x>y x≥y x
: ⇐⇒ : ⇐⇒ : ⇐⇒ : ⇐⇒ : ⇐⇒
x∈P; x − y > 0; x > y oder x = y ; y > x; y ≥ x.
Die Elemente von P (x > 0) werden positiv genannt, die Elemente x mit −x ∈ P (x < 0) heißen negativ. 2 Folgerung 4.7 Seien x, y, z ∈ IR . Dann gilt: (1) Es gilt genau eine der folgenden Aussagen: x>0, x=0, x<0. (2) x < y =⇒ x + z < y + z (3) x < y, 0 < z =⇒ xz < yz Beweis: Die Aussagen sind einfache Konsequenzen aus der Definition von > . Bemerkung 4.8
Baumeister: Mathematik I / Stand: Februar 1997
80
Im Anordnungsaxiom haben wir eine Ordnungsstruktur, die durch P bzw. “>“ definiert ist, eingef¨ uhrt. Diese wird erl¨autert durch die Tatsache, daß durch ≤ eine Ordnung auf IR definiert wird. Dies l¨aßt sich sehr einfach verifizieren. 2 Folgerung 4.9 Seien v, w, x, y, z ∈ IR . Wir haben: (1) x ≤ y, v < w =⇒ x + v < y + w . (2) x ≤ y =⇒ −x ≥ −y . (3) x ≤ y, z ≤ 0 =⇒ yz ≤ xz . (4) x2 ≥ 0 ; x2 > 0, falls x 6= 0 . (5) 1 > 0 . (6) x > 0 =⇒ x−1 > 0 . (7) 0 < x ≤ y =⇒ x−1 ≥ y −1 . Beweis: Zu (1): Mit Folgerung 4.7 (1) folgt x + v < x + w und mit der Definition von ≤ folgt x + v < x + w ≤ y + w. Zu (2): (−x − (−y)) = (y − x) ≥ 0 . Zu (3): Aus (2) folgt 0 ≤ −z und damit −xz ≤ −yz, also yz ≤ xz. Zu (4): Ist x ≥ 0, so folgt x2 ≥ 0 aus der Monotonie der Multiplikation. Ist x ≤ 0, so folgt x2 ≥ 0 aus (3). Zu (5).: Aus 1 = 1 · 1 folgt mit (4) 1 > 0 . zu (6): Aus x−1 < 0, so folgt 1 · 1 = 1 = xx−1 < 0 im Widerspruch zu (4). Zu (7): Aus der Monotonie bzgl. der Multiplikation folgt xy > 0 und damit (xy)−1 > 0 wegen (5). Daraus folgt x−1 = (xy)−1y ≥ (xy)−1x = y −1 .
Beispiel 4.10 Die Menge IF 2 := {n, e} ist nach Beispiel 4.2 ein K¨orper. Dieser K¨orper l¨aßt sich nicht anordnen, d.h. es gibt keine Menge P in IF 2, so daß die drei Bedingungen der Definition mit IF 2 statt IR erf¨ ullt sind. 2 Manchmal veranschaulichen wir uns die reellen Zahlen als Punkte einer Zahlengeraden mit Ursprung 0. Darin kommt der geometrische Aspekt der reellen Zahlen zum Ausdruck.
Baumeister: Mathematik I / Stand: Februar 1997
81
Diese Vorstellung wird erst vollst¨andig, wenn wir im n¨achsten Abschnitt die Reichhaltigkeit der reellen Zahlen (axiomatisch) eingef¨ uhrt haben. Zur Vorstellung der reellen Zahlen als Punkte der Zahlengeraden paßt die Begriffsbildung Intervall“ . Zu a, b ∈ IR setzen ” wir [a, b] [a, b) (a, b] (a, b)
:= := := :=
{x ∈ IR |a ≤ x ≤ b} {x ∈ IR |a ≤ x ≤ b} {x ∈ IR |a < x ≤ b} {x ∈ IR |a < x < b}
(Abgeschlossenes Intervall) (Halboffenes Intervall) (Halboffenes Intervall) (Offenes Intervall mit Randpunkten a, b)
Diese Intervalle liefern uns eine lokale Betrachtungsweise der reellen Zahlengeraden. Wir sagen, daß x ∈ IR in einer Umgebung von y ∈ IR liegt, wenn es > 0 gibt mit x ∈ (y − , y + ) . Dabei haben wir nat¨ urlich“ kleine im Auge. Aber gibt es eigentlich kleine“ Zahlen, ” ” d.h. solche Zahlen, die nahe“ bei 0 liegen? Dazu ben¨otigen wir das Vollst¨andigkeits” axiom, das im n¨achsten Abschnitt bereitgestellt wird. Dabei wird auch klar werden, daß in IR die Gleichung x2 = z l¨osbar ist, w¨ahrend sie in Q 0 nicht l¨osbar ist. Die letzte Aussage folgt aus dem fr¨ uheren Beweis, da wir in ZZ als Teilmenge von IR die Aussage der elementaren Zahlentheorie zur Verf¨ ugung haben. Definition 4.11 Man nennt
−1 0 1
sign(x) :=
, falls x < 0 , falls x = 0 , falls x < 0
das Vorzeichen von x und (
|x| :=
x −x
den Betrag von x. Offenbar gilt |x| = sign(x) · x . Lemma 4.12 Seien x, y ∈ IR . Dann sind ¨aquivalent: (a) |x| ≤ |y| . (b) x ≤ |y| und −x ≤ |y| . Beweis: (a) =⇒ (b)
, falls x ≥ 0 , falls x < 0
2
Baumeister: Mathematik I / Stand: Februar 1997
82
Ist x ≥ 0, dann ist −x ≤ x = |x| ≤ |y| . Ist x < 0, dann ist x < −x = |x| ≤ |y| . (b) =⇒ (a) Klar. Lemma 4.13 Seien x, y ∈ IR . Es gilt: 1. |x| = 0 ⇐⇒ x = 0 .
(Definitheit)
2. |xy| = |x||y| .
(Homogenit¨at)
3. |x + y| ≤ |x| + |y| .
(Dreiecksungleichung)
Beweis: 1. und 2. sind einfach nachzurechnen. Zu 3. Wegen x ≤ |x|, y ≤ |y| folgt x + y ≤ |x| + |y|. Wegen −x ≤ |x|, −y ≤ |y| folgt −(x + y) ≤ |x| + |y|. Daraus folgt |x + y| ≤ |x| + |y| mit Lemma 4.12 . Die Eigenschaften 1.,2.,3. aus Lemma 4.13 belegen, daß es sich bei der Betragsfunktion IR 3 x 7−→ |x| ∈ IR um eine Abstandsfunktion handelt: |x| stellt den Abstand von x zum Ursprung 0 der Zahlengeraden dar. Die Dreiecksungleichung k¨onnen wir auch so einsehen: Liegt der Ursprung 0 zwischen x und y, so gilt |x−y| = |x−0|+|y −0|, anderenfalls |x−y| < |x−0|+|y −0|, also insgesamt |x − y| ≤ |x| + |y| ; Anwendung auf −y ergibt die Dreiecksungleichung, da | − y| = |y| ist. Folgerung 4.14 Seien x, y ∈ IR . Es gilt:
| |x| − |y| | ≤ |x − y| .
Beweis: Wir haben mit Lemma 4.13 |x| = |(x − y) + y| ≤ |x − y| + |y|, also |x| − |y| ≤ |x − y| , |y| = |(y − x) + x| ≤ |y − x| + |x|, also |y| − |x| ≤ |x − y| . Daraus liest man die Aussage mit Lemma 4.12 ab. Eine n¨ utzliche Ungleichung – sie wird Bernoullische Ungleichung genannt – ist enthalten in
Baumeister: Mathematik I / Stand: Februar 1997
83
Satz 4.15 Sei n ∈ IN , n ≥ 2. Sei x ∈ IR, x > −1, x 6= 0. Dann gilt: (1 + x)n > 1 + nx .
(4.1)
Beweis: Wir f¨ uhren den Beweis induktiv: n = 2 : (1 + x)2 = 1 + 2x + x2 > 1 + 2x , da x2 > 0 gilt. n + 1 : (1 + x)n+1 = (1 + x)n (1 + x) > (1 + nx)(1 + x) = 1 + nx + x + nx2 > 1 + (n + 1)x . Man sieht schnell, daß auch die Ungleichung (1 + x)n ≥ 1 + nx f¨ ur alle n ∈ IN und alle x ≥ −1
(4.2)
gilt.
4.3
Axiom der Vollst¨ andigkeit
Die rationalen Zahlen sind ebenfalls ein K¨orper mit einer Ordnung ≤, n¨amlich der, die durch IR induziert wird. Q 0 hat, betrachtet als rationale Zahlengerade, noch L¨ocher“ . ” Diese wollen wir nun (axiomatisch) in IR schließen. Definition 4.16 Eine Teilmenge A von IR heißt nach oben beschr¨ ankt, wenn ∃x ∈ IR ∀a ∈ A (a ≤ x) gilt. Jedes x ∈ IR, das die obige Eigenschaft hat, heißt eine obere Schranke von A.
2
Sei A ⊂ IR nach oben beschr¨ankt, A 6= ∅. Dann ist also S(A) := {x ∈ IR |a ≤ x f¨ ur alle a ∈ A} nichtleer. Die L¨ uckenlosigkeit“ der reellen Zahlen h¨angt nun damit zusammen, ob es ” in der Menge S(A) der oberen Schranken von A eine (bezgl. ≤) kleinste obere Schranke gibt.
Vollst¨ andigkeitsaxiom IR ist vollst¨ andig, d.h. jede nichtleere, nach oben beschr¨ankte Menge A reeller Zahlen besitzt eine kleinste obere Schranke x .
Baumeister: Mathematik I / Stand: Februar 1997
84
Definition 4.17 Sei A eine nichtleere, nach oben beschr¨ankte Menge. Wir schreiben x = sup a = sup{a|a ∈ A} oder kurz x = sup A a∈A
f¨ur die kleinste obere Schranke und nennen x auch das Supremum von A . Ist x = sup A ein Element von A, so schreiben wir x = max a = max{a|a ∈ A} = max A a∈A
und nennen x das Maximum von A .
2
Bemerkung 4.18 Das K¨orperaxiom, das Anordnungsaxiom und das Vollst¨andigkeitsaxiom bestimmen den K¨orper der reellen Zahlen schon vollst¨andig. Dies soll heißen, daß die Menge IR bis auf eine bijektive Abbildung, die die algebraischen Eigenschaften und die Anordnung respektiert, eindeutig bestimmt ist. Wir werden bei den Resultaten der Algebra genauer darauf 2 eingehen. Wir haben folgende Charakterisierung einer kleinsten oberen Schranke: Lemma 4.19 Sei A ⊂ IR, A 6= ∅, A nach oben beschr¨ankt. Es ist ¨aquivalent f¨ur eine obere Schranke x ∈ IR : (a) x = sup A (b) ∀ > 0 ∃a ∈ A (x − ≤ a) Beweis: (a) =⇒ (b). Sei > 0. Annahme: a < x − f¨ ur alle a ∈ A. Dann ist aber offensichtlich x − obere Schranke, was ein Widerspruch zur Tatsache ist, daß x die kleinste obere Schranke ist. (b) =⇒ (a). Annahme: y < x ist obere Schranke. Setze := 12 (x−y). Dann gibt es a ∈ A mit x− ≤ a. Daraus folgt 1 1 a ≥ x − = x − (x − y) = (x + y) > y, 2 2 was ein Widerspruch zur Tatsache ist, daß y obere Schranke ist. Aus der obigen Charakterisierung folgt sofort, daß Supremum und Maximum einer Menge A stets eindeutig bestimmt sind. Hat man eine Menge A reeller Zahlen, dann ist A nach oben beschr¨ankt genau dann, wenn −A := {−a|a ∈ A} nach unten beschr¨ankt ist.
Baumeister: Mathematik I / Stand: Februar 1997
85
Definition 4.20 Sei A eine nichtleere Teilmenge von IR . Ist A nach unten beschr¨ankt, dann schreiben wir x = inf a = inf{a|a ∈ A} oder kurz x = inf A a∈A
und nennen x gr¨ oßte untere Schranke oder Infimum von A . Ist x = inf A ein Element von A, so schreiben wir x = inf a = inf{a|a ∈ A} = min A a∈A
und nennen x das Minimum von A .
2
Definition 4.21 Eine Menge A ⊂ IR, A 6= ∅, heißt beschr¨ ankt, falls A nach unten und nach oben beschr¨ankt ist, d.h. falls ∃x ∈ IR ∀a ∈ A (|a| ≤ x) gilt.
2
Beispiel 4.22 Die Menge der nat¨ urlichen Zahlen ist nach unten, aber nicht nach oben beschr¨ankt, denn: Klar, 1 ist eine untere Schranke. Annahme: x ∈ IR ist obere Schranke von IN . Dann gibt es eine kleinste obere Schranke und wir k¨onnen o.E. annehmen: x − 12 ist keine obere Schranke. Also gibt es n ∈ IN mit x − 12 ≤ n. Dann ist aber n + 1 > x, was ein Widerspruch zur Tatsache ist, daß x obere Schranke ist. 2 Satz 4.23 ∀x > 0 ∀y ∈ IR ∃n ∈ IN (nx > y) Beweis: Annahme: nx ≤ y f¨ ur alle n ∈ IN . Daraus folgt n ≤ yx−1 f¨ ur alle n ∈ IN , was ein Widerspruch zu Satz 4.22 ist. Die Eigenschaft des obigen Satzes wird als Archimedische Eigenschaft der reellen Zahlen bezeichnet. Folgerung 4.24 Seien > 0, y > 0. Dann gilt: 1 ≤ ) (1) ∃n ∈ IN ( n (2) Falls y > 1 ist, gibt es n ∈ IN mit y n ≥ . (3) Falls y < 1 ist, gibt es n ∈ IN mit y n ≤ . Beweis:
Baumeister: Mathematik I / Stand: Februar 1997
86
Zu (1). Da 1 keine obere Schranke f¨ ur IN sein kann (siehe Satz 4.22), gibt es n ∈ IN mit n > 1 ; 1 ≤ . also n Zu (2). Es ist y = 1 + h mit h > 0. Dann ist n
n
y = (1 + h) =
n X j=0
!
n j h ≥ 1 + nh ≥ x j
1 f¨ ur alle n ∈ IN mit n ≥ x − h . Zu (3). Es ist 1y > 1. Also gibt es nach (2) n ∈ IN mit ( y1 )n ≥ 1 , d.h. y n ≤ . Nun f¨ uhren wir den Beweis, daß die L¨ ucke“, die durch die Tatsache, daß die Gleichung ” x2 = 2 in Q 0 keine L¨osung besitzt, aufgezeigt wird, in IR geschlossen ist. Folgerung 4.25 Es gibt x ∈ IR mit x2 = 2. Beweis: Betrachte A := {x ∈ IR |x > 0, x2 < 2}. A ist nichtleer, da 1 ∈ A. 2 ist eine obere Schranke von A, denn: Sei x ∈ IR, x > 2. Dann ist mit x = 2 + h, h > 0 : x2 = (2 + h)2 = 4 + 4h + h2 > 4; also x ∈ / A. Da IR vollst¨andig ist, gibt es x ∈ IR mit x = sup A. Wir behaupten: x2 = 2. Annahme: x2 < 2. Dann ist (x + h)2 < 2 f¨ ur ein geeignet gew¨ahltes h > 0, denn (x + h)2 = x2 + 2hx + h2 > 2 x + 2hx . Also haben wir einen Widerspruch zur Tatsache, daß x die kleinste obere Schranke von A ist, denn x + h > x und x + h ∈ A. Annahme: x2 > 2. Dann ist (x − h)2 > 2 f¨ ur ein geeignetes h > 0 (siehe oben), und daher (x − h)2 > 2 und x − h < x . Dies zeigt, daß x nicht kleinste obere Schranke sein kann. Folgerung 4.26 F¨ur alle b > 0 gibt es genau ein x > 0 mit x2 = b. Beweis: Die Existenz beweist man wie im Beweis zu Folgerung 4.25, die Eindeutigkeit folgt so: Aus x2 = b2 , y 2 = b folgt (x − y)(x + y) = 0. Mit der Nullteilerfreiheit folgt x = y oder x = −y. Daraus liest man die Eindeutigkeit der L¨osung von x2 = b f¨ ur positive x ab. Wir f¨ uhren die Quadratwurzel ein: F¨ ur b > 0 setzen wir √ b := x mit x > 0, x2 = b.
Baumeister: Mathematik I / Stand: Februar 1997
4.4
87
Konvergenz von Folgen
Wir wollen nun Folgen reeller Zahlen studieren. Dabei soll eine Folge die Kurzschreibweise f¨ ur die Tatsache sein, daß zu jeder nat¨ urlichen Zahl n ∈ IN genau eine reelle Zahl gegeben ist. Also k¨onnen wir eine Folge reeller Zahlen auch als eine Abbildung f : IN 3 n 7−→ f(n) ∈ IR auffassen, wobei wir statt f(n) die Schreibweise xn := f(n) vorziehen. Damit haben Folgen reeller Zahlen folgendes Aussehen: (xn)n∈IN . Beachte, daß wir damit auch wissen, wann zwei Folgen (xn )n∈IN , (yn)n∈IN gleich sind: Sie sind gleich, wenn die dahinter sich verbergenden Abbildungen gleich sind: xn = yn f¨ ur alle n ∈ IN .
Beispiel 4.27 urlichen Zahlen 1. Die Folge (n)n∈IN stellt eine etwas ungew¨ohnliche Aufz¨ahlung der nat¨ dar. 1) 2. Die Folge ( n uche dar. n∈IN stellte die Folge der Stammbr¨ 3. In Beispiel 3.21 haben wir die Fibonacci–Zahlen eingef¨ uhrt: f0 := f1 := 1 fn+1 := fn + fn−1 , n ∈ IN . Die Folge (fn )n∈IN nennt man Folge der Fibonacci-Zahlen. 4. Wir betrachten das Verzinsungsproblem. Sei x das Grundkapital und sei xn das Kapital nach Verzinsung mit dem Zinssatz q am Beginn des Jahres n. Also: x0 := x , xn+1 := qxn + xn , n ∈ IN 0 . Wir erhalten also induktiv die Folge ((1 + q)n x)n∈IN . Wann hat sich das Kapital verdoppelt? Dazu haben wir die Gleichung xn = 2x nach n aufzul¨osen“. Dies bedeutet ” (1 + q)n x = 2x , d.h. (1 + q)n = 2. Dies f¨ uhrt uns auf die n–te Wurzel, die nun noch gar nicht zur Verf¨ ugung steht, aber n¨aherungsweise kommen wir auch ohne sie aus. Es ist !
n 2 (1 + q) = 1 + nq + q + · · · + qn 2 n
Baumeister: Mathematik I / Stand: Februar 1997
88
und wir l¨osen ersatzweise (Verzicht auf Zinseszins) die Gleichung 1 + nq = 2. ur kleine Zinss¨atze q gar nicht schlecht. Man nennt Also n = q1 . Diese L¨osung ist f¨ n die Folge ((1 + q) x)n∈IN oder allgemeiner (pnx)n∈IN (p ∈ IR) eine geometrische Folge.
2 Folgerung 4.28 Betrachte die Folge (q n x)n∈IN mit x 6= 0, q ∈ IR . Es gilt: (a) Ist |q| > 1, dann ist {q n x|n ∈ IN } unbeschr¨ankt. (b) Ist |q| < 1, dann gibt es zu jedem > 0 ein N ∈ IN mit |q nx| < f¨ur alle n ∈ IN , n ≥ N. Beweis: Zu (a). Da |q| > 1 gilt, gibt es h > 0 mit |q| = 1 + h. Es folgt f¨ ur n ∈ IN : |q n x| = |x||q|n = |x|(1 + h)n ≥ |x|(1 + nh) > |x|nh. Da die Folge der nat¨ urlichen Zahlen unbeschr¨ankt ist (siehe Beispiel 4.22), ist die Aussage bewiesen. Zu (b). ur n ∈ IN Es ist 1 > 1, also 1 = 1 + h mit h > 0. Es folgt f¨ |q| |q| 1 1 1 = (1 + h)n ≥ (1 + nh), |q x| |x| |x| n
d.h. |q nx| ≤
1 1 |x| |x| ≤ . 1 + nh n h
1 < h (siehe Folgerung 4.23). Damit verifiziert man die Aussage W¨ahle N ∈ IN mit N |x| (b) wegen 1 1 1 > > > ··· n n+1 n+2 Die obigen Beobachtungen k¨ undigen die Begriffe Konvergenz von Folgen“ und Grenz” ” werte von Folgen“ an. Sie sind die erfolgreiche Ausformulierung des Unendlichen (unendlich klein, unendlich groß) als mathematischer Begriff. Das Unendliche hat seinen Ursprung bei den Griechen, die Beherrschung hat wohl das Fehlen einer klaren Formelsprache und die Fixiertheit auf die Geometrie verhindert. Die Erfindung der Infinitesimalrechnung
Baumeister: Mathematik I / Stand: Februar 1997
89
mußte noch 2000 Jahre warten. Die Furcht vor dem Unendlichen zeigt sich in den ber¨ uhmten Paradoxien des Zenon, eines Philosophen im 4. Jahrhundert v. Chr. aus Elea. Seine Paradoxien handeln von Bewegung und Kontinuit¨at. Es geht ihm darum, zu beweisen“, daß Bewegung unm¨oglich ist. Eine ” seiner Paradoxien ist folgende: Ein L¨aufer, der eine bestimmte Strecke zwischen zwei Punkten zur¨ ucklegen will, muß zuerst die H¨alfte der Entfernung u ¨ berwinden, dann die H¨alfte des verbleibenden Weges, davon wieder die H¨alfte und immer so weiter. Dies erfordert laut Zenon eine unendliche Anzahl von Schritten, und so w¨ urde der L¨aufer nie an sein Ziel gelangen. Nat¨ urlich wußte auch Zenon sehr gut, daß der L¨aufer seinen Bestimmungsort nach einer endlichen Zeitspanne erreicht, doch l¨oste er das Paradoxon nicht auf. Die Aufl¨osung geschieht durch folgende Beobachtung: Indem der L¨aufer erst die H¨alfte der Gesamtstrecke zur¨ ucklegt, dann die H¨alfte der verbleibenden H¨alfte usw., bew¨altigt er eine Entfernung, die der Summe 1 1 + + ··· 2 4 entspricht. Diese unendliche Summe“ – wir sprechen sp¨ater von Reihen – hat die Ei” genschaft, daß sie nie den Wert 1 erreicht und u ¨ berschreitet, aber beliebig“ nahe an 1 ” herankommt. Nehmen wir nun an, daß der L¨aufer eine konstante Geschwingkeit beibeh¨alt. Die Zeitintervalle, die er ben¨otigt, um die entsprechende Entfernung zur¨ uckzulegen, folgen dann ebenfalls dem Gesetz 1 1 + + ··· 2 4 und so erreicht er sein Ziel in einer endlichen Zeitspanne; das Problem ist gel¨ost. Die Griechen hatten nicht einsehen wollen, daß eine unendliche Summe einen endlichen Wert erzeugen kann, bzw. daß sie gegen einen Grenzwert konvergieren kann. Definition 4.29 Eine Folge (xn)n∈IN (reeller Zahlen) heißt konvergent, wenn ∃x ∈ IN ∀ > 0 ∃N ∈ IN ∀n ≥ N (|xn − x| < ) gilt. Die Zahl x heißt Grenzwert von (xn )n∈IN und wir schreiben x = lim xn . n In der Definition 4.29 ist offen geblieben, ob ein Grenzwert x einer Folge (xn)n∈IN eindeutig bestimmt ist. Dies best¨atigen wir nun : Sei x = lim xn = x0. Sei etwa x0 > x. Setze := 12 (x0 − x). Dann gibt es N ∈ IN und n N 0 ∈ IN mit |xn − x| < , n ≥ N , |xn − x0| < , n ∈ N 0 . Sei N ∗ := max(N, N 0). Sei n ≥ N ∗ . Dann gilt |xn − x| < , |xn − x0| < , was im Widerspruch zu < x0 − x ist.
Baumeister: Mathematik I / Stand: Februar 1997
90
Beispiel 4.30 1) Die Konvergenz der Folge der Stammbr¨ uche ( n n∈IN ist unmittelbar mit der Archimedischen Anordnung verkn¨ upft. Wir behaupten 0 = lim n
1 . n
Sei > 0. W¨ahle N ∈ IN mit N < 1 . Dann gilt f¨ ur n ≥ N : |
1 1 1 − 0| = ≤ < . n n N
Die Folge (q n)n∈IN konvergiert f¨ ur |q| < 1 gegen Null; dazu haben wir nur Folgerung 4.28 2 anzuwenden. Beispiel 4.31 Das wohl wichtigste Beispiel einer konvergenten Folge neben der Folge der Stammbr¨ uche ist die geometrische Reihe, d.h. die Folge (xn)n∈IN mit xn :=
n X
q j , n ∈ IN ,
j=0
mit |q| < 1. Es gilt offenbar
1 − q n+1 , n ∈ IN . 1−q (Belege dies mit vollst¨andiger Induktion.) Daraus schließt man xn =
1 xn , = lim n 1−q denn
1 − q n+1 1 1 n+1 − = q , n ∈ IN . 1−q 1−q 1−q Siehe nun Folgerung 4.28. Folgerung 4.32 Ist die Folge (xn )n∈IN konvergent, so ist die Menge {xn|n ∈ IN } beschr¨ankt. Beweis: Sei x = lim xn . Sei := 1. Dazu gibt es n ∈ IN mit |xn − x| < 1 f¨ ur alle n ∈ IN , d.h. n |xn| ≤ 1 + |x| , n ≥ N. Sei a ≥ 0 mit |xj | ≤ a , 1 ≤ j ≤ N. Dann gilt |xn| ≤ a + 1 + |x| , n ∈ IN .
2
Baumeister: Mathematik I / Stand: Februar 1997
91
Beispiel 4.33 Wir betrachten die harmonische Reihe, d.h. die Folge, die beim Aufsummieren der Folge der Stammbr¨ uche entsteht: n X 1 (hn )n∈IN mit hn := , n ∈ IN . j=1 j Diese Folge ist nicht konvergent, da sie nicht beschr¨ankt ist, wie folgende zeigt: 1 1 1 1 1 1 1 1 h2n = 1 + + ( + ) + ( + + + ) + · · · + ( n−1 + ··· + 2 3 4 5 6 7 8 2 +1 1 1 1 1 1 1 1 ≥ 1 + + ( + ) + ( + ··· + ) + ··· + ( n + ··· + n) 2 4 4 8 8 2 2 1 n 1 1 1 = 1 + + + + ··· + = 1 + . 2 2 2 2 2
¨ Uberlegung 1 ) 2n
2
Die obige harmonische Reihe kommt bei folgener Aufgabenstellung ins Spiel: ¨ Lege gleichartige Ziegel so aufeinander, daß ein m¨oglichst großer Uberhang erreicht wird. Jeder Stein habe die L¨ange 2. Seien n Steine aufeinandergelegt, der n − te Stein bildet den Fuß des Bauwerks, der 1. Stein liege oben. Dann muß f¨ ur jedes j = 1, . . . , n − 1 der Schwerpunkt der obersten j Steine oberhalb des (j + 1)–ten Steins liegen, d.h. es muß j 1X xk , 1 ≤ j ≤ n − 1, xj+1 − 1 ≤ j k=1
gelten. Man sieht, daß f¨ ur die Wahl xj :=
j X l=1
1 l
¨ die oben angesprochene Schwerpunktsbedingung erf¨ ullt ist. Also ist der maximale Uberbau bei n X 1 xn = l=1 l erreichbar. Nun haben wir aber eben festgestellt, daß die so definierte Folge (xn )n∈IN ¨ unbeschr¨ankt ist. Es ist also ein beliebig großer Uberbau m¨oglich. Definition 4.34 Sei (xn )n∈IN eine Folge. (a) (xn )n∈IN heißt monoton wachsend bzw. monoton fallend, falls gilt: xn ≤ xn+1 , n ∈ IN bzw. xn ≥ xn+1 , n ∈ IN . (b) (xn )n∈IN heißt monoton, falls (xn)n∈IN monoton wachsend oder monoton fallend ist.
2
Baumeister: Mathematik I / Stand: Februar 1997
92
Satz 4.35 Jede beschr¨ankte monotone Folge ist konvergent. Beweis: Sei (xn)n∈IN eine monotone beschr¨ankte Folge. Also xn ≤ xn+1 ≤ b, n ∈ IN , mit b ∈ IR . Sei x := sup{xn |n ∈ IN }. Wir zeigen x = lim xn . n Sei > 0. W¨ahle N ∈ IN mit x − ≤ xN . Dann gilt f¨ ur n ≥ N x − ≤ xN ≤ xn ≤ x ≤ x + , also |xn − x| < .
Haben wir eine Folge reeller Zahlen, so kann es sein, daß zwar die ganze Folge nicht konvergiert, daß aber eine Teilfolge davon konvergiert. Dabei ist Teilfolge“ so definiert: ” Definition 4.36 (xnk )k∈IN heißt Teilfolge der Folge (xn)n∈IN , wenn die Folge (nk )k∈IN eine streng monoton wachsende Folge ist, d.h. , wenn gilt: nk < nk+1 , k ∈ IN . Ein Beispiel f¨ ur diese Beobachtung ist 1, −1, 1, −1, 1, . . . Sie hat mindestens zwei konvergente Teilfolgen 1, 1, 1, . . . −1, −1, −1, . . . Beachte, daß das Wort mindestens“ seine Bedeutung hat. Etwa w¨are auch ” 1, −1, 1, −1, −1, −1, −1, . . . eine konvergente Teilfolge (Man darf eine Folge immer an endlich vielen Stellen ab¨andern, ohne die Konvergenzeigenschaft zu beeintr¨achtigen.) Definition 4.37 Eine Folge (xn)n∈IN heißt Cauchyfolge genau dann, wenn ∀ > 0 ∃N ∈ IN ∀m, n ≥ N (|xm − xn| < ) gilt.
2
Baumeister: Mathematik I / Stand: Februar 1997
93
Folgerung 4.38 Sei (xn )n∈IN eine Folge. Es gilt: (a) Ist (xn )n∈IN eine Cauchyfolge, dann ist (xn)n∈IN beschr¨ankt. (b) Ist (xn )n∈IN eine konvergente Folge, dann ist (xn )n∈IN eine Cauchyfolge. Beweis: Zu (a). Sei > 0 . W¨ahle dazu N ∈ IN mit |xm − xn| < , m, n ∈ IN . Sei b ∈ IR mit |xm| ≤ b , 1 ≤ m ≤ N . Dann gilt f¨ ur n ≥ N |xn | ≤ |xn − xN | + |xN | ≤ + b und f¨ ur 1 ≤ n ≤ N
|xn| ≤ b ≤ + b .
Zu (b). Sei x := lim xn . Sei > 0 . W¨ahle N ∈ IN mit n |xn − x| <
,n≥N. 2
F¨ ur m, n ≥ N gilt dann |xm − xn | ≤ |xm − x| + |x + xn | <
+ = . 2 2
Satz 4.39 Sei (xn )n∈IN eine Folge. Dann sind ¨aquivalent: (a) (xn )n∈IN ist konvergent. (b) (xn )n∈IN ist eine Cauchyfolge. Beweis: (a) =⇒ (b). Siehe Folgerung 4.38. (a) =⇒ (b). Sei A := {m ∈ IN |xn < xm f¨ ur n > m} . Ist #A = ∞ und A = {mk |k ∈ IN }, so ist (xmk )k∈IN eine monoton fallende Teilfolge. Ist #A < ∞, so gibt es eine monoton wachsende Teilfolge. Da die gesamte Folge (xn)n∈IN beschr¨ankt ist (siehe Folgerung 4.38), besitzt nun (xn)n∈IN eine konvergente Teilfolge (xnk )k∈IN nach Satz 4.35; sei x := lim xnk . Wir zeigen, k daß die gesamte Folge gegen x konvergiert. Sei > 0 . W¨ahle N ∈ IN mit |xm − xn| <
f¨ ur alle m, n ≥ N 2
Baumeister: Mathematik I / Stand: Februar 1997 und |xn − x| <
94
. 2
Dann gilt f¨ ur n ≥ N |xn − x| ≤ |xn − xN | + |xN − x| <
+ = . 2 2
Bemerkung 4.40 Der Satz 4.39 zeigt nun, daß die Konvergenz einer Folge nachgewiesen werden kann, ohne den Grenzwert zu kennen. Man kann zeigen, daß das Vollst¨andigkeitsaxiom a¨quivalent zur Aussage “Jede Cauchyfolge konvergiert“ ist. Die eine Implikation davon ist Satz 4.39. 2 Folgerung 4.41 Sei (xn )n∈IN eine beschr¨ankte Folge. Dann besitzt diese Folge eine konvergente Teilfolge. Beweis: Dies ist aus dem ersten Teil des Beweises (b) =⇒ (a) zu Satz 4.39 abzulesen. Satz 4.42 Sei (xn )n∈IN eine konvergente Folge, sei x := lim xn . n (a) Jede Teilfolge (xnk )n∈IN ist konvergent und es gilt x = lim xnk . k
(b) Die Folge (|xn |)n∈IN ist konvergent und es gilt |x| = lim |xn|. n √ (c) Ist xn ≥ 0 f¨ur alle√n ∈ IN , dann ist auch die Folge ( xn)n∈IN konvergent und √ es gilt x ≥ 0 und x = lim xn . n Beweis: (a) ergibt sich unmittelbar aus der Definition. Zu (b). Betrachte die Ungleichung | |xn| − |x| | ≤ |x − xn |. Zu (c). √ √ Die Eigenschaft x ≥ 0 folgt schon aus (b). Die Identit¨at x = lim xn folgt f¨ ur x > 0 n aus folgender Beobachtung √ √ |xn − x| √ ; | xn − x| = √ | xn | · | x| der Beweis f¨ ur den Fall x = 0 ist direkt aus der Konvergenzdefinition abzuleiten. Seien (xn )n∈IN , (yn)n∈IN konvergente Folgen. Wir haben folgende Rechenregeln:
Baumeister: Mathematik I / Stand: Februar 1997
95
(R1) (xn + yn )n∈IN ist konvergent und lim (xn + yn) = lim xn + lim yn . n n n (R2) (xnyn )n∈IN ist konvergent und lim xn yn = lim xn · lim yn . n n n n (R3) Ist yn 6= 0 f¨ ur alle n ∈ IN und y := lim yn 6= 0, so ist ( x yn )n∈IN konvergent und n xn xn = lim n lim n yn lim yn . n
Wir beweisen etwa die Regel (R3) : Sei > 0 . Sei N1 ∈ IN mit |yn − y| ≤ 12 |y| f¨ ur alle n ≥ N1 . Dann ist offenbar |yn| ≥ 12 |y| > 0 f¨ ur alle n ≥ N1 . |y|2 f¨ ur alle n ≥ N2 . Sei N2 ∈ IN , N2 ≥ N1 , mit |yn − y| ≤ 2 · 2|x| + 1 |y| Sei N ∈ IN , N ≥ N2 , mit |xn − x| ≤ 2 · 2 f¨ ur alle n ≥ N . Nun folgt f¨ ur n ≥ N |
xn x |xn y − xyn| − | = yn y |yny| |xn − x||y| + |x||yn − y| ≤ |yn||y| |xn − x||y| + |x||yn − y| ≤ 2 |y|2 2 (2|x| + 1) = |xn − x| + |yn − y| |y| |y|2 + ≤ 2 2
Damit ist die Behauptung bewiesen. Bisher haben wir außer den speziellen Beispielen 1 (q n)n∈IN (|q| < 1) , ( )n∈IN n keine konvergenten Folgen kennengelernt. Die obigen Rechenregeln gestatten aber neue konvergente Folgen zu konstruieren bzw. zu analysieren, etwa: (
1 1 n n 1 )n∈IN : lim = 0 ; ( ) = lim = 1. n∈IN : lim 2 2 n n n n+1 n 1 + 1/n n n+1
Beispiel 4.43 Betrachte die Folge (an)n∈IN mit an :=
3n2 + 1 , n ∈ IN . 2n2 − n + 1
Baumeister: Mathematik I / Stand: Februar 1997
96
Es gilt 3+
1 n2
1 , n ∈ IN , 1 2− + 2 n n und daher mit den obigen Rechenregeln: an =
3 + lim lim an = n
Beispiel 4.44
n
2 − lim n
1 n2
1 1 + lim n n n2
=
3 2
!
n P Betrachte die Folge 13 ( j 2) n j=1 nicht dazu verleiten lassen, aus
. Man sollte sich durch die obige Rechenregel (R1) n∈IN
12 + 22 + · · · + n2 12 22 n2 = + + · · · + n3 n3 n3 n3 auf den Grenzwert 0 zu schließen, denn die Anzahl der Summanden ist nicht fest, sondern h¨angt auch von n ab. Vielmehr haben wir lim n
n 1 X n(n + 1)(2n + 1) 1 ; ( j 2 ) = lim = 3 3 n 3 n j=1 6n
beachte dabei (Beweis durch vollst¨andige Induktion) n X
j2 =
j=1
n(n + 1)(2n + 1) . 6
2 Beispiel 4.45 Sei die Folge (xn )n∈IN induktiv durch x1 := 1, xn+1 := 1 +
1 , n ∈ IN , xn
definiert. Konvergiert diese Folge, so folgt aus den Rechenregeln f¨ ur Grenzwerte x=1+
1 d.h. x2 = x + 1, x
f¨ ur den Grenzwert x. Die L¨osungen der Gleichung x2 − x − 1 = 0
Baumeister: Mathematik I / Stand: Februar 1997
97
sind gegeben durch – den Beweis f¨ ur diese Aussage wollen wir hier offen lassen – √ √ 1 1 x := (1 + 5) , y := (1 − 5). 2 2 ur alle n ∈ IN gilt, kann y als Grenzwert nicht in Frage kommen. Da offenbar xn > 0 f¨ Betrachte zn := xn − x, n ∈ IN . Es gilt: 1 1−x zn+1 = xn+1 − x = 1 + −x= zn , xn xn da 1 = x2 − x . Wegen xn ≥ 1 f¨ ur alle n ∈ IN , folgt |zn+1 | ≤ |1 − x||zn| , n ∈ IN , und wir erkennen wegen |1 − x| < 1, daß lim zn = 0 gilt. Daher haben wir: n |xn − x| ≤ |1 − x|n , n ∈ IN , lim xn = x , n |1 − x| |x| |xn − x| |xn+1 − x| ≤ , n ∈ IN . |x| |x| |xn| |x| Die letzte Absch¨atzung besagt, daß der relative Approximationsfehler“ n := ” |1 − x| klein wird, da lim xxn = 1 ist. etwa linear mit dem Faktor n |x|
|xn − x| |x|
2
Bemerkung 4.46 √ Die Zahl x := 12 (1+ 5) ist eine der aufregendsten Zahlen der Mathematik. Sie ist bekannt als eine Zahl, die im goldenen Schnitt (g¨ ottliche Teilung) von Bedeutung ist: Teilt der Punkt X die Strecke AB so, daß f¨ ur die L¨angen AB, AX, XB der entstehenden Strecken AB, AX, XB AB : AX = AX : XB gilt, dann ist f¨ ur AB = 1 √
AB : AX = AX : XB = x
und AX = 12 (−1 + 5) . Dieses Teilverh¨altnis wird seit der Antike als besonders ausgewogen empfunden. Die Kantenl¨angen von B¨ uchern etwa stehen oft in diesem “g¨ottlichen“ Teilverh¨altnis. Man findet dieses Teilverh¨altnis auch im regelm¨aßigen F¨ unfeck als Verh¨altnis, in dem sich zwei sich schneidende Diagonalen teilen. 2
4.5
Intervallschachtelung
Lemma 4.47 Sei (xn )n∈IN eine monoton wachsende und (yn)n∈IN eine monoton fallende Folge und es gelte: xn ≤ yn f¨ur alle n ∈ IN , lim (yn − xn ) = 0. n Dann gibt es genau ein x ∈ IR mit xn ≤ x ≤ yn, n ∈ IN . Beweis:
Baumeister: Mathematik I / Stand: Februar 1997
98
Beide Folgen sind beschr¨ankt und daher konvergent: x := lim xn, y := lim yn . n n Offenbar gilt xn ≤ x, y ≤ yn f¨ ur alle n ∈ IN und x = y wegen lim (yn − xn) = 0. Also n 0 0 xn ≤ x ≤ yn , n ∈ IN . Ist x ∈ IR mit xn ≤ x ≤ yn f¨ ur alle n ∈ IN , so ergibt sich |x − x0| ≤ yn − xn f¨ ur alle n ∈ IN , also x = x0 , da lim (yn − xn) = 0 . n Seien nun (an)n∈IN , (bn )n∈IN Folgen mit an ≤ bn , n ∈ IN , lim (bn − an) = 0. n Dann gilt mit In := [an , bn ], n ∈ IN : I1 ⊃ I2 ⊃ · · · ⊃ In+1 ⊃ · · · Man nennt diese Folge (In)n∈IN von Intervallen die zu (an )n∈IN , (bn)n∈IN geh¨orige Intervallschachtelung. Nach Folgerung 4.47 gibt es genau ein x ∈ IR mit {x} =
\
In .
n∈IN
Man nennt x die durch die vorliegende Intervallschachtelung definierte Zahl. Der Mittelpunkt zn := 12 (an + bn ) approximiert x bis auf einen Fehler von 12 (bn − an), denn 1 1 x − zn ≤ bn − (an + bn) = (bn − an ), 2 2 1 1 zn − x ≤ (an + bn ) − an = (bn − an). 2 2 Bezeichnung: Zu x ∈ IR setze bxc := sup{z|z ∈ ZZ , z ≤ x} dxe := inf{z|z ∈ ZZ , z ≥ x}. Wir nennen die Symbole b·c, d·e Gaußklammern. Sei g eine nat¨ urliche Zahl, g ≥ 2. Ferner sei x ∈ IR eine nichtnegative Zahl. Dann ist x = bxc + r mit 0 ≤ r < 1. Wir basteln“ eine Intervallschachtelung f¨ ur r mit Hilfe der Zahl g : ” 1 1. Teile [0, 1] in g gleiche Teile [ gi , i + g ), i = 0, . . . , g − 1, und definiere z1 durch die Eigenschaft z1 z1 + 1 r∈[ , ). g g
Baumeister: Mathematik I / Stand: Februar 1997
99
2. Teile [ zg1 , z1 g+ 1 ) in g gleiche Teile [ zg1 + i2 , zg1 + i2 ), i = 0, . . . , g − 1, und definiere g g z2 durch die Eigenschaft r∈[
z1 z2 z1 z2 + 1 ) + 2, + g g g g2
So fortfahrend erhalten wir eine Folge (zn )n∈IN mit: "
zn ∈ {0, . . . , g − 1} , r ∈
n X i=1
n zi X zi 1 , + n i i g i=1 g g
!
f¨ ur alle n ∈ IN .
n P
zi , b := a + 1 , n ∈ IN . Die Folgen (a ) n n n n∈IN , (bn )n∈IN definieren eine gn gi Intervallschachtelung und es gilt: n X zi r = lim i n i=1 g
Setze an :=
i=1
F¨ ur den ganzen Teil bxc von x haben wir eine Darstellung bxc =
m X
ai g i
i=0
(a0, . . . , an lassen sich durch Division mit Rest gewinnen.) Also k¨onnen wir die Zahl x so aufschreiben: x = (am . . . a0, z1 z2z3 . . .)g Wir nennen sie die g-adische Entwicklung von x. Die dabei auftretenden Ziffern sind eindeutig bestimmt. Die Ziffern z1, z2, . . . ergeben sich rekursiv auch so: z0 := 0 ; r0 := r; zi := bri−1 gc, ri := ri−1 g − zi , i ∈ IN . Ist r = a ∈ Q 0 mit a, b ∈ IN , 0 ≤ a < b, so geh¨oren alle Reste ri zu den b verschiedenen b Br¨ uchen 0 1 b−1 , ,···, b b b und m¨ ussen sich daher wiederholen: Die g-adische Entwicklungen von rationalen Zahlen sind also periodisch. ¨ Wir lesen aus den obigen Uberlegungen wieder ab, daß jede reelle Zahl Grenzwert einer Folge rationaler Zahlen ist. Man sagt, die Menge der rationalen Zahlen ist dicht in den reellen Zahlen. Satz 4.48 Die Menge IR der reellen Zahlen ist nicht abz¨ahlbar. Beweis: Es gen¨ ugt zu zeigen, daß das Intervall (0, 1) nicht abz¨ahlbar ist. Angenommen, (0, 1) sei abz¨ahlbar. Dann gibt es eine Folge (xn)n∈IN reeller Zahlen, so daß (0, 1) = {xn|n ∈ IN } ist. In Dezimalbruchentwicklungen (g-adische Entwicklung mit g = 10) gelte
Baumeister: Mathematik I / Stand: Februar 1997
100
x1 = 0.a11a12a13 . . . x2 = 0.a21a22a23 . . . x3 = 0.a31a32a33 . . . .. . Definiere nun y ∈ (0, 1) durch die Dezimalbruchentwicklung y = 0.y1y2y3 . . . wobei (
yi =
5 4
, falls aii = 6 5 , falls aii = 5
Nach Annahme existiert ein n ∈ IN mit y = xn. Dies ist im Widerspruch zur Konstruktion von y, da yn 6= ann . Bemerkung 4.49 Das im Beweis zu Satz 4.48 benutzte Vorgehen nennt man das Cantorsches Diagonalisierungsverfahren (G: Cantor (1845 – 1918)). Wir schließen zusammen mit Satz 4.4, daß IR \ Q 0 (Menge der irrationalen Zahlen) nicht abz¨ahlbar ist. 2 Beispiel 4.50 Den Babyloniern war schon ein Verfahren zum Ziehen der Quadratwurzel bekannt. Es wird nun nach dem Griechen Heron von Alexandrien (um 75 n. Chr.) benannt. Sei a > 0. W¨ahle x0 ∈ IR mit x20 > a; definiere damit 1 a xn+1 := (xn + ) , n ∈ IN 0 . 2 xn Damit gilt: (xn )n∈IN ist konvergent und wir haben x2 = a f¨ ur x := lim xn . n Beweis dazu: Offenbar sind alle xn positiv. Wir zeigen induktiv x2n ≥ a. Dazu: 1 a a x2n+1 = ( (xn + ))2 ≥ xn · = a, 2 xn xn da das geometrische Mittel zweier Zahlen nicht gr¨oßer als das arithmetische Mittel ist. (F¨ ur a, b ≥ 0 gilt (a + b)2 ≥ 4ab!) (xn)n∈IN ist monoton fallend, da 1 a 1 a 1 xn − xn+1 = xn − (xn + ) = (xn − ) = (x2 − a) ≥ 0 2 xn 2 xn 2xn n gilt. Da (xn )x∈IN auch nach unten durch Null beschr¨ankt ist, existiert x := lim xn . Mit n den Rechenregeln f¨ ur Grenzwerte (beachte xn 6= 0, n ∈ IN , x 6= 0)folgt 1 a x = (x + ), 2 x
Baumeister: Mathematik I / Stand: Februar 1997 also x2 = a, x > 0, x =
101 √
a.
Wie gut approximiert xn die Quadratwurzeln von a? Es gilt xn+1 −
√ √ 1 a a = (xn + ) − a 2 xn √ 1 = (xn − a)2 2xn √ 1 ≤ √ (xn − a)2 . 2 a
Daraus liest man ab, daß sich die Anzahl der g¨ ultigen Stellen hinter dem Komma (bez¨ uglich der Dezimaldarstellung) bei jedem Iterationsschritt in etwa verdoppelt. Fragen dieser Art fallen unter den numerische Aspekt der reellen Zahlen. Analog zeigt man, daß die Folge 1 a ((k − 1)xn + k−1 )) , n ∈ IN 0 , k xn
xn+1 :=
ausgehend von x0 mit xk0 > a gegen die k–te Wurzel von a konvergiert, d.h. der Grenzwert x := limn xn gen¨ ugt der Gleichung xk = a (a > 0, k ∈ IN , k ≥ 2) . √ 1 Die Existenz einer k–ten Wurzel k a ist damit gesichert. Wir schreiben daf¨ ur auch a k .
2
Wir leiten noch eine Intervallschachtelung f¨ ur die Kreiszahl π ab. Wie wir noch zu begr¨ unden haben, ist der Fl¨acheninhalt eines Kreises in der Zahlenebene IR2 wohldefiniert. Die Zahl π ist der Fl¨acheninhalt eines Kreises K = {(x, y) ∈ IR2 |x2 + y 2 ≤ 1} F¨ ur n ∈ IN sei fn der Fl¨acheninhalt des einbeschriebenen regelm¨aßigen 2n+1 −Ecks und ferner Fn der Fl¨acheninhalt des umbeschriebenen regelm¨aßigen 2n+1 −Ecks von K. Aus ¨ elementargeometrischen Uberlegungen folgt: fn = hn fn+1 = h2n Fn wobei f¨ ur die H¨ohen“ hn die Rekursionsformel ” 1√ 1 h1 = 2 , h2n+1 = (hn + 1) 2 2 gilt. Wir erhalten damit q
Fn+1 =
fn Fn , Fn+1 =
2fn+1 Fn , n ∈ IN , fn+1 + Fn
mit f1 = 2, F1 = 4.
Baumeister: Mathematik I / Stand: Februar 1997
102
Die Folgen (fn )n∈IN , (Fn )n∈IN bilden nun eine Intervallschachtelung, denn es gilt fn < fn+1 < Fn+1 < Fn, n ∈ IN , und Fn − fn = Fn(1 − h2n ) ≤ 4(1 − h2n ) = 2(1 − hn−1 1 − hn−2 = 1 + hn−1 1 − hn−2 ≤ 1 + h1 2(1 − hn−2 ) √ = 2+ 2 .. . 2(1 − h1 ) √ ≤ (2 + 2)n−2 2 √ = , n ∈ IN (2 + 2)n−1 Die durch diese Intervallschachtelung definierte reelle Zahl ist die Kreiszahl π. Man erh¨alt etwa f12 = 3.1415923 . . . < π < F12 = 3.1415928 . . .
Beispiel 4.51 Die Folge ((1 + n1 )n )n∈IN ist monoton wachsend, denn: 1 −(n+1) 1 (1 + )n (1 + ) n n+1 (n + 1) (n + 1)2n · (n + 2) (n + 2)n nn 1 1 = (1 − )(1 − )−n n+2 (n + 1)2 1 n ≤ (1 − )(1 − )−1 n+2 (n + 1)2 1 1 −1 ≤ (1 − )(1 − ) ≤ 1, n+2 n+2 =
Die Folge ((1 + n1 )n+1 )n∈IN ist monoton fallend und (1 +
1 n 1 ) ≤ (1 + )n+1 , n ∈ IN . n n
Baumeister: Mathematik I / Stand: Februar 1997
103
Daraus liest man f¨ ur n ≥ 5 ab: 1 1 1 (1 + )n ≤ (1 + )n+1 ≤ · · · ≤ (1 + )6 < 3 n n 5 Ferner gilt: 1 1 1 1 1 1 (1 + )n+1 − (1 + )n = (1 + )n(1 + − 1) = (1 + )n n n n n n n Daraus schließt man, daß 1 1 (1 + )n , (1 + )n+1 n n eine Intervallschachtelung darstellt. Die Zahl 1 e := lim (1 + )n n n heißt Eulersche Zahl. Diese Zahl ist nicht rational, den Beweis dazu liefern wir sp¨ater. Sie ist sogar transzendent, d.h. nicht Nullstelle eines Polynoms mit ganzzahligen Koeffizienten.
2
4.6
Reihen
Wir betrachten nun spezielle Folgen. Definition 4.52 Sei (an )n∈IN eine Folge. (a) Wir nennen
∞ P
ak eine Reihe und die Folge (sn )n∈IN mit sn :=
k=1
n P k=1
ak , n ∈ IN ,
die Folge der zugeh¨origen Partialsummen. (b) Die Reihe
∞ P
ak heißt konvergent genau dann, wenn die zugeh¨orige Folge
k=1
der Partialsummen (sn)n∈IN konvergiert; s := limn sn heißt dann Wert der Reihe und wir schreiben daf¨ur kurz s :=
∞ X
ak .
k=1
(c) Wenn
∞ P k=1
Beispiel 4.53
ak nicht konvergiert, dann heißt die Reihe divergent.
2
Baumeister: Mathematik I / Stand: Februar 1997 ∞ P k=1
1 k2
104
ist konvergent, denn die Folge der zugeh¨origen Folge (sn )n∈IN der Partialsummen
ist monoton wachsend (offensichtlich) und beschr¨ankt, denn: sn =
n X
1 k2 k=1
≤ 1+
n X
1 (k − 1)k k=2 n X
1 1 − ) k −1 k k=2 1 = 1 + 1 − ≤ 2 , n ≥ 2. n
= 1+
Die geometrische Reihe
∞ P k=1
|q| ≥ 1 divergent. Die harmonische Reihe
∞ P k=1
1 k
(
q k ist f¨ ur |q| < 1 konvergent (siehe Beispiel 8.38) und f¨ ur
2
ist divergent (siehe Beispiel 4.33).
Beispiel 4.54 Divergente Reihen sind f¨ ur eine Reihe von Irrt¨ umern und Paradoxien verantwortlich. Dies sieht man an der divergenten Reihe s :=
∞ X
(−1)j .
j=0
Schreibe 1 + (−1 + 1) + (−1 + 1) + · · · = 1 , oder (1 − 1) + (1 − 1) + · · · = 0 , oder s = 1 − (1 − 1 + 1 + · · · = 1 − s ,
d.h. s =
1 . 2
Das Cauchy-Kriterium f¨ ur Reihen sieht nun so aus: Satz 4.55 Sei
∞ P
ak eine Reihe. Dann sind ¨aquivalent:
k=1
(a)
∞ P
ak ist konvergent.
k=1
(b) ∀ > 0 ∃N ∈ IN ∀m, n ≥ N, m ≥ n (|
n P k=m
ak | < )
Beweis: Wende Satz 4.39 auf die Folge (sn)n∈IN der zugeh¨origen Partialsummen an.
2
Baumeister: Mathematik I / Stand: Februar 1997
105
Folgerung 4.56 ∞ P
Ist die Reihe
k=1
ak konvergent, dann ist (an)n∈IN eine Nullfolge, d.h. lim an = 0 . n
Beweis: Folgt unmittelbar aus (b) in Satz 4.55. Die geometrische Reihe ist sehr wichtig als Bezugsreihe f¨ ur Konvergenzbeweise. Dies beleuchtet das sogenannte Quotientenkriterium: Satz 4.57 F¨ur die Reihe
∞ P
ak gelte.
k=1
(a) ∃N ∈ IN ∀n ≥ N (an 6= 0) (b) ∃q ∈ (0, 1) ∀n ≥ N (|an+1 ||an|−1 ≤ q) Dann ist
∞ P
ak konvergent.
k=1
Beweis: O.E. N = 1. Dann ist |ak+1 | ≤ q|ak |, k ∈ IN . Daraus folgt |an+1 | ≤ q n|a1| und wir sehen, daß die Reihe
∞ X
|ak |
k=1 ∞ P
konvergiert, da die Reihe
q k konvergiert. Dann konvergiert aber wegen
k=1
|
n X
ak | ≤
k=m
und Satz 4.52 auch
∞ P n=1
n X
|ak |
k=m
ak .
F¨ ur x ∈ IR betrachten wir
∞ X
1 k x k=0 k!
(Die Summation bei k = 0 zu beginnen ist kein Problem, da man durch Umbenennung ∞ P xj−1 u zu ¨bergehen kann.) Diese Reihe konvergiert nach dem Quotientenkriterium, j=1 (j − 1)! denn k! |x|k+1 |x| · k = (k + 1)! |x| k+1 ist f¨ ur 2|x| ≤ k + 1 kleiner als 12 .
Baumeister: Mathematik I / Stand: Februar 1997
106
Definition 4.58 Die Abbildung IR 3 x 7−→
∞ X
1 k x ∈ IR k=0 k!
heißt Exponentialfunktion; wir schreiben x
exp(x) := e :=
∞ X
1 k x . k! k=0
2 Folgerung 4.59 Es gilt f¨ur alle x ∈ IR :
x ex = lim (1 + )n n n
Beweis: !
n X x n n xk (1 + ) = k n k=0 k n
= =
n(n − 1) · · · (n − (k − 1)) xk nk k! k=0 n X
n X
(1 −
k=0
1 k − 1 xk ) · · · (1 − ) n n k!
Sei |x| ≤ r. Sei > 0. Es gilt n ∈ IN mit ∞ X
rk < 3 k=N +1 k! und dazu N1 ≥ N mit N X k=0
|(1 −
1 k−1 xk ) · · · (1 − ) − 1) | < n n k! 3
f¨ ur n ≥ N1 . Daraus folgt f¨ ur n ≥ N1 : ∞ N X X x xk 1 k−1 xk |(1 + )n − | ≤ | ((1 − ) · · · (1 − ) − 1) | n n n k! k=0 k! k=0
+
N X k=0
(1 −
∞ X 1 k − 1 |x|k |x|k ) · · · (1 − ) + n n k! k=N +1 k!
< + + . 3 3 3
Baumeister: Mathematik I / Stand: Februar 1997
4.7
107
Gleitkommazahlen
Auf Rechenanlagen steht nur endlicher Speicherplatz f¨ ur die Darstellung von Zahlen zur Verf¨ ugung, also auch nur eine endliche Anzahl von Zahlen und f¨ ur jede Zahl hat man sich mit einem rationalen N¨aherungswert zu begn¨ ugen. Bei der Festkomma–Darstellung wird jede Zahl durch das Vorzeichen, s0 Ziffern vor dem Komma und t0 Ziffern nach dem Komma ersetzt. Anstelle der reellen Zahlengeraden wird ein ¨aquidistant geteiltes endliches Punktraster verwendet. F¨ ur wissenschaftlich–technische Rechnungen ist die FestkommaDarstellung nicht sehr geeignet, da beispielsweise physikalische Konstanten u ¨ ber viele 10-er Potenzen streuen, z.B.: m0 L h c
: : : :
Ruhemasse des Elektrons: 9.1110 10 −28 g Loschmidt–Zahl: 6.02 10 23 Mol −1 Planksches Wirkungsquantum: 6.62 10 −34 Watt sec2 Lichtgeschwindigkeit: 3.00 10 10 cm sec−1
Passender f¨ ur diese Zwecke ist die Gleitkomma-Darstellung. Das System der Gleitkommazahlen wird charakterisiert durch 4 Parameter (Maschinenkonstanten): • Basis g • Mantissenstellenzahl t • Exponentengrenzen b, B ∈ ZZ (b < 0 < B); der Exponentenbereich ist damit [b, B] := {z ∈ ZZ |b ≤ z ≤ B} . Jede Gleitkommazahl hat die Form x = sign(x)0.a1 . . . at g e mit 0 ≤ ai < g, a1 6= 0, e ∈ [b, B] , mit dem Vorzeichen sign(x), der Mantisse 0.a1 . . . at und dem Exponenten e . (Die Bedingung a1 6= 0 erzwingt eine Normierung). Sie kann so abgespeichert werden: x= b
± a1 · · · at
e
(Beachte, daß die Speicherung von a1 = 1 bei g = 2 nicht n¨otig ist.) Beispiel 4.60 Sei t = 5, b = −5, B = 5, x = 27.5 1. g = 10 : x = +0.27500 10 2 2. g = 2 : x = +0.110111 2 5
Nicht darstellbar!
3. g = 16 : x = +0.1B800 16 2 (Im Hexadezimalsystem (g = 16) schreibt man f¨ ur die “Ziffern“ 10, 11, 12, 13, 14, 15 die Buchstaben A, B, C, D, E, F .)
Baumeister: Mathematik I / Stand: Februar 1997
108
2 Wir stellen fest, daß die Null unter den normalisierten Gleitkommazahlen nicht vorkommt. Wir f¨ ugen sie hinzu – die Darstellung ist rechnerspezifisch – und nennen diese Zahlen dann Maschinenzahlen. Also gibt es 2(g − 1)g t−1 (B − b + 1) + 1 Maschinenzahlen. Beispiel 4.61 1. g = 2, t = 3, b = −1, B = 2. Es gibt 33 Maschinenzahlen. 2. g = 10, t = 10, B = −b = 99. Die kleinste positive Maschinenzahl verschieden von Null ist m = +0.100000000010 −99 , die gr¨oßte positive Maschinenzahl ist M = +0.999999999910 99 . Nachbar“ von m : m0 = +0.1000000001 10 −99 ” Nachbar“ von M : M 0 = +0.9999999998 10 99 ” Also: m − m0 = 10 −109 , M − M 0 = 1089
2 Das obige Beispiel zeigt uns, daß betragsm¨aßig kleine Gleitkommazahlen dichter liegen als als betragsm¨aßig große. Nun hat man ein Verfahren anzugeben, das eine Zahl, die keine Maschinenzahl ist, durch eine Maschinenzahl approximiert. Von einer vern¨ unftigen Approximation x˜ von x, x˜ Maschinenzahl, wird man verlangen wollen: |˜ x − x| ≤ |y − x| f¨ ur jede Maschinenzahl. Offenbar ist Rundung ein geeignetes Verfahren, ein solches x˜ zu konstruieren. Wir wissen, daß sich jedes x ∈ IR g–adisch so darstellen l¨aßt: x = sign(x)0.a1 . . . at at+1 . . . g e mit 0 ≤ ai < g, e ∈ ZZ und a1 6= 0 . Dazu erkl¨aren wir die Rundung rd(x) durch (
rd(x) :=
Beispiel 4.62 g = 10, t = 4, B = −b = 99
sign(x)0.a1 . . . at g e , falls at+1 < g2 sign(x)(0.a1 . . . at + g −t ) g e , sonst
Baumeister: Mathematik I / Stand: Februar 1997
109
rd(0.31796 10 45) = 0.3180 10 45 rd(0.31794 10 110) = 0.3179 10 110 rd(0.0012345 10 −99) = 0.1235 10 −100
2 Die obigen Beispiele zeigen, daß Rundung nicht immer zu einer Maschinenzahl f¨ uhrt (Exponenten¨ uberlauf, Exponentenunterlauf). Rechenanlagen geben bei Exponenten¨ uberlauf eine Fehlermeldung und beenden die Rechnung. Bei Exponentenunterlauf ist die Vorgehensweise nicht einheitlich, meist wird die Rechnung mit Null fortgesetzt. Folgerung 4.63 F¨ur jedes x ∈ IR gilt: (a) |x − rd(x)| ≤ 12 g 1−t |x| . (b) rd(x) = x(1 + ) mit || ≤ 12 g 1−t . Beweis: Sei x = sign(x)0.a1 . . . atat+1 . . . g e. Zu (a): Es gilt |x − rd(x)| ≤ 12 g e−t nach Konstruktion von rd(x). 1 1 1 |x − rd(x)||x|−1 ≤ g e−t ≤ g 1−t e 2 0.a1 · g 2 Zu(b): Setze :=
|x − rd(x)| f¨ ur x 6= 0, f¨ ur x = 0 ist nichts zu beweisen. |x|
.
Die Zahl eps := 12 g 1−t heißt Maschinengenauigkeit. Wegen Rundung werden die arithmetischen Operationen +, −, ·, / nicht exakt ausgef¨ uhrt. Dies hat zur Folge, daß die Ersatzoperationen ⊕, , , definiert durch x ⊕ y := rd(x + y) , x y := rd(x − y), x y := rd(xy) , x y := rd(x/y) nicht den u ugen. Wir sehen dabei davon ab, daß Exponen¨blichen Rechenregeln gen¨ ten¨ uberlauf und Exponentenunterlauf auftreten kann. Beispiel 4.64 Sei g = 10, t = 4 . 0.1000 10 1 ⊕ 0.400 10 −4 = rd(1.0004) = 1 = 0.1000 10 1
Baumeister: Mathematik I / Stand: Februar 1997
110
Aus x ⊕ y = x folgt also nicht notwendigerweise y = 0. Sei g = 10, t = 8. Es seien a = 0.233712.58 10 −4 , b = 0.33678429 10 2 , c = −0.33677811 10 2 . Es gilt: A: = = = = = B: = = = =
a ⊕ (b ⊕ c) a ⊕ (0, 61800000 10 −3 rd(0.02337126 10 3 + 0.6180000 10 −3) rd(0.64137126 10 −3) 0, 64137126 10 −3 (a ⊕ b) ⊕ c (0.00000023 10 2 + 0.33678429 10 2) ⊕ c rd(0.33678452 10 2 − 0.33677811 10 2) 0.64100000 10 −3
Exaktes Resultat: C := a + b + c = 0.641371258 10 −3 Also : A = rd(C) , B 6= rd(C) . Genauigkeitsverlust bei C : 5 Dezimalen!
2
Aber es gilt: Folgerung 4.65 Sei ⊗ eine der Operationen {⊕, , , } und × ihre entsprechende Operation in {+, −, ·, /}. Dann gilt f¨ur alle x, y ∈ IR : x ⊗ y = (x × y)(1 + ) mit || ≤ eps. Beweis: Folgerung 4.63 mit Definition von ⊗. Der Genauigkeitsverlust, wie wir ihn im Beispiel 4.64 kennengelernt haben, l¨aßt sich gut verstehen: Es werden zwei Zahlen subtrahiert, die ann¨ahernd gleich sind.
Kapitel 5 Elementare Wahrscheinlichkeitsrechnung Stochastik ist die Mathematik des Zufalls. Die beiden Hauptgebiete der Stochastik sind Wahrscheinlichkeitstheorie und Statistik. In der Wahrscheinlichkeitstheorie untersuchen wir zuf¨allige Prozesse bei bekannten Wahrscheinlichkeiten f¨ ur die in Frage stehenden Ereignisse, w¨ahrend in der Statistik aus beobachteten Daten Schl¨ usse u ¨ ber unbekannte Wahrscheinlichkeiten und zweckm¨aßiges Handeln gezogen werden. In diesem einf¨ uhrenden Kapitel u ¨ber die Wahrscheinlichkeitstheorie stellen wir die wichtigsten Begriffe bereit und erl¨autern sie an Hand von interessanten Fragestellungen.
5.1
Versuch, Ereignis, Zufall
Zufall, Ungewißheit, Gl¨ uck, Pech – sind das nicht ziemlich diffuse Begriffe? Eher aus dem Bereich der Wahrsager als dem der Wissenschaftler? Eine wissenschaftliche Untersuchung des Zufalls ist m¨oglich, und sie begann mit der Analyse von Gl¨ ucksspielen durch B. Pascal (1623 – 1662), P. Fermat (1601 – 1688), C. Huygens (1629 – 1695) und Jakob Bernoulli (1654 – 1705). Diese Analyse hat den Wahrscheinlichkeitskalk¨ ul hervorgebracht, der lange f¨ ur einen unbedeutenden Zweig der Mathematik gehalten wurde. Einen ersten Erfolg erzielte der Kalk¨ ul in der statistischen Mechanik durch Untersuchungen von L. Boltzmann (1844 – 1906) und J.W. Gibbs (1839 – 1903): Die Menge von Zufall“, die in einem Liter Luft ist, wird durch den Begriff der Entropie ” gemessen. Der n¨achste große Erfolg ist mit der Entwicklung der Quantentheorie verkn¨ upft. Heutzutage ist der Zufall in wissenschaftlichen Theorien fast u ¨berall pr¨asent: Rauschen in der Signal¨ ubertragung, Ausbreitung von Epidemien, Entwicklung von B¨orsenkursen, chaotisches Verhalten von nichtlinearen Systemen, Spieltheorie, Wetterprognosen, . . . . Wenn man von Wahrscheinlichkeiten spricht, so tut man dies immer im Zusammenhang mit irgendwelchen Ereignissen, deren gemeinsames Kennzeichen darin besteht, daß sie – unter gegebenen Umst¨anden – eintreten k¨onnen, aber nicht eintreten m¨ ussen. Solche Ereignisse wollen wir zuf¨ allige Ereignisse nennen. Was Wahrscheinlichkeit ist, glaubt jeder zu wissen, es aber zu formulieren, f¨allt auch jedem schwer, erst recht schwer ist es, die 111
Baumeister: Mathematik II / Stand: Mai 1997
112
Wahrscheinlichkeit f¨ ur das Eintreten eines Ereignisses anzugeben oder auszurechnen. Eine zentrale Tatsache der Wahrscheinlichkeitsrechnung ist, daß wir ein Experiment kennen, das uns diesen Zufall so klar vor Augen f¨ uhrt: der M¨ unzwurf. Bei einer großen Anzahl von M¨ unzw¨ urfen wird die Anzahl von Kopf (der Zahl) etwa bei 50 % liegen. Auf diese Weise ergibt eine lange Reihe von M¨ unzw¨ urfen ein nahezu sicheres Ergebnis, obwohl der Aus¨ gang eines einzelnen Wurfes vollst¨andig ungewiß ist. Dieser Ubergang von Ungewißheit zu einer Fastgewißheit, wenn wir eine lange Reihe von Ereignissen (oder große Systeme) beobachten, ist ein wesentliches Thema beim Studium des Zufalls. Zuf¨allige Ereignisse begegnen uns als Ergebnisse von Versuchen, wobei Versuch“ als ” Realisierung einer Gesamtheit von wohldefinierten Bedingungen (Versuchsanordnungen) verstanden werden kann. Da wir unter Versuch“ so unterschiedliche Objekte wie medizi” nische Untersuchung, physikalischer Versuch, Intelligenztest, Gedankenspielerei“, Gl¨ uck” spielrunde, . . . verstehen wollen, wollen wir bei dieser verbalen Beschreibung bleiben. Statt Versuch sagen wir h¨aufig auch Experiment und sehen darin oft eine reale Untersuchung, einen Test, eine Probe, ein Gedankenexperiment, eine Beobachtung. Wichtig ist nun, daß wir annehmen wollen, daß ein Versuch/Experiment – wenigstens gedanklich – bei gleichbleibender Versuchsanordnung wiederholbar ist. Ist dann die Versuchsanordnung so, daß sie den Ausgang eines Versuchs nicht eindeutig festlegt, so sind bei Wiederholung des Versuchs unterschiedliche Ausg¨ange m¨oglich. Da wir die den Ausgang determinierenden Bedingungen nicht kennen oder nicht nennen k¨onnen, k¨onnen wir nicht vorhersagen, welches der Ausgang bei der n¨achsten Durchf¨ uhrung des Versuchs sein wird. Wir nennen daher solche Versuche Zufallsexperimente oder zuf¨ allige Ereignisse, ihren Ausgang zuf¨ allig. Zufall“ dient also hier zur Beschreibung einer Situation, in der wir auf Grund fehlen” der Information den Ausgang eines Versuchs nicht vorhersagen, nicht wissen k¨onnen. Der Begriff der Wahrscheinlichkeit“, der noch einzuf¨ uhren ist, dient dazu, dieses Nichtwissen ” bzw. Nichtwissenk¨onnen theoretisch in den Griff zu bekommen und zu quantifizieren. Der Titel dieses Essays ist eine Frage: Ist alles vorherbestimmt? Die Antwort ” lautet ja. Doch sie k¨onnte genausogut nein lauten, weil wir niemals wissen k¨onnen, was vorherbestimmt ist.“ (St. Hawking, Einsteins Traum, Rowohlt, 1993). Das Ja“ soll heißen, wir sind in fast allen Fragestellungen, wof¨ ur wir ein mathematisches ” Modell haben, in der Lage, Gleichungen hinzuschreiben, in denen komplizierte Ph¨anomene kodifiziert sind und deren L¨osung uns Vorhersagen erlauben (Hirnt¨atigkeit, Wetter, . . .). Aber wir sind meist nicht in der Lage, diese (vielen) Gleichungen zu l¨osen oder in ihnen eingearbeitete Anfangsbedingungen zu bestimmen. Beispiel 5.1 Als Zufallsexperimente k¨onnen wir betrachten: M¨ unzwurf Ausg¨ange: Kopf oder Zahl. W¨ urfelwurf Ausg¨ange: Zahlen (Augen) 1, . . . , 6. Hier k¨onnte eine Beschreibung der Versuchsanordnung so aussehen: Der W¨ urfel ist ein regelm¨aßiger K¨orper mit 6 identischen und glatten Seitenfl¨achen, beschriftet mit den Zahlen 1, 2, 3, 4, 5, 6. Ein Versuch bestehe
Baumeister: Mathematik II / Stand: Mai 1997
113
aus einem Wurf aus einer H¨ohe von 10 cm auf einen ebenen Tisch. Der Versuch ist beendet, sobald der W¨ urfel zur Ruhe gekommen ist. Seine obenliegende Fl¨ache legt mit der dort abzulesenden Zahl das Versuchsergebnis fest. Urnenexperiment Ziehen von numerierten Kugeln aus einer Urne. Ausg¨ange: Nummern der gezogenen Kugeln. Kartenspiele Ausg¨ange: Spielpunkte. Kegeln Ausg¨ange: Anzahl der gefallenen Kegel. Telefonstatistik Erfassung der Anzahl der Anrufe bei der Telefonvermittlung von 12.00 – 12.59 Uhr. Ausg¨ange: Zahlen 0, 1, 2, . . . . Die drei Experimente M¨ unzwurf, W¨ urfelwurf, Urnenexperiment werden uns h¨aufig als Beispiel f¨ ur ein Zufallsexperiment dienen. Damit k¨onnen wir reale Situationen erfassen und wesentliche Merkmale von zuf¨alligen Ereignissen verdeutlichen. Die Festlegung der Versuchsanordnung zum W¨ urfelwurf ist sicher noch verbesserungsw¨ urdig (Beschaffenheit des W¨ urfels und der Tischfl¨ache, Ausf¨ uhrung der Wurfbewegung). Das Wurfergebnis wird aber sicher immer von Umst¨anden abh¨angen, die von Wurf zu Wurf nicht ausreichend kontrollierbar sind: Handhaltung beim Wurf, Impuls des W¨ urfels beim Loslassen, Puls und Atembewegung, . . . . Daher sind die verschiedenen Wurfergebnisse als zuf¨allige Ereignisse zu betrachten: Alle sechs Ereignisse sind m¨oglich, keines kann vorausgesagt werden. Die Determiniertheit des Ergebnisses, die im Prinzip in der Mechanik der K¨orper angelegt ist, ist aufgehoben, da die mechanischen Daten nicht ausreichend kontrollierbar, einstellbar sind. (Dies ist auch der Grund, warum uns selbst bei einem sehr einfachem dynamischem System die Dynamik oft zuf¨allig erscheint; der Begriff Chaos soll das erfassen.) Zu jedem Zufallsexperiment V geh¨ort eine Menge Ω m¨oglicher Ergebnisse/Ausg¨ange: ein ω ∈ Ω wird als Ergebnis spezifiziert. Diese Ergebnisse ω ∈ Ω nennt man die zu V geh¨orenden Elementarereignisse. (In vielen F¨allen ist Ω eine Menge in einem Zahlbereich IN , ZZ , IR.) Neben diesen Elementarereignissen interessieren wir uns oft auch f¨ ur weitere zusammengesetzte Ereignisse, dies sind bestimmte Teilmengen von Ω. Wir sprechen von einem Ereignis A ⊂ Ω und sagen, daß das Ereignis bei einem Versuch eingetreten ist, wenn der Versuch ein Ergebnis ω ∈ Ω spezifiziert mit ω ∈ A, anderenfalls sagen wir, daß A nicht eingetreten ist. Beispiel 5.2 Betrachte den M¨ unzwurf. Ω = {K, Z} . Elementarereignisse: ω = K(opf), ω = Z(ahl). Zusammengesetzte Ereignisse: A = ∅, A = Ω ; A = ∅ tritt nie ein, A = Ω tritt sicher ein.
2
Baumeister: Mathematik II / Stand: Mai 1997
114
Beispiel 5.3 Betrachte den W¨ urfelwurf. Ω = {1, . . . , 6} . Zusammengesetzte Ereignisse: A = {2, 4, 6} : W¨ urfeln einer geraden Zahl. A = {1, 2, 3} : W¨ urfeln einer Zahl kleiner als 4. Betrachte den W¨ urfelwurf mit zwei W¨ urfeln. Ω = {(i, j)} ∈ IN × IN |1 ≤ i, j ≤ 6}. Das Elementarereignis ω = (6, 6) bedeutet das W¨ urfeln einer Doppelsechs, A := {(6, 6), (6, 5), (5, 6)(6, 4), (4, 6), (5, 5)} ist das Ereignis, das eintritt, falls die Augensume mindestens 10 betr¨agt.
2
Mit der nun ausformulierten Betrachtungsweise von Versuch/Zufallsexperiment V , Ereignismenge Ω und Ereignisraum P OT (Ω) f¨ ur die zusammengesetzten Ereignisse haben wir nun die mengentheoretische Schreibweise zur Verf¨ ugung. Sie hat folgende Interpretation: A∩B : A∪B : Ω\A : A⊂B:
Ereignis, daß A und B eintreten; Ereignis, daß A oder B eintritt; Ereignis A tritt nicht ein; Ereignis B tritt immer dann ein, wenn A eintritt.
Das Elementarereignis ω ∈ Ω ordnet sich als zusammengesetztes Ereignis A := {ω} ein; wir unterscheiden nicht.
5.2
Laplace–Wahrscheinlichkeit
Nun sind wir soweit, das Nichtwissenk¨onnen des Ausgangs eines Zufallsexperiments zu quantifizieren: Jedem Ereignis soll eine Zahl aus [0, 1] zugeordnet werden, die uns gestattet, die Unsicherheit u ur Sicherheit, 0 ¨ber den Ausgang zu quantifizieren; 1 sollte f¨ f¨ ur vollst¨andige Unsicherheit stehen. Wir tun dies nun zun¨achst in einer einfachen Situation, n¨amlich in einer Situation, in der alle Elementarereignisse, was die Unsicherheit u uhren wir die Begriffe Laplace– ¨ber ihr Eintreten betrifft, gleichberechtigt sind. Dazu f¨ Experiment und Laplace–Wahrscheinlichkeit ein. (P.S. de Laplace (1749 – 1827) f¨ uhrte infinitesimale Methoden in die Wahrscheinlichkeitsrechnug ein.) Der Begriff der Laplace– Wahrscheinlichkeit hat den Vorteil, daß ihm die Vorstellung eines konstruktiven Vorgehens zugrunde liegt, n¨amlich die Vorstellung von der rein zuf¨alligen Wahl“. Wir stellen ” uns hierunter vor, daß es gelingt, aus einer endlichen Menge von Elementarereignissen Ω ein Element so auszuw¨ahlen, daß jedes Element diesselbe Chance hat, ausgew¨ahlt zu werden. Einen Mechanismus, der eine solche Zufallswahl bewerkstelligt, nennen wir einen Laplace–Mechanismus. Ein beliebtes Bild von einem Laplace–Mechanismus ist das Urnenmodell, eine weitere Vorstellung von einem Laplace–Mechanismus ist der W¨ urfelwurf.
Baumeister: Mathematik II / Stand: Mai 1997
115
Definition 5.4 Sei Ω endliche Menge. F¨ur jede Teilmenge A von Ω ist die Laplace–Wahrscheinlichkeit definiert durch #A P (A) := . #Ω Man nennt P (A) die Wahrscheinlichkeit, daß ein (rein zuf¨allig ausgew¨ahltes) Element ω ∈ Ω in A liegt. Die Abbildung P : P OT (Ω) 3 A 7−→ P (A) ∈ IR
2
heißt Laplace–Wahrscheinlichkeit.
Beispiel 5.5 Den M¨ unzwurf betrachten wir als Laplace–Mechanismus. Hier ist Ω = {K, Z} ; P ({K}) = P ({Z}) =
1 . 2
Beim W¨ urfelexperiment, betrachtet als Laplace–Mechanismus, haben wir Ω = {1, . . . , 6} ; P ({i}) =
1 , 1 ≤ i ≤ 6. 6
F¨ ur das zusammengesetzte“ Ereignis A := {1, 2, 3} haben wir P (A) = 12 . ” Das W¨ urfeln mit zwei W¨ urfeln kann ebenfalls als Laplace–Experiment betrachtet werden. Wir haben Ω = {(i, j) ∈ IN × IN |1 ≤ i, j ≤ 6} ; P ((i, j)) =
1 , 1 ≤ i, j ≤ 6 . 36
Daraus errechnet sich: 6 1 = f¨ ur A := {(i, j) ∈ Ω|i + j ≥ 10}, 36 6 15 5 P (A) = = f¨ ur A := {(i, j) ∈ Ω|i > j}. 36 12
P (A) =
F¨ ur das zusammengesetzte Ereignis A := {(i, j) ∈ IN × IN |i = 1 oder (i ≥ 4 und j = 1) oder (i ≥ 4 und j ≥ 4)} ist die Laplace–Wahrscheinlichkeit schon etwas m¨ uhsam auszurechnen. Sie ist 13 36 .
2
Es ist nun offensichtlich, daß bei der Berechnung von Laplace–Wahrscheinlichkeiten das Einmaleins der Kombinatorik a¨ußerst hilfreich ist. Bemerkung 5.6
Baumeister: Mathematik II / Stand: Mai 1997
116
Beachte, daß ein Laplace–Experiment ein Modell f¨ ur eine konkrete reale Situation ist. Unsere Definition der Laplace–Wahrscheinlichkeit ist innerhalb dieses Modells gegeben ¨ und nicht f¨ ur die reale Situation. Der Ubergang von der Wirklichkeit zum Modell ist in den hier exemplarisch betrachteten F¨allen meist naheliegend, in allgemeineren Situationen ( Wie wahrscheinlich ist ein Supergau in einem russischen Kernkraftwerk“) ist dieser ” sicher sehr viel schwieriger zu vollziehen. 2 Legen wir nun einige Rechenregeln bereit. Folgerung 5.7 Sei Ω eine endliche Menge. F¨ur die Laplace–Wahrscheinlichkeit P : P OT (Ω) 3 A 7−→
#A ∈ IR #Ω
gilt: (a) P (A) ∈ [0, 1] ∩ Q 0 f¨ur alle A ⊂ Ω. 1 f¨ur alle x ∈ Ω. (b) P ({x}) = #Ω (c) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) f¨ur alle A, B ∈ P OT (Ω). (d) P (Ω\A) = 1 − P (A) f¨ur alle A ⊂ Ω. (e) P (∅) = 0. Beweis: (a) und (b) sind trivial. Die Aussage (c) folgt aus der Formel (R2) aus Abschnitt 2.2 . Damit sind nun auch (d) und (e) klar.
5.3
Einige Beispiele
Betrachten wir ein W¨ urfelexperiment und nennen wir es das Augensummenparadoxon. G.W. Leibniz (1646 – 1716) hat sich bei der Analyse dieses Experimentes einen kleinen Schnitzer erlaubt: Es sei ihm unbegreiflich, wie ihm erfahrene W¨ urfelspieler versicherten, ” warum bei zwei W¨ urfeln die Augensumme 9 wahrscheinlicher sei als die Augensumme 10, aber bei drei W¨ urfeln die Augensumme 10 wahrscheinlicher als die Augensumme 9. Denn schließlich k¨onne die Summe 9 wie die Summe 10 in beiden F¨allen auf gleich viele Arten anfallen, also m¨ ußten die Augensummen in beiden F¨allen gleich wahrscheinlich sein.“ . Wir betrachten das W¨ urfeln mit zwei W¨ urfeln als Laplace–Experiment, haben Ω = {(i, j) ∈ IN × IN |1 ≤ i, j ≤ 6}, und interessieren uns also f¨ ur die Laplace–Wahrscheinlichkeiten der Ereignisse A9 := {(i, j) ∈ Ω|i + j = 9}, A10 := {(i, j) ∈ Ω|i + j = 10}.
Baumeister: Mathematik II / Stand: Mai 1997
117
Wir haben dazu A9 , A10 abzuz¨ahlen. Es gilt A9 = {(3, 6), (6, 3), (4, 5), (5, 4)}, A10 = {(4, 6), (6, 4), (5, 5)}. und daher
1 1 4 3 = , P (A10) = = 36 9 36 12 Bei drei W¨ urfeln zeigt eine einfache Aufz¨ahlung (bei entsprechender Bezeichnung) P (A9) =
P (A9) =
19 24 , P (A10 ) = . 216 216
Leibniz hat u ¨bersehen, daß die Reihenfolge der Summanden hier wichtig ist. Der Fehler, der hier Leibniz unterlaufen ist, ist Basis f¨ ur einen Jahrmarkttrick, der nach J. Bertrand (1822 – 1900) Bertrandsches Schachtelparadoxon genannt wird: Drei nicht unterscheidbare Schachteln enthalten zwei Goldm¨ unzen (1. Schachtel), zwei Silberm¨ unzen (2. Schachtel) und eine je eine Gold- und eine Silberm¨ unze (3. Schachtel). Jetzt entnimmt man einer Schachtel eine M¨ unze. Der Veranstalter des Spiels bietet nun eine Wette an: Die zweite M¨ unze in der Schachtel ist aus demselben Metall! Man ist versucht, zu vermuten, daß die Wette fair ist, da man geneigt ist zu vermuten, daß die Beschaffenheit der zweiten M¨ unze gleichwahrscheinlich ist. Dies ist nicht der Fall. Analysieren wir die Situation, daß G(old) gezogen wurde. Wir vermuten richtig, daß nicht aus der Schachtel mit den zwei Silberm¨ unzen gezogen wurde und schließen daraus irrig, 1 daß mit Wahrscheinlichkeit 2 beide M¨ unzen in der Schachtel, aus der gezogen wurde, aus Gold sind. In Wahrheit sind mit einer Wahrscheinlichkeit von 23 beide M¨ unzen aus Gold, weil in zwei von 3 F¨allen die beiden M¨ unzen in der Schachtel aus Gold sind; sp¨ater kommen wir darauf zur¨ uck.. Betrachten wir nun das Geburtstags–Pardoxon. F¨ ur eine Gruppe von n Personen ist die Wahrscheinlichkeit“ zu ermitteln, daß mindestens ein Paar unter diesen Personen ” existiert, das am gleichen Jahrestag Geburtstag hat. Annahmen: • Das Jahr wird mit 365 Tagen angesetzt, wir sehen also vom Auftreten von Schaltjahren ab. • Geburtstage sind u ¨ber die Jahrestage gleichverteilt. 1 Damit liegt ein Laplace–Experiment vor und jede Person hat mit 365 Wahrscheinlichkeit an einem bestimmten Jahrestag Geburtstag. Wir setzen Ω := {(ω1 , . . . , ωn) ∈ IN n |1 ≤ ωi ≤ 365, 1 ≤ i ≤ n}.
Das zu betrachtende Ereignis ist A := {ω1 , . . . , ωn ) ∈ Ω|ωi = ωj f¨ ur mindestens ein Paar (i, j), i 6= j}
Baumeister: Mathematik II / Stand: Mai 1997
118
und die gesuchte Wahrscheinlichkeit ist Pn∗ := P (A) :=
#A 365n
Betrachten wir zun¨achst einige Spezialf¨alle. n ≥ 365 Pn∗ = 1 . n=2 Die erste Person hat freie Auswahl, f¨ ur die zweite Person ist die Wahrscheinlichkeit, am gleichen Tag wie die erste Person Geburts1 tag zu haben, 365 . Also Pn∗ = n=3
1 365
Die erste Person hat freie Auswahl, die zweite Person hat einen verschiedenen Geburtstag mit Wahrscheinlichkeit 364 , die dritte Person 365 wiederum einen von den beiden Tagen verschiedenen Geburtstag mit Wahrscheinlichkeit 363 . Also gilt 365 Pn∗ = 1 −
365 364 363 · · ≈ 0, 009 365 365 365
Am Beispiel n = 3 haben wir das g¨ unstige Vorgehen gesehen: Statt P ∗ haben wir zun¨achst die Wahrscheinlichkeit ausgerechnet, daß das Ereignis nicht eintritt. Allgemein erhalten wir 365! Pn∗ = 1 − (365 − n)!365n Damit erh¨alt man die Tabelle n
20
22
23
30
40
50
Pn∗
0,411 0,476 0,507 0,706 0,891 0,970
Wir sehen also, daß bei einer Gruppengr¨oßen von 23 Personen die Wahrscheinlichkeit, daß darunter ein Paar mit gleichem Geburtstag ist, bereits gr¨oßer als 12 ist. Die Annahme u ¨ ber das Schaltjahr beeinflußt die obigen Ergebnisse nur unwesentlich, etwa bleibt es bei der Aussage bez¨ uglich der Gruppengr¨oße n = 23. Die Annahme u ¨ ber die Gleichverteilung der Geburtstage ist auch kein Einwand zur Qualit¨at der obigen Ergebnisse, denn die Wahrscheinlichkeiten werden eher gr¨oßer; man mache sich dies etwa daran klar, daß alle Personen an einem bestimmten Tag Geburtstag haben. ¨ Die Uberraschung mit dem Ergebnis ist: Ein Ereignis, dessen Eintreten f¨ ur uns als Individuum h¨ochst unwahrscheinlich ist, ist f¨ ur eine Gruppe bei weitem nicht mehr unwahrscheinlich. Betrachten wir das Ziehen eines Gl¨ ucksloses und nennen wir den Vorgang Gl¨ ucksspirale. Es soll ein Gl¨ uckslos gezogen werden. Jedes Los ist ein 7–stelliges Wort aus dem Alphabet
Baumeister: Mathematik II / Stand: Mai 1997
119
{0, 1, . . . , 9}. Es gibt 107 Worte. Ein faires Ziehverfahren muß so gestaltet werden, daß alle Worte gleichberechtigt gezogen werden. Dies l¨aßt sich bewerkstelligen durch • 1 Urne mit Kugeln 0, . . . , 9/ 7–maliges Ziehen mit Zur¨ ucklegen (und Mischen) und Notieren der Reihenfolge. • 7 Urnen mit Kugeln 0, . . . , 9/ Ziehen einer Kugel aus jeder Urne und Notieren der Reihenfolge. Bei der ersten Ausspielung der Gl¨ ucksspirale 1971 (Olympialotterie) wurde folgendes Verfahren realisiert: • 1 Urne, gef¨ ullt mit den Kugeln 0, 1, . . . , 9 in siebenfacher Ausfertigung / 7–maliges Ziehen ohne Zur¨ ucklegen. Dieses Verfahren war nicht fair, denn nicht jedes Wort wird mit der Wahrscheinlichkeit 107 gezogen. Dies sieht man so: O.E. k¨onnen wir annehmen, daß die Kugeln durchnumeriert sind und die Nummern 1 bis 70 tragen. Daraus werden unter Beachtung der Reihenfolge 7 Kugeln auf 70 · 69 · 68 · 67 · 66 · 65 · 64 verschiedene Arten ausgew¨ahlt werden. Da nur jeweils 7 Kugeln mit identischen Ziffern vorhanden sind, kann eine bestimmte Zahl mit lauter identischen Ziffern auf 7 · 6 · · · 1 = 7! Weisen ausgew¨ahlt werden. Daraus folgt f¨ ur die Wahrscheinlichkeit, etwa die Losnummer 1111111 zu ziehen, die Zahl 7 · 6··· 1 ≈ 0, 85 · 109 70 · 69 · · · 64 Eine Losnummer, die aus lauter verschiedenen Ziffern besteht, kann auf 77 M¨oglichkeiten ausgew¨ahlt werden. Also ist die Wahrscheinlichkeit, etwa die Zahl 1234567 zu ziehen, gegeben durch 77 ≈ 0, 14 · 106 . 70 · 69 · · · 64 Also ist die Losummer 1234567 etwa 160–mal wahrscheinlicher als das Los mit der Nummer 1111111. Als n¨achstes betrachten wir das Hutproblem. An einer Garderobe gibt eine Gruppe von n Personen ihre H¨ ute ab, jede Person genau einen. Durch einen Umstand werden die H¨ ute in einen Beh¨alter gelegt und dabei gr¨ undlich gemischt. Jede Person der Gruppe erh¨alt daraus einen Hut. Mit welcher Wahrscheinlichkeit Pn∗ erh¨alt mindestens eine Person ihren Hut? Versehen wir die H¨ ute mit den Nummern 1, . . . , n. Als Menge der elementaren Ereignisse ist dann Ω := {ω|ω : {1, . . . , n} −→ {1, . . . , n} Permutation} zu betrachten. Es ist #Ω = n! .
Baumeister: Mathematik II / Stand: Mai 1997
120
Da gr¨ undlich gemischt wurde, liegt ein Laplace–Experiment vor. Betrachten wir zun¨achst kleine Gruppengr¨oßen: n = 1 Hier ist alles klar: Pn∗ = 1. n = 2 Es gibt zwei Zuteilungen und nur eine f¨ uhrt zum Ergebnis, daß eine Person ihren Hut erh¨alt; also P2∗ = 12 . n = 3 Wir haben hier #Ω = 6. Wir notieren die Ausg¨ange verschiedener Zuteilungen (1, 2, 3), (1, 3, 2), (2, 1, 3), (3, 2, 1), (3, 1, 2), (2, 3, 1). und stellen fest, daß die vier ersten Zuteilungen zu einer Verteilung f¨ uhren, in der mindestens eine Person ihren Hut erh¨alt. Also P3∗ = 4 = 23 . 6 ¨ Mit wachsender Gruppengr¨oße wird die obige Uberlegung un¨ ubersichtlich. Z¨ahlen wir den allgemeinen Fall etwas anders ab. Es ist offenbar auf (n − 1)! verschiedene Arten m¨oglich, daß die erste Person der Gruppe ihren Hut zur¨ uckerh¨alt, es gibt n¨amlich (n − 1)! M¨oglichkeiten, die H¨ ute 2, . . . , n auf die Teilnehmer 2, . . . , n zu verteilen. Genauso ist es auf (n − 1)! verschiedene Weisen m¨oglich, daß der 2. Teilnehmer seinen Hut erh¨ ur die Teilnehmer 3, . . . , n. Also haben alt, ebenso f¨ ur zul¨assige Zuteilungen. wir insgesamt n · (n − 1)! = n! = n1 (n − 1)! M¨oglichkeiten f¨ Hier sind aber offenbar einige zul¨assige Zuteilungen (“Treffer“) vielfach gez¨ahlt worden, was uns auch schon die Tatsache lehrt, daß es ja insgesamt nur n!Zuteilungen gibt. Wir haben also nun die Doppeltreffer abzuziehen. Davon gibt es n2 (n − 2)!; sie sind dann von n! abzuziehen. Nun haben wir aber zuviele Zuteilungen abgezogen, n¨amlich die n Zuteilungen mit drei und mehr Treffern. Davon gibt es 3 (n − 3)!; wir haben sie wieder hinzuzuf¨ ugen. Nun haben wir die Zuteilungen mit mehr als 4 Treffern wieder abzuziehen; u.s.w. Insgesamt erh¨alt man f¨ ur die Treffer die Formel !
!
!
!
n X n n n n n n! − (n − 2)! + (n − 3)! − · · · − (−1) 1! = (−1)j+1 (n − j)! 2 3 n j j=1
F¨ ur die gesuchte Wahrscheinlichkeit folgt !
Pn∗
n n X 1 X 1 j+1 n = (−1) (n − j)! = (−1)j+1 n! j=1 j! j j=1
oder Pn∗
= 1−
n X
(−1)j
j=0
1 j!
F¨ ur n = 2, 3 ergeben sich die bereits bekannten Werte. Die Folge (Pn∗ )n∈IN ist nicht monoton. Aus Kapitel 4 wissen wir, daß die Reihe ∞ X j=0
(−1)j
1 j!
konvergiert und zwar gegen die Zahl e−1 . Also gilt
Baumeister: Mathematik II / Stand: Mai 1997
121
P ∗ := lim Pn∗ = 1 − e−1 ≈ 0.6321 n Es ist einigermaßen u ur große n keine wesentliche Abh¨angigkeit mehr ¨berraschend, daß f¨ von n gegeben ist. Bemerkung 5.8 In obigem Beispiel haben wir gekl¨art, mit welcher Wahrscheinlichkeit eine zuf¨allig aus der Menge der Permutation ausgew¨ahlte Permutation ω einen Fixpunkt hat, d.h. einen 2 Punkt i mit ω(i) = i. Das Hutproblem ist auch als Recontre-Problem bekannt und geht zur¨ uck auf P.R. Montmert (1708). Mit dem folgenden Beispiel Spielabbruch wollen wir auf den n¨achsten Abschnitt hinf¨ uhren. Zwei Spieler A und B spielen eine Folge von Spielen, wobei jeder Spieler jedes Spiel mit Wahrscheinlichkeit 12 gewinnt, unabh¨angig von den vorhergehenden Spielen. Beide bringen den gleichen Einsatz und vereinbaren, daß derjenige den Gesamteinsatz erh¨alt, der als erster insgesamt 10 Spiele gewonnen hat. Nach 15 Spielen haben A 8 Spiele und B 7 Spiele gewonnen. Durch einen unvorhergesehenen Zwischenfall sehen sich die beiden Spieler gezwungen, ihre Spielfolge nun abzubrechen. Wie ist der Gesamteinsatz aufzuteilen? Hier sind zwei Vorschl¨age : • A wird zum Sieger erkl¨art und erh¨alt den gesamten Einsatz. • Der Gesamteinsatz ist entsprechend der Wahrscheinlichkeit aufzuteilen, mit der ein Weiterspielen f¨ ur die Spieler zum Erfolg f¨ uhren w¨ urde. Der 1. Vorschlag wird verworfen, der zweite ist zu analysieren. 1. Analyse: Spielen wir fiktiv 4 weitere Spiele. Wir erhalten dann die folgenden Ausg¨ange (A steht f¨ ur Sieg f¨ ur A, B steht f¨ ur Sieg f¨ ur B): AAAA AAAB AABA ABAA BAAA AABB ABAB ABBA BAAB BABA BBAA
ABBB BABB BBAB BBBA BBBB
Wir stellen fest, daß innerhalb dieser 4 Spiele die Entscheidung f¨allt: A gewinnt in 11 F¨allen (1. Spalte), B gewinnt in 5 F¨allen (2. Spalte). 1 Da die obigen Ausg¨ange gleichverteilt die Wahrscheinlichkeit 16 haben, steht A 11 und B 16
Baumeister: Mathematik II / Stand: Mai 1997
122
5 16
des Gesamteinsatzes zu. 2. Analyse: In Realit¨at kommen die obigen Spiele gar nicht zustande, sondern nur die Spiele mit folgenden Ausg¨angen: AA ABA ABBA BAA BBAA BABA
ABBB BBB BABB BBAB
Hier gewinnt A in 6 F¨allen (1. Spalte) und B in 4 F¨allen (2. Spalte). Die Aufteilung 6 4 f¨ ur A und 10 f¨ ur B vom Gesamteinsatz w¨are aber nicht gerecht, denn die obigen 10 Spielausg¨ange k¨onnen nicht als gleichwahrscheinlich angesehen werden, da ja der Ausgang AA mit Wahrscheinlichkeit 12 · 12 und der Ausgang BBAB mit Wahrscheinlichkeit 12 · 12 · 12 · 12 zustandekommt. Die Ereignisse sind nicht gleichwahrscheinlich“ und wir sprengen den ” Rahmen der Laplace–Wahrscheinlichkeit. Dies f¨ uhrt uns zu einer Verallgemeinerung der Laplace–Wahrscheinlichkeit.
5.4
Wahrscheinlichkeit: Der endliche Fall
In einer realen Situation verbindet man mit Wahrscheinlichkeit“ eines Ereignisses die ” H¨aufigkeit, mit der es bei wiederholter Ausf¨ uhrung des Experiments eintreten wird. Betrachten wir ein Zufallsexperiment V mit Elementarereignissen Ω, #Ω < ∞. Wir interessieren uns daf¨ ur, wie wahrscheinlich das Eintreten des Ereignisses A ∈ P OT (Ω) ist. Wir wiederholen dazu den Versuch, n−mal (unabh¨angig voneinander) und z¨ahlen, wie oft das Ereignis A in diesen n Versuchen eingetreten ist. Ist das Ereignis A in diesen n Versuchen m−mal eingetreten, so setzen wir kn(A) := m , hn(A) :=
m n
und nennen kn (A) absolute H¨ aufigkeit und hn (A) relative H¨ aufigkeit des Ereignisses A in n Versuchen. Es sind folgende Eigenschaften zu beobachten: 1. 0 ≤ hn (A) ≤ 1 f¨ ur alle n ∈ IN ; 2. hn (Ω) = 1, hn (∅) = 0 f¨ ur alle n ∈ IN ; 3. hn (A ∪ B) = hn (a) + hn (B) − hn(A ∩ B) f¨ ur alle n ∈ IN ; 4. hn (A) ≤ hn (B) f¨ ur alle n ∈ IN , falls A ⊂ B . Wir f¨ uhren den Beweis nur zu 4. Sei A p–mal, B q–mal und A ∩ B r–mal in n Versuchen eingetreten. Dann ist A ∪ B (p + q − r)–mal eingetreten. Also hn (A ∪ B) =
p+q−r p q r = + − = hn (A) + hn(B) − hn(A ∩ B) n n n n
Baumeister: Mathematik II / Stand: Mai 1997
123
Man ist nun geneigt, die Wahrscheinlichkeit eines Ereignisses A ∈ P OT (Ω) durch P (A) := lim hn (A) n
einf¨ uhren zu wollen. Doch hier treten einige grunds¨atzliche Probleme auf: • Existiert der Grenzwert f¨ ur jedes A ∈ P OT (A)? (Im allgemeinen ist dies nicht der Fall!) hn (A) h¨angt von der konkreten Versuchsreihe ab! • Die eingef¨ uhrte Zahl lim n • Es sind unendlich viele Versuche durchzuf¨ uhren! Die erste Problematik k¨onnten wir eventuell umgehen durch die Auswahl von Situationen, in denen der Grenzwert existiert. Die dritte Problematik w¨are nicht mehr so ernst zu nehmen – endlich viele Wiederholungen k¨onnten als gute Approximation angesehen werden – , wenn die zweite Eigenschaft nicht gegeben w¨are. Das Konzept relative H¨aufigkeit“ ist trotz dieser grunds¨atzlichen Problematik nicht ” g¨anzlich zu verwerfen. Einerseits gibt es uns einen Hinweis, wie wir aus den Eigenschaften 1., 2., 3., 4. einen abstrakten Wahrscheinlichkeitsbegriff ableiten sollten, andererseits werden wir sehen, daß, nachdem wir einen Wahrscheinlichkeitsbegriff abstrakt eingef¨ uhrt haben, relative H¨aufigkeiten einen geeigneten Sinn erhalten (Gesetz der großen Zahlen; praktisch brauchbare Maßzahl f¨ ur die ideale“ Maßzahl einer Wahrscheinlichkeit.) ” Nun zur axiomatischen Begr¨ undung einer Wahrscheinlichkeit im endlichen Fall. Definition 5.9 Sei Ω eine endliche Menge mit Ereignisraum P OT (Ω). Eine Abbildung P : P OT (Ω) −→ IR heißt Wahrscheinlichkeitsverteilung oder Wahrscheinlichkeitsmaß, wenn folgende Bedingungen erf¨ullt sind: (a) P (Ω) = 1 ; (b) P (A) ≥ 0 f¨ur alle A ∈ P OT (Ω) ; (c) P (A ∪ B) = P (A) + P (B) f¨ur alle A, B ∈ P OT (Ω) mit A ∩ B = ∅. (Ω, P OT (Ω), P ) heißt dann ein endlicher Wahrscheinlichkeitsraum.
2
Die Forderung (c) in Definition 5.9 wird Additivit¨ at genannt. In einer realen Situation, in der wir mit Wahrscheinlichkeiten argumentieren wollen, haben wir ein Modell von der Bauart (Ω, P ) zu finden. Die Wahl Ω ist meist unproblematisch, die richtige“ Wahl von P ist aber meist unklar und gar nicht so einfach zu treffen. Damit ”
Baumeister: Mathematik II / Stand: Mai 1997
124
korrespondiert die schwierige Frage, was Wahrscheinlichkeiten in der realen Situation sind, hier haben wir sie nur f¨ ur ein Modell der realen Situation definiert. Gl¨ ucklicherweise kennen wir schon eine Problemklasse, bei der die Definition 5.9 greift. Folgerung 5.10 Sei V ein Laplace–Experiment mit Elementarereignissen Ω := {ω1 , . . . , ωn }. Dann wird mit #A P : P OT (Ω) 3 A 7−→ ∈ IR #Ω ein endlicher Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ) definiert. Beweis: Klar : P (Ω) = 1, P (A) ≥ 0 f¨ ur alle A ∈ P OT (Ω). Die Abz¨ahlformel #(A ∪ B) = #A + #B − #(A ∩ B) (siehe Regel (R2) aus Abschnitt 2.2) belegt die G¨ ultigkeit der dritten Forderung in 5.9. F¨ uhren wir noch einige Rechenregeln an. Sei (Ω, P ) ein endlicher Wahrscheinlichkeitsraum. Seien A, B ∈ P OT (Ω), A1 , . . . , Ak ∈ P OT (Ω). Es gilt: (R1) P (Ω\A) = 1 − P (A) . (R2) P (∅) = 0 . (R3) A ⊂ B =⇒ P (A) ≤ P (B) . (R4) P (B ∩ (Ω\A)) = P (B) − P (A ∩ B) . (R5) P (
l S
Ai ) =
i=1
l P i=1
P (Ai ), falls Ai ∩ Aj = ∅ f¨ ur i 6= j .
(R6) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) . (R7) P (A) =
P
P ({ω}) .
ω∈A
Die Regel (R1) folgt aus der Additivit¨at von P mit Ω = A ∪ (Ω\A), da A ∩ (Ω\A) = ∅. (R2) ist eine Konsequenz aus (R1). (R4) folgt aus der Additivit¨at von P mit B = B ∩ (Ω\A) ∪ (A ∩ B). (R3) folgt aus (R4). (R5) und (R6) sind nun trivial. Beispiel 5.11 Betrachte ein Gl¨ ucksrad, das in n Sektoren eingeteilt ist. Nimmt der i−te Sektor die pi −fache Fl¨ache des Vollkreises ein, so ist die Wahrscheinlichkeit, daß das Rad beim zuf¨alligen“ Drehen im i−ten Sektor stoppt, gleich pi anzusetzen. Es liegt daher nahe, ” das Experiment mit dem Wahrscheinlichkeitsraum Ω = {1, . . . , n} , P : P OT (Ω) −→ IR, {i} 7−→ pi zu beschreiben.
2
Baumeister: Mathematik II / Stand: Mai 1997
125
Bemerkung 5.12 In Beispiel 7.17 haben wir ein Wahrscheinlichkeitsmaß P dadurch definiert, daß wir nicht– negative Werte p1 , . . . , pn auf den Elementarereignissesn w1 , . . . , wn vorgegeben haben mit n P pi = 1. Man sieht sofort, daß diese Definition mit Definition 5.9 ¨aquivalent ist. In der i=1
allgemeineren Situation, daß Ω nicht endlich ist, die wir sp¨ater betrachten werden, ist hier ein Problem. 2 Es ist manchmal schwierig, die Wahrscheinlichkeit P (A) eines zusammengesetzten Ereignisses A zu ermitteln, wenn P u ¨ber die Elementarereignisse definiert ist. Nicht selten ist P (Ω\A) einfacher zu berechnen. Im allgemeinen sind auch Wahrscheinlichkeiten von Durchschnitten leichter zu ermitteln als Wahrscheinlichkeiten von Vereinigungen. Dazu beweisen wir nun die Siebformel von Poincar`e–Sylvester: Satz 5.13 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien A1, . . . , An ⊂ Ω. F¨ur jedes k = 1, . . . , n sei X
Pk :=
P (Ai1 ∩ · · · ∩ Aik ).
1≤i1 <···
Dann ist P (A1 ∪ · · · ∪ An) =
n X
(−1)k−1 Pk .
k=1
Beweis: Vollst¨andige Induktion u ¨ber n. n = 1 : Klar. n = 2 : P (A1 ∪ A2) = P (A1 ) + P (A2) − P (A1 ∩ A2) = P1 − P2 . n + 1 : Wir wissen P (A1 ∪· · · ∪An ∪An+1 ) = P (A1 ∪· · · ∪An)+P (An+1 )− P ((A1 ∩An+1 )∪· · · ∪(An ∩An+1 )). Mit der Induktionsvoraussetzung folgt P (A1 ∪ · · · ∪ An) =
n X
(−1)k−1
P (Ai1 ∩ · · · ∩ Aik ),
1≤i1 <···
k=1
P ((A1 ∩ An+1 ) ∪ · · · ∪ (An ∩ An+1 )) =
X
n X m=1
(−1)m−1
X
P (Aj1 ∩ · · · ∩ Ajm ∩ An+1 )
1≤j1 <···<jm ≤n
Einsetzen dieser Identit¨aten und Umordnung ergibt das Resultat.
Baumeister: Mathematik II / Stand: Mai 1997
126
Folgerung 5.14 Seien A1, . . . , An endliche Mengen. F¨ur jedes k = 1, . . . , n sei X
Nk :=
#(Ai1 ∩ · · · ∩ Aik ) .
1≤i1 <···
Dann ist #(A1 ∪ · · · ∪ An ) =
n X
(−1)k−1 Nk .
k=1
Beweis: Ω := A1 ∪ · · · ∪ An , P := Laplace–Wahrscheinlichkeit, Anwendung der Siebformel aus Satz 5.13. Beispiel 5.15 Betrachten wir erneut unser Hutbeispiel aus Abschnitt 3. Wir haben hier Ω = {ω : {1, . . . , n} −→ {1, . . . , n}|ω bijektiv} und P ({ω}) =
1 , ω ∈ Ω. n!
Betrachte das Ereignis A := {ω ∈ Ω|ω(j) = j f¨ ur mindestens ein j} und die Ereignisse Ai := {ω ∈ Ω|ω(i) = i}, 1 ≤ i ≤ n. Mit der Abz¨ahlregel gilt 1 (n − 1)! , 1 ≤ i ≤ n. n!
P (Ai ) = Dann folgt P (Ai ∩ Aj ) = und schließlich P(
m \
1 (n − 2)! , 1 ≤ i, j ≤ n, i 6= j, n!
1 (n − m)! , 1 ≤ i1 < · · · < im ≤ n . n!
Ail ) =
l=1
Somit folgt mit der Siebformel m [
P (A) = P (
Ai )
i=1
=
m X
X
P (Ai ) −
· · · + (−1)
n+1
= =
P (Ai1 ∩ Ai2 ) + · · ·
1≤i1
i=1
n X
l+1
(−1)
l=1 n X
X
P(
1≤i1 <···
1 n (n − l)! n! l
1 (−1)l+1 , l! l=1
!
n \
l=1
Ail )
Baumeister: Mathematik II / Stand: Mai 1997 da
P 1≤i1 <···
1=
n l
127
2
gilt. (Siehe Satz 2.19).
Bemerkung 5.16 Hat ein Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ) nur zwei Elementarereignisse, so spricht man von einem Bernoulli–Raum (Jakob Bernoulli (1654-1705)). Das eine Ereignis ω1 interpretiert man dann h¨aufig als Erfolg und identifiziert es mit 1 (oder Zahl (M¨ unzwurf)), das andere Ereignis ω2 interpetiert man als Fehlschlag und identifiziert es mit 0 (oder Kopf (M¨ unzwurf)). Der Bernoulli–Raum Ω = {0, 1} ist also v¨ollig durch die Erfolgswahrscheinlichkeit p := P ({1}) und Mißerfolgswahrscheinlichkeit q := P ({0}) mit p + q = 1 beschrieben. 2
5.5
Bedingte Wahrscheinlichkeiten
H¨aufig steht, bevor der Ausgang eines Zufalls–Experiments bekannt ist, schon die Information zur Verf¨ ugung, daß der Ausgang zu einer bestimmten (m¨oglicherweise eingeforderten) Teilmenge des Ereignisraumes geh¨ort. Was l¨aßt sich dann u ¨ ber Wahrscheinlichkeiten sagen? Diese Fragestellung wollen wir nun untersuchen. Zur Motivation des folgenden greifen wir auf den Begriff der relativen H¨aufigkeiten zur¨ uck. Sei V ein Zufallsexperiment mit zugeh¨origem Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ). Seien A, B Ereignisse in (Ω, P ). Der Versuch V werde nun n–mal (unabh¨angig) wiederholt. Die relativen H¨aufigkeiten von A unter der Bedingung B sind dann definiert durch hn (A|B) :=
#{ Es tritt A ∩ B ein } , n ∈ IN . #{ Es tritt B ein }
Erweitert man in Z¨ahler und Nenner mit n1 , so folgt hn (A|B) =
hn(A ∩ B) , n ∈ IN . hn(B)
Dabei haben wir hn(B) > 0, n ∈ IN , unterstellt. Analog zu dieser Formel kommen wir nun zu einer entsprechenden Begriffsbildung im Wahrscheinlichkeitsraum (Ω, P ). Definition 5.17 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Seien A, B ⊂ Ω mit P (B) > 0. Dann heißt P (A|B) :=
P (A ∩ B) P (B)
die bedingte Wahrscheinlichkeit des Ereignisses A unter der Bedingung B.
2
Baumeister: Mathematik II / Stand: Mai 1997
128
Folgerung 5.18 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Sei B ⊂ Ω mit P (B) > 0. Dann ist (Ω, P OT (Ω), PB ) mit PB (A) := P (A|B) , A ⊂ Ω, ein endlicher Wahrscheinlichkeitsraum. Beweis: Folgt unmittelbar. Folgerung 5.19 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Seien B1 , . . . , Bk ⊂ Ω mit Ω =
k S
i=1
Bi und Bi ∩ Bj = ∅, 1 ≤ i, j ≤ k, i 6= j, und P (Bi ) > 0, 1 ≤ i ≤ k.
(a) Dann ist P (A) =
k X
P (Bi )P (A|Bi ) , A ⊂ Ω.
i=1
(b) Gilt P (A) > 0, so gilt k X
P (Bj |A) = P (Bj )P (A|Bj )(
P (Bi )P (A|Bi))−1
i=1
f¨ur j = 1, . . . , k . Beweis: (a) ergibt sich aus der Additivit¨at von P und der Tatsache, daß A disjunkte Vereinigung von A ∩ B1 , . . . , A ∩ Bk ist. (b) folgt aus (a) zusammen mit P (Bj ∩ A) = P (Bj )P (A|Bj ), 1 ≤ j ≤ k. Das Ergebnis (a) aus Folgerung 5.19 heißt Satz von der totalen Wahrscheinlichkeit, das Ergebnis (b) wird als der Satz von Bayes (T. Bayes, ? – 1763) bezeichnet. In beiden F¨allen ist man mit der Forderung nicht verschwindender Wahrscheinlichkeiten (P (Bi ) > 0, 1 ≤ i ≤ n) konfrontiert. In der Formel in (a) kann man dies aber u ¨berspielen, da das Nennerproblem nun in der Definition bedingter Wahrscheinlichkeit angelegt ist. Beispiel 5.20 Greifen wir das Schachtelparadoxon wieder auf: Einem Beobachter werden drei Schachteln gleichen Aussehens vorgelegt. Er weiß, daß eine davon zwei Goldm¨ unzen, die zweite zwei Silberm¨ unzen und die dritte eine Gold– und eine Silberm¨ unze enth¨alt. Der Beobachter w¨ahlt, nachdem die Schachteln gut gemischt wurden, die 1. Schachtel und zieht daraus eine M¨ unze; es ist eine Goldm¨ unze. Mit welcher Wahrscheinlichkeit ist die in der Schachtel verbliebene M¨ unze ebenfalls aus Gold? In der Literatur wird die Antwort oft dann etwa so angegangen:
Baumeister: Mathematik II / Stand: Mai 1997
129
Wir setzen A := Eine Goldm¨ unze wird gezogen“ und Ei := Die gew¨ahlte Schachtel hat ” ” i Goldm¨ unzen“ . Wir setzen P (E2 ) := 13 . Da alle drei Schachteln . . . . Unseres Erachtens wird dabei etwas großz¨ ugig argumentiert: Keine Elementarereignisse werden definiert, kein Wahrscheinlichkeitsmaß wird festgelegt, . . . ! Wenn die Rahmen” bedingungen“ klar formuliert sind, mag man sich der abk¨ urzenden Redeweisen bedienen. Wir versuchen etwas genauer zu sein und uns an Definition 5.18 und Folgerung 5.19 zu halten. Sei Ω := {(ω, σ)|σ : {gg, gs, ss} −→ {1, 2, 3} bijektiv , ω ∈ {g, s}} . Hier steht gg etwa f¨ ur Goldm¨ unze/Goldm¨ unze und ω = g f¨ ur “eine Goldm¨ unze wird aus Schachtel 1 gezogen“; 1, 2, 3 steht f¨ ur eine Schachtelnummer und σ beschreibt die zuf¨allige Aufteilung auf die Schachteln. Wir wissen #Ω = 2 · 3! = 12 und haben folgendes Wahrscheinlichkeitsmaß auf Ω : P ((g, (gg, gs, ss)) = P ((g, (gs, gg, ss)) =
1 6 1 12
P ((g, (ss, gs, gg)) = 0 P ((g, (gg, ss, gs)) = P ((g, (gs, ss, gg)) =
1 6 1 12
P ((g, (ss, gg, gs)) = 0
P ((s, (gg, gs, ss)) = 0 P ((s, (gs, gg, ss)) = P ((s, (ss, gs, gg)) =
1 12 1 6
P ((s, (gg, ss, gs)) = 0 P ((s, (gs, ss, gg)) = P ((s, (ss, gg, gs)) =
1 12 1 6
Setze E := {(ω, σ)|σ(gg) = 1} und A := {(ω, σ)|ω = g} . Uns interessiert die Wahrscheinlichkeit P (E|A). Wir haben P (E) =
1 P (A ∩ E) P (E) 1 , P (A) = , P (A|E) = = = 1. 3 2 P (E) P (E)
Also mit Folgerung 5.19 P (E|A) =
P (A|E)P (E) 2 = . P (A) 3
2
Betrachten wir nun das sogenannte Ziegenproblem. 1 In einer Spielshow wird ein Kandidat vom Moderator vor drei geschlossene T¨ uren gef¨ uhrt. Hinter diesen T¨ uren sind ein Auto (Preis) und jeweils eine Ziege (Nieten) versteckt. Der Kandidat darf nun eine T¨ ur bestimmen, die ge¨offnet werden soll. Um die Spannung zu 1
G.v. Randow: Das Ziegenproblem, Reinbek, 1992, und I. Stewart: Mathematische Unterhaltungen, Spektrum 11/91, 12 – 16 .
Baumeister: Mathematik II / Stand: Mai 1997
130
¨ erh¨ohen, ¨offnet der Moderator aber vor der Offnung dieser T¨ ur – zuf¨allig, aber mit Vorgabe, daß dahinter kein Auto ist – eine andere T¨ ur; hinter dieser T¨ ur ist eine Ziege. Nun erlaubt der Moderator dem Kandidaten seine urspr¨ ugliche Wahl zu u ¨ berdenken und gegebenenfalls seine Entscheidung zu ¨andern. Wie soll er sich entscheiden? Gibt es aus stochastischer Sicht berechtigte Gr¨ unde, die T¨ ur zu wechseln? Ja, er soll wechseln! Dies wollen wir mit bedingten Wahrscheinlichkeiten erkl¨aren. Bevor wir dies tun, spielen wir die Situation mit 100 T¨ uren, einem Auto und 99 Ziegen durch; sie vermeidet die 1 1 : 1 : 1 Situation bei drei T¨ uren. Mit Wahrscheinlichkeit 100 haben wir die T¨ ur mit 99 dem Auto gew¨ahlt und mit Wahrscheinlichkeit 100 ist das Auto hinter den verbleibenden T¨ uren. Jetzt ¨offnet der Moderator 98 der verbleibenden T¨ uren, hinter jeder eine Ziege. 99 ist das Auto hinter der Nat¨ urlich w¨ urde jeder wechseln, denn mit Wahrscheinlichkeit 100 noch verschlossenen T¨ ur. Nun zum mathematischen Modell des Dreit¨ uren-Problems. O.E. ¨offnet der Kandidat die erste T¨ ur. Sei Ω := {(azz, 2), (azz, 3), (zaz, 3), (zza, 2)}. Hierbei steht etwa (azz, 2) f¨ ur : Auto hinter der 1. T¨ ur, Ziegen hinter T¨ ur 2 und T¨ ur 3; 2 bezeichnet die T¨ urwahl des Moderators. Wir haben als Wahrscheinlichkeitsmaß auf Ω : P ({(azz, 2)}) =
1 1 1 1 , P ({(azz, 3)}) = , P ({(zaz, 3)}) = , P ({(zza, 2)}) = . 6 6 3 3
Setze A1 := {(azz, 2), (azz, 3)}, A2 := {(zaz, 3)}, A3 := {(zza, 2)}. Wir haben P (A1) = P (A2) = P (A3) = 13 . Wir analysieren etwa den Fall, daß der Moderator T¨ ur 3 ¨offnet. Setze B := {(azz, 3), (zaz, 3)}. Wir haben dann P (B) = 12 und P (A1 ∩ B) = 16 , P (A2 ∩ B) = 13 , P (A3 ∩ B) = 0. Also P (B|A1) = 12 , P (B|A2) = 1, P (B|A3 ) = 0. Damit erhalten wir: P (A1|B) =
P (A1)P (B|A1) 1 = P (B|A1)P (A1 ) + P (B|A2)P (A2 ) + P (B|A3) · P (A3) 3
P (A2|B) =
P (A2)P (B|A2) 2 = P (B|A1)P (A1 ) + P (B|A2)P (A2 ) + P (B|A3) · P (A3) 3
,
Nun liegt der Beleg f¨ ur den Ratschlag Wechsel“ vor ! ” Aus der bedingten Wahrscheinlichkeit leitet sich der Begriff der Unabh¨angigkeit ab, der f¨ ur die Bewertung von Beobachtungen von Zufallsexperimenten von u ¨berragender Bedeutung ist. Wir lassen uns dabei davon leiten, daß in einem Wahrscheinlichkeitsraum (Ω, P ) zwei Ereignisse A, B (nach Wahrscheinlichkeit) als unabh¨angig voneinander zu betrachten sind,
Baumeister: Mathematik II / Stand: Mai 1997
131
wenn P (A) mit der bedingten Wahrscheinlichkeit P (A|B) u ¨ bereinstimmt. Da P (A|B) nur f¨ ur P (B) > 0 erkl¨art ist, definiert man: Definition 5.21 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ⊂ Ω heißen unabh¨ angig, wenn P (A ∩ B) = P (A)P (B)
2
gilt.
Unabh¨angigkeit ist ein in A, B symmetrischer Begriff. Sind A, B ⊂ Ω unabh¨angig, dann sind es auch A, Ω\B und Ω\A, B und Ω\A, Ω\B. Die Verallgemeinerung der Unabh¨angigkeit auf mehr als zwei Ereignisse liegt auf der Hand: Definition 5.22 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien A1 , . . . , Ak Ereignisse. Diese Ereignisse heißen unabh¨ angig, wenn f¨ur jede Wahl 1 ≤ i1 < · · · < il ≤ k gilt: P (Ai1 ∩ · · · ∩ Ail ) = P (Ail ) · · · P (Ail ).
2
Beispiel 5.23 Betrachte den Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ) mit 1 Ω = {ω1 , ω2, ω3 , ω4 }, P ({ωi }) = , i = 1, . . . , 4, 4 mit Ereignissen A = {ω1 , ω2 }, B = {ω2 , ω3 }, C = {ω1 , ω3 }. Wir haben P (A ∩ B) = P (A)P (B) , P (A ∩ C) = P (A)P (C) , P (B ∩ C) = P (B)P (C), aber
1 P (A ∩ B ∩ C) = 0, P (A) · P (B) · P (C) = . 8 Dieses Beispiel beleuchtet die Definition 5.22.
2
Baumeister: Mathematik II / Stand: Mai 1997
5.6
132
Produkt von Wahrscheinlichkeitsr¨ aumen
Seien (Ω1 , P OT (Ω1 ), P1 ), . . . , (Ωm , P OT (Ω1 ), Pm ) endliche Wahrscheinlichkeitsr¨aume, die aus den Zufallsexperimenten V1 , . . . , Vm resultieren m¨ogen. Daraus wollen wir nun einen Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ) als Modell f¨ ur das Experiment V , das aus der unabh¨angigen Hintereinanderausf¨ uhrung von V1 , . . . , Vm besteht, bauen. F¨ ur die Ereignismenge ist die Wahl wohl klar: Ω := Ω1 × · · · × Ωm . Als Wahrscheinlichkeit f¨ ur den Ausgang des Elementarereignisses ω = (ω1 , . . . , ωm ) ∈ Ω bietet sich P1 (ω1 ) · · · Pm (ωm ) an. Hierdurch wird Unabh¨angigkeit“ eingearbeitet. ” Definition 5.24 Seien (Ω1 , P OT (Ω1 ), P1 ), . . . , (Ωm , P OT (Ωm ), Pm ) endliche Wahrscheinlichkeitsr¨aume. Dann heißt (Ω, P OT (Ω), P ) mit Ω := Ω1 × · · · × Ωm , P := P1 × · · · × Pm , wobei P (A) := P1 (A1) · · · Pm (Am ) f¨ur A = A1 × · · · × Am ⊂ Ω ist, das Produkt der Wahrscheinlichkeitsr¨aume und P = P1 × · · · × Pm das Produkt–Wahrscheinlichkeitsmaß. 2 Offenbar liegt in Ω := Ω1 × · · · × Ωm , P := P1 × · · · × Pm in der Tat ein endlicher Wahrscheinlichkeitsraum vor und wir haben f¨ ur Zylindermengen A := A1 × · · · × Am ∈ P OT (Ω1 × · · · × Ωm ) nach Definition P (A) = P1 (A1) · · · Pm (Am ) . (Beachte: Nicht jede Teilmenge von Ω1 × · · · × Ωm ist eine Zylindermenge.) Betrachte nun einen Bernoulli–Raum (Ω, P OT (Ω), P ) mit Ω = {0, 1}, P (1) =: p, P (0) =: q. Wiederholt man ein solches Experiment mehrmals (unabh¨angig voneinander), so spricht man von einem Bernoulli-Experiment. Ist etwa die Anzahl der Wiederholungen n, so ist (Ωn , P OT (Ωn), P n ) mit Ωn := |Ω × ·{z · · × Ω} , P n := |P × ·{z · · × P} n−mal
n−mal
Baumeister: Mathematik II / Stand: Mai 1997
133
der zugeh¨orige Wahrscheinlichkeitsraum. Der Ausgang eines Experiments ist hier ein Wort der L¨ange n u ¨ber dem Alphabet {0, 1}. Jedes Wort mit k Einsen und n − k Nullen hat die Wahrscheinlichkeit pk (1−p)n−k . Die Wahrscheinlichkeit, daß bei n−maliger Wiederholung die Anzahl der Erfolge (1 tritt ein) genau k ist, ist daher !
n k p (1 − p)n−k , β(k; n, p) := k
da es genau nk m¨ogliche Verteilungen von Einsen auf n Pl¨atze gibt. Man nennt β(·, n, p) die Binominalverteilung mit den Parametern n, p. Aus der Bedingungsgleichung 1 − β(0; n, p) = 1 − (1 − p)n >
1 2
liest man ab, wieviele Wiederholungen man durchf¨ uhren muß, damit beim Parameter p 1 mindestens ein Erfolg mit Wahrscheinlichkeit > 2 auftritt. Beispiel 5.25 Ein Spieler macht mit einem W¨ urfel 4 W¨ urfe. Kommt dabei keine Sechs, hat er gewonnen, kommt eine Sechs vor, hat die Bank gewonnen. Dieses Spiel bevorzugt die Bank, wie aus der Ungleichung 5 1 ( )4 ≈ 0, 48 < 6 2 hervorgeht. Eine Variante ist: Wir werfen statt mit einem W¨ urfel mit zwei W¨ urfeln und machen 24 solche Doppelw¨ urfe. Kommt dabei keine Doppelsechs, gewinnt der Spieler, kommt eine Doppelsechs, gewinnt die Bank. Hier ist nun der Spieler im Vorteil, wie man aus der Ungleichung 1 35 ( )24 > 36 2 35 abliest; 36 ist die Wahrscheinlichkeit, daß bei einem Wurf mit zwei W¨ urfeln keine Doppelsechs eintritt. Dem Irrtum, dem man im Zusammenhang mit solchen Experimenten nicht erliegen sollte, ist hier abzulesen: Die Wahrscheinlichkeit f¨ ur eine Doppelsechs bei zwei Versuchen ist nicht doppelt so groß wie bei einem Versuch; solche Wahrscheinlichkeiten kann man nicht 2 addieren. Bevor wir mit der Erweiterung der Wahrscheinlichkeitstheorie fortfahren, bauen wir die Analysiskenntnisse dahingehend aus, daß ein besseres Verst¨andnis von Abbildungen mit Wertebereich IR vorliegt.
Kapitel 6 Reelle Funktionen und Stetigkeit Wir betrachten hier Abbildungen mit Definitions- und Wertebereich in IR : Reelle Funktionen. Uns interessieren Eigenschaften, die bei der Diskussion von Funktionen von besonderem Wert sind. Abschließend betrachten wir spezielle Funktionen, die f¨ ur ganz konkrete und praktische Probleme gebraucht werden.
6.1
Reelle Funktionen
Wir erinnern an den Abbildungsbegriff: Ist f : D −→ IR, D ⊂ IR, so ist D der Definitions-, f(D) := {y|y = f(x), x ∈ D} der Wertebereich und G := {(x, f(x))|x ∈ D} der Graph von f. (Der Graph dient h¨aufig auch zur Veranschaulichung der Funktion.) Beispiel 6.1 Mehr oder minder interessante Beispiele sind • D := IR, f(x) := |x|. • D := [−1, 1], f(x) :=
√
1 − x2 .
• D := IR, f(x) := x2. • D := [0, ∞) := {x ∈ IR |x ≥ 0}, f(x) :=
√
x.
2 Erinnert sei auch an die Hintereinanderausf¨ uhrung von Funktionen: Sind f : D −→ IR, g : E −→ IR, E ⊂ f(D), so l¨aßt sich g ◦ F : D 3 x 7−→ g(f(x)) ∈ IR die Hintereinanderausf¨ uhrung von f, g betrachten. 134
Baumeister: Mathematik II / Stand: Juni 1997
135
Beispiel 6.2 Betrachte f : [0, ∞) 3 x 7−→ x2 ∈ IR . und g : [0, ∞) 3 x 7−→
√ x ∈ IR .
Es ist (f ◦ f)(x) = x4 , x ∈ [0, ∞), (g ◦ f)(x) = (f ◦ g)(x) = x , x ∈ [0, ∞).
2
(g ist die Umkehrabbildung von f!)
Aus gegebenen Funktionen kann man unter Ausnutzung der algebraischen Eigenschaften der reellen Zahlen neue Funktionen bilden. Seien also f : D −→ IR, g : D −→ IR Funktionen. Damit betrachte f + g : D 3 x 7−→ f(x) + g(x) ∈ IR
(Addition)
f · g : D 3 x 7−→ f(x) · g(x) ∈ IR f : D 3 x 7−→ f(x) ∈ IR g g(x)
(Multiplikation) (Division)
Klar, bei der Division haben wir auszuschließen, daß f¨ ur ein x ∈ D die Aussage g(x) = 0 gilt. Wir nennen f + g die Summe, f · g das Produkt und fg den Quotienten von f und g . Diese Konstruktionsprinzipien f¨ uhren uns zu einer wichtigen Funktionenklasse, den Polynomen. Dies sind Funktionen der folgenden Form: f : IR 3 x 7−→
n X
ai xi ∈ IR .
i=0
Sie sind durch Addition und Multiplikation aus den Monomen IR 3 x 7−→ xi ∈ IR (i = 0, . . . , n) und den konstanten Funktionen IR 3 x 7−→ a ∈ IR (a ∈ IR) entstanden. Hierbei kann man sich das Monom IR 3 x 7−→ xi ∈ IR selbst wieder durch Multiplikation entstanden denken. Die reellen Zahlen a0, . . . , an heißen Koeffizienten des obigen Polynoms und n heißt Grad des Polynoms, falls an 6= 0 ist (sonst verringere die Darstellung zu
n−1 P
aixi ). Wir
i=0
kommen unten auf eine genauere Betrachtung der Begriffe zur¨ uck. Polynome haben u ¨ berragende Bedeutung in nahezu jedem Zweig der Mathematik. In der Analysis, da man mit ihnen gute N¨aherungen f¨ ur Funktionen bilden kann (Approximationssatz von Weierstraß), in der Algebra, da sie selbst eine interessante Struktur
Baumeister: Mathematik II / Stand: Juni 1997
136
sind und andere Strukturen aufkl¨aren helfen (Ringtheorie, K¨ orpererweiterung), in der Numerik, da sie als N¨aherung f¨ ur Funktionen einfach zu handhaben sind, denn man kann sie abspeichern und manipulieren durch die Koeffizienten. Durch Division von Polynomen erh¨alt man die rationalen Funktionen. Dabei muß man aber die Nullstellen des Nennerpolynoms aus dem Definitionsgebiet entfernen. Der Fundamentalsatz der Algebra, der besagt, daß ein Polynom von Grad n h¨ochstens n Nullstellen besitzt und auf dessen Beweis wir hier noch verzichten m¨ ussen, ist hier von Nutzen.
6.2
Grenzwerte von Funktionen
Bei reellen Folgen haben wir das Verhalten f¨ ur n → ∞ studiert; Folgen sind Abbildungen von IN nach IR. Nun untersuchen wir das Verhalten von Funktionen f : D −→ IR, D ⊂ IR, wenn sich x ∈ D einem Punkt a ∈ IR n¨ahert“ . Wir haben dazu ” x nahe bei a ⇐⇒ f(x) nahe bei y“ ” zu pr¨azisieren. Definition 6.3 Sei D ⊂ IR . Ein Punkt y ∈ IR heißt Ber¨ uhrungspunkt von D, falls es eine Folge (xn)n∈IN gibt mit xn ∈ D f¨ur alle n ∈ IN , y = lim xn . n
2
Beispiel 6.4 D := (a, b); Ber¨ uhrungspunkte [a, b]. D := [a, b) ∪ {c}; Ber¨ uhrungspunkte [a, b] ∪ {c}. 1 D := { n |n ∈ IN }; Ber¨ uhrungspunkte { n1 |n ∈ IN } ∪ {0}.
2
Definition 6.5 Sei f : D −→ IR und sei a ∈ IR Ber¨uhrungspunkt von D. y heißt Grenzwert von f bei a, falls f¨ur jede Folge (xn )n∈IN mit xn ∈ D f¨ur alle n ∈ IN , a = lim xn n gilt: y = lim f(xn). n Wir schreiben dann: y = x→a lim f(x).
2
Baumeister: Mathematik II / Stand: Juni 1997
137
Ein Grenzwert von f bei a ist eindeutig bestimmt. Dies folgt unmittelbar aus der Eindeutigkeit des Grenzwerts von Folgen. Miterfaßt bei der Definition 6.5 sind rechts- und linksseitige Grenzwerte. Hat man etwa die Situation f : D −→ IR , D = (a, b), so kann man lim f(x) , lim f(x)
x→a
x→b
betrachten, da a und b Ber¨ uhrungspunkte von D sind. Beispiel 6.6 Betrachte
x2 − 1 . x−1 Offenbar ist a := 1 ein Ber¨ uhrungspunkt von D := IR \{1}. F¨ ur x 6= 1 haben wir f : IR \{1} −→ IR, f(x) :=
f(x) =
(x − 1)(x + 1) x2 − 1 = = x + 1 := g(x) . x−1 (x − 1)
Daraus lesen wir lim f(x) = lim g(x) = 1 + 1 = 2
x→1
x→1
ab.
2
Beispiel 6.7 Betrachte f : IR −→ IR, x 7−→ sign(x). Existiert der Grenzwert von f bei a = 0? Nein, denn f(xn) = 1 , lim f(−xn) = −1 lim n n f¨ ur die Folge (xn )n∈IN mit xn = n1 , n ∈ IN .
2
Wir wollen nun noch pr¨azisieren, was x groß (klein) =⇒ f(x) nahe bei y“ ” heißen soll. Dazu ben¨otigen wir Folgen, die gegen +∞ bzw. − ∞ konvergieren“ . ” Definition 6.8 Sei (xn )n∈IN eine Folge. Wir sagen: (a) lim xn = ∞ : ⇐⇒ ∀L > 0 ∃N ∈ IN ∀n ≥ N (xn > L) . n (b) lim xn = −∞ : ⇐⇒ ∀L < 0 ∃N ∈ IN ∀n ≥ N (xn > L) . n
2
Baumeister: Mathematik II / Stand: Juni 1997
138
Beispiel 6.9 n2 + 1 = lim(n + 1 ) = ∞. lim n = ∞ , lim −n = −∞ , lim n n n n n n
2
Definition 6.10 Sei f : D −→ IR und sei ∞ ein Ber¨uhrungspunkt von D, d.h. es gibt eine Folge (xn)n∈IN mit xn ∈ D f¨ur alle n ∈ IN und lim xn = ∞. Wir sagen dann, daß f den n Grenzwert y bei ∞ hat, wenn f¨ur jede Folge (xn)n∈IN mit xn ∈ D f¨ur alle n ∈ IN , ∞ = lim xn n gilt: y = lim f(xn). n Wir schreiben dann lim f(x) = y.
x→∞
2
Beispiel 6.11 1 2+ 1 2x + 1 n =2. lim = 0, lim = x→∞ lim x→∞ x x→∞ 3x + 2 2 3 3+ x
2
Beispiel 6.12 Hat man einen endlichen Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ) mit Ω ⊂ IR, so ist die sogenannte Verteilungsfunktion FP : IR 3 x 7−→ P ({ω ∈ Ω|ω < x}) ∈ IR ein interessantes Objekt. Die Funktion ist monoton wachsend, d.h. FP (x) ≥ FP (y) , falls x ≥ y, und konstant auf jedem Intervall, das keinen Punkt ω ∈ Ω mit P (ω) < 0 enth¨alt. In jedem Punkt ω ∈ Ω mit P (ω) > 0 springt“ die Verteilungsfunktion FP um P (ω). Rechts- und ” linksseitige Grenzwerte existieren in jedem ω ∈ Ω. 2
Baumeister: Mathematik II / Stand: Juni 1997
6.3
139
Stetigkeit
Hier besch¨aftigen wir uns mit x nahe bei a =⇒ f(x) nahe bei f(a).“ ” in der Situation, wenn a im Definitionsbereich von f ist. Definition 6.13 Sei f : D −→ IR . (a) f heißt stetig in a ∈ D, wenn x→a lim f(x) = f(a) gilt. (b) f heißt stetig (in D), wenn f stetig in jedem a ∈ D ist. B. Bolzano (1781 – 1848) gab 1816 die erste Definition einer stetigen Funktion: “Zu sagen, eine reellwertige Funktion der reellen Variablen x sei f¨ ur alle Werte von x, die einem gegebenem Intervall angeh¨oren, stetig, bedeutet nur so viel, daß wenn x irgend ein solcher Werth ist, der Unterschied f(x + ω) − f(x) kleiner als jede gegebene Gr¨oße gemacht werden k¨onne, wenn man ω so klein, als man nur immer will, annehmen kann“. Satz 6.14 Sei f : D −→ IR, a ∈ D. Es sind ¨aquivalent: (a) f ist stetig in a. (b) ∀ > 0 ∃δ > 0 ∀x ∈ D (|x − a| < δ =⇒ |f(x) − f(a)| < )
2 Beweis: Zu (a) =⇒ (b). Sei > 0. Annahme: ∀δ > 0 ∃x ∈ D (|x − a| < δ, |f(x) − f(a)| ≥ ) Dann erhalten wir eine Folge (xn )n∈IN mit xn∈IN ∈ D , |xn − a| <
1 , |f(xn) − f(a)| ≥ , n ∈ IN . n
Also ist lim xn = a n und f(a) nicht Grenzwert von (f(xn ))n∈IN , was ein Widerspruch ist. Zu (b) =⇒ (a). Sei (xn)n∈IN eine Folge mit xn ∈ D f¨ ur alle n ∈ IN , a = lim xn . n Sei > 0. W¨ahle δ > 0 gem¨aß (b). Dazu gibt es N ∈ IN mit |xn − a| < δ f¨ ur alle n ∈ IN .
Baumeister: Mathematik II / Stand: Juni 1997
140
Also gilt |f(xn ) − f(a)| < f¨ ur alle n ∈ IN , was die Konvergenz von (f(xn ))n∈IN gegen f(a) beweist. Man sagt, die Stetigkeit einer Funktion f in a sei eine lokale Eigenschaft, da sie nur vom Verhalten der Funktion nahe bei a abh¨angt. In der Topologie wird dazu der Umgebungsbegriff ( nahe bei“) abstrakt gefaßt und lokales Verhalten damit erfaßt. Aus den ” Rechenregeln f¨ ur Grenzwerte ergeben sich sofort Rechenregeln f¨ ur stetige Funktionen. Seien f, g : D −→ IR stetig in a ∈ D. Dann gilt: (R1) f + g : D 3 x 7−→ f(x) + g(x) ∈ IR ist stetig in a. (R2) f · g : D 3 x 7−→ f(x)g(x) ∈ IR ist stetig in a. f(x) (R3) fg : D 3 7−→ ∈ IR ist stetig in a, falls g(x) 6= 0 ist f¨ ur alle x ∈ D. g(x) Diese Rechenregel gestattet es, Polynome sofort als stetig zu erkennen, denn offenbar ist jede konstante Funktion IR 3 x 7−→ x ∈ IR (c ∈ IR) und die Identit¨at IR 3 x 7−→ x ∈ IR stetig. Durch Division von Polynomen erh¨alt man die rationale Funktion. Sie sind auch stetig (da die Nullstellen des Nennerpolynoms aus dem Definitionsgebiet entfernt sind). Beispiel 6.15 • Die Abbildung IR 3 x 7−→ |x| ∈ IR ist stetig. Dies folgt aus 4.42 oder mit (b) aus Satz 6.14 so: W¨ahle zu > 0 δ := und lese die Aussage aus ||x| − |a|| ≤ |x − a| ab. • Die Abbildung
2 2x + 1 f : IR \{− } 3 x 7−→ ∈ IR 3 3x + 2 ist als rationale Funktion stetig.
• Die Abbildung
(
f : IR 3 x 7−→
0 1
,x ∈Q 0 ,x ∈ /Q 0
ist in keinem a ∈ IR stetig. Dies folgt aus der Tatsache, daß es zu jedem a ∈ Q 0 eine Folge (xn )n∈IN mit xn ∈ IR \ Q 0 f¨ ur alle n ∈ IN , lim xn = a gibt, und zu jedem n a ∈ IR \ Q 0 eine Folge (xn)n∈IN mit xn ∈ Q 0 f¨ ur alle n ∈ IN , lim xn = a gibt. n
Baumeister: Mathematik II / Stand: Juni 1997
141
Die Hintereinanderausf¨ uhrung von Funktionen ist bez¨ uglich der Eigenschaft “Stetigkeit“ eine vertr¨agliche Konstruktion, denn Satz 6.16 Sei f : D −→ IR stetig in a ∈ D, f(D) ⊂ W, g : W −→ IR stetig in f(a). Dann ist g ◦ f : D −→ IR stetig in a . Beweis: Sei (xn )n∈IN eine Folge mit xn ∈ D, n ∈ IN , und lim xn = a. Dann folgt mit der Stetigkeit n von f lim f(xn ) = f(a) n und mit der Stetigkeit von g g(f(xn)) = g(f(a)), lim n d. h. lim(g ◦ f)(xn) = (g ◦ f)(a). n
6.4
S¨ atze u ¨ ber stetige Funktionen
In den folgenden S¨atzen wird die Gutartigkeit“ von stetigen Funktionen deutlich. ” Satz 6.17 Sei f : D −→ IR stetig in a ∈ D. Sei r ∈ IR mit f(a) > r. Dann gibt es δ > 0 mit f(x) > r f¨ur alle x ∈ D ∩ (a − δ, a + δ). Beweis: Sei ∈ IR mit 0 < < f(a) − r. Dazu gibt es δ > 0 mit |f(x) − f(a)| < ∀x ∈ D ∩ (a − δ, a + δ). Daraus folgt f(x) > f(a) − > r ∀x ∈ D ∩ (a − δ, a + δ).
Von B. Bolzano wurde 1817 der folgende Nullstellensatz bewiesen. Satz 6.18 Sei f : [a, b] −→ IR stetig. Haben f(a) und f(b) verschiedene Vorzeichen, so gibt es z ∈ [a, b] mit f(z) = 0. Beweis:
Baumeister: Mathematik II / Stand: Juni 1997
142
Es gen¨ ugt den Fall f(a) ≤ 0, f(b) ≥ 0 zu betrachten. Wir konstruieren Folgen (an)n∈IN , (bn)n∈IN in [a, b] mit 1 f(an ) ≤ 0 ≤ f(bn), bn+1 − an+1 = (bn − an ), n ∈ IN . 2
(6.1)
induktiv: a0 := a, b0 := b; (
an+1 := (
bn+1 :=
1 (a 2 n
+ bn ) an
, falls f( 12 (an + bn )) ≤ 0 , sonst
bn 1 (a + bn ) 2 n
, falls f( 12 (an + bn )) ≤ 0 , sonst
Klar, (6.1) ist damit erf¨ ullt. Offenbar ist mit den Folgen (an )n∈IN , (bn)n∈IN eine Intervallschachtelung gegeben. Die dadurch definierte Zahl z ∈ [a, b] ist eine Nullstelle von f , da wegen der Stetigkeit an = lim bn = z, lim n n f(z) = lim f(an ) ≤ 0 , f(z) = lim f(bn ) ≥ 0. n n Eine unmittelbare Folgerung aus dem Nullstellensatz ist der folgende Zwischenwertsatz,1 der schließlich auch wieder den Nullstellensatz einschließt. Satz 6.19 Sei f : [a, b] −→ IR stetig. Zu jedem c zwischen f(a) und f(b) gibt es z ∈ [a, b] mit f(z) = c. Beweis: Sei c zwischen f(a) und f(b). Betrachte g : [a, b] 3 x 7−→ f(x) − c ∈ IR . g ist stetig, da f stetig ist, und 0 liegt zwischen g(a) und g(b). Also gibt es nach Satz 6.18 eine Nullstelle z von g in [a, b]; d.h. f(z) = c.
Das im Beweis zu Satz 6.18 verwendete Intervallhalbierungsverfahren liefert eine einfache und zuverl¨assige Methode zur N¨aherung von Nullstellen einer stetigen Funktion. Man nennt sie das Bisektionsverfahren. Wenn wir u ¨ ber Sekanten und Tangenten Bescheid wissen, werden wir eine Beschleunigung“ dieser Idee (Regula falsi) kennenlernen. ” Beispiel 6.20 1
Mit c zwischen p, q wollen wir ausdr¨ ucken, daß entweder p ≤ c ≤ q oder q ≤ c ≤ p gilt.
Baumeister: Mathematik II / Stand: Juni 1997 Betrachte die Gleichung
143
e−x = x.
Wir haben
1 − 1 < 0. e Also besitzt die obige Gleichung nach dem Nullstellensatz 6.18 eine L¨osung, falls wir die G¨ ultigkeit von “IR 3 x 7−→ e−x ∈ IR ist stetig“ vorwegnehmen. Sie ist sogar eindeutig bestimmt, wie wir sp¨ater sehen werden. 2 e−0 − 0 = 1 > 0, e−1 − 1 =
Satz 6.21 Sei f : [a, b] −→ IR stetig. Dann gibt es u, v ∈ [a, b] mit f(u) ≤ f(x) ≤ f(v) , x ∈ [a, b]. Beweis: Offenbar sind u, v ∈ [a, b] gesucht mit f(u) = inf f(x) , f(v) = sup f(x). x∈[a,b]
x∈[a,b]
Zur Existenz von u : Annahme: {f(x)|x ∈ [a, b]} ist nicht nach unten beschr¨ankt. Dann gibt es eine Folge (xn )n∈IN mit xn ∈ [a, b], f(xn) < −n f¨ ur alle n ∈ IN . Da die Folge (xn )n∈IN beschr¨ankt ist, besitzt sie nach Folgerung 4.41 eine konvergente Teilfolge (xnk )k∈IN ; z := lim xnk . Da f stetig ist, gilt k
f(z) = lim f(xnk ) = −∞ . k
Dies ist aber ein Widerspruch. Also ist nun {f(x)|x ∈ [a, b]} nach unten beschr¨ankt und es existiert inf f(x) . Offenbar x∈[a,b]
gibt es daher eine Folge (xn)n∈IN mit xn ∈ [a, b], n ∈ IN , lim f(xn ) = inf f(x). n x∈[a,b]
Da die Folge (xn )n∈IN beschr¨ankt ist, besitzt sie nach Folgerung 4.41 eine konvergente Teilfolge (xnk )k∈IN ; u := lim xnk . Da f stetig ist, gilt k
f(u) = lim f(xnk ) = lim f(xn ) = inf f(x). n k
x∈[a,b]
Zur Existenz von v : Beweise analog oder beachte, daß sup f(x) = − inf (−f)(x) x∈[a,b]
ist.
x∈[a,b]
Baumeister: Mathematik II / Stand: Juni 1997
144
Der obige Satz 6.21 besagt, daß eine stetige Funktion auf einem abgeschlossenem beschr¨ankten Intervall – die Verallgemeinerung davon ist der Begriff der kompakten Menge – Minimum und Maximum annimmt. Die Frage nach der G¨ ultigkeit eines Satzes diesen Typs in Unendlichdimensionalen war wesentlich f¨ ur das Verst¨andnis der Analysis im 19. Jahrhundert; K. Weierstraß (1815 – 1897) leistete dazu entscheidende Beitr¨age. Definition 6.22 Sei f : [a, b] −→ IR . (a) F heißt monoton wachsend (bzw. monoton fallend), wenn f¨ur alle x, y ∈ [a, b] mit x ≤ y stets f(x) ≤ f(y) (bzw. stets f(x) ≥ f(y)) ist. (b) F heißt streng monoton wachsend (bzw. streng monoton fallend), wenn f¨ur alle x, y ∈ [a, b] mit x < y stets f(x) < f(y) (bzw. stets f(x) > f(y)) ist.
2 Zusammenfassend sprechen wir auch von monotonen bzw. streng monotonen Funktionen, wenn es uns auf den Monotonietyp (wachsend/fallend) nicht ankommt. Genau dann ist f (streng) monoton wachsend, wenn −f (streng) monoton fallend ist. Es gen¨ ugt daher meist, sich auf einen Monotonietyp zu beschr¨anken. Satz 6.23 Sei f : [a, b] −→ IR stetig und streng monoton wachsend. Dann gilt: (a) f([a, b]) = [f(a), f(b)] =: J . (b) Die Umkehrfunktion f −1 : J −→ [a, b] existiert. (c) f −1 ist streng monoton wachsend und stetig. Beweis: (a) folgt aus dem Zwischenwertsatz 6.19. Zu (b): Da f streng monoton wachsend ist, ist f : [a, b] −→ J bijektiv. Zu (c): Klar, f −1 ist auch streng monoton wachsend. Sei y ∈ I und sei (yn)n∈IN eine Folge mit y ∈ J f¨ ur alle n ∈ IN , y = lim yn . n Sei xn := f −1 (yn ), n ∈ IN , und x := f −1 (y). Da (xn)n∈IN eine Folge in dem beschr¨ankten Intervall [a, b] ist, enth¨alt (xn )n∈IN eine konvergente Teilfolge (xnk )k∈IN ; x˜ := lim xnk . Aus k der Stetigkeit von f folgt f(˜ x) = lim f(xnk ) = lim ynk = y = f(x). k
k
Da f streng monoton ist, ist x˜ = x. Daraus schließt man, siehe nachfolgendes Lemma 6.24, daß die gesamte Folge (xn)n∈IN gegen x konvergiert, also lim f −1 (yn ) = f −1 (y). n
Baumeister: Mathematik II / Stand: Juni 1997
145
Lemma 6.24 Sei (xn )n∈IN eine beschr¨ankte Folge. Dann gilt: (a) Jede Teilfolge von (xn)n∈IN enth¨alt eine konvergente Teilfolge. (b) Hat jede konvergente Teilfolge der Folge (xn)n∈IN denselben Grenzwert x, so konvergiert (xn)n∈IN gegen x. Beweis: Zu (a). Dies ist bereits in Satz 4.41 festgehalten. Zu (b). Annahme: (xn )n∈IN konvergiert nicht gegen x. Sei ε > 0 . Dann gibt es eine Teilfolge (xnk )k∈IN mit |xnk − x| ≥ ε f¨ ur alle k ∈ IN . Diese Folge enth¨alt aber nach (a) eine konvergente Teilfolge mit Grenzwert x. Dies ist im Widerspruch zu |xnk − x| ≥ ε f¨ ur alle k ∈ IN . Bemerkung 6.25 Der Satz 6.23 beh¨alt seine entsprechend abgewandelte G¨ ultigkeit, wenn man streng mo” noton wachsend“ durch streng monoton fallend“ ersetzt. ” Man kann zeigen, daß eine stetige Funktion f : [a, b] −→ IR injektiv genau dann ist, 2 wenn sie streng monoton ist.
Kapitel 7 Zufallsgro ¨ßen und Verteilungen In vielen F¨allen interessiert uns bei einem Zufallsexperiment nicht so sehr das Ergebnis selbst, sondern nur eine bestimmte aus dem Ergebnis abgeleitete Gr¨oße (Zufallsgr¨oße). Diesen Zufallsgr¨oßen wollen wir uns zuwenden, nachdem wir den Begriff des Wahrscheinlichkeitsraumes weiter gefaßt haben.
7.1
Axiomatische Wahrscheinlichkeit
Verl¨aßt man die Ebene endlicher Mengen als Ereignisse/Ergebnisse von Zufallsexperimenten, so kommt man nicht umhin, Wahrscheinlichkeiten als solche Setzungen anzusehen, die noch konsistent mit Erfahrungstatsachen sind, aber die prinzipielle Schwierigkeiten mit der Interpretation als relative H¨aufigkeiten vermeiden. Nach A.N. Kolmogoroff (1903 – 1987) liegt die L¨osung des Problems darin, nicht mehr jeder Teilmenge der zugrundeliegenden Menge der ins Auge gefaßten Elementarereignisse eine Wahrscheinlichkeit zuzuordnen. Definition 7.1 Sei Ω eine nichtleere Menge. Eine Teilmenge Σ von P OT (Ω) heißt σ−Algebra ¨uber Ω, wenn sie folgende Eigenschaften besitzt: (1) Ω ∈ Σ. (2) A ∈ Σ =⇒ Ω\A ∈ Σ. (3) An ∈ Σ, n ∈ IN , =⇒
S n∈IN
An ∈ Σ.
Das Paar (Ω, Σ) heißt dann ein Ereignisraum. Klar, daß zu jeder Menge Ω stets Σmin := {Ω, ∅} und Σmax := P OT (Ω) σ−Algebren sind.
146
2
Baumeister: Mathematik II / Stand: Juni 1997
147
Folgerung 7.2 Sei (Ω, Σ) ein Ereignisraum. Dann gilt: (a) A, B ∈ Σ =⇒ A ∪ B ∈ Σ . (b) A, B ∈ Σ =⇒ A ∩ B ∈ Σ . Beweis: (b) ist ein Spezialfall der Tatsache, daß eine abz¨ahlbare Vereinigung von Ereignissen zu Σ geh¨ort. (a) folgt aus der Tatsache, daß Ω\(A ∪ B) = (Ω\A) ∩ (Ω\B) gilt. Beispiel 7.3 Sei Ω := IR und F := {(a, b]|a ≤ b} die Familie der halboffenen Intervalle. Nun gibt es sicher eine σ−Algebra, die F enth¨alt; Σ := P OT (Ω) ist so eine. Offenbar ist ΣB := ∩{Σ|Σ σ − Algebra, F ⊂ Σ} die kleinste σ−Algebra, die F enth¨alt. Sie heißt Borelsche σ− Algebra und jedes A ∈ ΣB heißt Borelsche Menge. Diese σ−Algebra ist von großer Bedeutung in verschiedenen Gebieten der Mathematik (Stochastik, Maßtheorie, Math. Physik,. . .). Wir k¨onnen hier noch nicht darauf eingehen, sp¨ater k¨onnen wir im Zusammenhang mit nichtdiskreten Zufallsgr¨oßen etwas andeuten. 2 Definition 7.4 Sei (Ω, Σ) ein Ereignisraum. Ein Wahrscheinlichkeitsmaß auf (Ω, Σ) ist eine Abbildung P : Σ −→ [0, 1], welche folgende Bedingungen erf¨ullt: (K1) P (Ω) = 1 . (K2) Sind die Ereignisse An der Ereignisfamilie (An)n∈IN paarweise disjunkt, so ist P(
[
An ) =
n∈IN
∞ X
P (An) .
n=1
2
(Ω, Σ, P ) heißt dann ein Wahrscheinlichkeitsraum. Beachte, daß (K2) die Aussage einschließt, daß die Reihe
∞ P n=1
P (An) konvergiert, eine
Tatsache, die aber schon daraus folgt, daß die Folge der Partialsummen von
∞ P n=1
beschr¨ankt (durch 1) und monoton wachsend ist.
P (An )
Baumeister: Mathematik II / Stand: Juni 1997
148
A.N. Kolmogoroff schreibt: Da das neue Axiom ((K2) ist gemeint) nur f¨ ur die unendlichen Wahrscheinlichkeitsfelder1 wesentlich ist, w¨are es kaum m¨oglich, seine empirische Bedeutung zu erkl¨ aren. . . . Bei einer Beschreibung irgendwelcher wirklich beobachtbarer zuf¨ alliger Prozesse kann man nur endliche Wahrscheinlichkeitsfelder erhalten. Unendliche Wahrscheinlichkeitsfelder erscheinen nur als idealisierte Schemata reeller zuf¨alliger Prozesse.. . .
Bemerkung 7.5 Klar, ein endlicher Wahrscheinlichkeitsraum gem¨aß Definition 5.9 ist ein Spezialfall von Definition 7.4. Ein Beispiel f¨ ur einen Wahrscheinlichkeitsraum, der nicht endlich ist, leitet sich aus der u ¨blichen Inhaltsmessung ab. Dazu definiere man beispielsweise zu Ω := [0, 1] die Borelsche σ–Algebra ΣB := ∩{Σ|Σ σ − Algebra, F ⊂ Σ} , wobei nun hier F := {(a, b]|a ≤ b} die Familie der halboffenen Intervalle in Ω ist. Ein Wahrscheinlichkeitsmaß auf ΣB erh¨alt man durch Fortsetzung des herk¨ommlichen Inhalts I((a, b]) := b − a , (a, b] ∈ F zu einem Wahrscheinlichkeitsmaß P auf ΣB . Diese Fortsetzung ist mathematisch nicht ganz trivial. 2 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum. Seien A, B ∈ Σ . Wir haben folgende Rechenregeln: (R1) P (∅) = 0 . (R2) P (A) + P (Ω\A) = 1 . (R3) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) . (R4) P (A) ≤ P (B), falls A ⊂ B. Den Beweis dieser Rechenregeln u ¨bergehen wir, er ist nahezu trivial. Eine Erweiterung von (R3) ist die Siebformel von Sylvester; siehe Satz 5.13. Diese Siebformel beh¨alt in ihrer entsprechenden Fassung auch ihre G¨ ultigkeit. Ein Ereignis A ∈ Σ heißt fast sicher, falls P (A) = 1 gilt; Ω ist ein fast sicheres Ereignis, ja sogar ein sicheres Ereignis. Es kann aber durchaus fast sichere Ereignisse A ∈ Σ geben, die verschieden von Ω sind. Die Begriffe Bedingte Wahrscheinlichkeit, Unabh¨ angigkeit behalten ihre Bedeutung auch in unserem erweiterten Kontext. 1
Dies ist der von Kolmogoroff gepr¨agte Begriff f¨ ur Wahrscheinlichkeitsr¨aume.
Baumeister: Mathematik II / Stand: Juni 1997
7.2
149
Zufallsgr¨ oßen
Ein mathematisches Modell f¨ ur ein Zufallsexperiment ist ein passender Wahrscheinlichkeitsraum (Ω, Σ, P ). In vielen F¨allen l¨aßt sich das Ergebnis einer einzelnen Ausf¨ uhrung des Experiments durch eine oder mehrere Zahlen kennzeichnen. Etwa Augensumme beim zweimaligen W¨ urfeln, K¨orpergr¨oße, Farbe, . . . Dieser Tatbestand f¨ uhrt uns zum Objekt der Zufallsgr¨oße.2 Definition 7.6 Sei (Ω, Σ) ein Ereignisraum. Eine Abbildung X : Ω −→ IR heißt Zufallsgr¨ oße, wenn f¨ur alle x ∈ IR gilt: {X ≤ x} := {ω ∈ Ω|X(ω) ≤ x} ∈ Σ
2 Beachte, daß aus den Rechenregeln in Σ folgt, daß mit einer Zufallsgr¨oße X aufgrund von Definition 7.6 stets gilt: {X > x} := {ω ∈ Ω|X(ω) > x} ∈ Σ, {X < x} := {ω ∈ Ω|X(ω) < x} ∈ Σ, {a ≤ X ≤ b} := {X ∈ [a, b]} := {ω ∈ Ω|X(ω) ∈ [a, b]} ∈ Σ. Ist nun X eine Zufallsgr¨oße auf dem Wahrscheinlichkeitsraum (Ω, Σ, P ), so ist auch {X = x} := {ω ∈ Ω|X(ω) = x} ein Ereignis und besitzt daher eine Wahrscheinlichkeit. Daran schließt an Definition 7.7 Sei X eine Zufallsgr¨oße auf dem Wahrscheinlichkeitsraum (Ω, Σ, P ). (a) Unter der Verteilung von X versteht man die Familie (PX,x )x∈IR der Wahrscheinlichkeiten PX,x := P ({X = x}) , x ∈ IR . (b) Die Abbildung FX : IR 3 x 7−→ P ({X ≤ x}) ∈ [0, 1] heißt die Verteilungsfunktion von X .
2 Wir kennen bereits eine Reihe von Verteilungen aus Kapitel 5, wenn wir dort auch die Zufallsgr¨oße nicht explizit aufgef¨ uhrt haben. Die wichtigsten Verteilungen diskutieren wir in Abschnitt 5.4 im Zusammenhang mit weiteren Begriffen bei Zufallsgr¨oßen. 2
In der Literatur ist f¨ ur eine Zufallsgr¨oße auch der ¨altere Ausdruck “Zufallsvariable“ gebr¨auchlich. Diese Begriffsbildung vertr¨agt sich nicht mehr mit der heutigen Auffassung von Abbildungen und Variablen.
Baumeister: Mathematik II / Stand: Juni 1997
150
Beispiel 7.8 Sei Ω := {K(opf), Z(ahl)}, Σ := P OT (Ω), X(ω) := Anzahl von Kopf beim Wurf (Ausgang 0 oder 1). Also x
x<0 0≤x<1 x≥1
FX (x)
1 2
0
1
2
FX ist also eine Treppenfunktion“ mit 2 Stufen. ”
Folgerung 7.9 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und sei X eine Zufallsgr¨oße. Sei FX die zugeh¨orige Verteilungsfunktion. (a) P ({a < X ≤ b}) = FX (b) − FX (a) f¨ur a ≤ b . (b) FX ist monoton wachsend. (c) P ({X > a}) = 1 − FX (a) , P ({X < a}) = FX (a−) , a ∈ IR, wobei FX (a−) der linkseitige Grenzwert von FX an der Stelle a ist. (d) P ({a ≤ X ≤ b}) = FX (b) − FX (a−) f¨ur a ≤ b . (e)
lim FX (x) = 0 , x→∞ lim FX (x) = 1 .
x→−∞
Beweis: Zu (a). FX (b) = P ({X ≤ a}) + P ({a < X ≤ b}) = FX (a) + P ({a < X ≤ b}) . Zu (b). Folgt aus (a). Zu (c). P ({X > a}) = 1 − FX (a) folgt aus den Definitionen von P und FX . Die Existenz des angegebenen Grenzwerts folgt aus der Tatsache, daß die Funktion FX monoton wachsend ist und ihr Bildbereich in [0, 1] enthalten ist, so: Zun¨achst existiert sicher eine Folge (xn)n∈IN mit xn < a f¨ ur alle n ∈ IN , lim xn = a und z := lim FX (xn ) n n existiert. Aus der Monotonie folgt, daß z f¨ ur jede solche Folge identisch ist. Also gilt z = lim FX (xn ) f¨ ur jede Folge (xn)n∈IN mit xn < a f¨ ur alle n ∈ IN und lim xn = a , da n n (FX (xn))n∈IN eine konvergente Teilfolge enth¨alt; siehe 4.41 und 6.24. P ({X < a}) = P ({X ≤ a − 1}) +
∞ X
P ({a −
k=1
= FX (a − 1) + lim n = FX (a − 1) + lim n
n X k=1 n X
1 1 <X ≤a− }) k k+1
P ({a −
1 1 <X ≤a− }) k k+1
(FX (a −
1 1 ) − FX (a − )) k+1 k
k=1
= FX (a − 1) + lim FX (a − n
1 ) − FX (a − 1) n+1
Baumeister: Mathematik II / Stand: Juni 1997 = lim FX (a − n
151
1 ) n+1
= FX (a−) Zu (d). P ({a ≤ X ≤ b}) = P ({a < X ≤ b}) + P ({X = a}) = (FX (b) − FX (a)) + (FX (a) − FX (a−)) = FX (b) − FX (a−) . Zu (e). Die Existenz der angegebenen Grenzwerte folgt aus der Tatsache, daß die Funktion FX monoton wachsend ist und ihr Bildbereich in [0, 1] enthalten ist; siehe oben. Ferner haben wir 0 ≤ lim FX (x) ≤ x→∞ lim FX (x) ≤ 1 . Es gen¨ ugt also zu zeigen, daß x→−∞
lim FX (−n) = 0 , lim FX (n) = 1
n∈IN
n∈IN
gilt. Betrachte die Ereignisfolge (Ak )k∈ZZ mit Ak := {k − 1 < X ≤ k}, k ∈ ZZ . Damit haben wir P (Ω) = P (∪k∈ZZ Ak ) und daher 1 = P (∪k∈ZZ Ak ) X = P (Ak ) k∈ZZ
= = = =
k=n X
lim
n∈IN
P (Ak )
k=−n k=n X
lim
n∈IN
(FX (k) − FX (k − 1))
k=−n
lim (FX (n) − FX (−n))
n∈IN
lim FX (n) − lim FX (−n)
n∈IN
n∈IN
Daraus liest man die Notwendigkeit lim FX (−n) = 0 und lim FX (n) = 1 ab. n∈IN
n∈IN
Maßzahlen f¨ ur eine Zufallsgr¨oße sind zwei Parameter, die sowohl in der Wahrscheinlichkeitstheorie als auch in der Statistik eine herausragende Rolle spielen. Der eine Parameter ist der Erwartungswert, der zweite ist die Varianz. Bei den bisher ausgebreiteten Analysisergebnissen k¨onnen wir diese Maßzahlen nicht im allgemeinen Kontext erkl¨aren. Definition 7.10 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und sei X eine Zufallsgr¨oße. X heißt diskrete Zufallsgr¨ oße, falls der Wertebereich von X abz¨ahlbar ist. 2 Da offenbar jede (diskrete) Zufallsgr¨oße X : Ω −→ IR eine disjunkte Zerlegung Ω=
[
{X = x}
x∈IR
Baumeister: Mathematik II / Stand: Juni 1997
152
in Ereignisse liefert, gilt stets X
1=
P ({X = x}) .
x∈IR
(Beachte dabei, daß nur abz¨ahlbar viele Summanden von Null verschieden sind.) Definition 7.11 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und sei X : Ω −→ IR eine diskrete Zufallsgr¨oße mit Wertebereich {xn |n ∈ IN }. Wir sagen, daß der Erwartungswert IE (X) von X existiert, falls die Reihe ∞ X
|xi |P ({X = xi })
i=1
konvergiert. Wir setzen dann IE (X) :=
∞ X
xiP ({X = xi})
i=1
und nennen IE (X) den Erwartungswert von X.
2
Ist X eine diskrete Zufallsgr¨oße auf (Ω, Σ, P ), dann ist IE (X) also ein mittlerer“ Wert ” f¨ ur die Werte von X. Oder: Stellen wir uns die Zufallsgr¨oße X als Massenverteilung auf IR vor, bei der die Werte xi das Gewicht P ({X = xi }) tragen, so ist IE (X) gerade der (physikalische) Schwerpunkt der Massenverteilung. P.S. Laplace (1749 – 1827) schreibt u ¨ ber den Erwartungswert: Die Wahrscheinlichkeit der Ereignisse dient dazu, die Hoffnung oder Furcht der an ihrer Existenz interessierten Personen zu bestimmen. Das Wort Hoffnung hat verschiedene Bedeutungen: es dr¨ uckt allgemein den Vorteil desjenigen aus, der irgend ein Gut in Folge von Voraussetzungen erwartet, die nur wahrscheinlich sind. Dieser Vorteil ist in der Theorie des Zufalls das Produkt der erwarteten Summe mit der Wahrscheinlichkeit sie zu erlangen. . . . Wir werden diesen Vorteil die “mathematische Hoffnung“ ( franz. esper´ance) nennen. . . . Man soll es im gew¨ohnlichen Leben immer so einrichten, daß das Produkt aus dem Gute, das man erwartet, mit seiner Wahrscheinlichkeit dem gleichen Produkte bzgl. des Verlustes mindestens gleichkommt. Aber um das zu erreichen, ist es notwendig, die Vorteile und Verluste und ihre gegenseitigen Wahrscheinlichkeiten genau abzusch¨ atzen. Dazu bedarf es einer großen Exaktheit des Geistes, eines feinen Takts und einer bedeutenden sachlichen Erfahrung; man muß sich vor Vorurteilen, vor den T¨auschungen der Furcht und der Hoffnung, sowie vor den falschen Begriffen von Gl¨ ucksgunst und wirklichem Gl¨ uck, mit denen die meisten Menschen ihre Eigenliebe einwiegen, in Acht nehmen.
Die Forderung, daß nicht nur
∞ X i=1
xi P ({X = xi })
Baumeister: Mathematik II / Stand: Juni 1997 konvergiert, sondern sogar
∞ X
153
|xi|P ({X = xi }),
i=1
sichert, daß die Reihe
∞ P i=1
xi P ({X = xi }) unabh¨angig von der Reihenfolge der Summati-
on ist. (Dies ist ein Resultat der Analysis, genannt der Umordnungssatz, den wir nicht beweisen wollen3.) Es sollte klar sein, daß in der Summation die Schwierigkeiten liegen, den Begriff des Erwartungswertes auf eine beliebige Zufallsgr¨oße auszuweiten. Beispiel 7.12 Die Zufallsgr¨oße X, die die mit einem idealen W¨ urfel geworfene Augenzahl beschreibt, besitzt den Erwartungswert IE (X) = 1 ·
1 1 1 1 1 1 + 2 · + 3 · + 4 · + 5 · + 6 · = 3.5 6 6 6 6 6 6
2
Seien X, Y Zufallsgr¨oßen auf dem Wahrscheinlichkeitsraum (Ω, Σ, P ) und sei a ∈ IR . Dann sind auch aX X +Y X·Y |X|
: : : :
Ω3ω Ω3ω Ω3ω Ω3ω
7 → − 7−→ 7−→ 7−→
aX(ω) ∈ IR , X(ω) + Y (ω) ∈ IR , X(ω) · Y (ω) ∈ IR , |X(ω)| ∈ IR
Zufallsgr¨oßen auf (Ω, Σ, P ) . F¨ ur X · X schreiben wir auch oft kurz X 2 . Folgerung 7.13 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und seien X, Y diskrete Zufallsgr¨oßen, deren Erwartungswerte existieren. Dann gilt: (i) F¨ur a ∈ IR existiert IE (aX) und IE (aX) = a IE (x). (ii) Der Erwartungswert von X + Y existiert und IE (X + Y ) = IE (X) + IE (Y ). Beweis: (i) ist unmittelbar klar. Zu (ii). Wir betrachten nur den schwierigeren Fall, daß der Bildbereich von X und Y nicht endlich ist. Sei {X(ω)|ω ∈ Ω} = {xi |i ∈ IN }, {X(ω)|ω ∈ Ω} = {yj |j ∈ IN } . Damit ist {(X + Y )(ω)|ω ∈ Ω} = {xi + yj |i, j ∈ IN } 3
Siehe etwa: Forster, O.: Analysis 1, Vieweg–Verlag, S. 43 ff.
Baumeister: Mathematik II / Stand: Juni 1997
154
und X
|xi + yj |P ({X + Y = xi + yj }) ≤
i,j∈IN
X
(|xi | + |yj |)P ({X + Y = xi + yj })
i,j∈IN
=
X
(|xi | + |yj |)P ({X = xi, Y = yj })
i,j∈IN
Der letzte Schritt hat seine Berechtigung, da das Ereignis {X + Y = xi + yj } stets als {X = xk } ∩ {Y = yl } mit xk + yl = xi + yj vorkommt. Also folgt nun P i,j∈IN
|xi + yj |P ({X + Y = xi + yj }) X
≤
(|xi | + |yj |)P ({X = xi , Y = yj })
i,j∈IN
X
=
|xi|P ({X = xi , Y = yj }) +
i,j∈IN
=
X
|xi|P ({X = xi }) +
i∈IN
X
X
|yj |P ({X = xi , Y = yj })
i,j∈IN
|yj |P ({Y = yj })
j∈IN
Da IE (X), IE (Y ) existieren, lesen wir ab, das nun auch IE (X + Y ) existiert. Nun k¨onnen wir die Rechnung ohne Betragsstriche wiederholen und eerhalten die angegebe Formel. Beispiel 7.14 Betrachte folgendes Spiel: Beim Werfen zweier idealer W¨ urfel erh¨alt der Spieler DM 10.–, wenn beide W¨ urfel eine 6 zeigen, DM 2.–, wenn genau ein W¨ urfel eine 6 zeigt, DM 0.– sonst. Die Ereignismenge Ω sind die Paare (i, j) mit 1 ≤ i, j ≤ 6 , als σ–Algebra nehmen 1 . Damit ist wir P OT (Ω), die Wahrscheinlichkeit f¨ ur jedes Elementarereignis (i, j) ist 36 angedeutet, daß die beiden W¨ urfel unabh¨angig voneinander geworfen werden. Wir bezeichnen mit X die Zufallsgr¨oße, die den Gewinn eines Spielers beschreibt. Von Interesse sind die Ereignisse A2 := {(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (5, 6), (4, 6), (3, 6), (2, 6), (1, 6)}, A10 := {(6, 6)} , A0 := Ω\(A10 ∪ A2 ) . Die Werte von X erhalten wir durch folgende Zuordnung:
2 , falls ω ∈ A2 Ω 3 ω 7−→ 10 , falls ω ∈ A10 0 , sonst Daraus leiten wir P ({X = 2}) =
1 10 25 , P ({X = 10}) = , P ({X = 0}) = 36 36 36
ab. Als Erwartungswert ergibt sich IE (X) = 2 ·
1 10 25 5 + 10 · +0· = 36 36 36 6
Baumeister: Mathematik II / Stand: Juni 1997
155
Dieses Ergebnis l¨aßt erwarten – siehe unten– , daß der Spieler im Mittel 56 DM pro Spiel gewinnt. Ein Einsatz des Spielers pro Spiel in H¨ohe von 1 DM w¨are also nicht vorteilhaft.
2
Definition 7.15 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und seien X, Y Zufallsgr¨oßen. Diese Zufallsgr¨oßen heißen unabh¨ angig, falls P ({X = x, Y = y}) = P ({X = x})P ({Y = y})
2
f¨ur alle x, y ∈ IR gilt. Folgerung 7.16
Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und seien X, Y diskrete Zufallsgr¨oßen, deren Erwartungswert existieren. Sind X, Y unabh¨angig, so existiert IE (X · Y ) und es gilt IE (X · Y ) = IE (X) IE (Y ). Beweis: Seien {xi |i ∈ IN }, {yj |j ∈ IN } die Werte von X bzw. Y . Dann sind {xi yj |i, j ∈ IN } die Werte von X · Y und wir haben (siehe Beweis zu Folgerung 7.13) ∞ X
|xi | |yj |P ({X · Y = xiyj }) =
i,j=1
= =
∞ X i,j=1 ∞ X
|xi| |yj |P ({X = xi , Y = yj }) |xi| |yj |P ({X = xi })P ({Y = yj })
i,j=1 ∞ X
∞ X
i=1
j=1
|xi|P ({X = xi })
|yj |P ({Y = yj })
Daraus liest man ab,daß IE (X · Y ) existiert. Wir k¨onnen nun die obige Rechnung ohne die Betragsstriche wiederholen, da nun dank der Konvergenz mit Betragsstrichen die Umordnung der Reihen erlaubt ist. Wir erhalten so das Ergebnis. Beispiel 7.17 Betrachte ein Gl¨ ucksrad, aufgeteilt in 4 gleiche Sektoren. Durch einen Innenkreis entstehen 8 gleiche Sektoren. Die Sektoren werden folgendermaßen beschriftet: 10 0 10 0
innen 0 außen innen 20 außen innen 0 außen innen 20 außen
Damit ist eine ¨außere Zufallsvariable X und eine innere Zufallsvariable Y auf einem offensichtlichen Wahrscheinlichkeitsraum definiert. Wir erhalten: IE (X) = 10 , IE (Y ) = 5 , IE (X · Y ) = 0 .
Baumeister: Mathematik II / Stand: Juni 1997
156
Also sind wegen IE (X · Y ) 6= IE (X) · IE (Y ) diese Zufallsgr¨oßen nicht unabh¨angig; der Wert von X bestimmt den von Y . Nimmt man stattdessen die Beschriftung 2 0 10 2
innen 100 außen innen 50 außen innen 100 außen innen 50 außen
vor, dann sind diese Zufallsgr¨oßen unabh¨angig; kennt man den Wert von X, so sagt dieser Wert nichts u ¨ber den Wert von Y . Es ist IE (X) = 75 , IE (Y ) = 6 , IE (X · Y ) = 450 = IE (X) · IE (Y ) .
Definition 7.18 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und seien X1 , . . . , Xn Zufallsgr¨oßen. Diese Zufallsgr¨oßen heißen unabh¨ angig, falls P ({X1 = x1 , . . . , Xn = xn }) = P ({X1 = x1}) · · · P ({Xn = xn})
2
f¨ur alle x1 , . . . , xn ∈ IR gilt. Durch vollst¨andige Induktion beweist man Folgerung 7.19
Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und seien X1 , . . . , Xn diskrete Zufallsgr¨oßen, deren Erwartungswert existieren. Sind X1 , . . . , Xn unabh¨angig, so existiert IE (X1 · · · Xn ) und es gilt IE (X1 · · · Xn ) = IE (X1 ) · · · IE (Xn ).
Beispiel 7.20 Betrachten wir die folgenden Spiele: Spiel 1: W¨ urfeln mit drei idealen W¨ urfeln. Das Produkt der Augenzahlen wird in Pfennigen ausgezahlt. Spiel 2: W¨ urfeln mit drei idealen W¨ urfeln. Das F¨ unffache der Augensumme wird in Pfennigen ausgezahlt. Welches Spiel kann man bei einem Einsatz von 50 Pfennig pro Spiel spielen? Wir numerieren die W¨ urfel und bezeichnen mit X1 , X2 , X3 die Zufallsgr¨oßen der jeweils geworfenen Augenzahlen. Es gibt 63 = 216 verschiedene Elementarereignisse. Da wir ein Bernoulli–Experiment unterstellen, gelten die Identit¨aten P ({X1 = i, X2 = j, X3 = k}) =
1 , 1 ≤ i, j, k ≤ 6 , 216
Baumeister: Mathematik II / Stand: Juni 1997
157
und
1 , 1 ≤ i, j, k ≤ 6 . 216 Die Zufallgr¨oßen sind also unabh¨angig. Damit gilt nach Folgerung 7.19 f¨ ur die Gewinnerwartung: P ({X1 = i})P ({X2 = j})P ({X3 = k}) =
Spiel 1: IE (X1 · X2 · X3 ) = IE (X1 ) IE (X2 ) IE (X3 ) = ( 27 )3 . Spiel 2: IE (5(X1 + X2 + X3 )) = 5(IE (X1 ) + IE (X2 ) + IE (X3 )) = 5 · 3 · 72 . Die Gewinnerwartung liegt bei Spiel 1 unter, bei Spiel 2 u ¨ ber dem Einsatz. Daher kann man das zweite Spiel mitmachen, das erste dagegen aber nicht. 2 Der Erwartungswert einer Zufallsgr¨oße ist eine Maßzahl f¨ ur den Schwerpunkt, die nun einzuf¨ uhrende Varianz ist eine Maßzahl f¨ ur die Streuung um diesen Schwerpunkt. Definition 7.21 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und sei X eine diskrete Zufallsgr¨oße auf Ω mit Erwartungswert IE (X) . Existiert der Erwartungswert der Zufallsgr¨oße (X − IE (X))2 , so heißt IVar (X) := IE ((X − IE (X))2 ) q
die Varianz von X und IVar(X) die Streuung oder Standardabweichung von X und wir sagen, daß die Varianz endlich sei. Wir setzen dann q
σX :=
IVar (X) .
2 Bemerkung 7.22 Die Streuung σX einer Zufallsgr¨oße ¨andert sich proportional, d.h. σλX = λσX (λ > 0). Dies w¨ urde auch f¨ ur die alternative Maßzahl E(|X − IE (x)|) gelten. Vorteile f¨ ur σX gegen¨ uber dieser Maßzahl sind leichtere Berechenbarkeit (Betr¨age !) und st¨arkere Bewertung großer Abweichungen vom Erwartungswert. 2 Lemma 7.23 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und seien X, Y diskrete Zufallsgr¨oßen auf Ω, mit Erwartungswerten IE (X), IE (Y ) und endlichen Varianzen IVar (X), IVar (Y ) . Dann gilt: (a) IVar (X) = IE (X 2 ) − IE (X)2 (b) IVar (X + Y ) = IVar (X) + IVar (Y ), falls X, Y unabh¨angig sind. Beweis:
Baumeister: Mathematik II / Stand: Juni 1997
158
Es gilt E((X − IE (X))(Y − IE (Y ))) = IE (XY ) − IE (X IE (Y )) − IE (Y IE (X)) + IE (IE (X) IE (Y )) = IE (XY ) − IE (X) IE (Y ) − IE (Y ) IE (X) + IE (X) IE (Y ) = IE (XY ) − IE (X) IE (Y ) Nun folgt (a) durch Anwendung auf Y := X . (b) folgt ebenfalls daraus unter Zuhilfenahme von Folgerung 7.16.
7.3
Das schwache Gesetz der großen Zahl
Das schwache Gesetz der großen Zahl wird uns helfen, den Zusammenhang von Wahrscheinlichkeiten und relativen H¨aufigkeiten besser zu verstehen. Das entscheidende Hilfsmittel dabei ist die wichtige Tschebyscheffsche Ungleichung (7.1) Satz 7.24 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und sei X eine diskrete Zufallsgr¨oße mit Erwartungswert IE (X) und Varianz IVar (X) . Dann gilt f¨ur jedes > 0 : P ({|X − IE (X)| ≥ }) ≤ IVar(X)−2
(7.1)
Beweis: Sei > 0. Setze Z := X − IE (X) und
(
Y (ω) :=
0, 2 ,
falls |Z(ω)| < falls |Z(ω)| ≥
(7.2)
Dann ist Y ≤ Z 2 und daher IVar (X) = IE (Z 2 ) ≥ IE (Y ) = 2 P ({Y = 2 }) = 2 P ({|X − IE (X)| ≥ })
Der Wert der Tschebyscheffschen Ungleichung liegt in ihrer Allgemeinheit. Die Absch¨atzung darin ist ziemlich grob. Sie wurde erstmals von Bienaym´e 1853 aufgestellt, unabh¨angig davon fand sie Tschebyscheff (1821 – 1894) 1867 und verwendete sie erstmals zum Beweis des Gesetzes der großen Zahl. Satz 7.25 Seien X1 , . . . , Xn unabh¨angige diskrete Zufallsgr¨oßen auf dem Wahrscheinlichkeitsraum (Ω, Σ, P ) Es gelte IE (Xi ) = IE (X1 ) , IVar (Xi ) ≤ M < ∞ , 1 ≤ i ≤ n . Dann gilt f¨ur alle > 0 : 1 M P ({| (X1 + . . . + Xn ) − IE (X1 )| ≥ }) ≤ 2 n n Beweis:
(7.3)
Baumeister: Mathematik II / Stand: Juni 1997
159
1 (X + . . . + X ). Dann ist IE (X) = IE (X ) und Sei X := n 1 n 1 IVar(X) = n−2 IVar(X1 + . . . + Xn ) = n−2 (V I ar(X1 ) + . . . + IVar (Xn )) ≤
M n
Nun wende man die Tschebyscheffsche Ungleichung an. Durch das schwache Gesetz der großen Zahl k¨onnen wir nun verstehen, weshalb die relative H¨aufigkeit unter Umst¨anden eine gute Approximation f¨ ur Wahrscheinlichkeiten ist. Beispiel 7.26 Wir betrachten ein Bernoulli–Experiment mit Erfolgswahrscheinlichkeit p ∈ [0, 1]. Wir wiederholen dieses Experiment n−mal unabh¨angig und setzen (
Xi (ω) :=
1 0
, falls ω ∈ A ,1 ≤ i ≤ n, , sonst
wobei A ein Ereignis in einer σ–Algebra auf einer Menge Ω sei. Dann ist 1 IE (Xi ) = p , IVar (Xi ) = p(1 − p) ≤ , 1 ≤ i ≤ n, 4 1 (X + . . . + X ) ist die relative H¨aufigkeit der Erfolge. Also ist und hn := n 1 n P ({|hn − p| ≥ } ≤
1 42n
F¨ ur großes n ist also die Wahrscheinlichkeit daf¨ ur, daß die relative H¨aufigkeit der Erfolge sich mehr als von der Erfolgswahrscheinlichkeit p unterscheidet, sehr klein. Dies ist der Schl¨ ussel daf¨ ur, abw¨agen zu k¨onnen, ob ein Gl¨ uckspiel mit Einsatz und Auszahlung vorteilhaft ist. 2
7.4
Spezielle Verteilungen
Zun¨achst eine Bezeichnung: Ist S ⊂ T, so heißt die Abbildung χS : T −→ IR mit (
χS (x) :=
1 , falls x ∈ S 0 , sonst
die charakteristische Funktion von S. Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und sei X : Ω −→ IR eine diskrete Zufallsgr¨oße mit Wertebereich WX . Wir unterscheiden:
Diskrete Verteilung
Baumeister: Mathematik II / Stand: Juni 1997 Bildbereich:
160
WX = {w1, . . . , wn }
Parameter der Verteilung: n = #WX 1 χ (x) , x ∈ IR . PX,x = P ({X = x}) = n WX F¨ ur den Spezialfall WX = {1, . . . , n} erhalten wir: 1 Erwartungswert: IE (X) = n + 2 2 −1 Varianz: IVar (X) = n 12 Verteilung:
Der Beweis zu den Formeln f¨ ur IE (X) und IVar (X) ist einfach: n 1 P 1 n(n + 1) = n + 1 IE (X) = n i= n 2 2 i=1 n n 1 P 1 )2 = 1 P 1 )2 = n2 − 1 IVar (X) = n (i − n + i2 − ( n + n 2 2 12 i=1 i=1
Zu diesem Typ von Verteilung haben wir schon Beispiele kennengelernt; siehe Laplace– Wahrscheinlichkeit und Beispiel 7.12.
Bernoulli–Verteilung Bildbereich:
WX = {0, 1}
Parameter der Verteilung: p ∈ [0, 1] (“Erfolgswahrscheinlichkeit“) Verteilung:
PX,x = P ({X = x}) = px (1 − p)1−x χWX (x) , x ∈ IR .
Erwartungswert:
IE (X) = p
Varianz:
IVar (X) = p(1 − p)
Der Beweis zu den Formeln f¨ ur IE (X) und IVar (X) ist einfach: IE (X) = 1p + 0(1 − p) = p IVar (X) = 12 p + 02 (1 − p) − p2 = p(1 − p) Jedes Bernoulli–Experiment beinhaltet die Bernoulli–Verteilung; der M¨ unzwurf (p = 12 ) kann als Beispiel daf¨ ur dienen.
Binomial–Verteilung Bildbereich:
WX = {0, 1, . . . , n}
Parameter der Verteilung: n, p
Erwartungswert:
x n−x PX,x = n x p (1 − p) χWX (x) , x ∈ IR . IE (X) = np
Varianz:
IVar (X) = np(1 − p)
Verteilung:
Baumeister: Mathematik II / Stand: Juni 1997
161
Der Beweis zu den Formeln f¨ ur IE (X) und IVar (X) ist nun schon etwas “trickreich“: !
n X
n i IE (X) = i p (1 − p)n−i i i=0 !
n X
n i = i p (1 − p)n−i i i=1 !
n X
n−1 i = n p (1 − p)n−i i − 1 i=1 = np = np
n X i=1 n−1 X j=0
!
n − 1 i−1 p (1 − p)(n−1)−(i−1) i−1 !
n−1 j p (1 − p)(n−1)−j j
= np(p + (1 − p))n−1 = np Der Nachweis f¨ ur die Formel f¨ ur IVar (X) gelingt mit vergleichbaren Rechenschritten. Beispiel 7.27 Ein Versuch bestehe aus der n–maligen Durchf¨ uhrung eines Bernoulli–Experimentes mit Erfolgswahrscheinlichkeit p ∈ [0, 1] . Die Menge der Elementarereignisse wird dann ad¨aquat beschrieben durch Ω := {0, 1}n . Die Bernoulli–Experimente sollen unabh¨angig voneinander durchgef¨ uhrt werden, das Wahrscheinlichkeitsmaß auf Ω ist also das Produktmaß. Die erfolgreichen Ausg¨ange unter den n Experimenten werden gez¨ahlt durch die Zufallsgr¨oße X : Ω 3 (ω1 , . . . , ωn ) 7−→ ω1 + · · · + ωn ∈ IR . Damit haben wir !
n x P ({X = x}) = p (1 − p)n−x , x ∈ {0, . . . , n} , x und X ist also binomialverteilt.
2
Nach diesem Beispiel sehen wir auch einen anderen Weg, die Varianz einer Binomial– Verteilung zu berechnen: Wir fassen die Zufallsgr¨oße X als Summe von Zufallsgr¨oßen X1 , . . . , Xn auf, die unabh¨angig und einzeln nach Bernoulli verteilt sind. Also IVar (X) = IVar (X1 ) + · · · + IVar (Xn ) = np(1 − p) .
Geometrische Verteilung
Baumeister: Mathematik II / Stand: Juni 1997 Bildbereich:
162
WX = IN 0
Parameter der Verteilung: p ∈ (0, 1] PX,x = P ({X = x}) = p(1 − p)x χWX (x) , x ∈ IR . p IE (X) = 1 − p IVar (X) = 1 −2 p p
Verteilung: Erwartungswert: Varianz:
Der Nachweis f¨ ur die Formeln f¨ ur IE (X) und IVar(X) gelingt bei Verwendung der Formeln ∞ X
jq j =
j=0
∞ X q q + q2 2 j , j q = , (1 − q)2 j=0 (1 − q)3
welche f¨ ur q ∈ [0, 1) g¨ ultig sind, sehr leicht. Wir beweisen die erste der beiden Formeln: F¨ ur N ∈ IN gilt (
N X
jq j ) · (1 − q)2 = q − 2Nq N +1 + Nq N +2
j=0
und Grenz¨ ubergang liefert die Aussage, wenn wir noch beachten, daß die Folge (nq n )n∈IN gegen 0qkonvergiert, wenn |q| < 1 ist. Dies sieht man nun so: √ Es ist |q| < 1 . Wegen lim n n = 1 (siehe Beispiel ??) gibt es N ∈ IN mit n∈IN
1≤
√ 1 n n ≤ q f¨ ur alle n ≥ N . |q|
Also gilt f¨ ur alle n ≥ N q √ 1 |nq n| = | n nq|n ≤ ( q |q|)n = ( |q|)n . |q| q
Die Aussage folgt nun aus der Tatsache, daß lim
n∈IN
n
|q| = 0 gilt (siehe Beispiel 4.31).
Interessiert man sich f¨ ur die Anzahl der Versuche, bis bei einer mehrfachen Wiederholung eines Bernoulli–Experiments mit Erfolgswahrscheinlichkeit p ∈ (0, 1] zum ersten Mal ein Erfolg eintritt, dann beschreibt eine Zufallsgr¨oße X mit der Verteilung PX,x = P ({X = x}) = p(1 − p)x χIN 0 (x) , x ∈ IR , die Anzahl der Abbr¨ uche bis zur ersten erfolgreichen Durchf¨ uhrung.
Hypergeometrische Verteilung
Baumeister: Mathematik II / Stand: Juni 1997
163
WX = {0, 1, . . . , n}
Bildbereich:
Parameter der Verteilung: n, M, N, p :=
M N
mit M < N, n < N .
−M (Mx )(Nn−x ) χWX (x) , x ∈ IR . N ( ) n (Konvention ji = 0 f¨ ur j < 0 oder j > i )
Verteilung:
PX,x = P ({X = x}) =
Erwartungswert:
IE (X) = np
Varianz:
−n IVar (X) = np(1 − p) N N −1
Zur Berechnung von IE (X) eine Vorbemerkung. Man beweist f¨ ur (zul¨assige) p, q, r ∈ IN die Formel ! ! ! r X p q p+q = (7.4) r−k r k=0 k Damit gelingt nun die Berechnung des Erwartungswertes wie folgt: IE (X) =
N n
=
N n
=
N n
!−1 !−1 !−1
N = M n N = M n M = n N
n X
M x x x=0 n X
M k k k=1 n X
! !
N −M n−x N −M n−k !
M −1 M k−1 k=1
!−1 n−1 X !−1
j=0
!
M −1 j
! !
N −M n−k
!
N −M n−1−j
M −1+N −M n−1
!
!
Die Berechnung der Formel f¨ ur IVar (X) erfolgt auf ¨ahnlichem Wege. Beispiel 7.28 Zur Herleitung einer Zufallsgr¨oße, die hypergeometrisch verteilt ist, gehen wir von einer f¨ ur diese Verteilung typischen Situation (Qualit¨ atskontrolle) aus. Ein Warenposten umfaßt N Teile, unter denen sich M Ausschußteile befinden. Wir entnehmen diesem Warenposten nacheinander und ohne Zur¨ ucklegen – es m¨oge etwa eine “Besch¨adigung“ durch die Entnahme nicht auszuschließen sein – n Teile und interessieren uns f¨ ur die Wahrscheinlichkeitsverteilung derjenigen Zufallsgr¨oße X, die die Anzahl der Ausschußteile in einer solchen Stichprobe angibt. Es sei X die Anzahl der defekten Teile, die beim Versuch gezogen werden. Ein Elementarereignis dieses Versuches besteht aus einer n–Teilmenge aller Teile des Warenpostens. Jedes Elementarereignis ist gleichwahrscheinlich und hat daher die Wahrscheinlichkeit
Baumeister: Mathematik II / Stand: Juni 1997 N n
164
. Das Ereignis {X = x} tritt ein, wenn man x–mal eine defektes Teil und (N − x)–
mal ein fehlerfreies Teil entnimmt. F¨ ur die erste Wahl gibt es gibt es
N −M n−x
M x
, f¨ ur die zweite Wahl
M¨oglichkeiten. Damit wird M x
P ({X = x}) =
!
N −M n−x ! N n
!
,
falls x zum Wertebereich der Zufallsgr¨oße geh¨ort. Die Zufallsgr¨oße hat also eine hypergeometrische Verteilung.
2
Poisson–Verteilung Bildbereich:
WX = IN 0
Parameter der Verteilung: λ Verteilung:
PX,x = P ({X = x}) =
Erwartungswert:
IE (X) = λ
Varianz:
IVar (X) = λ
exp(−λ)λx χWX (x) , x ∈ IR . x!
Der Nachweis der Formel f¨ ur den Erwartungswert ist einfach: IE (X) =
∞ X
k exp(−λ)
k=0
= exp(−λ)
λk k!
∞ X
λk (k − 1)! k=1 ∞ X
λk k! k=0 = λ exp(−λ) exp(λ) = λ = λ exp(−λ)
Der Nachweis der Formel f¨ ur die Varianz erfolgt mit ¨ahnlichen Rechenschritten. Diese Verteilung geht auf S.D. Poisson (1781 – 1840) zur¨ uck. Sie kommt bei seltenen Ereignissen vor ; siehe unten. Stichworte sind: Anzahl der Telefonanrufe pro Zeiteinheit in der Telefonzentrale einer Firma, Anzahl der von einer radioaktiven Probe ausgestrahlten Partikel pro Zeiteinheit, Anzahl von Jobs, die pro Zeiteinheit an einem Rechnerserver eintreffen, . . .. Wir begr¨ unden ihre Wichtigkeit als Grenzwert der Binomialverteilung. Beispiel 7.29
Baumeister: Mathematik II / Stand: Juni 1997
165
Die Wahrscheinlichkeit, daß eine mit einem bestimmten Serum geimpfte Person die Impfung nicht vertr¨agt, sei p := 10−3 . Insgesamt werden 2000 Personen mit diesem Serum geimpft. Die binomialverteilte Zufallsvariable X beschreibe dabei die Anzahl derjenigen geimpften Personen, die die Impfung nicht vertragen. Dabei ist n = 2000 sehr groß und der Parameter p = 10−3 sehr klein. Aus (siehe Abschnitt 5.6) !
2000 P ({X = x}) = β(k; 2000, 10 ) = 10−3k (1 − 10−3 )2000−k k −3
erhalten wir f¨ ur k = 0 die Wahrscheinlichkeit P ({X = 0}) = (1 − 10−3 )2000−k = (1 −
2 2000 ) = 0.13520 . 2000
Wegen lim (1 −
n∈IN
λ n ) = exp(−λ) n
gilt f¨ ur große n die N¨aherung λ n ) ≈ exp(−λ) . n Damit erhalten wir die Approximationsformel (1 −
β(0; 2000, 10−3 ) ≈ exp(−2) = 0.13534 . Aus der Rekursionsformel β(k + 1; n, p) =
(n − k)p β(k; n, p) , k = 0, . . . , n − 1 , (k + 1)(1 − p)
folgt 2000 · 10−3 · β(0; 2000, 10−3 ) ≈ 2 · exp(−2) = 0.271 , 1 · (1 − 10−3 ) −3 β(2; 2000, 10−3 ) = 1999 · 10 −3 · β(1; 2000, 10−3 ) ≈ 22 · 2−1 · exp(−2) = 0.271 , 2 · (1 − 10 ) −3 β(3; 2000, 10−3 ) = 1998 · 10 −3 · β(2; 2000, 10−3 ) ≈ 23 · (3!)−1 · exp(−2) = 0.180 . 3 · (1 − 10 ) Durch vollst¨andige Induktion u ur alle k = 0, . . . , n die ¨ ber k l¨aßt sich leicht zeigen, daß f¨ N¨aherungsformel β(k; 2000, 10−3 ) ≈ 2k · (k!)−1 exp(−2) β(1; 2000, 10−3 ) =
gilt. Dabei ist die Zahl 2 gleich dem Erwartungswert IE (X) = np .
2
Der folgende Satz bringt nun die hiermit angedeutete Aussage auf den Punkt. Satz 7.30 Sei λ > 0 . Es gilt: lim
n→∞,p→0,np=λ
Beweis:
β(k; n, p) =
λk exp(−λ) , k ∈ IN 0 . k!
(7.5)
Baumeister: Mathematik II / Stand: Juni 1997
166
Unter Ber¨ ucksichtigung von np = λ gilt: !
n k β(k; n, p) = p (1 − p)n−k k λ n(n − 1) · · · (n − k + 1) λk λ = (1 − )n(1 − )−k n · n···n k! n n k−1 λ −k λk 1 1 = 1(1 − ) · · · (1 − )(1 − ) (1 − )n n n n k! n Damit erhalten wir f¨ ur jedes k lim (1 −
n→∞
k−1 1 λ ) · · · (1 − ) = 1 , lim (1 − )−k = 1 n→∞ n n n
Ferner gilt lim (1 −
n→∞
λ n ) = exp(−λ) . n
Daraus folgt die Behauptung. Bemerkung 7.31 In der Statistik begegnet man der Aufgabe, aus Daten auf die Art der Verteilung zu schließen. Hier deuten wir dies an folgender Tabelle an:4 Tabelle: Tote durch Hufschlag in 10 preußischen Kavallerieregimentern w¨ ahrend 20 Jahren Anzahl von Jahren mit x Toten pro Regiment pro Jahr
x 0 1 2 3 4 ≥5
Beobachtet
Errechnet
109 65 22 3 1 0
109 66 20 4 1 0
Die Spalte der errechneten Werte kommt so zustande: Aus den Beobachtungen errechnet sich ein “Mittelwert“ x¯ = 4
(0 · 109 + 1 · 65 + 2 · 22 + 3 · 3 + 4 · 1) = 0.61 200
Entnommen aus: E. Kreyszig, Statistische Methoden und ihre Anwendungen, Vandenhoeck & Rupprecht, G¨ottingen, 1972
Baumeister: Mathematik II / Stand: Juni 1997
167
Nimmt man λ = x¯ – beachte, daß der Erwartungswert einer hypergeometrischen Verteilung mit Verteilungsparameter λ sich als λ ergibt – in der hypergeometrischen Verteilung, dann erh¨alt man die Spalte der errechneten Werte (gerundet). Im Kapitel 9 kommen wir ¨ detailiert zu solchen Uberlegungen zur¨ uck. 2 Von den g¨angigen und wichtigen Verteilungen fehlt uns noch die Normalverteilung. Sie ist allerdings eine Verteilung, die mit einer Zufallsgr¨oße X, die nicht diskret ist, zusammenh¨angt. Hier ist P ({a < X ≤ b}) =
Zb a
wobei
Rb a
1 (x − µ)2 √ exp(− )dx , a ≤ b , 2σ 2 σ 2π
· · · f¨ ur die “Fl¨ache“ steht, die von der x–Achse, den Achsen x = a und x = b
und dem Graphen der Funktion IR 3 x 7−→
1 (x − µ)2 √ exp(− ) ∈ IR 2σ 2 σ 2π
eingeschlossen wird. (µ steht f¨ ur den Erwartungswert, σ steht f¨ ur die Varianz der Normalverteilung.) Da wir den Integralbegriff
Rb a
schieben.
· · · noch nicht kennen, haben wir die Analyse noch aufzu-
Kapitel 8 Differential– und Integralrechnung In diesem Kapitel schließen wir die Analysis ab mit einer Verkn¨ upfung der Differential– und Integralrechnung. Damit wird auch ein vollst¨andiges Studium der elementaren Funktionen m¨oglich.
8.1
Differenzierbarkeit
Sei I stets ein nichtleeres Intervall. Die Steigung“ einer linearen Funktion ” l : I 3 x 7−→ mx + b ∈ IR (m, b ∈ IR) ist die Konstante m. Sie leitet sich hier aus dem Differenzenquotient l(x) − l(x0) = m , x 6= x0 x − x0 ab. F¨ ur den Fall einer nicht linearen (nichtlinearen) Funktion definieren wir die Steigung durch den Grenzwert von Differenzenquotienten: Definition 8.1 Sei f : I −→ IR und sei x0 ∈ I. Die Funktion f heißt differenzierbar in x0 genau dann, wenn der Grenzwert lim f 0 (x0) := x→x
0
f(x) − f(x0) x − x0
existiert. f 0 (x0) heißt dann Ableitung oder Differentialquotient von f an der df (x ) . Stelle x0 . Wir schreiben daf¨ur auch dx 2 0 Die Berechnung der Ableitung einer Funktion nennen wir Differentiation. Die allgemeine Methode der Differentiation und Integration (siehe unten) als Prozesse, die invers zueinander sind, wurde etwa gleichzeitig von I. Newton (1642 – 1727) und G.W. Leibniz (1646 – 1716) entwickelt. Die Entwicklung wurde angeregt durch Fortschritte in der Mechanik (G. Galilei (1564 – 1642)) und in der Astronomie (J. Keppler (1571 – 1630)) und bau¨ ten auf auf geometrischen Uberlegungen der Griechen und algebraischen Methoden von 168
Baumeister: Mathematik II / Stand: Juli 1997
169
R. Descartes (1596 – 1650). Newton war in erster Linie an Mechanik interessiert und verstand daher unter seinen Ableitungen (“Fluxionen“) in erster Linie Geschwindigkeiten (siehe Beispiel 8.2). Leibniz beabsichtigte dagegen eher einen allgemeinen Kalk¨ ul der Infinitesimalrechnung herzuleiten. Die Leibnizsche Darstellung war auch eleganter und durchsichtiger als die von Newton.1 Beispiel 8.2 Wir betrachten den erdnahen Fall eines Massenk¨orpers unter der Einwirkung der Schwerkraft und unter Vernachl¨assigung des Luftwiderstands. Damit stellen wir das Experiment von Galilei analytisch unter Einbeziehung der Kenntnis der Newtonschen Mechanik dar. Wir setzen: t m s(t) v(t) b(t)
Zeit, gemessen in sec . Masse des K¨orpers, gemessen in kg . Bis zur Zeit t zur¨ uckgelegter Weg, gemessen in m . m . Geschwindigkeit zur Zeit t, gemessen in sec Beschleunigung zur Zeit t, gemessen in m2 . sec
Die Zusammenh¨ange sind: s(t) − s(t0 ) , t − t0 v(t) − v(t0) b(t0) = lim . t→t0 t − t0
v(t0) = lim
t→t0
(Hier kommt zum Ausdruck, daß ein klarer Grenzwertbegriff erst zu einer befriedigenden Definition von “Geschwindigkeit, Beschleunigung“ f¨ uhrt.) Ausgangspunkt f¨ ur die Analyse der Situation ist das folgende Newtonsche Gesetz: mb(t) = mg Dabei ist g die Gravitationskonstante. Ihr Wert ist etwa 9.81
m sec2
.
Als Ergebnisse erhalten wir unter der Voraussetzung s(0) = 0 , v(0) = 0 : 1. b(t) = g , t ≥ 0 ; 2. v(t) = gt , t ≥ 0 ; 3. s(t) = 12 gt2 , t ≥ 0 . Es ist leicht zu verifizieren, daß dies g¨ ultige L¨osungen auf Grund der obigen Zusammenh¨ange sind, es muß aber hier noch unbest¨atigt bleiben, daß es sich um die einzigen L¨osungen handelt. Die Wegformel 1 s(t) = gt2 2 1
Die Bezeichnung f 0 (x0 ) in der Definition 8.1 stammt von J.L. Lagrange (1736 – 1813), die Bezeichnung von G.W. Leibniz.
df dx (x0 )
Baumeister: Mathematik II / Stand: Juli 1997
170
best¨atigt die von G. Galilei experimentell ermittelte Formel.
2
Wir geben nun ¨aquivalente Bedingungen f¨ ur Differenzierbarkeit an. Lemma 8.3 Sei f : I −→ IR stetig in x0 ∈ I. Es sind ¨aquivalent: (a) f differenzierbar in x0 . (b) Es gibt eine Funktion g : I −→ IR, stetig in x0, mit f(x) − f(x0) = g(x)(x − x0 ) , x ∈ I. (c) Es gibt eine lineare Funktion l : I −→ IR mit lim
x→x0
f(x) − l(x) = 0. x − x0
Zusatz: Ist f differenzierbar in x0 , so gilt
g(x) =
f(x) − f(x0) , x 6= x0 x − x0 0 f (x0) , x = x0
und
l(x) = f(x0) + f 0 (x0 )(x − x0 ) x ∈ I.
Beweis: (a) =⇒ (b) Definiere g wie im Zusatz angegeben. Klar, g ist stetig in x0, und die in (b) angegebene Identit¨at ist damit erf¨ ullt. (b) =⇒ (c) Definiere l wie im Zusatz angegeben. Damit haben wir lim x→x
0
f(x) − f(x0) − f 0 (x0 )(x − x0 ) 0 x − x0 f(x) − f(x0) = x→x lim − f 0 (x0 ) 0 x − x0 = 0
f(x) − l(x) = x − x0
lim x→x
(c) =⇒ (a) Sei l(x) = m(x − x0) + b , x ∈ IR . Wegen f(x) − m(x − x0 ) − b f(x) − b = −m x − x0 x − x0 gilt nach Voraussetzung lim
x→x0
f(x) − b =m x − x0
und daher b = x→x lim f(x) = f(x0 ) . Dies zeigt, daß f differenzierbar in x0 ist mit Ableitung 0 m.
Baumeister: Mathematik II / Stand: Juli 1997
171
Von besonderem Interesse ist die Bedingung (c) im Lemma 8.3. Sie besagt, daß in der Umgebung von x0 die Funktion f n¨aherungsweise durch die lineare Funktion l(x) := f(x0 ) + f 0 (x0)(x − x0) , x ∈ I, ersetzt werden darf, wobei der Fehler f(x) − l(x) schneller als |x − x0 | gegen Null strebt, da f(x) − l(x) lim | |=0 x→x0 x − x0 gilt. Geometrisch kann man diese Ersetzung deuten als die Ersetzung des Graphen von f durch die Tangente I 3 x 7−→ (x, f(x0 ) + f 0 (x0)(x − x0)) ∈ IR2 von f in x0. Folgerung 8.4 Ist f : I −→ IR in x0 ∈ I differenzierbar, so ist f in x0 stetig. Beweis: Sei g wie im Zusatz von Lemma 8.3 definiert. lim f(x) =
x→x0
=
lim (f(x) − f(x0) + f(x0 ))
x→x0
lim g(x)(x − x0 ) + f(x0 )
x→x0
= g(x0 )(x0 − x0 ) + f(x0) = f(x0 )
Aus den Rechenregeln f¨ ur Grenzwerte folgen Rechenregeln f¨ ur die Differentiation. (R1) Sind f, g : I −→ IR differenzierbar in x0 ∈ I, dann ist auch f, g differenzierbar in x0 und es gilt (f + g)0 (x0 ) = f 0 (x0 ) + g 0(x0 ) (R2) Sind f, g : I −→ IR differenzierbar in x0 ∈ I, dann ist auch f · g differenzierbar in x0 und es gilt (f · g)0 (x0) = f 0 (x0)g(x0 ) + f(x0)g 0 (x0 ). (R3) Sind f, g : I −→ IR differenzierbar in x0 ∈ I und ist g(x0) 6= 0, so ist auch fg differenzierbar in x0 und es gilt f g(x0)f 0 (x0) − g 0 (x0)f(x0 ) ( )0 (x0) = g g(x0)2
Baumeister: Mathematik II / Stand: Juli 1997
172
Der Beweis von (R1) ist trivial, der Beweis zu (R2) (Produktregel) folgt aus f(x)g(x) − f(x0)g(x0 ) f(x) − f(x0 ) g(x) − g(x0 ) = g(x) + f(x0 ) x − x0 x − x0 x − x0 unter Beachtung der Stetigkeit von f, g in x0. Zum Beweis von (R3) (Quotientenregel) k¨onnen wir wegen (R2) o.E. f(x) = 1, x ∈ I, annehmen. Die Behauptung lesen wir dann aus 1 − 1 g(x) − g(x0 ) −1 g(x) g(x0 ) = x − x0 g(x)g(x0) x − x0 unter Beachtung der Tatsache ab, daß g(x) 6= 0 gilt in einer Umgebung“ von x0, da g ” stetig in x0 ist (siehe Satz 6.17). Beispiel 8.5 • f : IR 3 x 7−→ mx + b ∈ IR . Offenbar ist a die Ableitung von f in jedem x0 ∈ IR . • f : IR 3 x 7−→ xn ∈ IR. Aus n−1 X xn − xn0 = xj xn−j 0 x − x0 j=0
liest man f 0 (x0) = nxn−1 ab. 0 • Aus den Rechenregeln folgt nun, daß die Polynome in jedem x0 ∈ IR differenzierbar sind; es gilt: (
n X
aj x ) (x0 ) =
j=0
• f : (0, ∞) 3 x 7−→
j 0
n X
jaj xj−1 0
j=1
√ x ∈ IR . Die Umformung √ √ x − x0 x − x0 √ = √ x − x0 (x − x0)( x + x0)
zeigt mit der Stetigkeit der Wurzelfunktion f : 1 f 0 (x0 ) = √ . 2 x0
2 Lemma 8.6 Sei f : I −→ IR, g : J −→ IR mit f(I) ⊂ J, I, J Intervalle. Sei f differenzierbar in x0 ∈ I und sei g differenzierbar in f(x0 ). Dann gilt: (g ◦ f)0 (x0 ) = g 0 (f(x0 ))f 0 (x0). Beweis: Sei y0 := f(x0 ). F¨ ur f(x) 6= y0 gilt dann (g ◦ f)(x) − (g ◦ f)(x0 ) g(f(x)) − g(f(x0 )) f(x) − f(x0 ) = · x − x0 f(x) − f(x0 ) x − x0
(8.1)
Baumeister: Mathematik II / Stand: Juli 1997
173
Mit
h(y) := wird daraus
g(y) − g(y0 ) y − y0 g 0(y0 )
, y 6= y0 , y = y0
(g ◦ f)(x) − (g ◦ f)(x0 ) f(x) − f(x0 ) = h(f(x)) x − x0 x − x0
und wegen
lim h(y) = g 0 (y0)
y→y0
folgt daraus die Behauptung. Die in (8.1) ausgesprochene Aussage heißt Kettenregel. Ist eine Funktion f : I −→ IR differenzierbar in jedem x0 ∈ I, so ist durch f 0 : I 3 x 7−→ f 0 (x) ∈ IR . eine Funktion erkl¨art; sie heißt Ableitung(sfunktion) von f. Ist nun diese Ableitung wieder in jedem x0 ∈ I differenzierbar, erh¨alt man als Ableitung von f 0 die zweite Ableitung(sfunktion) f 00 von f : f 00 : I 3 x 7−→ (f 0 )0 (x) ∈ IR . Sukzessive erh¨alt man so gegebenenfalls die Funktionen 0
f 0 , f 00, f (3) := (f 00)0 , f (4) := f (3) , . . . . )
(n+1 = θ. F¨ ur ein Monom mn, mn (x) := xn , haben wir: m(n) n = n! , mn
Definition 8.7 Sei f : I −→ IR . Sei n ∈ IN . (a) f heißt n–mal differenzierbar, wenn die Ableitungen f (i) f¨ur i = 1, . . . , n existieren. (b) f heißt n–mal stetig differenzierbar, wenn die Ableitungen f (i) f¨ur i = 1, . . . , n existieren und f (n) auch stetig ist. (c) f heißt unendlich oft differenzierbar, wenn die Ableitungen f (i) f¨ur i ∈ IN existieren.
2 Beispiel 8.8
Baumeister: Mathematik II / Stand: Juli 1997
174
Wir k¨onnen nun mit der Quotientenregel erkennen, daß die rationale Funktion f : I 3 x 7−→
ax + b ∈ IR cx + d
unendlich oft differenzierbar ist, falls cx + d 6= 0 ist f¨ ur x ∈ I. Etwa: f 0 (x0) =
da − cb da − cb 00 000 2 da − cb , f (x ) = (−2)c , f (x ) = (−2)(−3)c 0 0 (cx0 + d)2 (cx0 + d)3 (cx0 + d)4
2
Berechnen wir noch die Ableitung einer Umkehrfunktion. Satz 8.9 Sei f : [a, b] −→ IR stetig und streng monoton wachsend. Dann ist I := f([a, b]) = [f(a), f(b)] und die Umkehrfunktion f −1 : I −→ IR von f ist stetig und streng monoton wachsend. Ferner gilt: Ist f differenzierbar in x0 ∈ (a, b), so ist f −1 differenzierbar in y0 := f(x0 ) und es gilt 1 1 (f −1 )0(y0 ) = 0 = 0 −1 f (x0 ) f (f (y0)) Beweis: Existenz, Monotonie und Stetigkeit von f −1 folgen aus Satz 6.23. Sei y0 := f(x0). F¨ ur y 6= y0 , f(x) = y, gilt: f −1 (y) − f −1 (y0) x − x0 1 = = f(x) − f(x0 ) y − y0 f(x) − f(x0) x − x0 Daraus liest man
f −1 (y) − f −1 (y0 ) 1 lim = 0 y→y0 y − y0 f (x0 )
ab. Beispiel 8.10 Die Ableitung der Wurzelfunktion (siehe Beispiel 8.5) √ g : (0, ∞) 3 x 7−→ x ∈ IR k¨onnen wir auch berechnen, indem wir Satz 8.9 anwenden mit f : (0, ∞) 3 x 7−→ x2 ∈ IR . Es folgt damit g 0 (y) =
1 1 = √ , y ∈ (0, ∞) . f (g(y)) 2 y 0
2
Baumeister: Mathematik II / Stand: Juli 1997
8.2
175
Mittelwertsatz und Taylorsche Formel
Satz 8.11 Sei f : (a, b) −→ IR . Ist ξ ∈ (a, b) mit f(ξ) = max f(x) und ist f differenzierbar x∈(a,b)
in ξ, so gilt:
f 0 (ξ) = 0 .
Beweis: Wir haben f(x) ≤ f(ξ) f¨ ur alle x ∈ (a, b). Folglich ist f(x) − f(ξ) x−ξ und daher
(
≥ 0, ≤ 0,
falls x < ξ, falls x > ξ
f 0 (ξ) = 0.
Man beachte, daß die Aussage des obigen Satzes in der Situation f : [a, b] −→ IR im allgemeinen nicht gilt. Dazu betrachte etwa f : [−1, 1] 3 x 7−→ x ∈ IR . Bemerkung 8.12 Hat man eine Funktion mehrerer Ver¨anderlicher, also eine Funktion f : D −→ IR mit D ⊂ IR n , n ≥ 2 , so kann man sich den Begriff der Differentiation einer Ver¨anderlicher, wie wir ihn oben eingef¨ uhrt haben, dadurch zu Nutze machen, daß man die Funktion f “eindimensional“ anschaut: W¨ahle ξ0 ∈ D, u ∈ IR n, – u gibt die Richtung an, in der man sich f von ξ0 aus anschaut – und betrachte g : (a, b) 3 h 7−→ f(ξ + hu) ∈ IR f¨ ur geignete a, b . (Dies erfordert, daß mit ξ eine ganze “Umgebung“ von ξ zu D geh¨ort.) Insbesondere kann man damit erhalten, daß g 0 (0) = 0 sein muß, wenn f in ξ ein Maximum (Minimum) besitzt und g in h0 := 0 differenzierbar ist. 2 Wir f¨ uhren nun den Satz den Satz von Rolle (M. Rolle (1652 – 1719)) an: Satz 8.13 Sei f : [a, b] −→ IR stetig und in (a, b) differenzierbar. Sei f(a) = f(b) = 0. Dann gibt es ξ ∈ (a, b) mit f 0 (ξ) = 0. Beweis: Ist f identisch Null, ist nichts zu beweisen. Also sei f nicht identisch Null. O.E. gibt es dann x ∈ (a, b) mit f(x) > 0. Nach Satz 6.21 gibt es ξ ∈ (a, b) mit f(ξ) = max f(x) . x∈[a,b]
Baumeister: Mathematik II / Stand: Juli 1997
176
Da f(a) = f(b) = 0, max f(x) ≥ f(¯ x) > 0 gilt, ist ξ 6= a, f(ξ) 6= b . Dann ist nach Satz 8.17 f 0 (ξ) = 0 .
x∈[a,b]
Der folgende Satz wird als Mittelwertsatz der Differentialrechnung bezeichnet. Satz 8.14 Seien f, g : [a, b] −→ IR stetig und differenzierbar in (a, b). Sei g0 (x) 6= 0 f¨ur alle x ∈ (a, b). Dann gibt es ξ ∈ (a, b) mit f(b) − f(a) f 0 (ξ) = 0 g(b) − g(a) g (ξ) Beweis: Betrachte h : [a, b] 3 x 7−→ f(a) +
(8.2)
f(b) − f(a) (g(x) − g(a)) ∈ IR . g(b) − g(a)
Es gilt: h(a) = f(a), h(b) = f(b). Nach dem Satz von Rolle, angewendet auf h − f, gibt es ξ ∈ (a, b) mit h0(ξ) − f 0 (ξ) = 0, d.h.
f(b) − f(a) 0 g (ξ) = f 0 (ξ). g(b) − g(a)
Die wichtigste Anwendung von Satz 8.14 ergibt sich mit g(x) := x. Dann kann man die Formel (8.2) so lesen: Es gibt ϑ ∈ (0, 1) mit f(b) = f(a) + f 0 (a + ϑ(b − a))(b − a)
(8.3)
In dieser Form geht der Satz auf J.L. Lagrange (1735 – 1813) zur¨ uck. Satz 8.15 Sei f : (a, b) −→ IR stetig und (n+1)−mal differenzierbar. Seien x0, x0 +h ∈ (a, b). Dazu gibt es ϑ ∈ (0, 1) mit f(x0 + h) =
n X
1 (j) 1 f (x0 )hj + f (n+1) (x0 + ϑh)hn+1 . (n + 1)! j=0 j!
Beweis: n P 1 f (j) (x)(x + h − x)j , x ∈ (a, b). Setze F (x) := 0 j=0 j! Es ist n X 1 (j) F (x0) = f (x0 )hj , F (x0 + h) = f(x0 + h). j! j=0
(8.4)
Baumeister: Mathematik II / Stand: Juli 1997
177
Ferner ist F differenzierbar und n X
n X 1 (j+1) 1 j F (x) = (x)(x0 + h − x) − f f (j) (x)(x0 + h − x)j−1 j=0 j! j=1 (j − 1)! 1 (n+1) = (x)(x0 + h − x0)n f n! 0
Nach dem Mittelwertsatz folgt mit g(x) := (x0 + h − x)n+1 : f(x0 + h) = F (x0 + h) = F (x0) + d.h. f(x0 + h) =
g(x0 + h) − g(x0 ) 0 F (x0 + ϑh), g 0 (x0 + ϑh)
n X
1 (j) 1 f (x0 )hj + f (n+1) (x0 + ϑh)hn+1 . j! (n + 1)! j=0
Die Formel (8.4) heißt Taylorsche Formel mit Lagrangeschem Restglied (B. Taylor (1685 – 1731)). F¨ ur n = 0 reduziert sich die Formel auf den Mittelwertsatz. F¨ ur n ≥ 1 spricht man von der Taylorentwicklung von f bis zum n–ten Glied. Man kann der Formel (8.4) auch die folgende Form f(x) =
n X
1 1 (j) f (x0)(x−x0 )j + f (n+1) (x0 +ϑ(x−x0 ))(x−x0)n+1 , x ∈ (a, b), (8.5) j! (n + 1)! j=0
geben. Der Term
n X
1 (j) f (x0)(x − x0)j j! j=0 heißt das Taylorpolynom von f im Entwicklungspunkt x0 , der Term 1 f (n+1) (x0 + ϑ(x − x0))(x − x0)n+1 (n + 1)! wird das zugeh¨orige Lagrangesche Restglied genannt. F¨ ur n = 1 ist das Taylorpolynom eine lineare Approximation von f , f¨ ur n = 2 ist es eine Approximation durch ein quadratisches Polynom, das in x0 im Funktionswert, in der ersten und in der zweiten Ableitung mit f u ¨bereinstimmt. Man beachte, daß der Grenz¨ ubergang n → ∞ in der Formel (8.4) heikel ist: Es gibt Beispiele von unendlich oft differenzierbaren Funktion f : IR −→ IR, bei denen f(x0 + h) =
∞ X
1 (j) f (x0)hj j=0 j!
nicht gilt; die Reihe (8.6) heißt Taylorreihe von f . Die Funktion (
f(x) :=
exp(− x12 ), x 6= 0 0, x=0
(8.6)
Baumeister: Mathematik II / Stand: Juli 1997
178
ist eine solche Funktion. Sie wird sogar oft als eine solche Funktion ben¨otigt. Im n¨achsten Abschnitt diskutieren wir u.a. Funktionen, die u ¨ ber Taylorreihen definiert sind. Definition 8.16 Sei f : I −→ IR . Ein x0 ∈ I heißt relatives Maximum bzw. relatives Minimum, wenn es > 0 gibt mit f(x0 ) ≥ f(x) , x ∈ I ∩ (x − , x0 + ) bzw. f(x0) ≤ f(x) , x ∈ I ∩ (x0 − , x0 + ) . Jedes relative Minimum oder Maximum nennen wir ein relatives Extremum.
2
Folgerung 8.17 Sei f : (a, b) 7−→ IR differenzierbar. Ist x0 ∈ (a, b) ein relatives Extremum, dann gilt f 0 (x0) = 0 . Beweis: Siehe Satz 8.17. ¨ (Der Fall des Minimums wird auf den Fall des Maximums durch Ubergang von f zu −f zur¨ uckgef¨ uhrt.) Offenbar ist die Umkehrung der obigen Folgerung falsch: Man kann aus f 0 (x0) = 0 nicht auf ein relatives Extremum x0 schließen; siehe etwa f(x) := x3 , x0 := 0. Satz 8.18 Sei f : (a, b) 7−→ IR n – mal differenzierbar, n ≥ 2 . Sei f (k) (x0 ) = 0 , k = 0, . . . , n − 1, f (n) (x0) 6= 0 . Dann gilt: (a) x0 ist ein relatives Extremum genau dann, wenn n gerade ist. (b) Ist n gerade, so ist x0 ein relatives Maximum bzw. relatives Minimum genau dann, wenn f (n) (x0 ) < 0 bzw. f (n) (x0) > 0 ist. Beweis: Sei etwa f (n) (x0) > 0 . Sei h ∈ IR mit x0 + h ∈ (a, b). Die Taylorsche Formel sagt f(x0 + h) =
n−2 X j=0
f (j) (x0) j hn−1 (n−1) h + f (x0 + δh) j! (n − 1)!
= f(x0 ) +
hn−1 (n−1) f (x0 + δh) (n − 1)!
Baumeister: Mathematik II / Stand: Juli 1997 mit δ ∈ [0, 1].
179
f (n−1) (x0 + t) − f (n−1) (x0) t t→0
F¨ ur h gen¨ ugend klein ist also wegen f (n) (x0 ) = lim (
f
(n−1)
(x0 + δh)
<0 >0
f¨ ur h < 0 . f¨ ur h > 0
Ist n ungerade, dann ist hn−1 > 0 und daher (
f
(n−1)
(n−1)
(x0 + δh)h
<0 >0
f¨ ur h < 0 f¨ ur h > 0
Also wechselt f(x)−f(x0 ) f¨ ur x = x0 sein Vorzeichen, und es kann kein relatives Extremum vorliegen. Ist n gerade, dann ist f (n−1) (x0 + δh)hn−1 > 0 f¨ ur h 6= 0 und damit x0 ein relatives Minimum. Ist andererseits x0 ein relatives Minimum, dann folgt f¨ ur h gen¨ ugend klein f (n−1) (x0 + δh)hn−1 ≥ 0 , (
f (n−1) (x0 + δh)
≥0 ≤
f¨ ur h > 0 f¨ ur h < 0
folglich f (n) (x0 ) ≥ 0 . Aus der Voraussetzung ergibt sich f (n) (x0 ) > 0 . Das “Spiel“ mit ungerade/gerade im obigen Beweis kann man sehr sch¨on an den Beispielen f(x) := x2 , f(x) := x3 , f(x) := x4 , x ∈ (−1, 1) verfolgen. ¨ Der obige Satz legt folgendes Vorgehen nahe, wenn man sich einen Uberblick u ¨ber den Verlauf von Funktionen machen will (Kurvendiskussion) Sei f : (a, b) 7−→ IR zweimal differenzierbar. 1. Man bestimme alle Nullstellen von f . Satz 6.18 ist dabei eventuell hilfreich. 2. Man studiere das Verhalten von f in den Randpunkten x0 = a, x0 = b durch Betrachtung von x→a lim f(x), lim f(x) . x→b
3. Man bestimme die Extrema von f durch Betrachtung der Nullstellen von f 0 (Satz 6.18 ist eventuell hilfreich). 4. Man bestimme die zweite Ableitung um u ¨ ber Maxima, Minima und Wendepunkte, 00 dies sind Punkte, wo f sein Vorzeichen wechselt, entscheiden zu k¨onnen.
Baumeister: Mathematik II / Stand: Juli 1997
180
Beispiel 8.19 Betrachte
1 (x − µ)2 √ exp(− ) ∈ IR 2σ 2 σ 2π Wir halten unter der Annahme, daß wir schon wissen, daß die Ableitung der Exponentialfunktion die Exponentialfunktion selbst ist (siehe Beispiel 8.25), fest: f := fµ,σ2 : IR 3 x 7−→
• f hat keine Nullstellen. • lim f(x) = 0 = lim f(x), da lim e−t = 0 ist. x→∞ x→−∞
t→∞
• Die einzige Nullstelle von f 0 ist x0 = µ, denn 1 (x − µ) (x − µ)2 0 √ (− fµ,σ ) exp(− ). 2 (x) = σ2 2σ 2 σ 2π • Es liegt in x0 = µ ein Maximum vor, da f 00 (µ) < 0 gilt. Beachte: 1 (x − µ)2 1 (x − µ)2 1 (x − µ) 2 √ f 00 (x) = √ (− 2 ) exp(− ) + ) exp(− ) (− 2σ 2 σ2 2σ 2 σ 2π σ σ 2π • Es liegen in x0 ± σ Wendepunkte vor, da f 00(µ ± σ) = 0 gilt.
8.3
Funktionenfolgen und Funktionenreihen
Sei D eine nichtleere Teilmenge von IR und seien fn : D −→ IR, n ∈ IN , gegebene Funktionen. Wir gehen nun der Frage nach, wann wir die Konvergenz von (fn (x))n∈IN gegen f(x) f¨ ur alle x ∈ D mit einer Funktion (Grenzfunktion) f : D −→ IR erwarten d¨ urfen. Beispiele f¨ ur diese Situation sind die Monome mn : IR 3 x 7−→ xn ∈ IR , n ∈ IN 0 .
Beispiel 8.20 F¨ ur die Folge der Monome (mn)n∈IN , betrachtet auf D := [−1, 1] (siehe oben), haben wir offenbar folgende Situation: (
lim mn(x) = n
0 , falls |x| < 1 1 , falls x = 1
und lim mn (x) existiert nicht f¨ ur x = −1. Selbst, wenn wir die Folge etwa nur auf D := n [0, 1] betrachten, sehen wir, daß die Grenzfunktion“ ” f : [0, 1] 3 7−→ lim mn (x) ∈ IR n
Baumeister: Mathematik II / Stand: Juli 1997
181
nicht stetig ist, obwohl alle Monome stetig sind. Ein kl¨arender Ausweg aus dieser Situation ergibt sich nach folgender Definition.2 2 Definition 8.21 Eine Funktionsfolge (fn )n∈IN mit gemeinsamem Definitionsbereich D ⊂ IR konvergiert gleichm¨ aßig gegen die Funktion f : D −→ IR genau dann, wenn gilt: ∀ > 0 ∃ N ∈ IN ∀ n ≥ N ∀ x ∈ D (|fn(x) − f(x)| < )
2
Wir nennen f dann den Grenzwert der Funktionenfolge (fn )n∈IN .
Die gleichm¨aßige Konvergenz ist offenbar eine versch¨arfte Forderung von lim fn (x) = f(x) n∈IN
f¨ ur alle x ∈ D (Punktweise Konvergenz).
Klar, der Grenzwert f einer Funktionenfolge (fn )n∈IN ist eindeutig bestimmt, da der Grenzwert von Folgen reeller Zahlen eindeutig bestimmt ist. Satz 8.22 Der Grenzwert f einer gleichm¨aßig konvergenten Funktionenfolge (fn)n∈IN mit Definitionsbereich D ist stetig in x0 ∈ D, falls jede Funktion fn stetig in x0 ist. Beweis: Sei > 0. Dazu gibt es N ∈ IN mit |fn (x) − f(x)| <
, x ∈ D, n ≥ N. 3
Da fN stetig in x0 ist, gibt es δ > 0 mit |fN (x) − fN (x0)| <
, x ∈ D ∩ (x0 − δ, x0 + δ). 3
Sei nun x ∈ D ∩ (x0 − δ, x0 + δ). Wir haben |f(x) − f(x0 )| ≤ |f(x) − fN (x)| + |fN (x) − fN (x0)| + |fN (x0) − f(x0 )| <
+ + = . 3 3 3
Mit Satz 6.14 folgt die Stetigkeit von f in x0 . Den Inhalt von Satz 8.33 kann man sich auch als Vertauschungsregel merken: Ist (fn )n∈IN eine gleichm¨aßig konvergente Folge von stetigen Funktionen mit Grenzwert f, so gilt f¨ ur eine Folge (xk )k∈IN mit lim xk = x0 : k
lim lim fn (xk ) = lim f(xk ) = f(x0 ) = lim fn(x0 ) = lim lim fn (xk ) n n n k
2
k
k
Dre Begriff der gleichm¨aßigen Konvergenz wurde 1848 unabh¨angig voneinander von v. Seidel (1821 – 1896) und G. Stokes (1819 – 1903) eingef¨ uhrt, unausgesprochen war die Begriffsbildung aber schon fr¨ uher bei K. Weierstraß (1815 – 1897) zu finden.
Baumeister: Mathematik II / Stand: Juli 1997
182
Spezielle Funktionenfolgen ergeben sich als Folge der Partialsummen von Funktionenreihen. Hier ergibt sich (fn )n∈IN folgendermaßen: n X
fn (x) :=
gj (x), n ∈ IN , x ∈ D, mit gj : D −→ IR, j ∈ IN 0 .
j=0
Als Symbol f¨ ur den Grenzwert lim fn schreiben wir hier n ∞ X
gj
j=0
Die gleichm¨aßige Konvergenz von Funktionenreihen ist erkl¨art u ¨ber die gleichm¨aßige Konvergenz der zugeh¨origen Funktionenfolge der Partialsummen (siehe oben). Als Ergebnis k¨onnen wir festhalten: Satz 8.23 Sind gj : D −→ IR, j ∈ IN 0 , stetig in x0 ∈ D und konvergiert
∞ P
gj gleichm¨aßig
j=0
gegen f, so ist f stetig in x0. Beweis: Anwendung von Satz 8.33 auf die Folge (fn)n∈IN mit fn : D 3 x 7−→
n X
gj (x) ∈ IR,
j=0
wobei offenbar jedes fn stetig in x0 ∈ D ist. Satz 8.24 Seien gj : (a, b) −→ IR differenzierbar in (a, b) f¨ur jedes j ∈ IN 0 . F¨ur mindestens ein x0 ∈ (a, b) sei
∞ P
gj (x0 ) konvergent. Dann gilt:
j=0
∞ P
Konvergiert die Reihe
j=0
und (
gj0 gleichm¨aßig, dann konvergiert auch
∞ X
j=0
gj )0(x) =
∞ X
∞ P
gj gleichm¨aßig
j=0
gj0 (x) , x ∈ (a, b) .
j=0
Beweis: ∞ P Sei > 0. Aus der gleichm¨aßigen Konvergenz der Reihe gj0 folgt die Existenz von j=0
N ∈ IN mit |
m X
gj0 (x)| <
j=n
, x ∈ (a, b), n, m ≥ N. 1 + (b − a)
Nach dem Mittelwertsatz ist m X j=n
(gj (x) − gj (x0)) = (x − x0 )
m X j=n
gj0 (x0 + δ(x − x0 ))
Baumeister: Mathematik II / Stand: Juli 1997
183
mit einem δ ∈ (0, 1). Daraus folgt f¨ ur x ∈ D |
m X
(gj (x) − gj (x0))| = |x − x0||
m X
gj0 (x0 + δ(x − x0))| < .
j=n
j=k
Dies zeigt zusammen mit der Voraussetzung, daß
∞ P
gj (x0 ) konvergiert, daß
j=0
∞ P
gj gleich-
j=0
m¨aßig konvergiert. Sei ξ ∈ [a, b] . Definiere
gj (x) − gj (ξ) , x 6= ξ x−ξ Fj (x) := , j ∈ IN 0 , x ∈ [a, b] . gj0 (ξ) ,x = ξ Wir wissen, daß jedes Fj stetig ist. Wie oben sieht man, daß |
m X
Fj (x)| = |
j=n
ist. Also ist auch
∞ P
m X
gj0 (ξ + δ(x − ξ))| <
j=n
< 1 + (b − a)
Fj gleichm¨aßig konvergent und folglich
j=0
∞ P
Fj stetig. Damit folgt:
j=0 ∞ X
gj0 (ξ)
=
j=0
∞ X
Fj (ξ) = lim x→ξ
j=0
= lim x→ξ
∞ X
Fj (x)
j=0
∞ X
gj (x) − gj (ξ) x−ξ j=0
∞ 1 X = lim (gj (x) − gj (ξ)) x→ξ x − ξ j=1
= (
∞ X
gj )0 (x)
j=0
Der obige Satz besagt, daß (unter seinen Voraussetzungen) eine gleichm¨aßig konvergente Reihe “gliedweise“ differenziert werden darf. Die wichtigsten Funktionenreihen sind Potenzreihen, also Reihen der Form ∞ X
aj (x − x0 )j , x ∈ IR .
j=0
Der Punkt x0 heißt Entwicklungspunkt, die Zahlen aj heißen Koeffizienten der Potenzreihe. M¨oglicherweise konvergiert eine solche Reihe nur f¨ ur x = x0 . Sei f : (a, b) −→ IR eine unendlich oft differenzierbare Funktion und sei x0 ∈ (a, b). Formal k¨onnen wir damit die Taylorreihe“ ” ∞ X f (j) (x0 ) (x − x0 )j j! j=0
Baumeister: Mathematik II / Stand: Juli 1997
184
verkn¨ upfen. Die Taylorreihe ist also eine Potenzreihe. Hier sind x, x0, aj reelle Zahlen. Tiefere Einsicht in die Natur der Potenzreihen kann man erst im Rahmen der Theorie komplexwertiger Funktionen (Funktionentheorie) gewinnen. Dort sind x, x0, aj komplexe Zahlen, also Elemente von C0 . Beispiel 8.25 Die Exponentialreihe ist definiert als Reihe ∞ X
xj , x ∈ IR . j=0 j! Wir wissen, daß diese Reihe f¨ ur jedes x0 ∈ IR konvergiert (siehe Abschnitt 4.6). Als Versch¨arfung zeigen wir die gleichm¨aßige Konvergenz dieser Potenzreihe in jedem Intervall (−R, R) . Sie folgt aus M M M X X X xj |x|j Rj | |≤ ≤ j=N j! j=N j! j=N j! und der Konvergenz von
∞ P
Rj (gegen exp(R)). j=0 j!
Wegen
∞ X j=1
folgt nun mit Satz 8.24
j
∞ X xj−1 xj = , x ∈ IR , j! k! k=0
exp0 (x) = exp(x) f¨ ur alle x ∈ IR .
Damit ist die Exponentialfunktion unendlich oft differenzierbar in jedem x0 ∈ IR . Die Taylorsche Formel (8.4) besagt also f¨ ur x0 = 0 : n X
hj hn+1 exp(h) = + exp(ϑh) (n + 1)! j=0 j!
(8.7)
n+1
h f¨ ur jedes h ∈ IR mit einem ϑ ∈ [0, 1] . Da nun lim (n+1)! = 0 f¨ ur jedes h ∈ IR gilt, folgt, n∈IN daß die Darstellung der Exponentialfunktion als Funktionenreihe gerade der Taylorreihe der Exponentialfunktion mit Entwicklungspunkt x0 = 0 entspricht. Festzuhalten bleibt, daß die Exponentialfunktion die auffallende Eigenschaft hat, daß die Ableitung mit der Funktion u 2 ¨bereinstimmt.
Beispiel 8.26 Wir wissen aus Beispiel 8.25, daß exp0(x) = exp(x) f¨ ur alle x ∈ IR gilt. Daraus leitet sich ln0(x) =
1 1 = , x > 0, exp(ln(x)) x
mit Satz 8.9 ab. Wir w¨ahlen als Entwicklungspunkt im Definitionsgebiet des Logarithmus naheliegenderweise den Punkt x0 = 1 und erhalten ln(1 + x) =
n X
1 xn+1 (−1)n n! (−1)j−1 (j − 1)!xj + (n + 1)! (1 + ϑx)n+1 j=1 j!
(8.8)
Baumeister: Mathematik II / Stand: Juli 1997
185
und sehen, daß f¨ ur den nat¨ urlichen Logarithmus die folgende Darstellung vorliegt: ln(1 + x) =
∞ X
(−1)j−1 j x , |x| < 1 . j! j=1
2 8.4
Integration
Wir wollen nun das Integral3 von stetigen Funktionen einf¨ uhren. Das Integrieren (stetiger Funktionen) hat zwei verschiedene Aspekte: zum einen die Messung von L¨angen, Fl¨acheninhalten und generell Volumina, zum anderen die Bestimmung von Stammfunktionen, d.h. von Funktionen, die eine gegebene Funktion als Ableitung besitzen. Wir wenden uns zun¨achst dem ersten Aspekt zu. Sei f : [a, b] → IR beschr¨ankt. Sei Z : a = x0 < x1 < . . . < xn−1 < xn = b eine Zerlegung des Intervalls [a, b]. Sei Ml :=
sup
f(x) , ml :=
x∈[xl−1 ,xl]
Die Zahlen S f (Z) :=
n X
inf
x∈[xl−1,xl ]
f(x), l = 1, . . . , n .
Ml (xl − xl−1 ) , S f (Z) :=
l=1
n X
ml (xl − xl−1)
l=1
heißen Ober– und Untersummen von f bez¨ uglich der Zerlegung Z. ∗ Eine Zerlegung Z heißt Verfeinerung von Z, wenn jeder Teilpunkt xl von Z auch ein Teilpunkt von Z ∗ ist. Lemma 8.27 Sei f : [a, b] −→ IR beschr¨ankt und sei Z ∗ eine Verfeinerung der Zerlegung Z. Dann gilt: S f (Z) ≤ S f (Z ∗ ) ≤ S f (Z ∗) ≤ S f (Z) Beweis: Seien
Z : a = x0 < . . . < xn = b, Z ∗ : a = x∗0 < . . . < x∗m = b.
Sind die Zerlegungen identisch, ist nichts zu beweisen. Sei etwa [xi−1 , xi] = [x∗l+m−1 , x∗l+m ]. Dann ist mit der u ¨ blichen Bedeutung von mi , Mi , m∗i , Mi∗ l+m X j=l 3
m∗j (x∗j − x∗j−1 ) ≤
l+m X
Mj∗ (x∗j − x∗j−1 ) ,
j=l
Der Begriff “Integral“ (lat. integer = ganz)Rwurde von Johann Bernoulli (1667 – 1748) verwendet, das unten zur Verwendung kommende Zeichen ist ein stilisiertes Summenzeichen. Leibniz verwendet urspr¨ unglich “Summe“ daf¨ ur.
Baumeister: Mathematik II / Stand: Juli 1997 l+m X
186
m∗j (x∗j − x∗j−1 ) ≥ mi(xi − xi−1 ) ,
j=l l+m X
Mj∗ (x∗j − x∗j−1 ) ≤ Mi (xi − xi−1 ).
j=l
Daraus liest man die Behauptung ab. Folgerung 8.28 Sei f : [a, b] → IR beschr¨ankt und seien Z1 , Z2 Zerlegungen von [a, b]. Dann gilt: S f (Z1 ) ≤ S f (Z2 ) Beweis: Dies ist klar, denn f¨ ur jede gemeinsame Verfeinerung Z von Z1 und Z2 – dies ist eine Zerlegung von [a, b], die gerade die Zerlegungspunkte von Z1 und Z2 als Zerlegungspunkte hat – folgt S f (Z1 ) ≤ S f (Z) ≤ S f (Z) ≤ S f (Z2 ). Es existieren also nach Folgerung 8.28 zu einer beschr¨ankten Funktion f : [a, b] −→ IR I f := sup{S f (Z)|Z Zerlegung von [a, b]}, I f := inf{S f (Z)|Z Zerlegung von [a, b]}, und wir werden damit zu folgender Definition gef¨ uhrt: Definition 8.29 Eine beschr¨ankte Funktion f : [a, b] → IR heißt (Riemann-)integrierbar, wenn mit I f := sup{S f (Z)|Z Zerlegung von [a, b]}, I f := inf{S f (Z)|Z Zerlegung von [a, b]}, gilt: I f = I f . Dann heißt
Zb
f(x)dx := I f = I f a
das (Riemann–)Integral von f ; a heißt untere Grenze, b heißt obere Grenze des Integrals. 2 Diese Definition stammt von B. Riemann (1826 – 1866).
Baumeister: Mathematik II / Stand: Juli 1997
187
Satz 8.30 Sei f : [a, b] → IR beschr¨ankt. Dann sind ¨aquivalent: (a) f ist integrierbar. (b) ∀ ε > 0 ∃ Zerlegung Z (S f (Z) − S f (Z) < ε) . Beweis: (a) =⇒ (b). Sei ε > 0. W¨ahle Zerlegungen Z1 , Z2 mit Z
b
a
f(x)dx > S f (Z1 ) −
ε , 2
Z
b
a
f(x)dx < S f (Z2 ) +
ε . 2
Ist dann die Zerlegung Z die gemeinsame Verfeinerung von Z1 , Z2 , dann gilt S f (Z) − S f (Z) ≤ S f (Z1 ) − S f (Z2 < ε . (b) =⇒ (a). Sei ε > 0 . Dann gibt es eine Zerlegung Z mit I f − I f ≤ S f (Z) − S f (Z) < ε . Da ε > 0 beliebig war, folgt I f ≤ I f , d.h. I f = I f . Bemerkung 8.31 Ist f : [a, b] −→ IR Riemann-integrierbar, dann kann man zeigen, daß man das Integral Rb
f(x) dx durch
a
n P
i=1
f(ξi )(xi − xi−1 ), approximieren kann; dabei ist
a = x0 < x1 < . . . < xn = b , ξi ∈ [xi−1 , xi], 1 ≤ i ≤ n, eine Zerlegung von [a, b] . Man hat ja nur zu beachten, daß mi ≤ f(ξi ) ≤ Mi in der u 2 ¨blichen Bezeichnung gilt. Der Zusatz “Riemann–“ bei der Integrierbarkeit hat seine Bedeutung darin, daß es noch andere Integrierbarkeitsbegriffe (Lebesgue–integrierbar,. . .) gibt, die sich etwa hinsichtlich der Approximierbarkeit durch andere Ober– und Untersummen unterscheiden und f¨ ur allgemeinere Funktionsklassen geeignet sind. F¨ ur stetige Funktionen ist Riemann–Integrierbarkeit der passende Begriff. Dazu ben¨otigen wir nat¨ urlich, daß stetige Funktionen Riemann–integrierbar sind. Satz 8.32 Sei f : [a, b] −→ IR stetig. Dann gilt: (a) ∀ > 0 ∃δ > 0 ∀x, y ∈ [a, b] (|x − y| < δ =⇒ |f(x) − f(y)| < ) . (b) f ist Riemann–integrierbar. Rb
(c) | f(x)dx| ≤ (b − a) max |f(x)| . a
Beweis:
x∈[a,b]
Baumeister: Mathematik II / Stand: Juli 1997
188
Zu (a): Annahme: Die Behauptung unter (a) gilt nicht. Dann gibt es > 0 und Folgen (xn)n∈IN , (yn)n∈IN mit 1 xn, yn ∈ [a, b], |xn − yn | < , |f(xn) − f(yn )| ≥ f¨ ur alle n ∈ IN . n Nach Satz 4.41 gibt es konvergente Teilfolgen (xnk )k∈IN , (ynk )k∈IN und daher x ∈ [a, b] mit x = lim xnk = lim ynk . Daraus folgt k
k
f(x) = lim f(xnk ) = lim f(ynk ) k
k
was im Widerspruch zur Tatsache ur alle n ∈ IN |f(xn ) − f(yn )| ≥ f¨ ist. Zu (b). Sei > 0. W¨ahle δ > 0 gem¨aß (a). F¨ ur jede Zerlegung Z : a = x0 < x1 < . . . < xn = b mit xi − xi−1 < δ , 1 ≤ i ≤ n, gilt dann mit der u ¨blichen Bedeutung von Mi , mi S f (Z) − S f (Z) =
n X
(Mi − mi )(xi − xi−1 ) < (b − a)
i=1
Daraus folgt (b). Zu (c). Offensichtlich, da die Aussage auf der Ebene der Ober– und Untersummen gilt. Bemerkung 8.33 Vergleicht man die Bedingung (a) aus Satz 8.32 mit der Aussage (b) aus Satz 6.14, so f¨allt auf, daß in (a) die Wahl von δ nicht von den Punkten x, y in [a, b] abh¨angt: Stetige Funktionen auf einem abgeschlossenen, beschr¨ankten Intervall sind gleichm¨ aßig stetig. (Diese Begriffsbildung und das Ergebnis (a) aus Satz 8.32 geht auf G. Cantor (1845 – 1918) zur¨ uck). Wir f¨ uhren Rechenregeln an. (R1) Ist f : [a, b] −→ IR integrierbar und [α, β] ⊂ [a, b], so ist f : [α, β] −→ IR auch integrierbar. (R2) Ist f : [a, b] −→ IR, a ≤ b ≤ c und ist f|[a,b] , f|[b,c] integrierbar, so ist f integrierbar und es gilt Z c Z b Z c f(x)dx = f(x)dx + f(x)dx . a
a
b
(R3) Sind f, g : [a, b] −→ IR integrierbar, so ist αf + βg f¨ ur alle α, β ∈ IR integrierbar und es gilt Z b Z b Z b (αf + βg)(x)dx = α f(x)dx + β g(x)dx . a
a
a
Baumeister: Mathematik II / Stand: Juli 1997
189
(R4) Ist f : [a, b] −→ IR integrierbar und ist f(x) ≥ 0 f¨ ur alle x ∈ [a, b], dann ist Z a
b
f(x)dx ≥ 0 .
(R5) Ist f : [a, b] −→ IR integrierbar, so ist auch |f| : [a, b] 3 7−→ integrierbar und es gilt Z Z |
b
a
f(x)dx| ≤
b
a
|f(x)| ∈ IR
|f(x)|dx .
(R6) Sind f, g : [a, b] −→ IR integrierbar, so ist auch fg : [a, b] 3 x 7−→ f(x)g(x) ∈ IR integrierbar. (R1),(R2),(R3),(R4) ergeben sich ganz einfach aus der Tatsache, daß entsprechende Aussagen f¨ ur Unter– und Obersummen gelten. Zu (R5). Den Beweis zur Aussage, daß Integrierbarkeit von |f| aus der Integrierbarkeit vonf folgt, u ¨berlassen wir dem Leser. Die angegebene Ungleichung folgt aus der Tatsache, daß eine entsprechende Ungleichung f¨ ur Unter– und Obersummen gilt. Zu (R6). Den Beweis u ¨berlassen wir dem Leser. Satz 8.34 Jede monotone Funktion f : [a, b] −→ IR ist integrierbar. Beweis: Sei f etwa monoton wachsend. Ist Z : x0 = a < x1 < . . . < xn = b eine Zerlegung, dann gilt S f (Z) =
n X
f(xi−1 )(xi − xi−1 ) , S f (Z) =
i=1
n X
f(xi )(xi − xi−1 ) ,
i=1
und damit S f (Z) − S f (Z) =
n X
(f(xi ) − f(xi−1 ))(xi − xi−1 ) ≤ max (xi − xi−1) (f(b) − f(a)) ,
i=1
woraus man die Behauptung mit Satz 8.30 abliest. Beispiel 8.35
1≤i≤n
Baumeister: Mathematik II / Stand: Juli 1997 Sei wiederum f : [0, 1] −→ IR mit
(
f(x) :=
1 0
190
,x ∈ Q 0 ,x ∈ /Q 0
betrachtet. Da in der Umgebung eines jeden Punktes sowohl rationale als auch irrationale Punkte liegen, gilt f¨ ur jede Zerlegung Z von [0, 1] : S f (Z) = 0 , S f (Z) = 1. Also kann f nicht integrierbar sein.
2
Beispiel 8.36 Betrachte die Funktion f : [0, 1] 3 x 7−→ x2 ∈ IR . Da sie als Polynom stetig ist, ist sie integrierbar. Die Riemann–Summen zu einer beliebigen Zerlegung Z sehen so aus: S f (Z) =
n X
f(xi−1 )(xi − xi−1 ) =
i=1
S f (Z) =
n X
n X
x2i−1 (xi − xi−1 )
i=1 n X
f(xi )(xi − xi−1 ) =
i=1
x2i (xi − xi−1 ).
i=1
Mit der speziellen Zerlegung Z : 0 = x0 < x1 = h < x2 = 2h < . . . < xn = nh = 1 wird daraus S f (Z) =
n−1 X
i2 h3 = h3 ·
i=0 n−1 X
(n − 1)n(2n − 1) 6
n(n + 1)(2n + 1) , 6 i=0 1 1 S f (Z) = (1 − h)(2 − h) , S f (Z) = (1 + h)(2 + h) 6 6 Der Grenzwert h → 0 liefert dann S f (Z) =
(i + 1)h3 = h3 ·
Z1
f(x)dx = 0
2 3
2
Bemerkung 8.37 R Will man das Riemann–Integral ab f(x)dx numerisch berechnen, so ist ein praktikables Vorgehen, [a, b] in 2n Intervalle der L¨ange h := (b − a)/2n zu zerlegen und das Integral u ¨ber ein Intervall der L¨ange 2h gem¨aß (i+1)h Z
f(x)dx ≈
(i−1)h
2h (f((i + 1)h) + 4(ih) + f((i − 1)h)) 6
zu ersetzen Die obige Formel heißt Simpsonsche Regel.
2
Baumeister: Mathematik II / Stand: Juli 1997
8.5
191
Integration und Differentiation
Wir stellen nun einen Zusammenhang zwischen Integration und Differentiation her. Definition 8.38 Sei f : [a, b] → IR . Eine Funktion F : [a, b] → IR heißt Stammfunktion von f, wenn F differenzierbar ist und F 0 = f gilt. 2 Satz 8.39 Ist F eine Stammfunktion von f : [a, b] → IR, so gibt es zu jeder anderen Stammfunktion G von f eine Konstante c ∈ IR mit G(x) = F (x) + c , x ∈ [a, b]. Beweis: Offenbar ist f¨ ur jedes c ∈ [a, b] F + c : [a, b] 3 x 7−→ F (x) + c ∈ IR eine Stammfunktion von f. Sei G irgendeine Stammfunktion. Dann ist (F − G)0 (x) = F 0(x) − G0 (x) = f(x) − f(x) = 0, x ∈ IR . Also folgt mit dem Mittelwertsatz 8.14 mit x0 ∈ [a, b] (F − G)(x) − (F − G)(x0 ) = (F − g)0 (ξ)(x − x0) = 0, x ∈ IR, und wir haben F (x) = G(x) + c , x ∈ IR, mit c := (F − G)(x0 ) Der folgende Satz ist der Mittelwertsatz der Integralrechnung. Satz 8.40 Sei f : [a, b] −→ IR stetig. Dann gibt es ξ ∈ [a, b] mit Z
b
f(x)dx = f(ξ)(b − a) .
a
Beweis: Sei (siehe Satz 6.21) m := min f(x) , M := max f(x) . x∈[a,b]
x∈[a,b]
Wegen m ≤ f(x) ≤ M, x ∈ [a, b], ist (a − b)
Z
b a
m dx ≤
Z
b
a
f(x)dx ≤
Z a
b
M dx = M(b − a).
Baumeister: Mathematik II / Stand: Juli 1997
192
Daher gibt es µ ∈ [m, M] mit Z
b
a
f(x)dx = µ(b − a).
Wegen der Stetigkeit von f gibt es ξ ∈ [a, b] mit f(ξ) = µ. Satz 8.41 Sei f : [a, b] → IR stetig. Dann ist F : [a, b] 3 x 7−→
Z a
x
f(ξ)dξ ∈ IR
eine Stammfunktion von f . Beweis: f ist integrierbar auf jedem Intervall [a, x], x ∈ [a, b] ; wende dazu Satz 8.32 an. Es gilt f¨ ur x0 ∈ [a, b], h > 0 mit x0 + h ∈ [a, b] : F (x0 + h) − F (x0) =
Z
x0 +h
a
Z
f(ξ)dξ −
Z
x0
f(ξ)dξ a
x0 +h
f(ξ)dξ
= x0
= f(x0 + δh)h mit δ ∈ [0, 1] unter Verwendung des Mittelwertsatzes der Integralrechnung (Satz 8.40). Daher gilt F (x0 + h) − F (x0) = f(x0 + δh) h Folglich haben wir – die obige Identit¨at folgt auch sinngem¨aß f¨ ur h < 0 – F (x0 + h) − F (x0) = f(x0 ) , h→0 h lim
da f stetig ist. Also ist F differenzierbar in x0 und es gilt F 0(x0) = f(x0 ). Die Stammfunktion in Satz 8.41 kann man als Fl¨acheninhaltsfunktion deuten. Eine Skizze legt den Sachverhalt, daß Differenzenquotienten von F gegen die Werte vonf konvergieren, sofort offen. Folgerung 8.42 Sei f : [a, b] → IR stetig und seien c, d ∈ [a, b], c ≤ d. Dann gilt mit jeder Stammfunktion F von f Z d
c
f(ξ)dξ = F (d) − F (c).
Beweis: Die allgemeine Stammfunktion F von f hat die Gestalt Z
F (x) := a
x
f(ξ)dξ + c , x ∈ IR .
Baumeister: Mathematik II / Stand: Juli 1997
193
Es folgt also F (d) − F (c) =
Z
d
a
f(ξ)dξ + c −
Z a
c
f(ξ)dξ − c =
Z
d
f(ξ)dξ c
Das Ergebnis von 8.42 wird als Hauptsatz der Differential- und Integralrechnung bezeichnet. Es besagt, daß das Integrieren einer (stetigen) Funktion auf das Aufsuchen einer Stammfunktion zur¨ uckgef¨ uhrt werden kann. Beispiel 8.43 Offenbar ist f¨ ur n ∈ IN 0 F : [a, b] 3 7−→
1 xn+1 ∈ IR n+1
eine Stammfunktion von f : [a, b] 3 7−→ xn ∈ IR . Also gilt etwa
Z
b
a
b3 a 3 x dx = − . 3 3 2
(Siehe Beispiel 8.36.)
2
Beispiel 8.44 Wir wissen, daß die Ableitung der Exponentialfunktion die Exponentialfunktion ist. Also gilt Z b
a
ex dx = eb − ea.
2
Als wichtiges Instrument zur Berechnung von Integralen stellen wir zun¨achst die Substitutionsregel bereit. Satz 8.45 Sei f : [a, b] −→ IR stetig und sei g : [α, β] −→ IR stetig differenzierbar. Ferner gelte: g([α, β]) ⊂ [a, b] , g(α) = a, g(β) = b . Dann gilt: Zb
Zβ
f(x)dx = a
f(g(t))g 0 (t)dt
α
Beweis: Nach Satz 8.41 besitzt f eine Stammfunktion F. Dann ist mit der Kettenregel (F ◦ g)0 (t) = F 0(g(t))g 0 (t) = f(g(t))g 0 (t) , t ∈ [α, β]
(8.9)
Baumeister: Mathematik II / Stand: Juli 1997
194
und wegen Satz 8.42 Zβ
0
f(g(t))g (t)dt = F (g(β)) − F (g(α)) = F (b) − F (a) =
α
Zb
f(x)dx . a
Als zweites wichtiges Instrument zur Berechnung von Integralen schreiben wir die partielle Integration auf. Satz 8.46 Seien f, g : [a, b] −→ IR differenzierbar und seien f 0 , g 0 : [a, b] −→ IR stetig. Dann gilt: Zb
0
Zb
f (t)g(t)dt + a
Zb
0
f(t)g (t)dt = a
f(t)g(t)dt .
(8.10)
a
Beweis: fg ist eine Stammfunktion von (fg)0 . Aus der Produktregel der Differentiation und aus Folgerung 8.42 folgt die Behauptung. Beispiel 8.47 Durch zweimalige Anwendung von Satz 8.46 erh¨alt man unter Beachtung, daß x 7−→ ex eine Stammfunktion von x 7−→ ex ist: Z1
e x dx = e 1 − e 0 − x 2
1 2
Z1
0 2
0
ex 2xdx 0
= e−
Z1
ex 2xdx 0
= e − 2e 1 + 2e 0 + 1
= e − 2.
Z1
0
2ex dx 0
2 Die Gesamtheit der Stammfunktionen einer stetigen Funktion f : [a, b] −→ IR wird meist durch das Symbol Z f(x)dx hingeschrieben und als unbestimmtes Integral bezeichnet im Gegensatz zum bestimmten Integral
Rb a
Beispiel 8.48
f(x)dx .
Baumeister: Mathematik II / Stand: Juli 1997
195
Mit der Substitutionregel 8.45 k¨onnen wir die Funktionalgleichung f¨ ur den Logarithmus erneut best¨atigen. Seien x, y > 0 . Zxy
ln(xy) = 1
Zx
= 1
1 dt t Z 1 1 dt + dt t t x xy
Zy
= ln(x) + 1
1 dt t
= ln(x) + ln(y)
2 8.6
Spezielle Funktionen
Wir kennen spezielle Funktionen: Polynome, Exponentialfunktion, Logarithmus, hyperbolische Funktionen. Es fehlen noch die trigonometrischen Funktionen. In der Schule werden diese Winkelfunktionen gew¨ohnlich am Einheitskreis definiert: Ist x die L¨ange eines Kreisbogenst¨ ucks in der “Ebene“ IR 2, gemessen von (1, 0) im Gegenuhrzeigersinn, und ist (P, Q) der Endpunkt dieses Kreisbogenst¨ ucks auf dem Einheitskreis, dann ist sin(x) = cos(x) =
H¨ohe im Dreieck mit den Endpunkten (0, 0), (1, 0), (P, Q) ,
q
1 − sin2 (x) .
Wir k¨onnen die Sinus– und Kosinusfunktion u uhren: ¨ ber Reihen einf¨ cos(x) :=
∞ X
(−1)j
j=0 ∞ X
x2j , x ∈ IR , (2j)!
x2j+1 sin(x) := (−1) , x ∈ IR . (2j + 1)! j=0 j
Hierbei ist aber nicht unmittelbar erkennbar, daß die Eigenschaften, die man vom Sinus und Kosinus kennt, gegeben sind. Folgerung 8.49 Die Funktionen sin, cos : IR −→ IR sind unendlich oft differenzierbar, und es gilt sin0 (x) = cos(x) , cos0(x) = − sin(x) , x ∈ IR . Beweis: Sei R > 0 . Sei x ∈ IR . F¨ ur n ≥ 2|x| gilt: |x|n+1 n! |x| 1 ≤ . n = (n + 1)!|x| n+1 2
Baumeister: Mathematik II / Stand: Juli 1997
196
Dies bedeutet dann f¨ ur N, M ≥ 2|x| |
M X
(−1)j
j=N
M X x2j |x|2j | ≤ (2j)! (2j)! j=N
≤
M X
(
1 2j−N |x|2N 2 (2N)!
j=N 2N
∞ X |x| 1 ≤ · ( )j (2N)! j=0 2
|x|2N (2N)! |R|2N ≤ 2 (2N)! = 2
Daraus liest man mit der Konvergenz der Reihe zu eR ab, daß die Kosinus–Reihe auf jedem Intervall [−R, R] gleichm¨aßig konvergiert. Entsprechendes gilt auch f¨ ur die Sinus–Reihe. Da sin(x) = cos(x), cos0 (x) = − sin(x), x ∈ IR, gilt – Satz 8.24 ist nun anwendbar – sehen wir, daß Sinus und Kosinus unendlich oft differenzierbar sind. Wir haben folgende Rechenregeln: (R1) sin(−x) = − sin(x), cos(−x) = cos(x), x ∈ IR . (R2) sin(x + y) = sin(x) cos(y) + cos(x) sin(y), x, y ∈ IR . (R3) cos(x + y) = cos(x) cos(y) − sin(x) sin(y), x, y ∈ IR . (R4) sin(x)2 + cos(x)2 = 1 , x ∈ IR . (R5) lim
x→0
sin(x) x =1:
Die Aussage (R1) ist offensichtlich. F¨ ur a ∈ IR betrachte die Funktion f : IR 3 x 7−→ sin(x) cos(a − x) + cos(x) sin(a − x) ∈ IR . Man stellt fest:
f 0 (x) = 0, d.h. f(x) = sin(a) f¨ ur alle x ∈ IR .
Mit a := x + y erh¨alt man (R2). Analog beweist man (R3). (R4) folgt mit (R3) aus 1 = cos(0) = cos(x − x) = cos(x) cos(x) + sin(x) sin(x)
Baumeister: Mathematik II / Stand: Juli 1997
197
(R5) ergibt sich aus der Beobachtung ∞ sin(x) X x2j = (−1)j x (2j + 1)! j=0
f¨ ur x 6= 0 und der gleichm¨aßigen Konvergenz der entstandenen Reihe. Die eingangs angef¨ uhrte Einf¨ uhrung des Sinus und Kosinus am Einheitskreis belegt zusammen mit der Rechenregel (R4) (Trigonometrischer Pythagoras), daß im rechtwinkligen Dreieck mit Ankathede a, Gegenkathede b und Hypothenuse c die Rechnung cos(x) =
a b , sin(x) = c c
angewendet werden kann. Es fehlt uns noch die Eigenschaft der Periodizit¨at. Aus der Taylorentwicklung (8.4) f¨ ur den Kosinus lesen wir ab (Entwicklung bis zum quadratischen Glied) cos(2) = 1 + 0 − 2 + 0 +
2 cos(2δ), 0 < δ < 1 . 3
Da nach (R4) | cos(2δ)| ≤ 1 gilt, folgt, daß cos(2) < 0 ist. Da die Kosinusfunktion stetig ist, besitzt sie in (0, 2) eine Nullstelle. Die kleinste Nullstelle in (0, 2) sei α. Wir setzen π := 2α . Dann ist (x ∈ IR) (T1) cos( π2 ) = 0 , sin( π2 ) = 1 ; (T2) sin( π2 − x) = cos(x) , sin( π2 + x) = cos(x) ; (T3) cos( π2 − x) = sin(x) , cos( π2 + x) = − sin(x) ; (T4) sin(π + x) = − sin(x) , cos(π + x) = − cos(x) ; (T5) sin(2π + x) = sin(x) , cos(2π + x) = cos(x) . Zu(T1). Wir haben cos( π2 ) = 0 nach Definition. Wegen sin0 = cos, sin(0) = 0 und sin0 (0) = cos(0) = 1 erh¨alt man aus (R4) sin(x) ∈ [0, 1) f¨ ur alle x ∈ [0, π2 ). Also folgt mit der Stetigkeit der Sinusfunktion schließlich sin( π2 ) = 1 wegen cos( π2 ) = 0 . Zu (T2),. . .,(T5). Beachte die Rechenregeln (R1),. . .,(R5). Die Sinus– und Kosinusfunktion ist also nach (T5) periodisch mit Periode 2π. Die Zahl π haben wir nun sehr indirekt eingef¨ uhrt. Es wird damit nicht deutlich, daß π die sogenannte Kreiszahl ist, die die Fl¨ache einer Kreisscheibe mit Radius 1 angibt (siehe Abschnitt 4.5). Dazu:
Baumeister: Mathematik II / Stand: Juli 1997 Beispiel 8.50 Betrachte die Funktion f : [−1, 1] 3 x 7−→
198
√
1 − x2 ∈ IR .
Als Graph von f erhalten wir einen Halbkreisbogen in der oberen Halbebene (von IR 2), denn es ist x2+f(x)2 = 1, x ∈ [−1, 1] . Also beschreibt Kreisscheibe mit Radius 1 . K¨onnen wir
R1 −1
R1 −1
f(x)dx die Fl¨ache einer H¨alfte der
f(x)dx ausrechnen? Man kann! Wir verwenden
dazu die Substitutionsregel (8.9) folgendermaßen: g(t) := − cos(t), t ∈ [0, π] . Damit folgt Z1
Zπ q √ 2 1 − x dx = 1 − cos(t)2 sin(t)dt
−1
0
Zπ
sin(t)2dt
= 0
Mit partieller Integration (siehe Satz 8.46) folgt Zπ
Zπ 2
cos(t)2dt .
sin(t) dt = 0
Also folgt
Zπ
π=
Zπ
Zπ 2
1dt = 0
0
2
sin(t)2dt .
(sin(t) + cos(t) )dt = 2 0
0
Damit erhalten wir das gew¨ unschte Ergebnis Z1 −1
√ π 1 − x2 dx = . 2
Hier ist ein Pseudobeweis, daß π = 2 ist. π ist die L¨ange eines Halbkreises mit Radius 1. Man ersetze den Halbkreis durch zwei aneinandergef¨ ugte Halbkreise mit dem halben Radius. Dann ist die neue Kurve genauso lang wie die alte. Man ersetze nach demselben Muster jeden Halbkreis durch ein Paar von Halbkreisen mit dem halben Radius, und so weiter. Jede der so entstehenden Kurven hat dieselbe L¨ ange wie ihre Vorg¨ angerin, und die Kurven kommen dem Durchmeser des urspr¨ unglichen Halbkreises beliebig nahe. Der hat aber die L¨ange 2. Also ist π = 2 . Der Fehler der Argumentation liegt darin, daß die Kurven zwar gegen den Durchmesser “konvergieren“, wenn man einen u ¨blichen Abstandsbegriff zugrundelegt, nicht aber bez¨ uglich dessen, der f¨ ur die L¨ angenmessung der angemessene ist.
2
Baumeister: Mathematik II / Stand: Juli 1997
199
Man best¨atigt sukzessive (x ∈ IR): (F1) sin(2x) = 2 sin(x) cos(x) ; (F2) cos(2x) = cos(x)2 − sin(x)2 ; (F3) sin(3x) = 3 sin(x) − 4 sin(x)3 ; (F4) cos(3x) = 4 cos(x)3 − 3 cos(x) ; (F5) sin(4x) = 8 cos(x)3 sin(x) − 4 cos(x) sin(x) ; (F6) cos(4x) = 8 cos(x)4 − 8 cos(x)2 + 1 ; (F7) sin(5x) = 16 cos(x)4 sin(x) − 12 cos(x)2 sin(x) + sin(x) ; (F6) cos(5x) = 5 cos(x) − 20 cos(x)3 + 16 cos(x)5 . Damit kann man nun mit der Kenntnis von sin(2π) = 0 auch sin( 2π 5 ) berechnen. Es ergibt sich etwa: q √ 2π 1 2π 1 √ sin( ) = 10 + 2 5 , cos( ) = ( 5 − 1) . (8.11) 5 4 5 4 In Kenntnis von Sinus und Kosinus definiert man den Tangens und Kotangens: 1 sin(x) (x 6= (k + )π, k ∈ ZZ ) cos(x) 2 cos(x) cot(x) := (x = 6 kπ, k ∈ ZZ ) sin(x)
tan(x) :=
Durch Betrachtung der Monotonieeigenschaften von tan und cot gelangt man zu Aussagen u ¨ ber ihre Umkehrfunktionen arctan und arccot .
Kapitel 9 Geometrie und Algebra Das Ziel dieses Kapitels ist es, die Entwicklung der Geometrie und die Entstehung der abstrakten Algebra aus der Untersuchung ber¨ uhmter geometrischer Probleme heraus zu skizzieren. Es sind dies Probleme, die zum Teil 2500 Jahre alt sind und Ursprung vieler moderner Konzepte und Techniken sind. Die Algebraisierung der Geometrie gelang durch die Einf¨ uhrung von Koordinaten und die Formulierung geometrischer Probleme als polynomiale Gleichungen f¨ ur die Koordinaten.
9.1
Herausbildung der axiomatischen Geometrie
Geometrie bedeutet Erdmessung.1 Bereits fr¨ uh in der Entwicklungsgeschichte haben sich die Menschen mit Geometrie besch¨aftigt. Eine erste Besch¨aftigung mit Geometrie ist nachweisbar anhand von Fundst¨ ucken, auf denen Ornamente und Muster auftreten, ¨ wo geometrische Beziehungen wie Kongruenz, Ahnlichkeit und Symmetrie Verwendung finden (um 4000 v. Chr.). Die n¨achste Stufe in der Entwicklung der Geometrie stellen Messungen von Strecken und Winkeln sowie Messungen und Berechnungen an geometrischen Figuren wie Drei– und Vierecken dar. Bereits um 1550 v. Chr. erfolgte die Berechnung des Fl¨acheninhalts von Dreiecken als H¨alfte des Produkts der L¨ange der Grundseite und der L¨ange der entsprechenden H¨ohe. Der Fl¨acheninhalt eines Kreises wurde zu dieser Zeit nach einer Vorschrift 2 berechnet, die in unserer heutigen Schreibweise der Formel F = (d − d 9 ) (d Durchmesser) entspricht, was bedeutet, daß f¨ ur π der N¨aherungswert 3, 16 Verwendung fand. Zahlreiche ¨ S¨atze und Zusammenh¨ange der Geometrie waren im alten Agypten und im babylonischen Reich ebenfalls bereits bekannt, wobei diese der Anschauung entnommen wurden. Eine v¨ollig neue Qualit¨at erhielt die Besch¨aftigung mit Mathematik – und dabei spielte die Geometrie eine herausragende Rolle – im alten Griechenland. Das Studium der Mathematik in der fr¨ uhen griechischen Periode hatte das Ziel, eine ableitbare Einsicht in die Stellung des Menschen innerhalb des Kosmos zu gewinnen. Die Idee, intuitiv gefundene Zusammenh¨ange zu beweisen, ist erstmals bei Thales von Milet (etwa 624 – 547 v. Chr.) zu finden, der als Vater der griechischen Mathematik“ angesehen wird. Er bewies sechs ” geometrische S¨atze, die wahrscheinlich alle schon vorher formuliert waren. Sein Verdienst bestand also nicht so sehr darin, daß er neue geometrische Zusammenh¨ange entdeckte, 1
γ η˜ (griech.) = Erde; µτ ιν ˜ (griech.) = messen.
200
Baumeister: Mathematik III / Stand: Januar 1998
201
sondern vielmehr in der Entwicklung der Methode des Beweises bestimmter Behauptungen als Mittel der Erkenntnissicherung. Die Arbeit des Thales wurde so nicht nur zur Grundlage der modernen Mathematik, sondern zu einer wesentlichen Grundlage der modernen Wissenschaft u ¨ berhaupt. Um einen wissenschaftlichen Aufbau der Geometrie betreiben zu k¨onnen, m¨ ussen bestimmte Grundausagen (Axiome) formuliert werden, die man als gegeben ansieht und aus denen dann die anderen geometrischen Eigenschaften und S¨atze ableitbar sind. Der ernsthafte Versuch, ein geordnetes System der ebenen Geometrie zu schaffen, also bestimmte Grundaussagen festzulegen (zu postulieren“ ) und die Geometrie aus diesen Grundaus” sagen ohne Zuhilfenahme der Anschauung auf rein logischem Wege aufzubauen, wurde ungef¨ahr 200 Jahre nach Thales erstmals unternommen. Eine besondere Bedeutung erlangten in diesem Zusammenhang die Sophisten. Die Angeh¨origen dieser philosophischen Schule betrachteten mathematische Probleme sehr konsequent im Geiste des Verstehens und nur sehr untergeordnet unter dem Aspekt einer vordergr¨ undigen N¨ utzlichkeit. Diese Herangehensweise erm¨oglichte es, zu den Grundlagen des exakten Denkens vorzustoßen. Einen besonderen Einfluß auf die Nachwelt erlangten die mathematischen Arbeiten der Sophisten nicht, um so mehr jedoch die um 325 v. Chr. geschriebenen ELEMENTE des Euklid von Alexandria (ca. 365 – 300 v.Chr.). (Als ein Ziel der Elemente erscheint der Nachweis, daß es f¨ unf regul¨are (“Platonische“) K¨orper gibt; wir kommen darauf noch zur¨ uck.) Die ELEMENTE werden als das erste umfassende mathematische Lehrbuch der Weltgeschichte angesehen. Seit der Erfindung der Buchdruckerkunst sind sie in mehr als 1000 Auflagen erschienen und damit nach der Bibel das am zweith¨aufigsten gedruckte Buch u ¨ berhaupt. Bis in das vorige Jahrhundert stellten sie die wesentliche Grundlage des Mathematikunterrichts an h¨oheren Schulen dar. Die ELEMENTE bestehen aus 13 B¨ uchern, in denen alle damals bekannten Gebiete der Mathematik abgehandelt werden. Sie enthalten den ersten u ¨berlieferten Versuch, die Geometrie als theoretisches System darzustellen, indem die damals bekannte Geometrie aus einer Reihe von Grundaussagen auf rein deduktivem Wege aufgebaut wird. Euklid teilte seine Grundlagen in drei Kategorien, die Erkl¨ arungen (Definitionen) der auftretenden Begriffe, die Axiome (Grundaussagen, die f¨ ur alle Wissenschaften interessant sind) und die Postulate (Grundaussagen, die sich speziell auf die Geometrie beziehen). Im folgenden sind die Definitionen von Euklid auszugsweise und die Axiome sowie ¨ Postulate vollst¨andig in der Ubersetzung von C. Thaer aufgef¨ uhrt. Definitionen: 1. Ein Punkt ist, was keine Teile hat, 2. eine Linie breitenlose L¨ange. 3. Die Enden einer Linie sind Punkte. 4. Eine gerade Linie (Strecke) eine solche, die zu den Punkten auf ihr gleichm¨aßig liegt. 5. Eine Fl¨ache ist, was nur L¨ange und Breite hat. 15. Ein Kreis ist eine ebene, von einer einzigen Linie [die Umfang (Bogen) heißt] umfaßte Figur mit der Eigenschaft, daß alle von einem innerhalb der Figur gelegenen Punkte bis zur Linie [zum Umfang des Kreises] laufenden Strecken einander gleich sind.
Baumeister: Mathematik III / Stand: Januar 1998
202
20. Von den dreiseitigen Figuren ist ein gleichseitiges Dreieck jede mit drei gleichen Seiten, ein gleichschenkliges jede mit nur zwei gleichen Seiten, ein schiefes jede mit drei ungleichen Seiten. 23. Parallel sind gerade Linien, die in derselben Ebene liegen und dabei, wenn man sie nach beiden Seiten ins unendliche verl¨angert, auf keiner einander treffen. Postulate 1. Daß man von jedem Punkt nach jedem Punkt die Strecke ziehen kann. 2. Daß man eine begrenzte gerade Linie zusammenh¨angend gerade verl¨angern kann. 3. Daß man mit jedem Mittelpunkt und Abstand den Kreis zeichnen kann. 4. Daß alle rechten Winkel einander gleich sind. 5. Und daß, wenn eine gerade Linie beim Schnitt mit zwei geraden Linien bewirkt, daß innen auf derselben Seite entstehende Winkel kleiner als zwei Rechte werden, dann die zwei geraden Linien bei Verl¨angerung im Unendlichen sich treffen auf der Seite, auf der die Winkel liegen, die zusammen kleiner als zwei Rechte sind. Axiome 1. Was demselben gleich ist, ist auch einander gleich. 2. Wenn Gleichem Gleiches hinzugef¨ ugt wird, sind die Ganzen gleich. 3. Wenn von Gleichem Gleiches weggenommen wird, sind die Reste gleich. 4. Wenn Ungleichem Gleiches hinzugef¨ ugt wird, sind die Ganzen ungleich. 5. Die Doppelten von demselben sind einander gleich. 6. Die Halben von demselben sind einander gleich. 7. Was einander deckt, ist einander gleich. 8. Das Ganze ist gr¨oßer als der Teil. 9. Zwei Strecken umfassen keinen Fl¨achenraum. Das f¨ unfte Postulat teilt die Eleganz der vorhergenden vier Postulate nicht. Euklid betrachtete wohl dieses Postulat als den anderen irgendwie unterlegen. Beim Beweis der ersten 28 S¨atze in den Elementen griff er nicht darauf zur¨ uck. Diese 28 S¨atze bilden das Ger¨ ust der absoluten Geometrie, die wir in Kapites 12 betrachten werden. Trotz einiger Probleme, auf die noch n¨aher eingegangen wird, war das System von EUKLID mehr als 2000 Jahre lang Grundlage jeglicher Besch¨aftigung mit der Geometrie. Das erste logisch vollst¨andig exakte Axiomensystem stellte D. Hilbert (1862–1943) im Jahre 1899, also etwa 2200 Jahre (!) nach den ELEMENTEN des EUKLID, vor.
Baumeister: Mathematik III / Stand: Januar 1998
203
Das Axiomensystem von EUKLID – gemeint ist damit die Menge von Aussagen, die aus den Definitionen, den Axiomen und den Postulaten besteht – weist (zumindest aus heutiger Sicht) einige M¨angel auf. 1. Das Axiomensystem ist nicht vollst¨andig: Nicht alle relevanten Aussagen der Geometrie lassen sich aus den Axiomen 1.– 9. und den Postulaten 1.– 5. ableiten. 2. Die Definitionen der Begriffe Punkt, Gerade usw. gen¨ ugt nicht den Anspr¨ uchen logischer Exaktheit. F¨ ur diese Defintionen werden Begriffe wie Teile, Breite, En” ” ” den“ und andere ben¨otigt, die ihrerseits nicht definiert sind aud auch nicht hinreichend klar gefaßt werden k¨onnen. 3. Die sprachliche Exaktheit der Formulierungen (vor allem der Axiome) gen¨ ugt heutigen Anspr¨ uchen nicht, was jedoch im Hinblick auf den Enstehungszeitraum des Systems von EUKLID kaum verwundern kann und auch recht leicht zu beheben ist. Das interessanteste von den genannten drei Problemen ist das zweite. Die Frage der Definition grundlegender geometrischer Begriffe hat die Mathematiker (die im Altertum zumeist auch Philosophen waren) sehr lange Zeit besch¨aftigt. Das zeigen einige Versuche, die im Laufe der Jahrhunderte angestellt wurden, um den Begriff Punkt“ zu definieren: ” Ein Punkt ist der Anfang einer Linie (Plato, ca. 380 v. Chr.); ein Punkt ist eine unteilbare Einheit, die eine Position besitzt (Aristoteles, ca. 340 v. Chr.); was keine Teile hat, ist ein Punkt (Euklid, ca. 325 v.Chr.). Die Schwierigkeiten mit den Axiomen 1 – 6 werden beleuchtet durch das folgende (durchaus angreifbare) Beispiel. Beispiel 9.1 L¨ose die Gleichung x−1=2 in folgenden Schritten: Multipliziere auf beiden Seiten mit x − 5 : x2 − 6x + 5 = 2x − 10 . Subtrahiere davon x − 7, was zu x2 − 7x + 12 = x − 3 f¨ uhrt, und dividiere mit x − 3 auf beiden Seiten. Dies ergibt die Gleichung x − 4 = 1 oder x = 5 . Aber x = 5 l¨ost die urspr¨ unglich vorgelegte Gleichung nicht!
2
Hinzuweisen ist auch auf die Schwierigkeit mit dem Axiom 8. Sie hat zu tun mit dem Problem der Unendlichkeit: Eine unendliche Menge kann “ebenso viele“ Elemente haben
Baumeister: Mathematik III / Stand: Januar 1998
204
wie ein Teil von ihr. G. Galilei (1564 – 1642) hatte diese Paradoxie an den Quadratzahlen beobachtet, indem er jede (nat¨ urliche) Zahl mit ihrem Quadrat “verheiratete“: 1 2 3 4 ··· 12 22 32 42 · · · Die Schwierigkeiten mit den Begrifflichkeiten muß Euklid bereits bemerkt haben: In seinen Beweisen und Herleitungen greift er n¨amlich auf die Definitionen nie zur¨ uck, sondern benutzt nur die Axiome und Postulate. Erst im 19. Jahrhundert stellte man fest, daß die angegebenen Definitionen g¨anzlich u ussig sind und daß grundlegende Begriffe durch ¨ berfl¨ Axiome festzulegen sind. In der axiomatischen Sicht der Geometrie der Ebene sieht dies etwa so aus: Es existieren Punkte und Geraden. Diese besitzen folgende Eigenschaften: 1. Geraden sind Mengen von Punkten. 2. Zwei voneinander verschiedene Geraden haben h¨ochstens einen gemeinsamen Punkt. 3. Durch jeden Punkt . . . . Hilbert treibt die axiomatische Sichtweise auf die Spitze, wenn er sagt, statt von Punkten, Geraden und Ebenen k¨onnte man auch von Tischen, St¨ uhlen und Bierseideln sprechen. Dann dr¨angt sich aber die Frage nach dem Verh¨altnis einer axiomatisch–deduktiv aufgebauten Theorie und der Realit¨at, also dem Verh¨altnis von axiomatischer Geometrie und der Anschauungsgeometrie (realer Raum) auf, denn S¨atze der axiomatischen Geometrie werden nicht der Anschauung entnommen, sondern nach logischen Regeln aus den Axiomen abgeleitet. Hat die Geometrie damit also ihren Bezug zur Realit¨at verloren ? (Man beachte, daß Geometrie Erdmessung bedeutet, also die “Kunst“ eines naturwissenschaftlichen Umgangs mit unserer physikalischen Umgebung.) Diese Frage kann verneint werden, denn bei der Aufstellung eines Axiomensystems spielt die Betrachtung der Realit¨at bzw. die Anschauung eine wichtige Rolle, und das in zweierlei Hinsicht: 1. Die Axiome m¨ ussen den Gegebenheiten des realen Raumes (bzw. unseren Erfahrungen damit, also unserer Anschauung) Rechnung tragen und d¨ urfen diesen nicht widersprechen. 2. Die Axiome m¨ ussen ausreichend“ sein, um alle uns aus der Anschauung oder der ” Praxis bekannten geometrischen Eigenschaften abzuleiten. Unsere Betrachtungen werden eindrucksvoll belegen, daß diese beiden Gesichtspunkte sehr wohl bei der Aufstellung eines Axiomensystems der Geometrie beachtet sind. ¨ Uberraschenderweise ur Geometrien, die weit weg ¨offnet die Axiomatik sogar die Augen f¨ von der Anschauung in der Ebene und im Raum sind. Es sind dies die endlichen Geometrien, die in der diskreten Mathematik, also in der Mathematik, die sich mit endlichen Strukturen besch¨aftigt, ein wichtiges Konzept darstellen. In diesem Kapitel skizzieren wir noch einige elementar–geometrische Sachverhalte und motivieren algebraische Strukturen im Zusammenhang mit der Geometrie. Nicht immer
Baumeister: Mathematik III / Stand: Januar 1998
205
k¨onnen wir die Begriffe und Resultate schon in letzter Exaktheit benutzen bzw. herleiten. Im Laufe der n¨achsten Kapitel holen wir dies St¨ uck f¨ ur St¨ uck nach. Dabei wird vor allem klar werden, wo die Beweise verankert sind. Im n¨achsten Kapitel stellen wir die algebraischen Strukturen “Gruppen, K¨orper“ – die imagin¨aren Zahlen finden hier ihren Platz – bereit. Die Polynome, die in diesem Kapitel schon bei der Frage nach der Konstruierbarkeit mit Zirkel und Lineal ins Blickfeld geraten werden, lassen sich damit ausreichend diskutieren. Im folgenden Kapitel 11 besch¨aftigen wir uns dann mit der euklidischen Ebene. Hier m¨ ussen wir die Grundbegriffe Punkte, Geraden“ nicht aus dem Nichts“ schaffen, ” ” sie sind schon vorhanden dank der angenommenen Existenz der reellen Zahlen. Die ¨ elementar–geometrischen Uberlegungen haben den Sinn, Anschluß an antike Fragestellungen zu schaffen und den Wert der Vektoranalysis (in der euklidischen Ebene) aufzuzeigen. Der axiomatische Zugang zur Geometrie wird im Kapitel 12 beschritten. Wir betrachten dort die absolute Geometrie, d.h. den teil der Geometrie, der ohne das Parallelenaxiom auskommt. Diese Geometrie enth¨alt dann bis auf die Aussage u ¨ ber die Winkelsumme im Dreieck schon alle wesentlichen S¨atze der Dreiecksgeometrie. Durch Hinzunahme des Parallelenaxioms in verschiedenen Varianten entstehen dann unterschiedliche Geometrien, von denen hier die euklidische Geometrie von besonderem Interesse ist. Wir gehen darauf in einem weiteren Kapitel ein. Als Beispiele f¨ ur konkrete Geometrien betrachten wir die sph¨arische Geometrie, die ihren Wert auch in der sph¨arischen Astronomie hat. Die Betrachtung endlicher Geometrien und der mit ihnen zusammenh¨angenden Graphen verschieben wir auf sp¨atere mehr angewandte Abhandlungen.
9.2
Zirkel und Lineal
Unter einer Konstruktionsaufgabe versteht man die Aufgabe, auf dem Zeichenblatt mit gegebenen Hilfsmitteln aus gegebenen Punkten und Linien gesuchte Punkte und Linien zu finden. Gedacht ist an Zeichnungen, die auf einem Blatt Papier mit einem oder mehreren Bleistiften auszuf¨ uhren sind. Dabei wird angenommen, daß es sich um ideale Bleistifte handelt, also um solche, die eine Linie der Dicke Null ziehen. Auch Punkte gelten als ausdehnungslos (siehe oben). Die einfachsten geometrischen Instrumente sind das Lineal zum Ziehen von geraden Linien und der Zirkel zum Zeichnen von Kreisen (euklidische Werkzeuge). Genauer: Mit dem Lineal zeichnen wir durch Anlegen der geradlinigen Kante des Lineals eine gerade Linie zwischen zwei Punkten der Zeichenebene/Anschauungsebene und mit dem Zirkel zeichnen wir einen Kreis mit vorgegebenem Mittelpunkt durch einen weiteren Punkt. Konstruktionen mit diesen euklidischen Werkzeugen wollen wir uns nun zuwenden. Was ist die Anschauungsebene? Es ist dies eine Menge von Punkten, wof¨ ur wir IE 2 schrei2 ur die “Dimension“ dieser Punktmenge. ben: IE steht f¨ ur Euklid und/oder Ebene, · steht f¨ In der Vektoranalysis erh¨alt diese Sicht eine auf der Kenntnis der reellen Zahlen fundierte Formulierung, hier gehen wir ad hoc vor. Heutzutage ist die gebr¨auchlichste Methode, Probleme der ebenen Geometrie zu behandeln, sie durch Einf¨ uhrung von cartesischen Koordinaten in Probleme der Vektoranalysis zu u ¨bersetzen. Das bedeutet, daß man die Punkte von IE 2 mit den Elementen von IR 2
Baumeister: Mathematik III / Stand: Januar 1998
206
identifiziert: Zu jedem Punkt P der euklidischen Ebene IE 2 gibt es genau ein Paar (xP , yP ) in IR2 , die Koordinaten von P, das diesen Punkt repr¨asentiert, und ganz IR 2 wird damit ausgesch¨opft. Eine Figur in der Ebene IE 2 ist dann eine Teilmenge der Menge der Punkte in IE 2 . Kennenlernen werden wir die Figuren “Dreieck, Vieleck, Gerade, Ebene, . . .“. Mit dieser Methode kann man nahezu alle “elementaren“ Probleme der ebenen Geometrie in Fragen der linearen Algebra, der Algebra und/oder der Analysis u ¨ bersetzen. Beispiele werden wir sp¨ater sehen. Die eben zitierte Methode geht im wesentlichen auf R. Descartes (1596 – 1650) zur¨ uck. Ihr analytisches Vorgehen steht im Gegensatz zu der synthetischen Auffassung der Geometrie, wie sie in der Antike entwickelt wurde. Das synthetische Vorgehen ist, grob gesagt, das folgende: Man formuliert zun¨achst einige Tatsachen u ¨ber geometrische Objekte (wie Punkte, Geraden, Winkel usw.), die allgemein einsichtig und beweislos anzuerkennen sind, und folgert aus ihnen durch rein logisches Schließen neue Tatsachen, die auf den ersten Blick nicht immer offensichtlich sind; dies ist also im wesentlichen das Konzept, das Euklid darstellte. Zirkel und Lineal k¨onnen also verwendet werden, ausgehend von zwei Punkten P, Q der euklidischen Ebene neue Punkte zu konstruieren durch Schneiden von Linien und Kreisen. Etwas genauer: Seien O und E die Punkte in IE 2 mit den Koordinaten (0, 0) bzw. (1, 0) . Unter Konstruktion mit Zirkel und Lineal versteht man das Auffinden neuer Punkte aus gegebenen durch folgende Prozesse: 1. Anlegen des Lineals an gegebene oder bereits konstruierte Punkte zwecks Auszeichnen der durch diese Punkte bestimmten Geraden. 2. Einsetzen der beiden Zirkelspitzen in zwei gegebene oder schon konstruierte Punkte, Zeichnung eines Kreises um einen gegebenen oder bereits konstruierten Punkt als Mittelpunkt mit dem in die Zirkel¨offnung genommenen (durch zwei schon vorhandene Punkte bestimmten) Radius. 3. Erzeugung neuer Punkte durch Schnitt von Geraden und Kreisen, die auf die eben beschriebene Weise gewonnen wurden. Wie die Punkte O und E, mit denen wir die Konstruktion beginnen, auf das Papier gekommen sind, ist eine Frage, die v¨ollig außer Betracht bleibt. Es ist dabei Teil der Spielregeln, daß weder das Lineal noch der Zirkel verwendet werden d¨ urfen, Abst¨ande zu u ¨bertragen. Aber man kann zeigen, daß man dann doch den Zirkel so verwenden darf, daß man damit Abst¨ande u ¨ bertragen kann (siehe Bemerkung 9.3). Der Ausgangspunkt f¨ ur die Konstruktionen sind zwei Punkte P und Q bzw. O und E . Dies entspricht der Annahme, eine “geeichte“ Ausgangsstrecke auf der Zeichenebene zu haben, n¨amlich die Strecke zwischen O und E . Wir werden sehen, daß man mit Zirkel und Lineal auf diese Weise Punkte konstruieren kann, deren Koordinaten sich durch die Operationen +, −, ·, ÷,
√
Baumeister: Mathematik III / Stand: Januar 1998
207
in den reellen Zahlen aus den urspr¨ unglichen Koordinaten errechnen lassen. Dies erkennt man sehr einfach, wenn man Schnittpunkte von Geraden mit Geraden, Geraden mit Kreisen und Kreisen mit Kreisen berechnet: Nur die obigen Operationen werden dabei verwendet. Wir gehen im n¨achsten Kapitel genauer darauf ein. Zirkel und Lineal kann man verwenden, um konstruktiv b √ a + b, a − b, ab, , a a f¨ ur reelle Zahlen a, b zu konstruieren, indem man a, b als euklidische Abst¨ande zwischen geeigneten Punkten der Zeichenebene interpretiert. Definition 9.2 Seien P, Q Punkte in IE 2 mit Koordinaten (xP , yP ) bzw. (xQ , yQ) in IR 2 . Der euklidische Abstand d(P, Q) von P, Q ist erkl¨art durch q
d(P, Q) :=
(xP − xQ )2 + (yP − yQ)2 .
2
Abbildung 9.1: Euklidischer Abstand
d(P, Q) ist also die L¨ange der Strecke P Q , d.h. des Abschnitts der Geraden (siehe unten) durch P, Q , der zwischen P und Q liegt. Damit haben wir den pythagoreischen Lehrsatz (im Dreieck P RQ) vorweggenommen, der am Anfang einer jeden Elementargeometrie, die Anwendungen im Auge hat, steht. Er besagt bekanntlich, daß in einem rechtwinkligen2 Dreieck die Summe der Quadrate der Katheten gleich dem Quadrat der Hypothenuse ist; dabei sind die Katheten die Dreiecksseiten, die den rechten Winkel bilden, die Hypothenuse ist dritte Dreiecksseite. (In der obigen Abstandsformel in Definition 9.2 kommt dies gerade zum Ausdruck.) In der “Praxis“ ist aber die Umkehrung dieses Satzes, die auch gilt, von Wert: Ein Dreieck, f¨ ur das die Summe der Quadrate zweier Seiten gleich dem Quadrat der dritten Seite ist, ist notwendig rechtwinklig. Man kann damit rechtwinklige Dreiecke abstecken, eine im Bau– und Ingenieuswesen wichtige Aufgabe. Einen rechten Winkel deuten wir durch ⊂· an. Ein rechter Winkel ist ein halber gestreckter Winkel, ein gestreckter Winkel “liegt“ auf einer Seite einer geraden Linie. 2
Baumeister: Mathematik III / Stand: Januar 1998
208
Abbildung 9.2: Pythagoreischer Lehrsatz
Es gibt eine Vielzahl von Beweisen f¨ ur den pythagoreischen Lehrsatz, teils auf Griechen und Inder zur¨ uckgehend. Vielleicht sollte man eher von Veranschaulichungen f¨ ur die Richtigkeit des Satzes sprechen. Aus indischen Quellen stammt der Beweis, der aus der Abbildung 9.3 abzulesen ist. Weitere Beweise sind abzulesen in Abbildung 9.4 und Abbildung
Abbildung 9.3: Ein indischer Beweis des pythagoreischen Lehrsatzes 9.5. Als Wissen ben¨otigt man die Fl¨acheninhaltsformel f¨ ur rechtwinklige Dreiecke und Rechtecke: FRechteck = a · h wobei a, h die Seitenl¨angen des Rechteckes sind. Frechtwinkliges
Dreieck
=
a·b wobei a, b die Katheten des Dreiecks sind. 2
Baumeister: Mathematik III / Stand: Januar 1998
209
Abbildung 9.4: Ein weiterer Beweis des pythagoreischen Lehrsatzes
Abbildung 9.5: Ein Mosaikbeweis des pythagoreischen Lehrsatzes
Der Beweis der Fl¨acheninhaltsformel f¨ ur rechtwinklige Dreiecke ergibt sich aus der Fl¨acheninhaltsformel f¨ ur Rechtecke, da durch Aneinanderlegen zweier Kopien eines rechtwinkligen Dreiecks ein Rechteck entsteht; siehe Abbildung 9.7. Hier ist das Prinzip “Additivit¨at von Fl¨acheninhalt“ enthalten, das unmittelbar einsichtig erscheint, in der axiomatischen Sicht der Geometrie aber durchaus problematisch ist. Die Fl¨acheninhaltsformel f¨ ur Rechtecke ist eigentlich eine Definition von Fl¨acheninhalt: Die Fl¨ache ist die Anzahl der ¨ Einheitsquadrate, die zur Uberdeckung des Rechtecks n¨otig ist. Die Fl¨acheninhaltsformel f¨ ur das allgemeine Dreieck ergibt sich aus der f¨ ur das rechtwinklige Dreieck, wie aus der Abbildung 9.7 hervorgeht. Aus dem pythagoreischen Lehrsatz gewinnt man die Formel sin(α)2 + cos(α)2 = 1 zur¨ uck, denn f¨ ur die Winkel α, β an der Hypothenuse gilt β = π/2−α , da der dritte Winkel ein rechter ist. Wir haben hier vorweggenommen, daß in einem Dreieck die Winkelsumme zwei rechte Winkel betr¨agt. Dies ist ein Faktum, das eng mit dem Jahrhunderte dauernden Suchen nach einem Beweis f¨ ur das Parallelenpostulat verbunden ist. Wir haben hier die Winkelmaße nicht im Gradmaß sondern im Bogenmaß angegeben,
Baumeister: Mathematik III / Stand: Januar 1998
210
Abbildung 9.6: Fl¨acheninhaltsformel
Abbildung 9.7: Additivit¨at des Fl¨acheninhalts
d.h. mit der L¨ange des Kreisbogens, der vom Winkel auf einem Kreis mit Radius 1 ausgeschnitten wird. Man beachte dazu, daß der Umfang eines Kreises mit Radius 1 gerade 2π betr¨agt. Aus dem pythagoreischen Lehrsatz entwickelt sich das Problem der pythagoreischen Zahlentripel: F¨ ur welche m, n, k ∈ IN gilt m2 + n2 = k 2 ? Man best¨atigt, daß es unendlich viele solche Tripel gibt (siehe Abschnitt 3.5). Der Satz von Fermat, der nun endlich bewiesen ist (R. Wilson, 1994), besagt, daß die analoge Fragestellung, wieviele Zahlentripel (m, n, k) die Gleichung ms + ns = k s f¨ ur s ∈ IN , s ≥ 3, l¨osen, v¨ollig anders zu beantworten ist: Es gibt kein solches Zahlentripel ! Kommen wir zur¨ uck zur Konstruktion mit Zirkel und Lineal. Als erste Konstruktion f¨ uhren wir die Halbierung einer Strecke durch. Sie ist festgehalten in Abbildung 9.8. Damit macht man sich auch klar, wie das Lot eines Punktes auf eine Strecke gef¨allt wird. Die f¨ ur die Formulierung des pyhagoreischen Lehrsatzes ben¨otigten rechten Winkel lassen sich damit konstruktiv erzeugen: Sie sind mittels eines Lotes halbierte gestreckte Winkel. Bemerkung 9.3
Baumeister: Mathematik III / Stand: Januar 1998
211
Abbildung 9.8: Halbierung einer Strecke
Bei der Konstruktion mit Zirkel und Lineal ist es nicht erlaubt, Abst¨ande zu u ¨ bertragen. Das Lineal hat also keinen Maßstab, der Zirkel (alter Art) l¨aßt sich nicht feststellen. Man m¨ochte nun meinen, daß mit einem Zirkel moderner Art – ein solcher Zirkel hat einen ¨ Mechanismus, der es erlaubt, eine beliebige“ Offnung festzustellen – eine gr¨oßere Vielfalt ” von Figuren konstruiert werden kann. Dies ist nicht der Fall. Um dies zu verifizieren, gen¨ ugt es zu zeigen: Sind A, B, O Punkte der Ebene, so l¨aßt sich mit Zirkel (alter Art) und Lineal ein Kreis mit Mittelpunkt O und Radius r := |AB| zeichnen. Die dies best¨atigende Konstruktion ist festgehalten in Abbildung 9.9.
¨ Abbildung 9.9: Ubertrag von Strecken
2 Aus Abbildung 9.10 wird klar, wie a + b, a − b konstruiert werden k¨onnen. Nun ist es auch m¨oglich, die rechtwinkligen Dreiecke in Abbildung 9.11 zu konstruieren
Baumeister: Mathematik III / Stand: Januar 1998
212
Abbildung 9.10: Addition und Subtraktion
und ab, ab abzulesen. Beachte dabei, daß die Strecke der L¨ange 1 verabredungsgem¨aß als Abstand von O und E vorliegt. Daß die Konstruktion wirklich ab (f¨ ur ab analog) liefert,
Abbildung 9.11: Multiplikation und Division daf¨ ur kann man verschiedene Begr¨ undungen abgeben: 1.Begr¨ undung: Es gilt tan(α) = a1 = xb . 2. Begr¨ undung: Nach dem Strahlensatz gilt x : a = b : 1 . Beide Begr¨ undungen beruhen aber schon auf einem betr¨achtlichen “St¨ uck“ Geometrie: ¨ Trigonometrie bei 1., (versteckte) Ahnlichkeitsaussagen bei 2.. Wir liefern sp¨ater auf dem Fundament der euklidischen Geometrie die Begr¨ undung. Soviel sei schon angemerkt: Parallelit¨at spielt in jedem Falle eine entscheidende Rolle. √ Die Konstruktion von a ist abzulesen aus Figur 9.12. Dort ist x 1 tan(α) = , tan(α) = , x2 = a . a x π Dazu muß man aber wissen, daß α + β = 2 gilt (oder den H¨ohensatz kennen). Dies sieht man an Abbildung 9.13, in der der Thaleskreis vorweggenommen ist. α+γ+α = π β+π−γ+β = π
)
=⇒
α+β =
π 2
Wir haben hier wieder vorweggenommen, daß in einem Dreieck die Winkelsumme zwei rechte betr¨agt.
Baumeister: Mathematik III / Stand: Januar 1998
213
Abbildung 9.12: Wurzelziehen
Abbildung 9.13: Eine Beobachtung am Thaleskreis
Unter dem goldenen Schnitt (lat. sectio aurea)3 versteht man die Unterteilung einer Strecke AB durch einen Punkt P , so daß f¨ ur die Verh¨altnisse der L¨angen |AB|, |AP |, |P B| der Teilstrecken AB, AP , P B gilt: |AB| |AP | = |AP | |P B| Bezeichnet man die L¨ange der Strecke AB mit a und von AP mit x , so folgt also f¨ ur den gemeinsamen Wert g dieser beiden Verh¨altnisse g :=
a x = . x a−x
Es folgt x2 + ax − a2 = 0 , g 2 = g + 1 ,
(9.1)
und wir machen hier erste Bekanntschaft mit einer polynomialen Gleichung f¨ ur einen geometrischen Sachverhalt. 3
Eine vergleichbare Aufgabenstellung wird von I. Stewart in Spektrum 11/97, 10 – 13, behandelt.
Baumeister: Mathematik III / Stand: Januar 1998
214
Diese Art der Teilung geht auf Euklid zur¨ uck, ihre mystische Bedeutung erhielt sie im 16. Jahrhundert durch L. Paciolo (1445 – 1512), der ein von Leonardo da Vinci (1452 – 1519) ¨ illustriertes Buch mit dem Titel De divina proportione“ (Uber die g¨ottliche Teilung) ” ver¨offentlichte. Wir erhalten f¨ ur g √ 1 g = (1 + 5) = 1.618033988 . . . 2 und f¨ ur h := 1g 1 √ h2 + h = 1, also h = g − 1 = ( 5 − 1) . 2
(9.2)
Die Heron–Iteration (siehe Abschnitt 4.5) 1 1 5 xk+1 := xk + , x0 := 2, 2 2 xk liefert die Approximationen 9 161 51841 , 2, , 4 72 23184 √ f¨ ur die Zahl 5 und daher die Approximationen 3 13 232 75025 , , , 2 8 144 46368 f¨ ur die Zahl g, 2 Beachte: h stimmt recht gut mit π ur die Kreiszahl π ist also ¨berein. Eine N¨aherung f¨ 16 u √ 4 h, also eine mit Zirkel und Lineal konstruierbare Zahl. Die Quadratur des Kreises gelingt also n¨aherungsweise (!) mit Zirkel und Lineal, obwohl sie, wie wir sehen werden, exakt nicht gelingt. √ Die Zahl g = 12 (1 + 5) ist mit Zirkel und Lineal konstruierbar. Eine Konstruktion in einem Schritt, also nicht als Kette
√
5, 1 +
√ √ 1 5 , (1 + 5) 2
(gem¨aß den oben gegebenen Hinweisen), ist der Abbildung 9.14 zu entnehmen. Es ist hier n¨amlich: 1 |AB| = 1 , |CD| = , 2 s 1 1√ |AC| = 1+ = 5, 4 2 1√ 1 |AP | = 5 − = h, 2 2 |AQ| = h + 1 = g .
Baumeister: Mathematik III / Stand: Januar 1998
215
Abbildung 9.14: Teilungsverh¨altnis im goldenen Schnitt
Abbildung 9.15: Euklid’s Konstruktion
Von Euklid wird (als Satz 30) eine ¨ahnliche Konstruktion angegeben. Sie ist festgehalten in Abbildung 9.15. Wir haben hier |AB| = 1 , |AB| = 2 · |BC| , |CA| = |CD| , |BD| = |BR| , also
|AB| = g. |RB|
Die Konstruktion eines regelm¨aßigen F¨ unfeckes mit Zirkel und Lineal ist gleichwertig mit der Konstruktion eines Winkels α := 2π cos( 2π 5 oder der Zahl 5 ) mit Zirkel und √ 1 Lineal, wie man am Einheitskreis abliest. Es ist cos( 2π 5 ) = 4 ( 5 − 1) (siehe (8.11)), also eine konstruierbare Zahl. Der Konstruktionsschritt f¨ ur das regelm¨aßige F¨ unfeck ist nun abzulesen aus Abbildung 9.16. Bemerkung 9.4 In (9.1) haben wir gesehen, daß f¨ ur die Zahl g des goldenen Schnitts die Formel q
g=
1+g
Baumeister: Mathematik III / Stand: Januar 1998
216
Abbildung 9.16: Regelm¨aßiges F¨unfeck
gilt. Sukzessives Wiedereinsetzen von r
q
g=
1+g =
1+
√
1 + g f¨ ur g f¨ uhrt zu s
q
1+g =
r
1+
1+
q
1+ g = ··· .
Dieser unendlich fortgesetzter Einsetzungsprozeß l¨aßt sich als iteratives Verfahren zur nun unbekannt angenommenen Zahl g verstehen. Etwa folgt mit der Startsch¨atzung g0 := 1 f¨ ur g : q
g1 :=
1 + g0 =
√
q
2 , g2 :=
1 + g1 =
q
q √ 1 + 2 , g3 := 1 + g2 =
r
1+
q
1+
√ 2, ... .
Ohne Beweis4 wird mitgeteilt, daß diese Iterationsfolge (gk )k∈IN gegen g konvergiert. Die Zahl g erf¨ ullt auch die Gleichung g = 1+
1 . g
Sukzessives Wiedereinsetzen von 1 + g1 f¨ ur g auf der rechten Seite f¨ uhrt zu g = 1+
1 1 1 = 1+ = 1 + 1 1 = ··· . g 1+ 1+ 1 g 1+ g
Faßt man dies wieder als Iteration g0 := 1 , gk+1 := 1 + 4
1 , k ∈ IN 0 , gk
Siehe etwa M. Koecher: Klassische elementare Analysis, Birkh¨auser Verlag, Basel, 1987
Baumeister: Mathematik III / Stand: Januar 1998
217
auf, so konvergiert auch dieses Vorgehen gegen g . Aufgrund des Zustandekommens von g in dieser Form schreibt man 1 g =1+ 1 1+ 1 1+ 1 1+ 1+ ··· und nennt dies einen (unendlichen) Kettenbruch. Die obigen Konvergenzergebnisse sind nicht selbstverst¨andlich. Betrachten wir etwa die Gleichung (siehe (9.2)) √ h2 + h = 1 bzw. h = 1 − h , so erhalten wir q √ √ h = 1−h= 1− 1−h =
r
1−
q
1−
√
1− h = ··· .
Die zugeh¨orige Iteration q
h0 := 0 , hk+1 :=
1 − hk , k ∈ IN 0 ,
2
ist offenbar nicht (gegen h) konvergent.
Kommen wir nun zu den ber¨ uhmten Problemen, deren konstruktive L¨osung mit Zirkel und Lineal bereits in der Antike betrachtet wurde: Verdoppelung des W¨ urfels, Dreiteilung eines Winkels, Konstruktion regelm¨ aßiger n–Ecke, Quadratur des Kreises. Zur Verdoppelung des W¨ urfels. (Delisches Problem) Das Volumen des Einheitsw¨ urfels ist Eins. Ist es m¨oglich, mit Zirkel und Lineal die Seitenl¨ange eines W¨ urfels zu konstruieren, dessen Volumen 2 ist ? (Dieses Verdoppelungsproblem geht der Sage nach auf ein Orakel aus Delphi zur¨ uck; f¨ ur den W¨ urfel hat man sich einen Altar zu denken.) Die L¨osung l¨auft darauf hinaus, ein x ∈ IR zu konstruieren mit x3 = 2 ,
(9.3)
oder nach Menaichmos (um 350 v. Chr.) den Schnittpunkt der Parabeln x2 = y , y 2 = 2x zu konstruieren. Die Antwort ist NEIN ! Zur Dreiteilung eines Winkels. Die Halbierung eines Winkels mit Zirkel und Lineal ist immer m¨oglich, wie man an Abbildung 9.17 abliest.
Baumeister: Mathematik III / Stand: Januar 1998
218
Abbildung 9.17: Halbierung eines Winkels
Ist es m¨oglich, einen beliebigen Winkel mit Zirkel und Lineal zu dritteln ? Dazu ¨aquivalent ist die Frage, ob f¨ ur einen beliebigen Winkel ϑ die Zahl cos(ϑ) mit Zirkel und Lineal konstruierbar ist, wenn die Zahl cos(3ϑ) vorliegt. Da cos(3ϑ) = 4 cos(ϑ)3 − 3 cos(ϑ) nach bekannten trigonometrischen5 Formeln (siehe Abschnitt 8.6) gilt, ist die Frage ¨aquivalent damit, ob eine L¨osung x der kubischen Gleichung 4x3 − 3x = c
(9.4)
mit Zirkel und Lineal f¨ ur einen beliebigen Wert c (c = cos(3ϑ)) konstruierbar ist. Die Antwort ist NEIN ! Die Dreiteilung eines Winkels gelingt, wenn man die Spielregel “Nur mit Zirkel und Lineal“ aufgibt. Fr¨ uhe derartige L¨osungen stammen von Hippias (um 460 v. Chr.) (Quadratix) und Archimedes (287? – 212?) (Konchoide/Muschellinie). Zur Konstruktion regelm¨ aßiger n–Ecke. Das obige Problem, etwas allgemeiner gefaßt, lautet, ob es m¨oglich ist, mit Zirkel und Lineal den n−ten Teil eines Winkels zu konstruieren. Der interessante Spezialfall ist die Teilung des Vollwinkels in n gleiche Teile, d.h. die 2π Konstruktion von (cos( 2π n ), sin( n )) aus den Punkten (0, 0), (1, 0) heraus. 2π Ist es m¨oglich, den Punkt (cos( 2π n ), sin( n )) mit Zirkel und Lineal zu konstruieren ? Die Antwort ist abh¨angig von n : Das regelm¨aßige n–Eck ist mit Zirkel und Lineal konstruierbar genau dann, wenn die Zahl n die Darstellung n = 2m p1 · · · pk besitzt; hierbei ist m ∈ IN und p1 , . . . , pk sind verschiedene Fermatsche Primzahlen oder 1. (Siehe Abschnitt 3.1.) 5
τ ρ´ιγoνoν (griech.) = Dreieck
Baumeister: Mathematik III / Stand: Januar 1998
219
F¨ ur eine durchsichtige Behandlung dieses Problems der Konstruierbarkeit regelm¨aßiger n−Ecke sind die komplexen Zahlen hilfreich; dazu Abschnitt dient uns 10.4 . Zur Quadratur des Kreises. Der Fl¨acheninhalt des Einheitskreises ist π. Ist es m¨oglich, die Seitenl¨ange x eines Quadrates mit Zirkel und Lineal so zu konstruieren, daß der Fl¨acheninhalt dieses Quadrats gleich π ist ? Die Frage l¨auft darauf hinaus, ob es m¨oglich ist, mit Zirkel und Lineal eine L¨osung von x2 = π zu konstruieren. Die Antwort ist NEIN ! Die negativen Antworten wurden gegeben von Wantzel 1837 zu den ersten beiden Problemen und von Lindemann 1882 zum vierten Problem. Die L¨osung des dritten Problems wurde von C.F. Gauss (1777 – 1855) erbracht. Wesentliche Vorarbeiten stammen von R. Descartes. Die Quadratur des Kreises – mit Quadratur“ wird die Berechnung von ” Fl¨acheninhalten, welche ja im wesentlichen auf der Ausz¨ahlung von Quadraten besteht, bezeichnet – ist im Gegensatz zu den beiden anderen Problemen kein rein algebraisches Problem. In der Antike gab es f¨ ur die L¨osbarkeit der Frage der Quadratur des Kreises durchaus positive Ans¨atze. Etwa zeigte Hippokrates (um 440 v. Chr.) – von ihm stammen Fragmente eines Lehrbuchs der Geometrie – , daß der Fl¨acheninhalt des Mondes in der folgenden Skizze f¨ ur das Verh¨altnis α/β = 3 oder α/β = 3/2 quadrierbar ist. Erst in diesem Jahr-
Abbildung 9.18: Quadrierung von M¨ondchen hundert konnte die Vermutung, daß dies genau f¨ ur die rationalen Verh¨altnisse α/β mit α 3 5 = 3, , 5, β 2 2
Baumeister: Mathematik III / Stand: Januar 1998
220
gilt, auf der Basis der Galoistheorie, deren Kernst¨ uck eine intensive Nutzung der Gruppenstruktur (siehe n¨achstes Kapitel) ist, verifiziert werden. Bemerkung 9.5 Konstruktion mit Zirkel und Lineal ist ein idealer Vorgang, er bezieht sich nicht auf die Schwierigkeiten, Konstruktionen in Praxis exakt auszuf¨ uhren. In der Literatur sind viele Konstruktionen mit Zirkel und Lineal zu finden, die die obigen Aufgaben “n¨aherungsweise“ mit nahezu vorgebbarer Genauigkeit l¨osen (siehe oben). Dies ist aber ein anderer Ansatz. 2
9.3
Geometrie, Symmetrie, Invarianz
Es lassen sich drei Entwicklungsphasen der Geometrie erkennen: Die erste Phase f¨ uhrte zur synthetischen Geometrie. Hier werden die Strukturen ohne Bez¨ uge zu anderen Disziplinen direkt oder rein geometrisch“ in einer eigenen Axiomatik ” eingef¨ uhrt, in der nur mengentheoretisch deutbare Operationen ( Verbinden“, Schnei” ” den“) vorkommen. Das euklidische Konzept ist der synthetischen Geometrie zuzuordnen. Die zweite Phase f¨ uhrte zur Analytischen Geometrie, in der man sich der Sprache der linearen Algebra bedient. Diesen Ansatz verfolgen wir im n¨achsten Kapitel. Punkte und geometrische Figuren der synthetischen Geometrie werden durch Koordinaten bzw. Gleichungen in den Koordinaten gegeben. Die Resultate werden erzielt durch algebraisches Rechnen mit den Gleichungen. In ihrer modernen Fortentwicklung ist die analytische Geometrie zu dem geworden, was heute mit der Algebraischen Geometrie umschrieben wird. Die dritte Phase l¨aßt sich schließlich in der Entwicklung der Differentialgeometrie festmachen. Hier bedient man sich auch der Sprache der Analysis, und zwar u.a. zur Beschreibung von Tangenten an Kurven und Fl¨achen, Arbeitsmittel sind Ableitung“ und ” Integral“. F¨ ur die mathematische Physik ist dieser Entwicklungszweig der Geometrie ” besonders fruchtbar (Hamiltonsche Mechanik, Relativit¨atstheorie). D. Hilbert (1862 – 1943)6 stellt die unwidersprochene Behauptung auf: “Die Geometrie ist nichts als ein Zweig, der ¨alteste Zweig der Physik; die geometrischen Wahrheiten sind in keiner Hinsicht anders gestellt oder anders geartet als die physikalischen.“ C.F. Gauss (1777 – 1855) und H. Helmholtz (1821 – 1895) sind die Ersten gewesen, die diese Tatsache erkannt und umgesetzt haben. Eng verkn¨ upft mit der Geometrie ist der Begriff der Symmetrie. Symmetrie, ob man ihre Bedeutung weit oder eng faßt, ist eine Idee, verm¨ oge derer der Mensch durch Jahrtausende seiner Geschichte versucht hat, Ordnung, Sch¨ onheit und Vollkommenheit zu begreifen und zu schaffen. H.Weyl, 1885–1955. 6
In: Hilbert, D.: Wissen und mathematisches Denken. Vorlesungsmitschrift aus dem WS 1922/23
Baumeister: Mathematik III / Stand: Januar 1998
221
¨ Invarianz und Symmetrie sind Leitprinzipien mathematischer Asthetik. Sie sind komplement¨are Begriffe: Etwas ist in dem Maße symmetrisch, wie es invariant (unver¨anderlich) ist, wenn es einer gewissen Transformation unterworfen wird. A. Einsteins (1879 – 1955) Relativit¨atstheorie resultiert aus der Vorstellung, daß die physikalischen Gesetze invariant unter der sogenannten Lorentz–Transformation sein sollten. Einstein dachte sogar daran, seine Relativit¨atstheorie Invariantentheorie zu nennen. Geometrie und Symmetrie k¨onnen als Leitmotive der mathematischen Physik aufgefaßt werden.7 In Abbildung 9.19 sind zwei Paare von Figuren zu sehen. Wir sagen, daß die rechte Figur
Abbildung 9.19: Mehr oder minder symmetrische Figuren jeweils symmetrischer ist als die linke Figur. Die pr¨azise Formulierung der Symmetrie gelingt mit dem Gruppenbegriff, mit dem wir uns im n¨achsten Kapitel besch¨aftigen; er ist das Ergebnis einer langen historischen Entwicklung. Grob gesagt mißt man die Symmetrie einer Figur damit, wieviele Drehungen und Spiegelungen es in der Ebene (Raum) gibt, die die Figur mit sich selbst zur Deckung bringen (Deckabbildungen). Die zugeh¨orige Symmetriegruppe ist umso gr¨oßer, je symmetrischer das Objekt ist. Definition 9.6 Eine Abbildung φ : IE 2 −→ IE 2 heißt Isometrie (Kongruenzabbidung), wenn sie bijektiv und dar¨uberhinaus abstandserhaltend ist, d.h. wenn d(φ(P ), φ(Q)) = d(P, Q) f¨ur alle P, Q ∈ IE 2 gilt.
2
Isometrien sind etwa die Identit¨at und die Spiegelungen IR2 3 x = (x1 , x2) 7−→ (−x1 , x2) ∈ IR2 , IR 2 3 x = (x1, x2 ) 7−→ (x2 , x1) ∈ IR2 . 7
Siehe etwa M. Schottenloher: Geometrie und Symmetrie in der Physik – Leitmotiv der mathematischen Physik, Vieweg–Verlag, Braunschweig, 1995.
Baumeister: Mathematik III / Stand: Januar 1998
222
Wir haben hier die Identifikation der euklidischen Ebene IE 2 mit IR 2 ausgenutzt. Die Voraussetzung der Bijektivit¨at in Definition 9.6 ist u ussig. Wir werden sp¨ater ¨ berfl¨ sehen, daß eine abstandserhaltende Abbildung schon bijektiv ist. Definition 9.7 Sei M eine Teilmenge von IE 2 . (a) Wir nennen Iso(M) := {ψ : M → M|ψ(M) = M; es gibt eine Isometrie φ mit φ|M = ψ} die Symmetriegruppe von M und jedes Element ψ ∈ Iso(M) eine Bewegung von M . (b) M heißt symmetrisch, wenn Iso(M)\{id} 6= ∅ ist.
2 (Die Bezeichnung “Gruppe“ greift den Dingen schon etwas vor.) Betrachten wir als erstes Beispiel ein gleichseitiges Dreieck mit den Ecken A1, A2, A3 ; siehe Abbildung 9.20. Haben die Ecken A1 , A2, A3 die Koordinaten x1, x2 , x3, so wird der Punkt S mit den Koordinaten (x1 +x2 +x3 )/3 Schwerpunkt genannt. Er ist auch Schnittpunkt der Seitenhalbierenden, wie wir sp¨ater sehen werden. Man sieht sofort Isometrien, die zur
Abbildung 9.20: Symmetrie im gleichseitigen Dreieck
Symmetriegruppe des Dreiecks A1A2A3 geh¨oren: 1. Die Spiegelung an der Achse durch den Punkt A1 und den Mittelpunkt der Strecke A2A3 , die wir mit φ1 bezeichnen.
Baumeister: Mathematik III / Stand: Januar 1998
223
2. Die Spiegelung an der Achse durch den Punkt A2 und den Mittelpunkt der Strecke A3A1 , die wir mit φ2 bezeichnen. 3. Die Spiegelung an der Achse durch den Punkt A3 und den Mittelpunkt der Strecke A1A2 , die wir mit φ3 bezeichnen. 4. Die Drehung um den Schwerpunkt des Dreiecks mit dem Drehwinkel 120o , die wir mit ψ1 bezeichnen. 5. Die Drehung um den Schwerpunkt des Dreiecks mit dem Drehwinkel 240o , die wir mit ψ2 bezeichnen. 6. Die identische Abbildung id . Damit haben wir folgende Liste von Isometrien erhalten: D3 := {id, φ1, φ2 , φ3, ψ1, ψ2 } .
(9.5)
Man kann sich nun u uhrung von je zwei der obigen ¨berzeugen, daß die Hintereinanderausf¨ Abbildungen wiederum eine Abbildung aus der obigen Liste ergibt. So gilt etwa: φ1 ◦ φ1 = id , φ2 ◦ φ2 = id , φ3 ◦ φ3 = id , ψ1 ◦ ψ1 = ψ2 , ψ2 ◦ ψ2 = ψ1 , φ2 ◦ φ1 = ψ1 , φ1 ◦ φ2 = ψ2 . Mit Ausnahme der letzten Aussage sind die obigen Gleichungen leicht nachzupr¨ ufen. Die letzte Gleichung ist zumindest plausibel, da A1 auf A3, A2 auf A1, und A3 auf A2 abgebildet werden, ebenso, wie dies bei ψ2 der Fall ist. Die Frage ist nun, haben wir mit {id, φ1 , φ2, φ3 , ψ1, ψ2} alle Isometrien des Dreiecks A1A2A3 gefunden. Dies trifft zu. Dazu beachte, daß man jede der obigen Abbildung mit einer Permutation (siehe Abschnitt 2.1) der Ziffern 1,2,3 in Verbindung bringen kann und es gerade 6 solche Permutationen gibt. Etwa entspricht ψ2 der Permutation, die folgende Abbildungseigenschaft hat: 1 7−→ 3, 2 7−→ 1, 3 7−→ 2 Andererseits ist einsichtig, daß jedes Element der Symmetriegruppe des Dreiecks die Eigenschaft hat, Eckpunkte auf Eckpunkte abzubilden. Im n¨achsten Kapitel kommen wir auf diesen Zusammenhang zur¨ uck, wenn wir die Struktur “Gruppe“ betrachten. Die obige Liste von Isometrien finden wir auch durch einen anderen Blick auf das Problem: • Je eine Isometrie erhalten wir durch Drehung des Dreiecks (um den Schwerpunkt) um ein Vielfaches von 2π 3 . Dies sind die Isometrien id, ψ1 , ψ2 . • Spiegelung etwa an der Achse durch den Punkt A3 und den Mittelpunkt der Strecke A1A2 , und anschließende Drehung um ein Vielfaches von 2π 3 . Dies ergibt die Isometrien φ3 = id ◦ φ3, φ2 = ψ1 ◦ φ3, φ1 = ψ2 ◦ φ3 . Also D3 = {id, ψ1, ψ2, φ3, ψ1 ◦ φ3, ψ2 ◦ φ3} .
(9.6)
Baumeister: Mathematik III / Stand: Januar 1998
224
Die eben angef¨ uhrte Spiegelung (φ3 ) ist gleichbedeutend mit einer halben Drehung des (zu einem r¨aumlich etwas “verdickten“) Dreiecks im Raum um die Achse durch den Punkt A3 und den Mittelpunkt der Strecke A1A2 und dem damit verbundene Austausch von von “vorne“ und “hinten“. Da beide Seiten des Dreiecks damit in Betrachtung kommen, wird D3 eine Dihedralgruppe (dihedral (griech.): zweigesichtig) oder Diedergruppe genannt. Die zweite Betrachtungsweise ist u ¨ bertragbar auf den Fall allgemeiner regelm¨aßiger n– Ecke. Sie f¨ uhrt dann dazu, daß die Symmetriegruppe Dn eines regelm¨aßigen n–Ecks gerade 2 · n Elemente besitzt. Hat man die obige Analogie mit Permutationen im Auge, so f¨allt auf, daß darnach #D3 = #S3 = 3! = 6 , aber #D4 = 8 , #S4 = 4! = 24 gilt. Beim regelm¨aßigen 6–Eck ist der Unterschied #D6 = 12 , #S6 = 6! = 720 schon eklatant. Die obige Beobachtung, daß Drehungen sich durch Spiegelungen erreichen lassen (ψ1 = φ2 ◦ φ1 , ψ2 = φ2 ◦ φ1 im Fall der Dihedralgruppe D3 ) ist kein “Zufall.“ Die alle Drehungen in Dn erzeugende Drehung ψ um 2π n verm¨oge id, ψ, . . . , ψ n−1 l¨aßt sich stets als Hintereinanderausf¨ uhrung von zwei Spiegelungen φ1 , φ2 schreiben, die π einschließen. Sind die Spiedurch Spiegelungsachsen erzeugt werden, die einen Winkel n gelungsachsen reale Spiegel, so hat ein Objekt, das zwischen die beiden Spiegel gestellt wird, 2n Spiegelbilder. Das Kaleidoskop8 ist das daraus abgeleitete Instrument. Satz 9.8 Sei M eine Teilmenge von IE 2 . Es gilt: (a) id ist eine Bewegung von M . (b) Sind f, g Bewegungen von M, so ist auch f ◦ g eine Bewegung von M . (c) Ist f Bewegung der Menge M, so ist f bijektiv und f −1 ist eine Bewegung von M. Beweis: (a), (b) sind trivial, zu (c). Zu f gibt es eine Isometrie φ : IE 2 −→ IE 2 mit φ|M = f . Dann ist f bijektiv und 8
κ´ αλoς (griech.) = sch¨on, ειδoς e (griech.) = Form, σκ´ oπειν (griech.) = sehen
Baumeister: Mathematik III / Stand: Januar 1998
225
−1 f −1 = φ−1 eine Isometrie ist, denn: |M , wobei auch φ 0 Seien P, Q ∈ M und seien P , Q0 ∈ M mit φ(P 0 ) = P, φ(Q0 ) = Q. Dann ist
d(φ−1 (P ), φ−1 (Q)) = d(P 0 , Q0) = d(φ(P 0 ), φ(Q0)) = d(P, Q) .
Eine Charakterisierung von Bewegungen von IE 2 gelingt im Kapitel 11. Wir werden sehen, daß sie sich aus Translationen, Drehungen und Spiegelungen aufbauen. Man beachte, daß Iso(M) keineswegs endlich sein muß, wie obige Beispiele vielleicht suggerieren k¨onnten. Im obigen Satz 9.8 haben wir nachgewiesen, daß die Menge der Bewegungen einer Menge M eine Gruppe, also eine Menge mit Gruppenstruktur darstellt; in Abschnitt 10.1 folgt die Definition. Hierin ist der Ansatz zur Geometrie zu erkennen, wie er sich im letzten Jahrhundert herausgebildet hat. Ein Vordenker in dieser Richtung war F. Klein (1849 – 1925). Seine Hauptfrage lautet etwa: Woher gewinnt man eine Methode, nach der sich von den Eigenschaften einer Figur entscheiden l¨aßt, welche als geometrisch zu bezeichnen sind und welche nicht? In der Kongruenzgeometrie sehen wir alle kongruenten Figuren – dies sind solche, die bis auf eine Bewegung gleich sind – als geometrisch gleich an; ihre Unterscheidungsmerkmale (in welchem Buch, aus welcher Farbe,. . .) bewerten wir nicht als geometrisch. ¨ In der Ahnlichkeitsgeometrie werden Figuren als geometrisch gleich angesehen, wenn sie maßstabsgetreue Abbilder sind; die wirkliche L¨ange einer Strecke ist hier nicht geo¨ metrisch, entscheidend ist nur das Streckenverh¨altnis. Beim Ubergang von den Kongruenz¨ abbildungen zu den Ahnlichkeitsabbildungen verzichtet man auf die L¨angentreue, die ¨ Winkeltreue wird verlangt. (Der Satz des Pythagoras ist ein Satz der Ahnlichkeitsgeometrie.) In der affinen Geometrie verzichtet man auch noch auf die Winkeltreue, d.h. auch der Winkel ist hier nicht geometrisch. Verlangt wird noch die Geradentreue, d.h. daß Geraden in Geraden abgebildet werden. Felix Klein formuliert: Eine geometrische Eigenschaft geh¨ort derjenigen Geometrie an, bei deren Abbildungen sie invariant bleibt. Am Anfang stehen also die Abbildungen, die in Form einer Gruppe festgesetzt werden. Je umfangreicher die Gruppe der zugrundegelegten Abbildungen ist, umso weniger Eigenschaften sind invariant. In den oben angef¨ uhrten Beispielen steht am Anfang also die Gruppe der Kongruenzab¨ bildungen bzw. der Ahnlichkeitsabbildungen bzw. der affinen Abbildungen. Die projektive Geometrie erh¨alt man, wenn man die Gruppe der projektiven Abbildungen zum Ausgangspunkt macht. Motivation f¨ ur diese Geometrie ist die sogenannte Zentralprojektion, wie man sie bei einer punktf¨ormigen Lichtquelle beobachtet. (In Bildern (z.B. von D¨ urer) kann man ohne M¨ uhe ein solches “Projektionszentrum“ finden.)
Kapitel 10 Gruppen, Ko ¨rper, Polynome In diesem Kapitel greifen wir die algebraischen Konzepte auf, die im vorhergehenden Kapitel ins Blickfeld kamen. Zentral ist der Gruppenbegriff, der K¨orperbegriff erlaubt eine algebraische Diskussion der Konstruierbarkeit mit Zirkel und Lineal. Die Nullstellen von Polynomen werden zur Konstruktion von K¨orpern herangezogen, die dabei ben¨otigt werden.
10.1
Gruppen
Die Gruppenstruktur ist von u ¨berrragender Bedeutung. Ihre Nutzung hinterließ eine Erfolgsspur in der Mathematik. Von H. Poincar´e (1854 – 1912) ist die Aussage u ¨ berliefert, Gruppen seien “die ganze Mathematik“. Definition 10.1 Eine Menge G zusammen mit einer Verkn¨upfung • : G × G 3 (a, b) 7−→ a • b ∈ G heißt eine Gruppe genau dann, wenn gilt: (N) Es gibt ein Element e ∈ G mit
a • e = e • a = a f¨ur alle a ∈ G .
(I) Zu jedem a ∈ G gibt es ein Element a¯ ∈ G mit (A) F¨ur alle a, b, c ∈ G gilt
a • a¯ = ¯a • a = e .
a • (b • c) = (a • b) • c .
Ist zus¨atzlich noch (K) F¨ur alle a, b ∈ G gilt
a • b = b • a.
erf¨ullt, so heißt die Gruppe kommutativ.
2
Sei G eine Gruppe. Die Bedingung (N) besagt, daß es ein bez¨ uglich der Verkn¨ upfung “•“ neutrales Element 0 e in G gibt. Ist e ein weiteres neutrales Element in G, so lesen wir aus e0 = e0 • e = e 226
Baumeister: Mathematik III / Stand: Januar 1998
227
– wir haben dabei (N) zweimal verwendet – ab, daß das neutrale Element in einer Gruppe eindeutig bestimmt ist. Das in der Bedingung (I) eingef¨ uhrte Element a ¯ heißt das zu a inverse Element. Es ist ebenfalls eindeutig bestimmt, denn aus a • a¯ = ¯a • a = e , a • a¯0 = a¯0 • a = e , folgt
a0 • a) • a¯ = e • a¯ = a¯ . a¯0 = ¯a0 • e = a¯0 • (a • a¯) = (¯
Die Bedingung (A), die wir eben verwendet haben, nennt man das Assoziativgesetz. Es besagt, daß Klammern bei der Reihenfolge der Verkn¨ upfungen beliebig gesetzt werden d¨ urfen und deshalb, soweit sie nicht f¨ ur die Lesbarkeit ben¨otigt werden, weggelassen werden d¨ urfen. Seit dem 17. Jahrhundert ist der Gruppenbegriff implizit bei Mathematikern zu finden, zun¨achst wohl nur bei konkreten Beispielen. Eine erste explizite Definition einer abstrakten kommutativen Gruppe findet sich bei H. Grassmann (1809 – 1877). Entscheidend war der Gruppenbegriff bei E. Galois f¨ ur die Behandlung algebraischer Probleme. G. Peano (1858 – 1932) nahm den Gruppenbegriff auf; ihm standen dazu nun die mengentheoretischen Sprechweisen zur Verf¨ ugung. Die Betrachtungen spalteten sich auf in Untersuchungen endlicher Gruppen (Drehungen,. . .) und solcher, die kontinuierliche Transformationen beschreiben. S. Lie (1842 – 1899) hat zu den kontinuierlichen Gruppen u ¨ berragende Beitr¨age geleistet; der Begriff Lie–Gruppe dankt es ihm. Zu Beginn des 20. Jahrhunderts kam dann die Verbindung der Gruppentheorie zur Physik als Motivation f¨ ur die Untersuchungen hinzu. Die Theorie der Gruppen ist nach wie vor im Zentrum der Algebra sehr lebendig, die vollst¨andige Klassifizierung von speziellen Klassen von Gruppen ist ein Hauptziel der Untersuchungen. Im Jahre 1980 wurde die Klassifikation der endlichen einfachen Gruppen f¨ ur beendet erkl¨art; der Beweis zum Klassifikationssatz umfaßt weit mehr als 10000 Seiten. Eine letzte spezielle Gruppe dieser Art wurde 1975 entdeckt. Es dies eine Gruppe mit mehr als 86 · 1018 Gruppenelementen. Bemerkung 10.2 Die Forderungen (N) und (I) in Definition 10.1 kann man bei Beibehaltung von (A) auch schw¨acher formulieren ohne etwas zu verlieren. Es reicht, statt (N) und (I) zu fordern: (N’) ∃e ∈ G ∀a ∈ G (e • a = a) . (I’) ∀a ∈ G ∃¯ a ∈ G (¯ a • a = e) . Den Beweis – man folgert zun¨achst (I) aus (N’) und (I’) und dann (N) – wollen wir u 2 ¨ bergehen. Wegen der Eindeutigkeit des inversen Elements (siehe oben) k¨onnen wir nun ein inverses Element in der Bezeichnung auszeichnen. Bezeichnung: Wir schreiben f¨ ur das inverse Element a ¯ von a im abstrakten Rahmen −1 meist a , in speziellen F¨allen weichen wir davon ab.
Baumeister: Mathematik III / Stand: Januar 1998
228
Wir f¨ uhren nun eine Reihe von Beispielen an und zeigen damit, daß der Gruppenbegriff in der Tat geeignet ist, viele Objekte unter einem gemeinsamen Gesichtspunkt zu betrachten.1 Dabei schreiben wir dann Verkn¨ upfung, Einselement, Inverses immer mit dem Symbol, das wir in der speziellen Situation bereits kennen. Auf die Verifikation der Assoziativit¨at bzw. Kommutativit¨at verzichten wir meist, da hier in der Regel kein Problem vorliegt. Beispiel 10.3 (G := ZZ , • := +) ist eine kommutative Gruppe mit neutralem Element 0 und Inversem 2 −z f¨ ur z ∈ ZZ . Wenn die Verkn¨ upfung eine Addition ist wie etwa in Beispiel 10.3, nennt man das Inverse eines Elements meist das Negative. Ist die Verkn¨ upfung • in einer Gruppe einer Addition “verwandt“, so nennt man sie, wenn sie kommutativ ist, auch abelsch. Der Begriff “abelsch“ ist vom Namen des norwegischen Mathematikers N.H. Abel (1802 –1829) abgeleitet. Neben Arbeiten zur Konvergenz von Reihen besch¨aftigte er sich mit der L¨osbarkeit von Gleichungen f¨ unften Grades und bewies die Unm¨oglichkeit der L¨osung einer allgemeinen Gleichung f¨ unften Grades mit Hilfe von Radikalen (Wurzelausdr¨ ucken); siehe dazu Abschnitt 11.7. Seine Ideen hierzu sind eng mit denen des franz¨osischen Mathematikers E. Galois (1811 – 1832), dessen Theorie in der Algebra eine u ¨ berragende Rolle spielt, verwandt. Mit ihm teilt er auch das Schicksal, sehr jung zu sterben, Abel starb an Schwindsucht, Galois in einem Duell. Beispiel 10.4 (G := Q, 0 • := +) , (G := IR, • := +) sind abelsche Gruppen. Das neutrale Element ist jeweils 0, das Inverse (Negative) eines Elementes r ist −r. 2 Beispiel 10.5 (G := IK ∗ := IK \{0}, • := ·) ist f¨ ur IK ∈ {Q, 0 IR} eine kommutative Gruppe mit neutra−1 lem Element 1 und Inversem a f¨ ur a ∈ IK ∗ . Die Rechenregeln einer Gruppe sind uns hier wohlvertraut, ebenso die Potenzregeln. Man beachte, daß wir das Nullelement aus IK entfernen mußten, da dieses Element kein Inverses bez¨ uglich der Multiplikation besitzt. 2 In einer Gruppe (G, •) mit Einselement e k¨onnen wir nun die Potenzschreibweise einf¨ uhren: a0 := e , ak+1 := ak • a , k ∈ IN 0 ; a−k := (a−1 )k , k ∈ IN . Nun haben wir die Gruppenstrukturen in den Zahlen erkannt. Wir finden sie auch beim Rechnen mit Restklassen, wie folgendes Beispiel zeigt. 1
“In der Mathematik bringt man heute immer mehr unter einen Hut, aber wer holt es wieder hervor?“ O. Perron ( – )
Baumeister: Mathematik III / Stand: Januar 1998
229
Beispiel 10.6 Wir kennen ZZ m = {[0], . . . , [m − 1]} , m ∈ IN , aus Abschnitt 1.5 und wissen, daß durch [k] ⊕ [l] := [k + l] , [k] [l] := [k · l] , k, l ∈ ZZ , eine “Addition“ und “Multiplikation“ erkl¨art ist. Zur Erinnerung: F¨ ur z ∈ ZZ ist [z] := [z]m := {x ∈ ZZ | m teilt x − z} die zugeh¨orige Restklasse und es gibt genau m verschiedene Restklassen, da bei Division einer ganzen Zahl durch m genau m verschiedene “echte“ Reste auftreten k¨onnen, n¨amlich 0, 1, . . . , m − 1 . Also k¨onnen wir ZZ m := {[z]|z ∈ ZZ } durch ZZ m = {[0], . . . , [m − 1]} erfassen; wir haben dabei die kleinsten nichtnegativen Vertreter f¨ ur Restklassen gew¨ahlt. Man beachte daß die oben eingef¨ uhrte Addition und Multiplikation von den gew¨ahlten Vertretern der Restklassen unabh¨angig ist, d.h. man verifiziert [k] = [k 0], [l] = [l0] =⇒ [k] ⊕ [l] = [k 0] ⊕ [l0] , [k] [l] = [k 0] [l0] . (G := ZZ m , • := ⊕) ist eine kommutative Gruppe . Das neutrale Element ist die Klasse [0], das Negative zu a := [k] ist −a := [−k] = [m − k] . Dieses Ergebnis gilt unabh¨angig von m. Bei der Multiplikation liegt die Situation etwa anders: (G := ZZ m \{[0]}, • := ) ist eine Gruppe genau dann, wenn m eine Primzahl ist. Daß keine Gruppe vorliegt, wenn m keine Primzahl ist, sieht man exemplarisch daran, daß etwa [2] [2] = [0] in ZZ 4 gilt, d.h. die Verkn¨ upfung f¨ uhrt dort aus G heraus. (Wenn wir [0] zu G wieder hinzunehmen, hat [0] kein Inverses!) Ist nun m eine Primzahl, dann ist die Klasse [1] ein neutrales Element und aus Folgerung 3.22 (Konsequenz aus dem euklidischen Algorithmus) wissen wir, daß es zu jeder Zahl k = 1, . . . , m − 1 ein l ∈ IN gibt mit m teilt kl − 1; d.h. [k] [l] = [1] . Somit hat man f¨ ur jedes Element in ZZ m \{[0]} ein Inverses. Die Gruppentafeln — so bezeichnen wir eine vollst¨andige Auflistung der Verkn¨ upfungen der Gruppenelemente — zu m = 5 sehen so aus: ⊕
[0] [1] [2] [3] [4]
[0] [0] [1] [2] [3] [4] [1] [1] [2] [3] [4] [0] [2] [2] [3] [4] [0] [1] [3] [3] [4] [0] [1] [2] [4] [4] [0] [1] [2] [3]
[1] [2] [3] [4]
[1] [1] [2] [3] [4] [2] [2] [4] [1] [3] [3] [3] [1] [4] [2] [4] [4] [3] [2] [1]
Baumeister: Mathematik III / Stand: Januar 1998
230
Man beachte, daß sowohl in der Gruppentafel zur Addition als auch in der Gruppentafel zur Multiplikation in jeder Zeile und Spalte jede Klasse genau einmal vertreten ist. Beachte ferner, daß die Potenzen des Elements [2] alle Elemente von ZZ ∗5 := ZZ 5 \{[0]} durchlaufen: [2]0 = [1] , [2]1 = [2] , [2]2 = [4] , [2]3 = [3] , [2]4 = [1] . Man nennt eine Gruppe, die ein solches “zyklisches Element“ besitzt, eine zyklische Gruppe. 2 Hat man eine endliche Gruppe (G, •), so tritt in jeder Spalte und jeder Zeile der Gruppentafel jedes Element der Gruppe genau einmal auf. Dies folgt aus der Bijektivit¨at der Abbildungen g :3 h 7−→ h • g ∈ G , g :3 h 7−→ g • h ∈ G f¨ ur jedes g ∈ G . Die Verifikation dieser Tatsache sei dem Leser u ¨berlassen. Beispiel 10.7 In Abschnitt 9.3 haben wir die Dihedralgruppen Dn , n ≥ 3, kennengelernt, deren Ordnung 2n ist. Diese Gruppen sind nicht abelsch, wie man schon am Beispiel von D3 erkennt. Eine Gruppe der Ordnung 2n ist auch die Faktorgruppe ZZ 2 × ZZ n , wobei die Verkn¨ upfung durch ZZ 2 × ZZ n 3 (([a], [b]), ([a0], [b0])) 7−→ ([a + a0], [b + b0]) ∈ ZZ 2 × ZZ n erkl¨art ist; Nullelement und Inverses ergeben sich in ganz offensichtlicher Weise. Da diese Gruppe abelsch ist, haben wir in den Gruppen Dn , ZZ 2 × ZZ n zwei sehr verschiedene Exemplare von Gruppen vor uns. Man sagt, daß Dn , ZZ 2 ×Zn nicht isomorph (siehe unten) aufeinander abbildbar sind. 2 Isomorphien sind bijektive Abbildungen von einer Gruppe auf eine andere, die mit der Gruppenoperation vertr¨aglich sind. Genauer: Seien (G•), (G0 , •0) Gruppen und φ : G −→ G0 eine Abbildung. φ heißt Isomorphismus und G isomorph G0 verm¨oge φ, wenn φ bijektiv ist und φ(g • h) = φ(g) •0 φ(h) f¨ ur alle g, h ∈ G gilt. Die Klassifikation von Gruppen bedeutet dann, die Klassen von Gruppen zu bestimmen, die sich h¨ochstens um einen Isomorphismus unterscheiden. (Sind etwa G, G0 isomorph, so ist G kommutativ genau dann, wenn G0 kommutativ ist.) “Speziell“, wie oben verwendet, erkl¨art sich hiermit. Eine Realisierung der einelementigen Gruppen ist die Symmetriegruppe des Buchstabens F als Figur der Ebene. Alle einelementigen Gruppen sind isomorph. Realisierungen der zweielementigen Gruppen sind: • Die additive Gruppe ZZ 2 . • Die Symmetriegruppe des Buchstabens A als Figur der Ebene. • Die Symmetriegruppe des Buchstabens Z als Figur der Ebene.
Baumeister: Mathematik III / Stand: Januar 1998
231
Die obigen zweielementigen Gruppen sind alle isomorph. Dies gilt aber allgemein, denn jede zweielementige Gruppe {e, a} hat notwendigerweise folgende Gruppentafel: •
e a
e
e a
a a e Die einzige Gruppentafel einer Gruppe {e, a, b} der Ordnung 3 hat folgendes Aussehen. •
e a b
e
e a b
a
a b e
b
b e a
Also sind alle Gruppen der Ordnung 3 isomorph. Die Vielfalt der Gruppen der Ordnung 4 ist schon betr¨achtlich gr¨oßer. Es gibt zwei solche Gruppen, die nicht isomorph sind. Hier sind die Gruppentafeln: •
e a b c
•
e a b c
e
e a b c
e
e a b c
a
a b c e
a
a e c b
b
b c e a
b
b c e a
c
c e a b
c
c b a e
Zyklische Gruppe. (b = a2 , c = a3, e = a4) Realisierung: (ZZ 4 , +) .
Kleinsche Vierergruppe Nicht zyklisch, aber kommutativ. (e2 = a2 = b2 = c2 = e) Realisierung: siehe unten.
(Die Nichtisomorphie folgt schon aus der Tatsache, daß die eine Gruppe zyklisch, die andere es nicht ist.) Eine Realisierung der Kleinschen Vierergruppe ist die Symmetriegruppe eines Rechtecks, das kein Quadrat ist: e := id, a := Spiegelung an der senkrechten Achse durch den Diagonalenschnittpunkt. b := Spiegelung an der waagrechten Achse durch den Diagonalenschnittpunkt. c := Drehung um 180o Es f¨allt wieder auf, daß sich die Drehung c durch die Spiegelungen a, b ausdr¨ ucken lassen.
Baumeister: Mathematik III / Stand: Januar 1998
232
Beispiel 10.8 Ebene regelm¨aßige Ornamente (auch Parkettierungen der Ebene genannt) lassen sich klassifizieren, je nachdem, welche Bewegungen (Drehungen, Spiegelungen, Translationen) das jeweilige Ornament invariant lassen; siehe Abbildung 10.1.
Abbildung 10.1: Ornamente
Die Symmetriegruppen, die dabei auftreten, nennt man Alhambragruppen. Wenn man ¨ auf diese Weise einen Uberblick u ¨ ber die Reichhaltigkeit aller regelm¨aßigen Ornamente gewinnen will, so stellt sich heraus, daß es genau siebzehn strukturell verschiedene Alhambragruppen gibt, und daß zu diesen siebzehn Gruppen entsprechende Ornamente in der Alhambra zu finden sind (V. Fedorov (1851 – 1919)). 2 ¨ Uber die L¨osbarkeit einer “linearen Gleichung“ in einer Gruppe gibt Auskunft Folgerung 10.9 Sei (G, •) eine Gruppe und seien a, b ∈ G . Dann gilt: ∃1 x, y ∈ G (a • x = b , y • a = b) . Beweis: Klar: x := ¯a • b , y := b • a¯ sind L¨osungen; hierbei ist ¯a das Inverse zu a . Die Eindeutigkeit folgt etwa im Fall a • x = b so: Aus a • x = b , a • z = b , x, z ∈ G , folgt x = a¯ • b = a¯ • (a • z) = (¯ a • a) • z = e • z = z .
Man beachte, daß wir in Folgerung 10.9 nicht die Kommutativit¨at vorausgesetzt haben und daher m¨oglicherweise “Links–“ und “Rechtsl¨osung“ verschieden sind. Definition 10.10 Sei (G, •) eine Gruppe. Die Anzahl der Elemente von G heißt Ordnung von G. Wir schreiben |G| f¨ur die Ordnung von G . 2
Baumeister: Mathematik III / Stand: Januar 1998
233
Hierbei ist verabredet, daß die Ordnung unendlich sei, falls G keine endliche Menge ist. Also |G| = ∞, falls #G = ∞ . Von besonderem Interesse sind Matrixgruppen. Wir lernen sie erst im Zusammenhang mit der euklidischen Geometrie in der Ebene und des Raums kennen.
10.2
Untergruppen
Definition 10.11 Sei (G, •) eine Gruppe. Eine nichtleere Teilmenge H von G heißt Untergruppe von G, falls g • h−1 ∈ H f¨ur alle g, h ∈ H
2
gilt.
Sei H eine Untergruppe von G. Da H nichtleer ist, ist das Einselelement e von G in H. Dann ist aber f¨ ur jedes h ∈ H auch h−1 = e • h−1 in H. Damit folgt nun sofort, daß H mit der Verkn¨ upfung • selbst eine Gruppe ist. Beispiel 10.12 ur jedes n ∈ IN eine Untergruppe der additiven Gruppe ZZ . Hn := n ZZ := {nk|k ∈ ZZ } f¨
2
Beispiel 10.13 Betrachte die symmetrische Gruppe G := S(IR 2 ) := {f : IR 2 → IR 2 |f bijektiv} . Zusammen mit der Verkn¨ upfung ◦ “ (Hintereinanderausf¨ uhrung) ist G eine Gruppe mit ” Einselelement id . Eine Abbildung g : IR 2 → IR2 heißt linear genau dann, wenn g(ax + by) = ag(x) + bg(y) f¨ ur alle a, b ∈ IR und x, y ∈ IR 2 gilt. Man stellt fest, daß die Teilmenge H := {f ∈ G|f linear} eine Untergruppe von G ist. Diese Untergruppe heißt allgemeine lineare Gruppe auf IR 2 und wird mit GL(2; IR) bezeichnet. 2
Baumeister: Mathematik III / Stand: Januar 1998
234
Definition 10.14 Sei (G, •) eine Gruppe und H eine Untergruppe von G. F¨ur g ∈ G heißt gH := {g • h|h ∈ H} bzw. Hg := {h • g|h ∈ H} die Linksnebenklasse bzw. Rechtsnebenklasse von H.
2
Beachte: Sei (G, •) eine Gruppe mit Einselement e und H eine Untergruppe von G. Dann gilt: eH = hH = H f¨ ur alle h ∈ H . Beispiel 10.15 Sei Hn := n ZZ (siehe Beispiel 10.12). Dann ist offenbar {gHn |g ∈ G} = {g + n ZZ |g ∈ ZZ } = {n ZZ , . . . , n − 1 + n ZZ }. und wir k¨onnen ZZ =
n−1 [
(i + n ZZ ).
i=0
schreiben, was nichts anderes ist als ZZ = [0] ∪ . . . ∪ [m − 1], wobei hier die Restklassen zum Modul m stehen. 2 Folgerung 10.16 Sei (G, •) eine Gruppe und H eine Untergruppe von G. Dann gilt f¨ur g1 , g2 ∈ G #g1 H = #g2 H und wir haben die folgenden Alternativen: Entweder ist g1 H = g2 H oder g1 H ∩ g2 H ist leer.
2
Beweis: Die Abbildung K : g1 H 3 g1 • h 7−→ g2 • h ∈ g2 H ist wohldefiniert und bijektiv, wie man leicht nachrechnet. Daraus folgt #g1 H = #g2 H. Ist g ∈ g1 H ∩g2 H, d.h. g = g1 •h1 = g2 •h2 mit h1 , h2 ∈ H, so folgt g1 = g2 •h2 •h−1 1 ∈ g2 H. Daraus folgt g1 H ⊂ g2 H und aus Symmetriegr¨ unden auch g2 H ⊂ g1 H. Definition 10.17 Sei (G, •) eine Gruppe und H eine Untergruppe. Die Zahl [G : H] := #{gH|g ∈ G} heißt der Index von H in G . 2 Beachte, daß wenn zwei der Zahlen |G|, |H|, [G : H] endlich sind, dann ist es auch die dritte Zahl. Es gibt Gruppen G, H unendlicher Ordnung, f¨ ur die [G : H] endlich ist.
Baumeister: Mathematik III / Stand: Januar 1998
235
Satz 10.18 Sei (G, •) eine endliche Gruppe und H eine Untergruppe von G. Dann ist die Ordnung |H| von H ein Teiler der Ordnung |G| von G. Beweis: Offenbar gibt es nach Folgerung 10.16 g1 , . . . , gl ∈ G mit G=
l [
gi H ,
(10.1)
i=1
so daß die diese Vereinigung disjunkt ist. Also gilt |G| = l|H| und [G : H] = l . Es ist offensichtlich, daß der obige Satz 10.18 f¨ ur unendliche Ordnung von G keinen Sinn ergibt, die in (10.1) aufgef¨ uhrte Darstellung kann aber trotzdem bestehen. Beispiel 10.19 Sei (G, •) eine endliche Gruppe mit Einselement e und sei g ∈ G, g 6= e . Sei H die kleinste Untergruppe von G, die das Element g enth¨alt; die Existenz dieser Untergruppe folgt aus der leicht zu verifizierenden Tatsache, daß der Durchschnitt von Untergruppen stets wieder eine Untergruppe ist. Da die Menge G endlich ist, gibt es ein Paar (k, l) ∈ IN × IN mit g k = g l und k > l . Es folgt g k−l = e . Sei N ∈ IN die kleinste Zahl n mit g n = e . Damit gilt H = {e, g, . . . , g N −1} , denn: Offenbar ist H 0 := {e, g, . . . , g N −1 } eine Untergruppe mit g ∈ H 0 . Daraus folgt H ⊂ H 0 nach Definition von H . Da g r ∈ H f¨ ur jedes r ∈ IN 0 gelten muß, folgt auch H 0 ⊂ H . Nun ist auch noch klar, daß ord(H) = N, N ein Teiler von ord(G) ist und gord(H) = e gilt. 2 Beispiel 10.20 Wendet man den Sachverhalt aus Beispiel ??auf die multiplikative Gruppe G := ZZ p \{[0]}, p Primzahl, an, so erh¨alt man schnell die Implikation a 6≡ 0 ( mod p) =⇒ ap−1 ≡ 1 ( mod p) . Dies ist der kleine Satz von Fermat.
2
Wir bringen nun ein Beispiel einer unendlichen Gruppe, in der man u ¨ ber alle Untergruppen Bescheid weiß, n¨amlich ((ZZ , +)). Die Argumentation dazu l¨aßt Teilbarkeit in ZZ in neuem Licht erscheinen. Satz 10.21 Zu jeder Untergruppe U der additiven Gruppe ZZ gibt es eine Zahl m ∈ ZZ , m ≥ 0, mit U = m ZZ . Beweis:
Baumeister: Mathematik III / Stand: Januar 1998
236
Sei U eine Untergruppe von ZZ . Ist U = {0}, setze m := 0 . Sei nun U 6= {0} . Dann gibt es eine kleinste positive Zahl m ∈ U . Damit ist offenbar m ZZ ⊂ U . Sei u ∈ U . Mit Division mit Rest folgt u = mq + r , 0 ≤ r < m , q ∈ ZZ . Da mq, u ∈ U gilt, ist auch r ∈ U . Also ist r = 0 nach Wahl von m und wir haben u ∈ m ZZ . Folgerung 10.22 Seien a, b ∈ ZZ . Dann ist H := {ax + by|x, y ∈ ZZ } eine Untergruppe von ZZ , die aus allen Vielfachen von d := a u b besteht, d.h. H = d ZZ . Beweis: Sind ax1 + by1 , ax2 + by2 ∈ H, dann ist auch (ax1 + by1) − (ax2 + by2) = a(x1 − x2) + b(y1 − y2 ) ∈ H . Also ist H eine Untergruppe von ZZ und es gibt nach Satz 10.21 ein m ∈ ZZ , m ≥ 0, mit H = m ZZ . Es gilt nun m|a, m|b und daher m|d := a u b . Andererseits gilt d|ax + by f¨ ur alle x, y ∈ ZZ , also d|h f¨ ur alle h ∈ H , was d|m impliziert. Daher gilt d = m . Es ist klar, daß Linksnebenklasse gleich Rechtsnebenklasse ist, falls die zugrundeliegende Gruppe kommutativ ist. Untergruppen, f¨ ur die dies ohne die Voraussetzung der Kommutativit¨at eintritt, sind Gegenstand der folgenden Definition. Definition 10.23 Sei (G, •) eine Gruppe und H eine Untergruppe von G. H heißt ein Normalteiler 2 von G, falls gH = Hg f¨ur alle g ∈ G gilt. F¨ ur einen Normalteiler H in der Gruppe (G, •) gilt also gHg−1 = H f¨ ur alle g ∈ G . Da ein Element g • h • g −1 als zu h konjugiert bezeichnet wird, kann man Normalteiler als invariant gegen¨ uber Konjugation bezeichnen. Folgerung 10.24 Sei (G, •) eine Gruppe und H eine Untergruppe von G. Es sind ¨aquivalent: (a) H ist Normalteiler von G . (b) G/H := {gH|g ∈ H} ist zusammen mit der Verkn¨upfung ψH : G/H × G/H 3 (gH, g 0 H) 7−→ (g • g 0 )H ∈ G/H eine Gruppe. Beweis:
Baumeister: Mathematik III / Stand: Januar 1998
237
(a) =⇒ (b) Die Wohldefiniertheit der Abbildung ist klar. Einselelement ist eH, Inverses von gH ist g −1 H. (b) =⇒ (a) F¨ ur g ∈ G, h ∈ H gilt: (g • h • g −1 )H = = = = =
ψH ((g • h)H, g −1 H) ψH ((g • e)H, g −1 H) ψH (gH, g −1 H) eH H
Dies zeigt g • h • g −1 ∈ H f¨ ur alle g ∈ G, h ∈ H . Daran liest man die Behauptung ab. Die Gruppe G/H gem¨aß b) aus Folgerung 10.24 heißt Faktorgruppe. Die Ordnung dieser Faktorgruppe ist der Index [G : H] von H in G. Der Anteil H ist damit gleichsam wie ein Teiler aus den Nebenklassen herausdividiert worden. Die Begriffsbildungen “Normalteiler“ und “Faktorgruppe“ finden damit ihre Deutung. Beispiel 10.25 Wir kennen die Dihedralgruppe D3 . Sie ist nicht kommutativ. Ein Normalteiler in D3 ist die Untergruppe C3 := {id, ψ1 , ψ12} . Die Quotientengruppe D3 /C 3 enth¨alt nun noch 2 Elemente, n¨amlich die Nebenklassen eC3 und ϕ3 C3 und die Quotientengruppe D3 /C 3 ist kommutativ, da ihre Ordnung zwei ist. (Jede Gruppe der Ordnung zwei ist kommutativ, wie uns obige Beispiele gelehrt haben.)
2
10.3
Permutationsgruppen
Sei M eine nichtleere Menge. Wir setzen Abb (M) := {f : M −→ M} . In dieser Menge der Selbstabbildungen von M ist eine “Multiplikation“ erkl¨art durch die Komposition von Abbildungen: f • g := f ◦ g , f, g ∈ Abb (M) . Nun ist klar, daß (G := {f ∈ Abb (M)|f bijektiv } , • := ◦) eine (im allgemeinen nicht kommutative) Gruppe darstellt. Das Assoziativgesetz ist klar, das neutrale Element ist die Identit¨at idM , das inverse Element eines Elements f ∈ G ist f −1 . Man hat noch nachzupr¨ ufen, daß mit f, g ∈ G auch f ◦ g ∈ G , f −1 ∈ G gilt.
Baumeister: Mathematik III / Stand: Januar 1998
238
Dazu hat man nur einzusehen, daß f ◦ g , f −1 bijektiv sind, falls f, g bijektiv sind. Wir u ¨berlassen dies dem Leser. Bezeichnung: F¨ ur diese Gruppe G schreiben wir nun S(M) . Definition 10.26 Ist M eine nichtleere Menge, so nennen wir die Gruppe S(M) die symmetrische Gruppe von M. Ist M = {1, . . . , m}, dann nennen wir S(M) Permutationsgruppe und jedes Element in S(M) eine Permutation. In diesem Spezialfall schreiben wir kurz Sm .
2
Die Wortwahl Permutationsgruppe wird verst¨andlich, wenn wir beobachten, daß bei der Menge M = {1, . . . , m} einer Abbildung f in Sm die Umstellung der Elemente in M gem¨aß ! 1 2 ... m f(1) f(2) . . . f(m) entspricht. Die Wortwahl symmetrische Gruppe r¨ uhrt daher, daß die Funktionen der Variablen x1, . . . , xm , die bei allen Permutationen der Variablen invariant bleiben, die symmetrischen Funktionen sind. Beispiel 10.27 Wir betrachten S3 . Die sechs Elemente der Gruppe sind dann 123 τ0 = 123
!
123 τ1 = 132
!
123 τ2 = 213
!
123 τ3 = 231
!
123 τ4 = 312
!
!
123 τ5 = . 321
Klar, τ0 ist die Identit¨at. Die Gruppentafel stellt sich folgendermaßen dar: ◦
id τ1 τ2 τ3 τ4 τ5
id id τ1 τ2 τ3 τ4 τ5 τ1
τ1 id τ3 τ2 τ5 τ4
τ2
τ2 τ4 id τ5 τ1 τ3
τ3
τ3 τ5 τ1 τ4 id τ2
τ4
τ4 τ2 τ5 id τ3 τ1
τ5
τ5 τ3 τ4 τ1 τ2 id
Beispielsweise bedeutet τ4 in Spalte 3, Zeile 4 τ1 ◦ τ2 = τ4
2
und τ2 in Spalte 7, Zeile 5 τ5 ◦ τ3 = τ2 .
Bemerkung 10.28 Einer endlichen Gruppe, d.h. einer Gruppe mit endlich vielen Elementen, kann man durch Blick auf ihre Gruppentafel sofort ansehen, ob sie kommutativ ist. Sie ist n¨amlich kommutativ genau dann, wenn ihre Gruppentafel symmetrisch zur Hauptdiagonalen ist. S3
Baumeister: Mathematik III / Stand: Januar 1998
239
ist also nicht kommutativ. Daraus folgt, daß Sm , m ≥ 3, nicht kommutativ ist (Beweis!).
2
¨ Eine einfache Uberlegung zeigt, daß Sm m! Elemente besitzt. (Es sind zur Realisierung einer Permutation m verschiedene Objekte auf m Pl¨atze zu verteilen; siehe Abschnitt 3.2.) Sei nun stets Sm f¨ ur m ≥ 2 betrachtet, S1 ist ja trivial! Definition 10.29 Sei σ ∈ Sm . Wir setzen a(σ) := #{(i, j) ∈ IN m × IN m |i < j, σ(i) > σ(j)} , (σ) := (−1)a(σ) und nennen σ gerade, falls (σ) = 1 gilt, anderenfalls ungerade. (σ) heißt das Signum von σ und a(σ) die Fehlstandszahl von σ . 2 Beispiel 10.30 Sei 1 2 3 4 5 3 5 1 4 2
σ=
!
.
Dann gilt a(σ) = 6, denn: Wir z¨ahlen A := {(i, j) ∈ IN m × IN m |i < j, σ(i) > σ(j)} ab. i = 1 : (1, 3), (1, 5) ∈ A . i = 2 : (2, 3), (2, 4), (2, 5) ∈ A . i = 3 : Fehlanzeige. i = 4 : (4, 5) ∈ A . Also ist σ eine gerade Permutation.
2
Lemma 10.31 F¨ur jedes σ ∈ Sm gilt (σ) =
Y
σ(j) − σ(i) j−i 1≤i<j≤m
Beweis: Sei n := a(σ) . Es gilt: Y
Y
(σ(j) − σ(i)) =
1≤i<j≤m
1≤i<j≤m,σ(i)<σ(j)
Y
=
Y
|σ(j) − σ(i)|
1≤i<j≤m
= (−1)n
Y
1≤i<j≤m
(j − i)
(σ(j) − σ(i))
1≤i<j≤m,σ(i)>σ(j)
(σ(j) − σ(i)) · (−1)n
1≤i<j≤m,σ(i)<σ(j)
= (−1)n
Y
(σ(j) − σ(i)) ·
Y
1≤i<j≤m,σ(i)>σ(j)
|σ(j) − σ(i)|
Baumeister: Mathematik III / Stand: Januar 1998
240
Bei der letzten Gleichung haben wir die Beobachtung verwendet, daß die beiden Produkte bis auf die Reihenfolge die gleichen Faktoren enthalten, was aus der Bijektivit¨at von σ folgt. Ein τ ∈ Sm heißt Nachbarvertauschung, wenn ∃i ∈ {1, . . . , m} mit τ (i) = i + 1 , τ (i + 1) = i ; τ (j) = j , j 6= i, i + 1, gilt. Ein τ = τkl ∈ Sm , k 6= l , heißt Transposition, wenn gilt: τ (k) = l , τ (l) = k ; τ (j) = j , j 6= k, l , gilt. Nachbarvertauschungen sind also spezielle Transpositionen. Man u ¨ berzeugt sich leicht, −1 daß f¨ ur eine Transposition τ ∈ Sm gilt: τ = τ . Lemma 10.32 Sei σ ∈ Sm und sei τ ∈ Sm eine Nachbarvertauschung. Dann gilt (τ ◦ σ) = −(σ) . Beweis: (τ ◦ σ) = =
Y
τ (σ(j)) − τ (σ(i)) j−i 1≤i<j≤m Y
τ (σ(j)) − τ (σ(i)) · σ(j) − σ(i) 1≤i<j≤m
= (σ)
Y
σ(j) − σ(i) j −i 1≤i<j≤m
Y
τ (σ(j)) − τ (σ(i)) σ(j) − σ(i) 1≤i<j≤m
= −(σ) Bei der letzten Gleichheit haben wir verwendet, daß im Produkt Y
τ (σ(j)) − τ (σ(i)) σ(j) − σ(i) 1≤i<j≤m auf Grund der Tatsache, daß τ eine Transposition ist, alle Faktoren den Wert 1 haben mit einer Ausnahme; dieser Faktor hat den Wert −1. Folgerung 10.33 Sei σ ∈ Sm und sei τ ∈ Sm eine Transposition. Dann gilt (τ ◦ σ) = −(σ) . Beweis: Sei etwa τ = τkl . Setze σ 0 := τ ◦ σ . Betrachte nun Σ : σ(1), . . . , σ(m)
Σ0 : σ 0(1), . . . , σ 0(m)
Hier unterscheiden sich die beiden Anordnungen nur dadurch, daß k und l die Pl¨atze getauscht haben. Sei s die Anzahl der Zahlen, die in Σ zwischen k und l vorkommen.
Baumeister: Mathematik III / Stand: Januar 1998
241
Dann erh¨alt man Σ0 aus Σ durch 2s + 1 sukzessive Vertauschung benachbarter Elemente. Nach Lemma 10.32 gilt dann (σ 0) = (−1)2s+1 (σ) = −(σ) . Satz 10.34 Jedes σ ∈ Sm l¨aßt sich als Hintereinanderausf¨uhrung von h¨ochstens m Transpositionen schreiben, d.h. zu jedem σ ∈ Sm gibt es s ≤ m Transpositionen τ1 , . . . , τs mit σ = τ1 ◦ · · · ◦ τs . Beweis: ur σ = id gilt σ = τ21 ◦ τ12 . Sei σ 6= id . Dann gibt es ein kleinstes i1 mit Sei σ ∈ Sm . F¨ σ(i1) = j1 6= i1 . Setze σ1 := σ ◦ τi1 j1 . Es ist σ1(i) = i f¨ ur 1 ≤ i ≤ i1 . Falls σ1 = id gilt, sind wir fertig. Anderenfalls gibt es ein i2 > i1 mit σ1(i2) = j2 6= i2 . Setze σ2 := σ1 ◦ τi2 j2 . Dann gilt σ2(i) = i f¨ ur 1 ≤ i ≤ i2 . So fortfahrend erreichen wir ein σs , s ≤ m, mit σs = id . Dann ist σ = τis js ◦ · · · ◦ τi1 j1 . Folgerung 10.35 Ist σ ∈ Sm Hintereinanderausf¨uhrung von r Transpositionen, dann gilt (σ) = (−1)r . Beweis: Folgt aus Satz 10.34 durch mehrmaliges Anwenden von (τ ◦ σ) = −(σ) (siehe Folgerung 10.33) f¨ ur jede beteiligte Transposition τ. Wir haben gesehen, daß unabh¨angig von der Art der Darstellung einer Permutation als Produkt von Transpositionen die Anzahl der dabei ben¨otigten Transpositionen bei geraden Permutationen stets gerade und bei ungeraden Permutationen stets ungerade ist. Folgerung 10.36 Sei m ≥ 2 . (a) (σ ◦ σ 0) = (σ)(σ 0) , σ, σ 0 ∈ Sm . (b) (σ −1) = (σ) , σ ∈ Sm . (c) Am := {σ ∈ Sm |(σ) = 1} ist ein Normalteiler in Sm . (d) #Sm = m! , #Am = m!/2 . Beweis: (a) folgt aus Satz 10.34 und Folgerung 10.35, ebenso (b), da f¨ ur jede Transposition τ gilt: τ −1 = τ . Die Aussage #Sm = m! in (d) ist klar (siehe oben), die Ausage #Am = m!/2 folgt aus der Tatsache, daß f¨ ur jede Nachbarvertauschung τ durch Sm 3 σ 7−→ τ ◦ σ ∈ Sm
Baumeister: Mathematik III / Stand: Januar 1998
242
eine bijektive Abbildung definiert ist, bei der die geraden Permutationen auf ungerade und die ungeraden Permutationen auf gerade Permutationen abgebildet werden. (c) folgt aus der Tatsache, daß f¨ ur σ ∈ Sm , τ ∈ Am stets (σ ◦ τ ◦ σ −1 ) = (σ)(τ )(σ −1) = 1 gilt. Definition 10.37 Die Menge Am := {σ ∈ Sm |(σ) = 1} heißt alternierende Gruppe.
2
Beispiel 10.38 Die Permutationsgruppe S4 hat außer sich selbst und der Einheitsgruppe nur die folgenden Normalteiler: • die alternierende Gruppe A4 , • die “Kleinsche Vierergruppe“ V4, bestehend aus den Permutationen !
!
!
1234 1234 1234 1234 , , , 1234 4321 2143 3412
!
2 Erste allgemeine S¨atze u ¨ber Permutationsgruppen wurden von P. Ruffini (1765 – 1822) u ¨ ber S5 im Zusammenhang mit dem Versuch, eine Gleichung 5. Grades durch Radikale (“Wurzelausdr¨ ucke“) zu l¨osen. Er gibt die 120 Elemente explizit an und betrachtet Untergruppen von S5 . Insbesondere studiert er die alternierende Gruppe A5 . Bemerkung 10.39 Anfang der 80er Jahre erregte der ungarische W¨ urfel (Rubik’s cube) Aufsehen in der ¨ Offentlichkeit. Die Z¨ uge, die diesen W¨ urfel in seinen geordneten Grundzustand zur¨ uckf¨ uhren, lassen sich sehr gut als Gruppenoperationen auf der Menge der m¨oglichen Konfigurationen erkl¨aren.2 2
10.4
K¨ orper
Wir wollen nun K¨orper einf¨ uhren. Die Bezeichnung daf¨ ur haben wir in den konkreten F¨allen IK = IR und IK = Q 0 bereits vorweggenommen.
2
¨ Siehe dazu M. Mrowka, J. Weber: Mathematische Uberlegungen zum W¨ urfel, MU 27 (1981).
Baumeister: Mathematik III / Stand: Januar 1998
243
Definition 10.40 Eine Menge IK mit zwei Verkn¨upfungen + : IK × IK 3 (a, b) 7−→ a + b ∈ IK ,
(Addition)
· : IK × IK 3 (a, b) 7−→ a · b ∈ IK
(Multiplikation)
heißt ein K¨ orper, wenn gilt: (A) (IK , +) ist eine abelsche Gruppe mit neutralem Element 0. (M) (IK ∗ := IK \{0}, ·) ist eine abelsche Gruppe mit neutralem Element 1 . (D) F¨ur alle a, b, c ∈ IK gilt: a · (b + c) = a · b + a · c .
2 Die Bedingungen (A), (M) sind uns wohlvertraut. Mit der Tatsache 1 6= 0 ist schon klar, daß ein K¨orper mindestens zwei Elemente besitzt, n¨amlich das Nullelement 0 (neutrales Element bzgl. der Addition) und das Einselement 1 (neutrales Element bzgl. der Multiplikation). Die Bedingung (D) heißt Distributivgesetz. Es erkl¨art, wie sich die beiden Verkn¨ upfungen miteinander “vertragen“. Wir wissen schon, daß 0, 1 durch ihre Eigenschaft, neutrales Element zu sein, eindeutig bestimmt sind. Das Inverse von a bzgl. der Addition schreiben wir mit −a, das Inverse von a ∈ IK ∗ bez¨ uglich der Multiplikation schreiben wir mit a−1 . Dies geschieht in Anlehnung an das Rechnen in Q 0 bzw. IR. Beispiel 10.41 Q, 0 IR sind mit der u ¨blichen Addition und Multiplikation K¨orper. Kein K¨orper ist ZZ , wenn man mit der u ¨blichen Addition und Multiplikation rechnen will. Die (abstrakte) Menge IF 2 := {n, e} ist ein K¨orper, wenn wir die Verkn¨ upfungen durch die folgenden Gruppentafeln erkl¨aren: + n e
·
n
n e
n n n
e
e n
e
n e n e
Damit haben wir auch einen “kleinsten“ K¨orper angegeben. Klar, n steht f¨ ur 0, e steht f¨ ur 1. 2 Die Theorie der K¨orper beginnt im wesentlichen mit E. Galois (1811 – 1832) und N.H. Abel (1802 – 1829) mit der Erweiterung der K¨orper Q, 0 IR um L¨osungen algebraischer Gleichungen (K¨orpererweiterung), allerdings noch in einer Formulierung, der mengentheoretische Sprechweisen nicht zur Verf¨ ugung stehen. R. Dedekind (1831 – 1916) f¨ uhrte 1811 die Begriffe “K¨orper“, “Modul“ ein, 1893 gab dann H. Weber (1842 – 1913) dem Wort “K¨orper“ den gleichen allgemeinen Sinn, den es heute hat. Auf abstrakter Ebene finden wir K¨orper dann auch bei E. Steinitz (1871 – 1928).
Baumeister: Mathematik III / Stand: Januar 1998
244
Folgerung 10.42 Sei IK ein K¨orper und seien a, b ∈ IK . Es gilt: (1) Die Gleichung a + x = b hat die eindeutige L¨osung x = b + (−a) . (2) −(−a) = a , −(a + b) = (−a) + (−b) . (3) Die Gleichung a · x = b hat die eindeutige L¨osung x = a−1 b falls a 6= 0 . (4) (a−1 )−1 = a , falls a 6= 0 . (5) (a · b)−1 = b−1 · a−1 , falls a 6= 0, b 6= 0 . (6) a · 0 = 0 . (7) a · b = 0 ⇐⇒ a = 0 oder b = 0 . (8) (−a) · b = −(a · b) , (−a) · (−b) = a · b . Beweis: (1) und (3) folgen aus Satz 10.9. Zu (2). Aus (−a) + (−(−a)) = 0, (−a) + a = 0 folgt mit (1) die Aussage −(−a) = a . Aus (a + b) + (−(a + b)) = 0 folgt durch Addition von (−a) auf jeder Seite b + (−(a + b)) = −a , d.h. −(a + b) = −a + (−b) . (4), (5) folgen analog (2) . Zu (6). a · 0 = a · (0 + 0) = a · 0 + a · 0, also mit (1) a · 0 = 0 . Zu (7). Offensichtlich folgt mit (6) aus a = 0 oder b = 0 sofort a · b = 0 . Die Umkehrung folgt mit (6) , falls etwa a 6= 0 . Zu (8). 0 = 0 · b = (a + (−a)) · b = a · b + (−a) · b , woraus die erste Aussage folgt. Die zweite Aussage folgt mit −b aus der eben bewiesenen Aussage. Die Aussage (3) in Folgerung 10.42 kann etwas umfassender formuliert werden: Die Gleichung a · x = b hat die eindeutige L¨osung x = a−1 b falls a 6= 0 , sie hat keine L¨osung, falls a = 0 und b 6= 0, und sie hat jedes x ∈ IK als L¨osung, falls a = b = 0 . Man hat dazu nur (6) aus Folgerung 10.42 heranzuziehen. Von Nutzen ist die folgende Schreibweise nx , n ∈ IN 0 , x ∈ IK : Induktiv f¨ ur x ∈ IK : 0x := 0 ; (n + 1)x := x + nx , n ∈ IN 0 . N¨ utzlich ist auch die Potenzschreibweise, die in einem beliebigem K¨orper IK Anwendung finden kann: Induktiv f¨ ur x ∈ IK ∗ = IK \{0} : x0 := 1 ; xn+1 := x · xn , n ∈ IN 0 .
Baumeister: Mathematik III / Stand: Januar 1998
245
Beispiel 10.43 In ZZ m , m ∈ IN \{1} , haben wir schon eine Addition und eine Multiplikation kennengelernt. Es ist nun sofort einzusehen, daß ZZ m ein K¨orper genau dann ist, wenn m eine Primzahl ist. IF 2 ist bis auf die Wahl der Bezeichnung der K¨orper ZZ 2 . Ist nun m = p eine Primzahl, dann beobachten wir in dem zugeh¨origen K¨orper ZZ p , daß n · 1 = 0 f¨ ur n = p ist und keine nat¨ urliche Zahl n < p diese Eigenschaft hat. Man sagt, der K¨orper ZZ p hat die Charakteristik p. (Einem K¨orper, in dem n · 1 = 0 f¨ ur keine nat¨ urliche Zahl gilt, wird die Charakteristik 0 zugeordnet. Also haben Q, 0 IR die Charakteristik 0.) 2 Im K¨orper der reellen und damit auch der rationalen Zahlen haben wir eine Anordnung, indem wir Zahlenpaare auf kleiner (<) oder gr¨oßer (>) u ufen. Dies ist in allgemeinen ¨ berpr¨ K¨orpern nicht m¨oglich. Ein Beispiel lernen wir im n¨achsten Abschnitt kennen.
10.5
Komplexe Zahlen
Die Tatsache, daß in IR eine Anordnung zeigt, daß in IR die Gleichung x2 + 1 = 0
(10.2)
keine L¨osung hat, da x2 nichtnegativ und 1 = 12 positiv ist. Wir erweitern nun die reellen Zahlen zu einem K¨orper der komplexen Zahlen. In diesem K¨orper hat dann die Gleichung (10.2) eine L¨osung. Definiere in IR 2 die folgenden Verkn¨ upfungen: + : IR 2 × IR2 3 ((a, b), (c, d)) 7−→ (a + c, b + d) ∈ IR 2 , · : IR 2 × IR2 3 ((a, b), (c, d)) 7−→ (ac − bd, ad + bc) ∈ IR 2 .
(Addition) (Multiplikation)
Dann sind (IR 2, +) , (IR2 \{(0, 0)}, ·) abelsche Gruppen . Das neutrale Element bzgl. der Addition ist (0, 0), das neutrale Element bzgl. der Multiplikation ist (1, 0) . Das Inverse von (a, b) ∈ IR2 bzgl. der Addition ist (−a, −b), das Inverse von (a, b) 6= (0, 0) bzgl. der Multiplikation ist (a(a2 + b2 )−1 , −b(a2 + b2)−1 ) . Diesen K¨orper wollen wir nun den K¨ orper der komplexen Zahlen nennen. Eine vielleicht eher bekannte Notation der Elemente von C0 ergibt sich aus der Darstellung (a, b) = (1, 0)a + (0, 1)b , (a, b) ∈ IR2 . Wir haben (1, 0) · (1, 0) = (1, 0) und (0, 1) · (0, 1) = (−1, 0) = −(1, 0) .
(10.3)
Baumeister: Mathematik III / Stand: Januar 1998
246
Nun schreiben wir f¨ ur das Einselement (1, 0) kurz 1 und f¨ ur (0, 1) f¨ uhren wir die imagin¨ are Einheit i ein. Dies bedeutet nun, daß wir wegen (10.3) jedes Element (a, b) ∈ C0 so schreiben k¨onnen (a, b) = a + ib , wobei wir nochmal abgek¨ urzt haben: Statt 1a haben wir einfach a geschrieben. Damit schreiben wir nun C0 := {a + ib|a, b ∈ IR} und passen die Verkn¨ upfungen an: + : C0 × C0 3 (a + ib, c + id) 7−→ (a + c) + i(b + d) ∈ C0 , · : C0 × C0 3 (a + ib, c + id) 7−→ (ac − bd) + i(ad + bc) ∈ C0 .
(Addition) (Multiplikation)
Der K¨orper ist nun als Erweiterung des K¨orpers der reellen Zahlen aufzufassen, da wir in j : IR 3 a 7−→ a + i0 = a ∈ C0 eine injektive “Einbettung“ haben. Wir finden die reellen Zahlen also in den komplexen Zahlen wieder als komplexe Zahlen mit verschwindenden Imagin¨arteil. Wir unterscheiden nun nicht zwischen a + i0 ∈ C0 und a ∈ IR und schreiben f¨ ur a + ib manchmal auch a + bi . Beachte auch, daß in dieser Schreibweise nun aus a + ib = 0 stets a = b = 0 folgt. Definition 10.44 Sei z = a + ib eine komplexe Zahl. a heißt Realteil und b heißt Imagin¨ arteil von z ; wir schreiben a =
2
F¨ ur die Division machen wir Gebrauch von komplexer Konjugation und vom Betrag. Definition 10.45 Sei z = a + ib eine komplexe √ Zahl. Die zu z konjugierte Zahl ist z := a − ib, der Betrag von z ist |z| := a2 + b2 . 2 Mit der Betragsfunktion k¨onnen wir Br (z) := {z 0 ∈ C0 ||z 0 − z| ≤ r} , Br := Br (0) . definieren. Offenbar gilt f¨ ur jede komplexe Zahl z die Identit¨at |z|2 = zz. Ein Quotient z1z2−1 , z2 6= 0, l¨aßt sich dann wegen z1 z 2 z1 z 2 z1z2−1 = = z2 z 2 |z2 |2
Baumeister: Mathematik III / Stand: Januar 1998
247
in ein Produkt komplexer Zahlen mit anschließender Division durch eine reelle Zahl u uhren, z.B. ¨ berf¨ 1 1−i 1−i 1 1 = = = + i 1+i (1 + i)(1 − i) 2 2 2 Da wir nun mit der Betragsfunktion eine Abstandsfunktion auf C0 haben, k¨onnen wir ohne M¨ uhe auch die Konvergenz einer Folge komplexen Zahlen erkl¨aren. Definition 10.46 Sei (zn )n∈IN eine Folge komplexer Zahlen. Wir sagen, daß (zn )n∈IN gegen z ∈ C0 konvergiert, wenn ∀ ε > 0 ∃ N ∈ IN ∀ n ≥ N (|zn − z| < ε) gilt. z heißt dann Grenzwert und wir schreiben z = lim zn . n∈IN
2
Es ist leicht einzusehen, daß eine Folge komplexer Zahlen (zn )n∈IN genau dann konvergiert, wenn die Folgen ( 0 mit z = r(cos φ + i sin φ) . Die Bezeichnung “komplexe Zahl“ hat C.F. Gauß (1777 – 1855) eingef¨ uhrt. Er hat mit seinen Untersuchungen das Geheimnis, das die komplexen Zahlen immer noch umgeben hatte, beseitigt. Das Symbol “ i “ stammt von L. Euler (1707 – 1783), er hat in der Formel eiπ + 1 = 0 die fundamentalen Konstanten der Arithmetik (0,1), der Geometrie (π), der Analysis (e) und der komplexen Zahlen (i) auf einfache Weise zusammmengefaßt. Merkw¨ urdig ist, daß die erste Einf¨ uhrung der komplexen Zahlen in der Theorie der kubischen Gleichungen bei H. Cardano (1501 – 1576) geschah – er nannte sie “fiktiv“ – und nicht bei der Betrachtung einer quadratischen Gleichung, wie wir sie ins Spiel gebracht haben. Die trigonometrische Schreibweise geht auf J. Argand (1768 – 1822) zur¨ uck.
Baumeister: Mathematik III / Stand: Januar 1998
248
Beispiel 10.47 Wie berechnet man eine Wurzel aus einer komplexen Zahl? Sei z = a + ib ∈ C0 . Mit der trigonometrischen Darstellung von z als z = reiφ (r = |z|) gelingt die Berechnung von w mit w2 = z ganz einfach: w=
√ iφ √ φ φ re 2 = r(cos( ) + i sin( )) . 2 2
√ φ Beachte,daß auch w0 = rei( 2 +π) eine solche Zahl ist. Auf der geschlitzten negativen Ebene kann man diese Zweideutigkeit in folgendem Sinne vermeiden: Man bezeichnet die Funktion √ φ C0 − 3 z = reiφ 7−→ rei 2 ∈ C0
2
den Hauptzweig der Wurzelfunktion. Beachte, daß f¨ ur jede Operation +, −, ·, ÷,
√
in den komplexen Zahlen es jeweils eine Konstruktion mit Zirkel und Lineal gibt. ¨ Der Ausgangspunkt unserer Uberlegung war die L¨osbarkeit der Gleichung (10.2). Diese hat nun in der Tat in C0 eine L¨osung, n¨amlich das Element i und das Element −i . Die L¨osbarkeit dieser Gleichung haben wir durch “K¨orpererweiterung“ erreicht. Damit haben wir das Problem der K¨orpererweiterung gestreift, das in der Theorie von Galois seine auch ¨asthetisch befriedigende Aufkl¨arung findet. Beispiel 10.48 Das Prinzip der K¨orpererweiterung wird auch deutlich, wenn wir etwa die Gleichung x2 = 2 im K¨orper IK := Q 0 l¨osen wollen. Wir wissen, daß keine rationale Zahl √ diese Gleichung l¨ost. Also gehen wir wie oben vor: Wir adjungieren zu Q 0 ein Symbol 2 gem¨aß √ √ Q[ 0 2] := {a + b 2|a, b ∈ Q} 0 und definieren Addition und Multiplikation durch √ √ √ √ + :Q 0 ×Q 0 3 (a + b 2, c + 2d) 7−→ (a + c) + (b + d) 2 ∈ Q[ 0 2] , √ √ √ √ · :Q 0 ×Q 0 3 (a + b 2, c + d 2) 7−→ (ac + 2bd) + (ad + bc) 2 ∈ Q[ 0 2] . √ √ √ Dann ist Q[ 0 2] ein K¨orper mit Nullelement 0 + 0 2 und Einselement 1 + 0 2, in den Q 0 verm¨oge √ √ Q 0 3 a 7−→ a + 0 2 ∈ Q[ 0 2] √ eingebettet ist. Die obige Gleichung ist l¨osbar mit x = 0 + 1 2 . Nun ist offenbar (Beweis!) die Gleichung x2 = 3
Baumeister: Mathematik III / Stand: Januar 1998
249
√ √ √ √ in Q[ 0 2] nicht l¨osbar. Wir adjungieren ein Symbol 3 und erhalten (Q[ 0 2])[ 3]. Das “Spiel“ ist nun wohl durchschaut. Bei der Untersuchung der Konstruierbarkeit mit Zirkel und Lineal im Abschnitt 11.5 gehen wir n¨aher darauf ein. 2 Von C.F. Gauß (1777 – 1855) wurde intensiv das komplexe Zahlengitter ZZ [i] := {a + ib|a, b ∈ ZZ } untersucht, das hier als Teilmenge der K¨orpererweiterung Q[i] 0 von 2 Q 0 mit dem Ziel der L¨osbarkeit von x + 1 = 0 in Q 0 sicherzustellen, daherkommt. ZZ [i] hat viele interessante Eigenschaften, die ein intensives Studium von allgemeiner Arithmetik angestoßen haben, etwa: Wie ist die Darstellung der Primzahl 5 ∈ IN durch 5 = (1 + 2i)(1 − 2i) ∈ ZZ [i] einzuordnen? In der Algebra werden Antworten gegeben. Die Aussage, daß jedes nicht konstante Polynom mit Koeffizienten in C0 eine Nullstelle besitzt, wird der Fundamentalsatz der Algebra genannt. Alle bekannten Beweise dieses Satzes – C.F. Gauß publizierte 1799 den ersten strengen Beweis, sp¨ater gab er einige weitere Beweise daf¨ ur – ben¨ utzen offen oder versteckt auch das Konzept Stetigkeit“ aus ” der Analysis. Wir geben einen Beweis, der nur wenige u ¨ber die Analysis der reellen Zahlen hinausgehende Fakten verwendet. Lemma 10.49 Ist p ein nichtkonstantes Polynom und ist |p(z0)| 6= 0, dann gibt es zu jedem r > 0 ein z1 ∈ Br (z0) mit |p(z1)| < |p(z0 )|. Beweis: Sei p(z) = an z n + an−1z n−1 + · · · + a1z + a0, z ∈ C0 , und r > 0. Dann haben wir mit w ∈ C0 p(z0 + w) = p(z0 ) + As ws + · · · + Anwn , wobei As , . . . , An ∈ C0 und 1 ≤ s gilt. Diese Aussage folgt sofort durch Betrachtung der Differenz p(z0 + w) − p(z0 ) und Aufsammlung der Potenzen von w . Da p nicht konstant ist, ist nach Wahl von s sicher A 6= 0 . Wir wollen nun w ∈ C0 so w¨ahlen, daß z0 + w ∈ Br (z0 ) und |p(z0 + w)| < |p(z0 )| gilt. Mit einem solchen w setzen wir dann z1 := z0 + w und wir sind fertig. Sei p(z0 ) = r0 eiφ0 und seien Aj = ri eiφj , s ≤ j ≤ n . Wir setzen φ := π −s φ0 und setzen w damit als w := reiφ an; es bleibt noch r geeignet zu w¨ahlen. Wir haben nun p(z0 + w) = r0eiφ0 − Ars eiφ0 = (r0 − Ars )eiφ0 + rs+1 g(r) mit einem Polynom g . Da die stetigen Funktionen r 7−→ As rs und r 7−→ rg(r) im Nullpunkt verschwinden und da r0 > 0 und As > 0 gilt, gibt es δ > 0 mit |As rs | ≤ r0 und |rg(r)| < rs f¨ ur |r| ≤ δ . F¨ ur jedes r mit 0 ≤ r ≤ δ ist nun |p(z + w)| ≤ = = <
|r0 − As rs | + rs |rg(r)| r0 − As rs + rs |rg(r)| r0 − rs (As − |rg(r)|) r0 = |p(z)| .
Baumeister: Mathematik III / Stand: Januar 1998
250
Bemerkung 10.50 Das obige Lemma 10.49, das auf J.-B d’Alembert (1717 - 1783) zur¨ uckgeht, ist wesentlich f¨ ur den folgenden Beweis des Fundamentalsatzes. Eine entsprechende Aussage ist im Reellen falsch, wie man sofort an dem Polynom p(x) := x2 + 1 sieht. Daß sie im Komplexen gilt, h¨angt wesentlich an der Tatsache, daß die Abbildung IK 3 z 7−→ z s ∈ IK f¨ ur IK = C0 stets surjektiv ist, daß dies f¨ ur IK = IR aber bei geradem s sicher nicht zutrifft. 2 Im folgenden Beweis des Fundamentalsatzes ben¨otigen wir das Konzept der stetigen Abbildung f : C0 → IR . Wir bauen es im Beweis ein, es birgt im Vergleich zur Analysis in ¨ IR keine Uberraschungen. Satz 10.51 Sei p ein nicht konstantes Polynom mit Koeffizienten in C0 . Dann gibt es ein z0 ∈ C0 mit p(z0) = 0. Beweis: Sei p(z) = anz n + an−1 z n−1 + · · · + a1z + a0 . W¨ahle R > 0 so, daß f : C0 \BR 3 z 7−→ |p(z)| ∈ IR monoton wachsend mit |z| ist, d.h. R ≤ |z| ≤ |z1| =⇒ f(z) ≤ f(z1 ) . Dies ist m¨oglich, da der Term z 7−→ |anz n| den Term z −→ |an−1 z n−1 + · · · + a1z + a0| f¨ ur |z| gen¨ ugend groß u ¨berwiegt. Da die Abbildung q : BR 3 z 7−→ |p(z)| ∈ IR stetig ist — dies bedeutet: lim zn = z¯ =⇒ lim q(zn) = q(¯ z) f¨ ur alle z¯ ∈ BR — gibt es n n z0 ∈ BR mit q(z0) = min q(z) . z∈BR
Ist q(z0) = |p(z0 )| = 0, d.h. p(z0 ) = 0, sind wir fertig. Zur Aussage q(z0) = |p(z0)| 6= 0 erhalten wir mit Lemma 10.49 einen Widerspruch wie folgt: Es gibt z1 ∈ C0 mit |p(z1 )| < |p(z0 )|. Ist dieses z1 in BR , so haben wir einen Widerspruch zur Wahl von z0, ist dieses z1 nicht in BR, so haben wir einen Widerspruch zur Monotonie von q in C0 \BR .
Baumeister: Mathematik III / Stand: Januar 1998
251
Folgerung 10.52 Jedes Polynom n–ten Grades p, p(z) = a0 +· · · +an z n, z ∈ C0 , n ≥ 1, mit Koeffizienten in C0 besitzt in C0 genau n Nullstellen und das Polynom zerf¨allt in Linearfaktoren, d.h. p(z) = an (z − z1 ) · · · · · (z − zn) , z ∈ C0 . (10.4) Beweis: Nach Satz 10.51 besitzt p eine Nullstelle z1 . Mit Division mit Rest spalten wir den Linearfaktor z 7−→ z − z1 ab und erhalten ein Polynom n − 1–ten Grades. So fortfahrend erhalten wir das Ergebnis. Die Theorie der komplexen Funktionentheorie (Funktionentheorie), also der Funktionen f : C0 −→ C0 l¨aßt sich prinzipiell wie die der reellen Funktionen anpacken. Allerdings k¨onnen gewisse komplexe Funktionen sehr u ¨ berraschende Eigenschaften haben. Es sind dies die sogenannten holomorphen Funktionen. Dabei heißt eine Funktion f : C0 −→ C0 holomorph, wenn sie u ur jedes z0 ∈ C0 die Aussage ¨berall differenzierbar ist, d.h. wenn f¨ lim z→z
0
f(z) − f(z0 ) z − z0
existiert
gilt. Die u ¨berraschende Eigenschaft von holomorphen Funktionen ist, daß sie unendlich oft differenzierbar sind. Beispiele solcher Funktionen sind die Polynome (nat¨ urlich!), die Exponentialfunktion, alle als Potenzreihen definierte Funktionen. Nicht holomorph ist etwa C0 3 z 7−→ z ∈ C0 , denn wir haben (h + 0i) − 0 (0 + ih) − 0 = 1 , lim = −1 . h→0 (h + 0i) − 0 h→0 (0 + ih) − 0 lim
Die Konstruktion regelm¨aßiger n−Ecke ist ¨aquivalent mit der Konstruktion des Punktes z = cos
2π 2π + i sin , n n
wenn wir IR2 mit C0 identifizieren, da dann zusammen mit z = 1 das regelm¨aßige n– Eck berechnet (konstruiert) werden kann. Dieser Punkt kann auch angesehen werden eine L¨osung der Gleichung z n = 1. Da z n − 1 = (z − 1)(z n−1 + z n−2 + · · · + z + 1) ist und uns die L¨osung z = 1 nicht interessiert, suchen wir konstruktiv eine L¨osung von z n−1 + z n−2 + · · · + z + 1 = 0.
(10.5)
Umgekehrt, f¨ uhrt eine L¨osung z von (10.5) auch stets zu einem regul¨aren n−Eck? Dies ist im allgemeinen nicht der Fall, denn etwa bei z7 + z6 + · · · + z + 1 = 0 ergibt die L¨osung z = i ein regul¨ares 4−Eck (mit den Ecken i, i2, i3, i4 ), aber kein regelm¨aßiges 8−Eck, was aber nicht schwerwiegend ist, da daraus das regelm¨aßige 8–Eck
Baumeister: Mathematik III / Stand: Januar 1998
252
konstruierbar ist. Etwas allgemeiner: Ist n = md, so kann eine L¨osung z von (10.5) nicht nur z n = 1 sondern auch z d = 1 erf¨ ullen. Um also ein n−Eck zu erhalten, ben¨otigen wir eine primitive Wurzel der Gleichung z n − 1 = 0, d.h. gesucht ist ein zn ∈ C0 mit znn = 1, znd 6= 1 f¨ ur 1 ≤ d < n. Ein solches zn heißt primitive n−te Einheitswurzel. Liegt eine primitive Einheitswurzel vor, so sind zn , zn2 , . . . , znn−1 , 1 alle verschieden und wir k¨onnen sie als Ecken eines regelm¨aßigen n−Eckes verwenden. Ist n eine Primzahl, dann ist jede Wurzel von (10.5) eine primitive n−te Einheitswurzel.
10.6
Nullstellen von Polynomen
Wir betrachten nun das Problem der Aufl¨osbarkeit von polynomialen Gleichungen mit Koeffizienten in einem K¨orper IK ∈ {Q, 0 IR, C0 }. Aus den L¨osungsformeln kann man dann ablesen, wann diese Aufl¨osbarkeit in Q 0 bzw. IR bzw. C0 gelingt. Eine Gleichung der Form x−c=0
(10.6)
heißt eine lineare Gleichung. Der einzige L¨osungskandidat ist x = c . Gegeben sei die quadratische Gleichung ax2 + bx + c = 0
(10.7)
f¨ ur a 6= 0. Sie wird vereinfacht durch auf G. Cardano (1501 – 1576) zur¨ uckgehende Subb stitution y = x + 2a , denn f¨ ur y ergibt sich die Gleichung y2 =
b2 − 4ac , 4a2
(10.8)
deren L¨osung unmittelbar klar ist: y=±
1√ 2 b − 4ac . 2a
Die L¨osungen von (10.7) werden damit mit x=−
b 1√ 2 ± b − 4ac 2a 2a
angegeben. Die Gleichung 10.8 steht auch f¨ ur das Ergebnis, das man durch quadratische Erg¨anzung (x + erh¨alt.
b 2 b b2 c b2 ) = x2 + x + 2 = − + 2 2a a 4a a 4a
Baumeister: Mathematik III / Stand: Januar 1998
253
¨ Uber Q 0 liegt also L¨osbarkeit vor, wenn b2 − 4ac ein Quadrat (einer rationalen Zahl) ist. ¨ Uber IR liegt L¨osbarkeit vor, wenn b2 − 4ac ≥ 0 ist. Die L¨osbarkeit u ¨ ber C0 liegt universell vor. Insbesondere hat die Gleichung x2 + 1 = 0 die L¨osungen (Wurzeln) x = ±i. Bemerkung 10.53 Aus den obigen Formeln lesen wir ab, daß das Produkt der L¨osungen der quadratischen Gleichung (10.7) f¨ ur a = 1 gleich dem Koeffizienten c ist. Diese Tatsache bezeichnet man als Vietaschen Wurzelsatz (F. Vi´ete ( 1540 – 1603)). 2 Es gibt f¨ ur die L¨osung quadratischer Gleichungen auch geometrische Beweise. Dazu sagt dann G. Cardano im Zusammenhang mit der Gleichung x2 + b = ax “ Wenn die Subtraktion der Zahl b vom Quadrat der H¨alfte der Zahl a2 der res (gemeint ist das Ziehen der Wurzel) nicht ausgef¨ uhrt werden kann, dann ist die Aufgabe selbst falsch, und das, was gefunden werden soll, kann nicht existieren“. An komplexe Zahlen denkt er hier also nicht. Wir wissen aus der Analysis (siehe Satz ??), daß jede kubische Gleichung mit Koeffizienten in IR eine L¨osung in IR besitzt (Nullstellensatz). Betrachte die kubische Gleichung ax3 + bx2 + cx + d = 0
(10.9)
b , denn f¨ f¨ ur a 6= 0. Sie wird vereinfacht durch die Substitution y = x + 3a ur y ergibt sich die Gleichung y 3 = py + q, wobei p, q gewisse rationale Ausdr¨ ucke in a, b, c, d sind. Diese Gleichung ist immer noch nicht einfach, aber folgende Substitution y = u + v hilft weiter, denn es entsteht 3uv(u + v) + u3 + v 3 = p(u + v) + q. Wir spalten auf in 3uv = p , u3 + v 3 = q, p , und l¨osen setzen v := 3u u3 + ( d.h.
p 3 ) = q, 3u
p (u3)2 − qu3 + ( )3 = 0. 3
Baumeister: Mathematik III / Stand: Januar 1998
254
Dies ist eine quadratische Gleichung in u3 und wir haben q ± 2
u3 =
r
q p ( )2 − ( )3 . 2 3
Die Symmetrie der Formeln in u und v hat zur Folge, daß sich f¨ ur v nichts wesentlich Neues ergibt. Wir erhalten u3 =
q + 2
und daher
r
s
y =u+v =
3
q p q ( )2 − ( )3 , v 3 = − 2 3 2 r
q p ( )2 − ( )3 + 2 3
q + 2
r
q p ( )2 − ( )3 , 2 3
s 3
q ( − 2
r
q p ( )2 − ( )3 . 2 3
b . Durch F¨ ur die urspr¨ ungliche Gleichung (10.9) erhalten wir damit eine L¨osung x = y − 3a Division mit Rest reduzieren wir dann die Gleichung 3. Grades auf eine Gleichung 2. Grades und behandeln diese nach dem schon vorgestellten Verfahren f¨ ur Gleichungen 2. Grades weiter. Die Idee mit den Hilfsgr¨oßen u, v hatte wohl N. Tartaglia (1500? – 1557). Er teilte die L¨osung einer kubischen Gleichung Cardano in Form eines Sonetts mit. Die wesentliche Zeile lautete: “Trovan dui altri“ (Finde zwei andere Gr¨oßen). Diese Idee l¨aßt sich geometrisch aus einer Zerlegung eines Einheitsw¨ urfels ableiten. Beispiel 10.54 Betrachte die Gleichung x3 − 7x − 6 = 0 . Sie hat die L¨osungen x1 = 1, x2 = 2, x3 = 3 . Die obige Vorgehensweise liefert die L¨osung x∗ =
v u u 3 t
s
100 3+i + 27
v u u 3 t
s
3−i
100 . 27
Man stellt fest, daß es sich dabei um die L¨osung x3 handelt. Betrachte die Gleichung x3 + 3x − 4 = 0 . Sie hat die L¨osung x1 = 1 . Die obige Vorgehensweise liefert die L¨osung ∗
q
x =
3
q √ √ 3 2 +i 5+ 2 −i 5.
Man stellt fest, daß es sich dabei um die L¨osung x1 handelt.
2
Betrachte die quartische Gleichung ax4 + bx3 + cx2 + dx + e = 0 b zu f¨ ur a 6= 0. Diese Gleichung wird vereinfacht durch die Substitution y = x + 4a y 4 + py 2 + qy + r = 0,
(10.10)
Baumeister: Mathematik III / Stand: Januar 1998
255
wobei p, q, r gewisse rationale Ausdr¨ ucke in a, b, c, d, e sind. Wir schreiben sie um zu (y 2 + p)2 = py 2 − qy + p2 − r – dieser Reduktionsschritt geht wohl auf R. Descartes (1596 – 1650) zur¨ uck – und (y 2 + p + u)2 = (py 2 − qy + p2 − r) + 2u(y 2 + p) + u2 f¨ ur beliebiges u ∈ IK . W¨ahle nun u so, daß py 2 − qy + p2 − r + 2u(y 2 + p) + u2 ein Quadrat wird. Dies bedeutet, daß B 2 − 4AC = 0 wird f¨ ur A := p + 2u, B := −q, C := p2 − r + 2up + u2 . Dies ist eine kubische Gleichung f¨ ur u, die nach dem obigen Verfahren behandelt werden kann. Nach Wahl von u ziehen wir nun die Wurzel und l¨osen die resultierende quadratib ergibt L¨osungen f¨ sche Gleichung f¨ ur y. Einsetzen in die Substitution x = y − 4a ur die Gleichung (10.10). Eine gemeinsame Beobachtung bei den obigen Vorgehensweisen ist, daß die L¨osungen, wenn sie denn existieren – dies ist eine Frage nach dem gew¨ahlten K¨orper – Ausdr¨ ucke in den Koeffizienten der Gleichungen sind, die nur die Operationen √ +, −, ·, ÷, m mit m ≤ 2 (quadratische Gleichung) bzw. m ≤ 3 (kubische Gleichung) bzw. m ≤ 4 (quartische Gleichung) verwenden. Allgemein sagt man, daß eine polynominale Gleichung an xn + an−1 xn−1 + · · · + a1 x + a0 = 0 l¨osbar durch Radikale ist, wenn eine L¨osung als rationaler Ausdruck in den Koeffizienten a0, . . . , an existiert, der nur die Operationen √ +, −, ·, ÷, m , m ≤ n, verwendet. Nach der L¨osung der kubischen (del Ferro (um 1500 ), Tartaglia (1530)) und quartischen (Ferrari (um 1540)) Gleichungen durch Radikale (siehe oben) – Cardano hat die Ergebnisse gesammelt – , ließen viele erfolglose Versuche, die quintische Gleichung (m = 5) durch Radikale zu l¨osen, die Vermutung keimen, daß dies prinzipiell unm¨oglich sein k¨onnte. Vi`ete (1591) best¨arkte dies durch die Entdeckung, daß die Frage der L¨osbarkeit der quintischen Gleichung durch Radikale ¨aquivalent zur Winkeldreiteilung ist. Der Beweis, daß die Vermutung zutrifft, gelang Abel (1826) und Galois (1831) im Rahmen einer grandiosen Theorie u ¨ber K¨orpererweiterungen (Galoistheorie). Der Kern dieser Theorie ist, daß es gelingt, die Frage der Berechenbarkeit durch algebraische Konzepte zu erfassen, ohne Berechnungen wirklich durchf¨ uhren zu m¨ ussen. Diese Konzepte k¨onnen als der Beginn der modernen Algebra angesehen werden. Sie vollenden“ die von R. Descartes begonnene ” Algebraisierung geometrischer Fragen.
Baumeister: Mathematik III / Stand: Januar 1998
10.7
256
Konstruierbarkeit mit Zirkel und Lineal
In Abschnitt 9.2 haben wir festgelegt, was eine Konstruktion mit Zirkel und Lineal ist. Definition 10.55 Ein Punkt P ∈ IE 2 heißt ZL–konstruierbar, wenn er mit endlich vielen Zirkel– Lineal Konstruktionen, ausgehend von O, E konstruierbar ist. 2 Definition 10.56 Eine Zahl r ∈ IR heißt ZL–konstruierbar, wenn es ZL–konstruierbare Punkte P, Q ∈ IE 2 gibt mit |r| = d(P, Q) . Wir setzen Q 0 a := {r ∈ IR |r ZL–konstruierbar} und nennen Q 0 a den algebraischen Abschluß von Q 0 . 2 ¨ Die Uberlegungen aus Abschnitt 9.2 zeigen, daß √ Q 0 ⊂Q 0 a , { q|q ∈ Q, 0 q ≥ 0} ⊂ Q 0a gilt. Lemma 10.57 F¨ur P ∈ IE 2 mit Koordinaten (xP , yP ) ∈ IR 2 sind ¨aquivalent: (a) P ist ZL–konstruierbar. 0a . (b) xP , yP ∈ Q Beweis: (a) =⇒ (b) Klar, mit P ist auch P 0 mit den Koordinaten (xP , 0) ZL–konstruierbar. Also ist xP ∈ Q 0a wegen |xP | = d(P 0 , O) . Analog f¨ ur yP . (b) =⇒ (a) Sei etwa |xP | = d(P 0 , Q0) mit ZL–konstruierbaren Punkten P 0 , Q0 . O.E. xP ≥ 0. Der Schnittpunkt A der Geraden g1 durch P 0 Q0 und der Geraden g2 durch O und E ist ZL– konstruierbar. Dann sind auch B und C als Schnittpunkte des Kreises mit Mittelpunkt A und Radius AP 0 bzw. AQ0 ZL–konstruierbar. Daraus folgt, daß ein Punkt C 0 mit den Koordinaten (d(P 0 , Q0), 0) = (xP , 0) ZL–konstruierbar ist. Analog ist ein Punkt (0, yP ) ZL–konstruierbar. Dann ist aber offenbar auch P ZL–konstruierbar.
Baumeister: Mathematik III / Stand: Januar 1998
257
Satz 10.58 Q 0 a ist zusammen mit den Verkn¨upfungen “+“ und “·“ ein K¨orper mit 0 6= Q 0 a. i) Q 0 ⊂Q 0 a ⊂ IR, Q √ ii) q ∈ Q 0 a, q ≥ 0 =⇒ q ∈ Q 0a. Beweis: ¨ Daß Q 0 ein K¨orper ist, zeigen die Uberlegungen aus Abschnitt 9.2 in Verbindung mit a Lemma 10.57. Die Eigenschaften Q 0 ⊂Q 0 und Q 0 6= Q 0 a sind trivial. Die Eigenschaft ii) folgt ebenfalls aus Abschnitt 9.2. F¨ ur die Aussage Q 0 a 6= IR m¨ ussen wir noch einiges bereitstellen. Beispiel 10.59 Sei IK ein Unterk¨orper von IR mit Q 0 ⊂ IK . (Ein Unterk¨ orper IK 0 eines K¨orpers IK ist eine Teilmenge von IK , die zusammen mit den Verkn¨ upfungen, die die K¨orperstruktur in IK definieren, selbst ein K¨orper ist. Unterk¨orper von IR ist Q, 0 Unterk¨orper von C0 ist IR .) Sei a ∈ IK , a > 0. Dann bildet √ √ IK ( a) := {x + y a|x, y ∈ IK } √ √ einen Unterk¨orper (siehe unten) von IR mit IK ⊂ IK ( a) ⊂ IR . Nullelement ist 0+0· a, √ Einselelement ist 1 + 0 a. √ √ √ √ √ x + y 0 0 √a zu IK ( a) Wir rechnen etwa nach, daß mit x + y a, x + y a ∈ IK ( a) auch 0 0 x +y a √ 0 0 geh¨ort, falls x + y a = 6 0 ist. √ √ √ Ist x0 − y 0 a 6= 0, erh¨alt man x02 − ay 02 = (x0 + y 0 a)(x0 − y 0 a) 6= 0 und √ √ √ x+y a (x + y a)(x0 − y 0 a) √ = x0 + y 0 a x02 − ay 02 xx0 − yy 0a −xy 0 + x0 y √ = + 02 a x02 − ay 02 x − ay 02 √ Ist x0 − y 0 a = 0, erh¨alt man x0 6= 0 und √ x+y a x y √ √ = 0+ 0 a 0 0 2x 2x x +y a Man beachte, daß die Nennerbildung in beiden F¨allen m¨oglich ist.
2
Baumeister: Mathematik III / Stand: Januar 1998
258
Ein Beispiel f¨ ur eine Zahl in Q 0 a ist etwa vv uu √ uu ut 1 + 3 8 t √
7+1
+1+
√
11
Nicht zu Q 0 a geh¨ort √
2 2 = · π 2
q
2+ 2
√
r
2
·
q
2+
2+ 2
√
2
··· ,
da π nicht zu Q 0 a geh¨ort; siehe unten. Die obige Identit¨at wurde von Vi`ete 1593 vorgestellt. Sie entsteht aus der Gleichung sin(φ) φ φ φ = cos( ) · cos( ) · cos( ) · · · φ 2 4 8 φ unter Beachtung von 2 cos( 2 )2 = 1 + cos(φ), wenn man φ = π2 einsetzt. Der Kehrwert von π2 hat nach J. Wallis (1616 – 1703) auch eine Darstellung, die auf die Nichtzugeh¨origkeit zu Q 0 a verweist, da unendlich viele rationale Operationen n¨otig sind: π 2 2 4 4 6 6 8 8 10 = · · · · · · · · ··· 2 1 3 3 5 5 7 7 9 9
Satz 10.60 Besitzt die Gleichung dritten Grades x3 + ax2 + bx + c = 0 mit Koeffizienten a, b, c ∈ Q 0 keine L¨osung in Q, 0 so besitzt sie auch keine L¨osung in Q 0 a. Beweis: Annahme: Die Gleichung besitze eine L¨osung x0 in Q 0 a. Dann finden wir, da x0 durch endlich viele Zirkel–Lineal–Konstruktionen konstruiert werden kann, eine Kette von K¨orpern √ K0 = Q, 0 . . . , IK i+1 = IK i ( ai ), . . . , IK N mit ai ∈ IK i , 1 ≤ i ≤ N − 1, x0 ∈ IK N .
√ Also x0 = µ + λ aN −1 , µ, λ, α := aN −1 ∈ IK N −1 . Wir betrachten dazu die minimale Kette, also N so klein wie m¨oglich. Damit gilt: √ √ √ 0 = (µ + λ α)3 + a(µ + λ α)2 + b(µ + λ α) + c √ = µ3 + 3µλ2 α + aµ2 + aλ2 α + bµ + c + (3µ2 λ + λ3 α + 2αµλ + bλ) α
Baumeister: Mathematik III / Stand: Januar 1998
259
√ W¨are nun 3µ3 2λ + λ3 α + 2αµλ + bλ 6= 0, so k¨onnten wir α durch Elemente in IK N −1 ausdr¨ ucken und es w¨ urde x0 ∈ IK N −1 folgen. Dies widerspr¨ache der minimalen Wahl von N. Also bleibt nur noch die M¨oglichkeit 3µ2 λ + λ3 α + 2αµλ + bλ = 0, d.h. auch µ3 + 3µλ2 α + aµ2 + aλ2 α + bµ + c = 0 . In beiden √ Gleichungen kann man λ durch −λ ersetzen und wir erhalten, daß auch x1 = µ − λ α eine L¨osung der Gleichung x3 + ax2 + bx + c = 0 ist. Also k¨onnen wir das Produkt √ √ (µ + λ α)(µ − λ α) durch Division mit Rest abspalten und erhalten ein lineares Polynom x − γ . Durch Koeffizientenvergleich erh¨alt man α = γ − 2µ , γ = α + 2µ ∈ IK N −1 . Also ist die Nullstelle γ in IK N −1 und wir haben gezeigt, daß unter der Annahme, daß die Gleichung x3 + ax2 + bx + c = 0 eine L¨osung in IK N hat, sie auch eine in IK N −1 hat. Also muß die Gleichung wegen der Minimalit¨at von N eine Nullstelle in IK 0 = Q 0 haben. Aus dem obigen Satz folgt die Unl¨osbarkeit des Delischen Problems mit Zirkel und Lineal so: Die Gleichung x3 − 2 = 0 hat in C0 die drei L¨osungen √ √ 2π 2π √ 4π 4π 3 3 3 3, 3(cos( ) + i sin ), 3(cos( ) + i sin( )). 3 3 3 3 √ Keine davon liegt in Q, 0 also liegt auch keine davon in Q 0 a , d.h. 3 3 ∈ /Q 0 a. Auch die Unm¨oglichkeit der Winkeldreiteilung mit Zirkel und Lineal folgt daraus. Wir k¨onnen etwa speziell fragen, ob der Winkel π3 gedrittel werden kann. Dazu haben wir dann zun zeigen, daß die Gleichung 4x3 − 3x − 12 = 0 keine L¨osung in Q 0 besitzt. p Annahme: x = q sei eine L¨osung der Gleichung. O. E. sind p, q teilerfremd. Es folgt p3 3p 1 4 3+ − = 0 , (8p3 − 6q 2)p = q 3 . q 2 q Dies bedeutet, daß q 3 durch p teilbar ist, also muß irgendein Primteiler von p auch in q enthalten sein, im Widerspruch zur Teilerfremdheit von p, q. Die Gleichung 4x3 − 3x − 12 = 0 hat also keine L¨osung in Q, 0 also auch keine in Q 0 a.
Baumeister: Mathematik III / Stand: Januar 1998
260
Ohne Beweis sei noch angemerkt, daß die Konstruktion eines regelm¨aßigen n−Ecks mit Zirkel und Lineal genau dann m¨oglich ist, wenn die Primfaktorzerlegung von n die Form n = 2m p1 · · · pr hat, wobei p1 , . . . , pr paarweise verschiedene Primzahlen der Form k
22 + 1
(Fermatsche Zahlen)
(siehe Abschnitt 3.1) sind. F¨ ur k = 0, 1, 2, 3, 4 erh¨alt man die Primzahlen 3, 5, 17, 257, 65537. 25 F¨ ur k = 5 ist 2 + 1 durch 641 teilbar, und auch f¨ ur k > 5 hat man bislang noch keine 2k weiteren Primzahlen der Form 2 + 1 gefunden. Ohne Beweis geben wir an: Satz 10.61 Zu jeder Zahl x ∈ Q 0 a gibt es ein Polynom p(x) = x3 + an−1 xn−1 + · · · + a1x + a0 mit Koeffizienten ak ∈ Q, 0 k = 0, . . . , n − 1, das x0 als Nullstelle hat. Alle Zahlen in IR , die als Nullstellen von Polynomen mit rationalen Koeffizienten auftreten, nennt man algebraisch. Alle ZL–konstruierbaren Zahlen sind also √ algebraisch, aber nicht alle algebraischen Zahlen sind ZL–konstruierbar wie das Beispiel 3 2 lehrt. Zahlen, die nicht algebraisch sind, nennt man transzendent. Transzendente Zahlen k¨onnen als besonders irrational“ angesehen werden. Die bekanntesten transzendenten Zahlen sind ” e, π. (Hier wissen wir noch nicht einmal, daß π, e irrational, d.h. nicht rational sind.) Der Taranszendentbeweis zu e wurde 1873 von C. Hermite (1822 – 1901), der zu π 1882 von F. √ a Lindemann (1852 – 1939) erbracht; siehe [?]. Also ist π ∈ / Q 0 und daher auch π∈ /Q 0 a , da √ √ mit a ∈ Q 0 a, a ≥ 0, auch a ∈ Q 0 a ist. Also ist π nicht mit Zirkel und Lineal konstruierbar und die Quadratur des Kreises mit Zirkel und Lineal ist nicht m¨oglich.
Kapitel 11 Euklidische Geometrie in der Ebene Hier betrachten wir die euklidische Geometrie in der Ebene mit den Hilfsmitteln der analytischen Geometrie. Die Resultate der Elementargeometrie ergeben sich damit auf einem sicheren Fundament, die Bewegungen der Ebene lassen sich abschließend charakterisieren. Die Betrachtung von Kurven in der Ebene f¨ uhrt uns zu interessanten Anwendungen.
11.1
Die euklidische Ebene
Punkte P der Ebene IE 2 sind festgelegt durch Paare x = (x1, x2 ) ∈ IR 2 ; die Zahlen x1 , x2 heißen Koordinaten des Punktes P . F¨ ur diese Menge der Paare hat man zwei wesentliche Operationen: Addition: (x1 , x2) + (y1, y2 ) := (x1 + y1 , x2 + y2 ) Skalare Multiplikation: a(x1, x2 ) := a · (x1 , x2) := (ax1, ax2) , a ∈ IR . Man beachte, daß sich das Paar θ := (0, 0) ∈ IR 2 bez¨ uglich der Addition wie ein neutrales Element verh¨alt: x + θ = θ + x = x f¨ ur alle x ∈ IR 2 . (11.1) Das Negative −(x1, x2) eines Paares (x1, x2) ist bez¨ uglich der Addition gerade so erkl¨art, daß −(x1, x2) + (x1 , x2) = θ gilt. Damit ist auch eine Subtraktion erkl¨art: Subtraktion:
(x1 , x2) − (y1, y2 ) := (x1 − y1 , x2 − y2)
Man kann diese Operationen geometrisch denken, wenn man die Paare als Vektoren ansieht, d.h. naiv als Pfeile vom Ursprung O mit den Koordinaten θ := (0, 0) mit Spitze in ¨ P = (xP , yP ); siehe Abbildung 11.1. Genauer, Vektoren sind Aquivalenzklassen von ge→
richteten Strecken P Q mit P als Anfangspunkt P und mit Q als Endpunkt (=Pfeilspitze), so daß f¨ ur jeden Punkt R der euklidischen Ebene genau eine solche gerichtete Strecke mit 261
Baumeister: Mathematik III / Stand: Februar 1998
262 →
→
R als Anfangspunkt existiert. Zwei gerichtete Strecken P Q und RS definieren genau dann ¨ denselben Vektor, d.h. sind genau dann Repr¨asentanten derselben Aquivalenzklasse, wenn sie durch Parallelverschiebung auseinanderhervorgehen. Ein Vektor ~x mit Repr¨asentant → P Q kann als ein Symbol f¨ ur die Operation der Parallelverschiebung interpretiert werden, ¨ die P in Q u uhrt. Auf die ausdr¨ uckliche Bezugnahme auf diese Aquivalenz verzichten ¨berf¨ wir im folgenden meist.
Abbildung 11.1: Ortsvektoren
Aus der Physik kennen wir Vektoren als gerichtete Strecken, etwa in der Mechanik (Kraft, Geschwindigkeit, Beschleunigung, Impuls . . .). Die Ortsvektoren erh¨alt man dadurch, daß man den Ursprung O w¨ahlt und jeden Vektor dadurch repr¨asentiert, daß man O als Anfangspunkt w¨ahlt. Beispiel 11.1 Zwei Br¨ uder ziehen einen Schlitten an zwei Seilen, die mit der L¨angsachse des Schlittens jeweils ein 450 Winkel einschließen; der gr¨oßere Bruder zieht doppelt so stark. In welche Richtung bewegt sich der Schlitten? ubten Kraft. Der Vektor f~1 liegt Sei f := |f~1| der Betrag, der vom kleineren Bruder ausge¨ im 1. Quadranten und schließt mit der x−Achse den Winkel π4 ein, es gilt also π π f f~1 = f(cos , sin ) = √ (1, 1) . 4 4 2 Entsprechend gilt f¨ ur die zweite Kraft: √ π π f~2 = 2f(cos , sin ) = f 2(1, 1) . 4 4 Die resultierende Kraft ergibt sich als vektorielle Summe f~ges = f~1 + f~2, also √ f 3 1 f~ges = √ (3, −1) = 5f( √ , − √ ) 2 10 10 Daraus lesen wir die erwartete Tatsache ab, daß der gr¨oßere Bruder den Schlitten auf seine Seite zieht. 2 Im folgenden machen wir uns den Standpunkt der linearen Algebra zu eigen und bezeichnen die Elemente von IR 2 als Vektoren. F¨ ur die Rechnung mit Vektoren gilt:
Baumeister: Mathematik III / Stand: Februar 1998
263
Lemma 11.2 Sei V := IR2 . (a) V ist zusammen mit der Vektoraddition + eine abelsche Gruppe. (b) Es gelten: 1. a(x + y) = ax + ay f¨ur alle a ∈ IR, x, y ∈ V . 2. (a + b)x = ax + bx f¨ur alle a ∈ IR, x ∈ V . 3. a(bx) = (ab)x f¨ur alle a, b ∈ IR, x ∈ V . 4. 1x = x f¨ur alle x ∈ V . Beweis: Die Aussagen sind einfach zu verifizieren. Die im Lemma aufgef¨ uhrten Resultate sind die definierenden Eigenschaften eines Vektorraums V u ¨ ber dem Skalark¨orper IR. In der linearen Algebra ist dieser Begriff zentral. Im n¨achsten Kapitel werden den Vektorraum V := IR3 als ¨außerst praktikable Beschreibung des (uns umgebenden) Raumes kennenlernen. Die wichtigsten Figuren in IE 2 sind die Geraden. Definition 11.3 Eine Teilmenge L von IE 2 heißt Gerade, falls es p, w ∈ IR 2 , w 6= θ, gibt mit L = Lp,w := {p + tw|t ∈ IR} . Der Vektor w heißt Richtungsvektor von L . Wir sagen, daß ein Punkt P mit Koordinaten (xP , yP ) auf der Geraden L liegt, wenn 2 (xP , yP ) ∈ L gilt.
Abbildung 11.2: Geraden in der Ebene
Ist L eine Gerade und P ein Punkt in IE 2 , so verwenden wir die Sprechweisen
Baumeister: Mathematik III / Stand: Februar 1998
264
• Der Punkt P liegt auf L • P geh¨ort L an • P liegt auf L • P ∈L • P ist ein Punkt der Geraden L • Die Gerade L geht durch den Punkt P • P inzidiert mit L synomym. Die letzte Sprechweise “P inzidiert mit L“ f¨ uhrt den Begriff der Inzidenz1 ein, einen Begriff, der in der axiomatisch betriebenen Geometrie ganz am Anfang neben den Begriffen “Punkte, Geraden“ steht. Punkte P1 , . . . , Pl ∈ IE 2 nennen wir kollinear, wenn es eine Gerade gibt, auf der diese Punkte liegen. Mitunter ben¨otigen wir den Sachverhalt, daß wir den Koordinatenursprung verschieben wollen. Dieses ist festgehalten in Beispiel 11.4 Jede Translation τp : IR 2 3 x 7−→ x + p ∈ IR2 bildet eine Gerade Lq,u offenbar auf die Gerade Lτp (q),w ab (Geradentreue). Ferner ist sie abstandserhaltend, denn es gilt ja |τp (x) − τp (y)| = |(x + p) − (y + p)| = |x − y|
2
f¨ ur alle x, y ∈ IR2 .
Drei nicht auf einer Geraden liegende Punkte A, B, C ∈ IE 2 nennen wir ein Dreieck. Die Figur Dreieck ensteht, wenn man die Punkte A, B und B, C und C, A durch Geraden verbindet; die Punkte A, B, C sind dann die Ecken des Dreiecks. Daß dies m¨oglich ist, geh¨ort zu den sofort akzeptierten Tatsachen. Sp¨ater werden wir diese Fragestellung als axiomatische Fragestellung in allgemeinem Kontext kennenlernen. Bevor wir diesen Sachverhalt verifizieren, stellen wir einige n¨ utzliche und interessante Begriffe bereit. Definition 11.5 Die Abbildung < ·, · > : IR 2 × IR 2 3 (x, y) 7−→ x1y1 + x2y2 ∈ IR nennen wir Skalarprodukt auf IR 2 . 1
incidere (lat.) = hineinfallen
2
Baumeister: Mathematik III / Stand: Februar 1998
265
Die Bezeichnung “Skalarprodukt“ r¨ uhrt daher, daß in der analytischen Geometrie Ele2 mente von IR als Vektoren und die Elemente des zugrundeliegenden K¨orpers IR als Skalare bezeichnet werden. Dies stimmt mit der in der Physik u ¨blichen Bezeichnungsweise u ¨berein, Gr¨oßen mit “Richtung“ als Vektoren und Zahlgr¨oßen als Skalare zu benennen. Das Skalarprodukt ist also eine Abbildung, die ein Paar von Vektoren auf einen Skalar abbildet. Folgerung 11.6 F¨ur das Skalarprodukt haben wir folgende Eigenschaften: 1. < x, x > ≥ 0 f¨ur alle x ∈ IR2 und < x, x > = 0 genau dann, wenn x = θ . 2. < x, y > = < y, x > f¨ur alle x, y ∈ IR2 . 3. < ax + by, z > = a < x, z > +b < y, z > f¨ur alle a, b ∈ IR und x, y ∈ IR2 . Beweis: Diese Eigenschaften verifiziert man ohne M¨ uhe. Definition 11.7 Die Abbildung | · | : IR 2 3 x 7−→
√
< x, x > ∈ IR
heißt euklidische Norm auf IR2 ; die Norm |x| von x ∈ IR 2 heißt auch euklidische L¨ ange von x . 2 Interpretiert man ein x ∈ IR 2 als Ortsvektor mit Spitze in P mit den Koordinaten x, so entspricht x ein Pfeil ~x mit gegebener Richtung und L¨ange |x|. Wir sehen, daß sich der euklidische Abstand aus Definition 9.2 so ergibt: d(P, Q) = |x − y|, falls x, y die Koordinaten von P, Q sind. Diese Funktion hat die Eigenschaften einer Abstandsfunktion, die man im allgemeinen Kontext auch als Metrik bezeichnet. Folgerung 11.8 F¨ur die Norm haben wir folgende Eigenschaften: 1. |x| = 0 genau dann, wenn x = θ . 2. |ax| = |a||x| f¨ur alle a ∈ IR und x ∈ IR 2 . 3. |x + y| ≤ |x| + |y| f¨ur alle x, y ∈ IR 2 . 4. | < x, y > | ≤ |x| |y| f¨ur alle x, y ∈ IR 2 . Beweis:
Baumeister: Mathematik III / Stand: Februar 1998
266
Die Eigenschaften 1. und 2. verifiziert man ohne M¨ uhe. Zu 4. Seien x, y ∈ IR 2 . Die Behauptung gilt offenbar, wenn x = y = θ ist. Sei nun etwa y 6= θ . Es gilt f¨ ur alle a ∈ IR : 0 ≤ < x − ay, x − ay > = |x|2 + a2|y|2 − 2a < x, y > . W¨ahlt man
< x, y > , < y, y > was wegen y = 6 θ m¨oglich ist, so folgt die Aussage. Zu 3. Seien x, y ∈ IR 2 . Mit 4. folgt a=±
|x + y|2 = |x|2 + |y|2 + 2 < x, y > ≤ |x|2 + |y|2 + 2|x||y| = (|x| + |y|)2 . Daran liest man die Behauptung ab. Die Eigenschaften 1., 2., 3. in Folgerung 11.8 sind typisch f¨ ur eine L¨angenfunktion; sie heißen Definitheit, Homogenit¨ at bzw. Dreiecksungleichung. Der Begriff “Dreiecksungleichung“ erkl¨art sich aus der Tatsache, daß sie sich als Ungleichung f¨ ur die Seitenl¨angen im Dreieck mit den Ecken O, A, B mit den Koordinaten θ, x, y deuten l¨aßt. Die 4. Eigenschaft heißt Cauchy–Schwarzsche Ungleichung. Bemerkung 11.9 Aus dem Beweis zu Folgerung 11.8 lesen wir ab, daß in der Cauchy–Schwarzschen Ungleichung Gleichheit genau dann gilt, wenn x = ay oder y = ax mit einem a ∈ IR gilt.
2
Aus der Cauchy–Schwarzschen Ungleichung und aus der Tatsache, daß der Bildbereich von [0, π] unter der hier injektiven Kosinusfunktion [−1, 1] ist, folgt, daß es zur Zahl < x, y > |x||y| genau eine Zahl α ∈ [0, π] gibt mit cos(φ) =
< x, y > . |x||y|
Wir nennen diese Zahl φ Winkel zwischen x und y. Beachte, daß hier kein “orientierter“ Winkel definiert wird: Der Winkel zwischen x und y ist gleich dem Winkel zwischen y und x; Winkel gr¨oßer als π kommen daher nicht vor. Daß die obige Definition mit der Anschaung u ¨ bereinstimmt, entnimmt man der folgenden Abbildung 11.3. Dort ist cos(α) =
x2 y2 x1 y1 , cos(β) = , sin(α) = , sin(β) = . |x| |y| |x| |y|
Da cos(φ) = cos(β − α) = cos(β) cos(α) + sin(β) sin(α)
Baumeister: Mathematik III / Stand: Februar 1998
267
Abbildung 11.3: Winkel zwischen Vektoren
ist, folgt cos(φ) =
y2 x 2 x 1 y1 < x, y > · + · = . |y| |x| |x| |y| |x||y|
Definition 11.10 Zwei Vektoren x, y heißen orthogonal (senkrecht), wenn der Winkel zwischen x, y ein rechter Winkel ist, d.h. wenn < x, y > = 0 ist. 2 Wir erhalten mit der Definition von φ sofort |x − y|2 = |x|2 + |y|2 − 2|x||y| cos(φ) .
(11.2)
Es ist dies der sogenannte Kosinussatz, angewendet auf das Dreieck mit den Ecken O, A, B mit den Koordinaten θ, x, y. Im Spezialfall φ = π2 (φ ist ein rechter Winkel), also f¨ ur ein rechtwinkliges Dreieck, erh¨alt man den pythagoreischen Lehrsatz zur¨ uck. Der Sinussatz in diesem Dreieck ist die Aussage |y| |x| = , sin α sin β wobei α der Winkel zwischen x, x − y und β der Winkel zwischen y, x − y ist. Der Beweis folgt aus hO hO sin α = , sin β = , |x| |y| wobei hO die H¨ohe durch O ist. Der Sinussatz in einem allgemeinen Dreieck mit den Seitenl¨angen a, b, c und den Winkeln α, β, γ – wir folgen der Konvention, die Seiten und Winkel entsprechend Abbildung 11.4 zu bezeichnen – lautet: a b c = = . sin α sin β sin γ
(11.3)
Eine hilfreiche Konstruktion in der euklidischen Ebene ist die “Orthogonalisierung“: IR 2 3 x = (x1, x2) 7−→ x⊥ := (−x2, x1 ) ∈ IR2
Baumeister: Mathematik III / Stand: Februar 1998
268
Abbildung 11.4: Das allgemeine Dreieck
Abbildung 11.5: Orthogonalisierung
Die folgende Figur zeigt, daß x⊥ aus x durch Drehung um π/2 hervorgeht: Der Begriff “Orthogonalisierung“ leitet sich aus der Tatsache ab, daß stets < x, x⊥ > = 0 gilt, d.h. daß der Winkel zwischen x und x⊥ ein rechter Winkel ist; x, x⊥ stehen also stets senkrecht aufeinander. Wir definieren noch [· , ·] : IR 2 × IR2 3 (x, y) 7−→ < x⊥ , y > ∈ IR und listen folgende Regeln damit auf: (R1) < x, x⊥ > = 0 , (x⊥)⊥ = −x , |x⊥| = |x| f¨ ur alle x ∈ IR 2 . (R2) < x, y ⊥ > = − < x⊥, y > f¨ ur alle x, y ∈ IR 2 . (R3) [x, y] = −[y, x] , [x⊥, y ⊥] = [x, y] f¨ ur alle x, y ∈ IR 2 . (R4) < x, y >2 +[x, y]2 = |x|2|y|2 f¨ ur alle x, y ∈ IR2 . (R5) [x, y]z + [y, z]x + [z, x]y = θ f¨ ur alle x, y, z ∈ IR2 . Man verifiziert diese Regeln ganz ohne M¨ uhe.
Baumeister: Mathematik III / Stand: Februar 1998
269
Definition 11.11 Vektoren x1, . . . , xl ∈ IR 2 heißen linear unabh¨ angig, wenn die Implikation l X
aixi = θ =⇒ a1 = · · · = al = 0
i=1
f¨ur alle a1 , . . . , al ∈ IR . gilt. Sind die Vektoren x1, . . . , xl nicht linear unabh¨angig, dann heißen sie linear abh¨ angig. 2 Beispiel 11.12 • Der Nullvektor ist offenbar linear abh¨angig. ugt man xl+1 := θ oder xl+1 := xj mit j ∈ {1, . . . , l} • Sind x1 , . . . , xl ∈ IR 2 und f¨ hinzu, so sind x1 , . . . , xl , xl+1 linear abh¨angig. • e1 := (1, 0) ist linear unabh¨angig, denn aus ae1 = θ folgt (a, 0) = (0, 0), d.h. a = 0 . • e1 := (1, 0), e2 := (0, 1) sind linear unabh¨angig, denn aus ae1 + be2 = θ folgt (a, b) = (0, 0), d.h. a = b = 0 nach Definition geordneter Paare.
2 Lemma 11.13 (a) Sind x1, . . . , xl Vektoren in IR2 und ist l ≥ 3, so sind diese Vektoren linear abh¨angig. (b) Es gibt linear unabh¨angige Vektoren x, y ∈ IR 2 . Beweis: Zu (a) O.E. l = 3. Ist [x1, x2 ] = 0, dann liegt lineare Abh¨angigkeit vor nach Bemerkung 11.9. Gilt [x1, x2] 6= 0, dann liegt lineare Anh¨angigkeit nach Rechenregel (R5) vor. Zu (b) Offenbar sind e1 := (1, 0), e2 := (0, 1) linear unabh¨angig; siehe Beispiel 11.12. Definition 11.14 Zwei Vektoren x, y ∈ IR2 heißen eine Basis von IR 2, wenn zu jedem z ∈ IR2 Zahlen a, b ∈ IR existieren mit z = ax + by .
2 Die sogenannten Einheitsvektoren e1 , e2 (siehe oben) bilden offenbar eine Basis in IR 2 . Verwendet man sie als Richtungsvektoren f¨ ur Geraden g 1 , g 2 durch den Ursprung, so erh¨alt man damit ein kartesisches Koordinatensystem in IE 2 , in dem man Punkte, Geraden nach
Baumeister: Mathematik III / Stand: Februar 1998
270
Festlegung einer positiven Richtung auf den Geraden einzeichnen kann. Damit wird die Zweidimensionalit¨at der euklidischen Ebene IE 2 beschrieben. Folgerung 11.15 Seien x, y eine Basis in IR2 . Dann gilt: (a) x 6= θ, y 6= θ und x, y sind linear unabh¨angig. (b) Sind z = ax + by = a0x + b0 y zwei Darstellungen von z ∈ IR 2, so sind die Darstellungen identisch, d.h. a = a0 , b = b0 . Beweis: Zu (a) Klar, x = y = θ ist nicht m¨oglich, da es Vektoren z ∈ IR 2 mit z 6= θ gibt. Sei etwa x = θ . Dann ist y ⊥ = by mit b ∈ IR, da x, y eine Basis ist, und es folgt |y|2 = |y ⊥|2 = < y ⊥, y ⊥ > = b < y, y ⊥ > = 0, also auch y = θ, was nicht zul¨assig ist (siehe oben). Annahme: x, y sind linear abh¨angig. Dann gibt es also a, b ∈ IR mit ax + by = θ , a2 + b2 6= 0 . Sei etwa a 6= 0 . Dann ist x = ry mit r ∈ IR . Da x, y eine Basis ist, gibt es a0 , b0 ∈ IR mit y ⊥ = a0x + b0y = (a0 r + b0)y. Es folgt |y|2 = |y ⊥|2 = < y ⊥, y ⊥ > = (a0r + b0 ) < y, y ⊥ > = 0, d.h. y = θ, x = ry = θ, was ein Widerspruch ist. Zu (b) Es folgt θ = (a − a0)x + (b − b0)y und da x, y nach (a) linear unabh¨angig sind, folgt a − a 0 = b − b0 = 0 . Folgerung 11.16 F¨ur zwei Vektoren x, y sind ¨aquivalent: (a) x, y ist eine Basis von IR 2 . (b) x, y sind linear unabh¨angig. Beweis: (a) =⇒ (b) Siehe Folgerung 11.15. (b) =⇒ (a) Sei z ∈ IR 2 . Aus Lemma 11.13 wissen wir, daß z, x, y linear abh¨angig sind. Also gibt es a, b, c ∈ IR mit az + bx + cy = θ , a2 + b2 + c2 6= 0 .
Baumeister: Mathematik III / Stand: Februar 1998
271
Da x, y linear unabh¨angig sind, kann a = 0 nicht eintreten, da dann auch b = c = 0 gelten m¨ ußte. Also ist a 6= 0 und wir erhalten b c z = − x− y. a a
Satz 11.17 Ist x ∈ IR 2 \{θ}, so ist x, x⊥ eine Basis von IR2 . Beweis: Nach Folgerung 11.16 haben wir nur die lineare Unabh¨angigkeit von x, x⊥ zu zeigen. Sei also ax + bx⊥ = θ . Es folgt 0 =< θ, x >=< ax + bx⊥, x >= a < x, x > und 0 =< θ, x⊥ >=< ax + bx⊥, x⊥ >= b < x⊥, x⊥ >= b < x, x > und daher, weil x 6= 0 ist, a = b = 0. Liegt eine Basis x, x⊥ vor, so sind zu z ∈ IR2 Zahlen a, b ∈ IR mit z = ax + bx⊥ besonders einfach zu finden: Wir machen den Ansatz z = ax + bx⊥ und finden a, b aus < z, x > = a < x, x > , < z, x⊥ > = b < x⊥, x⊥ > , da x, x⊥ 6= θ gilt nach Folgerung 11.15 . Satz ?? liefert uns “ganz viele“ Basen von IR 2 . Beachte aber, daß nicht jede Basis so zustande kommt. Etwa ist auch e1, e1 +e2 eine Basis, aber e1, e1 +e2 sind nicht orthogonal. Oben haben wir die Figur “Gerade“ in der Parameterdarstellung Lp,w kennengelernt; Parameter von Lp,w sind der Vektor p und der Richtungsvektor w . Eine andere Darstellungsm¨oglichkeit f¨ ur die Figur “Gerade“ ist die Gleichungsdarstellung: Hz,α := {x ∈ IR2 | < z, x > = α} , z 6= θ . Es handelt sich hier wirklich um die gleichen Objekte. Dies ist im folgenden Satz festgehalten: Satz 11.18 Es gilt f¨ur p, w, z ∈ IR 2 , w 6= θ, z 6= θ, und α ∈ IR : Lp,w = Hw⊥ ,<w⊥ ,p> , Hz,α = L(α|z|−2 )z,z⊥ Beweis: Zu Lp,w = Hw⊥ ,<w⊥ ,p> . Sei w = (w1, w2 ) und sei etwa w1 6= 0 . Sei x ∈ Lp,w , also x = p + tw mit t ∈ IR . Es ist < w⊥, x >= −w2 (p1 + tw1) + w1 (p2 + tw2) = −w2p1 + w1 p2 = < w⊥, p >,
(11.4)
Baumeister: Mathematik III / Stand: Februar 1998
272
also x ∈ Hw⊥ ,<w⊥ ,v> . Sei x ∈ Hw⊥ ,<w⊥ ,v> , d.h. −w2x1 + w1x2 = −w2p1 + w1 p2 . Setze t := (x1 − p1 )w1−1 . Dann gilt x1 = p1 + tw1 und p2 + tw2 = p2 + (x1w2 − p1 w2)w1−1 = p2 + (w1x2 − w1 p2 )w1−1 = x2 , also x ∈ Lp,w . Die obige Aussage kann man nun dahingehend deuten, daß man die Figuren, die wir Geraden nennen, auch mit den “linearen Gleichungen“ identifizieren k¨onnen, denn x ∈ Hz,α ist ¨aquivalent mit dem Erf¨ ulltsein der Gleichung z1x1 + z2 x2 = α . Satz 11.19 (a) Jede Gerade enth¨alt unendlich viele Punkte. (b) Durch jeden Punkt gehen unendlich viele Geraden. (c) Durch zwei verschiedene Punkte geht genau eine Gerade. (d) Zwei verschiedene Geraden haben entweder keinen oder genau einen Punkt gemeinsam. Beweis: Zu(a) Dies folgt aus der Tatsache, daß f¨ ur eine Gerade g = Lp,w stets w 6= (0, 0) vorausgesetzt ist und IR unendlich viele Elemente enth¨alt. Zu (b) Folgt aus (c), da IE 2 unendlich viele Punkte enth¨alt. Zu (c) Seien P, Q ∈ IE 2 mit Koordinaten x = (x1, x2) bzw. y = (y1 , y2) . Setze w := x − y, v := x. Dann ist x = x + 0 · w , y = x + (−1) · w , also x, y ∈ Lv,w , d.h. P, Q liegen in Lv,w . Also ist die Existenz einer “verbindenden“ Gerade gezeigt, die Eindeutigkeit folgt aus (d). Zu (d) Seien Lp,w , Lq,u verschiedene Geraden. Ist Lp,w ∩ Lq,u = ∅, so ist nichts mehr zu zeigen. Sei nun Lp,w ∩ Lq,u 6= ∅ und z ∈ Lp,w ∩ Lq,u . Dann k¨onnen wir o.E. annehmen p = q = z . Also ist zu zeigen Lz,w ∩ Lz,u = {z} . Ist < w, u⊥ > = 0, dann ist nach Satz 11.17 u = aw mit einem a ∈ IR \{0} und daher sicherlich Lz,w = Lz,u im Widerspruch zur Tatsache, daß die beiden Geraden verschieden sind. Also ist < w, u⊥ > 6= 0 . Sei y ∈ Lz,w ∩ Lz,u . Dann ist y = z + tw = z + su, d.h. t < w, u⊥ > = 0 , −s < u, w⊥ > = 0 , also t = s = 0 und damit u = z . Im Beweis zu Satz 11.19 haben wir bereits Schnittpunkte von Geraden ausgerechnet. Halten wir dies etwas allgemeiner fest.
Baumeister: Mathematik III / Stand: Februar 1998 Schnittformel (I):
Geraden Lp,w , Lq,u • Voraussetzung: [w, u] 6= 0 . • Schnittpunkt: Lp,w ∩ Lq,u =
Schnittformel (II):
273
([q, u]w − [p, w]u) [w, u]
Geraden Lp,w , Hz,α • Voraussetzung: < w, z > 6= 0 . < p, z > • Schnittpunkt: Lp,w ∩ Hz,α = p + α− < w, z > w
Schnittformel (III): Geraden Hz,α , Hy,β • Voraussetzung: [z, y] 6= 0 .
⊥ ⊥ • Schnittpunkt: Hz,α ∩ Hy,β = βz − αy [z, y]
Definition 11.20 Zwei Geraden g, h heißen parallel, wenn g = h oder g ∩ h = ∅ gilt. Wir schreiben dann gkh .
2
Folgerung 11.21 Zwei Geraden g = Lp,w , h = Lq,u sind parallel genau dann, wenn < w, u⊥ > = 0 gilt. Beweis: Seien g, h parallel. Ist g = h, dann ist w = u = x − y f¨ ur zwei Punkte x, y ∈ g, also ⊥ ⊥ < w, u > = < w, w > = 0 . Ist g ∩ h = ∅ , dann haben wir < w, u⊥ >= 0 im Beweis zu Satz 11.19 (d) mitbewiesen. Gilt < w, u⊥ > = 0, dann ist u = rw mit r ∈ IR . Dann folgt aber g ∩ h = ∅ oder g = h .
Folgerung 11.22 Durch die Relation g ∼ h : ⇐⇒ gkh ¨ wird auf der Menge der Geraden in IE 2 eine Aquivalenzrelation erkl¨art. Beweis: Reflexivit¨at und Symmetrie sind nahezu trivial. Zur Transitivit¨at. Sei gkh, hkk . Seien g = Lp,w , h = Lq,u , k = Lr,y . Dann gilt nach Folgerung 11.21 < w ⊥ , u > = < u⊥ , y > = 0 . Daraus folgt < w⊥ , y > = 0 und daher mit Folgerung 11.21 gkk . Die folgende Eigenschaft der Anschauungsebene ist das ber¨ uhmte Parallelenpostulat. Wir werden sp¨ater sehen, daß man auch ohne diese Eigenschaft sinnvoll geometrische Betrachtungen anstellen kann.
Baumeister: Mathematik III / Stand: Februar 1998
274
Folgerung 11.23 Zu jeder Geraden g und zu jedem Punkt P in IE 2 , der nicht auf der Geraden g liegt, existiert genau eine Gerade h mit P ∈ h und hkg . Beweis: Sei x := (x1, x2 ) der Koordinatenvektor von P und sei g = Lp,w . Setze h := Lx,w . Eine weitere Gerade h durch P kann es wegen Folgerung 11.21 nicht geben. Bei Euklid ist die Aussage von Folgerung 11.23 ein Postulat. Man hat immer wieder versucht, dieses Parallelenpostulat aus den u ¨ brigen angegebenen Axiomen, die den Aussagen von (a)–(d) aus Satz 11.19 entsprechen, herzuleiten, es also als Satz zu formulieren und in Menge der Axiome u ussig zu machen. (Hier ist die Situation anders: Wir haben ein ¨berfl¨ 0 als Geradenmenge, konkretes Modell einer Geometrie in Form von IE 2 als Punkte und G in dem wir S¨atze u.a. das Parallelenpostulat beweisen k¨onnen.) Wir werden sp¨ater sehen, daß dies nicht m¨oglich ist. Im Abschnitt 9.2 haben wir den Strahlensatz benutzt. Er ist nun in der konkreten Situation ein einfacher Sachverhalt: Satz 11.24 Seien g1 , g2 zwei Geraden, die sich in O schneiden und seien h1, h2 zwei parallele Geraden, welche die Gerade g1 bzw. g2 in den Punkten A1, A2 bzw. B1 , B2 schneiden. Dann gilt |OA1 | |OA2| |A1A2| = = . |OB1 | |OB2 | |B1 B2| Beweis: O. E. k¨onnen wir annehmen, daß die Gerade g1 die x−Achse ist; siehe Abbildung 11.6.
Abbildung 11.6: Der Strahlensatz
Seien C, D die Fußpunkte der Lote von A2 , B2 auf die Gerade g1 . Dann gilt mit den Winkeln ψ := < ) (A1OA2 ), φ := < ) (CA1A2) = < ) (DB1 B2 ) offenbar sin(ψ) =
|CA2| |DB2 | = |OA2 | |OB2 |
Baumeister: Mathematik III / Stand: Februar 1998
275
und
|CA2| |DB2 | = . |A1A2| |B1 B2 | Mit einfachen Rechnungen folgt daraus die Aussage. sin(φ) =
Eine Gerade in IE 2 teilt die Anschauungsebene in zwei Halbr¨ aume auf. Diese konkretisieren sich sofort, wenn die Gerade in Gleichungsdarstellung Hz,α vorliegt: Die Halbr¨aume sind gegeben durch + Hz,α := {x ∈ IR 2 | < z, x > ≥ α}, − Hz,α := {x ∈ IR 2 | < z, x > ≤ α} .
Damit sind die Ungleichungen z1 x1 + z2 x2 ≥ α , z1 x1 + z2 x2 ≤ α verkn¨ upft. Man nennt diese Ungleichungen linear, da die “Unbekannten“ x1, x2 nur linear, d.h. nur in erster Potenz, eingehen. Lineare Ungleichnungen haben große Bedeutung in der Modellierung von realen Problemen. Beispiel 11.25 Auf einem Wochenmarkt werden saisonbedingt nur die zwei Gem¨ usesorten A1, A2 angeboten. Wie w¨ urde eine mathematisch vorgebildete Hausfrau einkaufen, um ein Mittagessen mit mindestens 50 Kalorien und mindestens 1200 Vitamine der Gem¨ usebeilagen m¨oglichst billig zu erhalten. Kalorien, Vitamingehalt und Preis (pro kg) sind der folgenden Tabelle zu entnehmen: A1 A2 Kalorien 200 100 Vitamine 2000 3000 Preise 16 18 Wie ist die Aufgabe nun mathematisch zu formulieren? Wir setzen an: xi := gekaufte Menge der Gem¨ usesorte Ai , i = 1, 2 . Es ergibt sich damit die folgende Ausgabe: 16x1 + 18x2 =: < c, x > mit c := (16, 18). Zu ber¨ ucksichtigen beim Einkauf sind die folgenden Ungleichungen: < z 1, x > < z 2, x > < z 3, x > < z 4, x >
= = = =
200x1 + 100x2 ≥ 50 =: b1 , 2000x1 + 3000x2 ≥ 1200 =: b2, 1x1 + 0x2 = x1 ≥ 0 =: b3 , 0x1 + 1x2 = x2 ≥ 0 =: b4 ,
Baumeister: Mathematik III / Stand: Februar 1998
276
mit z 1 := (200, 100), z 2 := (2000, 3000), z 1 := (1, 0), z 4 := (0, 1) . Die Aufgabe lautet nun also: Minimiere den Wert < c, x > unter den Nebenbedingungen < z i , x > ≥ bi , i = 1, 2, 3, 4 . Dies ist eine Aufgabe der linearen Optimierung. Man l¨ost sie graphisch, in dem man die Halbr¨aume Hz+i ,bi skizziert und auf der zul¨assigen Menge
4 T
i=1
Hz+i ,bi den kleinsten Wert
von < c, x > ermittelt. Dabei kommt uns zugute, daß die Niveaulinien Hc,r , r ∈ IR, eine Schar paralleler Geraden sind.
Abbildung 11.7: Graphisches L¨osungsverfahren
Die Beobachtung, daß die L¨osung in einer “Ecke“ des zul¨assigen Bereichs angenommen wird, ist kein Zufall, es ist die “Regel“. Diese Beobachtung ist Grundlage f¨ ur ein L¨osungsverfahren f¨ ur Aufgaben der linearen Optimierung, dem sogenannten Simplexverfahren.
2
Ein weiteres Bespiel f¨ ur die Anwendungsbreite der linearen Optimierung stellt das Problem des Handlungsreisenden dar.
11.2
S¨ atze in der euklidischen Ebene
Das Lot von einem Punkt P ∈ IE 2 mit Koordinaten p auf eine Gerade Hz,α (z 6= θ !) ist die Gerade durch P, die auf Hz,α senkrecht steht. Da Hz,α die Richtung w := z ⊥ hat (siehe Satz 11.18), erh¨alt man das Lot durch P in der Form Lp,z . Die Koordinaten y des Fußpunkt F dieses Lotes, also des Schnittpunktes des Lotes mit der Geraden Hz,α , berechnet sich nach Schnittformel (II) zu y =p+
α− < z, p > z < z, z >
Der Abstand des Punktes P von der Geraden Hz,α ist
Baumeister: Mathematik III / Stand: Februar 1998
|p − y| =
|α− < z, p > | |z|
277
(11.5)
Man erh¨alt damit Satz 11.26 Hat eine Gerade g die Form Hz,α mit |z| = 1, so hat ein Punkt P ∈ IE 2 mit Koordinaten p den Abstand |α− < z, p > | von dieser Geraden. Beweis: Siehe Gleichung (11.5). Der obige Satz heißt Satz u ¨ber die Hessesche Normalform (L.O. Hesse (1811 – 1874)). Diese Normalform l¨aßt eine geometrische Deutung der Konstanten α bei einer Geraden Hz,α zu: Der Ursprung O hat von dieser Geraden den Abstand |α|. Der Fl¨acheninhalt eines Dreiecks mit den Ecken A, B, C ∈ IE 2 mit den Koordinaten ¨ x, y, z ∈ IR2 ist nach elementar–geometrischer Uberlegung gleich dem halben Produkt von Grundlinie und H¨ohe; siehe Abschnitt 9.2. Die L¨ange hC der H¨ohe durch C ist gleich dem Abstand des Punktes C von der Geraden g durch A, B, d.h. von der Geraden Lx,y−x bzw. H(y−x)⊥ , . Also gilt nach (11.5) hC =
1 | < (y − x)⊥ , z > − < (y − x)⊥, x > |, |y − x|
d.h. hC =
1 | < y ⊥ − x⊥ , z − x > | . |y − x|
(11.6)
Hier ist < y ⊥ − x⊥, z − x > = < y ⊥, z > − < y ⊥, x > − < x⊥, z > = [x, y] + [y, z] + [z, x]. F¨ uhrt man also die Abk¨ urzung [x, y, z] := [x, y] + [y, z] + [z, x] = [x − z, y − z] ein, so erh¨alt man f¨ ur die L¨ange hC der H¨ohe durch C schließlich hC =
|[x, y, z]| , |x − y|
und der Fl¨acheninhalt FABC des Dreiecks mit den Ecken A, B, C ergibt sich als 1 FABC = |[x, y, z]| 2
(11.7)
Als Konsequenz lesen wir ab: Drei Punkte liegen auf einer Geraden genau dann, wenn in den Koordinaten [x, y, z] = 0 gilt.
Baumeister: Mathematik III / Stand: Februar 1998
278
F¨ ur den Fl¨acheninhalt FOABC eines Parallelogramms mit den Ecken O, A, B, C — die Koordinaten seien θ, x, y, x + y — gilt: FOABC = 2FOAB = |[x, y]|, also FOABC = |x||y|| sin(α)|, wobei α der Winkel zwischen x und y ist. Ein bekannter Satz der Elementar–Geometrie der Ebene ist der Satz u ohen¨ ber den H¨ schnittpunkt. Satz 11.27 Seien A, B, C die Ecken eines nichtentarteten Dreieckes mit den Koordinaten x, y, z, d.h. es gelte [x, y, z] 6= 0 . Dann schneiden sich die H¨ohen in einem Punkt. Beweis: Die H¨ohengeraden sind gegeben durch Hy−z, , Hz−x, , Hx−y,<x−y,z> . Ist also h der Schnittpunkt der H¨ohengeraden durch A und B, so ist zu zeigen, daß h auch auf der H¨ohengeraden durch C liegt, d.h. daß < x − y, h > = < x − y, z > ist. Dazu < x − y, h > = = = =
< x − z + z − y, h > < x − z, h > + < z − y, h > − < z − x, y > − < y − z, x > − < x − y, z > + < x − y, z > < x − y, z >
Neben der Geraden durch zwei Punkte P, Q hat man in der euklidischen Ebene als weitere interessante Figur den Kreis durch Q mit Mittelpunkt P. Sind x, y ∈ IR 2 die Koordinaten von P, Q, so ist dieser Kreis gegeben als Punktmenge {z ∈ IR2 | |z − x| = |x − y|} Ein Kreis ist also der geometrische Ort aller Punkte, die von einem gegebenem Punkt (Mittelpunkt) einen konstanten Abstand haben. Wir setzen f¨ ur r ≥ 0, x ∈ IR2 . Kr (x) := {z ∈ IR 2 ||z − x| = r} , Br (x) := {z ∈ IR2 ||z − x| ≤ r} . Eine Tangente2 an einen Kreis ist eine Gerade, die mit dem Kreis genau einen Punkt, den Ber¨ uhrungspunkt, gemeinsam hat. Hat man einen Punkt auf der Tangente, der verschieden von dem Ber¨ uhrungspunkt ist, so bezeichnet man die Strecke zwischen dem Ber¨ uhrungspunkt und diesem Punkt als Tangentenabschnitt. 2
tangere (lat.) = ber¨ uhren
Baumeister: Mathematik III / Stand: Februar 1998
279
Satz 11.28 Ist p ∈ IR 2 ein Punkt des Kreises Kr (x), so ist die Tangente an den Kreis im Punkt p gegeben durch Hp−x,r2 +<x,p−x> Beweis: O.E. k¨onnen wir x = θ annehmen; K := Kr (θ). Eine Gerade durch p ist offenbar Hp,r2 . Ist nun x ∈ Hp,r2 ∩ K, dann folgt |x − p|2 = |x|2 − 2 < x, p > +|p|2 = r2 − 2r2 + r2 = 0, also x = p. Es ist schnell einzusehen, wie man mit Zirkel und Lineal die Tangente in einem Punkt des Kreises konstruiert. Eine Sekante3 ist eine Gerade, die einen Kreis in zwei Punkten schneidet; die hierdurch bestimmte Strecke im Inneren des Kreises heißt Sehne. (Der Sprachgebrauch kommt wohl von der Tatsache, daß eine Sehne Verwendung fand, um einen (Flitze–)Bogen zu ¨ spannen; ein gespannter Bogen hat Ahnlichkeit mit einem Teil eines durch eine Sekante zerschnittenen Kreises.) Hat man einen Punkt auf einer solchen Sekante, so bestimmen die Schnittpunkte P1 und P2 dieser Sekante mit dem Kreis die Strecken P P1 , P P2 . Diese Aschnitte heißen Sehnenabschnitte. Bemerkung 11.29 Diese obige sehr anschauliche Einf¨ uhrung von Abschnitten auf einer Geraden ist in unserem Kontext wohl klar; sie beruht auf der Anordnung der reellen Zahlen. Im Kapitel u ¨ ber absolute Geometrie wird ein solcher Begriff durch ein Axiom eingef¨ uhrt. 2 Satz 11.30 Sei K := Kr (x) ein Kreis und p ∈ IR2 ein Punkt im Inneren von K, d.h. |p − x| < r. Dann ist f¨ur jede Sehne durch p das Produkt ab der Sehnenabschnitte a, b gleich. Beweis: O.E. x = θ. Betrachte eine Gerade Lp,w mit |w| = 1 durch p und bringe sie zum Schnitt mit dem Kreis K. Die Schnittpunkte errechnen sich aus |p + tw|2 = r2 , d.h. r2 = |p|2 + 2t < w, p > +t2|w|2 = |p|2 + 2t < w, p > +t2. Nach dem Vietaschen Wurzelsatz (siehe Bemerkung 10.53) ist das Produkt t1 , t2 der beiden Wurzeln gleich dem konstanten Term |p|2 − r2 und damit von der Richtung w unabh¨angig. Andererseits sind die Sehnenabschnitte gegeben durch |p − p − t1w|, |p − p − t2 w|, also durch a = |t1|, b = |t2| . 3
secare (lat.) = schneiden
Baumeister: Mathematik III / Stand: Februar 1998
280
Daraus folgt ab = r2 − |p|2 .
Der obige Satz 11.30 heißt Sehnensatz. Ist P ein Punkt außerhalb eines Kreises K, dann k¨onnen wir die Tangente an den Kreis betrachten, die durch diesen Punkt verl¨auft. Diese Tangente kann man mit Zirkel und Lineal konstruieren, wie man unter Ber¨ ucksichtigung des Thaleskreises u ¨ ber der Verbindungsstrecke Punkt/Kreismittelpunkt sofort sieht. Der Beweis f¨ ur den folgenden Sehnen–Tangentensatz verl¨auft v¨ollig analog. Satz 11.31 ¨ Sei K = Kr (x) ein Kreis und p ∈ IR 2 ein Punkt im Außeren von K, d.h. |p − x| > r. F¨ur jede den Kreis schneidende Gerade durch p ist das Produkt ab der Sehnenabschnitte a, b gleich dem Quadrat des Tangentenabschnittes c . Die Seitenhalbierenden in einem Dreieck mit den Ecken A, B, C mit den Eckenkoordinaten x, y, z sind die Geraden durch einen Eckpunkt und die Mitte der gegen¨ uberliegenden Seite. Diese drei Geraden sind Lx,x−(y−z)/2 , Ly,y−(z−x)/2 , Lz,z−(x−y)/2 . Man rechnet nun leicht nach, daß der Schwerpunkt S mit den Koordinaten (x + y + z)/3 der Schnittpunkt dieser drei Seitenhalbierenden ist. Wir wollen nun den Umkreis eines Dreiecks berechnen. Seien A, B, C die Ecken eines Dreieckes mit den Koordinaten x, y, z. Dieses Dreieck sei nicht entartet, d.h. es gelte [x, y, z] 6= 0. Mittelpunkt m und Radius r eines Kreises durch die Ecken A, B, C sind festgelegt durch |x − m| = |y − m| = |z − m| = r. Quadrieren der Gleichungen |x − m| − |y − m| = 0, |y − m| − |z − m| = 0, |z − m| − |x − m| = 0 f¨ uhrt zu < 2m − (x + y), x − y > = 0, < 2m − (y + z), y − z > = 0, < 2m − (z + x), z − x > = 0. Also liegt m, wie es der Anschauung entspricht, auf der Mittelsenkrechten der Verbindungsstrecken von A, B, B, C und C, A. Verwendet man die Schnittpunktformel (III), so ergibt sich die Formel m=
1 ((|y|2 − |z|2)x⊥ + (|z|2 − |x|2)y ⊥ + (|x|2 − |y|2)z ⊥ ) 2[x, y, z]
(11.8)
Baumeister: Mathematik III / Stand: Februar 1998
281
f¨ ur die Koordinaten m des Umkreismittelpunktes. Satz 11.32 Der Mittelpunkt m und Radius r des Umkreises durch die Ecken eines nichtentarteten Dreieckes mit den Ecken–Koordinaten x, y, z ist gegeben durch m=
1 ((|y|2 − |z|2)x⊥ + (|z|2 − |x|2)y ⊥ + (|x|2 − |y|2)z ⊥ ) , 2[x, y, z] r=
|x − y||y − z||z − x| 2|[x, y, z]|
Beweis: Die Formel f¨ ur m haben wir oben schon hergeleitet. Man definiert r wie oben. Die Formel f¨ ur r ¨andert sich weder bei zyklischer Vertauschung der Ecken noch bei Verschiebung (des Koordinatensystems). Also d¨ urfen wir z = θ annehmen und haben |m| = r nachzurechnen. |m|2 =
1 |x|y||x − y| 2 2 2 2 ) = r2 . 2 ||y| x − |x| y| = ( 2[x, y] 4[x, y]
Ist ein nichtentartetes Dreieck mit den Ecken–Koordinaten x, y, z gegeben, so bezeichnen S den Schwerpunkt, H den H¨ohenschnittpunkt und M den Umkreismittelpunkt. Dann gilt nach Euler die sogenannte Euler–Gleichung 3s = h + 2m ; dabei sind s, h, m die Koordinaten von S, H, M. Zum Nachweis darf man o.E., da eine Transaltion geradentreu ist, m = θ, d.h. |x| = |y| = |z| annehmen. Die H¨ohe durch z hat die Geradengleichung Hx−y, F¨ ur den Punkt p := x + y + z = 3s gilt dann offenbar
< x−y, p > = < x−y, x+y+z >=< x−y, x−y > + < x−y, z >= |x|2−|y|2+ < x−y, z >=< x−y, z > Also liegt p auf der H¨ohe durch z. Aus Symmetriegr¨ unden folgt, daß p auch auf den H¨ohen durch x und y liegt und es ist p = h. Ist s 6= h, dann liegen also s, h und m auf der Geraden Ls,s−h denn aufgrund der Euler–Gleichung ist 1 m = s + (s − h) . 2
Baumeister: Mathematik III / Stand: Februar 1998
282
Dieses Ergebnis ist der aus dem Jahre 1763 stammende Satz von Euler. Satz 11.33 In einem Dreieck liegen Schwerpunkt, H¨ohenschnittpunkt und Mittelpunkt des Umkreises auf einer Geraden, auf der sogenannten Euler–Geraden. Beweis: Die obige Ableitung war g¨ ultig f¨ ur s 6= h. Ist aber s = h, dann gilt nach der Euler– Gleichung auch m = h und die Behauptung ist sicher auch hier richtig. Bemerkung 11.34 Die Existenz der Euler-Geraden ist wohl der erste nicht–triviale Sachverhalt in der Dreiecks2 geometrie, der in der Antike nicht bekannt war. Im Jahre 1822 entdeckte W. Feuerbach (1800 – 1834), daß es mit dem Kreis durch die Seitenmitten (Feuerbachkreis) eines Dreiecks eine besondere Bewandtnis hat: Bezeichnet n¨amlich f die Koordinaten des Mittelpunktes dieses Kreises, so gilt damit die sogenannte Feuerbach–Gleichung (Beweis!): 3s = m + 2f Eliminiert man den Schwerpunkt aus der Euler– und Feuerbach–Gleichung, so folgt 2f = m + h . Also liegt f auf der Euler–Geraden und zwar liegt f in der Mitte zwischen Umkreismittelpunkt und H¨ohenschnittpunkt. Die Abst¨ande der Punkte h, f, s, m verhalten sich wie 3 : 1 : 2. Schreibt man die Feuerbach–Gleichung in der Form 1 m − x = 2( (y + z) − f), 2 so folgt, daß der Radius des Feuerbach–Kreises gerade die H¨alfte des Umkreisradius ist. Eliminiert man m aus Euler– und Feuerbach–Gleichung, so erh¨alt man 4f = 3s + h . Daraus folgt, daß die Mitten der H¨ohenabschnitte zwischen H¨ohenschnittpunkt und zugeh¨origer Ecke auf dem Feuerbach–Kreis liegen. Weiterhin erh¨alt man noch, daß die Fußpunkte der H¨ohen auf dem Feuerbach–Kreis liegen. Zusammengefaßt gilt Satz 11.35 In einem nichtentarteten Dreieck liegen Seitenmitten, Mitten der H¨ohenabschnitte, Fußpunkte der H¨ohen auf dem Feuerbach–Kreis.
Baumeister: Mathematik III / Stand: Februar 1998
283
Das Resultat von Satz ?? wird oft dadurch festgehalten, daß man den Feuerbach–Kreis den Neunpunktekreis nennt. Sei ein Dreieck mit den Ecken A, B, C gegeben. Auf der Winkelhalbierenden durch den Eckpunkt A liegen die Punkte, die von den anliegenden Dreiecksseiten gleich großen Abstand besitzen. Der Schnittpunkt zweier Winkelhalbierenden im Dreieck hat dann von allen drei Dreiecksseiten gleich großen Abstand. Also ist dieser Punkt der gemeinsame Schnittpunkt der Winkelhalbierenden und damit der Mittelpunkt des Inkreises des Dreiecks. Gegeben sei ein spitzwinkeliges Dreieck ABC, d.h. ein Dreieck, dessen Winkel alle kleiner als π2 sind; die Seiten seien wie u ¨ blich mit a, b, c beschriftet. Auf diese Seiten werden nach außen gleichseitige Dreiecke ACB 0, BCA0 und ABC 0 aufgesetzt. Dann schneiden sich die Geraden durch A, A0, B, B 0 und C, C 0 in einem Punkt, dem sogenannten Fermat– Punkt (Pierre de Fermat (1601 – 1655). Zeichnet man nun die Umkreise der Dreiecke ACB 0, BCA0 und ABC 0 ein, dann schneiden sich diese Kreise im Fermat–Punkt und die Umkreismittelpunkte bilden eine gleichseitiges Dreieck, das sogenannte Napol´eon–Dreieck (Napol´eon Bonaparte (1769 – 1821)). Die Beweise dieser Aussagen wollen wir hier nicht anf¨ uhren.
11.3
Bewegungen und orthogonale Gruppe
Wir kennen den Begriff der Bewegung schon aus Kapitel 9. Wir wiederholen ihn hier in etwas schlankerer Form. Definition 11.36 Eine Abbildung F : IR2 −→ IR2 heißt eine Bewegung (oder Kongruenz(abbildung)), falls sie abstandserhaltend ist. 2 Wir haben also hier auf den Zusatz “surjektiv“ verzichtet. Wir werden zeigen k¨onnen, daß eine Bewegung schon bijektiv ist. Klar, die Hintereinanderausf¨ uhrung von Bewegungen ist stets wieder eine Bewegung; siehe Abschnitt 9.3. In Beispiel 11.4 haben wir schon eine erste Bewegung analytisch– geometrisch kennengelernt. Beispiel 11.37 Jede Spiegelung an einer Geraden g (Achsenspiegelung mit Spiegelungsachse g) ist eine Bewegung. Dabei ist die Geradenspiegelung F an der Geraden g, gegeben durch Hz,α mit |z| = 1, so erkl¨art: F : IR 2 3 x 7−→ x + 2(α− < z, x >)z ∈ IR2 . Offenbar stimmt dies mit der Anschauung u ¨berein, daß die Punkte der Geraden fix bleiben und die Gerade g die Mittelsenkrechte der Verbindungsstrecke von x und F (x) ist.
Baumeister: Mathematik III / Stand: Februar 1998
284
F ist abstandserhaltend, denn |F (x) − F (y)|2 = = = =
|x − y + 2(α− < z, y >)z − 2(α− < z, y >)z|2 |x − y + 2(< z, y > − < z, x >)z|2 |x − y − 2 < z, x − y > z|2 |x − y|2
2 Beispiel 11.38 Eine Drehung der euklidischen Ebene mit Drehzentrum θ kann so beschrieben werden: T : IR 2 3 x = (x1, x2) 7−→ (cos(α)x1 − sin(α)x2, sin(α)x1 + cos(α)x2 ) ∈ IR2 . Dabei steht α f¨ ur den Drehwinkel, denn es gilt < x, T (x) >= cos(α)x21 − sin(α)x1 x2 + sin(α)x1 x2 + cos(α)x22 , d.h. cos(α) =
< x, T (x) > . |x||T (x)|
2
Beispiel 11.39 Die Hintereinanderausf¨ uhrung von zwei Geradenspiegelungen ist eine Translation oder eine Drehung, je nachdem, ob die Spiegelungsachsen parallel sind oder nicht. Sind Fg , Fh die Spiegelungen mit den Spiegelungsachsen Hz,α , Hz0 ,α, so haben wir: (Fg ◦ Fh )(x) = Fg (x + 2(α0 − < z 0 , x >)z 0) = x + 2(α0 − < z 0 , x >)z 0 + 2(α− < z, x + 2(α0 − < z 0 , x >)z 0 >)z = x + 2(α0 − < z 0 , x >)z 0 + 2(α− < z, x > z − 2(α0 − < z 0, x >) < z 0 , z > z) > Ist z = z 0, dann lesen wir wegen (Fg ◦ Fh )(x) = x + 2(α + α0 )z ab, daß die resultierende Abbildung Fg ◦ Fh eine Translation mit Verschiebungsvektor 2(α + α0 )z ist Ist z = z 0, dann sehen wir ohne M¨ uhe (Fg ◦ Fh )(x) = −x , und wir lesen ab, daß die resultierende Abbildung Fg ◦ Fh eine sogenannte Punktspiegelung ist. 2
Baumeister: Mathematik III / Stand: Februar 1998
285
Bei allen Beispielen von Bewegungen l¨aßt sich feststellen, daß sie nicht nur abstandserhaltendend sind, sondern sogar geradentreu (Geraden werden in Geraden u uhrt) und ¨berf¨ winkeltreu (Winkel werden in gleiche Winkel u uhrt). Dies wollen wir noch allgemein ¨ berf¨ zeigen. Ob wir in den obigen Beispielen schon alle m¨oglichen Kongruenzabbildungen erfaßt haben, l¨aßt sich hier noch nicht entscheiden. Allerdings l¨aßt sich durch Betrachtung des IR 2 in der Gestalt der komplexen Zahlen hier schon mehr aufkl¨aren, denn jede Abbildung f : C0 −→ C0 , die abstandserhaltend ist, ist notwendigerweise von der Form f+ oder f−, wobei f+ (z) = ζ + eiφ z oder f−(z) = ζ + eiφ z mit ζ ∈ C0 und φ ∈ IR . Wir wollen dies hier nicht beweisen, ein Hinweis f¨ ur den Beweis ist enthalten in Bemerkung ??. Daß sich f+ bzw. f− aus einer Translation (ζ steht daf¨ ur) und einer Drehung (um φ) zusammensetzt, ist leicht abzulesen. Lemma 11.40 Sei F : IR 2 −→ IR2 eine Bewegung. Dann gilt f¨ur alle x, y ∈ IR2 und a ∈ IR F (ax + (1 − a)y) = aF (x) + (1 − a)F (y) . Beweis: Sei z := ax + (1 − a)y . 1. Fall: 0 ≤ a ≤ 1 . Es folgt |x − z| = |x − ax − (1 − a)y| = |(1 − a)(x − y)| = (1 − a)|x − y| und |y − z| = |y − ax − (1 − a)y| = |a(y − x)| = a|x − y| . Wir setzen u := F (x), v := F (y), w := F (z) . Es folgt |u − w| = |x − z| = (1 − a)|x − y| = (1 − a)|u − v| , |v − w| = |y − z| = a|x − y| = a|u − v| , und daher |u − v| = |u − w| + |w − v| . Diese Entfernungsbeziehung kann aber nur gelten, wenn w = au + (1 − a)v gilt; also F (ax + (1 − a)y) = aF (x) + (1 − a)F (y) . 2. Fall: a ∈ / [0, 1], etwa a < 0 . Damit gilt 1 . 1−a Da a0 ∈ [0, 1] ist, k¨onnen wir das Ergebnis aus dem ersten Fall ablesen. y = a0z + (1 − a0 )x mit a0 :=
Baumeister: Mathematik III / Stand: Februar 1998
286
Die Aussage von Lemma 11.40 besagt, daß F eine affine Abbildung ist. Folgerung 11.41 Sei F : IR 2 −→ IR2 eine Bewegung. Dann gilt: (a) F f¨uhrt Geraden in Geraden ¨uber. (b) F f¨uhrt Winkel in gleiche Winkel ¨uber. (c) F f¨uhrt ein Dreieck in ein seitengleiches Dreieck ¨uber. Beweis: Zu (a) Sei eine Gerade g gegeben durch Lp,w . F¨ ur einen Punkt x der Geraden gilt dann x = p + tw = t(w + p) + (1 − t)p mit einem t ∈ IR . Mit Lemma 11.40 folgt F (x) = tF (w + p) + (1 − t)F (p) = F (p) + t(F (w + p) − F (p) . Daraus lesen wir ab, daß das Bild der Geraden Lp,w die Gerade LF (p),F (w+p)−F (p) ist. Zu (b) F¨ ur x, y ∈ IR 2 gilt 2 < F (x), F (y) > = |F (x)|2 + |F (y)|2 − |F (x) − F (y)|2 = |x|2 + |y|2 − |x − y|2 = 2 < x, y > woraus die Behauptung ablesbar ist. (c) folgt aus (a) und (b) . Bemerkung 11.42 Im Beweis zur Folgerung 11.41 haben wir gesehen, daß eine abstandserhaltende Abbildung F : IR2 → IR 2 zus¨atzlich auch das Skalarprodukt invariant l¨aßt. 2 Damit k¨onnen wir nun endlich best¨atigen, daß wir in Abschnitt 9.3 etwa in der Dihedralgruppe D3 alle Bewegungen des gleichseitigen Dreiecks gefunden haben. Denn mit Folgerung ?? schließen wir, daß die Bilder von Eckpunkten wieder Eckpunkte sein m¨ ussen. Also ist jede Bewegung des gleichseitigen Dreiecks schon durch die Permutation der Eckpunkte bestimmt. Nun wollen wir die Bewegungen konkreter als Koordinatenabbildungen beschreiben. Dazu betrachten wir f¨ ur α ∈ IR folgende Abbildungen: T (α) : IR 2 3 x = (x1, x2) − 7 → (cos(α)x1 − sin(α)x2, sin(α)x1 + cos(α)x2 ) ∈ IR2 S(α) : IR2 3 x = (x1, x2 ) − 7 → (cos(α)x1 + sin(α)x2 , sin(α)x1 − cos(α)x2) ∈ IR 2 Setze e(ϕ) := (cos ϕ, sin(ϕ)) , ϕ ∈ IR . Mit Hilfe der Additionstheoreme f¨ ur Sinus und Cosinus verifiziert man leicht:
Baumeister: Mathematik III / Stand: Februar 1998
287
(R1) T (α)x = y ⇐⇒ x = T (−α)y (R2) S(α)x = y ⇐⇒ x = S(α)y (R3) T ( π2 )x = x⊥. (R4) T (α) ◦ T (β) = T (α, β), S(α) ◦ S(β) = T (α − β) (R5) T (α) ◦ S(β) = S(α + β), S(β) ◦ T (α) = S(β − α) (R6) T (β)e(α) = e(α + β), S(β)e(α) = e(β − α) Aus (R6) lesen wir ab, daß die Abbildung T (β) eine Drehung um den Winkel β beschreibt. Offenbar ist S(0) eine Spiegelung an der x1−Achse. Da nach (R5) S(α) = T (α) ◦ S(0) ist, k¨onnen wir die Abbildungen S(α) als Spiegelungen bezeichnen. Definition 11.43 Wir setzen und nennen
O+ (2) := {T (α)|α ∈ IR} , O− (2) := {S(α)|α ∈ IR}, O(2) := O+ (2) ∪ O− (2)
die orthogonale Gruppe und SO(2) := O+ (2) die spezielle orthogonale Gruppe.
2
Die Bezeichnung Gruppe“ in Definition 13.28 ist gerechtfertigt, denn: ” Lemma 11.44 O(2) ist eine Untergruppe von GL(2; IR) und SO(2) ist ein Normalteiler von O(2). Beweis: O(2) ist eine Teilmenge von GL(2, IR) nach (R1) und (R2). Aus (R1), (R2) und (R4) liest man ab, daß mit g, h ∈ O(2) auch g ◦ h−1 ∈ O(2) gilt. Also ist O(2) nach Definition 10.23 eine Untergruppe von GL(2; IR) . SO(2) ist offenbar eine Teilmenge von O(2). Aus (R1) und (R2) liest man ab, daß mit g, h ∈ SO(2) auch g ◦ h−1 ∈ SO(2) gilt. Also ist SO(2) eine Untergruppe von O(2). Die Normalteilereigenschaft liest man aus den Rechenregeln (R1) – (R6) ab. Satz 11.45 (a) Ist F : IR 2 −→ IR 2 eine abstandserhaltend, so ist F bijektiv. (b) F : IR 2 −→ IR2 ist eine Bewegung genau dann, wenn es T ∈ O(2) und p ∈ IR 2 gibt mit F (x) = T x + p , x ∈ IR 2 . Beweis:
Baumeister: Mathematik III / Stand: Februar 1998
288
Sei F abstandserhaltend. Sei zun¨achst F (θ) = θ. Wir zeigen in diesem Spezialfall, daß F eine lineare Abbildung ist. Aus Bemerkung 11.42 wissen wir, daß F das (euklidische) Skalarprodukt invariant l¨aßt. Aus ( i
j
< F (e ), F (e ) > =
0 1
, i 6= j , i, j = 1, 2 . ,i = j
folgt, daß F (e1), F (e2) eine Basis von IR 2 ist; siehe Satz 11.17. Sei x = ae1 + be2 ∈ IR 2 . Da F (e1), F (e2) eine Basis von IR 2 ist, gibt es a0, b0 ∈ IR mit F (x) = a0F (e1) + b0 F (e2). Aus < F (x), F (e1) > = < x, e1 > = a , < F (x), F (e2) > = < x, e2 > = b liest man
a0 = a, b0 = b, d.h. F (x) = aF (e1) + bF (e2)
ab. Dies zeigt unmittelbar, daß F linear ist. Da |F (e1)| = |F (e2)| = 1 und F (e2) = F (e1)⊥ gilt, folgt !
!
cos ϕ − sin ϕ F (e ) = , F (e2) = sin ϕ cos ϕ 1
mit einem ϕ ∈ IR . Dies zeigt F = T (ϕ). Sei nun F (θ) = p. Setze G(x) := F (x) − p, x ∈ IR2 . Dann ist auch G abstandserhaltend und wegen G(θ) = θ gibt es ϕ ∈ IR mit G(x) = T (ϕ)x , x ∈ IR2 . Also ist F (x) = T (ϕ)x + p, x ∈ IR 2 . Damit ist von (b) die Darstellungsaussage schon gezeigt. Die Bijektivit¨at folgt nun sofort aus der abgeleiteten Darstellung f¨ ur F . Daß jedes F wie in (b) dargestellt, eine abstandserhaltende Abbildung ist, ist klar. Nun wollen wir (reichlich sp¨at) die Kongruenzs¨atze der Dreiecksgeometrie anf¨ uhren. Definition 11.46 Zwei Dreiecke ABC, A0B 0C 0 heißen kongruent, wenn es eine Bewegung F : IR 2 −→ IR 2 gibt mit F (A) = A0, F (B) = B 0, F (C) = C 0 .
2 Seien Dreiecke ABC, A0B 0C 0 gegeben mit Winkeln α, β, γ und Seiten a, b, c .
Baumeister: Mathematik III / Stand: Februar 1998
289
SWS Ist |AB| = |A0B 0 |, |AC| = |A0C 0| und < ) BAC = < ) B 0 A0C 0, so sind ABC und A0B 0 C 0 kongruent. ) BAC = < ) B 0 A0 C 0 , < ) ABC = < ) A0 B 0C 0 , so sind ABC und WSW Ist |AB| = |A0B 0 | und < 0 0 0 A B C kongruent. SSS Ist |AB| = |A0B 0|, |AC| = |A0C 0|, |BC| = |B 0C 0|, so sind ABC und A0B 0C 0 kongruent. SSW Ist |AB| = |A0B 0|, |AC| = |A0C 0 | und < ) ACB = < ) A0 C 0B 0 so sind ABC und A0B 0 C 0 kongruent. Der Beweis zum Kongruenzsatz SWS (zwei Seiten und der dazwischenliegende Winkel sind gegeben) etwa sieht so aus: Man finde eine Translation, die A nach A0 abbildet. Man ~ nach AC ~ dreht. Die Hintereinanw¨ahle eine Drehung T (α), die den Richtungsvektor AB derausf¨ uhrung dieser beiden Bewegungen leistet das Gew¨ unschte. Bemerkung 11.47 In der Anschauungsebene IE 2 oder in IR2 kann eine Orientierung dadurch gegeben werden, daß man eine der beiden m¨oglichen Drehrichtungen um den Nullpunkt als positiv“ aus” zeichnet. Die in Mathematik und Physik u ¨ bliche Drehrichtung ist diejenige, welche dem Uhrzeiger entgegen dreht. Man sagt, ein Paar (x, y) ∈ IR 2 ist positiv orientiert, wenn [x, y] = < x⊥, y > positiv ist. Beispielsweise ist f¨ ur x 6= θ das Paar (x, x⊥) stets positiv orientiert; insbesondere ist das Paar (e1, e2) positiv orientiert (e2 entsteht aus e1 durch Drehung im Gegenuhrzeigersinn um den Winkel π2 ). 2
11.4
Wege und Kurven
Es gibt zwei Arten, den Begriff einer Kurve einzuf¨ uhren. In der geometrischen Auffassung ist eine Kurve der Ort von Punkten in der Ebene oder im Raum, die durch gewisse Eigenschaften charakterisiert sind. So wird etwa in der Ebene ein Kreis durch den konstanten Abstand zu einem Punkt beschrieben. Die Kegelschnitte (siehe Abschnitt 13.6), ein Hauptgegenstand der griechischen Mathematik, sind durch geometrische Eigenschaften definiert. In der mechanischen Vorstellung erscheint die Kurve als Bahnkurve eines bewegten Punktes. Beide Auffassungen finden sich bereits in der Antike. Die erste mechanisch erkl¨arte Kurve ist die Archimedische Spirale. Wenn sich ein Halbstrahl in einer Ebene um seinen Endpunkt mit gleichf¨ ormiger Geschwindigkeit dreht, nach einer beliebigen Zahl von Umdrehungen wieder in die Anfangslage zur¨ uckkehrt und sich auf dem Strahl der Punkt mit gleichf¨ ormiger Geschwindigkeit, vom Endpunkt des Halbstrahls beginnend, bewegt, so beschreibt dieser Punkt eine Spirale.4 4
Siehe H. Gericke: Mathematik in Antike und Orient; Springer-Verlag, 1984, S. 120.
Baumeister: Mathematik III / Stand: Februar 1998
290
Man beachte, daß der Begriff der gleichf¨ormigen Geschwindigkeit“ vorkommt, ein Be” griff, der erst bei I. Newton (1643 – 1727) im 16. Jahrhundert Kl¨arung und Bedeutung erfuhr. Die analytische Geometrie gestattet es, Kurven durch analytische Beziehungen zwischen den Koordinaten ihrer Punkte zu beschreiben. Bei Verwendung des u ¨blichen rechtwinkligen Koordinatensystems – hier schreiben wir anstatt (x1 , x2) stets (x, y) – haben wir: (a) die implizite Darstellung in der Form einer Gleichung f(x, y) = c, (b) die explizite Darstellung y = f(x), (c) die Parameterdarstellung x = ϕ(t), y = ψ(t). Die mechanische Auffassung wird in (c) deutlich: t wird als Zeit aufgefaßt. Die Bahn des Punktes ergibt sich als {(ϕ(t), ψ(t))|t ∈ I}, wobei I das Intervall der zul¨assigen (zur Verf¨ ugung stehenden) Zeit ist. Beispiel 11.48 F¨ ur die Kreislinie hat man folgende Darstellungen: (a) implizite Darstellung: x2 + y 2 = r2 , √ (a) explizite Darstellung: y = ± 1 − x2 , |x| ≤ 1 , (a) Parameterdarstellung: x = cos(t), y = sin(t), t ∈ [0, 2π] . Man beachte, daß auch x = cos(πt), y = sin(πt), t ∈ [0, 2) , eine Parameterdarstellung der Kreislinie ist. In beiden F¨allen stimmt nat¨ urlich die Bahn u 2 ¨berein, das Bewegungsgesetz ist verschieden (Zeitskala!). Beispiel 11.49 Ein Punkt P mit Masse m bewege sich auf der Kreislinie mit Radius r > 0 um den Ursprung O nach dem Gesetz x(t) = re(ωt) = (r cos(ωt), r sin(ωt)) , t ∈ IR ; dabei ist x(t) der Ortsvektor und ω > 0 eine Konstante. F¨ ur den Geschwindigkeitsvektor v(t) := x(t) ˙ (x(t) ˙ ist Physikernotation), dies ist die ¨ zeitliche Anderung des Ortes, gilt: v(t) = ωx(t)⊥ , |v(t)| = ωr . Diese Beziehung motiviert die Bezeichnung Winkelgeschwindigkeit f¨ ur ω . ¨ F¨ ur den Beschleunigungsvektor b(t) := v(t), ˙ dies ist die zeitliche Anderung des Geschwindigkeitsvektors, haben wir b(t) = −ω 2 x(t) , |b(t)| = ω 2 .
Baumeister: Mathematik III / Stand: Februar 1998
291
Der Geschwindigkeitsvektor ist tangential zur Bewegung (< v(t), x(t) > = 0 !) und der Beschleunigungsvektor ist entgegengesetzt dem Ortsvektor. Nach dem Kraftgesetz von Newton (siehe unten) wirkt auf den Massenpunkt eine Kraft k(t), gegeben durch k(t) := mb(t) = −mω 2x(t) . Diese Kraft nennt man Zentripetalkraft. Sie zwingt den Massenpunkt P auf der Kreislinie zu bleiben. (Man sp¨ urt diese Zentripetalkraft, wenn man etwa einen Stein an einem Faden bindet und im Kreis schwingt als Zugkraft des Fadens.) Auf einem Karusell sitzend nehmen wir die Zentripetalkraft als Zentrifugalkraft wahr. 2 Isaac Newton formulierte 1687 sein Weltsystem in der Schrift “Philosophiae Naturalis Principia Mathematica“. Er faßt darin das gesamte physikalische Geschehen in drei Grunds¨atzen oder Gesetzen der Bewegung zusammen, die an Einfachheit und Evidenz nicht zu u agheits–, das Kraft–, und das Reaktions¨berbieten sind. Es sind dies das Tr¨ gesetz. Unbeschleunigte Systeme, in denen also das Tr¨agheitsgesetz gilt, heißen Inertial¨ systeme. Die Naturgesetze haben in allen Inertialsystemen die gleiche Form (Aquivalenz der Inertialsysteme). Newton f¨ uhrt damit die komplexe Vielfalt der (makroskopischen) Erscheinungswelt auf wenige einfache Ursachen zur¨ uck. Die (sp¨ater anzuf¨ uhrenden) Keplerschen Gesetze, die J. Kepler ph¨anomenologisch aufgestellt hat, ergeben sich daraus (in erster und guter N¨aherung) auf mathematisch durchsichtige Weise zwingend. Die Form der Planetenbahnen ist also keine Sache der Vorliebe der Natur f¨ ur eine bestimmte edle Bewegungsform, sondern nur eine Folge von ¨außeren Zw¨angen und der Anfangsbedingung bei ihrer Entstehung; siehe die Bemerkung zu Kometenbahnen. Erst ca. 200 Jahre sp¨ater wurden seine Erkl¨arungen von Materie, Kraft, Bewegung, absoluter Zeit, absolutem Raum durch das Experiment von Michelsen 1881 in Frage gestellt. Der wesentliche Schritt zur Beseitigung der damit verbundenen Probleme sollte A. Einstein 1905 gelingen, indem er ¨ die Aquivalenz der Inertialsysteme um die Annahme der Konstanz der Lichtgeschwindigkeit in Bezug auf solche Inertialsysteme erg¨anzte. Solange man sich mit ganz konkreten aus der Physik kommenden Kurven besch¨aftigte, kam man in keinen Konflikt mit mathematischer Strenge. Dies ¨anderte sich dramatisch“, ” nachdem C. Jordan (1838–1922) 1883 eine Kurve C als stetiges Bild eines Intervalls definierte: C : [a, b] 3 t 7−→ (ϕ(t), ψ(t)) ∈ IR 2 , ϕ, ψ : [a, b] 7−→ IR stetig . Peano bewies n¨amlich 1890, daß es stetige Funktionen ϕ, ψ : [0, 1] 7−→ IR gibt, so daß die damit definierte Kurve C : [0, 1] 3 t 7−→ (ϕ(t), ψ(t)) ∈ IR 2 das ganze Quadrat [0, 1] × [0, 1] ausf¨ ullt, d.h. [0, 1] × [0, 1] = {(ϕ(t), ψ(t))|t ∈ [0, 1]}. Dies ist deswegen so u ¨berraschend, da [0, 1] × [0, 1] eine zweidimensionale Menge , [0, 1] als Definitionsgebiet der Parameterdarstellung eindimensional ist. Hier ist (ohne Nachweis) eine die Beschreibung einer solchen Kurve: ϕ(t) :=
∞ X
∞ X g(42k t) g(42k+1 t) , ψ(t) := k+1 2k+1 k=0 2 k=0
Baumeister: Mathematik III / Stand: Februar 1998 mit
r(t) :=
(
s(t) :=
292
0 , 0 ≤ t ≤ 13 3t − 1 , 13 ≤ t ≤ 23 1 , 23 ≤ t ≤ 1 r(t) , t ∈ [0, 1] r(−t) , t ∈ [−1, 0] ,
g : IR −→ IR mit g(t) = g(t + 2) , t ∈ IR , g(t) = s(t) , falls |t| ≤ 1. Eine erste (analytische) Aufgabe ist die Bestimmung der L¨ange einer Kurve. Da wir schon wissen, daß die Zahl π nicht durch Zirkel und Lineal konstruierbar ist, ist die L¨ange einer Kurve nicht immer rektifizierbar5, d.h. es ist nicht immer m¨oglich, die L¨ange der Kurve auf einer Geraden abzutragen. Analytisch bestimmen wir die L¨ange einer Kurve durch Approximation mit Streckenz¨ ugen; siehe Abbildung 11.8
Abbildung 11.8: Approximierende Streckenz¨uge Ein Streckenzug zu einem Weg (φ, ψ) kommt so zustande: W¨ahle eine Zerlegung a = t0 < t1 < · · · < tn = b des Intervalls [a, b] und setze p(t0, . . . , tn) :=
n X
|(φ, ψ)(ti) − (φ, ψ)(ti−1)| ;
i=1
dies ist nach Pythagoras die L¨ange des zugeh¨origen (approximierenden) Streckenzuges. Damit k¨onnen wir nun die L¨ange einer Kurve definieren: Definition 11.50 Eine Kurve (φ, ψ) : [a, b] −→ IR 2 hat L¨ange l genau dann, wenn l = sup{p(t0 , . . . , tn)|a = t0 < t1 < · · · < tn = b Zerlegung} < ∞ gilt. 5
rectificare (lat.) = gerade machen
2
Baumeister: Mathematik III / Stand: Februar 1998
293
Ohne Beweis teilen wir mit: Satz 11.51 Ist C : [a, b] 3 t 7−→ (ϕ(t), ψ(t)) ∈ IR2 eine Kurve und sind die Abbildungen ϕ, ψ stetig differenzierbar, so gilt f¨ur die L¨ange l der Kurve: Zb
l=
(ϕ0 (t)2 + ψ 0(t)2) 2 1
(11.9)
a
Die Formel 11.9 folgt durch Grenz¨ ubergang aus der L¨angenformel f¨ ur einen approximierenden Streckenzug. Der Einheitskreis hat als Parameterdarstellung [0, 2π] 3 t 7−→ (cos(t), sin(t)) ∈ IR 2 . F¨ ur die L¨ange l der Kreislinie erhalten wir nach Satz ?? somit Z2π
1
(sin(t)2 + cos(t)2) 2 dt = 2π
l= 0
Ein erster u ¨ ber den Kreis hinausgehender erfolgreicher Versuch einer L¨angenberechnung war die Berechnung der L¨ange der Neilschen Parabel (W. Neil (1637 – 1670)), die in impliziter Darstellung so lautet: y 2 − x3 = 0 . Der Bogen
3
y = x2 , 0 ≤ x ≤ 4 , ist ein St¨ uck davon. Als Parameterdarstellung dieses Bogens haben wir 3
[0, 4] 3 t 7−→ (t, t 2 ) ∈ IR2 , und f¨ ur die L¨ange dieses Bogenst¨ ucks erhalten wir mit Satz 11.51 Z4 0
s
√ 9 8 (1 + t)dt = (10 10 − 1) . 4 27
Noch eine Kl¨arung von Begriffen: Liegt eine Kurve in Parameterdarstellung C : [a, b] 3 t 7−→ (ϕ(t), ψ(t)) ∈ IR2 vor, so heißt (ϕ, ψ) der zugeh¨orige Weg und {C(t)|t ∈ [a, b]} die zugeh¨orige Bahn. Eine Jordankurve (C. Jordan (1838 – 1923)) ist eine Kurve, deren Parameterdarstellung injektiv ist. Eine Jordankurve C heißt geschlossen, wenn C(a) = C(b) gilt.
Baumeister: Mathematik III / Stand: Februar 1998
294
Aufkl¨arend ist der Jordansche Kurvensatz: Zu jeder geschlossenen Jordankurve C geh¨oren zwei Gebiete, ein beschr¨anktes Innengebiet G1 und ein unbeschr¨anktes Außengebiet G2 mit der Eigenschaft, daß C als Rand der Gebiete G1 und G2 auftritt und IR 2 = C ∪ G1 ∪ G2 ist, wobei G1 ∩ G2 = ∅ gilt. Anders ausgedr¨ uckt: Die Punkte der Ebene zerfallen in zwei Mengen G1 , G2 so, daß gilt: Punkte in G1 bzw. G2 k¨onnen durch eine Kurve so verbunden werden, daß die Kurve die Kurve C nicht schneidet, Punkte in G1 k¨onnen mit Punkten in G2 durch eine Kurve mit stetiger Parameterdarstellung nur so verbunden werden, daß ein Schnittpunkt mit der Kurve C auftritt. Der Beweis dieses Satzes ist nicht einfach und kann hier nicht einmal von der Idee her ausgebreitet werden. Die Schwierigkeiten f¨ ur den Beweis r¨ uhren daher, daß der Begriff der geschlossenen Jordankurven sehr allgemeine Kurven zul¨aßt, so daß innen und außen erst geeignet pr¨azisiert werden muß. Selbst f¨ ur Kurven, die sich aus Streckenz¨ ugen aufbauen, ist der Beweis noch fordernd, wenngleich durchsichtig6 Ein spezielle Klasse von Kurven sind die zweiter Ordnung. In impliziter Darstellung ist eine Gleichung zweiten Grades eine Gleichung der Form Ax2 + Bxy + Cy 2 + Dx + Ey + F = 0.
(11.10)
A, B, C, D, E, F sind reelle Zahlen. Generell sei vorausgesetzt: A, B, C seien nicht alle Null. Es kann vorkommen, daß die zugeh¨orige L¨ osungsmenge, d.h. die Menge der Punkte (x, y) ∈ IR2 , die eingesetzt in die linke Seite der Gleichung (11.10) Null ergeben, leer ist. Hier ist ein Beispiel: x2 + y 2 = −1 . Wir z¨ahlen sechs der wichtigsten Spezialf¨alle der allgemeinen Gleichung 11.10 auf: 1. Die Gleichung einer Ellipse x2 y 2 + 2 = 1 (a ≥ b > 0) a2 b mit den Halbachsen a und b. F¨ ur den Fall a = b ist dies die Gleichung eines Kreises. x2 + y 2 = a 2 mit dem Mittelpunkt im Koordinatenursprung und dem Radius a. 2. Die Gleichung einer Hyperbel x2 y 2 − 2 = 1 (a ≥ b > 0) a2 b mit den Halbachsen a und b. 3. Die Gleichung einer Parabel y 2 = 2px (p > 0) . 6
Siehe: R. Courant, H. Robbin: Was ist Mathematik, Springer, 1992, S. 202 ff
Baumeister: Mathematik III / Stand: Februar 1998
295
4. Die Gleichung eines Paares sich schneidender Geraden a2 x2 − b2y 2 = 0 (a > 0, b > 0) . 5. Die Gleichung eines Paares paralleler oder zusammenfallender Geraden x2 − a2 = (a ≥ 0) . 6. Die Gleichung f¨ ur einen Punkt (x − x0)2 + (y − y0 )2 = 0 .
Bemerkung 11.52 Die oben angef¨ uhrten 6 Spezialf¨alle ergeben sich als vollst¨andige Liste von F¨allen, wenn man zul¨aßt, das rechtwinklige Koordinatensystem geeignet zu w¨ahlen. 2
11.5
Kegelschnitte
Die Kurven Ellipse, Parabel, Hyperbel k¨onnen gemeinsam definiert werden durch: Ein Kegelschnitt C ist der geometrische Ort der Punkte P , deren Distanz von einem festen Punkt F das ε−fache der Distanz von einer festen Gerade g ist. ε heißt Exzentrizit¨ at, der Punkt F heißt Brennpunkt und g heißt Leitgerade. Diese Bezeichnungen gehen auf Apollonius (262? – 190? v. Chr.) zur¨ uck. Die Kegelschnitte sind festgehalten in der Abbildung 13.6.
Abbildung 11.9: Kegelschnitte Sei g 0 die Gerade durch F parallel zur Leitgeraden g und sei h die Gerade durch F senkrecht zur Geraden g. Offenbar ist der geometrische Ort C nun symmetrisch zu h.
Baumeister: Mathematik III / Stand: Februar 1998
296
Dann liegt auf g 0 eine Strecke LL0 , deren Endpunkte L und L0 auf dem geometrischen Ort C liegen. Sei L := |F L| = |F L0|. Wir haben nun definitionsgem¨aß l = |F L| = ε|LH| wobei H der Schnittpunkt der Geraden h0 durch L, parallel zu h, ist. Durch g 0 , h wird ein rechtwinkliges Koordinatensystem mit Ursprung F vorgelegt. F¨ ur einen Punkt P des geometrischen Ort C mit den kartesischen Koordinaten (x, y) haben wir in Polarkoordinaten x = r cos ϑ , y = r sin ϑ mit r = |F P | = ε|P K| = ε(|LH| − r cos ϑ) = l − εr cos ϑ wobei K der Schnittpunkt der Geraden h00 durch P parallel zu h ist. Also haben wir l = 1 + ε cos ϑ r
(11.11)
Hierin spiegelt sich dank cos ϑ = cos(−ϑ), sin(−ϑ) = − sin(ϑ), wieder die Symmetrie des geometrischen Ortes, bzgl. der Geraden h wieder.) Ist ε ∈ (0, 1), dann ist 1 + ε cos ϑ stets positiv und dies bedeutet, daß der Abstand r beschr¨ankt bleibt: Die Ellipse ist eine geschlossene Kurve. Ist ε = 1, dann ist r unendlich“ f¨ ur ϑ = −π; die Parabel ist keine geschlossene Kurve. ” Ist ε > 1, dann ist 1+ε cos ϑ positiv oder negativ, je nachdem, ob cos ϑ gr¨oßer oder kleiner ¨ als − 1ε ist. Dies deutet auf die zwei Aste der Hyperbel hin. Quadriert man in der Gleichung 13.18, so erh¨alt man x2 + y 2 = (l − εx)2 Ist ε 6= 1, erhalten wir mit a :=
(11.12)
l 1 − ε2 x + εa)2 y 2 + =1 la a2
(11.13)
und wir erkennen, daß hier die Gleichungen f¨ ur eine Ellipse oder Hyperbel stehen, allerdings nicht symmetrisch zum Ursprung. Nun gehen wir auf die verschiedenen Typen ein. Ellipse x2 y 2 + 2 = 1 (a ≥ b > 0) . a2 b Ist a = b, dann haben wir den Kreis √ als geometrischen Ort vor uns. Sei etwa a > b. Wir setzen c := a2 − b2, tragen auf der x−Achse die Punkte F1 , F2 mit den Koordinaten (−c, 0) bzw. (c, 0) ein; dies sind die Brennpunkte der Ellipse. Die Ellipse ist nun der geometrische Ort aller Punkte, f¨ ur die die Summe der Abst¨ande von F1 und F2 konstant (gleich 2a) ist. Denn es gilt f¨ ur einen Punkt P mit den Koordinaten (x, y) die Ellipsengleichung genau dann, wenn |(x, y) − (−c, 0)| + |(x, y) − (c, 0)| = 2a
Baumeister: Mathematik III / Stand: Februar 1998
297
gilt. Diese Tatsache entspricht der sogenannten G¨ artner–Konstruktion einer Ellipse: Ein Seil der L¨ange 2a wird in den Brennpunkten (−c, 0), (c, 0) eingepflockt und zu einem Dreieck F1F2 M gespannt; in M gleitet bei gespanntem Seil ein Stab entlang. Dieser 3. Punkt beschreibt dann eine Ellipse. Die Zahl ε := c/a heißt Exzentrizit¨ at der Ellipse. Die Gleichung einer Ellipse kann man auch in Parameterform schreiben: x = a cos(ϑ) , y = b sin(ϑ) (ϑ ∈ IR) . Wenn ϑ monoton das Intervall [0, 2π] durchl¨auft, so beschreibt der Punkt (x, y) eine vollst¨andige Ellipse. Kl¨aren wir nun die Bezeichnung Brennpunkt“ auf. Dazu schicken wir folgende Betrach” tung voraus, die aus Abbildung 13.7 abzulesen ist: Ist P eine Punkt auf der Ellipse, so verl¨angern wir die Strecke F1P u ¨ber P hinaus bis zu einem Punkt F10 so, daß |F1 F20 | = 2a gilt. Das Dreieck F2P F20 ist nun gleichschenklig, da ja |F1P | + |P f2 | = 2a und daher |P F20 | = |P F2 | gilt. Die Winkelhalbierende t von < ) (F2 P F20 ) ist also auch Mittelsenkrechte von F2F20 . Der Punkt P liegt auf t und t enth¨alt keinen weiteren Punkt, denn ist 6= P ein Punkt der Ellipse, so gilt aufgrund der Dreiecksungleichung |QF1| + |QF2| = |QF1| + |QF20 | > |P F1 | + |P F20 | + |P F20 | = 2a. Dabei ist t Tangente an die Ellipse in P. Die zu t senkrechte Gerade durch P , die wir Normale and die Ellipse in P nennen, ist Winkelhalbierende im Winkel < ) (F1 P F2). Wir haben also gezeigt: Satz 11.53 In jedem Ellipsenpunkt wird der Winkel < ) (F1P F2 ) von der Ellipsennormale halbiert. Aus Satz 13.35 ergibt sich nun, daß ein von F1 ausgehender Strahl an der Ellipse bzw.an der Ellipsentangente so reflektiert wird, daß der reflektierte Strahl durch F2 verl¨auft. Ein von außen auf die Ellipse treffender Strahl, dessen Verl¨angerung durch F1 verl¨auft, wird so reflektiert, daß die Verl¨angerung des reflektierten Strahls durch F2 verl¨auft. Eine entsprechende Eigenschaft hat ein Ellipsoid. Dies ist die Figur, die im Raum entsteht, wenn wir eine Ellipse um eine ihrer Achsen rotieren lassen. Hat ein Gew¨olbe in einem Bauwerk die Form eines Halbellipsoids, so kann ein Ton, der in F1 erzeugt wird, in F2 besonders gut geh¨ort werden; man spricht daher bei solchen Gew¨olben von Fl¨ ustergew¨ olben. Diese Eigenschaft macht man sich auch bei der B¨ undelung“ von Ultraschallwellen bei der ” Zertr¨ ummerung von Nierensteinen zunutze. Hier ist der Platz, einige Anmerkungen zur geometrischen Optik zu machen. Dies ist der Teil der Ph¨anomene der Lichtausbreitung, in dem man von einer geradlinigen Ausbreitung ausgehen kann, also von der Wellenstruktur des Lichtes absehen kann. (Experimente, in denen sich die auf die Wellennatur des Lichts verr¨at, sind die Streuexperimente an engen Schlitzen und kleinen L¨ochern.)
Baumeister: Mathematik III / Stand: Februar 1998
298
F¨allt ein Lichtstrahl auf eine ebene Fl¨ache (siehe Abbildung ??), die zwei Medien voneinander trennt, so wird er von ihr zum Teil oder auch vollst¨andig reflektiert. Der reflektierte Strahl liegt in der Ebene durch den einfallenden Strahl und das Lot, das auf dem Spiegel im Auftreffpunkt des einfallenden Strahls errichtet wird. Der Einfallswinkel ist gleich dem Ausfallswinkel. Aus diesem Reflexionsgesetz folgt, daß ein Beobachter das virtuelle Bild einer den Strahl aussendenden Lichtquelle in einem Punkt hinter dem Spiegel, der vom Spiegel den gleichen Abstand wie das reelle Bild hat. Die wichtigsten Anwendungen geometrischer Optik haben zu tun mit der Reflexion von Licht an gekr¨ ummten Fl¨achen. Eine solche haben wir schon am Parabolspiegel gesehen. H¨aufiger sind Anwendungen an sogenannten sph¨ arischen Hohlspiegeln, d.h. an der verspiegelten Innenwand eines Kugelsegments. ¨ Sei eine Kugel mit Radius R und Mittelpunkt M betrachtet. F¨ ur unsere Uberlegungen k¨onnen wir einen ebenen Schnitt (Ebene durch M) betrachten. Sei S Scheitel die Mitte des Kreissegments; die durch S und M gehenden Halbgerade bezeichnen wir als Achse. F¨allt nun parallel zur Achse ein Strahlenb¨ undel ein wird jeder achsennahe Strahl vom Spiegel so reflektiert, daß er n¨aherungsweise durch den in der Mitte zwischen S und M liegenden Punkt F hindurchgeht; F bezeichnen wir daher als Brennpunkt. Die Begr¨ undung sieht so aus: Sei F 0 der Durchgang eines in A reflektierten Strahls durch die Achse. Dann ist also nach dem Reflexionsgesetz - der Halbstrahl, der durch A und M geht, ist Winkelhalbierende im Dreieck F 0AB, wenn B irgendein Punkt auf dem einfallenden Strahl ist - MF 0O ein gleichschenkliges Dreieck. Daraus folgt nach kurzer Rechnung R 1 |F 0M| = 2 cos α wenn α = < ) (MOF 0 ) ist. F¨ ur kleine Werte von α k¨onnen wir 1 durch 1+ 21 α2 ersetzen, cos(α) da die Reihe f¨ ur den Kosinus so aussieht: 1 1 1 cos(α) = 1 − α2 + α4 − α6 + · · · ; 2! 4! 6! also ist 1 1 1 α4 = 1 + α2 + ϑ mit ϑ = · . 1 2 4 1 − 12 α2 1 − α2 2 o (F¨ ur α = 10 etwa betr¨agt die Abweichung von |F 0M| von R/2 = |F M| nur ca. 1, 5%.) Die Gr¨oße f := R 2 bezeichnet man nun als Brennweite. Hat man nun einen leuchtenden Pfeil der H¨ohe h auf dem Achsenpunkt P mit |SP | > |SF | vor dem Hohlspiegel stehen, so ensteht ein an der Achse gespiegeltes Bild davon im Achsenpunkt P 0 , der sich folgendermaßen ergibt: Der Strahl S1 , der von der Pfeilspitze in der H¨ohe h achsenparallel auf den Hohlspiegel in < ) f¨allt, wird als ein Strahl durch F reflektiert. Der Strahl S2, der von der Pfeilspitze durch den Mittelpunkt M verl¨auft, wird in sich reflektiert. Der Strahl S3 , der vom Punkt P im Scheitel S auf den Hohlspiegel f¨allt, wird in sich reflektiert. Diese drei Strahlen erzeugen dann ein Dreieck F P 00M und der Fußpunkt des Lotes von P 00 auf der Achse ist P 0 . P 00P 0 ist also das Bild des Pfeils. Man stellt nach einiger Rechnung fest: 1 1 1 + 0 = |P S| |P S| f
Baumeister: Mathematik III / Stand: Februar 1998
299
Dies ist die Newtonsche Abbildungsgleichung. Diese gilt nun auch sinngem¨aß f¨ ur den Fall |P S| < f, allerdings liegt dann das Bild als virtuelles Bild jenseits des Hohlspiegels. Lichtdurchl¨assige K¨orper, die von zwei Kugelfl¨achen begrenzt werden, bezeichnet man als Linsen. Die Verbindugslinie der Mittelpunkte M1 ud M2 der Kugelfl¨achen ist die Achse der Linse. Je nachdem, ob die Linse in der Achsenmitte dicker oder d¨ unner ist als am Rande, ist sie eine Sammellinse oder eine Zertrennungslinse. Linsen k¨onnen ebenso wie Hohlspiegel zur Abbildung dienen. Die Abbildung 13.8 m¨oge dies, ohne weiter darauf einzugehen, veranschaulichen. Die optischen Instrumente Fernrohr und Mikroskop, Augenlinse und Brille, sind eine ¨außerst n¨ utzliche Realisierung dieser Abbildungseigenschaften. Die Abbildungsfehler dieser Instrumente resultieren im wesentlichen aus der Tatsache, daß die Voraussetzung achsennah“ verletzt ist. ” Bemerkung 11.54 Der Beweis von Satz 13.35 enth¨alt eine einfache Konstruktionsvorschrift f¨ ur die Tangente an die Ellipse in einem Punkt. Er enth¨alt auch die Tatsache, daß eine Ellipse auch der geometrische Ort aller Punkte ist, die von einem Kreis (Kreis um F1 mit Radius 2a) und einem Punkt innerhalb des Kreises (F2) den gleichen Abstand haben. 2 Analytisch-geometrisch erh¨alt man eine Ellipse aus einem Kreis x2 + y 2 = b2 durch die Koordinatentransformation a u := x , v := y, b
(11.14)
denn es resultiert in den Koordinaten u, v die Gleichung u2 v 2 + =1 a 2 b2 Die Transformation 13.22 ist eine affine Transformation; man sagt, daß eine Ellipse ein affines Abbild eines Kreises ist. Die Abbildung 13.9 gibt dies wieder. Sie enth¨alt auch gleichzeitig eine M¨oglichkeit, eine Ellipse aus einem Kreis heraus zu zeichnen. Gest¨ utzt auf die astronomischen Messungen von Tycho de Brahe (1546 – 1601) entdeckte J. Kepler (1571 – 1630), daß sich die Planeten um die Sonne nicht auf Kreisbahnen sondern auf elliptischen Bahnen mit der Sonne im Brennpunkt bewegen. Er konnte damit und mit quantitativen Aussagen u ¨ ber Umlaufzeiten das heliozentrische Kopernikanische System st¨ utzen. Die Halbachsen der Bahnellipse verhalten sich im Falle der Erde wie 7200 zu 7199 (Exzentrizit¨at = 0, 017), so daß es verst¨andlich erscheint, daß N. Kopernikus (1473 – 1543) die Umlaufbahn der Erde um die Sonne noch f¨ ur einen Kreis hielt. (Im Falle der Marsbahn ist = 0, 0007.) Kepler stellt 1609/1619 die nach ihm benannten Gesetze auf: 1. Der Planet bewegt sich um die Sonne auf einer Ellipse, in deren einem Brennpunkt die Sonne steht. 2. Der von der Sonne zum Planeten gezogene Fahrstrahl u ¨ berstreicht in gleichen Zeiten gleiche Fl¨achen.
Baumeister: Mathematik III / Stand: Februar 1998
300
3. Die Quadrate der Umlaufzeiten der Planeten verhalten sich wie die Kuben der großen Halbachsen ihrer Bahnellipsen. Hyperbel x2 y 2 − 2 = 1 (a ≥ b > 0) . a2 b √ Sei etwa a > b. Wir setzen c := a2 + b2 und tragen auf der x− Achse die Brennpunkte F1, F2 mit den Koordinaten (−c, 0) bzw. (c, 0) ein. Die Hyperbel ist der geometrische Ort aller Punkte, f¨ ur die die Differenz der Abst¨ande von den Brennpunkten F1 und F2 konstant (gleich 2a) ist. Denn es gilt f¨ ur eine Punkt P mit den Koordinaten (x, y) die Hyperbelgleichung genau dann,wenn |(x, y) − (−c, 0)| − |(x, y) − (c, 0)| = 2a gilt. Damit haben wir aber nur den rechten Ast“ der Hyperbel beschrieben. Der linke ” Ast resultiert aus |(x, y) − (c, 0)| − |(x, y) − (−c, 0)| = 2a . Die Punkte (−a, 0) und (a, 0), in denen die Hyperbel die x−Achse schneidet, heißen Scheitel der Hyperbel. Die Geraden b y=± x a sind die Asymptoten der Hyperbel, da sich die Hyperbel¨aste im Unendlichen diesen Asymptoten ann¨ahern. Die Gleichung etwa des rechten Hyperbelastes kann in Parameterform so geschrieben werden: x = a cosh(u) , y = b sinh(u) (u ∈ IR) Die Konstruktion der Ellipse und Hyperbel aus den Punkten (a, 0), (0, b) mit Zirkel und Lineal kann man aus folgender Skizze ablesen:
Abbildung 11.10: Konstruktion der Ellipse und der Hyperbel
Baumeister: Mathematik III / Stand: Februar 1998
301
Ein Satz 13.35 entsprechendes und analog zu beweisendes Ergebnis ist Satz 11.55 Die Tangente an die Hyperbel in einem Punkt P ist Winkelhalbierende von < ) (F1 P F2) . Aus diesem Satz 13.38 folgt nun wieder die Eigenschaft, daß ein von F1 ausgehender oder auf F1 gerichteter Strahl so an der Hyperbel reflektiert wird, daß der reflektierte Strahl oder seine Verl¨angerung durch F2 geht. Die Konstruktion der Tangente an eine Hyperbel ist festgehalten in Abbildung 13.10. Bei der Ellipse sehen wir, daß sie als Bahn f¨ ur einen Massenk¨orper in dem Zentralfeld der Sonne auftritt; ein Planet ist eingefangen durch die von der Sonne (große Masse) auf den Planeten (kleine Masse) ausge¨ ubte Gravitationskraft. Die Hyperbel kommt ins Spiel, wenn wir uns einen Massenk¨orper, der mit positiver Engergie ins Kraftfeld der Sonne eintritt, vorstellen: Er beschreibt dann eine Hyperbelbahn, auf der er das Sonnensystem durcheilt und schließlich wieder verl¨aßt. Parabel y = 2px (p > 0) . Wir markieren auf der x−Achse den Brennpunkt F mit den Koordinaten (p/2, 0) und zeichnen die Gerade x = −p/2, welche Leitlinie der Parabel heißt, ein. Die Parabel ist also der geometrische Ort aller Punkte, die vom Brennpunkt und der Leitlinie den gleichen Abstand haben. Ein Satz 13.38 entsprechendes Ergebnis ist Satz 11.56 Die Tangente an die Parabel in einem Punkt P ist die Winkelhalbierende von < ) (F P L), wobei L der Fußpunkt des Lotes von P auf die Leitlinie ist. Bringt man in einem Brennpunkt eines Parabolspiegels eine Lichtquelle an, so werden die Lichtstrahlen parallel zur Achse der Parabel reflektiert. Dies wird bei der Konstruktion von Scheinwerfern ausgenutzt. Treffen Lichtstrahlen parallel zur Achse auf den Parabolspiegel dann gehen die reflektierten Lichtstrahlen durch den Brennpunkt. Diese Eigenschaft kann bei der Konstruktion eines Sonnenofens ausgen¨ utzt werden; die Bezeichnung Brennpunkt“ ist also mehr als angebracht. ” Von Archimedes (287 ? – 212 v.Chr.) wird berichtet, daß er im Krieg gegen die R¨omer einen Parabolspiegel eingesetzt hat, um die Flotte des Feindes in Brand zu setzen. Bei der Bewegung von Massenk¨orpern in einem Zentralfeld kommt die Parabel ins Spiel, wenn wir uns einen K¨orper, der mit Engergie Null ins Kraftfeld der Sonne “eintritt“, vorstellen: Er beschreibt dann eine Parabelbahn, auf der er das Sonnensystem durcheilt und schließlich wieder mit Energie Null “verl¨aßt“.
Baumeister: Mathematik III / Stand: Februar 1998
302
Wie wir oben gesehen haben, bestehen zwischen Ellipse, Hyperbel und Parabel viele Gemeinsamkeiten. Der Schl¨ ussel zum Verst¨andnis hierf¨ ur ist neben der gemeinsamen Definition als geometrischer Ort die Menaichmos (um 350 v.Chr.) zugeschriebene Entdeckung, daß diese Kurven beim Schnitt eines Kreiskegels mit einer geeigneten Ebene entstehen. Sie heißen daher auch Kegelschnitte. Von A. D¨ urer (1471 – 1528) gibt es dazu illustrative Bilder. Die Best¨atigung, daß dies so ist, liefern wir im Kapitel u ¨ber den euklidischen Raum mit etwas Rechnung in (dreidimensionalen) Koordinaten.
11.6
Vektorr¨ aume
Definition 11.57 Sei IK ein K¨orper mit Einselement 1, sei V eine Menge und seien Verkn¨upfungen ⊕ : V × V 3 (u, v) 7−→ u ⊕ v ∈ V ,
(Addition)
: IK ×V 3 (a, v) 7−→ a v ∈ V ,
(Skalare Multiplikation)
gegeben. V heißt zusammen mit ⊕, ein IK – Vektorraum (oder IK – linearer Raum), falls gilt: (V1) (V, ⊕) ist abelsche Gruppe. (V2) F¨ur alle u, v ∈ V, a, b ∈ IK gilt: (1) (a + b) v = a v ⊕ b v , (2) a (u ⊕ v) = a v ⊕ a v , (3) (a · b) v = a (b v) , (4) 1 v = v . Die Elemente von V heißen Vektoren, die Elemente von IK Skalare und IK heißt Skalark¨ orper.
Beispiel 11.58 Sei IK ein K¨orper mit den Verkn¨ upfungen +, · . Dann ist f¨ ur jedes n ∈ IN IK n zusammen mit der Addition ⊕ : IK n × IK n 3 ((x1 , . . . , xn ), (y1, . . . , yn )) 7−→ (x1 + y1, . . . , xn + yn ) ∈ IK n und der skalaren Multiplikation : IK × IK n 3 (a, (x1, . . . , xn)) 7−→ (ax1, . . . , axn) ∈ IK n ein Vektorraum u ¨ber IK . F¨ ur IK := IR erhalten wir Modelle, in dem unsere physikalische Umwelt sich ganz gut abbilden l¨aßt: IR 3 dient als Modell f¨ ur den uns umgebenden Raum, IR4 dient als Modell, das
Baumeister: Mathematik III / Stand: Februar 1998
303
als Beschreibungsmittel der Raum–Zeit–Welt geeignet ist und in der Relativit¨atstheorie Verwendung findet. 2 In einem Vektorraum (V, ⊕, ) ist auch eine Subtraktion erkl¨art: : V × V 3 (x, y) 7−→ x y := x ⊕ (−y) ∈ V , wobei −y das Negative zu y bez¨ uglich der Addition in der abelschen Gruppe (V, ⊕) ist. Damit gilt dann f¨ ur alle x ∈ V : x x = θ, wobei θ das neutrale Element in der abelschen Gruppe (V, ⊕) ist. Die Bezeichnungen ⊕, in einem Vektorraum (V, ⊕, ) haben wir zur Unterscheidung von der Notation in konkreten Vektorr¨aumen gew¨ahlt, in denen meist ⊕ mit einer Addition + und mit einer Multiplikation · in Verbindung gebracht werden kann (siehe Beispiel 11.58). Dies nimmt man zum Anlaß, allgemein die Verkn¨ upfungen in einem Vektorraum schlicht als +, ·, − zu schreiben; selbst · l¨aßt man meist noch weg, wie es bei Multiplikationen in IR auch der Fall ist. Allerdings empfiehlt es sich, das neutrale Element in der Gruppe (V, +) zur Unterscheidung von der skalaren Null immer noch als θ zu bezeichnen. Im Beispiel V := IR n bedeutet dies etwa θ := (0, . . . , 0) . Die Struktur des Vektorraums spielt die zentrale Rolle in der Linearen Algebra/Analytischen Geometrie, also in dem “Kalk¨ ul“, der algebraisches Rechnen und analytisches Werkzeug so erfolgreich verbindet. Gegenst¨ande der Betrachtung in der Linearen Algebra sind lineare Gleichungssysteme, Basis, Dimension, lineare Abbildungen (als den zur Struktur des Vektorraums passenden Abbildungen), Determinanten, quadratische Formen (als Verallgemeinerungen der Fl¨achen zweiter Ordnung). Der Begriff eines (endlich erzeugten) Vektorraums findet sich pr¨azise formuliert bei H. Grassmann (1809 – 1877), seine Ideen wurden aber erst nach seinem Tod aufgegriffen, insbesondere von G. Peano (1858 – 1932). Ihm standen nun die mengentheoretischen Sprechweisen zur Verf¨ ugung, er beschr¨ankte sich auch nicht auf endlich erzeugte Vektorr¨aume. In Lehrb¨ uchern findet sich der Begriff des abstrakten Vektorraums zu Beginn des 20. Jahrhunderts. Definition 11.59 angig, Vektoren x1 , . . . , xl in einem Vektorraum V ¨uber IK heißen linear unabh¨ wenn die Implikation l X
aixi = θ =⇒ a1 = · · · = al = 0
i=1
gilt. Sind die Vektoren x1, . . . , xl nicht linear unabh¨angig, dann heißen sie linear abh¨ angig. 2 Zum Begriff der Basis und Dimension, in Abschnitt 11.1 haben wir dies konkret schon vollzogen, kommt man, wenn man in einem Vektorraum nach der einer Menge von Vektoren
Baumeister: Mathematik III / Stand: Februar 1998
304
sucht, mit denen man noch jeden Vektor des Vektorraums als endliche Linearkombination darstellen kann; dabei heißt v=
l X
a i xi
i=1
Linearkombination von x1 , . . . , xl mit Koeffizienten a1, . . . , al , die v darstellt. Sind x1, . . . , xl linear unabh¨angig, dann sind die Koeffizienten sogar eindeutig durch v bestimmt; dies sieht man mit Definition 11.59 sofort ein. Definition 11.60 Eine Menge E von Vektoren in einem Vektorraum V ¨uber IK heißt ein Erzeugendensystem, wenn es zu jedem v ∈ V endlich viele Vektoren x1 , . . . , xl ∈ E und Skalare a1, . . . , al gibt mit v=
l X
a i xi .
i=1
Gibt es keine endliches Erzeugendensystem, so heißt der Vektorraum V nicht endlich erzeugt. 2 Beispiel 11.61 Kein Zweifel, e1 := (1, 0, 0, . . . , 0) , e2 := (0, 1, 0, . . . , 0) , . . . , en := (0, 0, . . . , 0, 1) ist ein Erzeugendensystem von IR n .
2
Definition 11.62 Eine Menge B von Vektoren in einem Vektorraum V ¨uber IK heißt eine Basis, wenn B eine linear unabh¨angige Menge und ein Erzeugendensystem ist. Ist die Menge B endlich, so sagen wir, daß der Vektorraum V die Dimension #B hat, anderenfalls sagen wir, daß die Dimension von V unendlich sei. 2 In der Definition 11.62 ist eine Schwierigkeit verborgen, denn es ist von vorneherein nicht klar, ob jede Basis gleich viele Elemente besitzt. Dies l¨aßt sich im Falle der endlichen Dimension konstruktiv beweisen. Ohne Beweis sei auch mittgeteilt, daß jeder Vektorraum, endlichdimensional oder unendlichdimensional, eine Basis besitzt. Wir beschr¨anken uns auf konkrete F¨alle, im Fall IR 2 hatten wir dies schon in Satz 11.17 festgestellt.
Kapitel 12 Absolute Geometrie der Ebene In diesem Kapitel erarbeiten wir den axiomatischen Aufbau der Geometrie (der Ebene) soweit, wie wir ohne Parallelenaxiom kommen. Als Grundbegriffe verwenden wir Punkt, Gerade, Abstand, zentral wird vor allem der (abgeleitete) Kongruenzbegriff sein.
12.1
Einfu ¨ hrung
Beim axiomatischen Aufbau der Geometrie treten zwei grundlegend verschiedene Arten von Begriffen auf: • (undefinierte) Grundbegriffe, deren Inhalt durch die Axiome bestimmt wird, und • definierte Begriffe, f¨ ur die auf der Basis der Grundbegriffe Definitionen angegeben werden k¨onnen. Ebenso gibt es zwei Kategorien von Aussagen: • Axiome (unbewiesene Grundaussagen) und • S¨ atze (Aussagen, die aus den Axiomen auf logischem Wege abgeleitet werden). Es ist nicht von vorneherein zwingend vorgegeben, welche Begriffe als Grundbegriffe deklariert und welche definiert werden. So ist es zum Beispiel m¨oglich, den Begriff Kongruenz als Grundbegriff aufzufassen und den Begriff Bewegung zu definieren, aber ebenso gibt es Axiomensysteme der euklidischen Geometrie, bei denen der Grundbegriff Bewegung auftritt und auf dieser Grundlage die Kongruenz bestimmt wird. Wir werden einen ganz anderen Weg w¨ahlen und den Begriff Abstand als Grundbegriff verwenden und daraus Bewegungen und Kongruenz definieren. Auswahlm¨oglichkeiten bestehen auch bei der Festlegung der Axiome – hier ist zu entscheiden, welche Aussagen aus welchen Aussagen bewiesen werden sollen. F¨ ur ein und dieselbe mathematische Theorie kann es recht unterschiedliche Axiomensysteme geben. F¨ ur die euklidische Geometrie gibt es eine sehr große Zahl von Axiomensystemen, die alle zueinander ¨aquivalent sind, aber v¨ollig verschiedene Grundbegriffe und Axiome enthalten. Welches Axiomensystem benutzt wird, h¨angt von speziellen vefolgten
305
Baumeister: Mathematik III / Stand: November 1997
306
Zielstellungen ab und ist auch eine Geschmacksfrage. Oft steht mathematische Ele” ” ganz“ dem leichten Verst¨andnis eines Axiomensystems gegen¨ uber. So ist beispielsweise die Forderung nach einem unbedingt minimalen Axiomensystem mit einigen recht schwer verst¨andlichen Axiomen verbunden. Als Grundbegriffe unseres Axiomensystems verwenden wir Punkt, Gerade, Abstand. Alle anderen Begriffe k¨onnen dann damit definiert werden. Die Axiome lassen sich in 5 Axiomengruppen zusammenfassen: (I) Inzidenzaxiome (II) Abstandsaxiome (III) Anordnungsaxiome (IV) Bewegungsaxiom (V) Parallelenaxiom Die Axiome I – IV sind die Axiome, auf die wir unsere Geometrie in diesem Kapitel aufbauen.1 Die entstehende Geometrie nennen wir absolute Geometrie. Im n¨achsten Kapitel f¨ ugen wir dann unterschiedliche Varianten des Parallelenaxioms hinzu. Es entstehen dann euklidische und nichteuklidische Geometrien. Mit den Axiomengruppen I – V steht ein vollst¨andiges Axiomensystem der ebenen Geometrie zur Verf¨ ugung. Entwickelt wurde dieses Axiomensystem in den sechziger Jahren von dem russischen Mathematiker und Mathematikdidaktiker A.N. Kolmogorow (1903 – 1987), der vor allem durch seine Arbeiten auf dem Gebiet der Wahrscheinlichkeitstheorie bekannt wurde. Wesentliche Grundideen, auf denen das Axiomensystem aufgebaut ist, wurden jedoch von Kagan bereits 1902 vorgestellt. Die Gruppe der Inzidenzaxiome (incidere (lat.): hineinfallen) besch¨aftigt sich mit der elementarsten geometrischen Relation, n¨amlich mit der Zusammmengeh¨origkeit von Punkten und Geraden. Hinter der Gruppe der Abstandsaxiome verbergen sich Eigenschaften, die wir aus Kapitel 11 schon in einer konkreten Situation kennen. Die Gruppe der Anordnungsaxiome dient dazu, Begriffe wie Strahl, Strecke und Winkel einzuf¨ uhren. Das Bewegungsaxiom wird ben¨otigt, um Kongruenzgeometrie betreiben zu k¨onnen. Die Reihenfolge der Axiomengruppe ist nicht beliebig, da sie aufeinander aufbauen. Ein streng logisch–deduktives Arbeiten stellt in der Geometrie eine besondere Schwierigkeit dar, da geometrische Begriffe immer anschauliche Vorstellungen hervorrufen, was abstraktes Arbeiten in der Geometrie erschwert. Neben der Frage, welche S¨atze der Geometrie aus bestimmten Axiomengruppen folgen, ist auch interessant, welche geometrischen Eigenschaften aus den entsprechenden Axiomen heraus noch nicht gegeben sind. Dazu werden Modelle einzelner Axiomengruppen 1
Wir folgen ziemlich eng der Darstellung in A. Filler, Euklidische und nichteuklidische Geometrie, BI Wissenschaftsverlag, 1993
Baumeister: Mathematik III / Stand: November 1997
307
betrachtet, die verdeutlichen, welche Spielr¨aume“ diese Axiomengruppe offenlassen. Je ” mehr Axiome hinzugezogen werden, desto kleiner werden diese Spielr¨aume“ und dem” nach die Vielfalt der m¨oglichen Modelle.
12.2
Inzidenzaxiome
Unter Inzidenzgeometrie wird die Herleitung von Folgerungen aus den Inzidenzaxiomen und die Betrachtung von Modellen dieser Axiomengruppe verstanden. Dar¨ uber hinaus ist der Begriff Inzidenzgeometrien als Bezeichnung f¨ ur einzelne konkrete Modelle der Inzidenzaxiome gebr¨auchlich. I. Inzidenzaxiome I/1 Jede Gerade ist eine Punktmenge. I/2 Zu zwei beliebigen, voneinander verschiedenen Punkten gibt es genau eine Gerade, welche diese beiden Punkte enth¨alt. I/3 Jede Gerade enth¨alt mindestens einen Punkt. I/4 Es existieren (mindestens) drei Punkte, die nicht einer Geraden angeh¨oren. Bevor wir die wichtigsten S¨atze auf der Grundlage der Axiome I/1 - I/4 beweisen, sind einige Bezeichnungen und Sprechweisen zu kl¨aren: • Punkte werden mit Großbuchstaben A, B, C, . . . , P, Q, . . . bezeichnet, Geraden bezeichnen wir mit Kleinbuchstaben g, h, . . .. • IP ist die Menge aller Punkte, G 0 ist die Menge aller Geraden. Die Menge aller Punkte wird auch Ebene genannt. • Folgende Sprech– und Schreibweisen werden synonym verwendet: – Der Punkt P ist Element der Geraden g (P ∈ g). – P indiziert mit g ; P liegt auf g. – P geh¨ort g an; P ist ein Punkt der Geraden g. • Ebenso synonym gebraucht werden – P ist Schnittpunkt der Geraden g und h. – P ∈ g ∩ h oder (falls g und h nur den einen Punkt gemeinsam haben, also nicht identisch sind) {P } = g ∩ h.
Baumeister: Mathematik III / Stand: November 1997
308
Definition 12.1 Seien g, h Geraden. (a) g, h schneiden sich, falls #g ∩ h = 1 gilt. (b) g, h sind parallel, falls g ∩ h = ∅ oder g = h gilt .
2 Definition 12.2 Eine Menge von Punkten heißt kollinear, falls es eine Gerade gibt, zu der alle diese Punkte geh¨oren. 2
Satz 12.3 (a) Zwei Geraden, die nicht identisch sind, haben h¨ochstens einen Punkt gemeinsam. (b) Sind g, h Geraden und existieren verschiedene Punkte P, Q, die beide sowohl auf g als auch auf h liegen, so sind g, h identisch. Beweis: Die beiden Aussagen (a), (b) sind ¨aquivalent. Also gen¨ ugt es (b) zu zeigen. Wegen Axiom I/2 existiert genau eine Gerade, die P und Q enth¨alt. Daher muß es sich bei g und h um ein und dieselbe Gerade handeln. Satz 12.4 Es existieren mindestens drei paarweise verschiedene Geraden, d.h. # G 0 ≥ 3. Beweis: Nach Axiom I/4 existieren drei Punkte P, Q, R, die nicht kollinear sind. Nach I/2 gibt es Geraden gP Q durch P, Q, gP R durch P, R und gQR durch Q, R. Die Geraden sind voneinander verschieden, denn sonst w¨aren P, Q, R kollinear. Unter einem Modell einer mathematischen Theorie (im hier vorliegenden Fall der Axiome I/1 - I/4) verstehen wir die Interpretation dieser Theorie in einer bereits bekannten (mathematischen oder nichtmathematischen) Struktur. Das bedeutet, daß die in der Theorie verwendeten Grundbegriffe innerhalb der bekannten Struktur eine konkrete Bedeutung zugewiesen bekommen und untersucht wird, ob bei dieser Interpretation der Grundbegriffe die Axiome der Theorie erf¨ ullt sind. Wir betrachten dazu ein Beispiel. Modell 1: Gegeben seien vier Halbkugeln H1 , . . . , H4 . Setzt man zwei dieser Halbkugeln Hi und Hj zusammen, so ergibt sich daraus eine Kugel Kij , wobei wir die Halbkugeln als Elemente der Kugel und die Kugel als Vereinigungsmengen jeweils zweier Halbkugeln auffassen(K12 =
Baumeister: Mathematik III / Stand: November 1997
309
H1 ∪ H2 ). Unsere Struktur besteht also aus vier Halbkugeln und der Operation“, Halb” kugeln zu Kugeln zusammenzuf¨ ugen. Diese Struktur darf als (zumindet intuitiv) bekannt vorausgesetzt werden. Die Grundbegriffe unserer Theorie interpretieren wir in dieser Struktur folgendermaßen. IP := G 0 :=
Menge der HalbkugelnH1 , . . . , H4 , Menge aller m¨oglichen Kugeln, die sich durch diese vier Halbkugeln zusammensetzen lassen, also K12, K13 , K14 , K23 , K24 und K34 .
Die Axiome der Gruppe I sagen f¨ ur dieses Modell nun folgendes aus: I/1 Jede Kugel ist eine Menge von Halbkugeln. I/2 Zu zwei beliebigen, voneinander verschiedenen Halbkugeln gibt es genau eine Kugel, welche diese beiden Halbkugeln enth¨alt. I/3 Jede Kugel enth¨alt mindestens eine Halbkugel. I/4 Es existieren (mindestens) drei Halbkugeln, die nicht einer Kugel angeh¨oren. Offensichtlich gelten alle diese Aussagen. Modell 1 ist also tats¨achlich ein Modell der Inzidenzaxiome. Innerhalb des Modells 1 wurden die Grundbegriffe Punkt“ und Gerade“ definiert. K¨on” ” nen Grundbegriffe also doch definiert werden ? Die Antwort auf diese Frage ergibt sich daraus, daß die Definitionen f¨ ur Punkt und Gerade nur auf das spezielle Modell bezogen sind. Es handelt sich dabei also nicht um allgemeing¨ ultige Definitionen dieser Begriffe sondern lediglich um modellbezogene Interpretationen. In anderen Modellen werden diese Begriffe v¨ollig anders definiert (interpretiert). Eine Verst¨andnisschwierigkeit d¨ urfte sich aus der Formulierung Interpretation in einer ” bekannten Struktur“ ergeben. W¨ahrend f¨ ur den theoretisch–axiomatischen Aufbau der Geometrie die streng deduktive Herleitung aller Aussagen gefordert wird, machen wir innerhalb des Modells von anschaulich einleuchtenden Tatsachen Gebrauch. Dies ist daher gerechtfertigt, daß mit der Betrachtung von Modellen ein v¨ollig anderes Ziel verfolgt wird, als mit dem axiomatischen Aufbau einer Theorie. Da wir bei dem Aufbau einer Theorie bildlich gesprochen, Neuland“ betreten, ist hierbei, also bei der Ableitung allgemeing¨ ulti” ger Schlußfolgerungen, ein besonders exaktes Vorgehen n¨otig. Bei der Betrachtung von Modellen bewegen wir uns hingegen auf vertrautem Terrain“ . Ein Ziel der Betrachtung ” von Modellen besteht in der Veranschaulichung bestimmter Aspekte einer Theorie. Aus dem Modell k¨onnen unter keinen Umst¨anden allgemeing¨ ultige Schlußfolgerungen f¨ ur die Theorie abgeleitet werden. Ein zweites Ziel bei der Betrachtung von Modellen besteht darin, die Widerspruchsfreiheit einer Theorie zu belegen. Lassen sich n¨amlich die Grundbegriffe einer Theorie innerhalb einer bekannten Struktur in einer Weise interpretieren, daß die Axiome wahre Aussagen ergeben, dann kann diese Theorie keine Widerspr¨ uche enthalten, falls nicht in der Struktur an sich Widerspr¨ uche auftreten. Im Hinblick auf den Aspekt des Nachweises der Widerspruchsfreiheit ist es also g¨ unstig, auf abgesichertere“ Strukturen zur¨ uckzu” greifen als im Modell 1. Daf¨ ur bietet sich beispielsweise die Mengenlehre an.
Baumeister: Mathematik III / Stand: November 1997
310
Modell 2: Wir betrachten die Menge M, die aus vier Elementen A, B, C, und D besteht. Diese Elemente nennen wir Punkte, alle Zweiermengen von (verschiedenen) Elementen dieser Menge Geraden. Mit den zu Beginn des Abschnitts eingef¨ uhrten Bezeichnungen ist also IP = M und G 0 = {{A, B}, {A, C}, {A, D}, {B, C}, {B, D}, {C, D}} Man u ullt sind. Eine triviale Veran¨berzeugt sich leicht, daß die Axiome I/1 bis I/4 erf¨ schaulichung des Modells ist:
In den Modellen 1 und 2 existieren 4 Punkte und 6 Geraden, wobei jede Gerade 2 Punkte enth¨alt. Diese Eigenschaften der Modelle sind nicht allgemeing¨ ultig aus den Axiomen ableitbar. Umgekehrt bedeutet dies, daß aus den Inzidenzaxiomen nicht ableitbar ist, daß • unendlich viele Punkte existieren, • unendlich viele Geraden existieren, • jede Gerade unendlich viele Punkte enth¨alt. Zus¨atzliche Axiome sind n¨otig, um dies zu sichern. Modell 3: Sei IP := {A, B, C}, G 0 := {{A, B}, {A, C}, {B, C}}. Hier haben wir ein minimales Modell, in dem die Axiome I/1 bis I/4 erf¨ ullt sind. Man kann sich n¨amlich leicht u ¨berlegen, daß man mit weniger Punkten und Geraden nicht auskommt. Eine triviale Veranschaulichung des Modells ist:
Wir haben nat¨ urlich großes Interesse, daß die euklidische Geometrie der Ebene, wie wir sie in Kapitel 11 kennengelernt haben, hierher paßt. Dies ist Inhalt von Modell 4: 0 := {Hz,d |z ∈ IR 2, z 6= θ; d ∈ IR} Sei IP := IE 2 , G Man weist nun mit den Ergebnissen des Kapitels 11 nach, daß die Axiome I/1 bis I/4 gelten. Die Vielfalt der m¨oglichen Modelle ist f¨ ur die Axiomengruppe I also noch sehr groß. Durch die Hinzunahme weiterer Axiomengruppen in unsere Betrachtungen wird die Zahl der Modelle immer kleiner und die Gestalt der Modelle wird immer mehr den Vorstellungen von einer Geometrie der Ebene entsprechen.
Baumeister: Mathematik III / Stand: November 1997
12.3
311
Abstandsaxiome
II. Abstandsaxiome II/1 Zu zwei beliebigen Punkten A und B gibt es eine nichtnegative reelle Zahl d, die genau dann verschwindet, wenn A = B gilt. Diese Zahl wird als Abstand |AB| der Punkte A und B bezeichnet. II/2 F¨ ur zwei beliebige Punkte A und B gilt |AB| = |BA|. II/3 F¨ ur drei beliebige Punkte A, B, und C gilt |AB| + |BC| ≥ |AC|. Falls A, B und C auf einer Geraden liegen, so gilt eine der drei Gleichungen |AB| + |BC| = |AC|, |AC| + |CB| = |AB|, |BA| + |AC| = |BC| ist umgekehrt eine dieser drei Gleichungen erf¨ ullt, so liegen A, B und C auf einer Geraden. Um Modelle der Axiomengruppe I zu Modellen der Axiomengruppe I und II zu erweitern, muß in diesen Modellen der Abstandsbegriff geeignet festgelegt werden. Beispiel 12.5 Betrachte Modell 3: IP := {A, B, C} , G 0 := {{A, B}, {A, C}, {B, C}}. Als Abstandsbegriff legen wir fest: (
|P Q| := d(P, Q) =
1 0
, falls P = Q , falls P 6= Q
Man kann sich leicht u ullt sind. ¨berzeugen, daß damit die Abstandsaxiome II/1 bis II/3 erf¨ Ebenso geht man in den Modellen 1,2 vor. 2 Beispiel 12.6 In der euklidischen Geometrie der Ebene (IP, G 0 wie in Modell 4) verwende man den Betrag | . | als Abstandsfunktion. Klar die Axiome II/1 bis II/3 sind erf¨ ullt. Statt des u blichen euklidischen Abstands kann man es auch mit dem sogenannten l1− ¨ Abstand versuchen: d1 (x, y) := |x1 − y1 | + |x2 − y2| , (xi , yi) ∈ IR 2 , i = 1, 2.
Baumeister: Mathematik III / Stand: November 1997
312
Offensichtlich gen¨ ugt auch diese Abstandsfunktion den Abstandsaxiomen II/1 bis II/3 1. Aussage. Die 2. Aussage in II/3 ist verletzt, wie man an den Punkten A(x1, x2 ), B(y1, y2 ) mit dem Punkt C(y1, x2) sieht. Daf¨ ur verantwortlich ist die Tatsache, daß die obigen Geraden k¨ urzeste Verbindungen nur f¨ ur den euklidischen Abstand darstellen. 2 Kommen wir nun zu Folgerungen aus den Axiomen I und II. Als (neu zu definierender) Begriff kommt nun Halbgerade und Strecke hinzu. Definition 12.7 Ein Punkt B liegt zwischen zwei Punkten A und C, falls B von A und C verschieden ist und |AB| + |BC| = |AC| gilt. Wir schreiben dann Zw(A, B, C).
2
Folgerung 12.8 (a) Aus Zw(A, B, C) folgt Zw(C, B, A). (b) Falls Zw(A, B, C) gilt, so sind A, B, C kollinear. (c) Von drei verschiedenen kollinearen Punkten liegt stets (mindestens) einer zwischen den beiden anderen. Beweis: Zu (a) Es gelte Zw(A, B, C). Dann ist B verschieden von C und A und es gilt |AB| + |BC| = |AC| Wegen I/2 gilt aber damit auch |CB| + |BA| = |AC| und damit Zw(C, B, A) . Zu (b) Folgt aus II/3. Zu (c) Folgt aus II/3. Es sei an dieser Stelle bemerkt, daß keinesfalls die Existenz dreier Punkte A, B, und C mit Zw(A, B, C) nachgewiesen werden kann. Dies l¨aßt sich leicht dadurch begr¨ unden, daß in den Modellen 1,2 und 3 Geraden jeweils nur zwei Punkte enthalten und drei kollineare Punkte deshalb u ¨berhaupt nicht vorhanden sind. Selbstverst¨andlich gelten in allen Modellen der Axiomengruppe I und II, insbesondere bei den Modellen 1 – 4, die drei oben aufgef¨ uhrten Folgerungen. Bei genauer Betrachtung l¨aßt sich jedoch feststellen, daß die Voraussetzungen f¨ ur diese Folgerungen nicht erf¨ ullt sind, falls keine drei kollineare Punkte existieren. Somit gelten diese Folgerungen zwar, beinhalten aber f¨ ur bestimmte Modelle nur eine Aussage u ¨ber eine leere Menge.
Baumeister: Mathematik III / Stand: November 1997
313
Definition 12.9 (a) Als offene Strecke (AB) zwischen den voneinander verschiedenen Punkten A und B wird die Menge aller Punkte X bezeichnet, die zwischen A und B liegen: (AB) := {X|X ∈ IP; es gilt Zw(A, X, B} (b) Als abgeschlossene Strecke AB (oder Strecke oder Verbindungsstrecke) wird die Vereinigungsmenge der offenen Strecke (AB) mit den Punkten A und B bezeichnet: AB := (AB) ∪ {A, B}. (c) Die Punkte A und B heißen Endpunkte der Strecke AB. (d) Der Abstand |AB| heißt L¨ ange der Strecke AB Die Bezeichnung “L¨ange“ der Strecke f¨ ur die Zahl |AB| ist nicht ganz korrekt, aber weithin verbreitet. Korrekt w¨are es, diese Zahl als L¨ angenmaß oder Maßzahl zu bezeichnen. ¨ Eine Streckenl¨ange ist streng genommen keine Zahl, sondern eine Aquivalenzklasse kongruenter Strecken. Um unn¨otige Schwierigkeiten zu vermeiden und in Anbetracht der Tatsache, daß in der Umgangssprache (aber auch im Mathematikunterricht) L¨angenmaßzahlen einfach nur L¨angen genannt werden, benutzen wir diese Bezeichnung ebenfalls. Definition 12.10 Seien O und A zwei verschiedene Punkte. (a) Die Mengen OA+ und OA− mit OA+ := {P |P ∈ IP, Zw(OAP ) oder Zw(OAP ) oder P = A} OA− := {P |P ∈ IP, Zw(P OA)} heißen offene Halbgeraden mit dem Anfangspunkt O. (b) Die Vereinigungsmenge einer offenen Halbgeraden mit ihrem Anfangspunkt heißt abgeschlossene Halbgerade.
Satz 12.11 Sei g eine Gerade und O, A zwei verschiedene Punkte auf dieser Geraden. Dann gilt f¨ur die offenen Halbgeraden OA+ und OA− : OA+ ∩ OA− = ∅ , OA+ ∪ OA− = g\{O} . Beweis: Zu (a) Sei P ∈ OA+ ∩ OA− . Dann gilt nach Definition 12.10 Zw(OAP ) oder Zw(OAP ) oder P = A und Zw(P OA). Wegen Folgerung 12.8 (c) kann jedoch von drei Punkten nur einer
Baumeister: Mathematik III / Stand: November 1997
314
zwischen den beiden anderen Punkten liegen, was f¨ ur P 6= A sofort zu einem Widerspruch f¨ uhrt. Ist jedoch P = A , kann wegen O 6= A nicht Zw(AOA) gelten, also geh¨ort P = A nicht zu OA− . Zu (b) Sei Q ein von O verschiedener Punkt der Geraden g. Nach Folgerung 12.8 (c) liegt dann von den Punkten O, A und Q einer zwischen den beiden anderen oder Q ist mit A identisch. In beiden F¨allen geh¨ort Q einer der beiden Halbgeraden OA+ und OA− und somit der Vereinigungsmenge OA+ ∪ OA− an. Der obige Satz 12.11 l¨aßt sich auch anders formulieren: Satz 12.12 Ein Punkt O einer Geraden g teilt die Menge der von O verschiedenen Punkte der Geraden g in zwei disjunkte Mengen derart, daß (a) f¨ur zwei Punkte A und B, die verschiedenen Mengen angeh¨oren, der Punkt O zwischen den Punkten A und B liegt, (b) wenn die Punkte A und B derselben Menge angeh¨oren, einer von ihnen zwischen O und dem anderen Punkt liegt. Beweis: Der Beweis dieser Variante sei dem Leser u ¨berlassen. Mit den bisher zugrundegelegten Axiomen I und II l¨aßt sich nicht nachweisen, daß es sich bei den offenen Halbgeraden um nichtleere Mengen handelt. So kann anhand der Modelle 1–3 nachgepr¨ uft werden, daß Halbgeraden auch die leere Menge sein k¨onnen. Dieser Teil wird im n¨achsten Abschnitt durch die Hinzuf¨ ugung von Anordnungsaxiomen ausgeschlossen.
12.4
Anordnungsaxiome
III. Anordnungsaxiome III/1 Zu jeder nichtnegativen reellen Zahl a und jedem Punkt O der Ebenen existiert auf jedem Strahl mit dem Anfangspunkt O genau ein Punkt A mit |OA| = a. III/2 Eine beliebige Gerade g teilt die Menge der ihr nicht angeh¨orenden Punkte der Ebene in zwei nichtleere, disjunkte Mengen derart, daß (a) die Verbindungsstrecke zweier beliebiger Punkte, die verschiedenen Mengen angeh¨oren, die Gerade g schneidet und (b) die Verbindungsstrecke zweier beliebiger Punkte, die derselben Menge angeh¨oren, die Gerade g nicht schneidet.
Baumeister: Mathematik III / Stand: November 1997
315
Folgerung 12.13 Jede Gerade, jede Strecke, jede Halbgerade enth¨alt unendlich viele Punkte. Beweis: Folgt unmittelbar aus Axiom III/1 und den Definitionen von Strecken und Halbgeraden. Aus der obigen Folgerung 12.13 wird nun klar, daß die endlichen Modelle keine Modelle der Axiomengruppen I,II,III sind. Es bleibt nur Modell 4 u ¨ brig. Beispiel 12.14 Das Modell 4 ist in der Tat ein Modell der Axiomengruppe I,II,III, denn: Axiom II/1 folgt sofort durch Betrachtung einer Geraden durch O mit Richtungsvektor e1 und Wahl von A mit den Koordinaten (x1 + a, x2) wenn O die Koordinaten (x1 , x2) hat. Axiom III/2 folgt aus der Betrachtung der Mengen + − Hz,α , Hz,α \Hz,α , Hz,α \Hz,α ,
wobei z = w+, α =< w+ , p > ist, wenn die gegebene Gerade g die Parameterdarstellung Lp,w hat (siehe Satz 11.18). 2 Definition 12.15 Die beiden in Axiom III/2 ausgezeichneten nichtleeren disjunkten Mengen heißen 2 offene Halbebenen bez¨uglich g mit Randgerade g. Definition 12.16 Seien A, B, C drei nichtkollineare Punkte. Die Punktmenge (AB) ∪ (BC) ∪ (AC) ∪ {A, B, C} heißt Dreieck ABC. Die offenen Strecken (AB), (BC), (AC) heißen offene Seiten, die Strecken AB, BC, AC Seiten und die Punkte A, B, C Eckpunkte des Dreiecks 2 ABC. Satz 12.17 Sei ABC ein Dreieck und sei g eine Gerade, die keinen der Eckpunkte dieses Dreiecks enth¨alt. Hat g mit der Seite AB einen Punkt gemeinsam, so hat g auch mit genau einer der beiden Seiten AC und BC einen gemeinsamen Punkt. Beweis: Da A, B, C nicht auf g liegen, und die Verbindungsstrecke AB die Gerade g schneidet, liegen A und B nach Axiom III/2 und Definition 12.15 in unterschiedlichen offenen Halbebenen bzgl. g.
Baumeister: Mathematik III / Stand: November 1997
316
Schneidet AC die Gerade g nicht, dann liegen A, C in derselben offenen Halbebene und daher B, C in verschiedenen offenen Halbebenen. Also hat g mit BC einen gemeinsamen Punkt. Schneidet AC die Gerade g, dann liegen A, C in verschiedenen offenen Halbebenen. Dann liegen aber B, C in derselben offenen Halbebene und BC schneidet g nicht. Der obige Satz heißt Satz von Pasch. Dieses Resultat taucht in vielen Axiomensystemen als Paschsches Anordnungsaxiom“ auf. Der Grund ist der, daß die Aussage von Satz ” 12.17 ¨aquivalent mit Axiom III/2 ist (Beweis!). Wir kommen zum wichtigen Begriff des Winkels. Er wird als Figur eingef¨ uhrt. Definition 12.18 Ein Paar (p, q) von Halbgeraden p und q mit einem gemeinsamen Anfangspunkt O heißt (orientierter, gerichteter) Winkel < ) (p, q) zwischen p und q, die Halbgeraden p und q werden als Schenkel, der Punkt O als Scheitel des Winkels < ) (p, q) bezeichnet. Sind p und q verschiedene Halbgeraden einer Geraden, so wird < ) (p, q) gestreckter Winkel, bei p = q wird < ) (p, q) Nullwinkel genannt. 2 Falls A ein Punkt einer Geraden g und B ein Punkt einer Geraden h ist, so wird f¨ ur den Winkel < ) (g, h) mit dem Scheitel O auch die Bezeichnung < ) (AOB) verwendet. Ist ABC ein Dreieck, so werden durch jede Strecke AB, AC, BC jeweils zwei offene Halbebenen definiert. Wir setzen: ABC + := Halbebene bez¨ uglich AB, in dem C liegt; + uglich AC, in dem B liegt; ACB := Halbebene bez¨ + BCA := Halbebene bez¨ uglich BC, in dem A liegt. Definition 12.19 Als Inneres int < ) (AOB) eines Winkels < ) (AOB) wird die Schnittmenge der Halbebenen AOB + und BOA+ bezeichnet, also: int < ) (AOB) := AOB + ∩ BOA+
2 Bemerkung 12.20 Die Definitionen beinhalten offenbar nicht die aus der Anschauungsgeometrie bekannten u ¨ berstumpfen Winkel (Winkel gr¨oßer als 180o ), sondern nur die spitzen, rechten, stumpfen und gestreckten Winkel. Um die u ¨ berstumpfen Winkel in den Begriff aufzunehmen, w¨are eine wesentlich kompliziertere und schwerer handhabbare Winkeldefinition erforderlich. Das Innere eines gestreckten Winkels < ) (p, q) wird durch Definition III/4 nicht beschrieben und kann auch nicht eindeutig definiert werden. Naheliegend w¨are es, darunter eine der beiden Halbebenen bez¨ uglich der Geraden p, q zu verstehen, allerdings ist durch < ) (p, q) keine davon ausgezeichnet. 2
Baumeister: Mathematik III / Stand: November 1997
317
Abbildung 12.1: Das Innere eines Winkels
12.5
Bewegungsaxiom
Die vorangegangenen Abschnitte haben deutlich gemacht, daß unter ausschließlicher Zugrundelegung der Axiomengruppen I - III kaum interessante Aussagen der Geometrie hergeleitet werden k¨onnen. Insbesondere wurde noch kein einziger Satz der Schulgeometrie bewiesen. Das liegt vor allem daran, daß die Kongruenz geometrischer Figuren noch nicht zur Verf¨ ugung stand. Wesentlich voranbringen beim axiomatischen Aufbau der Geometrie wird uns das Axiom IV. Bevor wir dieses Axiom betrachten, werden wir zun¨achst definieren, was unter einer Bewegung zu verstehen ist und einige Eigenschaften von Bewegungen nachweisen. Beachte, daß wir in der konkreten Situation der euklidischen Ebene bereits Bewegungen betrachtet haben. Definition 12.21 Eine Bewegung ist eine surjektive Abbildung f : IP → IP , die abstandserhaltend ist, d.h. f¨ur die |f(A) f(B)| = |AB| f¨ur alle A, B ∈ IP
2
gilt. Folgerung 12.22 Jede Bewegung ist bijektiv.
Beweis: Nach Definition 12.21 ist eine Bewegung surjektiv. Da eine Bewegung abstandserhaltend ist, ist eine Bewegung auch injektiv. Folgerung 12.23 Die Menge Iso (IP ) := {φ : IP −→ IP |φ Bewegung} der Bewegungen bildet zusammen mit der Hintereinanderausf¨uhrung ◦ eine Gruppe. Beweis:
Baumeister: Mathematik III / Stand: November 1997
318
Seien φ, ψ ∈ Iso (IP ). Dann gilt f¨ ur alle A, B ∈ IP : |(φ ◦ ψ)(A) (φ ◦ ψ)(B)| = |φ(ψ(A)) φ(ψ(B))| = |ψ(A) ψ(B)| = |A B| Also ist auch φ◦ψ abstandserhaltend. Die Verifikation, daß idIP Identit¨at und φ−1 Inverses zu φ im Sinne der Gruppendefinition ist, u ¨berlassen wir dem Leser. Wie fr¨ uher schon angedeutet, nennen wir eine Teilmenge F von IP eine Figur. Satz 12.24 Sei φ eine Bewegung. Dann wird (a) jede Gerade auf eine Gerade, (b) jede Strecke auf eine Strecke, deren Endpunkte die Bilder der Endpunkte der Originalstrecke sind, sowie (c) jede Halbgerade mit einem Anfangspunkt O auf eine Halbgerade mit dem Anfangspunkt φ(O) abgebildet. Zusatz: Falls zwei Geraden, Strecken, Halbgeraden oder zwei verschiedene dieser Figuren einen Punkt P gemeinsam haben, so haben die Bildfiguren den Punkt φ(P ) gemeinsam. Beweis: Zu a) Es sei g eine beliebige Gerade, A und B seien zwei Punkte dieser Geraden. Durch (die wegen Folgerung 12.23) voneinander verschiedenen Punkte φ(A) und φ(B) wird wegen Axiom I/2 genau eine Gerade g 0 bestimmt. Wir weisen nach, daß die Gerade g auf die Gerade g 0 abgebildet wird. Dazu ist zu zeigen, daß erstens jeder Punkt von g auf einem Punkt von g 0 abgebildet wird und zweitens ein beliebiger Punkt auf g0 ein Urbild auf g besitzt. Ist P ein beliebiger Punkt der Geraden g, so gilt nach Axiom II/3 |AP | + |P B| = |AB| oder |AB| + |BP | = |AP | oder |P A| + |AB| = |P B| . Da φ abstandserhaltend ist, ist dann auch eine der drei folgenden Gleichungen |φ(A)φ(B)| + |φ(P )φ(B)| = |φ(A)φ(B)|, |φ(A)φ(B)| + |φ(B)φ(P )| = |φ(A)φ(P )|, |φ(P )φ(A)| + |φ(A)φ(B)| = |φ(P )φ(B)| erf¨ ullt, was wiederum nach Axiom II/3 bedeutet, daß φ(P ) auf der Geraden g 0 liegt. Ist umgekehrt Q ein Punkt von g 0 , so kann aufgrund der Tatsache, daß die inverse Abbildung φ−1 von φ auch eine Bewegung ist, auf gleiche Weise gezeigt werden, daß das Urbild φ−1 (Q) des Punktes Q auf g liegt.
Baumeister: Mathematik III / Stand: November 1997
319
Zu (b) Sei P ein Punkt zwischen A und B. Dann gilt |AP | + |P B| = |AB| und daher auch |φ(A)φ(P )| + |φ(P )φ(B)| = |φ(A)φ(B)| . Dies bedeutet, daß φ(P ) zwischen φ(A) und φ(B) liegt. Den Beweis von (c) und des Zusatzes u ¨berlassen wir dem Leser. IV. Bewegungsaxiom Wenn der Abstand zweier Punkte A und B positiv und gleich dem Abstand zweier Punkte C und D ist, dann gibt es genau zwei Bewegungen, die A auf C und B auf D abbilden. Eine Halbebene bez¨ uglich der Geraden AB wird bei jeder dieser beiden Bewegungen auf eine andere Halbebene bez¨ uglich CD abgebildet.
Beispiel 12.25 Wir wissen, daß das Modell 4 (euklidische Ebene IE 2) ein Modell der Axiomengruppe I,II,III ist. Aus Abschnitt 11.3 wissen wir, daß in diesem Modell 4 auch das Bewegungsaxiom erf¨ ullt ist. 2 Geben wir speziellen Bewegungen einen Namen ! Definition 12.26 a) Eine Bewegung, bei der alle Punkte einer Geraden g auf sich und die Punkte der beiden offenen Halbebenen bez¨uglich g auf Punkte der jeweils anderen Halbebene abgebildet werden, heißt Geradenspiegelung an g. b) Eine Bewegung, bei der genau ein Punkt P auf sich abgebildet wird, heißt Drehung um P. c) Eine Bewegung, die alle Punkte einer Geraden g auf Punkte dieser Geraden und keinen Punkt der Ebenen auf sich selbst abbildet und bei der alle Punkte einer Halbebene H bez¨uglich g wieder auf Punkte von H abgebildet werden, heißt Verschiebung entlang der Geraden g.
2 Es lassen sich mit diesen Begriffen die folgenden beweisbaren Aussagen formulieren: 1. Jede Bewegung l¨aßt sich als Hintereinanderausf¨ uhrung h¨ochstens einer Geradenspiegelung, einer Drehung und einer Verschiebung darstellen. 2. Jede Bewegung l¨aßt sich als Hintereinanderausf¨ uhrung von h¨ochstens drei Geradenspiegelungen darstellen.
Baumeister: Mathematik III / Stand: November 1997
320
In dem konkreten Modell 4 (aus Kapitel 11) kennen wir diese Aussagen zwar noch nicht in dieser feinen Formulierung, sie lassen sich dort jedoch gut einsehen. Bewegungen sind ein unerl¨assliches Hilfsmittel bei der Betrachtung von Figuren. Definition 12.27 Seien M1 , M2 ⊂ IP . M1 und M2 heißen kongruent, in Zeichen M1 = M2 , falls eine Bewegung f : IP −→ IP existiert mit f(M1 ) = M2 . 2 ¨ Klar, beim Begriff der Kongruenz handelt es sich um eine Aquivalenzrelation. Er spielt nun im folgenden Abschnitt eine u ¨berragende Rolle. Bemerkung 12.28 Bei der Kongruenz von Dreiecken verwenden wir die Bezeichnung ABC ≡ DEF nur dann, wenn bei der die Kongruenz definierenden Bewegung A auf D, B auf E, C auf F abgebildet wird. Die Reihenfolge bei der Bezeichnung ist daher von Bedeutung. 2
12.6
S¨ atze der absoluten Geometrie
Folgerung 12.29 Zwei Strecken AB und CD sind genau dann kongruent, wenn |AB| = |CD| gilt. Beweis: Sei f : IP −→ IP eine Bewegung mit f(AB) = f(CD). Seien A0 := f(A), B 0 := f(B). Es gilt dann |CD| = |CA0| + |A0B 0| + |B 0D| = |CA0| + |AB| + |B 0D| ≥ |AB| aus Symmetriegr¨ unden gilt auch |AB| ≥ |CD| und wir haben |AB| = |CD|. Es gelte |AB| = |CD|. Nach Axiom IV gibt es eine Bewegung f : IP −→ IP mit f(A) = C, f(B) = D. Dadurch wird die Strecke AB auf CD abgebildet (siehe Satz 12.24). Folgerung 12.30 Zu jedem Winkel < ) (g, h) und zu jeder Halbgeraden g0 gibt es in jeder Halbebene 0 bez¨uglich g genau eine Halbgerade h0 mit < ) (g 0 , h0) ≡ < ) (g, h). Beweis: Sei O der Schnittpunkt von g und h. W¨ahle auf g einen Punkt P 6= O und w¨ahle auf h einen Punkt Q mit |OQ| = |OP |, was nach Axiom III m¨oglich ist. Nach Axiom IV gibt es eine Bewegung f, die O auf O und P auf Q abbildet. Sei P 0 ein Punkt auf g 0 mit |QP 0| = |OQ|. Setze Q0 := f(P 0 ). Dann gilt offenbar, daß < ) (g, h) auf < ) (g 0 , h0) abgebildet wird.
Baumeister: Mathematik III / Stand: November 1997
321
Die obige Folgerung 12.30 beschreibt offenbar die Tatsache, daß Winkel angetragen werden k¨onnen. Das folgende Resultat formuliert die Winkeladdition. Satz 12.31 Seien p, q, r Halbgeraden mit einem gemeinsamen Anfangspunkt O sowie p0 , q 0, r0 Halbgeraden mit einem Punkt O0 als Anfangspunkt. Liegt die Halgerade r im Inneren des Winkels < ) (p, q) und die Halbgerade r0 im Inneren des Winkels < ) (p0 , q 0) und gilt < ) (p, r) ≡ < ) (p0 , r0 ) sowie < ) (r, q) ≡ < ) (r0 , q 0), so sind auch die Winkel < ) (p, q) und 0 0 < ) (p , q ) zueinander kongruent. Beweis: Es existieren Bewegungen ϕ, ψ mit ϕ( < ) (p, r)) = < ) (p0 , r0 ), ψ( < ) (r, q)) = < ) (r0 , q 0). Beide Bewegungen bilden r auf r0 sowie O auf O0 ab. ϕ bildet die Halbebene bez¨ uglich 0 0 0 r, in der p liegt, auf die Halbebene bez¨ uglich r ab, in der p liegt. Da q und q jeweils in anderen Halbebenen bez¨ uglich r und r0 liegen als p und p0 , bildet ϕ die Halbebenen bez¨ uglich r, in der q liegt, auf die Halbebenen bez¨ uglich r0 ab, in der q 0 liegt. Da ψ sich ebenso verh¨alt, sind ϕ und ψ nach Axiom IV identisch. Diese Bewegung ϕ bildet also p auf p0 , q auf q 0 und somit < ) (p, q) auf < ) (p0 , q 0) ab. Die Winkelsubtraktion kann man a¨hnlich formulieren. Kommen wir nun zu den wichtigen Kongruenzs¨atzen f¨ ur Dreiecke. Der Kongruenzsatz “SWS“ ist Satz 12.32 Sind ABC und DEF zwei Dreiecke und gilt AB ≡ DE, AC ≡ DF , < ) (BAC) ≡ < ) (EDF ), so sind die beiden Dreiecke ABC und DEF kongruent. Beweis: Wegen < ) (BAC) ≡ < ) (EDF ) gibt es eine Bewegung ϕ , die < ) (BAC) auf < ) (EDF ) abbildet. Dann gilt aber auch ϕ(A) = D, ϕ(AB +) = DE + , ϕ(AC +) = DF + . Wegen AB ≡ DE gilt |ED| = |AB| = |ϕ(B)D|. W¨ahle auf DE + einen Punkt E 0 mit |DE 0 | = |AB| (siehe Axiom III). Es folgt E = E 0 = ϕ(B). Analog ergibt sich F = ϕ(C). Die Eckpunkte des Dreiecks ABC werden also auf die Eckpunkte des Dreiecks DEF abgebildet. Also werden auch die Seiten des Dreiecks ABC auf die Seiten der Dreiecks DEF abgebildet. Also sind die gegebenen Dreiecke kongruent. Ein weiterer Kongruenzsatz ist “WSW“.
Baumeister: Mathematik III / Stand: November 1997
322
Satz 12.33 Sind ABC und DEF zwei Dreiecke und gilt AB ≡ DE, < ) (BAC) ≡ < ) (EDF ), < ) (ABC) ≡ < ) (DEF ), so sind die beiden Dreiecke kongruent. Beweis: Sei P ein Punkt auf DF + mit |P D| = |AC|. Nach “SWS“ sind die Dreiecke ABC und DEF kongruent und es gilt < ) (ABC) ≡ < ) (DEP ). Da auch < ) (ABC) ≡ < ) (DEF ) gilt, ist < ) (DEF ) = < ) (DEP ). Dann sind aber EF + und EP + identisch. Also liegen F, P sowohl auf der Geraden EP als auch auf der Geraden DP . Da aber diese Geraden nicht identisch sind (D ∈ DP ), D ∈ / EP, da DEP ein Dreieck ist), gilt P = F . Aus der Kongruenz der Dreiecke ABC und DED folgt die Kongruenz der Dreiecke ABC und DEF . Die Kongruenzs¨atze “SSS“ und “SSW“ werden bewiesen nach Bereitstellung weiterer Resultate. Der Basiswinkelsatz (im gleichschenkligen Dreieck) lautet: Satz 12.34 ) (BAC) und < ) (ABC) kongruent. Ist ABC ein Dreieck mit AC = BC, so sind < Beweis: Nach Kongruenzsatz “SWS“ sind die Dreiecke ABC und BAC kongruent (beachte Bemerkung 12.28). Damit sind auch die Winkel < ) (BAC) und < ) (ABC) kongruent. In unserem axiomatischen Rahmen haben wir noch die in Kapitel 11 konkret bereits betrachteten Objekte Mittelpunkt, Lot, Winkelhalbierende, . . . “ zu betrachten. ” Satz 12.35 Ist AB eine Strecke und P ein Punkt von AB mit |AP | = |P B|, so heißt P Mittel2 punkt der Strecke AB,
Folgerung 12.36 Jede Strecke besitzt genau einen Mittelpunkt. Beweis: P ist Mittelpunkt von AB genau dann, wenn |AB| = |P B| = 12 |AB| gilt. Es gibt nach Axiom III genau einen solchen Punkt. Definition 12.37 Sei < ) (p, q) ein Winkel und r eine Halbgerade; O sei der gemeinsame Anfangspunkt von p, q, r . r heißt Winkelhalbierende, falls < ) (p, r) und < ) (r, q) kongruent sind.
2
Baumeister: Mathematik III / Stand: November 1997
323
Satz 12.38 Jeder Winkel, der kein gestreckter Winkel ist, besitzt genau eine Winkelhalbierende. Beweis: Sei < ) (AOB) kein gestreckter Winkel; es gelte o.E. |OA| = |OB|. Sei P ein Punkt der Strecke AB. Nun ist OP + genau dann Winkelhalbierende von < ) (AOB), wenn P Mittelpunkt von AB ist. Diese Aussage folgt aus dem Basiswinkelsatz 12.34 und dem Kongruenzsatz “SWS“ (Satz 12.32). Da es nun nach Satz 12.36 genau einen Mittelpunkt von AB gibt, folgt die Aussage zum Winkel < ) (AOB) sofort. Der Ausnahmefall, daß ein gestreckter Winkel vorliegt, dessen Winkelhalbierende zu betrachten ist, wird noch behandelt. Definition 12.39 Sei < ) (p, q) ein Winkel. Dann heißen < ) (p, q −), < ) (p− , q) Nebenwinkel und − − < ) (p , q ) Scheitelwinkel dazu.
2
Satz 12.40 (a) Sind die Winkel < ) (p, q) und < ) (p0 , q 0) kongruent, so ist jeder Nebenwinkel des Winkels < ) (p, q) zu seinem entsprechenden Nebenwinkel des Winkel < ) (p0 , q 0) kongruent. (b) Jeder Winkel ist zu seinem Scheitelwinkel kongruent. Beweis: Zu (a). Es werde etwa der Nebenwinkel < ) (p, q −) und dazu also < ) (p0 , q 0−) betrachtet; O bzw. O0 0 0 seien die Schnittpunkte von p, q bzw. p , q . Es gibt genau eine Bewegung φ, die die Halbebene H mit p ∈ H in die Halbebene H 0 mit p0 ∈ H 0 , q auf q 0 und O auf O0 abbildet (Beweis!). Sei nun ψ eine Bewegung, die die Kongruenz von < ) (p, q) und < ) (p0 , q 0) definiert. Dann gilt notwendigerweise φ = ψ . Also wird < ) (p, q −) auf < ) (p0 , q 0−) abgebildet und die Winkel sind kongruent. Zu (b). ) (q −, p− ) als auch von < ) (p, q). AnDer Winkel < ) (q −, p) ist sowohl Nebenwinkel von < wendung von (a) ergibt die Aussage. Definition 12.41 Ein Winkel, der zu einem seiner Nebenwinkel kongruent ist, heißt rechter Winkel.
2
Satz 12.42 Zu jeder Halbgeraden p existiert in jeder Halbebene bez¨uglich p genau ein rechter Winkel, dessen einer Schenkel p ist. Beweis:
Baumeister: Mathematik III / Stand: November 1997
324
Sei p = OA+ , g die Gerade durch O, A, H eine Halbebene bez¨ uglich g, P ein Punkt in H, der nicht auf g liegt. Sei ϕ die Bewegung, die O auf O, p auf p− und H auf sich abbildet. Ist ϕ(P ) = P, dann sind die Nebenwinkel < ) (p, OP + ) und < ) (p0 , OP + ) kongruent und < ) (p, OP + ) ist ein rechter Winkel. Ist P 0 := ϕ(P ) 6= P, dann ist < ) (P OP 0 ) kein gestreckter Winkel, da P und P 0 in derselben Halbebene bez¨ uglich g liegen und O ein Punkt von g ist. Dieser nichtgestreckte Winkel besitzt also nach Satz 12.38 genau eine Winkelhalbierende q. Da die Bewegung ϕ den Punkt ) (p, OP + ) P auf P 0, O auf sich und die Halbgerade p auf p0 abbildet, sind die Winkel < und < ) (p, OP + ) kongruent und da q Winkelhalbierende des Winkels < ) (OP + , OP 0+) ist, ) (q, OP − ). Wegen Satz 12.40 sind die Winkel < ) (p, q) und < ) (p− , q) gilt < ) (q, OP + ) ≡ < kongruent und < ) (p, q) ist nach Definition ein rechter Winkel. Definition 12.43 (a) Ein Winkel < ) (p, q) heißt spitzer Winkel, falls ein rechter Winkel < ) (p, r) mit gleichem Scheitel und einem gemeinsamen Schenkel p existiert mit q ∈ int < ) (p, r). (b) Ein Winkel, der weder ein rechter noch ein spitzer noch ein gestreckter Winkel ist, heißt stumpfer Winkel.
2 Folgerung 12.44 (a) Jeder stumpfe Winkel enth¨alt einen rechten Winkel. (b) Jeder Nebenwinkel eines spitzen Winkels ist ein stumpfer Winkel und umgekehrt. (c) Kein spitzer Winkel enth¨alt einen rechten Winkel. Beweis: Diese Aussagen folgen sehr einfach und seien daher dem Leser u ¨berlassen. Nachdem wir nun rechte Winkel kennen, liegt es nahe, den Begriff des Senkrechtstehens einzuf¨ uhren. In Kapitel 11 haben wir diesen Begriff aus dem Skalarprodukt heraus entwickelt. Definition 12.45 Zwei Geraden g und h heißen senkrecht aufeinander – wir schreiben dann g⊥h – falls g eine Halbgerade p und h eine Halbgerade q enth¨alt, so daß < ) (p, q) ein rechter Winkel ist. 2 Definition 12.46 Sei P ein Punkt und g eine Gerade. Dann heißt eine Gerade h mit P ∈ h und g⊥h Lot von P auf g und der Punkt Q mit {Q} = g ∩ h heißt Fußpunkt dieses Lotes.
2
Baumeister: Mathematik III / Stand: November 1997
325
Satz 12.47 F¨ur jeden Punkt P und jede Gerade g existiert genau ein Lot von P auf g. Beweis: Ist P ∈ g, dann folgt die Aussage aus Satz 12.42. Sei also nun P ∈ / g. Sei ϕ die Bewegung, die g auf sich und die Halbr¨aume bez¨ uglich g vertauscht. Sei P 0 := ϕ(P ) und sei Q der Schnittpunkt der Geraden g mit der Geraden durch Punkt P 0 . Da Q ∈ g gilt, ist ϕ(Q) = Q. Also wird OP + auf OP 0+ und eine Halbgerade QR⊥ von g auf sich abgebildet. Die Winkel < ) (QR+ , QP +) und < ) (QR∗ , QP 0+) sind somit kongruente Nebenwinkel und die Existenz des Lotes folgt. Den Nachweis der Eindeutigkeit des Lotes u ¨ bergehen wir. Kommen wir zum Kongruenzsatz “SSS“. Satz 12.48 Sind ABC und DEF Dreiecke mit AB ≡ DE , AC ≡ DF , BC ≡ EF , so sind die Dreiecke ABC und DEF kongruent. Beweis: Nach Axiom IV existiert ein zu DEF kongruentes Dreieck ABP , das mit ABC die Eckpunkte A sowie B gemeinsam hat, wobei P in der Halbebene ABC − liegt. Wegen der Transitivit¨at der Kongruenz gen¨ ugt es, zu zeigen, daß die Dreiecke ABC und ABP kongruent sind. Dazu sei M der Mittelpunkt der Strecke P C. Nach dem Basiswinkelsatz folgt, daß die Winkel < ) (ACM) und < ) (AP M) sowie < ) (BCM) und < ) (BP M) jeweils zueinander kongruent sind. Aus dem Kongruenzsatz “SWS“ ergibt sich < ) (ACM) ≡ < ) (MBP ) sowie (da aus den hergeleiteten Dreieckskongruenzen < ) (MBP ) ≡ < ) (MBC) resultiert) < ) (ABC) ≡ < ) (ABP ) ergibt. Nach dem Kongruenzsatz “SWS“ sind daher die Dreiecke ABC und ABP und folglich auch die Dreiecke ABC und DEF kongruent. Definition 12.49 Eine Gerade m heißt Mittelsenkrechte einer Strecke AB, falls m den Mittelpunkt von AB enth¨alt und auf der Geraden durch A und B senkrecht steht. 2 Die Existenz einer Mittelsenkrechten folgt unmittelbar aus der Existenz eines Mittelpunktes und eines Lotes. Satz 12.50 Die Mittelsenkrechte zu einer Strecke AB ist die Menge aller Punkte P mit |AP | = |BP |. Beweis: Sei m die Mittelsenkrechte.
Baumeister: Mathematik III / Stand: November 1997
326
Sei C der Mittelpunkt der Strecke AB. Sei P ∈ m. Dann sind die Dreiecke ACP und ABC nach dem Kongruenzsatz “SWS“ kongruent und somit gilt |AP | = |BP |. Sei nun P ein Punkt mit |AP | = |P B|. Nach dem Kongruenzsatz “SSS“ sind die Dreiecke ACQ und BCQ kongruent. Demnach gilt < ) (ACQ) ≡ < ) (ACQ), < ) (ACQ) und < ) (BCQ) sind rechte Winkel und die Gerade durch P und C ist (die eindeutig bestimmte) Mittelsenkrechte der Strecke AB. Also liegt P auf der Mittelsenkrechten. ¨ Es ist klar, daß Kongruenz“ eine Aquivalenzrelation ist. Dadurch wird die Menge aller ” ¨ Figuren in nichtleere disjunkte Teilmengen (Aquivalenzklassen) zerlegt.
12.7
Winkelmaße
¨ In diesem Abschnitt betrachten wir haupts¨achlich die Aquivalenzklassen kongruenter Winkel. (Eine spezielle Klasse ist die der rechten Winkel.) Definition 12.51 Als Gr¨oße α eines Winkels < ) (g, h) wird die Menge aller zu < ) (g, h) kongruenten Winkel bezeichnet, d.h. α = {< ) (p, q)| < ) (p, q) ≡ < ) (g, h)}
2 ¨ Die Gr¨oße eines Winkels ist also eine Aquivalenzklasse. In Definition 12.51 ist < ) (g, h) ein Repr¨asentant dieser Winkelgr¨oße. Es mag auf den ersten Blick etwas ungew¨ohnlich erscheinen, daß die Gr¨oße keine reelle Zahl ist. Es wird aber keine absolute“ Gr¨oße definiert, sondern nur eine Relation gleichgroß“. ” ” Man sieht aber, daß es mit dieser Definition gelingt, von der konkreten Lage eines Winkels zu abstrahieren. Definition 12.52 Seien α, β Winkelgr¨oßen zu den Winklen < ) (p, q) bzw. < ) (p, r) mit gemeinsamen Scheitel. Liegt ein Punkt P ∈ p im Inneren des Winkels < ) (p, r), so heißt die Gr¨oße γ des Winkels < ) (q, r) Winkelsumme von α und β; wir schreiben γ = α + β und nennen α + β die Summe der Winkelgr¨oßen. 2 Wichtig ist, daß die Definition der Summe der Winkelgr¨oßen unabh¨angig von den dazu verwendeten Repr¨asentanten ist. Dies ist hier jedoch gegeben, wie man an Satz ?? sieht. Haben wir zwei Winkel < ) (g, h) und < ) (p, q) , so k¨onnen wir diese Winkel aneinanderlegen; es entsteht dann ein gemeinsamer Schenkel und ein gemeinsamer Scheitel. Trifft dann die Situation aus Definition 12.52 zu, k¨onnen wir die Winkelgr¨oßen, die durch < ) (g, h) bzw. < ) (p, q) gegeben sind, addieren.
Baumeister: Mathematik III / Stand: November 1997
327
Definition 12.53 Eine Winkelgr¨oße α heißt kleiner als eine Winkelgr¨oße β (α < β), falls eine Winkelgr¨oße γ mit α + γ = β existiert, wobei γ nicht die Winkelgr¨oße der Nullwinkel ist. 2 Satz 12.54 Sei ABC ein Dreieck. Dann ist |AC| kleiner als |BC|, wenn der Winkel < ) (ABC) kleiner als der Winkel < ) (BAC) ist. Beweis: Wir wollen nun jedem Winkel eine Meßzahl zuordnen, die mit der Winkelgr¨oße bez¨ uglich der Relation kleiner“ vertr¨aglich ist. ” Festsetzung: π sei das Winkelmaß eines gestreckten Winkels, 0 sei das Winkelmaß eines Nullwinkels. Davon ausgehend wird das Winkelmaß durch ein Intervallschachtelungsverfahren“ er” mittelt: Sei < ) (p, g) weder ein Nullwinkel noch ein gestreckter Winkel. Sei h0 ein Halbstrahl, der im Scheitel von < ) (p, q) senkrecht zu p steht und bez¨ uglich p in derselben Halbebene liegt wie q. Setze: p00 := p, p10 := p− , 0 := 0 . Es k¨onnen nun drei F¨alle auftreten: 1. q = h0 ; dann setzen wir 1 := 1 und brechen das Verfahren ab. 2. q ∈ int < ) (p00 , h0 ); dann setzen wir p01 := p00 , p11 := h0 , 1 := 0. 3. q ∈ int < ) (h0 , p10 ); dann setzen wir p01 := h0, p11 := p10 , 1 := 1. In den F¨allen 2 und 3 bezeichnen wir mit h1 die Winkelhalbierende des Winkels < ) (p01 , p11 ). Wir f¨ uhren das Verfahren weiter, indem wir erneut drei F¨alle untersuchen: 1. q = h1 ; dann setzen wir 2 := 1 und brechen das Verfahren ab. 2. q ∈ int < ) (p01 , h1 ); dann setzen wir p01 := p01 , p12 := h1 , 2 := 0. 3. q ∈ int < ) (h1 , p11 ); dann setzen wir p01 := h1, p12 := p11 , 2 := 1. Sukzessives Weiterf¨ uhren dieses Verfahrens f¨ uhrt auf zwei M¨oglichkeiten: (i) Das Verfahren bricht bei einem Schritt (den wir den k−ten nennen) ab, indem der Strahl g mit der Winkelhalbierenden hk−1 zusammenf¨allt, das heißt, beim k−ten Schritt des Verfahrens tritt der oben beschriebene Fall 1. ein. Als Maß m( < ) (p, q)) des Winkels < ) (p, q) bezeichnen wir dann die Zahl m( < ) (p, q)) := π ·
k X i=1
i . 2i
Baumeister: Mathematik III / Stand: November 1997
328
(ii) Das Verfahren bricht nie ab, es tritt immer einer der F¨alle 2. oder 3. ein. In diesem Fall erhalten wir eine unendliche Folge von i . Wir setzen m( < ) (p, q)) := π ·
∞ X i=1
i . 2i
Damit diese Definition sinnvoll ist, muß die Summe ∞ X i=1
k X i i := lim i k→∞ 2i i=1 2
konvergieren, was sich jedoch mit Hilfe des Majorantenkriteriums sofort aus der Konvergenz der Summe ∞ X 1 i i=1 2 folgt, da i nur die Werte 0 oder 1 annimmt. Bemerkung 12.55 Man kann zeigen, daß zu jeder reellen Zahl r aus dem Intervall [0, π] ein Winkel < ) (g, h) existiert, dessen Winkelmaß gerade r ist. Die Normierung“ des Intervalls auf die L¨ange ” 2 π ist nat¨ urlich aus u ¨ bergeordnetem Wissen getroffen. Satz 12.56 Ist ABC ein Dreieck, so heißen die Winkel < ) (AB +, AC +), < ) (BA+, BC +) und + + < ) (CA , CB ) Innenwinkel und alle Nebenwinkel dieser drei Winkel Außenwinkel des Dreiecks ABC . 2
Satz 12.57 Jeder Innenwinkel eines Dreiecks ist kleiner als der zugeh¨orige Außenwinkel. Beweis: Sei ABC ein Dreieck. Wir betrachten die Situation in der Ecke A. Zu zeigen ist, daß im Inneren des Außenwinkels < ) (BA+, BC −) ein Punkt P existiert mit < ) (AB +, AC +) ≡ < ) (BA+, BP +). Sei D der Mittelpunkt der Strecke AB und sei P ein Punkt der Halbgeraden DC − mit CD ≡ DP . Die Dreiecke ADC und BDP sind wegen AD ≡ BD, DC ≡ DP und < ) (DB + , DP + ) ≡ < ) (DA+ .DC +) nach dem Kongruenzsatz “SWS“ kongruent. Somit sind + + < ) (AB , AC ) und < ) (BA+, BP +) kongruent. Es reicht also noch nachzuweisen, daß P ∈ int < ) (BA+, BC +) gilt, d.h. daß P ∈ BCA+ ∩ ABC − gilt. Wegen P ∈ DC − ist D ein Punkt der Strecke CP . Da D auf der Geraden durch A, B liegt, liegen C und P in unterschiedlichen Halbebenen bez¨ uglich dieser Geraden. Also gilt P ∈ ABC −. Da C auf der Geraden durch B, C liegt, D der Strecke CP angeh¨ort und daher nicht C ∈ CP gelten kann, haben DP und die Geraden durch B, C keinen gemeinsamen Punkt.
Baumeister: Mathematik III / Stand: November 1997
329
P und D liegen also in derselben Halbebene bez¨ uglich dieser Geraden. Ferner liegen auch die Punkte A und D in einer Halbebene bez¨ uglich der Geraden durch B, C da der Schnittpunkt B der Geraden durch AB und B, C nicht der Strecke AD angeh¨ort. Somit sind also A und P Punkte derselben Halbebene bez¨ uglich der Geraden durch B, C; es gilt + P ∈ BCA . Folgerung 12.58 In jedem Dreieck sind mindestens zwei Innenwinkel spitze Winkel. Beweis:
Folgerung 12.59 Die Summe zweier Innenwinkel in einem Dreieck ist stets kleiner als ein gestreckter Winkel. Beweis: Nun fehlt noch der Abstand eines Punktes von einer Geraden. Dazu Satz 12.60 Ist g eine Gerade, P ein Punkt, der nicht auf g liegt, und Q der Fußpunkt des Lotes von P auf g, so hat jeder Punkt auf g einen Abstand von P , der gr¨oßer als |P Q| ist. Beweis: Sei R 6= Q, R ∈ g. Nach Folgerung ?? ist < ) (P RQ) ein spitzer Winkel und somit kleiner als der Winkel < ) (P QR), woraus nach Satz ?? unmittelbar |P R| > |P Q| folgt. Definition 12.61 Sei g eine Gerade und P ein Punkt. Dann wird |P Q|, wobei Q der Fußpunkt des Lotes von P auf g ist, also den Abstand von P zu G bezeichnet. 2 Nun zum letzten Kongruenzsatz “SSW“. Satz 12.62 Sind ABC und DEF Dreiecke mit AB ≡ DE, AC ≡ DF, |AB| > |AC|, < ) (ACB) ≡ < ) (DF E), so gilt ABC ≡ DEF Beweis: Wir weisen nach, daß die Seiten BC und EF kongruent sind, was nach dem Kongruenzsatz “SWS“ die Konvergenz der beiden Dreiecke nach sich zieht. Dazu sei G ein Punkt auf
Baumeister: Mathematik III / Stand: November 1997
330
der Halbgeraden CB + mit |CG| = |F E|. Nach dem Kongruenzsatz “SWS“ sind die Dreiecke DEF und AGC kongruent und es gilt deshalb AG ≡ DE ≡ B. Wir betrachten im Folgenden den Fall, daß der Punkt G der Strecke BC angeh¨ort, der andere m¨ogliche Fall (B ∈ GC) ist analog nachzuweisen. Da die Basiswinkel < ) (ABG) und < ) (AGB) des gleichschenkligen Dreiecks AGB kongruent sind, folgt aus der Voraussetzung |AB| > |AC| nach Satz IV.18 (Beziehung gr¨oßere Seite – gr¨oßerer Winkel) < ) (ACB) > < ) (AGB). Andererseits ergibt sich aber aus dem schwachen Außenwinkelsatz < ) (AGB) > < ) (ACB), was einen Widerspruch bedeutet. Somit m¨ ussen die Punkte B und G identisch sein, woraus wegen der Kongruenz der Dreiecke DEF und AGC die Behauptung folgt. Als Vorbereitung zum n¨achsten Kapitel, in dem das Parallelenaxiom in den Mittelpunkt r¨ uckt, hier erste Anmerkungen dazu. Definition 12.63 Zwei Geraden g, h heißen parallel, wenn sie keinen gemeinsamen Punkt besitzen.
2
Satz 12.64 Zwei Winkel < ) (p, q) und < ) (r, s) heißen Stufenwinkel, falls ein Schenkel r des einen Winkles eine Teilmenge eines Schenkels p des anderen Winkels ist und die beiden Schenkel g und s in einer Halbebene bez¨uglich der Geraden g liegen, die 2 durch die beiden Schenkel p und r gegeben ist.
Satz 12.65 Die Schenkel an kongruenten Stufenwinkeln sind parallel. Beweis: Es seien < ) (p, q) und < ) (r, s) kongruente Stufenwinkel mit den Scheiteln A und B. Wir nehmen an, die Geraden, denen q und s angeh¨oren, haben einen Schnittpunkt C, der o.B.d.A. bez¨ uglich g auf der Seite von r und s liegen m¨oge (anderenfalls kann der Beweis wegen des Scheitelwinkelsatzes ebenso gef¨ uhrt werden). Der Winkel < ) (p, q) ist ein Innenwinkel des Dreiecks ABC, der Winkel < ) (r, s) ist ein Außenwinkel dieses Dreiecks oder umgekehrt. Wegen < ) (p, q) ≡ < ) (r, s) ist dies jedoch ein Widerspruch zu Satz ??. Satz 12.66 Zu jeder Geraden g und zu jedem nicht auf g liegenden Punkt P gibt es mindestens eine Gerade h, die P enth¨alt und zu g parallel ist. Beweis. Es sei f eine Gerade durch P . Ist f ∩ g = ∅, dann ist f eine Gerade, welche die Behauptung erf¨ ullt. Anderenfalls sei f ∩ g = {Q}, dann l¨aßt sich wegen der M¨oglichkeit des Winkelantragens durch P eine Gerade h derart legen, daß g und h mit f kongruente Stufenwinkel bilden. Nach Satz 12.65 sind die Geraden g und h somit parallel. æ
Baumeister: Mathematik III / Stand: November 1997
12.8
331
Das Parallelenaxiom in der Ebene
Wir f¨ ugen nun den Axiomengruppen I - IV das Parallelenaxiom hinzu. V. Parallelenaxiom Zu jeder Geraden g und zu jedem nicht auf g liegenden Punkt P gibt es h¨ochstens eine Gerade, die durch P l¨auft und zu g parallel ist. Beachte, daß wir die Existenz von Parallelen schon den Axiomengruppen I – IV entnommen haben (siehe Satz 12.66). Satz 12.67 Stufenwinkel an geschnittenen Parallelen sind kongruent. Beweis: Seinen g, h zwei parallele Geraden, die von einer Geraden f in A und B geschnitten werden. Seien P, Q, R Punkte mit P ∈ f, Q ∈ g, R ∈ h, sodaß P, Q, A im der selben Halbebene bez¨ uglich h und Q, R im der selben Halbebene bez¨ uglich f liegen. Annahme: < ) (P AQ) ist nicht kongruent < ) (P BR). 0 Dann gibt es eine Gerade h , die durch B geht und mit f einen zu < ) (P AQ) kongruenten Winkel < ) (P BS) (S ∈ h0 ) bildet. Wegen Satz ?? sind g und h0 parallel, was aber wegen g||h einen Widerspruch zu Axiom V bedeutet. Folgerung 12.68 Wechselwinkel an geschnittenen Parallelen sind kongruent. Beweis: Folgt aus Satz 12.67 und Satz ??. Satz 12.69 In jedem Dreieck ist die Summe der Innenwinkel gleich zwei Rechten. Beweis: Sei ein Dreieck ABC gegeben. Sei h eine Parallele zur Strecke AB, sei D 6= C ein Punkt auf h und sei E 6= C ein Punkt auf der Geraden durch A, B . Der Winkel < ) (ACE) ist ein gestreckter Winkel, also gleich zwei Rechten. Es gilt < ) (ACE) = < ) (ACB) ∪ < ) (BCD) ∪ < ) (DCE) und da nach Satz 12.68 < ) (BCD) = < ) (ABC) und nach Satz 12.67 < ) (DCE) = < ) (BAC) gilt, folgt die Behauptung.
Baumeister: Mathematik III / Stand: November 1997
332
Satz 12.70 Ein Außenwinkel in einem Dreieck ist so groß wie die Summe der beiden nichtanliegenden Innenwinkel dieses Dreiecks. Beweis: Sei ein Dreieck ABC gegeben. Sei h eine Parallele zur Strecke AC, sei E 6= B ein Punkt auf h und sei D 6= B ein Punkt auf der Geraden durch A, B . Es gilt < ) (CBD) = < ) (CBE) ∪ < ) (EBD) = < ) (ACB) ∪ < ) (CAB) . Dabei haben wir wieder den Wechsel– und Stufenwinkelsatz verwendet. Als Beispiel f¨ ur einen der S¨atze u ¨ber gemeinsame Schnittpunkte beweisen wir den Satz u ¨ ber den Schnittpunkt der Mittelsenkrechten. Da wir schon wissen, daß die euklidische Ebene, wie wir sie in Kapitel 11 betrachtet haben, ein Modell f¨ ur die Geometrie darstellt, die den Axiomengruppen I - IV gen¨ ugt, k¨onnen die anderen S¨atze u ¨ ber die Schnittpunkte der H¨ohen, Seiten– und Winkelhalbierenden dann auch akzeptiert werden. Satz 12.71 Die Mittelsenkrechten eines Dreiecks ABC schneiden sich in einem Punkt. Dieser Punkt hat von den Punkten A, B, C den gleichen Abstand. Beweis: Seien mAB , mAC Mittelsenkrechten der Seiten AB und AC. mAB , mAC sind nicht parallel, da sonst nach dem Stufenwinkelsatz AB, AC parallel w¨aren. Also schneiden sich mAB , mAC in einem Punkt M. F¨ ur diesen Punkt M gilt |AM| = |BM| , |AM| = |CM| und somit |AM| = |BM| = |CM|. Nach Satz 12.50 folgt, daß M auch ein Punkt der Mittelsenkrechten mBC ist. Satz 12.72 Ist g eine beliebige Gerade und a eine beliebige reelle nichtnegative Zahl, so ist die Menge aller Punkte, die von g den Abstand a haben und in einer Halbgeraden bez¨uglich g liegen, eine zu g parallele Gerade (f¨ur a 6= 0) bzw. die Gerade g selbst (f¨ur a = 0). Beweis: F¨ ur a = 0 ist die Behauptung trivial. F¨ ur a 6= 0 m¨ ussen wir zeigen, daß alle Punkte, die von g den Abstand a haben und in einer Halbgeraden bez¨ uglich g liegen, einer zu g parallelen Geraden h angeh¨oren und daß jeder Punkt dieser Geraden von g den Abstand a hat. Wir weisen zun¨achst die zweite Aussage nach. Es sei P ein Punkt, der von g den Abstand a hat und h die zu g parallele Gerade durch P sowie Q ein beliebiger Punkt auf h. Ferner seien L und L0 die Fußpunkte der Lote von P bzw. Q auf g . Die Geraden P L und QL0 sind wegen Satz ?? (Umkehrung des
Baumeister: Mathematik III / Stand: November 1997
333
Stufenwinkelsatzes) parallel und nach Satz ?? gilt |P L| = |QL0|, was aber gerade bedeutet, daß P und Q von g denselben Abstand a haben. Es sei nun R ein Punkt, der mit P in einer Halbebene bez¨ uglich g liegt und von g den Abstand a hat. Das Lot von R auf g (mit dem Fußpunkt L00) schneidet h in einem Punkt S, der (wie bereits gezeigt) von L00 den Abstand a hat. Es gilt also |L00S| = |L00 R| = a, was nach der Eindeutigkeitsaussage von Axiom III/1 bedeutet, daß S und R identisch sein m¨ ussen und somit R der Geraden h angeh¨ort. Wir werden sp¨ater sehen, daß bei Zugrundelegung nur der Axiomengruppen I - IV Abstandslinien im allgemeinen keine Geraden sind. Als Erg¨anzung beweisen wir noch einen Satz aus der Gruppe der Strahlens¨atze. Dazu Abbildung 12.2.
Abbildung 12.2: Ein Strahlensatz
Satz 12.73 Es seien p1 und p2 zwei Halbgeraden mit einem gemeinsamen Anfangspunkt O sowie A1B1 und A2 B2 zwei parallele Geraden, welche die Strahlen p1 in den Punkten A1 und A2 sowie p2 in B1 und B2 schneiden. Dann gilt: |OA1 | |OA2| |A1A2| = = . |OB1 | |OB2 | |B1 B2| Beweis: Wir beweisen die Behauptung zun¨achst f¨ ur den Spezialfall mit |OA2| = 2 · |OA1 |. Dazu betrachten wir die Parallele A1C zu B1 B2 im Punkt A1, wobei C ein Punkt auf A2B2 sei, und die Parallele B1 D zu A1 A2 in B1 , wobei D auf A2B2 liegen soll (siehe Abbildung 12.3). Die Punkte C und D sind identisch, wobei wir auf den Nachweis dieser Tatsache verzichten, da wir sie f¨ ur den Beweis des vorliegenden Satzes nicht ben¨otigen. Durch Anwendung des Stufenwinkelsatzes und des Kongruenzsatzes wsw ergibt sich OB1 A1 ≡ B1 B2 D. Daher sind die Strecken OB1 und B1 B2 kongruent. Dementsprechend gilt |OB2 | = 2 · |OB1 | und die Behauptung wurde f¨ ur den betrachteten Spezialfall nachgewiesen. Da das bei diesem Beweis genutzte Verfahren mehrfach angewendet werden kann, gilt es auch f¨ ur den etwas allgemeineren Fall |OA2 | = 2n · |OA1 |. Auf analoge Weise l¨aßt es
Baumeister: Mathematik III / Stand: November 1997
334
sich f¨ ur |OA2 | = k · |OA1 | mit k ∈ IN zeigen, wovon wir im folgenden Gebrauch machen. Wir beweisen den vorliegenden Satz jetzt allgemein. Dazu sei f¨ ur jedes n ∈ IN ein Xn ∈ OA+ mit 1 |OA1| |OXn | = 2n und ein Yn ∈ OB1+ mit Xn Yn ||A1B1 gegeben. Dann gilt wegen des bereits bewiesenen Spezialfalls |OB1 | |OYn | = . 2n Es sei nun k = k(n) ∈ IN gew¨ahlt mit k(n) · |OXn | ≤ |OA2 | < (k(n) + 1) · |OXn |
Abbildung 12.3: Erl¨auterung zum Beweis des Strahlensatzes beziehungsweise damit gleichbedeutend k(n) k(n) + 1 · |OA1|. n · |OA1 | ≤ |OA2 | < 2 2n Dann gilt die Beziehung
k(n) |OA2 | k(n) + 1 < . n ≤ 2 |OA1 | 2n
Also ist die Folge (k(n)2−n )n∈IN beschr¨ankt und besitzt daher eine konvergente Teilfolge 0 (k(n0 )2−n )n0 ∈IN . Daf¨ ur gilt k(n0 ) |OA2 | lim = . 0 n0 →∞ 2n |OA1 | O.E. nehmen wir nun an, daß die Folge (k(n)2−n )n∈IN selbst schon konvergiert. Wir betrachten nun Punkte Zn und Zn+1 der Halbgeraden OA+ 1 mit |OZn | = k(n) · |OXn | , |OZn+1 | = (k(n) + 1) · |OXn | sowie Wn und Wn+1 auf OB1+ mit Zn Wn || Xn Yn , Zn+1 Wn+1 || Xn Yn
Baumeister: Mathematik III / Stand: November 1997
335
(siehe Abbildung 12.3). Hierf¨ ur ergibt sich anhand des oben betrachteten Spezialfalls |OWn | = k(n) · |OYn | , |OWn+1 | = (k(n) + 1) · |OYn |. Wegen Zn+1 Wn+1 || ZnWn || Xn Yn || A2B2 und der Anordnung von Zn , A2 und Zn+1 , liegt Wn zwischen O und B2 sowie B2 zwischen Wn und Wn+1 oder Wn und B2 sind identisch. Also |OWn | ≤ |OB2 | < |OWn+1 | , oder k(n) · |OYn | ≤ |OB2 | < (k(n) + 1) · |OYn | , und somit
Also folgt
k(n) + 1 k(n) |OB2 | < . n ≤ 2 |OB1 | 2n k(n) |OB2 | |OA2 | = n→∞ lim n = . |OA1 | 2 |OB1 |
Ohne Beweise werden weitere S¨atze vom Typ der Strahlens¨atze mitgeteilt. Satz 12.74 Es seien p1 und p2 zwei Halbgeraden mit einem gemeinsamen Anfangspunkt O sowie A1B1 und A2 B2 zwei parallele Geraden, welche die Strahlen p1 in den Punkten A1 und A2 sowie p2 in B1 und B2 schneiden. Dann gilt: |OA1| |A1B1 | = . |OA2| |A2B2 |
Satz 12.75 Es seien p1 und p2 zwei Halbgeraden mit einem gemeinsamen Anfangspunkt O, A1, A2 zwei Punkte auf p1 sowie B1 , B2 zwei Punkte auf p2 . Wenn dann |OA1 | |OA2 | = |OB1 | |OB2 | gilt, so sind die Geraden durch A1 , B1 und A2 , b2 parallel.
Baumeister: Mathematik III / Stand: November 1997
336
Satz 12.76 Es sei p1 ein Halbstrahl mit dem Anfangspunkt O, der zwei Punkte A1 und A2 enth¨alt. Ferner seien zwei weitere Punkte B1 und B2 gegeben. Sind die Geraden durch A1, B1 und A2 , b2 parallel und gilt |A1B1 | |OA1| = , |OA2| |A2B2 | so verl¨auft die Gerade durch B1 , B2 auch durch O . Den Satz 12.74 bezeichnet man als 2. Strahlensatz. Sein Beweis l¨aßt sich vergleichbar zum Beweis zum 1. Strahlensatz 12.73 erbringen. Satz 12.75 ist eine Umkehrung des 1. Strahlensatzes, Satz 12.76 ist eine (gewisse) Umkehrung des 2. Strahlensatzes. Wir haben nun die Entwicklung der axiomatischen Geometrie weit vorangetrieben und wollen die Anf¨ uhrung von Resultaten hier benennen. Abschließend aber noch einige Anmerkungen, die deutlich machen, wo etwa der Satz des Pythagoras in diesem Konzept angesiedelt ist. ¨ Neben der Kongruenz von Figuren ist der Begriff der Ahnlichkeit von Interesse. Wir bauen ihn wieder auf dem Abbildungsbegriff auf. Definition 12.77 Eine Abbildung Φ : IP −→ IP heißt Streckung mit Streckungszentrum Z und Streckungsfaktor k 6= 0 genau dann, wenn gilt: F¨ur jeden Punkt P ∈ IP gilt |ZΦ(P )| = |k||ZP | und
Φ(P ) ∈ ZP + , falls k > 0 , Φ(P ) ∈ ZP − , falls k < 0 .
2
Man stellt schnell fest, daß Streckungen bijektiv und geraden– und winkeltreu sind, d.h. daß Geraden auf Geraden und Winkel auf kongruente Winkel abgebildet werden. Es gilt sogar, daß parallele Geraden auf parallele Geraden abgebildet werden. Die Hintereinander¨ ausf¨ uhrung einer Bewegung und Streckung wird Ahnlichkeitsabbildung genannt. Zwei ¨ geometrische Figuren heißen dann ¨ ahnlich, wenn eine Ahnlichkeitsabbildung existiert, ¨ die diese Figuren aufeinander abbildet. Der Hauptsatz der Ahlichkeitsabbildungen besagt, daß zwei Dreiecke ABC, DEF ¨ahnlich sind, falls < ) (ABC) ≡ < ) (DEF ) , < ) (BAC) ≡ < ) (EDF ) gilt. Der H¨ ohensatz in einem rechtwinkligen Dreieck, der besagt, daß das Quadrat der H¨ohe, die auf der Hypothenuse senkrecht steht, gleich dem Produkt der L¨angen der durch ¨ den H¨ohenfußpunkt definierten Hypothenusenabschnitte ist, basiert auf der Ahnlichkeit der Dreiecke AF C, BF C ; siehe Abbildung 12.4.
Baumeister: Mathematik III / Stand: November 1997
337
Abbildung 12.4: Der H¨ohensatz
Abbildung 12.5: Der Kathetensatz
Aus dem H¨ohensatz folgt nun recht schnell der Kathetensatz (siehe Abbildung 12.5) und der Satz des Pythagoras. Im n¨achsten Abschnitt betrachten wir die euklidische Geometrie des Raums. Dabei gehen wir wieder analytisch–geometrisch vor. Es sei aber hier erw¨ahnt, daß die axiomatische Vorgehensweise auch m¨oglich ist. Dazu kann man die Axiomengruppen I,II,IV so erweitern, daß die euklidische Geometrie des Raums entsteht, wie sie unserer Anschauung entspricht. Wir geben nun die Erweiterung von Axiom I explizit wieder. I/5 Zu je drei nicht auf einer Geraden liegenden Punkte gibt es genau eine Ebene, die diesen Punkt enth¨alt. Jede Ebene enth¨alt einen Punkt. I/6 Wenn zwei Punkte einer Geraden g in einer Ebene e liegen, so liegt jeder Punkt von g in e. I/7 Wenn zwei Ebenen einen Punkt gemeinsam haben, so haben sie noch einen weiteren Punkt gemeinsam. I/8 Es gibt vier Punkte, die nicht in einer Ebene liegen. Das Anordnungsaxiom III/2 und das Bewegungsaxiom IV sind auch geringf¨ ugig zu ver¨andern. Als Ergebnis erhalten wir dann wiederum u.a. die Aussage, daß Geraden und Ebenen unendlich viele Punkte enthalten m¨ ussen.
Kapitel 13 Etwas angewandte lineare Algebra Hauptziel ist die Bereitstellung eines Verfahrens zur L¨osung von linearen Gleichungen, dem sogenannten Eliminationsverfahren. Darum herum skizzieren wir einige Anwendungen von linearer Algebra in einer analytisch–geometrischer Fassung.
13.1
Ausgleichsrechnung
Ein in der Praxis des experimentellen Messens h¨aufig zu l¨osendes Problem ist folgendes: Das Ergebnis y eines Versuchs h¨angt von einer Stellgr¨oße x ab. Gesucht ist der funktionale Zusammenhang y = f(x). Hierzu f¨ uhrt man mit n paarweise verschiedenen Stellgr¨oßen x1, . . . , xn den Versuch durch und erh¨alt n Versuchsergebnisse y1 , . . . , yn . Die Funktion f ist so zu bestimmen, daß sie die Versuchsergebnisse m¨oglichst gut wiedergibt. Das klassische Verfahren der Ausgleichsrechnung ist die Methode der Gaußschen Fehlerquadratmethode. Wir beschreiben das Vorgehen am Beispiel des Ausgleiches durch eine Gerade, d.h. unter der Annahme, daß der funktionale Zusammenhang f von der Form f(x) = mx + b ist oder so angenommen werde. Die Steigung m und de Nulldurchgangswert b sind somit zu bestimmen. ur die G¨ ute einer Seien also in IR 2 Paare (xi , yi), i = 1, . . . , n, gegeben. Als Kriterium f¨ Ausgleichsgerade y = mx + b liegt dann (nach C.F. Gauß) S(m, b) :=
n X
(mxi + b − yi )2
i=1
vor. Es sind also m∗ , b∗ so zu bestimmen, daß S(m∗, b∗) = min S(m, b) m,b
338
(13.1)
Baumeister: Mathematik III / Stand: Mai 1998
339
gilt. Wie l¨ost man nun die Extremwertaufgabe ? Haben wir eine L¨osung m∗, b∗, so muß doch sicher S(m∗, b∗) = min S(m, b∗), m und
S(m∗, b∗) = min S(m∗ , b) b
gelten. Da die Funktionen S1 : m 7−→ S(m, b∗) , S2 : b 7−→ S(m∗, b), sicher differenzierbar sind, muß dS1 ∗ dS2 ∗ (m ) = 0 , (b ) = 0. dm db gelten. Dies bedeutet: 2
n X
(m∗xi + b∗ − yi )xi = 0
(13.2)
i=1
und 2
n X
(m∗xi + b∗ − yi ) = 0 .
(13.3)
i=1
Die beiden Gleichungen (13.2), (13.3) sind lineare Gleichungen (siehe unten) f¨ ur die unbekannten Gr¨oßen m∗ , b∗ : n X
m∗ (
n X
x2i ) + b∗ (
i=1
xi ) =
i=1 n X
m∗ (
n X
x i yi
(13.4)
i=1
xi ) + b∗ n =
i=1
n X
yi
(13.5)
i=1
(13.6) Hier l¨osen wir ad hoc, unten bereiten wir dies methodisch auf: n ∗
m =
n X
x i yi −
n X
xi
n X
yi
n n X 1 X ∗ , b = ( yi − m xi ) n i=1 i=1 ∗
i=1
i=1 i=1 n n X X n x2i − ( xi )2 i=1 i=1
Die L¨osungsformeln in 13.7 sind unter dem Vorbehalt, daß n
n X i=1
ist; gleichbedeutend ist
n X
(
i=1
n X
x2i − (
n X
x2i )(
i=1
xi )2 6= 0
i=1
n X
12 ) − (
i=1
xi · 1)2 6= 0.
(13.7)
Baumeister: Mathematik III / Stand: Mai 1998
340
F¨ ur n = 2 ist uns eine Aussage dieser Art bekannt aus der Cauchy–Schwarzschen Ungleichung: Es ist mit x := (x1, x2) ∈ IR 2, e := (1, 1) ∈ IR 2 < x, e >2= |x|2|e|2 genau dann, wenn x, e linear abh¨angig sind. Da x1 6= x2 nach Voraussetzung gilt, sind x, e in der Tat linear unabh¨angig und wir haben in diesem Fall tats¨achlich, daß der Vorbehalt ¨ keiner ist. F¨ ur n > 2 ist dies genauso, wie sp¨atere Uberlegungen zeigen; siehe Folgerung 13.20. Ein direkter Beweis f¨ ur den Fall n = 2 geht so: Aus der Annahme 2(x21 + x22) = (x1 + x2)2 folgt schnell x21 + x22 = 2x1 x2 und damit (x1 − x2 )2 = 0 . Dies ist jedoch im Widerspruch zur Tatsache x1 6= x2 . Beispiel 13.1 Die Belastung einer Feder der L¨ange l durch die Kraft F verursacht eine Verl¨angerung um ∆l. Legt man die L¨ange der Feder bei keiner Belastung (Ruhelage/nur Schwerkraft wird ber¨ ucksichtigt) auf Null fest, so gibt es also einen Zusammenhang zwischen L¨ange und Belastung. Diesen Zusammenhang tr¨agt man in der sogenannten Federkennlinie auf:
Abbildung 13.1: Federkennlinie
In der Skizze haben wir den typischen Verlauf der Federkennlinie schon vorweggenommen: F¨ ur kleine Belastungen, d.h. f¨ ur kleine Auslenkungen l aus der Ruhelage (keine Belastung) gilt das Hooksche Gesetz, nach dem Auslenkung und Belastung proportional sind; d.h. die Federkennlinie kann f¨ ur kleine Werte von F durch eine Gerade angen¨ahert werden. Diese Gerade kann nun durch eine Versuchsreihe mit Hilfe von Ausgleichsrechnung bestimmt werden. Es liege etwa folgende Versuchsreihe vor:
xi yi
1
2
3
4
5 xi steht f¨ ur eine Belastung Fi
12 14 17 19 23 yi steht f¨ ur eine Auslenkung li
Wir stellen die Tabelle
Baumeister: Mathematik III / Stand: Mai 1998
P
341
xi
yi x2i xi yi
1
12
1
12
2
14
4
28
3
17
9
51
4
19 16
76
5
23 25 115
15 85 55 282
auf und erhalten gem¨aß (13.7) m∗ =
5 · 282 − 15 · 85 1 = 2.7 , b∗ = (85 − 4.7 · 15) = 8.9 5 · 55 − 225 5
Man beachte, daß man nun etwa f¨ ur die Belastung F = 2.5 die Auslenkung l = 14.65 voraussagen kann. Die Aussage l = 49.9 f¨ ur die Belastung F = 10 ist dagegen schon sehr gewagt, da die Annahme der Linearit¨at schon nicht mehr zutreffen mag. In der Tat ist eine verbessertes Hooksches Gesetz gegeben durch einen Ansatz der Form y = mx + b + dx3 .
2 Kennlinien sind das u ¨bliche Hilfsmittel, eine bestimmte physikalische Eigenschaft eines Werkst¨ ucks/Instruments festzuhalten. Wir kennen (vielleicht) aus der Schule noch die Kennlinie einer Elektronenr¨ohre. (Die Wichtigkeit von R¨ohren hat durch die Halbleitertechnik sehr stark an Bedeutung verloren.) Hier ist eine typische Abbildung dazu:
Abbildung 13.2: Kennlinie einer Elektronenr¨ohre Von großem Interesse sind sogenannte Hysteresis–Kennlinien. Dadurch werden Ph¨anomene erfaßt, die sich nicht durch einen funktionalen, sondern einen relationellen Zusammenhang darstellen lassen. Wir kennen sicher die Magnetisierungskennlinie (des Ferromagnetismus); siehe Abbildung 13.3. Hieran ist abzulesen, daß der Grad der Magnetisierung eines Werkst¨ ucks abh¨angig ist von der “Ver¨anderungsrichtung“ (Zuwachs/Abnahme) des ¨außeren Magnetfelds.
Baumeister: Mathematik III / Stand: Mai 1998
342
Abbildung 13.3: Magnetisierungsschleife
Noch klarer wird das Ph¨anomen durch einen W¨armethermostat beleuchtet. Die Kennlinie des Thermostats ist in Abbildung 13.4 festgehalten. Dabei sind s0 , s1 festgelegte Schaltpunkte.
Abbildung 13.4: Kennlinie eines Thermostats
Eine solche Kennlinie ist auch maßgebend in vielen Situationen unserer Wahrnehmung, wie die Bilderkette 13.5 uns lehrt. Kennlinien in Form von Hysteresisschleifen beschreiben physikalisch erw¨ unschte Materialeigenschaften. Etwa kann man damit Materialien modellieren, die (temperaturabh¨angiges) Formged¨achtnis besitzen und daher gerade in der Medizin von großem Wert sind, da ohne “Eingriff“ ein gew¨ unschter Effekt erzielbar ist. Bemerkung 13.2 Das Vorgehen der Ausgleichsrechnung l¨auft ganz analog, wenn man statt der Ausgleichsgeraden ein Ausgleichspolynom der Form pm (x) := am xm + . . . + a1x + a0 verwendet; siehe die Aussage u ¨ber das Hooksche Gesetz in Beispiel 13.1. Man erh¨alt ein lineares Gleichungssystem f¨ ur die Koeffizienten a0, . . . , an. 2
Baumeister: Mathematik III / Stand: Mai 1998
343
Abbildung 13.5: Hysteresiseffekt in unserer Wahrnehmung
13.2
Matrizen und lineare Gleichungen
Matrizen sind ein wichtiges Objekt in der Linearen Algebra. Den Zugang zu diesem Objekt kann man auf zweierlei Weisen finden. Der Zugang, der mehr von der Praxis her motiviert ist, geht aus von den Aufgaben, die sich als lineare Gleichungen formulieren lassen; wir bevorzugen hier diese Herangehensweise. Der andere Zugang entwickelt sich aus der Theorie der Vektorr¨aume heraus und kommt zu Matrizen als beschreibendes Hilfsmittel f¨ ur lineare Abbildungen. Sei IK ein K¨orper; seine Elemente nennen wir in diesem Zusammenhang Skalare.1 Die Addition in IK schreiben wir mit + , die Multiplikation mit · , meist jedoch lassen wir · auch weg. Hauptinteresse besteht an IK = IR oder IK = C0 ; f¨ ur die Belange der Codierungstheorie ist etwa auch der K¨orper ZZ 2 von Interesse. Betrachte eine Gleichung ax = b (a, b ∈ IK ) in einer “Unbekannten“. Als L¨osung suchen wir x ∈ IK , so daß die Gleichung, wenn wir x einsetzen, erf¨ ullt ist. Die Gleichung hat – keine L¨osung, falls a = 0, aber b 6= 0 ist; – jedes x als L¨osung, falls a = 0 und b = 0 ist; – genau eine L¨osung x = a−1 b , falls a 6= 0 ist. Die Gleichung a 1 x1 + a 2 x2 = b
(13.8)
in zwei Unbekannten – sie ist uns aus Kapitel 11 bekannt – mit a1, a2, b ∈ IK hat – keine L¨osung, falls a1 = a2 = 0, aber b 6= 0 ist; – alle (x1 , x2) ∈ IK 2 als L¨osung, falls a1 = a2 = b = 0 ist; 1
Bei den Griechen hießen die (ungleichen) Seitenl¨angen eines quaderf¨ormigen K¨orpers σκαλενo`ι α ` ριϑµoι.
Baumeister: Mathematik III / Stand: Mai 1998
344
– alle Paare (x1, x2 ) in {(z1 , z2)|z2 = a−1 2 (b − a1 z1 ) , z1 ∈ IK } , falls a2 6= 0 , bzw. in
{(z1 , z2)|z1 = a−1 1 (b − a2 z2 ) , z2 ∈ IK } , falls a1 6= 0 ,
als L¨osung. Wir nennen die Gleichung (13.8) eine lineare Gleichung, da in ihr nur Summanden der Form ai xi auftreten mit ai als Skalar und xi als Variable. Keine linearen Gleichungen sind demnach: √ x1 + 3x22 = 7 , x1 + 2x2 = −1 , x1 x2 + x2 = 1 .
Beispiel 13.3 Aus der Vollst¨andigen Anleitung zur Algebra“ von L. Euler (1707 – 1783): ” Eine Gesellschaft von M¨annern und Frauen sind in einem Wirtshaus. Jeder ” Mann gibt 25 Groschen, jede Frau aber 16 Groschen aus, und es stellt sich heraus, daß s¨amtliche Frauen einen Groschen mehr ausgegeben haben als die M¨anner. Wieviele Frauen und M¨anner sind es gewesen ?“ Als Gleichung lautet die Frage: 25x − 16y = −1 Da aber eine L¨osung in den nat¨ urlichen Zahlen gesucht ist, geh¨ort die Fragestellung in den Bereich “diophantische Gleichungen“. Mit dem euklidischen Algorithmus erhalten wir als eine L¨osung x = 7, y = 11, als “benachbarte L¨osung“ haben wir x = 23, y = 36, die vielleicht schon nicht mehr in Frage kommt, da das Wirtshaus 59 Personen nicht aufnehmen kann. 2 F¨ ur das System linearer Gleichungen a11x1 + a12x2 = b1 a21x1 + a22x2 = b2
(13.9) (13.10)
mit a11, a12, a21, a22, b1, b2 ∈ IK sucht man “simultane“ L¨osungen, d.h. Paare (x1, x2) ∈ ullt sind. Wir machen eine FallunterIK 2, so daß beim Einsetzen beide Gleichungen erf¨ scheidung: Fall 1: a11 = a12 = a21 = a22 = 0. Ist b1 6= 0 oder b2 6= 0, so gibt es keine L¨osung. Sind b1 = b2 = 0, so sind alle Paare (x1, x2) ∈ IR 2 L¨osungen. Fall 2: a11 6= 0. Addiere das (−a−1 11 a21 ) – fache der ersten Gleichung (13.9) zur zweiten Gleichung (13.10). Dies ergibt −1 0 · x1 + (a22 − a−1 (13.11) 11 a21 a12 )x2 = b2 − a11 a21 b1 .
Baumeister: Mathematik III / Stand: Mai 1998
345
Multiplikation mit a11 f¨ uhrt auf (a11a22 − a12a21)x2 = a11b2 − a21b1 .
(13.12)
Die L¨osungsmengen von (13.9),(13.10) bzw. (13.9),(13.11) bzw. (13.9),(13.12) sind identisch. Fall 2a: ∆ := a11a22 − a12a21 6= 0 . Man rechnet aus (13.12) x2 aus: x2 = ∆−1 (a12b2 − a21b1) , ¨ setzt in (13.9) ein und “l¨ost“ nach x1 auf (siehe Uberlegungen zur Gleichung mit einer Unbekannten): x1 = ∆−1 (a22b1 − a12b2) . Man verifiziert, daß nun das Paar (x1 , x2) den Gleichungen (13.9),(13.10) gen¨ ugt. Es gibt also genau eine L¨osung. Fall 2b: ∆ = 0 . Nun existiert f¨ ur a11b2 − a21b1 6= 0 keine L¨osung. F¨ ur a11b2 − a21b1 = 0 ist x2 in (13.12) frei w¨ahlbar und als L¨osungsmenge zum Gleichungssystem (13.9),(13.10) erhalten wir die Menge {(x1, x2 )|x1 = a−1 11 (b1 − a12 x2 ) , x2 ∈ IK } . Fall 3: Tritt Fall 1 nicht ein, so kann o.E. Fall 2 erreicht werden, denn: Ist a11 6= 0, ist Fall 2 gegeben. Ist a21 6= 0, mache Gleichung (13.9) zur Gleichung (13.10) und Gleichung (13.10) zur Gleichung (13.9) durch Umnummerierung (“Zeilenvertauschung“). Ist a12 6= 0, mache Unbekannte x1 zur Unbekannten x2 und Unbekannte x2 zur Unbekannten x1 (“Spaltenvertauschung“). Ist a22 6= 0, kombiniere die Schritte “Zeilenvertauschung“ und “Spaltenvertauschung“. Bemerkung 13.4 Die L¨osung des Gleichungssystems (13.9),(13.10) bedeutet offenbar, den Schnittpunkt der beiden Geraden a11x1 + a12x2 = b1 , a21x1 + a22x2 = b2 im “Anschauungsraum“ IK 2 zu suchen.
2
Bemerkung 13.5 Die Gr¨oße ∆, welche im Fall 1 gleich Null ist, bestimmt offenbar, ob es genau eine L¨osung des Gleichungssystems (13.9),(13.10) gibt oder nicht. Diese Zahl heißt Determinante, betrachtet in Abh¨angigkeit von den Gr¨oßen aij im Gleichungssystem, heißt sie Determinantenfunktion. Wir kommen auf diese Gr¨oße noch zur¨ uck. Die Bezeichnung “Spaltenvertauschung“ wird noch noch einsichtig werden. 2 Ein lineares Gleichungssystem in n Unbekannten und m Gleichungen ist gegeben durch ein Schema
Baumeister: Mathematik III / Stand: Mai 1998 a11x1 .. .
+ a12x2 .. .
346
+ . . . + a1nxn .. .
= b1 .. .
am1x1 + am2x2 + . . . + amnxn = bm Die Gr¨oßen aij ∈ IK nennen wir Koeffizienten des Gleichungssystems. Jede Zeile dieses Schemas k¨onnen wir mit dem Summenzeichen aufschreiben. Dann erhalten wir: n X
aij xj = bi , 1 ≤ i ≤ m .
(13.13)
j=1
Definition 13.6 Ein x ∈ IK n mit x = (x1, . . . , xn ) heißt L¨ osung von (13.13), falls n X
aij xj = bi , 1 ≤ i ≤ m .
j=1
2
gilt. Beispiel 13.7 Wir betrachten eine spezielle Interpolationsaufgabe. Finde eine Parabel y = ax2 + bx + c durch die Punkte (0, 0), (1, 1), (−1, 2) . Als Gleichungssystem erhalten wir in naheliegenderweise: 0 = a · 0 + b · 0 + c , 1 = a · 12 + b · 1 + c , 2 = a · (−1)2 + b · (−1) + c . Also c = 0 und a + b = 1, a − b = 2, d.h. a = 3/2 , b = −1/2 , c = 0 . Damit ist die Parabel nun (eindeutig) bestimmt.
2
Bezeichnung: Mit dem Symbol k = n1 (n2 )n3 bezeichnen wir die Aufz¨ahlung k = n1 , n1 + n2, n1 + 2 n2 , . . . , n3 . Nun fassen wir die Zeilen (13.13) noch zu einem noch kompakterem Schema zusammen, indem wir einf¨ uhren:
A :=
a11 a21 .. .
a12 a22 .. .
. . . a1n . . . a2n .. .
am1 am2 . . . amn
:= (aij )i=1 (1 )m , j =1 (1 )n
Baumeister: Mathematik III / Stand: Mai 1998
347
Wir nennen A eine Matrix, genauer eine (m × n) – Matrix mit Eintr¨agen aus dem Zahlbereich IK . Die Matrizen mit m Zeilen und n Spalten fassen wir zusammen in der Menge IK m,n . statt IR1,1 bzw. C0 1,1 schreiben wir wieder IR bzw C0 . Das aus dem Lateinischen kommende Wort “Matrix“ bedeutete urspr¨ unglich “Mutterleib“ oder “Uterus“, also etwas, worin oder woraus sich etwas entwickelt. Im Vergleich dazu ist die mathematische Definition steril. Der Tensorbegriff ist eine Verallgemeinerung des Matrixbegriffs. Als “Erfinder“ der Matrizen ist A. Cayley (1821 – 1895) anzusehen. Beispiele sind: √ ! 1 2 ∈ IR 2,2 , 3 π 2
7 i e + 2i 0 12 ln(5)
!
∈ C0 2,3
Wir fassen nun noch die rechte Seite des obigen Gleichungssystems zusammen zu
b :=
b1 b2 .. .
∈ IK m,1
bm und die gesuchte L¨osung oder die Unbekannten zu
x :=
x1 x2 .. .
∈ IK n,1 .
xn Das Gleichungssystem schreiben wir dann als Ax = b
(13.14)
Betrachte nun das Gleichungssystem (13.14). Die Daten des Gleichungssystems sind A ∈ ur den L¨ osungsIK m,n (Systemmatrix), b ∈ IK m,1 (rechte Seite); x ∈ IK n,1 steht f¨ vektor. Die rechte Seite b und die L¨osung x haben wir als Spaltenvektoren geschrieben. Spaltenvektoren sind die Elemente von IK k,1 , w¨ahrend die Elemente von IK 1,k Zeilenvektoren heißen. Offenbar sind Spalten– bzw. Zeilenvektoren spezielle Matrizen. Ihre Verwendung f¨ uhrt dazu, daß wir die Schreibweise Ax = b in (13.14) mit einer Matrixmultiplikation gut interpretieren k¨onnen. Die Matrixmultiplikation ist folgendermaßen erkl¨art: Sind A := (aij )i=1 (1 )m , j =1 (1 )n ∈ IK m,n , B := (bij )i=1 (1 )n , j =1 (1 )r ∈ IK n,r , so ist das Produkt C := AB := (cij )i=1 (1 )m , j =1 (1 )r ∈ IK m,r erkl¨art durch cij :=
n X k=1
aik bkj , 1 ≤ i ≤ m, 1 ≤ j ≤ r .
Baumeister: Mathematik III / Stand: Mai 1998
348
Man beachte, daß das Matrixprodukt nicht kommutativ ist, d.h., daß im allgemeinen AB 6= BA gilt. Wichtig festzuhalten ist, daß eine Matrix A ∈ IK m,n linear auf den Spaltenvektoren in IK n,1 operiert, d.h. A(x + y) = Ax + Ay f¨ ur alle x, y ∈ IK n,1 . Bezeichnung: Mit θ schreiben wir wie immer den Nullvektor in einem Raum IK n, also θ = (0, . . . , 0). Diese Bezeichnung verwenden wir sinngem¨aß auch f¨ ur θ als Spalten– bzw. Zeilenvektor. m,n Mit Θ schreiben wir die Nullmatrix in IK , d.h. Θ = (aij )i=1 (1 )m , j =1 (1 )n mit Eintr¨agen aij = 0 , i = 1(1)m , j = 1(1)n . Definition 13.8 Das System Ax = b heißt homogen, falls b = θ ist, anderenfalls inhomogen.
2
Satz 13.9 (a) Ist das System (13.14) homogen, so hat es die triviale L¨osung x = θ. (b) Lθ := {x ∈ IK n,1 |Ax = θ} ist abgeschlossen bzgl. der Addition und skalaren Multiplikation, d.h. u + v ∈ Lθ , ru ∈ Lθ , , falls u, v ∈ Lθ , r ∈ IK . (c) Ist Lb := {x ∈ IK n,1 |Ax = b} 6= ∅, dann ist Lb = x¯ + Lθ := {¯ x + u|u ∈ Lθ } , wobei x¯ (irgendeine spezielle) L¨osung von (13.14) ist. Beweis: Zu (a). Trivial. Zu (b). Folgt aus (??). Zu (c). Sei x ∈ Lb . Dann gilt A(x − x¯) = θ, d.h. x − x¯ ∈ Lθ . Sei x = x¯ + u mit u ∈ Lθ . Dann ist offenbar Ax = A¯ x = b , d.h. x ∈ Lb . Beispiel 13.10 ! 0 1 Sei A := . 0 0 (1)
0 0
!
,
Also Lθ =
1 0
(
!
∈ Lθ , aber r 0
!
r
∈ IK
x1 x2
)
.
!
∈ / Lθ , falls x2 6= 0 .
Baumeister: Mathematik III / Stand: Mai 1998
(2) F¨ ur b =
0 1
349
!
1 (3) F¨ ur b = 0 13.9 und (1).)
gilt Lb = ∅ . !
(
gilt Lb =
r 1
!
r
)
∈ IK
0 1
, da
!
∈ Lb . (Siehe c) von Satz
2 13.3
Eliminationsverfahren
Die L¨osung linearer Gleichungssysteme ist zentral in der numerischen Mathematik und in weiterem Sinne auch in der angewandten Mathematik. Die konstruktive L¨osungsidee besteht darin, ein gegebenes System durch ¨aquivalente Umformungen, d.h. durch Umformungen, die die L¨osungsmenge nicht ¨andern, in eine Form zu bringen, aus der man die L¨osung dann ablesen kann. Eine solche erstrebenswerte Form ist eine Matrix von oberer Dreiecksgestalt: Definition 13.11 (a) Eine Matrix A = (aij )i=1 (1 )m , j =1 (1 )n heißt von oberer Dreiecksgestalt, wenn aij = 0 , falls i > j, gilt. (b) Eine Matrix A = (aij )i=1 (1 )m , j =1 (1 )n heißt Diagonalmatrix, wenn aij = 0 , falls i 6= j , gilt.
2 In der “einfachsten“ Situation m = n = 2 hat ein Gleichungssystem mit einer Systemmatrix von oberer Dreiecksgestalt folgende Form: a11 a12 0 a22
!
x1 x2
!
=
b1 b2
!
.
Nun ist klar: Ist a11a22 6= 0, so l¨ost man so: −1 −1 x2 := a−1 22 b2 , x1 := (b1 − a22 a12 b2 )a11 .
Dies ist die 2 × 2 – Version eines Algorithmus, der R¨ uckw¨ artssubstitution genannt wird. In der Einf¨ uhrung haben wir in (13.9),(13.11) ein solches System vorgefunden.
Baumeister: Mathematik III / Stand: Mai 1998
350
Definition 13.12 Eine Matrix A = (aij )i=1 (1 )n , j =1 (1 )n von oberer Dreiecksgestalt heißt regul¨ ar, falls a11 · · · ann 6= 0 gilt, anderenfalls singul¨ ar.
2
Beachte, daß eine Diagonalmatrix eine Matrix von oberer Dreiecksgestalt ist und damit auch Regularit¨at und Singularit¨at f¨ ur diesen Typ von Matrizen erkl¨art ist. Das Produkt a11 · · · ann ist im Spezialfall n = 2, a21 = 0 gerade die in Abschnitt 13.2 ins Spiel gebrachte Gr¨oße ∆ . Die Bedeutung des Begriffs “regul¨ar“ liegt bei Systemen mit einer Systemmatrix von oberer Dreiecksgestalt darin, daß die eindeutige L¨osbarkeit durch diese Eigenschaft gesichert wird; L¨osbarkeit alleine kann auch ohne diese Bedingung vorliegen. Dies ist eine Konsequenz aus dem folgenden Algorithmus2, der die L¨osung eines Gleichungssystems mit einer Systemmatrix von oberer Dreiecksgestalt beschreibt. Hier ist der Platz, einige Anmerkungen zum Begriff Algorithmus zu machen. Mit Algorithmen bezeichnet man Verfahren, die f¨ ur eine Realisierung auf einem Computer geeignet sind. Schreibt man ein Verfahren als Folge von Rechenvorschriften f¨ ur einen Computer so auf, daß es als Algorithmus bezeichnet werden kann, so sind bestimmte Eigenschaften zu ber¨ ucksichtigen: Eigenschaften eines Algorithmus: 1. Endlichkeit Ein Algorithmus muß nach endlich vielen Rechenschritten – man kann sie bis auf endlich viele Elementaroperationen zur¨ uckverfolgen – enden. 2. Wohldefiniertheit Jeder Schritt muß exakt definiert sein und durchf¨ uhrbar sein. 3. Input Die Eingangsgr¨oßen sind vollst¨andig zu beschreiben. 4. Output Die Ausgangsgr¨oßen sind dem Ziel des Algorithmus entsprechend zu beschreiben. 5. Effektivit¨ at Von einem Algorithmus erwartet man, daß er eine vorgelegte Aufgabe in effektiver Weise l¨ost. Es ist ein wesentlicher Bestandteil der Analyse von Algorithmen, Kriterien f¨ ur den Vergleich anzugeben. Als ein sehr wichtiges Kriterium wird man die Schnelligkeit, mit der eine Aufgabe durch einen speziellen Algorithmus gel¨ost wird, anschauen. Algorithmus R¨ uckw¨ artsubstitution EIN Regul¨are Matrix A ∈ IK n,n von oberer Dreicksgestalt, rechte Seite b ∈ IK n,1 . 2
Das Wort “Algorithmus“ ist aus dem Namen Al-Khwarazmi (780? – 850?) eines bedeutendem Mathematikers des anfangenden Mittelalters abgeleitet.
Baumeister: Mathematik III / Stand: Mai 1998 S1 S2 S3 S4 S5
351
i := n xi := bi F¨ ur j = (i + 1)(1)n xi := xi − aij xj xi := xi /aii Ist i > 1, gehe mit i := i − 1 zu S2, sonst zu AUS
AUS Gebe den L¨osungsvektor x = (x1 , . . . , xn ) aus (Den L¨osungsvektor haben wir in AUS aus Platz–¨okonomischen Gr¨ unden als n-Tupel und nicht als Spaltenvektor geschrieben). Es ist nun erstrebenswert, eine beliebige Matrix auf eine obere Dreiecksgestalt in einer Weise zu transformieren, daß sich der L¨osungsraum dabei nicht ver¨andert. Dieses leistet das Eliminationsverfahren, das nach C.F. Gauß benannt ist, das allerdings f¨ ur konkrete F¨alle schon sehr viel fr¨ uher Anwendung fand. ¨ Aus dem 2. Jahrhundert n. Chr. gibt es eine Ubersetzung der “Neun B¨ ucher u ¨ber die Kunst der Mathematik“, die wohl im 2. Jahrhundert v. Chr. aufgeschrieben wurden; das Methodenmaterial kann aber durchaus ¨alter sein. Diese B¨ ucher sind eine Art Lehrbuch f¨ ur Verwaltungsbeamte. Im VIII. Buch ist folgende Aufgabe enthalten: Aus drei Garben einer guten Ernte, 2 Garben einer mittelm¨aßigen Ernte, und 1 Garbe einer schlechten Ernte erh¨alt man den Ertrag von 39 Tou. Aus 2 Garben einer guten Ernte, 3 Garben einer mittelm¨aßigen Ernte und 1 Garbe einer schlechten Ernte erh¨alt man 34 Tou. Aus 1 Garbe guter Ernte, 2 Garben mittelm¨aßiger Ernte und 3 Garben schlechter Ernte erh¨alt man 26 Tou. Wieviel ist der Ertrag einer Garbe? Diese Aufgabe wurde in eine rechteckige Tabelle gebracht (Matrixschema !) und nach Regeln (“Immer multipliziere mit der Garbenzahl der guten Ernte mit der . . . ), die den ” Eliminationschritten (siehe unten) entsprechen, auf eine Dreieckstabelle gebracht. Dabei k¨onnen auch negative Zahlen – sie werden hier wohl erstmals in der Entwicklungsgeschichte der Mathematik gehandhabt – auftreten, f¨ ur den Umgang daf¨ ur wurden Regeln angegeben. Wir k¨onnen das resultierende rechteckige Schema nun als lineares Gleichungssystem mit einer Systemmatrix von oberer Dreiecksgestalt lesen:
3 2 1 x1 39 0 5 1 x2 = 24 . 0 0 12 x3 39 Nun wird mit R¨ uckw¨artssubstitution gel¨ost. Die Idee der Elimination wurde auch studiert von Diophantos aus Alexandrien (um 250 n. Chr.). Welche Manipulationsschritte – wir nennen sie nun elementare Umformungen – sind es, die wir auf ein lineares Gleichungssystem anwenden d¨ urfen, ohne die L¨osungsmenge zu ver¨andern? Es sind dies:
Baumeister: Mathematik III / Stand: Mai 1998
352
Zeilenvertauschung:
Vertauschung von zwei Gleichungen, was eine Zeilenvertauschung in der Systemmatrix und der rechten Seite bedeutet. Diese wird verwendet, um an einer gewissen Stelle der Matrix ein Element p 6= 0 (Pivotelement/“Ankerelement“) zu haben.
Multiplikation:
Eine Gleichung wird mit einem Skalar r 6= 0 multipliziert. Dies entspricht der Multiplikation einer Zeile in der Systemmatrix und in der rechten Seite. Diese wird verwendet, um an einer gewissen Stelle der Matrix ein Element p (Pivotelement) geeigneter Gr¨oße zu haben.
Addition:
Eine Gleichung wird zu einer anderen Gleichung addiert. Dies entspricht einer Addition einer Zeile in der Systemmatrix und in der rechten Seite. Diese wird verwendet, um an einer gewissen Stelle der Matrix einen Eintrag zu Null zu machen. Vertauschung von zwei Unbekannten, was einer Spaltenvertauschung in der Systemmatrix entspricht; man hat sich dies zu merken, da sie einer Umnumerierung der Variablen entspricht. Diese kann man verwenden, um an einer gewissen Stelle der Matrix ein Element p 6= 0 (Pivotelement) zu haben.
Spaltenvertauschungen:
Kein Zweifel, nichts a¨ndert sich an der L¨osungsmenge, da man jeden Schritt wieder r¨ uckg¨angig machen kann. Man beachte, daß man, bis auf die Spaltenvertauschung, die Manipulationen stets auf die ger¨ anderte Matrix (A|b) anzuwenden hat (A Systemmatrix, b rechte Seite). In unserer Einf¨ uhrung haben wir diese Schritte bereits kennengelernt. Was ist nun das Ziel dieser elementaren Umformungen? Es ist das Ziel, eine Variable xi aus allen Gleichungen i + 1, . . . , m zu elimieren, indem man die Eintr¨age mli , l = i + 1, . . . , m, in der Matrix zu Null macht. Beispiel 13.13 Betrachte das Gleichungssystem der Mathematik“: 3 2 1
aus dem VIII. Buch der “Neun B¨ ucher u ¨ber die Kunst
2 1 x1 39 3 1 x2 = 34 . 2 3 x3 26
Das Eliminationsverfahren nach Gauß wird folgendermaßen durchlaufen:
3 2 1 39 1 2/3 1/3 13 2 3 1 34 , 0 5/3 1/3 8 , 1 2 3 26 0 4/3 8/3 13
1 2/3 1/3 13 3 2 1 39 1 1/5 24/5 , 0 5 1 24 0 . 0 0 12/5 33/5 0 0 12 33
Baumeister: Mathematik III / Stand: Mai 1998
353
Mit R¨ uckw¨artsubstitution erhalten wir als L¨osung x = (x1, x2 , x3) : x3 = 11/4 , x2 = 17/4 , x1 = 37/4
2 Sei nun das allgemeine Gleichungssystem (13.14) betrachtet. Die Eliminationsschritte – wir nennen ihre Zusammenfassung das bf Gaußsche Eliminationsverfahren – , angewendet auf die ger¨anderte Matrix (A|b) f¨ uhren dann schließlich zu einem Endergebnis, das so aussieht: ! U B u ; Θ Θ c dabei ist U = (uij ) ∈ IRk,k eine obere Dreiecksmatrix mit ∆(U) := u11 · · · ukk 6= 0. Daraus liest man sofort ab, daß das gegebene Gleichungssystem Ax = b l¨osbar genau dann ist, wenn c = θ ist. In diesem Fall erh¨alt man die L¨osungskomponenten z := (x1 , . . . , xk ) in eindeutiger Weise durch R¨ uckw¨artssubstitution aus dem Gleichungssystem Uz = u − Bv , wobei die restlichen L¨osungskomponenten v := (xk+1 , . . . , xn ) beliebig vorgegeben werden k¨onnen. Daraus schließt man, daß der L¨osungsraum n − k “Freiheitsgrade“ hat. Beispiel 13.14 Betrachte das homogene Gleichungssystem Ax = θ mit A ∈ IK m,n . Dieses hat stets die L¨osung x = θ . Ist m < n – das Gleichungssystem heißt dann unterbestimmt – hat es auch nichttriviale L¨osungen. Dies sieht man so: Das Gaußsche Eliminationsverfahren u uhrt die ger¨anderte Matrix (A|θ) in ¨ berf¨ U B θ Θ Θ θ
!
.
(Beachte, daß sich die rechte Seite bei den Manipulationen nicht ¨andert.) Hierbei ist U ∈ IK k,k mit k ≤ m und wir haben n − k > 1 . Also besitzt das homogene Gleichungssystem auch nichttriviale L¨osungen, da die L¨osungskomponenten xk+1 , . . . , xn beliebig festgesetzt werden k¨onnen. 2 Die Gr¨oße ∆(U) heißt heißt Determinante von U; wir schreiben det(U) := ∆(U) . F¨ ur eine allgemeine Matrix A = (aij )i=1 (1 )n , j =1 (1 )n f¨ uhrt man eine Determinante so ein: det(A) :=
X
ε(σ)a1 σ(1) · · · an σ(n)
σ∈Sn
F¨ ur n = 2 erhalten wir det(A) = a11a22 − a12a21 (siehe Abschnitt 13.2) und f¨ ur n = 3 det(A) = a11a22a33 + a12a23a31 + a13a21a32 − a31a22a13 − a21a12a33 − a32a23a11 .
Baumeister: Mathematik III / Stand: Mai 1998
354
Die Regel f¨ ur n = 3, sie heißt Regel von Sarrus, kann man sich leicht merken durch folgende St¨ utze: Man schreibt den ersten und zweiten Spaltenvektor der Matrix hinter die drei Spalten der Matrix; die drei Produkte der Hauptdiadonalen ergeben die positiven Summanden, die drei Produkte der Nebendiagonalen ergeben die Summanden mit dem negativen Vorzeichen. Die Determinante f¨ uhrt auch zu einem L¨osungsrezept (Cramersche Regel) f¨ ur quadratische Gleichungssysteme, auf das wir aber nicht n¨aher eingehen wollen, da es nur f¨ ur die F¨alle von 2 oder 3 Gleichungen wirklich praktisch interessant ist: Die L¨osung x von Ax = b erh¨alt man mit 1 xj = det((a1| . . . |aj−1 | b |aj+1 | . . . |an)) , 1 ≤ j ≤ n , det(A) wobei A die Spalten a1 , . . . , an habe. Die Eigenschaft det(A) 6= 0, die notwendig f¨ ur obige Formel ist, ist notwendig und hinreichend f¨ ur die eindeutige L¨osbarkeit der Gleichung Ax = b . Die obige L¨osungsmethode, die man als Gaußsches Eliminationsverfahren bezeichnet, l¨aßt sich nun leicht in eine Rechenvorschrift f¨ ur einen Computer umwandeln. Wir k¨onnen hier auf weitere Erl¨auterungen dazu verzichten, da auf nahezu jedem Rechner heutzutage Softwarel¨osungen bereits vorhanden sind. Den Algorithmus zur R¨ uckw¨artssubstitution haben wir angef¨ uhrt, um Hinweise zu geben, wie man Rechenvorschriften programmiersprachennah aufschreibt. In der Praxis wird die L¨osung eines (großen) linearen Gleichungssystems auf einem Computer durchgef¨ uhrt. Dieser hat nur endlich viele (Dezimal–)Stellen f¨ ur die Rechnung zur Verf¨ ugung, auf die jeweils durch eine Variante einer “Rundung“ die Zahlen reduziert werden. Ber¨ ucksichtigt man dies, so kommt zu den bisher angesprochenen Fragen Existenz (einer L¨osung), Eindeutigkeit (einer L¨osung) die Frage der Stabilit¨at (der Berechnung gegen¨ uber Rundung) ¨ hinzu. Die Frage der Stabilit¨at ist wesentlicher Teil von Uberlegungen, die in der numerischen Mathematik hinsichtlich der numerischen L¨osung von linearen Gleichungssystemen (auch unabh¨angig vom L¨osungsverfahren) angestellt werden. Die Wahl eines Pivotelements spielt eine wesentliche Rolle bei der Betrachtung. Sind bei einem Gleichungssystem alle drei Fragen positiv beantwortet, nennt man das Problem gut konditioniert. Diese Begriffsbildung ist eine Version des von J. Hadamard (1865 – 1963) im Zusammenhang mit partiellen Differentialgleichungen eingef¨ uhrten Begriffs korrekt gestellt oder gut gestellt. Nach Hadamard heißt ein Problem korrekt gestellt, wenn folgende Aussagen verifiziert werden k¨onnen: Existenz:
Das Problem hat eine L¨osung.
Eindeutigkeit:
Das Problem hat h¨ochstens eine L¨osung.
Stabilit¨ at:
Die L¨osung h¨angt stetig von den Daten des Problems ab.
Baumeister: Mathematik III / Stand: Mai 1998
355
Beispiel 13.15 Betrachte ein Gleichungssystem Ax = b mit Systemmatrix 2 1 3 2
A := L¨osungen: x
1
x
2
= =
x3 = x4 =
51 −2
!
b
1
f¨ ur
b
2
f¨ ur
b3 =
f¨ ur
b4 =
f¨ ur
=
!
47.4 4 ! 348 −598 ! 348.5 −598
=
!
100 149
∈ IR2,2 . !
, !
99 , 150.5 ! 100 , −149 ! 99 . −150.5
Man stellt fest, daß b1 − b2 und b3 − b4 klein“ ist, w¨ahrend x1 − x2 groß“ und x3 − ” ” x4 klein“ ist. Dieses L¨osungsverhalten l¨aßt sich verstehen, wenn man die L¨osung des ” Gleichungssystems als Schneiden von zwei Geraden auffaßt. 2 Die Inversion einer Matrix A ∈ IRn,n , d.h. die Berechnung einer Matrix B mit AA−1 = E – wir schreiben daf¨ ur A−1 – , kann man mit dem Eliminationsverfahren auch bewerkstelligen. Man hat lediglich die Gleichungen Axj = ej , 1 ≤ j ≤ n, zu l¨osen und A−1 := (x1| · · · |xn ) zu setzen. Kennt man die Inverse A−1 der Matrix A ∈ IK n,n , so ist das Gleichungssystem Ax = b leicht zu l¨osen: x := A−1 b ist die L¨osung. Die Berechnung der Inversen lohnt sich daher dann, wenn f¨ ur “viele“ rechte Seiten b das Gleichungssystem zu l¨osen ist. Kommt das Gleichungssystem Ax = b aus einer angewandten Situation, so ist oft A ∈ IR m,n mit m > n ; das Geichungssystem ist u ¨ berbestimmt. Eine L¨osung existiert dann meist nicht, da Meßfehler, Datenfehler, . . . den linearen Zusammenhang zerst¨oren. Als Ersatz sucht man nach einer Ausgleichsl¨osung, d.h. nach einem x∗ ∈ IR n,1, das den Defekt Ax − b , gemessen durch den euklidischen Abstand im IR n (siehe n¨achster Abschnitt), minimal macht. Man kann zeigen, daß ein solches x∗ immer existiert und wieder ein lineares Gleichungssystem l¨ost, n¨amlich At Ax = Atb .
(13.15)
Dabei ist die Matrix At die zu A transponierte Matrix, d.h. die Matrix, die aus A = (aij )i=1 (1 )m , j =1 (1 )n dadurch entsteht, daß man die Eintr¨age an der Hauptdiagonalen “spiegelt“, also At = (aji )i=1 (1 )n , j =1 (1 )m . Die Gleichung (13.15) heißt Normalgleichung. In Abschnitt 13.1 haben wir in einer konkreten Situation diese Vorgehensweise vorweggenommen. C.F. Gauß gelang 1801 mittels (nichtlinearer) Ausgleichsrechnung die Wiederauffindung des (kleinen) Planeten Ceres.
Baumeister: Mathematik III / Stand: Mai 1998
13.4
356
Euklidische Geometrie des Raums
Wir gehen hier nicht axiomatisch–geometrisch sondern analytisch–geometrisch vor, d.h. wir erweitern die Sicht des Kapitels 11 auf den Raum. Von da ist dann der Weg zur Linearen Algebra, die sich mit denselben Fragestellungen in einem abstrakten Vektorraum besch¨aftigt, nicht mehr weit und nicht mehr mit prinzipiellen Schwierigkeiten versehen. Punkte P des euklidischen Raums IE 3 sind festgelegt durch Tripel x = (x1 , x2, x3) ∈ IR 3, ur diese Menge der Tripel hat die Zahlen x1 , x2, x3 heißen Koordinaten des Punktes P . F¨ 2 man analog zum Fall IR wesentliche Operationen: Addition und skalare Multiplikation. In der Sprache der Linearen Algebra bedeutet dies, daß V = IR3 zusammen mit den Verkn¨ upfungen Addition“, Skalare Multiplikation“ ein Vektorraum u ¨ ber dem Skalar” ” k¨orper IR ist, dessen Dimension drei ist und in dem die Vektoren e1 := (1, 0, 0) , e2 := (0, 1, 0) , e3 := (0, 0, 1) eine Basis darstellen, d.h. eine anzahlm¨aßig kleinste Menge von Vektoren, mit deren Hilfe jeder Vektor x = (x1 , x2, x3) als Linearkombination dargestellt werden kann: x = x1 e 1 + x2 e 2 + x3 e 3 . ur ein x ∈ IR 2 steht uns in IR3 in der allgemeinen Das in Kapitel 11 so n¨ utzliche Objekt x⊥ f¨ n¨ utzlichen Formulierung nicht zur Verf¨ ugung. An seine Stelle tritt hier das Vektorprodukt, ein Objekt das auch in IRn , n ≥ 4, definierbar ist, aber dort bei weitem nicht so bedeutungsvoll ist. Definition 13.16 F¨ur x, y ∈ IR 3, x = (x1 , x2, x3), y = (y1, y2, y3 ), definiert man das Vektorprodukt von x, y durch x × y := (x2y3 − x3y2 , x3y1 − x1 y3, x1y2 − x2y1 ) . Die Abbildung × : IR 3 × IR3 3 (x, y) 7−→ x × y ∈ IR3 heißt das Vektorprodukt in IR 3 .
2
Bevor wir Rechenregeln u ¨ ber das Vektorprodukt formulieren, eine Verallgemeinerung des Skalarprodukts auf den Fall IR n . (Das Vektorprodukt ist ein Produkt“, dessen Ergebnis ” ein Vektor ist, das Skalarprodukt ist ein Produkt“, dessen Ergebnis ein Skalar, d.h. eine ” Zahl ist.) Definition 13.17 Die Abbildung < ·, · > : IRn × IR n 3 ((x1, . . . , xn ), (y1, . . . , yn )) 7−→ x1 y1 + · · · + xn yn ∈ IR nennen wir Skalarprodukt auf IR n .
2
Baumeister: Mathematik III / Stand: Mai 1998
357
(Die Definition eines Skalarprodukts auf C0 n sollte damit auch sofort klar sein.) Folgerung 13.18 F¨ur das Skalarprodukt haben wir folgende Eigenschaften: 1. < x, x > ≥ 0 f¨ur alle x ∈ IRn und < x, x > = 0 genau dann, wenn x = θ . 2. < x, y > = < y, x > f¨ur alle x, y ∈ IRn . 3. < ax + by, z > = a < x, z > +b < y, z > f¨ur alle a, b ∈ IR und x, y ∈ IRn . Beweis: Diese Eigenschaften verifiziert man ohne M¨ uhe. Definition 13.19 Die Abbildung | · | : IRn 3 x 7−→
√ < x, x > ∈ IR
heißt euklidische Norm auf IR n .
2
Folgerung 13.20 F¨ur die euklidische Norm in IRn haben wir folgende Eigenschaften: 1. |x| = 0 genau dann, wenn x = θ . 2. |ax| = |a||x| f¨ur alle a ∈ IR und x ∈ IR n . 3. |x + y| ≤ |x| + |y| f¨ur alle x, y ∈ IR n . 4. | < x, y > | ≤ |x| |y| f¨ur alle x, y ∈ IR n , und es gilt Gleichheit genau dann, wenn x, y linear abh¨angig sind. Beweis: Man u ¨bertrage den Beweis zu Folgerung 11.8. Die Eigenschaften 1., 2., 3. in Folgerung 13.20 sind die Eigenschaften Definitheit, Homogenit¨ at, Dreiecksungleichung, die 4. Eigenschaft heißt Cauchy–Schwarzsche Ungleichung (siehe Abschnitt 11.1). Aus der Cauchy–Schwarzschen Ungleichung leitet sich wie in Abschnitt 11.1 ab, daß es zur Zahl < x, y > |x||y| genau eine Zahl φ ∈ [0, π] gibt mit cos(φ) =
< x, y > . |x||y|
Baumeister: Mathematik III / Stand: Mai 1998
358
Wir nennen diese Zahl φ Winkel zwischen x und y und schreiben daf¨ ur < ) (x, y) . (Nach Kapitel 12 m¨ ußten wir φ eigentlich ein Winkelmaß nennen.) Wiederum lesen wir sofort den Cosinussatz ab: |x − y|2 = |x|2 + |y|2 − 2|x||y| cos( < ) (x, y))
(13.16)
Wir listen Rechenregeln f¨ ur das Vektorprodukt auf: (R1) x × y = −y × x f¨ ur alle x, y ∈ IR3 . (R2) (ax + by) × z = a(x × z) + b(y × z) f¨ ur alle x, y, z ∈ IR3 , a, b ∈ IR . (R3) e1 × e2 = e3, e2 × e3 = e1 , e3 × e1 = e2 (R4) e1 × e1 = e2 × e2 = e3 × e3 = θ. (R5) x × (y × z) = < x, z > y− < x, y > z f¨ ur alle x, y, z ∈ IR 3 . (R6) x × (y × z) + y × (z × x) + z × (x × y) = θ . (R7) < x × y, u × v > = < x, u >< y, v > − < x, v >< y, u > f¨ ur alle x, y, u, v ∈ IR3 . (R8) < x, y >2 + |x × y|2 = |x|2|y|2 f¨ ur alle x, y ∈ IR 3 . Die Beweise zu diesen Rechenregeln sind einfach. Wir u ¨bergehen diese Rechenarbeit. Die Identit¨at in (R1) besagt, daß das Vektorprodukt antikommutativ ist. Die Identit¨at in (R5) nennt man Grassmann–Identit¨ at. Sie illustriert die fehlende Assoziativit¨at des Vektorprodukts; etwa: (e1 × e1) × e2 = θ , e1 × (e1 × e2) = −e2 . Die Identit¨at in (R6) heißt Jakobi–Identit¨ at, die Identit¨at in (R7) Lagrange–Identit¨ at. Aus (R8) lesen wir ab, daß an die Stelle von [x, y] in IR 2 hier der Ausdruck |x × y| getreten ist. Als Konsequenz haben wir x × y = 0 genau dann, wenn x, y linear abh¨angig sind (siehe Folgerung 13.20). Bemerkung 13.21 Eine Menge A mit einem Produkt, welches antikommutativ ist und der Jakobi–Identit¨at gen¨ ugt, nennt man nach dem norwegischen Mathematiker S. Lie (1842 – 1899) eine Lie– Algebra. Solche Algebren sind f¨ ur viele Gebiete der Mathematik und Physik von großer Bedeutung. 2 Aus (R7) folgen unter Beachtung der Art, wie ein Winkel zwischen Vektoren x und y eingef¨ uhrt wurde, die Identit¨aten < x, y > = |x||y| cos( < ) (x, y)) , |x × y| = |x||y| sin( < ) (x, y)) Anschaulich ist damit klar, daß durch |x × y| der Fl¨acheninhalt des Paralellogramms angegeben wird, das durch x, y aufgespannt wird.
Baumeister: Mathematik III / Stand: Mai 1998
359
Lemma 13.22 Seien x, y Vektoren in IR 3 . Dann gilt: (a) < x × y, x > = < x × y, y > = 0 . (b) Sind x, y linear unabh¨ angig, dann bilden x, y, x × y eine Basis von IR 3 . Beweis: (a) rechnet man einfach nach. (b) enth¨alt die Aussagen, daß x, y, x × y linear unabh¨angig sind und daß jeder Vektor z ∈ IR 3 sich als Linearkombination von x, y, x × y schreiben l¨aßt. Zur linearen Unabh¨angigkeit. Sei ax + by + c(x × y) = θ. Dann folgt mit (a) 0 = < ax+by+c(x×y), θ > = < ax+by+c(x×y), ax+by+c(x×y) > = c < x×y, x×y > . Ist |x × y|2 = 0, dann gilt in (R7) < x, y >2 = |x|2|y|2 , d.h. Gleichheit in der Cauchy– Schwarzschen Ungleichung. Dann m¨ ußten aber x, y linear abh¨angig sein. Also ist |x×y| 6= 0 und daher c = 0. Da x, y linear unabh¨angig sind, folgt a = b = 0. Zur Eigenschaft, Erzeugendensystem zu sein. Sei z ∈ IR 3 . Dann sind z, x, y, x × y linear abh¨angig, da nach 13.14 das Gleichungssystem dz + ax + by + cx × y eine nichttriviale L¨osung besitzt. Also gibt es d, a, b, c ∈ IR mit dz + ax + by + cx × y = θ, wobei nicht alle d, a, b, c verschwinden. Da x, y, x × y linear unabh¨angig sind, kann d nicht verschwinden. Dann k¨onnen wir eine Darstellung von z sofort ablesen. In IR 3 (und nicht nur dort) hat man zwei verschiedene Klassen von Basen: positiv orientierte und negativ orientierte Basen. Der Klasse der positiv orientierten Basen ordnet man eine Basis x, y, z zu, wenn die Determinante der Matrix (x|y|z) ∈ IR 3,3 (x, y, z sind als Spaltenvektoren aufzufassen) positiv ist. Die Basis e1, e2, e3 ist daher positiv orientiert. Ebenso jede Basis von der Form x, y, x × y, da die Determinante von (x|y|x × y) positiv ist. (Man beachte, daß die Orientierung von der Reihenfolge der Aufz¨ahlung abh¨angt.) Die positive Orientierung einer beliebigen Basis kann man durch die sogenannte Rechte– Hand–Regel erkannt werden: Aus gestrecktem Daumen, Zeigefinger, Mittelfinger der rechten Hand l¨aßt sich ein Koordinatenkreuz formen, das mit e1 , e2, e3 beschriftet durch ¨ Drehung in Ubereinstimmung mit dem Koordinatenkreuz x, y, z gebracht werden kann. In IR 3 haben wir nun auch Geraden: Lp,u := {x ∈ IR3 |x = p + tu, t ∈ IR} (u 6= θ) ; p ist ein Punkt der Geraden, u ist wieder ein Richtungsvektor. Es ist sofort klar, daß durch zwei verschiedene Punkte p, q ∈ IR3 genau eine verbindende Gerade festgelegt wird, n¨amlich Lp,q−p . Zwei Geraden im Raum m¨ ussen sich nicht schneiden. Dies tritt z.B. dann ein, wenn sie parallel sind, was gleichbedeutend mit der Tatsache ist, daß ihre Richtungsvektoren linear abh¨angig sind. Dies ist zu beachten in folgender Definition.
Baumeister: Mathematik III / Stand: Mai 1998
360
Definition 13.23 Zwei Geraden Lp,u , Lq,v heißen windschief, wenn Lp,u ∩Lq,v = ∅ gilt oder u, v linear abh¨angig sind. 2 Lemma 13.24 Lp,u , Lq,v sind windschief genau dann, wenn q − p, u, v linear unabh¨angig sind.
2
Beweis: Seien Lp,u , Lq,v windschief. Dann sind u, v sicher linear unabh¨angig. Betrachte eine Gleichung a(q − p) + bu + cv = θ . Daraus folgt sofort a < (q − p), u × v > = 0 . Ist a = 0, dann ist auch b = c = 0 , da u, v linear unabh¨angig sind. Ist a 6= 0, dann ist < q − p, u × v > = 0. ur geeignete t, s ∈ IR . Da u, v, u × v eine Basis von IR 3 bilden, haben wir q − p = tu + sv f¨ Daraus folgt aber sofort, daß sich Lp,u , Lq,v schneiden. Zur Umkehrung. Da q − p, u, v linear unabh¨angig sind, sind sicher auch u, v linear unabh¨angig. W¨are Lp,u ∩ Lq,v 6= ∅, g¨abe es einen Vektor x mit x = p + tu = q + sv , woraus sofort die lineare Abh¨angigkeit von q − p, u, v folgte. Zwei windschiefe Geraden Lp,u , Lq,v haben einen positiven Abstand dist(Lp,u , Lq,v ) := min{|x − y||x ∈ Lp,u , y ∈ Lq,v } . Es ist anschaulich plausibel, es muß aber bewiesen werden, daß dieses Minimum angenommen wird. Vom Standpunkt der Analysis ist dazu die Funktion IR 2 3 (t, s) 7−→ |p + tu − q − sv| ∈ IR zu minimieren. Geometrisch ist klar, daß ein gemeinsames Lot, d.h. ein Vektor l = y 0 − x0 mit x0 ∈ Lp,u , y 0 ∈ Lq,v , < l, x > =< l, y > = 0 f¨ ur alle x ∈ Lp,u , y ∈ Lq,v , den k¨ urzesten Abstand realisiert. Man hat dazu nur den Satz des Pythagoras geeignet anzuwenden. Es l¨aßt sich nun verifizieren, daß l := y 0 − x0 := q + s0 v − p − t0u mit s0 =
< u × v, (q − p) × u > 0 < u × v, (q − p) × v > ,t = |u × v|2 |u × v|2
ein solches gemeinsames Lot ist. Damit ist der Abstand dieser windschiefer Geraden gegeben durch dist(Lp,u , Lq,v ) = |l| = |q + s0v − p − t0u| , d.h. (nach Einsetzen von s0 , t0 und einfacher Rechnung) dist(Lp,u, Lq,v ) =
| < u × v, q − p > | . |u × v|
Nun zu den Ebenen. Wir schreiben sie zun¨achst in Parameterform auf: Ep,u,v := {x ∈ IR 3 |x = p + tu + sv, s, t ∈ IR} (u, v sind linear unabh¨angig) ;
Baumeister: Mathematik III / Stand: Mai 1998
361
dabei heißen u, v Richtungsvektoren, p ist ein Punkt der Ebene. Der Vektor u × v heißt eine Normale zur Ebene Ep,u,v . Sie hat die Eigenschaft, senkrecht auf jedem Vektor, der in der Ebene Eθ,u,v liegt, zu sein (siehe Lemma 13.22). Die obige Darstellung der Ebene nennt man die Ebene in Parameterdarstellung. Als Darstellung einer Ebene als Hyperebene sieht man Hc,γ := {x ∈ IR3 | < x, c > = γ} (c 6= θ) an. Die Bestimmungsgleichung < x, c > = γ haben wir in Abschnitt 13.2 als lineare Gleichung kennengelernt. Wir haben die Identit¨at Ep,u,v = Hu×v,α
mit α = < u × v, p > .
Der Beweis dazu sieht so aus: Ist x = p + tu + sv ∈ Ep,u,v , so gilt offenbar < u × v, x > = < u × v, p > +t < u × v, u > +s < u × v, v > = < u × v, p > = α , also x ∈ Hu×v,α . Ist x ∈ Hu×v,α , dann l¨aßt sich x − p mit Hilfe der Basis u, v, u × v so schreiben: x − p = au + bv + cu × v . Wegen < u × v, x − p > = 0 folgt x = p + au + bv ∈ Ep,u,v . Wenn nun eine Ebene in der Form Hc,γ vorliegt, wie findet man ihre Darstellung in der Form Ep,u,v ? Man w¨ahlt einen Punkt p ∈ Hc,γ und bestimmt zwei linear unabh¨angige Vektoren u, v mit < c, u > = < c, v > = 0 . Dies ist m¨oglich, da das homogene Gleichungssystem < c, w > = 0 nach Beispiel 13.14 zwei linear unabh¨angigeL¨osung besitzt. Eine Normale einer Ebene in der Form Hc,γ ist der Vektor c , denn er steht senkrecht auf jedem Richtungsvektor der Ebene. Eine Gerade Lp,u und eine Ebene Hc,γ haben genau dann genau einen Punkt gemeinsam, wenn < u, c > 6= 0 gilt. Dies folgt sehr einfach aus der Tatsache, daß aus der Gleichung γ = < c, p + tu > ein Parameter t in eindeutiger Weise ausgerechnet werden kann, wenn < u, c >6= 0 gilt. Ohne auf die Hessesche Normalform einzugehen, halten wir den Abstand dist(q, Ep,u,v ) eines Punktes q von der Ebene Ep,u,v fest: dist(q, Ep,u,v ) =
| < u × v, q − p > | |u × v|
Er kommt so zustande: Seien P, Q die Punkte im Raum mit den Koordinaten p bzw. q. Von Q aus f¨allen wir das Lot auf die Ebene Ep,u,v ; der gemeinsame Punkt der Geraden Lq,u×v und der Ebene Ep,u,v ist der Fußpunkt F des Lotes. Dadurch ist nun das rechtwinklige Dreieck F QP entstanden; die L¨ange h der Seite QF ist der gesuchte Abstand. Wir erhalten daf¨ ur h = |q − p|| cos( < ) (u × v, q − p))| = |q − p|
| < u × v, q − p > | |u × v||q − p|
Baumeister: Mathematik III / Stand: Mai 1998
362
und das Ergebnis folgt. Definition 13.25 Die Ebenen Hc,γ und Hb,β heißen genau dann parallel, wenn Hc,γ ∩ Hb,β = ∅ oder Hc,γ = Hb,β gilt. 2 Offenbar sind die Ebenen Hc,γ und Hb,β parallel genau dann, wenn c × b 6= θ gilt. Sind die Ebenen Hc,γ und Hb,β nicht parallel, dann schneiden sie sich in einer Geraden und diese Schnittgerade ist gegeben durch Hc,γ ∩ Hb,β = Lp,c×b , falls p ∈ Hc,γ ∩ Hb,β ist. Als Winkel zwischen zwei sich schneidenden Ebenen wird man den Winkel zwischen den Normalen der Ebenen verstehen. Damit ist der Winkel zwischen Ebenen der Form Hc,γ , Hb,β gleich dem Winkel zwischen c, b und zwischen Ebenen der Form Ep,u,v und Eq,x,y gleich dem Winkel zwischen u × v und x × y. Lemma 13.26 Seien x, y, z ∈ IR3 und seien y − x, z − x linear unabh¨angig. Dann ist die Ebene durch x, y, z beschrieben durch Lx,y−x,z−x bzw. Hc,γ wobei c = x × y + y × z + z × x , γ = < x, c > ist. Beweis: Die Aussage zu Lx,y−x,z−x ist klar. Wegen x × y + y × z + z × x = (x − z) × (y − z) 6= θ liegt in Hc,γ in der Tat eine Hyperebene vor. Daß x in der Ebene Hc,γ liegt, ist unmittelbar klar. F¨ ur y (analog f¨ ur z) folgt dies so: < y, c > = = = = =
< y − x, c > + < x, c > < y − x, (x − z) × (y − z) > +γ < y − x, [(x − y) + (y − z)] × (y − z) > +γ < y − x, x − y > +γ γ
Unter einem Parallelotop versteht man eine Figur Px,y,z := {ax + by + cz|0 ≤ a, b, c ≤ 1}, wobei x, y, z linear unabh¨angig sind. Es ist dies eine Figur, die von drei Paaren paralleler Ebenen begrenzt wird. Der Abstand des Punktes z von der Ebene Eθ,x,y ist gleich | < x × y, z > ||x × y|−1 .
Baumeister: Mathematik III / Stand: Mai 1998
363
Da der Fl¨acheninhalt der Grundfl¨ache von Px,y,z in Eθ,x,y gleich |x × y| ist, erh¨alt man als Volumen von Px,y,z schließlich: Volumen (Px,y,z ) = | < x × y, z > | Da ein Parellelotop wie ein Spat–Kristall aussieht, nennt man < x × y, z > manchmal auch das Spat–Produkt von x, y, z. Beispiel 13.27 Welche Figur entsteht, wenn wir eine Kugel K mit einer Ebene E schneiden? Zur Diskussion dieser Frage reicht es aus den Spezialfall E := {(x, y, z) ∈ IR 3 |z = a} , K := {(x, y, z) ∈ IR3 |x2 + y 2 + z 2 = R2 } zu betrachten (a ∈ IR , R ≥ 0). Ist |a| > R, dann gibt es nach der Dreiecksungleichung keinen Schnittpunkt. Ist |a| = R, dann besteht K ∩ E aus genau einem Punkt und wir sagen, daß die Ebene E die Kugel in diesem Punkt ber¨ uhrt. Eine Ebene mit dieser Eigenschaft nennt man eine Tangentialebene. F¨ ur |a| < R ergibt sich die Schnittmenge K ∩ E als K ∩ E = {(x, y, z) ∈ IR 3 |x2 + y 2 = R2 − a2 } . Dies ist offenbar eine Kreisscheibe mit Radius R − |a| .
13.5
2
Die orthogonale Gruppe
Definition 13.28 Wir setzen O+ (3) := {T ∈ IR 3,3 |T = (a, b, a × b, a, b ∈ K13, < a, b > = 0}, O− (3) := −O+ (3) , und nennen
O(3) := O+ (3) ∪ O− (3)
die orthogonale Gruppe und SO(3) := O+ (3) die spezielle orthogonale Gruppe. Die Bezeichnung Gruppe“ in Definition 13.28 ist gerechtfertigt, denn: ”
2
Baumeister: Mathematik III / Stand: Mai 1998
364
Lemma 13.29 O(3) is eine Untergruppe von GL(3; IR) und SO(3) ist ein Normalteiler von O(3). Beweis: Dies zeigt man wie fr¨ uher (Satz 11.44). Die Gruppen O(3), SO(3) sind von großer Bedeutung in den Naturwissenschaften Physik und Chemie. The use of group theory by chemists to determine certain properties of suitable molecules is a well–established procedure and there is a vast literature on the subject. For a single molecule the group involved is the molecule’s symmetriy group which, up to conjugacy, can be considered as a subgroup of O(3) (necessarily finite, assuming the molecule is non–trivial). The most significant part of the symmetry group is its intersection, G, with SO(3) . . . .3
Satz 13.30 Sei f : IR 3 −→ IR3 abstandserhaltend. Dann gilt: (a) f ist bijektiv. (b) Es gibt T ∈ O(3) und p ∈ IR3 mit f(x) = T x + p , x ∈ IR3 . Beweis: Dies zeigt man wie fr¨ uher (Satz ??). Schon Euler wußte, daß man Drehungen, das heißt die Abbildungen aus O+ (3), durch die speziellen Drehungen um die Koordinatenachsen erzeugen kann. Dazu haben wir die Drehungen in IR2 , die wir aus Abschnitt 11.5 kennen, zu Drehungen im IR3 fortzusetzen“ . ” Wir setzen
1 0 0 cos α 0 − sin α T1(α) := 0 cos α − sin α , T2(α) := 0 1 0 , 0 sin α cos α sin α 0 cos α cos α − sin α 0 T3(α) := sin α cos α 0 0 0 0 Satz 13.31 F¨ur jedes T ∈ O+ (3) gibt es Winkel α, β, γ mit T = T1 (α)T2(β)T3(γ) Beweis: 3
B. Kostant: The graph of the truncated icosaedron and the last letter of Galois, DMV–Mitteilungen 4/95.
Baumeister: Mathematik III / Stand: Mai 1998
365
Da man nach (R2) aus Abschnitt 11.5 zu jedem x ∈ IR 2 ein α ∈ IR finden kann mit T (α)x = le2 mit l ∈ IR , gibt es ein α ∈ IR, so daß der Eintrag von T1(α)T an der Stelle (2, 3) Null ist. Mit dem gleichen Argument findet man γ ∈ IR, so daß T1(α)T T3(γ) an der Stelle (2, 2) einen Eintrag Null hat. Da die Spaltenvektoren von T1(α)T T3(γ) die euklidische Norm 1 haben, folgt, daß der Eintrag von T1(α)T T3(γ) an der Stelle (2, 2) Eins ist. Dann gibt es aber β ∈ IR mit T1(α)T T3(γ) = T2 (β). Also T = T1 (−α)T2(β)T3(−γ)
Bemerkung 13.32 Das Ergebnis von Satz ?? ist, daß man jede Drehung T ∈ O+ (3) als Drehung um die drei Koordinatenachsen darstellen kann. Es ist auf den ersten Blick u ¨ berraschend, daß man + ein beliebiges T ∈ O (3) auch durch drei Drehungen um zwei Achsen darstellen kann. Es gilt n¨amlich, daß es zu T ∈ O+ (3) Winkel ϕχϑ gibt mit T = T3(χ)T1(ϑ)T3(varphi). Diese Winkel heißen Eulersche Winkel. Die Zerlegungsergebnisse sind in der Kreisel2 theorie von großer Bedeutung. .
13.6
Kegelschnitte
Es gibt zwei Arten, den Begriff einer Kurve einzuf¨ uhren. In der geometrischen Auffassung ist eine Kurve der Ort von Punkten in der Ebene oder im Raum, die durch gewisse Eigenschaften charakterisiert sind. So wird etwa in der Ebene ein Kreis durch den konstanten Abstand zu einem Punkt beschrieben. Die Kegelschnitte (siehe unten), ein Hauptgegenstand der griechischen Mathematik, sind durch geometrische Eigenschaften definiert. In der mechanischen Vorstellung erscheint die Kurve als Bahnkurve eines bewegten Punktes. Beide Auffassungen finden sich bereits in der Antike. Die erste mechanisch erkl¨arte Kurve ist die Archimedische Spirale. Wenn sich ein Halbstrahl in einer Ebene um seinen Endpunkt mit gleichf¨ ormiger Geschwindigkeit dreht, nach einer beliebigen Zahl von Umdrehungen wieder in die Anfangslage zur¨ uckkehrt und sich auf dem Strahl der Punkt mit gleichf¨ ormiger Geschwindigkeit, vom Endpunkt des Halbstrahls beginnend, bewegt, so beschreibt dieser Punkt eine Spirale.4
Man beachte, daß der Begriff der gleichf¨ormigen Geschwindigkeit“ vorkommt, ein Be” griff, der erst bei I. Newton (1643 – 1727) im 16. Jahrhundert endg¨ ultige Kl¨arung und Bedeutung erfuhr. 4
Siehe H. Gericke: Mathematik in Antike und Orient; Springer-Verlag, 1984, S. 120.
Baumeister: Mathematik III / Stand: Mai 1998
366
Betrachten wir zun¨achst ebene Kurven, also Kurven in der euklidischen Ebene IR2 . Die analytische Geometrie gestattet es, Kurven durch analytische Beziehungen zwischen den Koordinaten ihrer Punkte zu beschreiben. Bei Verwendung des u ¨blichen rechtwinkligen Koordinatensystems – hier schreiben wir anstatt (x1, x2) stets (x, y) – haben wir: (a) die implizite Darstellung in der Form einer Gleichung f(x, y) = c, (b) die explizite Darstellung y = f(x), (c) die Parameterdarstellung x = ϕ(t), y = ψ(t). Die mechanische Auffassung wird in (c) deutlich: t wird als Zeit aufgefaßt. Die Bahn des Punktes ergibt sich als {(ϕ(t), ψ(t))|t ∈ I}, wobei I das Intervall der zul¨assigen (zur Verf¨ ugung stehenden) Zeit ist. Beispiel 13.33 F¨ ur die Kreislinie hat man folgende Darstellungen: (a) implizite Darstellung: x2 + y 2 = r2 , √ (a) explizite Darstellung: y = ± r − x2 , |x| ≤ r , (a) Parameterdarstellung: x = r cos(t), y = r sin(t), t ∈ [0, 2π) . Man beachte, daß auch x = r cos(πt), y = r sin(πt), t ∈ [0, 2) , eine Parameterdarstellung der Kreislinie ist. In beiden F¨allen stimmt nat¨ urlich die Bahn 2 u ¨berein, das Bewegungsgesetz ist verschieden (Zeitskala!). Beispiel 13.34 Ein Punkt P mit Masse m bewege sich auf der Kreislinie mit Radius r > 0 um den Ursprung O nach dem Gesetz x(t) = (r cos(ωt), r sin(ωt)) , t ∈ IR ; dabei ist x(t) der Ortsvektor und ω > 0 eine Konstante. F¨ ur den Geschwindigkeitsvektor v(t) := x(t) ˙ (x(t) ˙ ist Physikernotation), dies ist die ¨ zeitliche Anderung des Ortes, gilt: v(t) = ωx(t)⊥ , |v(t)| = ωr . Diese Beziehung motiviert die Bezeichnung Winkelgeschwindigkeit f¨ ur ω . ¨ F¨ ur den Beschleunigungsvektor b(t) := v(t), ˙ dies ist die zeitliche Anderung des Geschwindigkeitsvektors, haben wir b(t) = −ω 2 x(t) , |b(t)| = ω2 r .
Baumeister: Mathematik III / Stand: Mai 1998
367
Der Geschwindigkeitsvektor ist tangential zur Bewegung (< v(t), x(t) > = 0 !) und der Beschleunigungsvektor ist entgegengesetzt dem Ortsvektor. Nach dem Kraftgesetz von Newton wirkt auf den Massenpunkt eine Kraft k(t), gegeben durch k(t) := mb(t) = −mω 2x(t) . Diese Kraft nennt man Zentripetalkraft. Sie zwingt den Massenpunkt P auf der Kreislinie zu bleiben. (Man sp¨ urt diese Zentripetalkraft, wenn man etwa einen Stein an einem Faden bindet und im Kreis schwingt als Zugkraft des Fadens. Auf einem Karusell sitzend, 2 nehmen wir die Zentripetalkraft als Zentrifugalkraft wahr.) Isaac Newton formulierte 1687 sein Weltsystem in der Schrift “Philosophiae Naturalis Principia Mathematica“. Er faßt darin das gesamte physikalische Geschehen in drei Grunds¨atzen oder Gesetzen der Bewegung zusammen, die an Einfachheit und Evidenz nicht zu u agheits–, das Kraft–, und das Reaktions¨berbieten sind. Es sind dies das Tr¨ gesetz. Unbeschleunigte Systeme, d. h. Systeme, in denen das Tr¨agheitsgesetz gilt, heißen Inertialsysteme. Die Naturgesetze haben in allen Inertialsystemen die gleiche Form ¨ (Aquivalenz der Inertialsysteme). Newton f¨ uhrt damit die komplexe Vielfalt der (makroskopischen) Erscheinungswelt auf wenige einfache Ursachen zur¨ uck. Die (sp¨ater anzuf¨ uhrenden) Keplerschen Gesetze, die J. Kepler ph¨anomenologisch aufgestellt hat, ergeben sich daraus (in erster und guter N¨aherung) auf mathematisch durchsichtige Weise zwingend. Die Form der Planetenbahnen ist also keine Sache der Vorliebe der Natur f¨ ur eine bestimmte edle Bewegungsform, sondern nur eine Folge von ¨außeren Zw¨angen und der Anfangsbedingung bei ihrer Entstehung; siehe die Bemerkung zu Kometenbahnen unten. Erst ca. 200 Jahre sp¨ater wurden seine Erkl¨arungen von Materie, Kraft, Bewegung, absoluter Zeit, absolutem Raum durch das Experiment von Michelsen 1881, das besagt, daß die Ausbreitungsgeschwindigkeit des Lichtes auf der bewegten (beschleunigten) Erde in jeder Richtung die gleiche ist, in Frage gestellt. Der wesentliche Schritt zur Beseitigung ¨ der damit verbundenen Probleme sollte A. Einstein 1905 gelingen, indem er die Aquivalenz der Inertialsysteme um die Annahme der Konstanz der Lichtgeschwindigkeit in Bezug auf solche Bezugssysteme erg¨anzte und das Naturgeschehen in Raum und Zeit beschrieb. Die Punkte der Raum–Zeit werden Ereignisse genannt und durch den Minkowski–Raum (siehe Abschnitt 13.5) erfaßt. Die Kurven Ellipse, Parabel, Hyperbel sind von besonderem Interesse. Sie k¨onnen gemeinsam definiert werden durch: Ein Kegelschnitt C zum Parameter ε ist der geometrische Ort der Punkte P , deren Distanz von einem festen Punkt F das ε−fache der Distanz von einer festen Gerade g ist. ε heißt Exzentrizit¨ at, der Punkt F heißt Brennpunkt und g heißt Leitgerade. Diese Bezeichnungen gehen auf Apollonius (262? – 190? v. Chr.) zur¨ uck. Die Kegelschnitte sind festgehalten in der Abbildung 13.6. Sei g 0 die Gerade durch F parallel zur Leitgeraden g und sei h die Gerade durch F senkrecht zur Geraden g. Offenbar ist der geometrische Ort C nun symmetrisch zu h. Dann liegt auf g 0 eine Strecke LL0 , deren Endpunkte L und L0 auf dem geometrischen Ort C
Baumeister: Mathematik III / Stand: Mai 1998
368
Abbildung 13.6: Kegelschnitte
liegen, denn es gibt sicher Punkte L, L0 auf der geraden g 0 mit |F L| = |F L0| = εdist(F, g) . Sei l := |F L| = |F L0|. Wir haben nun definitionsgem¨aß l = |F L| = ε|LH| wobei H der Schnittpunkt der Geraden h0 durch L, parallel zu h, ist. Durch g 0 , h wird ein rechtwinkliges Koordinatensystem mit Ursprung F vorgelegt. F¨ ur einen Punkt P des geometrischen Ort C mit den kartesischen Koordinaten (x, y) haben wir in Polarkoordinaten x = r cos(ϑ) , y = r sin(ϑ) mit r = |F P | = ε|P K| = ε(|LH| − r cos(ϑ)) = l − εr cos(ϑ) = l − εx ,
(13.17)
wobei K der Schnittpunkt der Geraden h00 durch P parallel zu h ist. Also haben wir l = 1 + ε cos(ϑ) , r
(13.18)
eine Darstellung des geometrischen Ortes (implizit) in Polarkoordinaten. (Hierin spiegelt sich dank cos(ϑ) = cos(−ϑ), sin(−ϑ) = − sin(ϑ), wieder die Symmetrie des geometrischen Ortes, bzgl. der Geraden h wieder.) Unten analysieren wir die Gleichung in kartesischen Koordinaten. Ist ε ∈ (0, 1), dann ist 1 + ε cos(ϑ) stets positiv und dies bedeutet, daß der Abstand r beschr¨ankt bleibt: Der geometrische Ort ist eine geschlossene Kurve; er heißt Ellipse. Ist ε = 1, dann ist r unendlich“ f¨ ur ϑ = −π; der geometrische Ort, er heißt Parabel, ” ist keine geschlossene Kurve. Ist ε > 1, dann ist 1 + ε cos(ϑ) positiv oder negativ, je nachdem, ob cos(ϑ) gr¨oßer oder kleiner als − 1ε ist. Dies deutet auf die zwei getrennte Teile des geometrischen Ortes hin; er heißt Hyperbel. Quadriert man in der Gleichung (13.17), so erh¨alt man x2 + y 2 = (l − εx)2
(13.19)
Baumeister: Mathematik III / Stand: Mai 1998 Ist ε 6= 1, erhalten wir mit a :=
369
l 1 − ε2
(x + εa)2 y 2 + =1 (13.20) la a2 und wir erkennen, daß hier die Gleichungen f¨ ur eine Ellipse oder Hyperbel stehen, allerdings nicht symmetrisch zum Ursprung. Ist ε = 1, erhalten wir y 2 = l2 − 2lx (13.21) und wir erkennen die Gleichung einer Parabel. Nun gehen wir auf die verschiedenen Typen in einer “Standardform“ ein. Ellipse x2 y 2 + 2 = 1 (a ≥ b > 0) . a2 b Ist a = b, dann haben wir den Kreis als geometrischen Ort vor uns. √ 2 2 Sei etwa a > b. Wir setzen c := a − b , tragen auf der x−Achse die Punkte F1, F2 mit den Koordinaten (−c, 0) bzw. (c, 0) ein; dies sind die Brennpunkte (siehe unten) der Ellipse. Die Ellipse ist nun also der geometrische Ort aller Punkte, f¨ ur die die Summe der Abst¨ande von F1 und F2 konstant (gleich 2a) ist. Denn es gilt f¨ ur einen Punkt P mit den Koordinaten (x, y) die Ellipsengleichung genau dann, wenn |(x, y) − (−c, 0)| + |(x, y) − (c, 0)| = 2a q
q
gilt. (Die Verifikation gelingt ausgehend von (x + c) + y = 2a − (x − c)2 + y 2 sehr schnell.) Diese Tatsache entspricht der sogenannten G¨ artner–Konstruktion einer Ellipse Ein Seil der L¨ange 2a wird in den Brennpunkten (−c, 0), (c, 0) eingepflockt und zu einem Dreieck F1F2P gespannt; in P gleitet bei gespanntem Seil ein Stab entlang. Dieser 3. Punkt P beschreibt dann eine Ellipse. Die Zahl ε := c/a heißt Exzentrizit¨ at der Ellipse. Die Gleichung einer Ellipse kann man auch in Parameterform schreiben: 2
2
x = a cos(ϑ) , y = b sin(ϑ) (ϑ ∈ IR) . Wenn ϑ monoton das Intervall [0, 2π] durchl¨auft, so beschreibt der Punkt (x, y) eine vollst¨andige Ellipse. Kl¨aren wir nun die Bezeichnung Brennpunkt“ auf. Dazu schicken wir folgende Betrach” tung voraus, die aus Abbildung 13.7 abzulesen ist: Ist P ein Punkt auf der Ellipse, so verl¨angern wir die Strecke F1P u ¨ ber P hinaus bis zu 0 0 0 einem Punkt F2 so, daß |F1F2| = 2a gilt. Das Dreieck F2 P F2 ist nun gleichschenklig, da ja |F1P | +|P F2 | = 2a und daher |P F20 | = |P F2 | gilt. Die Winkelhalbierende t von < ) (F2P F20 ) ist also auch Lot von P auf die Verbindungsstrecke von F2F20 . Der Punkt P liegt auf t und t enth¨alt keinen weiteren Punkt, denn ist Q 6= P ein Punkt der Tangente, so gilt |QF2| = |QF20 | und aufgrund der Dreiecksungleichung (unter Heranziehung des Dreiecks F1QF20 ) haben wir |P F1 | + |P F2 | = 2a = |F1F20 | < |QF1| + |QF20 | = |QF1| + |QF2| .
Baumeister: Mathematik III / Stand: Mai 1998
370
Abbildung 13.7: Eigenschaft einer Ellipsennormalen
Daher ist t Tangente an die Ellipse in P. Die zu t senkrechte Gerade durch P , die wir Normale an die Ellipse in P nennen, ist Winkelhalbierende im Winkel < ) (F1 P F2). Wir haben also gezeigt: Satz 13.35 In jedem Ellipsenpunkt wird der Winkel < ) (F1P F2 ) von der Ellipsennormale halbiert. Aus Satz 13.35 ergibt sich nun, daß ein von F1 ausgehender Strahl an der Ellipse bzw. an der Ellipsentangente so reflektiert wird, daß der reflektierte Strahl durch F2 verl¨auft. Ein von außen auf die Ellipse treffender Strahl, dessen Verl¨angerung durch F1 verl¨auft, wird so reflektiert, daß die Verl¨angerung des reflektierten Strahls durch F2 verl¨auft. Eine entsprechende Eigenschaft hat ein Ellipsoid. Dies ist die Figur, die im Raum entsteht, wenn wir eine Ellipse um eine ihrer Achsen rotieren lassen. Hat ein Gew¨olbe in einem Bauwerk die Form eines Halbellipsoids, so kann ein Ton, der in F1 erzeugt wird, in F2 besonders gut geh¨ort werden; man spricht daher bei solchen Gew¨olben von Fl¨ ustergew¨ olben. Diese Eigenschaft macht man sich auch bei der B¨ undelung“ von Ultraschallwellen bei der ” Zertr¨ ummerung von Nierensteinen zunutze. Hier ist der Platz, einige Anmerkungen zur geometrischen Optik zu machen. Dies ist der Teil der Ph¨anomene der Lichtausbreitung, in dem man von einer geradlinigen Ausbreitung ausgehen kann, also von der Wellenstruktur des Lichtes absehen kann. (Experimente, in denen sich die auf die Wellennatur des Lichts verr¨at, sind die Streuexperimente an einem engen Spalt oder einem kleinem Loch. Das Schillern von Compact discs in Regenbogenfarben ist auch eine Konsequenz daf¨ ur: Die “Rillen“ dienen als Spalte.) F¨allt ein Lichtstrahl auf eine ebene Fl¨ache, die zwei Medien voneinander trennt, so wird er von ihr zum Teil oder auch vollst¨andig reflektiert. Der reflektierte Strahl liegt in der Ebene durch den einfallenden Strahl und das Lot, das auf dem Spiegel im Auftreffpunkt des einfallenden Strahls errichtet wird. Der Einfallswinkel ist gleich dem Ausfallswinkel. Aus diesem Reflexionsgesetz folgt, daß ein Beobachter das virtuelle Bild einer den Strahl
Baumeister: Mathematik III / Stand: Mai 1998
371
aussendenden Lichtquelle in einem Punkt hinter dem Spiegel, der vom Spiegel den gleichen Abstand wie das reelle Bild hat. Die wichtigsten Anwendungen geometrischer Optik haben zu tun mit der Reflexion von Licht an gekr¨ ummten Fl¨achen. Eine solche haben wir schon am Parabolspiegel gesehen. H¨aufiger sind Anwendungen an sogenannten sph¨ arischen Hohlspiegeln, d.h. an der verspiegelten Innenwand eines Kugelsegments. ¨ Sei eine Kugel mit Radius R und Mittelpunkt M betrachtet. F¨ ur unsere Uberlegungen k¨onnen wir einen ebenen Schnitt (Ebene durch M) betrachten. Von der resultierenden Kreislinie betrachten wir nur eine H¨alfte, also ein Kreissegment. Sei S (Scheitel) die Mitte dieses Kreissegments. Die durch S und M gehenden Halbgerade bezeichnen wir als Achse. F¨allt nun parallel zur Achse ein Strahlenb¨ undel ein, wird jeder achsennahe Strahl vom Spiegel so reflektiert, daß er n¨aherungsweise durch den in der Mitte zwischen S und M liegenden Punkt F hindurchgeht; F bezeichnen wir daher als Brennpunkt. Die Begr¨ undung sieht so aus: 0 Sei F der Durchgang eines in A reflektierten Strahls durch die Achse. Dann ist also nach dem Reflexionsgesetz – der Halbstrahl, der durch A und M geht, ist Winkelhalbierende im Dreieck F 0AB, wenn B irgendein Punkt auf dem einfallenden Strahl ist – MF 0 O ein gleichschenkliges Dreieck. Daraus folgt nach kurzer Rechnung |F 0M| =
R 1 2 cos(α)
wenn α = < ) (MOF 0 ) ist. F¨ ur kleine Werte von α k¨onnen wir
1 durch 1+ 1 α2 ersetzen, 2 cos(α)
da die Reihe f¨ ur den Kosinus so aussieht: cos(α) = 1 −
1 2 1 4 1 6 α + α − α + ···; 2! 4! 6!
also ist
1 1 1 α4 = 1 + α2 + ϑ mit ϑ = · 1 2 . 1 2 2 4 1 − α 2 1− α 2 (F¨ ur α = 10o etwa betr¨agt die Abweichung von |F 0M| von R/2 = |F M| nur ca. 1, 5%.) Die Gr¨oße f := R/2 bezeichnet man nun als Brennweite. Ihr Kehrwert klassifiziert als Dioptrie (1m = 1 Dioptrie) die St¨arke von Brillen. Hat man nun einen leuchtenden Pfeil der H¨ohe h auf dem Achsenpunkt P mit |SP | > |SF | vor dem Hohlspiegel stehen, so ensteht ein an der Achse gespiegeltes Bild davon im Achsenpunkt P 0 , der sich folgendermaßen ergibt: Der Strahl S1 , der von der Pfeilspitze in der H¨ohe h achsenparallel auf den Hohlspiegel in < ) f¨allt, wird als ein Strahl durch F reflektiert. Der Strahl S2, der von der Pfeilspitze durch den Mittelpunkt M verl¨auft, wird in sich reflektiert. Der Strahl S3 , der vom Punkt P im Scheitel S auf den Hohlspiegel f¨allt, wird in sich reflektiert. Diese drei Strahlen erzeugen dann ein Dreieck F P 00M und der Fußpunkt des Lotes von P 00 auf der Achse ist P 0 . P 00P 0 ist also das Bild des Pfeils. Man stellt nach einiger Rechnung fest: 1 1 1 + 0 = |P S| |P S| f
Baumeister: Mathematik III / Stand: Mai 1998
372
Dies ist die Newtonsche Abbildungsgleichung. Diese gilt nun auch sinngem¨aß f¨ ur den Fall |P S| < f, allerdings liegt dann das Bild als virtuelles Bild jenseits des Hohlspiegels. Lichtdurchl¨assige K¨orper, die von zwei Kugelfl¨achensegmenten begrenzt werden, bezeichnet man als Linsen. Die Verbindungslinie der Mittelpunkte M1 und M2 der Kugelfl¨achen ist die Achse der Linse. Je nachdem, ob die Linse in der Achsenmitte dicker oder d¨ unner ist als am Rande, ist sie eine Sammellinse oder eine Zertreuungslinse. Linsen k¨onnen ebenso wie Hohlspiegel zur Abbildung dienen. Die Abbildung 13.8 m¨oge dies, ohne weiter darauf einzugehen, veranschaulichen.
Abbildung 13.8: Abbildung an einer Linse
Die optischen Instrumente Fernrohr, Mikroskop, Augenlinse und Brille sind eine ¨außerst n¨ utzliche Realisierung dieser Abbildungseigenschaften. Die Abbildungsfehler dieser Instrumente resultieren im wesentlichen aus der Tatsache, daß die Voraussetzung achsen” nah“ verletzt ist. Bemerkung 13.36 Der Beweis von Satz 13.35 enth¨alt eine einfache Konstruktionsvorschrift f¨ ur die Tangente an die Ellipse in einem Punkt. Er enth¨alt auch die Tatsache, daß eine Ellipse auch der geometrische Ort aller Punkte ist, die von einem Kreis (Kreis um F1 mit Radius 2a) und einem Punkt innerhalb des Kreises (F2) den gleichen Abstand haben. 2 Analytisch–geometrisch erh¨alt man eine Ellipse aus einem Kreis x2 + y 2 = b2 durch die Koordinatentransformation a u := x , v := y, b denn es resultiert in den Koordinaten u, v die Gleichung u2 v 2 + =1 a 2 b2
(13.22)
Baumeister: Mathematik III / Stand: Mai 1998
373
Abbildung 13.9: Die Ellipse als affines Bild
Die Transformation (13.22) ist eine affine Transformation; man sagt, daß eine Ellipse ein affines Abbild eines Kreises ist. Die Abbildung 13.9 gibt dies wieder. Sie enth¨alt auch gleichzeitig eine M¨oglichkeit, eine Ellipse aus einem Kreis heraus zu zeichnen. Bemerkung 13.37 Mit der obigen Idee, eine Ellipse als affines Bild eines Kreises aufzufassen, kann man heuristisch sehr schnell auf die Formel f¨ ur den Fl¨acheninhalt einer Ellipse kommen. Um einen Kreis mit Radius b mit Quadraten der Seitenl¨ange h zu u ¨ berdecken, ben¨otigt man 2 πb etwa Nh := 2 Quadrate. Im affinen Bild der Ellipse ben¨otigt man Nh Bilder dieser h Quadrate (Rechtecke), die nun die Fl¨ache ab h2 haben. Also ist die Fl¨ache FE der Ellipse gegeben durch a FE = Nh · h2 , d.h. FE = πab; b eine Formel, die korrekt ist. 2 Gest¨ utzt auf die astronomischen Messungen von Tycho de Brahe (1546 – 1601) entdeckte J. Kepler (1571 – 1630), daß sich die Planeten um die Sonne nicht auf Kreisbahnen, sondern auf elliptischen Bahnen mit der Sonne im Brennpunkt bewegen. Er konnte damit und mit quantitativen Aussagen u ¨ ber Umlaufzeiten das heliozentrische Kopernikanische System st¨ utzen. Die Halbachsen der Bahnellipse verhalten sich im Falle der Erde wie 7200 zu 7199 (Exzentrizit¨at = 0, 017), so daß es verst¨andlich erscheint, daß N. Kopernikus (1473 – 1543) die Umlaufbahn der Erde um die Sonne noch f¨ ur einen Kreis hielt. (Im Falle der Marsbahn ist = 0, 0007.) Kepler stellt in den Jahren 1609 und 1619 die nach ihm benannten Gesetze auf: 1. Der Planet bewegt sich um die Sonne auf einer Ellipse, in deren einem Brennpunkt die Sonne steht. 2. Der von der Sonne zum Planeten gezogene Fahrstrahl u ¨ berstreicht in gleichen Zeiten gleiche Fl¨achen.
Baumeister: Mathematik III / Stand: Mai 1998
374
3. Die Quadrate der Umlaufzeiten der Planeten verhalten sich wie die Kuben der großen Halbachsen ihrer Bahnellipsen. Hyperbel x2 y 2 − 2 = 1 (a ≥ b > 0) . a2 b √ Sei etwa a > b. Wir setzen c := a2 + b2 und tragen auf der x–Achse die sogenannten Brennpunkte F1, F2 mit den Koordinaten (−c, 0) bzw. (c, 0) ein. Die Hyperbel ist der geometrische Ort aller Punkte, f¨ ur die die Differenz der Abst¨ande von den Brennpunkten F1 und F2 konstant (gleich 2a) ist. Denn es gilt f¨ ur eine Punkt P mit den Koordinaten (x, y) die Hyperbelgleichung genau dann,wenn |(x, y) − (−c, 0)| − |(x, y) − (c, 0)| = 2a gilt. Damit haben wir aber nur den rechten Ast“ der Hyperbel beschrieben. Der linke ” Ast resultiert aus |(x, y) − (c, 0)| − |(x, y) − (−c, 0)| = 2a . Die Punkte (−a, 0) und (a, 0), in denen die Hyperbel die x−Achse schneidet, heißen Scheitel der Hyperbel. Die Geraden b y=± x a sind die Asymptoten der Hyperbel, da sich die Hyperbel¨aste im Unendlichen diesen Geraden ann¨ahern. Die Gleichung etwa des rechten Hyperbelastes kann in Parameterform so geschrieben werden: x = a cosh(u) , y = b sinh(u) (u ∈ IR) Ein Satz 13.35 entsprechendes und analog zu beweisendes Ergebnis ist Satz 13.38 Die Tangente an die Hyperbel in einem Punkt P ist Winkelhalbierende von < ) (F1 P F2) . Aus diesem Satz 13.38 folgt nun wieder die Eigenschaft, daß ein von F1 ausgehender oder auf F1 gerichteter Strahl so an der Hyperbel reflektiert wird, daß der reflektierte Strahl oder seine Verl¨angerung durch F2 geht. Die Konstruktion der Tangente an eine Hyperbel ist festgehalten in Abbildung 13.10. Bei der Ellipse sehen wir, daß sie als Bahn f¨ ur einen Massenk¨orper in dem Zentralfeld der Sonne auftritt; ein Planet ist eingefangen durch die von der Sonne (große Masse) auf den Planeten (kleine Masse) ausge¨ ubte Gravitationskraft. Die Hyperbel kommt ins Spiel, wenn wir uns einen Massenk¨orper, der mit positiver Engergie ins Kraftfeld der Sonne
Baumeister: Mathematik III / Stand: Mai 1998
375
Abbildung 13.10: Tangentenkonstruktion bei der Hyperbel
eintritt, vorstellen: Er beschreibt dann eine Hyperbelbahn, auf der er das Sonnensystem durcheilt und schließlich wieder verl¨aßt. Parabel y 2 = 2px (p > 0) . Wir markieren auf der x−Achse den Brennpunkt F mit den Koordinaten (p/2, 0) und zeichnen die Gerade x = −p/2, welche Leitlinie der Parabel heißt, ein. Die Parabel ist also der geometrische Ort aller Punkte, die vom Brennpunkt und der Leitlinie den gleichen Abstand haben. Ein Satz 13.38 entsprechendes Ergebnis ist Satz 13.39 Die Tangente an die Parabel in einem Punkt P ist die Winkelhalbierende von < ) (F P L), wobei L der Fußpunkt des Lotes von P auf die Leitlinie ist. Durch Drehung einer Parabel um seine Achse entsteht im Raum ein sogenanntes Paraboloid. Ist die Innenseite verspiegelt, nennt man ein solches Paraboloid einen Parabolspiegel. Bringt man in einem Brennpunkt eines Parabolspiegels eine Lichtquelle an, so werden die Lichtstrahlen parallel zur Achse der Parabel reflektiert. Dies wird bei der Konstruktion von Scheinwerfern ausgenutzt. Treffen Lichtstrahlen parallel zur Achse auf den Parabolspiegel dann gehen die reflektierten Lichtstrahlen durch den Brennpunkt. Diese Eigenschaft kann bei der Konstruktion eines Sonnenofens ausgen¨ utzt werden; die Bezeichnung Brennpunkt“ ist also mehr als angebracht. Von Archimedes (287 ? – 212 v. Chr.) ” wird berichtet, daß er im Krieg gegen die R¨omer einen Parabolspiegel eingesetzt hat, um die Flotte des Feindes in Brand zu setzen. Bei der Bewegung von Massenk¨orpern in einem Zentralfeld kommt die Parabel ins Spiel, wenn wir uns einen K¨orper, der mit Energie Null ins Kraftfeld der Sonne “eintritt“, vorstellen: Er beschreibt dann eine Parabelbahn, auf der er das Sonnensystem durcheilt und schließlich wieder mit Energie Null “verl¨aßt“.
Baumeister: Mathematik III / Stand: Mai 1998
376
Wie wir oben gesehen haben, bestehen zwischen Ellipse, Hyperbel und Parabel viele Gemeinsamkeiten. Der Schl¨ ussel zum Verst¨andnis hierf¨ ur ist neben der gemeinsamen Definition als geometrischer Ort die Menaichmos (um 350 v.Chr.) zugeschriebene Entdeckung, daß diese Kurven beim Schnitt eines Kreiskegels mit einer geeigneten Ebene entstehen. Sie heißen daher auch Kegelschnitte. Von A. D¨ urer (1471 – 1528) gibt es dazu illustrative Bilder. Die Best¨atigung, daß dies so ist, liefern wir nun. Zun¨achst ben¨otigen wir die Beschreibung eines Kegels und des Kegelmantels. Ein Kegel (in spezieller Lage) ist die Figur {(x, y, z) ∈ IR 3 |
x2 y 2 z 2 + − 2 ≤ 0} (a, b, c > 0); a 2 b2 c
sein Mantel ist die Menge x2 y 2 z 2 + − 2 = 0}, a 2 b2 c seine Spitze ist der Punkt (0, 0, 0). W¨ahlt man z = h fest, so entsteht die Gleichung {(x, y, y) ∈ IR 3 |
h2 x2 y 2 + = a 2 b2 c2 in der Ebene {(x, y, z) ∈ IR 3 |z = h}; es ist dies eine Gleichung einer Ellipse mit den bh Halbachsen ah c bzw. c . W¨ahlt man y = 0, so entsteht in der x − z – Ebene die Gleichung eines Paares sich in (0, 0) schneidender Geraden. F¨ ur unsere Betrachtung der Kegelschnitte reicht es nun aus, den Einheitskegel“ mit ” definierender Gleichung x2 + y 2 − z 2 = 0 zu betrachten. Die schneidende Ebene E setzen wir parametrisch so an: E := {u ∈ IR3 |u = re3 + te1 + s(ae2 + be3), s, t ∈ IR} ; dabei sind r > 0 und a, b ∈ IR noch freie Parameter. Die Schnittmenge S des Kegelmantels mit der Ebene H wird dann durch die Gleichung t2 + (a2 − b2 )s2 = r2 + 2brs beschrieben. Man erh¨alt also nun in der Tat Kegelschnitte durch unterschiedliche Wahl der Parameter a, b : a2 > b2 : Ellipse a2 < b2 : Hyperbel a2 = b2 : Parabel Man stelle sich nun vor, daß eine Schnittebene den Kegel schneidet. Dann haben wir also die drei obigen F¨alle. Im Fall der Ellipse und der Hyperbel k¨onnen wir zwei Kugeln in den Kegel legen, die jeweils die Schnittebene in einem Punkt und den Kegelmantel in einem Kreis ber¨ uhren. Im Fall einer Parabel k¨onnen wir nur eine solche Kugel unterbringen; siehe Abbildung 13.11. Diese Kugeln heißen nach P.G. Dandelin Dandelinsche Kugeln. Die Kegelschnitte finden wir in dieser Konstruktion dann als Projektion der Ber¨ uhrungskreise auf die Schnittebene von der Spitze aus. Die Brennpunkte der Kegelschnitte sind gerade die Ber¨ uhrungspunkte der Dandelinschen Kugeln mit der Schnittebene.
Baumeister: Mathematik III / Stand: Mai 1998
377
Abbildung 13.11: Dandelinsche Kugeln
13.7
Minkowski–Raum und Relativit¨ atstheorie
Die spezielle Relativit¨atstheorie wird mit dem Namen von A. Einstein (1879 – 1955) verbunden, hat aber eine Vor– und Nachgeschichte. Zuerst ist in diesem Zusammenhang A. A. Michelson (1852 – 1931) zu nennen, der 1881 die Konstanz der Lichtgeschwindigkeit c entdeckt hatte und 1907 mit dem Nobelpreis ausgezeichnet wurde. Weitere Vorl¨aufer sind H. A. Lorentz (1853 – 1928) und H. Poincar´e (1854 – 1912). Das Verdienst von H. Minkowski (1864 – 1909), einem akademischen Lehrer von A. Einstein, besteht in der Geometrisierung der Speziellen Relativit¨atstheorie, so daß der zugrunde liegende Raum ihm zu Ehren (reeller) Minkowski–Raum genannt wird. ¨ Uberraschend einfach ist das die damalige Physik revolutionierende Relativit¨ atsprinzip: Ist K 0 ein in bezug auf K gleichf¨ormig und drehungsfrei bewegtes Koor” dinatensystem, so verl¨auft das Naturgeschehen in bezug auf K 0 nach genau denselben allgemeinen Gesetzen wie in bezug auf K 00. Erg¨anzend muß bemerkt werden, daß jegliches Naturgeschehen in Raum und Zeit stattfindet; die Punkte der Raum–Zeit werden Ereignisse genannt, statt Raum–Zeit spricht man auch vom Ereignisraum. Bez¨ uglich K wird ein Ereignis durch drei r¨aumliche und eine Zeitkoordination beschrieben: (x, y, z, t) ∈ IR 4 Eine euklidische Metrik im Ereignisraum f¨ uhrte zu einem Widerspruch, denn das Additi1 2 onstheorem x = x +x der Geschwindigkeiten der Newtonschen Mechanik f¨ uhrt zu einem Widerspruch zur entdeckten Konstanz der (Vakuum–)Lichtgeschwindgkeit c. Lorentz hat erkannt, daß die quadratische Form Φ(x, y, z; t) := x2 + y 2 + z 2 − c2 t2 invariant bleiben muß. Wenn als vierte Koordinate ct statt t benutzt wird, d.h. , daß f¨ ur B = (e1 , e2, e3, e4) bez¨ uglich der urspr¨ unglichen Basis (a1, a2 , a3, a4) offenbar 1 e1 := a1, e2 := a2, e3 := a3, e4 := a4 c
Baumeister: Mathematik III / Stand: Mai 1998
378
sein muß, um ta4 = t · ce4 = (ct)e4 zu erhalten. Die normierten Ereigniskoordinaten bez¨ uglich B lauten z 1 = x, z 2 = y, z 3 = z, z 4 = ct. In IR 4 haben wir nun neben dem euklidischen Skalarprodukt < ·, · > Bilinearform < z, y >M = z 1y 1 + z 2y 2 + z 3y 3 − z 4 y 4. Zusammenfassend k¨onnen wir feststellen: Nach Einstein ist folgendes Modell sinnvoll: Der Ereignisraum ist ein Minkowski–Raum. Koordinatentransformationen werden von seinen Bewegungen realisiert. Zur physikalischen Interpretation erweist sich ein isotroper Kegel wie folgt als Lichtkegel: Wir betrachten die Ereignisse Ei = (xi , yi , zi, ti ), i = 1, 2, und k¨onnen etwa t1 < t2 annehmen. Ferner gehen wir von einem “Signal“ aus, das sich mit konstanter Geschwindkeit ausbreitet: x 2 − x 1 y2 − y1 z 2 − z 1 v = (v 1, v 2, v 3) = ( , , ). t2 − t1 t2 − t1 t2 − t1 Es gibt bis auf Vertauschung von 1 und 2 folgende F¨alle: 1. E1 ∈ KE2 (|v|2 − c2 ≤ 0) , ; d.h., daß ein im Zeitpunkt t1 in (x1, y1 , z1) ausgesandtes Lichtsignal zum Zeitpunkt t2 in (x2, y2 , z2) ankommt. 2. E1 ∈ intKE2 (|v|2 −c2 < 0) , ; d.h. daß ein im Zeitpunktt1 in (x1 , y1, z1) ausgesandtes Lichtsignal fr¨ uher als t2 den Punkt (x2, y2 , z2) erreicht. Somit sind die Bezeichnungen Zukunft (Nachkegel) und Vergangenheit (Vorkegel) gerechtfertigt. 3. E1 ∈ extKE2 (|v|2 − c2 > 0) ; d.h. nach Michelson, daß die Ereignisse E1 und E2 in keinem kausalen Zusammenhang (Ursache–Wirkung–Zusammenhang) stehen k¨onnen. Da sich die Koordinatensysteme K und K 0 gleichf¨ormig und drehungsfrei, insbesondere geradlinig, gegeneinander bewegen, d¨ urfen wir voraussetzen, daß K und K 0 f¨ ur t = 0 ein und denselben Ursprung besitzen und daß y− und z−Koordinate konstant bleiben, d.h. x = |v|. Setzen wir noch voraus, daß x f¨ ur wachsendes t w¨achst, dann reduziert sich die Transformationsmatrix im wesentlichen auf die zweireihige Matrix einer hyperbolischen Drehung bzw. eigentlichen Lorentztransformation. x = cosh(α)¯ z + sinh(α)ct¯ , ct = sinh(α)¯ z + cosh(α)ct¯. F¨ ur den Ursprung θ0 von K 0 gilt z = 0, so daß wir wegen x = sinh(α) · ct, ct = cosh(α) · ct v= Wegen
dx = c tanh(α) bzw. dt
v = tanh(α) . c
cos2(α) − 1 tanh (α) = cos2 (α) 2
Baumeister: Mathematik III / Stand: Mai 1998
379
ergibt sich 1 cosh(α) = q . 1 − ( vc )2 Schließlich erhalten wir die in der Physik genutzten Transformationsgleichungen v t − 2x x + vt , y = y, z = z, t = r c . x= r v 2 v 2 1−( ) 1−( ) c c Die Abbildung 13.12 veranschaulicht Koordinatensystem K und K 0 mit unseren Vereinbarungen. Insbesondere erkennt man sofort: Punkte gleicher Zeit bez¨ uglich K sind die Paral0 lelen zur x−Achse, Punkte gleicher Zeit bez¨ uglich K sind die Parallelen zur x−Achse; da diese Achsen sich schneiden, gibt es keine vom Koordinatensystem unabh¨angige Gleichzeitigkeit.
Abbildung 13.12: Lichtkegel
F¨ ur kleine Geschwindigkeiten v (v << c) gilt x ≈ x − vt, y, z = z, t = t, d.h. n¨aherungsweise G¨ ultigkeit der Galilei–Transformation. Addition von Geschwindigkeiten Bewegt sich ein Koordinatensystem K 00 bez¨ uglich K 0 gleichf¨ormig und drehungsfrei mit der konstanten Geschwindgkeit w in derselben Richtung wie K 0 bez¨ uglich K und werden dieselben Verabredungen wie oben getroffen, dann gilt f¨ ur die Geschwindigkeit u von K 0 bez¨ uglich K v w + u tanh(α) + tanh(β) c , = tanh(α + β) = = c vw c 1 + tanh(α) tanh(β) 1 + c Additionstheorem gleichgerichteter Geschwindigkeiten. Es hat seine Best¨atigung schon vorher im (Leitf¨ uhrungs–) Versuch von Fizeau (1819 – 1896) gefunden, zun¨achst f¨alschlich gedeutet.
Baumeister: Mathematik III / Stand: Mai 1998
380
L¨ angenkontraktion und Zeitdilatation a) F¨ ur t = 0 gilt f¨ ur die L¨angeneinheit der x− Achse nach ?? 1=x= r
r
x v 1 − ( )2 c
, d.h. x =
v 1 − ( )2 < 1 c
b) Im Vergleich mit einer in O0 ruhenden Uhr geht eine in O ruhende Uhr langsamer: t t= r > t. x 2 1−( ) ct Energie Die Mechanik sehr schneller (Elementar–)Teilchen hat, um von K 0 bzw. K 00 unabh¨angige Begriffe zu erhalten, eine Modifikation des klassischen Begriffsystems n¨otig, insbesondere sind Masse und (klassische) Energie je f¨ ur sich vom Koordinatensystem abh¨angig. Als Invariante der Speziellen Relativit¨atstheorie erweist sich nunmehr Ea + ma c2 r ; v 1 − ( )2 c dabei ist v die Geschwindigkeit des bewegten Teilchens, das im Ursprung des Koordinatensystems K 0 sei, bez¨ uglich K 0 die (Strahlungs–)Energie E0 aufgenommen hat und die Ruhemasse m0 besitzt. Mittels (10) wird die relativistische Engergie definiert, wobei (nach Reihenentwicklung) m0c2 m0c2 3 v 4 Ekin := r − m0 c2 = + m0 2 + · · · v 2 2 8 c 1−( ) c als kinetische Energie mit einer relativistischen Korrektur nach dem klassischen Ausdruck m0v 2 angesehen wird. Insbesondere gibt es die Energie–Masse–Beziehung 2 e = mc2 , die z.B. die hohen bei Zwischenf¨allen freisetzbaren Energien bei Kernkraftwerken erkl¨art. Eigenzeit Wiederum sei ein mit der Geschwindigkeit v gleichf¨ormig und drehungsfrei bewegter Massenpunkt Ursprung des Koordinatensystems K 0 , wobei alle bisherigen Verabredungen gelten. Wegen x = 0 gilt x = vt und v r 2 vt s v c r := t = = t 1 − ( )2 v c c 1 − ( )2 c t−
Baumeister: Mathematik III / Stand: Mai 1998
381
bzw.
v ds2 = c2 (1 − )2dt2 = (dct)2 − dc2 = (dx4 )2 − (dx1 )2 . c Die Invariante s heißt Eigenzeit; sie kann durch eine im Ursprung von K 0 ruhende Uhr gemessen werden. Sie ist f¨ ur v << c eine n¨aherungsweise Invariante. Abschließend erw¨ahnen wir, daß zahlreiche Beobachtungsergebnisse wie Abberation (j¨ahrliche Wanderung des scheinbaren Ortes der Fixsterne), Rotverschiebung der Spektrallinien bei Licht von Fixsternen, aber auch die L¨angenkontraktion bei Kathodenstrahlung und die schon oben dargestellten Resultate von Michelson und Fizeau die hier von mathematischer Seite dargelegten Sachverhalte der Speziellen Relativit¨atstheorie st¨ utzen. p
13.8
Sph¨ arische Geometrie und Astronomie
Die klassische“ Geometrie der Fl¨achen ist eine mathematische Sicht der Figuren in der ” Ebene. Die Ebene ist aber f¨ ur die Erdmessung nur eine angenehme Annahme, wie wir seit der Entdeckung“, daß die Erde in Wirklichkeit eine Kugel ist, wissen. (Messungen ” zeigen, daß auch diese Annahme nur einer erste Ann¨aherung an die wirkliche Gestalt der ¨ Erde ist, eine bessere N¨aherung ist die Gestalt eines Ellipsoids (Aquatorradius 6378 km, Entfernung Pol–Erdmittelpunkt 6357 km.) Bemerkung 13.40 Das Gnomon (Schattenstab) wurde von Eratosthenes (276? - 194? v. Chr.) zur Messung des Erdumfangs benutzt. Dabei n¨ utzt er folgende Fakten aus (siehe Abbildung 13.13): 1. Alexandria und Syene liegen ungef¨ahr auf dem gleichen Meridian. Die Entfernung ist ca. 5 000 Stadien. 2. Am Tag der Sommersonnenwende steht die Sonne in Syene mittags im Zenit: Ein Schattenstab wirft keinen Schatten. 3. Am Tag der Sommersonnenwende wirft der Schattenstab mit Halbkugel in Alexan1 seines Umfangs aus der Senkrechten abweicht. dria einen Schatten, der ca. 50 1 des Erdumfangs, der Erdumfang also ca. 250 000 Also entsprechen 5 000 Stadien 50 Stadien. (Die L¨ange Stadion“ war auf 600 Fuß festgesetzt, aber die L¨ange eines Fußes ” war nicht standardisiert und schwankte um 10% und mehr. Die Angabe von 25 000 Meilen f¨ ur den Erdumfang ist aber nicht allzu schlecht.) Die sph¨arische Geometrie/Trigonometrie besch¨aftigt sich mit den Figuren auf einer Kugeloberfl¨ache im IR 3 und stellt daher eine w¨ unschenswerte Verallgemeinerung der ebenen Geometrie dar. Viel ¨alter sind jedoch die Versuche, sph¨arische Astronomie zu betreiben, denn die Naturbeobachtung und die Notwendigkeiten der Seefahrt f¨ uhrten zu einem Erkl¨arungsbedarf. Einem Beobachter auf der Erde erscheint der Himmel als Halbsph¨are, die vom Horizont begrenzt wird, d.h. vom Schnittkreis der Tangentialebene“ an die Erdkugel im Stand” punkt B des Beobachters mit der Himmelskugel.
Baumeister: Mathematik III / Stand: Mai 1998
382
Abbildung 13.13: Zur Messung des Erdumfangs
Abbildung 13.14: Die Himmelssph¨are
Wir gehen beide Problemkreisen nicht axiomatisch, sondern analytisch–geometrisch an, d.h. wir arbeiten mit Koordinaten und den Gleichungen, die die Figuren dann beschreiben. Wir betrachten die Kugel mit Radius R, eingebettet in IR3 . N¨ahert“ sich eine Ebene ” (im IR3 ) der Kugel, so erh¨alt man zun¨achst einen Ber¨ uhrungspunkt und bei weiterer Ann¨aherung eine Schnittfigur, die ein Kreis ist. Der Radius dieses Kreises w¨achst, bis er mit dem Kugelradius u ¨ bereinstimmt; die Ebene verl¨auft dann durch den Kugelmittelpunkt (siehe Beispiel 13.27). Die Schnittkreise der Kugel mit Ebenen durch den Kugelmittelpunkt heißen Großkreise, die Schnittkreise mit den u ¨ brigen Ebenen heißen Kleinkreise, ihre Radien haben Werte zwischen 0 und R. Die Schnittkreise der Kugel mit Ebenen {(x, y, z) ∈ IR 3 |z = a} heißen ¨ Breitenkreise. Der Aquator ist der Schnittkreis der Ebene {(x, y, z) ∈ IR 3 |z = 0} mit ¨ der Kugel. Die Großkreise, die auf dem Aquator senkrecht stehen, heißen Meridiane ¨ oder L¨ angenkreise. Der Aquator und die Meridiane sind Großkreise, die Breitenkreise ¨ mit Ausnahme des Aquators sind Kleinkreise. Punkte auf der Kugel, die durch eine Gerade durch den Mittelpunkt verbunden sind, heißen diametral. Meridiane und Breitenkreise schneiden sich senkrecht.
Baumeister: Mathematik III / Stand: Mai 1998
383
Abbildung 13.15: Die Erdkugel
Lemma 13.41 Zwei Punkte der Kugeloberfl¨ache, die nicht diametral sind, liegen auf genau einem Großkreis. Beweis: Seien A, B zwei nicht diametral liegende Punkte der Kugel und sei O der Mittelpunkt der Kugel. Diese drei Punkte definieren eindeutig eine Ebene und diese Ebene schneidet die Kugeloberfl¨ache in einem Großkreis. Hat man zwei Punkte A, B auf der Kugeloberfl¨ache, so lassen sich durch A, B außer dem Großkreis noch unendlich“ viele andere Ebenen legen. Alle diese Ebenen haben ” gemein, daß die Verbindungsgerade von A, B in dieser Ebene liegt und daß sie Kreise auf der Kugeloberfl¨ache ausschneiden, deren Durchmesser in [|AB|, 2R] liegen. Die Punkte A, B teilen diese Kreise in zwei Kreisb¨ogen, von denen der k¨ urzere der beiden B¨ogen den kleinsten Abstand von der Strecke AB hat, falls der vorliegende Kreis der Großkreis ist. Der Großkreis realisiert also die k¨ urzeste Verbindung von A nach B auf der Kugeloberfl¨ache unter all diesen Kreisb¨ogen. Der Beweis, daß dieser Kreisbogen des Großkreises sogar die k¨ urzeste Verbindung unter allen verbindenden Kurvenst¨ ucken liefert, erfordert ¨ Hilfsmittel und Uberlegungen, die weit u ¨ ber den Rahmen der Elementargeometrie hinausgehen, er ist der Variationsrechnung zuzuordnen, einem Teilgebiet der Mathematik, das wesentlich zur Entwicklung der Analysis beigetragen hat. Die Beweisidee ist folgende: Jede vern¨ unftige“ Kurve auf der Kugeloberfl¨ache l¨aßt sich durch eine Kurve bestehend ” aus Großkreisb¨ogen ann¨ahern. Da jeder Großkreisbogen, der zwei Punkte direkt verbindet, k¨ urzer als eine Kurve, bestehend aus mehreren Großkreisb¨ogen ist, trifft die obige Aussage zu. Wir setzen n KnR := {x ∈ IR | |x| = R} .
Damit liegt nun nahe, die Ingredienzien einer axiomatischen Geometrie auf der Sph¨are
Baumeister: Mathematik III / Stand: Mai 1998
384
(sph¨ arische Geometrie) folgendermaßen einzuf¨ uhren: 3 (x, y, z) ∈ KR . 3 Großkreise auf KR . Großkreisb¨ogen, die nicht l¨anger als ein halber Großkreis sind. d(A, B) := L¨ange des k¨ urzeren Großkreisbogen, der A, B verbindet. (A, B seien nicht diametral.) 3 Bewegungen: Abstandserhaltende surjektive Abbildungen der Sph¨are KR .
Punkte: Geraden: Strecken: Abstand:
Daß damit aber geometrische Sachverhalte definiert werden, die nicht mehr als euklidisch zu bezeichnen sind, sieht man an folgenden unmittelbar einsichtigen Aussagen: IS/1 Zwei voneinander verschiedene Geraden haben genau zwei Punkte gemeinsam. IS/2 Es gibt keine parallelen Geraden. IS/3 Durch zwei diametrale Punkte gibt es unendlich viele Geraden. Ferner ist im allgemeinen eine Figur von Punkten, die von einer gegebenen Geraden ¨ gleichen Abstand haben, keine Gerade; betrachte etwa den Aquator und Breitenkreise. (IS/2 ergibt sich aus der Tatsache, daß ein Großkreis durch einen Punkt stets zwei Punkte mit jedem anderen Großkreis gemein hat.) Eine Besonderheit der sph¨arischen Geometrie ist auch das Zweieck: Durch zwei Großkreise wird die Sph¨are in vier Teile zerlegt, die sph¨ arische Zweiecke genannt werden. Jedes dieser Zweiecke hat zwei gleich große Winkel und zwei gleich große Seiten, die jeweils die L¨ange π haben. Der Fl¨acheninhalt F eines Zweieckes ist allein durch den Winkel α des Zweieckes bestimmt: α F = · 4πR2 = 2αR2 2π Drei beliebige Punkte A, B, C der Sph¨are, die paarweise nicht diametral seien, lassen sich paarweise durch Großkreise verbinden. Dadurch entsteht ein sph¨ arisches Dreieck ABC, dessen Seiten von den jeweils k¨ urzeren Großkreisb¨ogen gebildet werden. Da sich die Großkreise ja zweimal schneiden, entsteht noch ein weiteres Dreieck A∗B ∗C ∗ . Es heißt Gegendreieck von ABC. Beide Dreiecke haben die gleichen Seiten a, b, c und die gleichen Winkel α, β, γ. Man sieht, daß die 6 Punkte A, B, C, A∗, B ∗ , C ∗ noch weitere 6 Dreiecke entstehen lassen: ABC ∗, AB ∗C, A∗BC, AB ∗C ∗, A∗B ∗ C, A∗BC ∗. Da wir die Fl¨acheninhalte von Zweiecken schon kennen, k¨onnen wir den Fl¨acheninhalt des sph¨arischen Dreiecks ABC berechnen. Wir gehen aus von FABC + FA∗ BC = 2αR2 , FABC + FAB ∗C = 2βR2 , FABC + FABC ∗ = 2γR2 , und FABC + FA∗ BC + FAB ∗C + FABC ∗ = 2πR2 ,
Baumeister: Mathematik III / Stand: Mai 1998
385
Abbildung 13.16: Der Fl¨acheninhalt von sph¨arischen Dreiecken
da FABC ∗ = FA∗ B ∗C gilt. Dies liefert FABC = (α + β + γ − π)R2 Die Gr¨oße := α + β + γ − π heißt sph¨ arischer Exzeß des Dreiecks ABC . Da wohl im allgemeinen der Fl¨acheninhalt eines sph¨arischen Dreiecks nicht Null ist, muß also die Winkelsumme im Kugeldreieck gr¨oßer als π sein, im Gegensatz zum ebenen Dreieck, bei dem die Winkelsumme ja π betr¨agt. Am Sph¨arenoktant kann man dies u ¨berzeugend sehen. Es ist dies das sph¨arische Dreieck, das durch die drei Koordinatenebenen auf der Kugel ausgeschnitten wird. Hier ist die Winkelsumme offenbar 3π 2 . Halten wir fest: Satz 13.42 Die Winkelsumme eines sph¨arischen Dreiecks ist stets gr¨oßer als zwei Rechte.
Die sph¨arische Geometrie/Trigonometrie ist die Besch¨aftigung mit den Figuren auf einer Kugeloberfl¨ache. 3 Es ist n¨ utzlich, die Punkte auf der Kugeloberfl¨ache KR durch Kugelkoordinaten darzustellen. Jeder Punkt (x, y, z) ∈ K3R l¨aßt eine Darstellung (x, y, z) = (R cos φ sin ϑ, R sin φ sin ϑ, R cos ϑ) mit φ ∈ (−π, π], ϑ ∈ [0, π] zu. φ ist dabei der Winkel, der von der Polachse aus gemessen wird, und ϑ ist der Winkel, der ¨ von den Polarkoordinaten in der Aquatorebene herr¨ uhrt. Diese Darstellung ist eindeutig f¨ ur jeden Punkt der Kugeloberfl¨ache mit Ausnahme der Pole.
Baumeister: Mathematik III / Stand: Mai 1998
386
Abbildung 13.17: Die geographischen Koordinaten
Betrachte etwa einen Punkt (x, y, z) ∈ K3R mit z 6= ±1 . In √ der dritten Gleichung z = R cos ϑ ist ϑ dadurch eindeutig bestimmt. Weiter ist ρ := x2 + y 2 = R sin ϑ, und aus der Darstellung x = ρ cos φ , y = ρ sin φ (ebene Polarkoordinaten) ergibt sich die Formel. Es gibt noch eine andere Darstellung durch Kugelkoordinaten, welche den Winkel ϑ0 := π − ϑ benutzt. Die entsprechenden Formeln 2 (x, y, z) = (R cos φ cos ϑ0, R sin φ cos ϑ0, R sin ϑ0 ) werden vor allem in der Kartographie der Erde benutzt. Es ist dann θ0 die geographische Breite und φ die geographische L¨ ange des Ortes. Hierbei wird die L¨ange f¨ ur φ ≥ 0 als ¨ ostliche L¨ ange und f¨ ur φ < 0 als westliche L¨ ange |φ| angegeben. Genauso verf¨ahrt man bei der Breite: ϑ ≥ 0 wird als n¨ordliche Breite, ϑ < 0 wird als s¨ udliche Breite |ϑ| bezeichnet. Dabei ist es u ¨blich, die L¨angen und Breiten nicht im Bogenmaß, sondern in 2π . (1o auf einem Großkreis der Erde hat o Grad anzugeben: 1 entspricht dem Bogenmaß 360 die L¨ange von ca. 111 km.) Beispiele sind:
L¨ange
Frankfurt
Berlin
New York Johannesburg
8, 5o ¨o.L.
13, 4o ¨o.L. 73, 8o ¨o.L. 33, 1o ¨o.L.
Breite 50, 1o n.B. 52, 5o n.B. 40, 8o n.B. 26, 2o n.B. Wir wissen schon: Die Punktmengen konstanter L¨ange heißen Meridiane oder L¨angenkreise, die Punktmengen konstanter Breite heißen Breitenkreise. Der Nullmeridian (ϑ = 0) ¨ ist der Meridian durch Greenwich (London), der Breitenkreis 0.–ter Breite ist der Aquator. Wir handeln nun trigonometrische Aussagen f¨ ur den Fall R = 1 ab. Haben wir drei Punkte P, Q, R auf der Kugeloberfl¨ache mit den Koordinaten x, y, z ∈ K3
Baumeister: Mathematik III / Stand: Mai 1998
387
gegeben, so definieren wir die Seiten (man beachte |x| = |y| = |z| = 1) a, b, c durch cos a := < y, z > , cos b := < x, z > , cos c := < y, z > , und Winkel α, β, γ durch cos α :=
< y × x, y × z > < z × y, z × x > < x × z, x × y > , cos β := , cos γ := . |x × z||x × y| |y × x||y × z| |z × y||z × x|
Dabei sind α, β, γ offenbar die Winkel zwischen den Ebenen durch θ, die von x, y, z paarweise erzeugt werden. Diese Ebenen schneiden auf der Kugeloberfl¨ache ein sph¨ arisches Dreieck aus. Ziel der sph¨arischen Trigonometrie ist es, Beziehungen zwischen den trigonometrischen Funktionen der Seiten, und den Winkeln α, β, γ herzustellen. Da wir bei den obigen Formeln schon die u utzlichen Begriffe Skalarprodukt“ und Vektor¨beraus n¨ ” ” produkt“ verwendet haben, gelingen solche Herleitungen schnell. Hier sind solche Beziehungen: sin α = sin β = sin γ sin a sin c sin b
Sinussatz:
1.Cosinussatz: cos a = cos b · cos c + sin b · sin c · cos α 2.Cosinussatz: sin c · cos b · cos c · cos α + sin a · cos β. Zum Beweis des Sinussatzes: Es gilt offenbar < x × y, z > = sin α · sin b · sin c , und wir erhalten
sin α < x × y, z > = . sin a sin a · sin b · sin c Da sich die rechte Seite bei zyklischer Vertauschung nicht ¨andert, erh¨alt man das Ergebnis.
Zum Beweis des 1. Cosinussatzes: Wir haben sin b · sin c · sin α = = = =
|x × z||x × y| cos α < x × z, x × y > < x, x >< y, z > − < x, y >< x, z > cos a − cos c · cos b .
Zum Beweis des 2. Cosinussatzes: Die Behauptung ist gleichwertig mit |x × y| < x, z >= |x × y| < x, y >
< x × z, x × y > < y × x, y × z > + |y × z| , |x × z||x × y| |x × y||y × z|
Baumeister: Mathematik III / Stand: Mai 1998
388
also mit |x × y|2 < x, z > = < x, y >< x × z, x × y > + < y × x, y × z > . Eine einfache Rechnung zeigt dies. Betrachten wir noch eine Grundaufgabe der sph¨arischen Trigonometrie, die Entfernungsaufgabe.5 Gegeben: Orte A, B auf der Nordhalbkugel mit den Koordinaten (φA , ϑA), (φB , ϑB ) . Gesucht: L¨ange der sph¨arischen Strecke AB. Dazu bilden wir das sph¨arische Dreieck ABN, wobei N der Nordpol ist. In diesem Dreieck sind gegeben: Winkel γ := φB − φA am Pol N , Strecke b := AN = ϑA , Strecke a := BN = ϑB . Berechnet werden soll nun die Strecke c := AB. (F¨ ur die Praxis w¨aren auch die Kurs” winkel“ α, β interessant; dazu sei auf Formelsammlungen verwiesen.) Aus dem 1. Cosinussatz ergibt sich cos c = cos a cos b + sin a sin b cos φ, also cos c = cos(ϑB ) cos(ϑA) + sin(ϑB ) sin(ϑA) cos(φB − φA) Die obigen drei S¨atze k¨onnen nun zu Kongruenzs¨atzen u ¨ber sph¨arische Dreiecke ausgebaut werden. Wir verzichten hier darauf. Bemerkung 13.43 Die Flug– und Seerouten werden in dem Wissen gew¨ahlt, daß sph¨arische Geraden die k¨ urzesten Entfernungen liefern. Dabei f¨allt dann wiederholt die Entfernungsaufgabe mit Bestimmung der Kurswinkel (Routenaufgabe) an. Die Routenaufgabe kann auch graphisch gel¨ost werden. 2 Der Sinussatz war bereits Vieta bekannt. Wegen lim sinx x = 1 geht der obige Sinussatz x→0 der sph¨arischen Trigonometrie in den Sinussatz der ebenen Trigonometrie u ¨ ber. Somit ist f¨ ur kleine“ Teile der Erdoberfl¨ache die Anwendung des ebenen Sinus–Satzes zul¨assig. ” Dies ist nun der Beweis“, daß die Betrachtung unserer Umwelt im Kleinen als euklidische ” Ebene erlaubt ist. Infolge der Rotation der Erde um ihre Achse greift nach dem Urteil des mitbewegten Beobachters an allen außerhalb der Achse liegenden Masseteilchen eine Zentrifugalkraft Z an. Diese betr¨agt dem Betrage nach f¨ ur eine Masse m an der Erdoberfl¨ache auf der geographischen Breite ϑ |Z| = mω 2 r = mω2R cos ϑ;
Baumeister: Mathematik III / Stand: Mai 1998
389
Abbildung 13.18: Zentrifugalkraft an der Erdoberfl¨ache
siehe Abbildung 13.18. Ihre Komponente ZR in radialer Richtung ist ZR = mω 2R cos2 ϑ, ihre Komponente ZT in tangentialer Richtung ist ZT = mω 2 R cos ϑ sin ϑ. Die Tangentialkomponente ist Ursache f¨ ur die Abplattung der Erde and der Pole. Das ¨ Gewicht ist aufgrund dieser Abplattung am Pol um ca. 5, 2% gr¨oßer als am Aquator. K¨orper, die sich in einem rotierenden System relativ zu ihm bewegen, erfahren eine Tr¨agheitskraft, die als Corioliskraft (G.–G. Coriolis (1792-1843)) bezeichnet wird. Wir betrachten einen Spezialfall; siehe Abbildung 13.19.
Abbildung 13.19: Zur Corioliskraft
Auf einer Drehscheibe mit Radius r, die durch eine zylindrische Wand berandet ist, die sich mitdreht, und die sich mit konstanter Winkelgeschwindigkeit ω von A nach B dreht, befindet sich im Abstand ρ von der Drehachse in P ein Beobachter; er wirft in radialer Richtung einen K¨orper K mit Masse m mit der Geschwindigkeit u > 0. Bei ruhender 5
Die Annahme in der Aufgabe, daß beide Orte auf der Nordhalbkugel liegen, ist nicht wesentlich f¨ ur die Vorgehensweise, ist nur bequem f¨ ur die Berechnung.
Baumeister: Mathematik III / Stand: Mai 1998
390
Scheibe (ω = 0) wird K in A auftreffen und er ben¨otigt f¨ ur den Weg von P nach A die Zeit r−ρ 4t = . u Dreht sich nun die Scheibe mit positiver Winkelgeschwindigkeit, so befindet sich der Beobachter nach dieser Zeit in Punkt P 0 , und er erwartet,wenn er von der Drehung nichts weiß, den Aufprall des K¨orpers in B. Nun hatte aber K vor dem Abwurf in der Hand des Beobachters infolge der Drehung um Z die Geschwindigkeit u0 := ωρ, die senkrecht zur Strecke ZP gerichtet ist. K verl¨aßt also nach dem Abwurf den Ort P mit der aus u, u0 resultierenden Geschwindigkeit und erreicht die Wand in dem Punkt C, der verschieden von B sein wird. Sein Abstand von A ist gleich dem Weg, den K infolge der Geschwindigkeit ucklegen w¨ urden: u0 allein w¨ahrend der Zeitspanne 4t zur¨ |AC| = u04t = ωρ4t, |BC| = |AB| − |AC| = r · ρ − ωρ4t r−ρ = rω4t − ρω4t = · u · ω4t = uω4t2. u Der Beobachter, der K statt am erwarteten Ort B in C auftreffen sieht, urteilt: An K muß senkrecht zu seiner erwarteten Bewegungsrichtung eine Kraft gewirkt haben, die K um |BC| aus seiner Bahn getrieben hat. Nimmt er diese Kraft als konstant an, so muß auch eine konstante Beschleunigung bcor aufgetreten sein, welche die scheinbare Abweichung |BC| aus der radialen Richtung bewirkt. F¨ ur diese Abweichung gilt nun 1 |BC| = bcor 4t2 . 2 Durch Vergleich folgt bcor = 2uω . Mit dieser Coriolisbeschleunigung h¨angt zusammen nach Newton die sogenannte Corioliskraft Kcor = mbcor . Auf der rotierenden Erde hat die Corioliskraft im allgemeinen eine Horizontal– und eine Vertikalkomponente. Wenn die Bewegung in der Erdoberfl¨ache erfolgt, wirkt die Coriolis¨ kraft am Pol nur horizontal, am Aquator nur radial. Die Horizontalkomponente bewirkt f¨ ur alle sich auf der n¨ordlichen Halbkugel bewegenden K¨orper eine Rechtsabweichung, auf der S¨ udhalbkugel eine Linksabweichung. Dies ist beobachtbar beim Wasserabfluß in der Badewanne und von großer Bedeutung bei der Bewegung atmosph¨arischer Luftmassen (Tief– und Hochspiralen). Umgekehrt kann aus dem Auftreten einer Corioliskraft auf die Rotation der Erde geschlossen werden. Das Foucaultsche Pendel (ein schweres nahezu reibungsfrei gelagertes Pendel an einem langen Faden) zeigt dies, da seine Schwingungsebene sich dreht: Es wird die charakteristische Rosettenschleife beobachtet (siehe Abbildung ??. Diese Drehung der Schwingungsebene um 2π erfolgt an einem Ort mit der geographischen Breite ϑ0 in der Zeit von T = 2π 0 Stunden, also in Frankfurt/Main (ϑ0 ∼ 50o ) etwa um 11o in einer sin ϑ Stunde.
Baumeister: Mathematik III / Stand: Mai 1998
391
Eine (Land–)Karte ist ein verkleinertes ebenes Bild der Erdoberfl¨ache oder eines Teils davon. F¨ ur die Herstellung einer ebenen Karte besteht die Schwierigkeit, daß sich Teile einer Kugeloberfl¨ache nicht ohne Dehnungen und Verzerrungen in die Ebene u ¨ bertragen ¨ lassen. Der erste Schritt f¨ ur einen Kartenentwurf ist die Ubertragung des abzubildenden Gebietes der Erdkugel auf eine abwickelbare Fl¨ache. Als solche benutzt man Kegel, Zylinder und Ebenen.
Abbildung 13.20: Kartenentw¨urfe
F¨ ur die unterschiedlichen Kartenentw¨ urfe sind Einteilungsgesichtspunkte: 1. Fl¨achentreuer Entwurf 2. Winkeltreuer Entwurf 3. Kreistreue 4. L¨angentreue Aus der L¨angenverzerrung bei Winkeltreue resultiert die Fl¨achenverzerrung. Hier sind Beispiele von Projektionen. Die stereographische Projektion vom Nordpol aus hat eine L¨angenverzerrung zur Folge, Winkeltreue und Kreistreue ist gegeben. Die gnomische Projektion
Abbildung 13.21: Gnomische Projektion
Baumeister: Mathematik III / Stand: Mai 1998
392
Abbildung 13.22: Zylinderprojektion
vom Erdmittelpunkt aus (siehe Abbildung 13.21) hat eine L¨angen– und Fl¨achenverzerrung zur Folge. Der allgemeine Zylinderentwurf (siehe Abbildung 13.22) ist weder fl¨achen– noch winkeltreu. Eine Verbesserung des gew¨ohnlichen Zylinderentwurfs ist der sogenannte Mercatorentwurf. Die mathematische Astronomie untersucht die Bewegungen der Himmelsk¨orper oder Gestirne (Sonne, Mond, Planeten, Fixsterne) und schließt aus deren am Himmel beobachteten scheinbaren Bewegungen auf ihre wirklichen Bewegungen im Raum. Dabei tr¨agt der Teil, der die relativen Stellungen und scheinbaren Bewegungen aller an der Himmelskugel sichtbaren Gestirne mit den Verfahren der sph¨arischen Geometrie/Trigonometrie beschreibt und berechnet, den Namen sph¨ arische Astronomie. Die Himmelsmechanik untersucht die Bewegungen der Himmelsk¨orper im Raum als Wirkung einer gemeinsamen Ursache (Gravitation, Keplersche Gesetze), die Astrophysik studiert die Fragen des Aufbaus des Weltalls. Ausgangspunkt f¨ ur die sph¨arische Astronomie ist die Vorstellung, daß alle Himmelsk¨orper Bahnen an einer gedachten Himmelskugel beschreiben. Als deren Mittelpunkt wollen wir den Erdmittelpunkt, oder, da die Ausdehnung der Erde im astronomischen Maßstab keine Rolle spielt, den Standpunkt des Beobachters annehmen. Alle Gestirne werden vom Mittelpunkt der Himmelskugel aus an die Himmelskugel projeziert. Dann treten alle zwischen verschiedenen Gestirnen gemessenen Winkel als Großkreisb¨ogen an der Himmelskugel auf und k¨onnen durch die Rechnungen der sph¨arischen Trigonometrie erfaßt werden. Der Radius der Himmelskugel spielt dabei keine Rolle. Alle Ereignisse im Raum spielen sich f¨ ur den Beobachter als scheinbare Ereignisse auf der Himmelssp¨ahre ab. Zur Festlegung von Gestirnen an der Himmelskugel ben¨otigt man ein astronomisches Koordinatensystem. Ein System sph¨arischer Polarkoordinaten bezieht sich auf einen Polpunkt und einem Leitpunkt. Polpunkt und Leitpunkt bestimmen den Nullkreis, von dem aus der Leitwinkel gez¨ahlt wird. Je nach Wahl von Pol– bzw. Leitpunkt gibt es verschiedene Systeme astronomischer Koordinaten. Wir besprechen zwei davon. Die Himmelskugel hat als Mittelpunkt den Beobachter. Der Punkt an der Himmelskugel senkrecht u ¨ ber dem Beobachter heißt Zenit, der Gegenpunkt, der lotrecht unter dem
Baumeister: Mathematik III / Stand: Mai 1998
393
Beobachter liegt, heißt Nadir. F¨ ur den Beobachter ist die waagrechte Ebene, von der aus er beobachtet, die Tangentialebene an die Erdkugel im Beobachtungsort. Sie ist senkrecht zur Verbindungsstrecke Zenit–Nadir. Da wir von der Ausdehnung der Erde absehen, ist sie eine Ebene durch den Erdmittelpunkt; sie heißt Horizontebene. Das Horizontsystem hat als Polpunkt den Zenit und als Leitpunkt den Himmelsnordpol. Zur Ermittlung der Koordinaten eines Gestirns G in diesem System zieht man den Großkreis M durch G und den Zenit Z und den Nadir Na heran. Auf diesem Großkreis kann man die H¨ohe h des Gestirns ablesen, d.h. die L¨ange des Bogens zwischen Schnittpunkt SG dieses Großkreises mit der Horizontebene und G. Der Großkreis, der durch den Himmelsnordpol, den Zenit und den Nadir verl¨auft, heißt Himmelsmeridian des Beobachters; der Schnittpunkt mit der Horizontebene wird mit HN bezeichnet. Der Himmelsmeridian dient als Nullkreis f¨ ur die zweite Koordinate. Diese zweite Koordinate heißt Azimut und wird als Bogenl¨ange des Horizontkreises, gemessen von HN bis zu SG , ausgedr¨ uckt. Bemerkung 13.44 Zur Bestimmung von Azimut und H¨ohe der Sonne bediente man sich im Altertum des Gnomon. Das Gnomon ist ein am Beobachtungsort vertikal aufgestellter schattenwerfender Stab, mit dessen Hilfe man Nords¨ udrichtung, Azimut und H¨ohe der Sonne bestimmen kann. In der Praxis bedient man sich zur Messung von Azimut und H¨ohe im Vermessungswesen des Theodolits und in der Seefahrt des Kompasses und des Sextanten. (Der Theodolit ist ein Fernrohr, das um eine vertikale und um eine horizontale Achse drehbar ist.) 2 ¨ ¨ Es gibt zwei Aquatorsysteme. Das erste Aquatorsystem hat als Leitpunkt den Zenit ¨ und als Polpunkt den Himmelsnordpol. Das zweite Aquatorsystem, das wir nun besprechen wollen, hat als Leitpunkt den sogenannten Fr¨ uhlingspunkt und als Polpunkt den ¨ Himmelsnordpol. Wir f¨ uhren zun¨achst an, was beiden Aquatorsystemen gemeinsam ist. Die zum Himmels¨ aquator – dies ist die Ebene senkrecht zur Achse (Himmelsachse) Himmelsnordpol–Himmelss¨ udpol – parallel laufenden Kleinkreise nennt man Deklinationskreise, die durch den Nordpol und S¨ udpol des Himmels laufenden Großkreise heißen Stundenkreise. Unter den Stundenkreisen gibt es einen, der durch Zenit und Nadir des Beobachters geht. Er entspricht dem Hinmelsmeridian. Der Bogen auf dem Stundenkreis vom Himmels¨aquator bis zum Gestirn wird Deklination genannt; sie wird vom Himmels¨aquator aus nach Norden und S¨ uden gez¨ahlt. (Damit kommt dieselbe Bezeichnungsweise wie bei L¨ange und Breite auf der Erdkugel zum Einsatz.) Hinsichtlich der ¨ Deklination unterscheiden sich die beiden Aquatorsysteme nicht. ¨ Die zweite Koordinate im ersten Aquatorsystem ist der Ortsstundenwinkel. Dies ist der Winkel zwischen dem Himmelsmeridian (des Beobachters) und dem Stundenkreis des Gestirns; er wird als Bogen auf dem Himmels¨aquator nach Westen als positiv und nach Osten als negativ gez¨ahlt. Er gibt den Abstand des Gestirns von seiner oberen Kulmination an. Wenn man ihn im Zeitmaß mißt, gibt er die Zeit an, die seit der oberen Kulmination verflossen ist. (Beachte dabei, daß jedes Gestirn u ¨ber dem Himmelsmeridian seinen Kulminationspunkt hat.) Dabei wird die Zeit von der oberen Kulmination eines Fixsterns bis zu n¨achsten als 24 Sternstunden bezeichnet, d.h. 360o entsprechen 24 Stunden. Diese Zeit
Baumeister: Mathematik III / Stand: Mai 1998
394
heißt Sternzeit. Der Ortsstundenwinkel ¨andert sich also mit dem Standort des Beobachters, da sich der Himmelsmeridian mit dem Standort des Beobachters ¨andert. Wegen der Bedeutung des Nullmeridians auf der Erdkugel ist der Ortsstundenwinkel von Greenwich von Interesse. In der Orts– und Zeitabh¨angigkeit des Ortstundenwinkels dr¨ uckt sich die ¨ Abh¨angigkeit des ersten Aquatorsystems vom Beobachter aus.
¨ Abbildung 13.23: Die Koordinaten eines Aquatorsystems ¨ Die zweite Koordinate im zweiten Aquatorsystem wird auf einen auf der Himmelskugel festen Stundenkreis als Nullstundenkreis bezogen. Als dieser Nullstundenkreis wird der Stundenkreis durch den Fr¨ uhlingspunkt gew¨ahlt. Der Fr¨ uhlingspunkt, auch Widderpunkt genannt, spielt eine Rolle in der scheinbaren Bewegung der Sonne um die Erde. (Im Koordinatensystem auf der Erde entspricht ihm der Schnittpunkt des Nullmeridians mit ¨ der Aquatorebene.) Den Winkel zwischen dem Fr¨ uhlingspunkt und dem Stundenkreis des Gestirns nennt man Sternwinkel. Er wird, vom Fr¨ uhlingspunkt beginnend, in Richtung der t¨aglichen Umdrehung des Sternenhimmels, also nach Westen von o 0 bis 360o ) gez¨ahlt. Manchmal findet auch die sogenannte Rektaszension (lat.: ascensio recta = gerade Aufsteigung) Verwendung. Es ist dies auch der Winkel zwischen Fr¨ uhlingspunkt und Stundenkreis des Gestirns, aber entgegengesetzt gez¨ahlt. Mißt man Sternwinkel oder Rektaszension in Zeit (360o ∧ 24h), dann spricht man beim Sternwinkel von Sternzeit. Das nautische Jahrbuch gibt den Sternwinkel f¨ ur die bei der Nautik in Frage kommenden Fixsterne an, ebenso die Deklination. Bestimmt man die Rektaszension und die Deklination der Sonne t¨aglich und tr¨agt diese Werte in einer Karte der Himmelskugel (Sternkarte) ein, so findet man, daß die Sonne eine Bahn beschreibt, die ein Großkreis der Himmelskugel ist. Sie wird Ekliptik genannt, sie hat gegen den Himmels¨aquator eine Neigung von 23, 5o .
13.9
Hyperbolische Geometrie
Aus heutiger Sicht ist es verwunderlich, daß die Existenz nicht–euklidischer Geometrien so lange (ca. 2200 Jahre) nicht in Betracht gezogen wurde, gab es doch die sph¨arische Geometrie mit ihrer Parallelenanomalie“ seit langer Zeit. Urs¨achlich daf¨ ur war sicher ” auch, daß die sph¨arische Geometrie nicht als eigenst¨andige Geometrie, sondern als Besonderheit in der Raumgeometrie betrachtet wurde. Erst B. Riemann (1826 – 1866) machte
Baumeister: Mathematik III / Stand: Mai 1998
395
den Blick frei f¨ ur eine eigenst¨andige Betrachtung, lange nach der Entdeckung nichteuklidischer Geometrien. Nach Fehlschlagen vieler Versuche, das Parallelenpostulat zu beweisen, waren drei Mathematiker nahezu gleichzeitig und weitgehend unabh¨angig voneinander zu ¨ der Uberzeugung gekommen, daß dieses Postulat nicht bewiesen werden kann, daß es also von den anderen Axiomen und Postulaten unabh¨angig ist. Diese Mathematiker waren J. Bolyai (1801 – 1860), C. F.Gauß (1777 – 1855), N. I. Lobatschewski (1792 – 1856). Die Theorie von Lobatschewski war der von Bolyai sehr ¨ahnlich, die Ver¨offentlichung der Arbeiten von Gauß zu diesem Thema erfolgten erst nach seinem Tode. Wir geben zun¨achst das Parallelenpostulat von Lobatschewski wieder und skizzieren dann ein konkretes Modell die hyperbolische Ebene daf¨ ur. (Ein weiteres Modell w¨are die sogenannte Bierdeckelgeometrie“ von Cayley–Klein.) ” V’: Parallelenpostulat von Lobatschewski Es existiert eine Gerade g und ein nicht auf g liegender Punkt, durch den mindestens zwei Geraden verlaufen, die g nicht schneiden. Man beachte, daß nur die Existenz einer Geraden gefordert wurde, zu der eine besondere Situation bez¨ uglich Parallelit¨at besteht. Satz 13.45 Gelten die Axiomengruppen I – IV und gilt V’, so existieren zu jeder Geraden g und zu jedem nicht auf g liegenden Punkt P mindestens zwei Geraden, die durch P verlaufen und g nicht schneiden. Beweis: Annahme: Es gibt eine Gerade g und einen Punkt P ∈ / g, durch den eine Gerade h verl¨auft, die g nicht schneidet. Nach Satz ?? folgt die G¨ ultigkeit des euklidischen Parallelenaxioms in Widerspruch zu Axiom V’. Kommen wir nun zu einer Konkretisierung der Lobatschewski–Geometrie, die wir H. Poincar´e (1854 – 1912) verdanken. H. Poincar´e war ein ¨außerst vielseitiger Mathematiker. Seine Arbeiten waren richtungsweisend in vielen Gebieten (Topologie, Geometrie, Differentialgleichungen) und bereiteten viele Theorien (Relativit¨atstheorie, Wahrscheinlichkeitstheorie) vor. Was heute als Chaostheorie verk¨ undet wird, hat H. Poincar´e angedacht; der sogenannte Schmetterlingseffekt war implizit bei ihm schon erkannt. Im Poincar´e–Modell sind nun die Objekte “Punkte, Gerade, Abstand“ zu definieren. Ausgangspunkt ist die uns schon vertraute euklidische Ebene IE 2 , konkretisiert in IR 2 . Wir betrachten nun die obere Halbebene H := {(x, y) ∈ IR 2 |y > 0} und nennen Punkte der Poincar´e–Geometrie die Elemente von H, also IP := {(x, y) ∈ IR 2 |y > 0} . In der Ebene IE 2 bzw. IR 2 kennen wir Halbkreise und Kreise, ebenso in H. Davon machen wir nun Gebrauch. Die euklidische Gerade L := {x|x = te1, t ∈ IR}
Baumeister: Mathematik III / Stand: Mai 1998
396
bezeichnen wir mit U; U geh¨ort IP nicht an. Wir setzen G := {Kr (Z)|Z ∈ U, r > 0} ∪ {L(S)|S ∈ U}; dabei ist Kr (Z) := {(x, y) ∈ H|(x − z)2 + y 2 = r2 } , wobei Z = (z, 0) ist, L(S) := {(x, y) ∈ H|x = s, y > 0} , wobei S = (s, 0) ist.
Abbildung 13.24: Die hyperbolische Ebene Die Gerade U wird als Randgerade der hyperbolischen Ebene bezeichnet. Die Schnittpunkte der Halbkreise Kr (Z) und der Geraden L(S) bezeichnen wir als uneigentliche Punkte. Man rechnet nach, daß die Inzidenzaxiome I damit erf¨ ullt sind. Es fehlt uns noch der Abstand. Jede Gerade im Poincar´e–Modell, die ein Halbkreis Kr (Z) mit Z ∈ U ist, hat End” punkte“ R, S auf U. Sind nun A, B Punkte auf dieser Geraden, so definieren wir den hyperbolischen Abstand |AB|H durch 1 |AR| |BS| |AB|H := ln( · )| 2 |BR| |AS| wobei | · | der euklidische Abstand in der Ebene IE 2 ist. Sind dagegen A, B Punkte einer Geraden L(S), so sei |AS| |AB|H := |ln( )|. |BS| (Die Konstante 12 wollen wir nicht erkl¨aren, sie l¨aßt sich begr¨ unden.) Man verifiziert damit (in etwas m¨ uhsamen Fallunterscheidungen), daß es sich bei | · |H um eine Abstandsfunktion handelt. Nun l¨aßt sich auch der Nachweis der G¨ ultigkeit des Anordnungsaxiome im Poincar´e–Modell f¨ uhren. Als letzter Baustein f¨ ur die absolute hyperbolische Geometrie sind die Bewegungen anzugeben. Wir entwicklen sie aus Abbildungen der euklidischen Ebene heraus. Euklidische Verschiebungen entlang der Randgeraden U : H 3 (x, y) 7−→ (x + k, y) ∈ H Spiegelung an einer zu U senkrechten Geraden L(S) mit S = (s, 0) : H 3 (x, y) 7−→ (2x − a, y) ∈ H
Baumeister: Mathematik III / Stand: Mai 1998
397
Zentrische Streckung mit einem positiven Streckungsfaktor und einem Streckungszentrum Z auf U(Z = (z, 0)) : H 3 (x, y) 7−→ (z, 0) + k(x − z, y) ∈ H. Inversion an einem Kreis K − r(U)(Z0(z, 0)) : H 3 (x, y) 7−→
r2 (x − z, y) ∈ H. |(x − z, y)|2
Man verifiziert, daß es sich bei allen vier Abbildungstypen um Bewegungen handelt und man kann zeigen, daß damit eine Liste von Bewegungen gegeben ist, mit der sich der Nachweis der G¨ ultigkeit des Bewegungsaxioms erbringen l¨aßt. Die G¨ ultigkeit des Lobatschewskischen Parallelenaxiom V’ entnimmt man folgender Abbildung 13.25. (Sie enth¨alt sogar noch weitere Informationen u ¨ ber die Vielfalt von Parallelen.)
Abbildung 13.25: Zur G¨ultigkeit des Parallelenaxioms von Lobatschewski In der hyperbolischen Ebenen H kann man nun auch wieder Trigonometrie betreiben. Wir haben nun drei verschiedene Modelle von Geometrien kennengelernt. Euklidische Geometrie, sph¨arische Geometrie, hyperbolische Geometrie. Man weist der euklidischen Geometrie konstante Kr¨ ummung Null zu, der sph¨arischen Geometrie konstante positive Kr¨ ummung, der hyperbolischen Geometrie konstante negative Kr¨ ummung. Die Frage, welche Geometrie f¨ ur unser Universum g¨ ultig ist, l¨aßt sich in diesem Deutungsmuster auf die Frage nach der Kr¨ ummung des realen Raumes zur¨ uckf¨ uhren. Die Antwort, die uns A. Einstein gegeben hat, wird noch komplexer dadurch, daß der Raum nicht von der Zeit zu trennen ist. Mit der speziellen Relativit¨atstheorie stellt Einstein die Geometrie der Raum–Zeit–Welt als pseudo–euklidischen“ Raum dar, der viel von der hyperbolischen ” Geometrie hat. Mit der allgemeinen Relativit¨atstheorie, mit der Einstein die spezielle Relativit¨atstheorie pr¨azisierte und erg¨anzte, stellte sich heraus, daß die Geometrie der realen Raum–Zeit–Welt als allgemeine vierdimensionale Riemannsche Mannigfaltigkeit mit variabler Kr¨ ummung anzusehen ist. Die Kr¨ ummung dieser Mannigfaltigkeit h¨angt von der Dichte der Materie in der Umgebung dieses Punktes ab, je gr¨oßer die Dichte, desto gr¨oßer die Kr¨ ummung. (Hier haben die schwarzen L¨ocher ihren Platz“ : Der ”
Baumeister: Mathematik III / Stand: Mai 1998
398
Raum in ihrer Umgebung ist so stark gekr¨ ummt, daß selbst Licht (in seiner Teilchenstruktur) nicht entweichen kann.) In einer hinreichend kleinen Umgebung eines jeden Punktes ist die Raum–Zeit–Welt ein vierdimensionaler pseudo–euklidischer Raum, so daß die Verh¨altnisse in diesen kleinen Bereichen durch die spezielle Relativit¨atstheorie beschrieben werden k¨onnen. In noch kleineren“ Bereichen bei kleinen Geschwindigkeiten zerf¨allt ” die Raum–Zeit–Welt wieder in eine Raum–Welt und eine Zeit–Achse und die klassische Newton–Mechanik greift. Das Tor zu diesen Entwicklungen, die mit der allgemeinen Re¨ lativit¨atstheorie ihre Vollendung fand, aufgestoßen hat die Uberwindung der Denkfessel, daß die euklidische Geometrie die einzig m¨ogliche Geometrie ist.
Kapitel 14 Iterationsverfahren Der Nullstellensuche kommt in der Analysis und in der Angewandten Mathematik u ¨berragende Bedeutung zu; wir besprechen hier ein Verfahren, das auf I. Newton insofern zur¨ uckgeht, als er als Erster klar definiert hat, was eine Tangente ist. Die umfassendere Vorgehensweise ist die Fixpunktiteration. Wir skizzieren sie in unterschiedlichen Varianten und Kontexten und stoßen dabei auch auf das Paradigma “Chaos“.
14.1
Nullstellen, Kurvendiskussion, Fixpunkte
Wir wollen uns den Verlauf von Funktion f : IR −→ IR anschauen. Dabei geht es nicht um die quantitative Angabe von speziellen Werten der Funktion, sondern um qualitative Aspekte der Funktion. Aus der Schule kennen wir daf¨ ur den Begriff Kurvendiskussion. Sei f : I −→ IR, I = [a, b] Intervall. Fragen der Kurvendiskussion sind: A Nullstellensuche: Gibt es z ∈ I mit f(z) = 0 ? B Extremwertsuche: Gibt es z ∈ IR mit f(z) = min f(x) bzw. f(z) = max f(x) ? x∈I
x∈I
C Extremstellensuche: Gibt es z ∈ I mit f 0 (z) = 0 ? D Wendepunktsuche: Gibt es z ∈ I mit f 00(z) = 0 ? Bei C,D ben¨otigen wir nat¨ urlich die Differenzierbarkeit bzw. die zweimalige Differenzierbarkeit. Der Zusammenhang zwischen C und B ist dadurch hergestellt, daß Extremstellen Kandidaten f¨ ur Extremwerte f(z) liefern (und D kann hierzu herangezogen werden). Dies bedeutet in etwas genauerer Betrachtung: • Ist z ∈ (a, b) ein Minimum von f, so gilt f 0 (z) = 0, f 00 (z) ≥ 0 (siehe Abschnitt 6.4). • Ist z ∈ [a, b] ein Minimum von f, so gilt f 0 (z)(x − z) ≥ 0 f¨ ur alle x ∈ [a, b] . 399
Baumeister: Mathematik IV / Stand: Juni 1998
400
• Ist z ∈ (a, b) mit f 0 (z) = 0 und f 00 (z) > 0 so ist z ein Minimum. • Ist z ∈ (a, b) mit f 0 (z) = 0 und wechselt f 0 in z sein Vorzeichen, so ist z ein Minimum. Bemerkung 14.1 ¨ Man u zu Minima von f auf Maxima von f, indem man ¨ bertr¨agt die obigen Uberlegungen von f zu −f u ¨bergeht, denn es ist ja min f(x) = − max −f(x) . x∈I
x∈I
2 Beispiel 14.2 Schon Euklid bewies, daß unter den Rechtecken gleichen Umfangs das Quadrat den gr¨oßten Fl¨acheninhalt besitzt. Wir geben den (elementargeometrischen) Beweis so wieder: Sei l der Umfang eines Rechtecks mit den Seitenl¨angen x und z .D, Ist x = z , dann liegt ein Quadrat vor und wir haben nichts mehr zu zeigen. Ist x 6= z , also etwa z > x, dann k¨onnen wir o.E. z = y + u mit x < y und u > 0 annehmen; siehe Abbildung 14.1.
Abbildung 14.1: Skizze zum euklidischen Beweis
Da der Umfang des Rechtecks 2x + 2y + 2u betr¨agt, der Umfang des Quadrats mit Seitenl¨ange y aber 2x + 2y + 2v (x + v = y!), muß u = v sein. Dann ist aber das Rechteck mit den Seiten y, v gr¨oßer als das Rechteck mit den Seiten x, u . Damit folgt, daß die Fl¨ache des Rechtecks mit Seitenl¨ange x, y + u kleiner als die Fl¨ache des Quadrats mit Seitenl¨ange y ist. Der Beweis mit analytischen Mitteln sieht so aus: Sei x die eine Seite eines Rechtecks. Dann ist f(x) := x(l − 2x) seine doppelte Fl¨ache. Also ist die Funktion f zu maximieren. Wegen f 0 (x) = −4x + l , f 00 (x) = −4 schließen wir, daß x = 4l die L¨osung ist; das zugeh¨orige Rechteck ist ein Quadrat. Beispiel 14.3
2
Baumeister: Mathematik IV / Stand: Juni 1998
401
Abbildung 14.2: Optimale Auslegung einer Wanne
Hier ist ein Beispiel f¨ ur Extremwertaufgaben, wie sie schon seit ca. 2 000 Jahren betrachtet werden. Ein Materialstreifen der L¨ange l soll rechtwinklig so aufgekantet werden, daß ein im Querschnitt nach oben offenes Rechteck (Wanne) entsteht, dessen Fl¨ache maximal ist; siehe Abbildung 14.2. Also ist die Aufgabe gestellt: Maximiere f(x) := x(l − 2x) . Dabei ist x die H¨ohe des Rechtecks. Da f 0 (x) = l − 4x ist, erhalten wir als Kandidaten f¨ ur die L¨osung x := 4l mit dem 2 Extremwert l8 . Da f 00 ( 4l ) = −4 ist, wissen wir, daß in der Tat in z := 4l ein Maximum ¨ vorliegt. (Die eben angestellte Uberlegung best¨atigt auch, daß die obige Maximumaufgabe ohne die eigentlich vorliegenden Nebenbedingungen 0 ≤ x ≤ l betrachtet werden kann.)
2
Beispiel 14.4 100 Meter eines Zaunes stehen schon. 200 m sollen so hinzugef¨ ugt werden, daß ein m¨oglichst großes rechteckiges Areal eingez¨aunt wird. Sei x die L¨ange des St¨ ucks, das an der schon stehenden Seite angef¨ ugt wird. Da die eine Rechteckseite nun 100 + x und der halbe Umfang 150 betr¨agt, ist die Fl¨ache des entstehenden Areals f(x) := (100 + x)(50 − x) . Wegen
f 0 (x) = −2x − 50
ist z = −25 ein Kandidat f¨ ur die L¨osung. Da f 00 (z) = −2 ausf¨allt, liegt tats¨achlich ein Maximum vor. Von dem bereits stehenden Zaun sind 25 m abzureißen! Davon war in der Aufgabenstellung aber nicht die Rede. Um dies zu korrigieren, haben wir die Nebenbedingung x ≥ 0 zu ber¨ ucksichtigen, d.h. f etwa auf dem Intervall [0, 200] zu betrachten. Nun schließen wir aus f(x) = 5000 − (x2 + 50x) , x ∈ [0, 200] ,
Baumeister: Mathematik IV / Stand: Juni 1998
402
daß f in z := 0 den maximalen Wert annimmt. Wir h¨atten dieses Ergebnis auch aus (−f)0 (0)(x − 0) ≥ 0 f¨ ur alle x ∈ [0, 200] , (−f)00 (0) > 0 , schließen k¨onnen. Das Ergebnis sagt also, daß so anzuf¨ ugen ist, daß das resultierende Rechteck dem Quadrat am n¨achsten kommt; siehe dazu Beispiel 14.2.
2
Es bleibt also mit A,C,D die sinnvolle Aufgabe, eine Nullstelle einer Funktion zu suchen. Eine direkte Methode, B zu l¨osen, skizzieren wir in Bemerkung 14.11. Wir k¨onnen nun annehmen, daß folgende Situation vorliege: Gesucht ist eine Nullstelle der stetigen Funktion f : [a, b] −→ IR . Das Bisektionsverfahren, wie wir es in Abschnitt 8.3 besprochen haben – es ben¨otigt die Differenzierbarkeit von f nicht – ist ein m¨ogliches Verfahren zum Aufsuchen einer Nullstelle von f. Es ist aber im allgemeinen ein sehr langsames Verfahren, d.h. es sind viele Rechenschritte n¨otig, bis ein z ∈ [a, b] gefunden ist, das als Nullstelle von f akzeptiert wird. Ein schnelleres Verfahren zu besprechen, darum geht es im n¨achsten Abschnitt. Hier bereiten wir die allgemeine Idee auf. Jede Suche nach einer Nullstelle z von f kann man auf eine Suche nach einem Fixpunkt von g : x 7−→ x + f(x) zur¨ uckf¨ uhren. Es gilt ja f(z) = 0 ⇐⇒ z = z + f(z) = g(z) .
(14.1)
Eine Nullstelle z von f ist gerade ein Punkt z , der unter der Abbildung g fix bleibt: z ist Fixpunkt von g . Hier liegt eine gewisse Willk¨ ur vor: Es gilt ja sogar f¨ ur jedes gw mit gw (x) := x + w(x)f(x) ¨ die Aquivalenz f(z) = 0 ⇐⇒ z = z + w(z)f(z) = gw (z) , falls nur w(z) 6= 0 ist. F¨ ur die Suche nach einem Fixpunkt einer stetigen Funktion g : [a, b] −→ IR ist nun die Vorgehensweise der sukzessiven Approximation naheliegend: xn+1 := g(xn ) , n ∈ IN 0 ;
(14.2)
hierbei ist noch eine Startn¨ aherung x0 vorzugeben. Eine Folge, die gem¨aß (14.2) erzeugt wurde, heißt Orbit (mit Startwert x0). Da g stetig ist, ist sofort klar, daß ein Grenzwert z von (xn )n∈IN ein Fixpunkt von g ist. Um die Konvergenz eines Orbits muß es also gehen. Beispiel 14.5 Betrachten wir eine einfach zu durchschauende Situation: Die Iterationsfunktion g sei eine lineare Funktion, also g(x) = mx + b .
Baumeister: Mathematik IV / Stand: Juni 1998
403
Den Fixpunkt von g zu bestimmen l¨auft daraufhinaus, den Schnittpunkt der Geraden y = x , y = mx + b zu bestimmen, was nat¨ urlich ein Leichtes ist, wenn m 6= 1 ist: x∗ :=
b ist der gesuchte Fixpunkt. 1−m
Die Sonderf¨alle bei m = 1 sind: m = 1, b = 0 : m = 1, b 6= 0 :
Jedes x ∈ IR ist Fixpunkt Es gibt keinen Fixpunkt
Sei nun ein Orbit gem¨aß xn+1 := g(xn ) , n ∈ IN 0 , berechnet. Man liest nun im Fall |m| < 1 aus |xn+1 − x∗| = |g(xn) − g(x∗)| = |m||xn − x∗| sofort die Konvergenz der Folge (xn )n∈IN 0 gegen x∗ ab. Im Fall m = −1 muß keine Konvergenz vorliegen, wie folgender Spezialfall zeigt: F¨ ur g(x) := −x + 4 erh¨alt man mit x0 = 12 die periodische Folge x1 = 72 , x2 = 12 , x3 = 72 , . . . . Der Fall |m| > 1 l¨aßt sich dadurch handhaben, daß man die Gerade y = mx + b so aufl¨ost x=
b y − m m
y − b gem¨aß und die Fixpunktgleichung y = m m yn+1 :=
yn b − , n ∈ IN 0 , m m
2
1 | ist nun kleiner als 1 . iteriert, | m
Beispiel 14.6 Man bestimme die Nullstelle von f(x) := x − cos x . Dies ist gleichbedeutend mit der Berechnung eines Fixpunktes von g(x) √ := cos(x). Wegen f(0) − 1 < 0, f( π4 ) = π4 − 2 4 2 > 0, besitzt f eine Nullstelle in (0, π4 ). Wegen f 0 (x) = 1 + sin(x) ≥ 0 f¨ ur alle x ∈ IR folgt, daß Nullstellen nur in (0, π4 ) liegen k¨onnen. Da f 0 (x) > 0, x ∈ (0, π4 ), gilt, folgt, daß die einzige Nullstelle von f in (0, π4 ) liegt. Also besitzt g genau einen Fixpunkt x∗ in (0, π4 ). N¨aherungswerte f¨ ur x∗ bestimmen wir mit der Fixpunktiteration xn+1 := cos xn , n ∈ IN 0 . W¨ahlt man als Startwert (siehe oben) x0 := so ergibt sich folgende Zahlenfolge:
π ∼ 0, 785398 , 4
Baumeister: Mathematik IV / Stand: Juni 1998
k=0
404
x2k−1
x2k
···
0, 785398
k=1
0, 707106 0, 760244
k=2
0, 724667 0, 748719
k=3 .. .
0, 732560 0, 743464 .. .. . .
k = 12 0, 739079 0, 739088 k = 13 0, 739082 0, 739086 Von x25 stimmen die angegebenen 5 Ziffern nach dem Komma mit der L¨osung u ¨ berein. Wir haben oben 0 < x1 ≤ x2 ≤ x0 beobachtet. Da g monoton fallend ist (g 0 (x) ≤ 0 f¨ ur alle x), schließt man ohne M¨ uhe 0 < x2k−1 ≤ x2k+1 ≤ x∗ ≤ x2k+2 ≤ x2k , k ∈ IN 0 . Wir wissen daher in jedem Stadium der Rechnung |x2k+2 − x∗ | ≤ |x2k+2 − x2k+1| , wobei die Schranke |x2k+2 − x2k+1| bei der Rechnung zur Verf¨ ugung steht.
2
Der folgende Satz liefert allgemeine Bedingungen, unter denen die Vorgehensweise der sukzessiven Approximation zum Ziel f¨ uhrt. Satz 14.7 Sei g : [a, b] −→ [a, b] und mit L ∈ [0, 1) gelte |g(x) − g(y)| ≤ L|x − y|
f¨ur alle x, y ∈ [a, b] .
(14.3)
Dann gilt: (a) Es gibt genau einen Fixpunkt x∗ in [a, b] . (b) F¨ur alle x0 ∈ [a, b] konvergiert die Fixpunktiteration xn+1 := g(xn ) , n ∈ IN 0 ,
(14.4)
gegen den Fixpunkt x∗ und wir haben |xn+1 − x∗ | ≤ Beweis: Zu (a)
Ln |x1 − x0 | , n ∈ IN 0 . 1−L
(14.5)
Baumeister: Mathematik IV / Stand: Juni 1998
405
Offenbar folgt aus der Bedingung (14.3), daß g stetig ist. Also ist auch G, definiert durch G(x) := g(x) − x, x ∈ [a, b], stetig. Aus G(a) = g(a) − a ≥ 0 , G(b) = g(b) − b ≤ 0 folgt, daß G eine Nullstelle, g also einen Fixpunkt, in [a, b] besitzt. Seien x∗ , x+ zwei Fixpunkte von g. Dann gilt |x∗ − x+| = |g(x∗ ) − g(x+ ) ≤ L|x∗ − x+| , und daraus folgt wegen L < 1 sicherlich |x∗ − x+| = 0 . Zu (b) Man beweist durch vollst¨andige Induktion |xn+1 − xn | ≤ Ln|x1 − x0| , n ∈ IN 0 , und folgert daraus f¨ ur alle m, n ∈ IN , m ≥ n, |xm − xn| ≤
m−1 X
∞ X
|xi+1 − xi | ≤ L (
i=n
n
Li ) |x1 − x0 | .
i=0
Da (Ln )n∈IN eine Nullfolge ist, folgt, daß (xn)n∈IN eine Cauchyfolge ist. Also ist (xn )n∈IN konvergent. Sei x∗ der Grenzwert. Aus der Stetigkeit von g folgt x∗ = g(x∗ ) . Wir schreiben die Fixpunktiteration programmiersprachennah auf: Algorithmus Fixpunktiteration EIN g (Rechte Seite der Fixpunktgleichung x = g(x)), x0 (Startn¨aherung) S0 n := 0 , x := x0 S1 x := g(x) , n := n + 1 S2 Wird x nicht als Fixpunkt akzeptiert, gehe zu S1 AUS Gebe x˜ := x (N¨aherungsl¨osung) und n (Iterationsindex) aus ¨ Uber die Durchf¨ uhrbarkeit des Algorithmus “Fixpunktiteration“ gibt Satz 14.7 Auskunft. Um die Endlichkeit, d.h. das Verlassen u ¨ber AUS, sicherzustellen, ist in Schritt S2 eine typische Abfrage zu implementieren: Erf¨ ullt x ein Abbruchkriterium? Dazu ben¨otigt man im allgemeinen einen weiteren Parameter: Regel 1 Man gibt eine maximale Iterationstiefe n∗ vor und formuliert S2 so: Gehe zu AUS, falls n > n∗ , sonst gehe zu S1. Regel 2 Man gibt eine Toleranz ε > 0 vor und formuliert S2 etwa so: Gehe zu AUS, falls |x − g(x)| ≤ ε, sonst gehe zu S1.
Baumeister: Mathematik IV / Stand: Juni 1998
406
Ergebnis eines Abbruchkriteriums sollte es sein, daß nach Verlassen des Algorithmus u ¨ ber AUS feststeht, welche Genauigkeit die N¨aherungsl¨osung x˜ hat, d.h. daß eine Schranke f¨ ur |˜ x − x∗| angegeben werden kann. Dies stellt sich folgendermaßen dar: Regel 1 ist ein a–priori–Kriterium: Es wird vorneherein festgelegt, daß nach einer Anzahl von Iterationen die L¨osung akzeptiert wird. Dies ist nur dann sinnvoll, wenn die Wahl von n∗ so m¨oglich ist, daß eine vorgegebene Genauigkeit η > 0 f¨ ur |˜ x − x∗| erreicht wird. Unter den Bedingungen des Satzes 14.7 ist dies m¨oglich: Es ist ja |˜ x − x∗| ≤ η , falls n∗ ≥
ln(η(1 − L)|x1 − x0 |−1 ) . ln(L)
Regel 2 ist ein a–posteriori–Kriterium: Es wird erst w¨ahrend der Rechnung, abh¨angig von den Rechenergebnissen festgelegt, wann abzubrechen ist. Wiederum ist diese Vorgabe nur dann sinnvoll, wenn das Abbrechkriterium sicherstellt, daß eine vorgegebene Genauigkeit η > 0 f¨ ur |˜ x − x∗ | erreicht wird. Unter den Bedingungen des Satzes 14.7 ist dies m¨oglich: Es ist ja x − g(˜ x)| + |g(˜ x) − x∗| ≤ ε + L|˜ x − x∗ | , |˜ x − x∗ | ≤ |˜ d.h.
ε . 1−L Also hat man ε als η(1 − L) zu w¨ahlen. Allerdings liegt L meist nicht explizit vor, die ˜ ∈ (L, 1) reicht aber aus. Kenntnis einer N¨aherung L |˜ x − x∗ | ≤
Die Idee der Fixpunktiteration ist das Konzept, in dem sich im wesentlichen alle Verfahren zur Nullstellensuche interpretieren lassen. Wir entdecken sie in unterschiedlichen Fragestellungen. Immer ist der Satz 14.7 die Richtschnur f¨ ur die Absicherung der Verfahrensweisen. Insbesondere die Bedingung (14.3) ist wesentlich. Sie beschreibt die Lipschitzstetigkeit der Abbildung g; die Konstante L heißt Lipschitzkonstante (R. Lipschitz (1832 – 1903)). Der obige Satz 14.7 ist ein Spezialfall des Banachschen Fixpunktsatzes (S. Banach (1892 – 1945)). Bemerkung 14.8 Die Lipschitzkonstante L in Satz 14.7 kann man u ¨ber die Differenzierbarkeit von g ermitteln. Es gilt ja nach dem Mittelwertsatz der Differentialrechnung (siehe (8.3)) f¨ ur alle x, y ∈ [a, b] |g(x) − g(y)| = |g 0 (ξ)||x − y| mit einem ξ zwischen x, y . Als Lipschitzkonstante f¨allt daher L := sup{|g 0(ξ)| |ξ ∈ [a, b]} an.
2
¨ Aus den obigen Uberlegungen kann man die Vermutung ableiten, daß zumindest die Konvergenz der Fixpunktiteration sehr im Zweifel ist, wenn die Lipschitzkonstante nicht kleiner als 1 ist. Wir f¨ uhren ein Beispiel an, das in anderem Kleide noch sehr interessant werden wird. Beispiel 14.9
Baumeister: Mathematik IV / Stand: Juni 1998
407
Betrachte die Fixpunktgleichung mit g : [0, 1] 3 x 7−→ x2 ∈ [0, 1] . Wir stellen fest, daß die kleinste Lipschitzkonstante L = 2 ist. Weiterhin stellen wir fest, daß f¨ ur jeden Orbit (xn)n∈IN 0 der Fixpunktiteration (
xn = lim n
0 , falls x0 ∈ [0, 1) 1 , falls x0 = 1
gilt. Der Fixpunkt x = 1 l¨aßt sich unter realistischen Umst¨anden also nicht ann¨ahern, leicht jedoch der Fixpunkt x = 0 . Dies ist unmittelbar einsichtig: In der Umgebung von x = 1 herrscht die Lipschitzkonstante 2, in der Umgebung von x = 0 herrscht die Lipschitzkonstante 0; beachte g 0 (1) = 2 , g 0 (1) = 0 . 2 Definition 14.10 Sei g : [a, b] −→ [a, b] differenzierbar und sei x∗ ein Fixpunkt von g. Der Fixpunkt x∗ heißt instabil, falls |g 0 (x∗)| > 1, stabil, falls |g 0 (x∗)| < 1, und superstabil, falls |g 0 (x∗)| = 0 ist. 2 Sei g : [a, b] −→ [a, b] differenzierbar. Sei (xn )n∈IN 0 ein Orbit der Fixpunktiteration. Wir betrachten einen weiteren Orbit (x0n )n∈IN 0 und setzen δxn := xn − x0n , n ∈ IN 0 . Ist L eine Lipschitzkonstante von g, dann best¨atigt man leicht, daß |xn+1 − x0n+1 | ≤ Ln+1 |x0 − x00| , n ∈ IN 0 , gilt, d.h., daß |δxn| ≤ exp(λn)|δx0| , n ∈ IN 0,
(14.6)
mit λ = ln(L) gilt. Nach dem Zwischenwertsatz gilt |δx2| = |(g ◦ g)(x0) − (g ◦ g)(x00 )| = |g 0 (g(ξ))g 0 (ξ)||δx0| mit einem ξ zwischen x0 und x00 . Wenn wir die N¨aherung g 0 (g(x0 ))g 0(x0 ) f¨ ur g 0 (g(ξ))g 0 (ξ) akzeptieren, erhalten wir ln(
|δx2| ) = ln(|g 0(x1 )|) + ln(|g 0 (x0)|) . |δx0|
Die obige Absch¨atzung (14.6) schreiben wir nun zu einem N¨aherungsansatz |δxn| = exp(λn)|δx0| , n ∈ IN 0 , mit einem unbekannten λ um. Dann haben wir λ=
1 1X ln(|g 0(xi )|) . 2 i=0
Baumeister: Mathematik IV / Stand: Juni 1998
408
Allgemein kann man die Formel X 1 n−1 λ = lim ln(|g 0 (xi )|) n n i=0
best¨atigen. λ kommt also als Mittelwert der Lipschitzkonstanten entlang des Orbits zustande und zeigt damit im Mittel die Abstoßung bzw. Ann¨aherung an. λ heißt Ljapunovexponent von x0 (A.M. Ljapunov (1857 – 1918)); wir schreiben λ(x0 ) . Im obigen Beispiel 14.9 haben wir also λ(1) = ln(2) und λ(0) = −∞ . Bemerkung 14.11 Wollen wir f : IR −→ IR minimieren, so ist eine Nullstelle von f 0 (Differenzierbarkeit vorausgesetzt) ein Kandidat f¨ ur ein Minimum. Also k¨onnen wir versuchen, einen Kandidaten f¨ ur ein Minimum u ¨ ber die Fixpunktiteration xn+1 := xn − f 0 (xn) , n ∈ IN 0 ,
(14.7)
zu suchen. Aus f(xn+1 ) = f(xn ) + f 0 (ξ)(xn+1 − xn) mit einem ξ zwischen xn+1 , xn , folgt
f(xn+1 ) = f(xn) + f 0 (ξ)(−f 0 (xn)) ,
und wir lesen ab, daß f(xn+1 ) < f(xn ) zu erwarten ist, da in der Umgebung eines Minimums, wir wollen dort ja hinkommen, f 0 (ξ) und f 0 (xn) gleiches Vorzeichen haben werden. Man bezeichnet das durch (14.7) angegebene Verfahren das Gradientenverfahren. (Bei der Minimumsuche im IR n steht f¨ ur f 0 (xn) der Gradient, d.h. die Richtung, wo es am steilsten zum Minimum geht. Das Verfahren heißt daher auch Verfahren des steilsten Abstiegs.) Nicht immer ist aber Konvergenz sichergestellt. Dies sieht man etwa am Beispiel x 7−→ x2 sofort: Die Iteration lautet ja xn+1 := −xn . Es liegt daher nahe, die Iteration (14.7) mit einer Schrittweitensteuerung zu versehen: xn+1 := xn − λn f 0 (xn ) , n ∈ IN 0 ;
(14.8)
dabei wird λn so bestimmt, daß ein Abstieg gew¨ahrleistet wird: f(xn+1 ) < f(xn ) . Damit wird im allgemeinen Konvergenz erzwungen. Die Rechenarbeit steigt aber nat¨ urlich an. 2
Baumeister: Mathematik IV / Stand: Juni 1998
14.2
409
Das Newtonverfahren im Reellen
Das klassische Newtonverfahren zur Berechnung der L¨osung der Gleichung f(x) = 0
(14.9)
besteht darin (siehe Abbildung 14.3), daß man zu einer N¨aherungsl¨osung xn die Tangente im Punkt (xn , f(xn )) an den Graphen von f bestimmt und eine “verbesserte“ N¨aherung xn+1 als Nullstelle der Tangentengleichung w¨ahlt, d.h. xn+1 := xn − f 0 (xn )−1 f(xn ) .
(14.10)
Nach Wahl einer Startn¨aherung x0 ist das Verfahren damit schon klar. Allerdings ist sicherzustellen, daß das Verfahren durchf¨ uhrbar bleibt, d.h. daß f 0 (xn ) 6= 0 f¨ ur alle n g¨ ultig bleibt.
Abbildung 14.3: Das Newtonverfahren
Algorithmus Newtonverfahren EIN f (Die Gleichung f(x) = 0 ist zu l¨osen), x0 (Startn¨aherung) S0 n := 0, x := x0 S1 x := x − f 0 (x)−1 f(x) , n := n + 1 S2 Wird x nicht als Nullstelle akzeptiert, gehe zu S1 AUS Gebe x˜ := x (N¨aherungsl¨osung) und n (Iterationsindex) aus Das Newtonverfahren bedeutet, auf die zu (14.9) ¨aquivalente Gleichung (f 0 (x) 6= 0!) x = g(x) := x − f 0 (x)−1 f(x)
(14.11)
den Algorithmus “Fixpunktiteration“ anzuwenden. Damit ordnet sich die Analyse des Verfahrens (Konvergenz, Abbrechkriterium) unter bei der Fixpunktiteration. Allerdings ist die quantitative Seite der Konvergenz noch speziell zu kl¨aren. Daß nicht immer Konvergenz zu verzeichnen ist, soll folgendes Beispiel vermitteln. Beispiel 14.12
Baumeister: Mathematik IV / Stand: Juni 1998
410
Betrachte die Newtoniterationsfolge zur Gleichung f(x) := x3 − x = 0 . √ √ 5 Mit dem Startwert x0 = − 5 erhalten wir x1 = 55 und x2 = x0 , also sicher keine Konvergenz. Was passiert f¨ ur den Startwert x0 = 10? 2 Satz 14.13 Sei f : (a, b) −→ IR zweimal stetig differenzierbar und sei x∗ ∈ (a, b) mit f(x∗) = 0, f 0 (x∗ ) 6= 0 . Dann gibt es δ > 0 so, daß f¨ur alle (Startn¨aherungen) x0 ∈ (x∗ − δ, x∗ + δ) ⊂ (a, b) gilt: (a) Die Folge (xn )n∈IN , erkl¨art durch xn+1 := xn − f 0 (xn)−1 f(xn) , n ∈ IN 0, ist wohldefiniert. (b) lim xn = x∗ . n∈IN
(c) Es gibt positive Konstanten m, M mit |xn+1 − x∗| ≤
M |xn − x∗|2 , n ∈ IN 0 . 2m
(14.12)
Beweis: F¨ ur hinreichend kleines δ1 > 0 existieren Konstanten M > 0, m > 0 mit |f 0 (x)| ≥ m , |f 00 (x)| ≤ M , x ∈ (x∗ − δ1 , x∗ + δ1) ⊂ (a, b) . Sei nun δ > 0 mit δ < min(δ1 , 2m M ). Die Taylor Formel ergibt ∗
∗
0
0 = f(x ) = f(xn ) + (x − xn )f (xn ) +
Zx∗
(x∗ − ξ)f 00 (ξ)dξ ,
xn
und wegen
f(xn) + (x∗ − xn)f 0 (xn) = (x∗ − xn+1 )f 0 (xn)
gilt M ∗ |x − xn |2 2m Dies zeigt: Ist xn ∈ (x∗ − δ, x∗ + δ), so gilt dies auch f¨ ur xn+1 . Damit ist a) und c) gezeigt. b) folgt mit M q := δ<1 2m |x∗ − xn+1 | ≤
Baumeister: Mathematik IV / Stand: Juni 1998
411
wegen |x∗ − xn+1 | ≤
2m 2n+1 q , n ∈ IN 0 , M
(vollst¨andige Induktion!). Bemerkung 14.14 Die Voraussetzung f(x∗ ) = 0, f 0 (x∗) 6= 0 bedeutet, daß x∗ eine einfache Nullstelle ist, d.h. daß f in x∗ sein Vorzeichen wechselt. Sie bedeutet auch, daß x∗ ein superstabiler Fixpunkt von x 7−→ x − f 0 (x)−1 f(x) ist. Die Absch¨atzung (14.12) besagt, daß die Konvergenzrate quadratisch ist, d.h. daß die Anzahl der g¨ ultigen Stellen von xn sich in xn+1 verdoppelt; man spricht von quadratischer Konvergenz. Dies sieht man an |xn+1 − x∗ | M . ∗ 2 ∼ 2m |xn − x | Liegt eine mehrfache Nullstelle vor, dann kann man immer noch |xn+1 − x∗| ∼c |xn − x∗ | (c Konstante) beweisen, was als lineare Konvergenz bezeichnet wird. Daß nicht mehr zu erwarten ist in dieser Situation, sieht man am Beispiel f(x) := x2 , x ∈ IR , mit x∗ = 0 als Nullstelle. Hier liefert das Newtonverfahren xn+1 = xn − xn/2 , n ∈ IN 0 , und daher
|xn+1 − x∗ | = |xn − x∗|/2 .
2
Bemerkung 14.15 In Abschnitt 8.2 haben wir das sogenannte Heronverfahren zur Bestimmung einer Quadratwurzel kennengelernt. Dazu gilt es die Gleichung f(x) := x2 − a = 0 zu l¨osen. Das Newtonverfahren daf¨ ur, das f¨ ur a 6= 0 quadratisch konvergiert, reduziert sich auf das Heronverfahren, wie man sofort best¨atigt. 2 Bemerkung 14.16
Baumeister: Mathematik IV / Stand: Juni 1998
412
¨ Uberraschenderweise kann man mit dem Newtonverfahren die Berechnung des Inverse einer reellen Zahl a 6= 0 n¨aherungsweise mit Multiplikationen erledigen. Dazu hat man die Gleichung f(x) := x−1 − a = 0 zu l¨osen. Das Newtonverfahren lautet xn+1 = 2xn − x2na , n ∈ IN 0 . Es konvergiert quadratisch, wenn die Startn¨aherung x0 gut genug ist.
2
Bemerkung 14.17 Wollen wir f : IR −→ IR minimieren, so ist eine Nullstelle von f 0 (Differenzierbarkeit vorausgesetzt) ein Kandidat f¨ ur ein Minimum. Also k¨onnen wir versuchen, einen Kandidaten f¨ ur ein Minimum u ¨ ber die Newtoniteration xn+1 := xn − f 00(xn )−1 f 0 (xn) , n ∈ IN 0 ,
(14.13)
zu suchen, zweimalige Differenzierbarkeit vorausgesetzt. Da in einem Minimum z bekanntermaßen f 00 (z) ≥ 0 zutrifft, haben wir es hier mit einem “verzerrten“ Gradientenverfahren zu tun (siehe Bemerkung 14.7). Wiederum liegt es nahe, eine Schrittweitensteuerung xn+1 := xn − λn f 00(xn)−1 f 0 (xn ) , n ∈ IN 0 einzubauen; dabei wird λn wieder so bestimmt, daß f(xn+1 ) < f(xn )
2
gilt.
14.3
Fixpunktiteration und Chaos
Die Frage der Anwendbarkeit von Computermodellen auf komplexe Systeme mit chaotischen Verhaltensm¨oglichkeiten – Chaos hier noch im Umgangssprachlichen verstanden – hat starkes Interesse gefunden. Im Zusammenhang mit Modellen (Klima, Wetter, Wettr¨ usten, Epidemien, . . .) wird oft gefragt, warum nicht historische Daten verwendet werden, um die Modelle zu verifizieren und damit g¨ ultige Prognosen f¨ ur die Zukunft zu erm¨oglichen. Die Chaos–Theorie hat hierzu die Erkenntnisse geliefert, daß schon einfachste nichtlineare Gleichungen beliebige geschichtliche Entwicklungen produzieren. Die Frage der Anfangsbedingungen ist deutlich in den Vordergrund ger¨ uckt. Wir werden dies illustrieren. Starten wir mit einer konkreten Situation. Die Entwicklung einer Spareinlage von Jahr zu Jahr bei Verzinsung jeweils am Jahresende zu einem festen Zinssatz r > 0 l¨aßt sich einfach verfolgen: Ist x das Kapital am Beginn des Jahres n, so ist y := x + x · r das Kapital am
Baumeister: Mathematik IV / Stand: Juni 1998
413
Beginn des Jahres n + 1. Also haben wir f¨ ur die Kapitalentwicklung vom Jahre n = 0 an folgende Iterationsvorschrift xn+1 = (1 + r)xn , n ∈ IN 0 , d.h. xn = (1 + r)n x0 , n ∈ N. Eine Verdopplung des Kapitals beobachtet man nach etwa n :=
ln(2) ln(1 + r)
Jahren. Nun k¨onnte man auf die sozialistische“ Idee kommen, den Zinssatz abh¨angig von der ” Kapitalh¨ohe zu gestalten, um das unbegrenzte Wachstum zu unterbinden. Ein Ansatz f¨ ur den kapitalabh¨angigen Zinssatz ist r = r(x) := (1 −
x )r0 . K
Hier ist r0 der Zinssatz, mit dem kleine Guthaben verzinst werden und K das Guthaben, bei dem der Zinssatz auf Null gesunken ist; f¨ ur Guthaben oberhalb von K w¨ urden negative Zinsen erhoben. Mit diesem Ansatz erhalten wir folgende Iterationsvorschrift xn+1 = xn + (1 −
xn )r0 xn , K
d.h.
r0 2 x , n ∈ IN 0 . K n Der Zinssatz r0 f¨ ur Kleinguthaben ist nun noch (frei) zu w¨ahlen. xn+1 = (1 + r0)xn −
(14.14)
Bemerkung 14.18 Die Iterationsvorschrift (14.14) finden wir auch in der Populationskinetik. Dort steht xn f¨ ur die Populationsgr¨oße einer Spezies in Biomasse (Hase, Fisch, . . .) zu Beginn eines Zeitabschnitts (Jahr, Monat, . . .) n ; wir normieren eine solchen Zeitabschnitt auf 1. Dann l¨aßt sich die Vorschrift (14.14) so interpretieren: Die Zuwachsrate xn+1 − xn xn ist abh¨angig von der Populationsgr¨oße: Sie ist konstant“ f¨ ur kleine Populationsgr¨oßen, ” sie nimmt ab f¨ ur wachsende Populationsgr¨oßen. Diese Abnahme der Zuwachsrate wird ¨ motiviert durch sozialen Druck“, dem eine Uberpopulation ausgesetzt ist. 2 ” Die folgenden Analyseschritte wollen wir nun in einer normierten“ Situation durchf¨ uh” ren. Dazu betrachten wir die Iterationsvorschrift xn+1 := ga (xn) , n ∈ IN 0 ,
Baumeister: Mathematik IV / Stand: Juni 1998
414
wobei ga (x) := ax(1 − x), x ∈ [0, 1], die sogenannte logistische Funktion ist. Die Umrechnung der obigen konkreten Situation in unsere nun schlankere Form ist so m¨oglich, daß ein R¨ uckschluß auf unser Verzinsungsproblem m¨oglich ist. Nun haben wir zwei Gr¨oßen in unserer Iteration, die noch offen sind: der Parameter a ≥ 0 und der Startwert x0 ∈ [0, 1]. (Das Intervall [0, 1] ist in Korrespondenz zum Guthabenintervall [0, K].) Da ga nur dann [0, 1] nach [0, 1] abbildet, wenn a ≤ 4 ist, betrachten wir also nur das Parameterintervall [0, 4]. Die Startwerte x0 = 0, x0 = 1 sind nicht interessant, da ga (0) = 0, ga (1) = 0, und die Iterationsfolge uninteressant wird. Hier sind numerische Befunde, die im sogenannten Feigenbaumszenario zusammengefaßt sind; siehe Abbildung 14.4.
Abbildung 14.4: Das Feigenbaumszenario Es entsteht folgendermaßen: Man w¨ahle einen beliebigen Startwert x0 ∈ (0, 1), berechne die Iterierten x1 , . . . , x500 und trage davon x301, . . . , x500 u ¨ ber dem Parameter a auf. Die Druchf¨ uhrung zeigt, daß das Bild nahezu unabh¨angig vom Startwert x0 ist. Wir lesen zwei verschiedene Dynamiken ab: 1. Konvergenzverhalten f¨ ur 1 < a < 3 . 2. Periodisches Verhalten f¨ ur 3 < a < a∞ . 3. Chaotisches Verhalten f¨ ur a∞ < a < 4 . Dabei ist a∞ eine noch zu findende Zahl; sie wird sich als 3.5699456 . . . erweisen. Bevor wir weiter in die Analyse eintreten, betrachten wir zwei andere Iterationsvorschriften. Damit l¨aßt sich dann das obige Bild sehr viel leichter verstehen. Wir betrachten als erstes die Iteration xn+1 := M(xn ) , n ∈ IN 0 , der Modulo–Abbildung M : [0, 1] −→ [0, 1] , M(x) :=
(
2x, x ∈ [0, 1/2), ; 2x − 1, x ∈ [1/2, 1],
(14.15)
siehe Abbildung 14.5 . Die Abbildung ist nicht injektiv und bei x = 12 unstetig. Ferner sind folgende Eigenschaften unmittelbar klar:
Baumeister: Mathematik IV / Stand: Juni 1998
415
Abbildung 14.5: Die Modulo–Abbildung
a) Es gibt genau zwei Fixpunkte, n¨amlich x0 = 0 und x0 = 1. b) Aus M N (x) = 2N x mod 1 f¨ ur x 6= 1, M N (1) = 1 folgt, daß M N genau 2N Fixpunkte hat (welche?). Davon bilden einige echte Orbits der Period N, die anderen geh¨oren zu niedrigeren Perioden. ur alle x ∈ [0, 1]\{ 12 }, ist kein Fixpunkt stabil. c) Wegen M 0 (x) = 2 f¨ Die Wirkung der Abbildung l¨aßt sich besser verstehen, wenn wir ein x ∈ [0, 1] in Dualdarstellung schreiben: x = 0, a1 a2a3 . . .
oder x =
∞ X
ai 2−i , ai ∈ {0, 1}.
i=1
Die Iteration bewirkt dann wegen M(x) = 0, a2 a3a4 · · · ein Streichen der ersten Ziffer und anschließende Linksverschiebung um eine Stelle; die Modulo–Abbildung wird daher auch Bernoulli–Verschiebung (Bernoulli–shift) genannt. Wir k¨onnen genauer festhalten: Zahlen x, deren Dualdarstellung streng periodisch ist (mit der kleinsten Periode N), geh¨oren zu Orbits der Periode N. Startpunkte, deren Dualdarstellung ab einer gewissen Stelle periodisch ist, werden von (instabilen) periodischen Orbits angezogen. Damit ist uns das Schicksal der rationalen Punkte bekannt. So gibt es genau einen Orbit der Periode 2, der aus den Punkten x1 = 0, 0101 · · · = 1/3, x2 = 0, 1010 · · · = 2/3 besteht und z.B. von x = 0, 011101010 . . . nach drei Iterationen erreicht wird. Was geschieht aber mit der u ¨ berwiegenden Mehrheit aller Punkte, n¨amlich den irrationalen Zahlen, die durch nichtperiodische Dualbr¨ uche dargestellt werden? Es l¨aßt sich zeigen, daß fast alle irrationalen Zahlen in ihrer Dualdarstellung jede endliche Folge von Ziffern unendlich oft enthalten. Damit wird jedes Intervall [(j − 1) · 2−m , j · 2−m ), m = 1, 2, . . . , von den Iterierten M k (x0 ), k = 1, 2, . . . , einer irrationalen Zahl x0 unendlich oft erreicht (und aus Symmetriegr¨ unden alle solchen Intervalle mit festem m gleich h¨aufig). Jede “typische“ Trajektorie irrt also fortw¨ahrend durch das gesamte Intervall [0, 1] mit einer relativen H¨aufigkeit, die asymptotisch zur Gleichverteilung wird.
Baumeister: Mathematik IV / Stand: Juni 1998
416
F¨ ur eine beliebige st¨ uckweise stetige Funktion F : [0, 1] −→ IR 1 – die Stetigkeitsforderung l¨aßt sich abschw¨achen – gilt deshalb lim N
N −1 X
Z1 k
F [M (x0 )] =
k=0
F (x)dx f¨ ur fast alle x0 . 0
Wendet man dies mit einer charakteristischen Funktion F = χI eines Intervalls I an, so besagt dies, daß ein Orbit sich im Intervall I im Mittel so oft aufh¨alt, wie die Gr¨oße von I uns nahelegt. Man sagt, die Bernoulli–Verschiebung ist ergodisch mit der Gleichverteilung als invariantem Maß. Alle diese Eigenschaften haben letztlich ihre Ursache in der topologischen Wirkung von M: das Intervall [0, 1] wird (um den Faktor 2) gestreckt, zerschnitten und u ¨ bereinandergelegt. Daraus resultiert eine sensitive Abh¨angigkeit der Trajektorien von den Anfangswerten: Sind x0 und x0 ab der (n+1)–ten dualen Ziffer verschieden, so wird dieser Unterschied durch die Iteration vergr¨oßert, und M n (x0 ) bzw. M n (x0) haben nichts mehr gemeinsam. Da aber reale Messungen/Zahldarstellungen stets mit einer endlichen Genauigkeit durchgef¨ uhrt werden, wird eine langzeitliche Vorhersage unm¨oglich. Daß der Begriff deterministisches Chaos f¨ ur diese Situation gerechtfertigt ist, zeigt auch folgender Umstand: Registrieren wir mittels (
s(xn ) :=
0 1
, falls xn ∈ [0, 1/2), , n ∈ IN 0 , , falls xn ∈ [1/2, 1],
(14.16)
lediglich, ob die entsprechende Iterierte xn im linken oder rechten Halbintervall liegt, so entsteht eine Folge 0110 . . ., die sich durch nichts von einer Realisierung eines zuf¨alligen M¨ unzwurfs (0 = Wappen,1 = Zahl) unterscheidet. Ein willk¨ urlich aus [0, 1] entnommener Startwert x0 besitzt n¨amlich in der Dualdarstellung Ziffern a0, a1, . . . , die unabh¨angig voneinander mit der Wahrscheinlichkeit 1/2 die Werte 0 oder 1 annehmen. Auf einem vergr¨oberten Beschreibungsniveau tritt deshalb eine rein zuf¨allige Bewegung auf. Die obige Iteration wird von einer Funktion “gesteuert“, die nicht stetig ist. Das seltsame Verhalten der Iteration h¨angt aber nicht von dieser Tatsache ab, wie die Iteration xn+1 := Z(xn) , n ∈ IN 0 , mit der sogenannten Zeltdach–Abbildung (
Z : [0, 1] −→ [0, 1] , Z(x) :=
2x , falls x ∈ [0, 1/2), 2 − 2x , falls x ∈ [1/2, 1],
zeigt. Hier folgt aus der Dualdarstellung x = 0, a0 a1a3 . . . von x offenbar (
Z(x) =
0, a2 a3a4 . . . f u¨r a1 = 0, 0, a2 a3 a4 . . . f u¨r a1 = 1,
(14.17)
so daß Z eine Bernoulli–Verschiebung und (f¨ ur a1 = 1) eine anschließende Komplementierung aller Ziffern bewirkt. Die Komplementierung sieht so aus: 0 := 1, 1 := 0 . Die f¨ ur die Modulo–Abbildung getroffenen Aussagen bleiben fast w¨ortlich bestehen: Es
Baumeister: Mathematik IV / Stand: Juni 1998
417
gibt zwei Fixpunkte (hier: x0 = 1/3 und x0 = 2/3) und endlich viele Orbits der Periode N (der Graph von Z N besteht aus 2N −1 gleichschenkligen Dreiecken der H¨ohe 1 und der Grundseite 21−N ), aber wegen |f 0 (x)| = 2 f¨ ur alle x sind alle Fixpunkte und periodischen Orbits instabil. Alle rationalen Zahlen geh¨oren zu Orbits der Periode N = 1, 2, . . . oder werden von diesen angezogen. Jeder typische Orbit (d.h. mit irrationalem Anfangswert) besucht in unregelm¨aßiger Folge das gesamte Intervall [0, 1] gleichm¨aßig. Die Dynamik ist ebenfalls ergodisch mit der Gleichverteilung als invariantem Maß. Der topologische Unterschied gegen¨ uber der Modulo–Abbildung besteht darin, daß die Iterationsabbildung stetig ist und das Intervall [0, 1] bei jeder Iteration gestreckt und anschließend gefaltet wird. Nun k¨onnen wir zur Parabel–Abbildung ga mit a = 4 zur¨ uckkommen und sie mit Hilfe der Zeltdach–Abbildung auch verstehen. Die bijektive Abbildung √ 2 arcsin( x) ∈ [0, 1] π
h : [0, 1] 3 x 7−→
transformiert die Iteration f¨ ur die Parabel–Abbildung n¨amlich in eine Iteration f¨ ur die Zeltdach–Abbildung: yn+1 := h(xn+1 ) = h(g4 (xn)) = (h ◦ g4 ◦ h−1 )(yn ), d.h.
falls yn ∈ [0, 12 ] falls yn ∈ ( 12 , 1] Deren Verhalten haben wir aber als chaotisch (und in gewisser Hinsicht gleichbedeutend zum M¨ unzwurf) erkannt. Da sich die Orbits der Parabel–Abbildung durch eine eindeutige stetige Transformation aus denen der Zeltdach–Abbildung ergeben, sind sie in a¨hnlicher Weise chaotisch. Insbesondere wissen wir damit, daß die Parabelabbildung f¨ ur a = 4 keine stabilen Fixpunkte und keine stabilen periodischen Orbits besitzt. Mehr Information erhalten wir durch ein Histogramm, indem wir f¨ ur jedes von N gleichgroßen Teilintervallen von [0, 1] die relative Anzahl der Besuche eines typischen Orbits registrieren. Nach hinreichend vielen Iterationen ¨andert sich das Histogramm nicht mehr und dr¨ uckt damit die Ergodizit¨at der Dynamik aus. F¨ ur a = 4 k¨onnen wir die H¨aufigkeit sogar angeben: Da bei der Zeltdach–Abbildung die Gleichverteilung mit der Dichte q(y) = 1 auf [0, 1] invariant bleibt, wird sich wegen (5.12) bei der Parabel–Abbildung mit a = 4 asymptotisch eine Verteilung mit der Dichte 2yn yn+1 = 2 − 2yn
p(x) = q(y(x)) · |
dy 1 (x)| = q dx π x(1 − x)
einstellen; siehe Abbildung 14.6. Wir erkennen daran, daß sich ein Bahnpunkt besonders gern in der N¨ahe der Endpunkte x = 0 und x = 1 aufh¨alt. Wir wollen jetzt einen Begriff einf¨ uhren, der das exponentiell schnelle Auseinanderlaufen benachbarter Trajektorien quantitativ erfaßt und dessen grundlegende Bedeutung noch
Baumeister: Mathematik IV / Stand: Juni 1998
418
Abbildung 14.6: Das invariante Maß der Parabel–Abbildung
deutlich werden wird. Sei der Anfangswert x0 einer Iteration xn+1 := f(xn) , n ∈ IN 0 – f¨ ur f denke man an ga , M, Z – aus einem Intervall [x, x + ] gew¨ahlt. Dann wird f¨ ur n hinreichend kleines sein Bild f (x0 ) nach n Iterationen in einem Intervall liegen, dessen L¨ange |f n (x + ) − f n (x)| = |(f n )0(x)| · + o() betr¨agt. Wir vergleichen dies mit einem exponentiellen Wachstum der Form xn+1 = axn , n ∈ IN 0 , wobei a := eλ mit einem λ ∈ IR ist. Hier wird aus dem Intervall [x, x + ] nach n Iterationen ein Intervall mit der L¨ange |eλn(x + ) − eλnx| = eλn . Grenz¨ ubergang ↓ 0, n → ∞ liefert n−1 Y
|(f n )0(x0 )|1/n = lim ( eλ := lim n n Die Gr¨oße λ(x0 ) := lim n
|f 0 (xk )|)1/n .
k=0
X 1 n−1 | ln(|f 0 (xk ))| n k=0
heißt Ljapunov–Exponent. Sie mißt die mittlere logarithmische Ausdehnungsrate (infinitesimal kleiner Intervalle) l¨angs eines Orbits und ist eine Funktion des Anfangspunktes x0 . Geh¨ort x0 zum Anziehungsbereich eines asymptotisch stabilen Fixpunktes x0 , so gilt offenbar λ(x0 ) = λ(x0 ) = ln(|f 0 (x0)|) < 0 . Wird x0 von einem asymptotisch stabilen periodischen Orbit (x1, . . . , xN ) der Periode N angezogen, so folgt zwangsl¨aufig λ(x0 ) = λ :=
N 1 X ln(|f 0(xk ))| < 0 , N k=1
Baumeister: Mathematik IV / Stand: Juni 1998
419
weil |(f N )0(xk )| < 1 unabh¨angig von k gilt. Geh¨ort x0 dagegen zum Anziehungsbereich eines chaotischen Attraktors A, so gilt λ(x0 ) = λA > 0 , weil sich infinitesimal benachbarte Punkte auf A exponentiell schnell (∼ eλAn ) entfernen, wobei global eine Faltung u ¨ berlagert wird. Sowohl f¨ ur die Modulo–Abbildung f := M als auch f¨ ur die Zeltdach–Abbildung f := Z 0 ur alle x ∈ [0, 1] (f¨ ur x = 1/2 nur links– bzw. rechtsseitig). Deshalb betr¨agt ist |f (x)| = 2 f¨ der Ljapunov–Exponent λ(x) = ln(2) f¨ ur alle x ∈ [0, 1] . ¨ Numerische Berechnungen f¨ ur die Parabel–Abbildung widerspiegeln die bisherigen Uberlegungen: Alle typischen Orbits ergeben den gleichen Ljapunov–Exponenten, der durch den jeweiligen Attraktor bestimmt ist; siehe Abbildung 14.7.
Abbildung 14.7: Die Ljapunovkoeffizienten
Bei Vorliegen stabiler Perioden gilt λ(a) < 0, wobei λ f¨ ur superstabile Orbits minimal wird, w¨ahrend an den Verzweigungspunkten (Bifurkationspunkten) an , n ∈ IN 0 , λ(a1 ) = λ(a2 ) = · · · = λ(a∞ ) = 0 gilt. Auch daran sehen wir, daß f¨ ur a = a∞ noch kein Chaos vorhanden ist. Im Chaosbereich haben wir λ(a) > 0, der Maximalwert von λ(a) wird f¨ ur a = 4 erreicht. Deutlich sichtbar sind auch die Fenster mit stabilen Perioden, wo λ(a) vor¨ ubergehend negativ wird. Halten wir als Fazit fest: Der chaotische Bereich der Dynamik wird durch einen positiven Ljapunov–Exponenten charakterisiert. Das ist Ausdruck der sensitiven Abh¨ angigkeit des Bahnverlaufs von den Anfangswerten, das heißt des exponentiell schnellen Auseinanderlaufens benachbarter Punkte (auf dem Attraktor), dem eine globale Faltung u ¨ berlagert wird.
14.4
Iteration im Komplexen
In Abschnitt 14.3. haben wir die logistische Funktion ga (x) := ax(1 − x)
Baumeister: Mathematik IV / Stand: Juni 1998
420
kennengelernt. Sie hat sehr interessante Orbits bei der Fixpunktiteration erzeugt. Es liegt nun nahe, diese Iteration auf die komplexen Zahlen auszudehnen und daher folgende Iteration zu betrachten: zn+1 = gλ (zn) := λzn(1 − zn), n ∈ IN 0 .
(14.18)
Wiederum haben wir zwei Parameter : λ, z0 ∈ C0 . Betrachte φ(z) := 2 − 4z , G2 (z) := z 2 − 2. Dann gilt φ ◦ g4 = G2 ◦ φ und wir k¨onnen die Iteration (14.18) auch u ¨ ber die Iteration zn+1 := Gµ (zn) , n ∈ IN 0 ,
(14.19)
f¨ ur µ = 2 studieren, wobei die Schar Gµ so erkl¨art ist: Gµ (z) := z 2 − µ, µ ∈ C0 . Diese Schar ist die einfachste“ nichtlineare Funktion in C0 mit nur einem Parameter. Sie ” hat durch die Analysen und Illustration von B. Mandelbrot betr¨achtliche popul¨are Bedeutung erlangt, sie wurde aber mathematisch schon von Fatou 1906 intensiv untersucht. Die Iteration zu µ = 0 ist nicht sehr aufregend. Die Fixpunkte von G0 sind z = 0, z = 1, und z = ∞; letztere Aussage ist hier nur heuristisch, aber verifizierbar durch eine Variablentransformation, die z = ∞ auf z = 0 transformiert. Die Fixpunkte z = 0 und z = ∞ sind attraktiv, da die Lipschitzkonstante in der Umgebung davon 0 ist, der Fixpunkt z = 1 ist instabil, da die Lipschitzkonstante dort 2 ist. (Man kann ¨ahnlich wie in Bemerkung 14.8 die Lipschitzkonstante u ¨ ber Ableitungen berechnen. Wir haben 0 G0 (z) = 2z; best¨atige dies u ¨ber den Grenzwert von Differenzenquotienten!) Die Dynamik zu G0 ist nun recht einfach: Es gilt (
zn = lim n
0 ∞
, falls |z0| < 1 . , falls |z0| > 1
(14.20)
Der Einheitskreis D1 := {z ∈ C0 ||z| = 1} bildet die Grenze zwischen diesen Einzugsbereichen der Attraktoren z = 0 und z = ∞ . Er wird als Julia-Menge J0 der Abbildung G0 bezeichnet. Der instabile Fixpunkt z = 1 liegt in J0: Interessant ist die Dynamik auf J0 . Ein Punkt z = ei2πt, 0 ≤ t ≤ 1, wird abgebildet durch G0 auf z1 := ei4πt Also lautet die Dynamik auf J0 : (
[0, 1] 3 t 7−→
2t , falls t ∈ [0, 1/2) 2t − 1 , falls t ∈ [1/2, 1]
Dies ist aber gerade der in Abschnitt 14.2. diskutierte Bernoulli–Shift. Dies bedeutet nun, daß die Dynamik auf der Juliamenge J0 chaotisch ist. Als n¨achstes betrachten wir nun die Juliamenge zum Parameter µ = i/2 . Fixpunkte sind nun neben z = ∞ noch q 1 z1/2 = (1 + 1 − 4µ) , 2
Baumeister: Mathematik IV / Stand: Juni 1998
421
also z1 ≈ 1.14 − 0.39i, z2 ≈ 0.14 + 0.39i . z2 ist stabil und z1 ist instabil. Die Juliamenge Jµ ist hier wieder der Rand des Einzugsgebietes von z = ∞ und z2. Sie ist eine Kurve, die nirgends differenzierbar ist, aber doch als eine Abbildung des Einheitskreises D1 aufgefaßt werden kann. Nun ist klar, wie wir auch f¨ ur andere Parameterwerte vorgehen. Stets erh¨alt man ziemlich seltsam, aber meist auch interessant aussehende Juliamengen Jµ . Wir halten einige Eigenschaften von Jµ fest: 1. Invarianz Es gilt: Jµ ist abgeschlossen und beschr¨ankt und Gµ (Jµ ) = Jµ = G−1 µ (Jµ ) 2. Reichhaltigkeit Jµ enth¨alt u ¨ berabz¨ahlbar viele Punkte. 3. Berechenbarkeit F¨ ur jedes z ∈ Jµ liegen die Punkte z k mit Gkµ (z k ) = z , k ∈ IN , dicht in Jµ . 4. Selbst¨ ahnlichkeit F¨ ur jedes z¯ ∈ Jµ und jedes > 0 gibt es n ∈ IN mit Gµ (J¯µ ) = Jµ , wobei J¯µ := {z ∈ Jµ ||z − z¯| < } ist. Die Reichhaltigkeitseigenschaft ist eine Konsequenz, daß wir nun im Komplexen sind und daher die polynomialen Gleichungen Gnµ (z) = z stets eine mit n wachsende Zahl von L¨osungen besitzen. Die Berechenbarkeitseigenschaft dr¨ uckt aus, daß man durch R¨ uckw¨artsiteration, ausgehend von einem Punkt der Juliamenge, jedem Punkt der Juliamenge beliebig nahe kommen kann. Prinzipiell bietet diese Eigenschaft die M¨oglichkeit, die Juliamenge graphisch darzustellen, in Praxi treten aber Probleme dadurch auf, daß nicht alle Teile von Jµ gleich h¨aufig aufgesucht werden. Die Selbst¨ahnlichkeitseigenschaft besagt, daß sich die gesamte Juliamenge Jµ durch eine endliche Anzahl von Iterationen aus jedem noch so kleinen Ausschnitt J µ von Jµ generieren l¨aßt. Daher die Wortwahl f¨ ur diese Eigenschaft. Bemerkung 14.19 In der euklidischen Geometrie kennen wir die Gebilde Gerade, Kreis, Kugel, Kegel“, ” Gebilde, die im Vergleich mit den fraktalen Juliamengen ziemlich langweilig aussehen. Die einfach codierte Dynamik“ Gµ erzeugt Mengen und Kurven, die z.T. auf in der ” Natur vorkommende Gebilde verweisen. 1979 entdeckte B. Mandelbrot das Ordnungsprinzip, welches die Einteilung in zusammenh¨angende und nicht zusammenh¨angende Juliamengen erlaubt. Die Parameter µ in der sogenannten Mandelbrotmenge M := {µ ∈ C0 |(Gkµ (0))k∈IN konvergiert nicht gegen ∞} erzeugen zusammenh¨angende Juliamengen. Die Menge M ist nun selbst wieder eine sehr seltsame Menge. Sie ist als Apfelm¨ annchen bekannt und weist wieder große Selbst¨ahnlichkeit auf. In ihr bilden sich auch die wesentlichen Merkmale des Feigenbaumszenarios ab. Dies ist nicht u ¨berraschend, da ja die Abbildungen gλ , Gµ
Baumeister: Mathematik IV / Stand: Juni 1998
422
verwandt sind. Diese Klarheit entdeckt man aber erst, nachdem wir den Schritt vom Reellen zum Komplexen vollzogen haben. 2 Im Reellen haben wir das Heronverfahren zur Berechung der Quadratwurzel kennengelernt. Es ist gerade das Newtonverfahren zur L¨osung der Gleichung x2 = 2, denn das Newtonverfahren zur L¨osung der Gleichung x2 = 2 lautet: 1 2 xn+1 := (xn + ) , n ∈ IN 0 , 2 xn Im Komplexen formulieren wir in Analogie – wir wollen die L¨osungen von z 2 = 1 finden – folgende Iteration: 1 1 zn+1 := (zn + ) , n ∈ IN 0 . 2 zn Offensichtlich sind die Startwerte z0, die rein imagin¨ar sind, nicht “erlaubt“, denn hier kann keine Konvergenz eintreten, da die Imagin¨arachse nicht verlassen wird. Man kann nun zeigen, daß f¨ ur z0 ∈ C0 − Konvergenz gegen −1 und f¨ ur z0 ∈ C0 + Kovergenz gegen +1 eintritt. Dabei sind C0 − := {z ∈ C0 |Rez < 0}, C0 + := {z ∈ C0 |Rez > 0}. In Analogie zum Newtonverfahren im Reellen formuliert man zur Gleichung z3 = 1 im Komplexen die Iteration zn+1 := zn −
zn3 − 1 2zn3 + 1 = , n ∈ IN 0 . 3zn2 3zn2
Wie sieht nun das Konvergenzverhalten der zugeh¨origen Orbits aus ? Diese Frage erweist sich als außerordentlich tiefliegend. Als Erster versuchte A. Cayley (1821-1895) die Frage zu beantworten; er konnte es nicht. Erst eine ziemlich schwierige Analyse der Iteration von rationalen Funktionen im Komplexen durch G. Julia (1893-1978) und P. Fatou (18781929) brachte einige Klarheit in diese Fragestellung. Die Arbeiten von B. Mandelbrot zu Fraktalen in den Jahren von 1975 bis 1985 machten diese Ergebnisse wieder popul¨ar. Die zun¨achst naheliegende Vermutung, daß die Einzugsgebiete der drei Nullstellen z1 = 1 , z2 = −
1√ 1 1√ 1 3 + i , z3 = − 3− i 2 2 2 2
an jeweils einer Halbgeraden zusammenstoßen sollten, trifft nicht zu. Computerbilder zeigen eine ganz u ubersichtlichkeit des Konvergenzverhaltens. Die R¨ander ¨ berraschende Un¨ der jeweiligen Einzugsgebiete sind so ineinander verwoben, daß immer dort, wo zwei Einzugsbereiche zusammenstoßen, der dritte Einzugsbereich bereits vorhanden ist; die R¨ander der Einzugsbereiche sind keine glatten Kurven, sondern sehr eigenwillig gefranste Gebilde; sie stellen wieder eine sogenante Julia–Menge dar, die die oben angef¨ uhrten Eigenschaften besitzt.
Baumeister: Mathematik IV / Stand: Juni 1998
423
Das seltsame Verhalten der Newton–Iteration im Komplexen wurde untersucht f¨ ur die Gleichungen z 4 − 1 = 0 , z 5 − 1 = 0, (z − 1)(z 2 + z + c) = 0 (c ∈ C0 ). Immer wieder st¨oßt man auf Einzugsgebiete, deren R¨ander vom Typ Julia–Mengen sind. ¨ Uberraschend ist, daß als geradezu universelle Menge wieder das Apfelm¨annchen ins Spiel kommt: F¨arbt man die Parameter c im dritten Fall schwarz ein, wenn z0 = 0 kein guter Startwert (keine Konvergenz) ist, so entsteht wieder ein Apfelm¨annchen.
14.5
Iteration von Drehschrumpfungen
Wir benutzen hier Matrizen als Hilfsmittel, Figuren der Ebene in neue zu verwandeln. Dabei interessieren uns hier Matrizen, die nicht starr operieren wie etwa (reine) Drehungen und Translationen, hier interessieren sogenannte Drehschrumpfungen. Dies sind affine Abbildungen, die Figuren neben einer Drehung und Translation auch auf ein Zentrum hin zusammenziehen. Mit einer Matrix A ∈ IR2,2 und einem Vektor z ∈ IR2 verbinden wir die Abbildung TA,z : IR 2 3 x 7−→ Ax + z ∈ IR 2 wobei wir IR 2 als Raum der Spaltenvektoren (IR2,1 ) zu verstehen haben; solche Abbildungen nennen wir affin. Ist F eine Figur der Ebene, d.h. eine Teilmenge von IR2 , dann ist FA,z := {y ∈ IR 2 |y = Ax + z, x ∈ F } ihre Bildfigur. Interessante Spezialf¨alle sind: • Reine Drehung, d.h. cos α sin α − sin α cos α
A=
!
und z = θ . Die Zahl α ist der Drehwinkel. Zur Erinnerung: Solche Drehungen lassen Abst¨ande und Winkel invariant. • Zentrische Streckung mit Zentrum θ und Streckungsfaktor s ≥ 0 : A=
s 0 0 s
!
• Drehschrumpfung mit Zentrum θ und Streckungsfaktor s ≥ 0 : A=s
Beispiel 14.20
cos α sin α sin α cos α
!
Baumeister: Mathematik IV / Stand: Juni 1998
424
Wir legen als Figur ein Dreieck F0 mit den Eckpunkten A, Z, B durch die Koordinaten A : (−1, 1) Z : (0, 0) B : (1, −1) fest und bestimmen mit dem Schrumpfungsfaktor s := 0.9 die iterierten Bildfiguren gem¨aß Fn+1 := TA,θ (Fn ) , n ∈ IN 0 . Wenn wir die Bildfiguren abwechselnd schwarz und weiß einf¨arben, entsteht im Quadrat [−1, 1] × [−1, 0] das perspektivische Bild von Eisenbahnschwellen; siehe Abbildung 14.8
2
Abbildung 14.8: Die Eisenbahnschwellen
Beispiel 14.21 Betrachte das Dreieck F0 mit den Eckpunkten B, C, D mit den Koordinaten B : (0, 1) C : (−1, 1) D : (−1, 0) und bestimme mit dem Schrumpfungsfaktor s := 0.5 die Iterierten Fn+1 := TA,θ (Fn ) , n ∈ IN 0 . Es ergibt sich, wenn wir die Figuren Fn , n ∈ IN 0 , schwarz einf¨arben, folgendes Gesamtbild F∞ := ∪n∈IN 0 Fn (siehe Abbildung 14.11). 2
Abbildung 14.9: Ein Dreiecksmuster
Baumeister: Mathematik IV / Stand: Juni 1998
425
Beispiel 14.22 Gegeben sei ein Quadrat mit den Eckpunkten A, B, C, D mit den Koordinaten A : (1, −1) B : (1, 1) C : (−1, 1) D : (−1, −1) . Wir wollen nun dieses Quadrat so drehen und schrumpfen (Winkel ϕ, Zentrum θ, Faktor s), daß die Eckpunkte A0, B 0, C 0, D0 des so entstehenden Quadrats auf den Seiten des Ausgangsquadrats zu liegen kommen. Wir legen dazu ϕ fest und fragen nach dem passenden Schrumpfungsfaktor. Aus der Abbildung 14.10 lesen wir ab: sin ϕ =
2−x x , cos ϕ = . 2s 2s
Abbildung 14.10: Zur Wahl des Schrumpfungsfaktors Also wird die gesuchte Abbildung vermittelt durch die Matrix 1 A(ϕ) := cos ϕ + sin ϕ
cos ϕ sin ϕ sin ϕ cos ϕ
!
.
Iteriert man nun gem¨aß Fn+1 := TA(ϕ) (Fn ) , n ∈ IN 0 , so ergibt die Folge der Eckpunkte der Figuren Fn eine interessante Spirale.
2
Nun kombinieren wir die Drehschrumpfungen unter Einbeziehung von verschiedenen Zentren in folgender Weise: Seien T1, T2 zwei (verschiedene) Drehschrumpfungen mit Zentrum Z1 bzw. Z2 . Wir starten mit einer Figur F0 und iterieren gem¨aß Fn+1 := T2(T1(Fn)) , n ∈ IN 0 , i = 1, 2 .
(14.21)
Die Beschreibung der Kontraktionen“ T1 , T2 gelingt mit den Ortsvektoren der Zentren ” Z1 , Z2 , den Schrumpfungsfaktoren s1 , s2 und den Winkeln ϕ1 , ϕ2 folgendermaßen: Ti (x) = si A(ϕi)x + (1 − si )zi .
Beispiel 14.23 Mit der Iteration (14.21) wird die Abbildung 14.11 erzeugt; der Schrumpfungsfaktor ist √ in beiden Abbildungen 21 2 , der Winkel π4 .
2
Baumeister: Mathematik IV / Stand: Juni 1998
Abbildung 14.11: Ein Dreiecksmuster
426
Kapitel 15 Verschlu ¨ sselte Botschaften In st¨andig wachsendem Umfang werden heutzutage Daten auf elektronischem Wege gespeichert, u ¨bertragen und verarbeitet. Wir wollen Methoden besprechen, wie diese Datenverarbeitung gegen zuf¨allige St¨orungen und beabsichtigte Eingriffe gesichert werden kann. Sie sind interessante Anwendungen der algebraischen Strukturen.1
15.1
Problemstellung
¨ Zun¨achst wollen wir besprechen, wie die Ubermittlung von Nachrichten vor sich geht. Nachrichten bilden wir u ¨ blicherweise in Form von gesprochenen oder geschriebenen W¨ortern, die aus Buchstaben eines Alphabets bestehen: Beispiele: BAUM 01001 − − •− ATGGC
: : : :
¨ U, ¨ O} ¨ Deutsches Alphabet {A,B,C, . . . , X,Y,Z,A, Bin¨ares Alphabet {0, 1} Morsealphabet {−, •} (Das angegebene Zeichen steht f¨ ur “q“) Ausschnitt aus der DNS, geschrieben im Alphabet {A,C,G,T}
¨ Die Ubertragung von Nachrichten geschieht mittels durch Hardware realisierter mechanischer oder elektronischer Impulse. Telefon, Morseapparat, Telegraph, Funkger¨at sind Instrumente der Nachrichten¨ ubermittlung. Die Strecke (physikalische Verbindung), auf ¨ ¨ der die Ubermittlung vor sich geht, bezeichnet man als Kanal. Zur Ubertragung werden die Nachrichten in besonderer Weise vorbereitet. Eine erste Vorbereitung ist die sogenannte Quellencodierung, bei der eine Nachricht (einer nat¨ urlichen Sprache), die ein Sender an einen Empf¨anger u ¨bermitteln will, in einem vorgegebenen System, Code genannt, dargestellt wird. Wir beschr¨anken uns hier meist darauf, f¨ ur diesen Quellencode das {0, 1}− Alphabet zu verwenden; Worte werden also als 0, 1− Folgen dargestellt. Sei A ein endliches Alphabet. Dann heißt ein Tupel w ∈ An (n ∈ IN ) ein Wort der L¨ ange n. Als Wort der L¨ange 0 f¨ ugen wir das leere Wort ( ) ∈ A0 hinzu und setzen damit A∗ := ∪n∈IN 0 An . 1 ¨ Die Uberschrift ist der Titel eines Buches: R. Kippenhahn, Verschl¨ usselte Botschaften – Geheimschrift, Enigma und Chipkarte. Rowohlt, 1997
427
Baumeister: Mathematik IV / Stand: April 1998
428
Quellencodierung bedeutet also, einer Nachricht x einer Gesamtheit X von Nachrichten ein Wort w ∈ A∗ zuzuordnen – wir beschreiben sie gleich mit einer Abbildung. Definition 15.1 Sei X eine endliche Menge und A ein (endliches) Alphabet. Eine injektive Abbildung c : X −→ A∗ heißt eine Codierung und die Bildmenge Γc := {c(x)|x ∈ X} heißt der zugeh¨orige Code. Haben alle Codew¨orter dieselbe L¨ange n, so sprechen wir von einem Blockcode der L¨ange n. 2 Ein so codiertes Wort des Senders geht nun u ¨ber den Kanal an den Empf¨anger. Hier ergeben sich zwei wesentliche Probleme. Zum einen kann der Kanal St¨orungen ausgesetzt sein (atmosph¨arische St¨orungen bei Satelliten), zum anderen k¨onnen beabsichtigte Eingriffe (Lauschen, St¨oren, gezieltes Ab¨andern) von Unbefugten vorgenommen werden. Der erste Aspekt erfordert eine Technik, die Fehler erkennt und korrigiert, der zweite Aspekt eine Technik, die die Nachrichten f¨ ur Unbefugte unlesbar macht. Die Methode f¨ ur Abhilfe ist bei beiden Aspekten die gleiche: die Nachricht im Quellencode wird vor der Sendung u ¨ ber den Kanal einer Sicherheitsmaßnahme unterzogen: sie wird nochmals codiert. Diesen zweiten Schritt faßt man unter dem Stichwort Kanalcodierung zusammen. Auf der Empf¨angerseite hat man dann entsprechend zwei Decodierungsmaßnahmen zu treffen, die Kanaldecodierung und die Quellendecodierung. Dies halten wir in der Abbildung 15.1 fest. Sender
−→
Quellencodierung
−→
Kanalcodierung
−→
y
K a n a l y
Empf¨anger
←−
Quellendecodierung
←−
Kanaldecodierung
←−
Abbildung 15.1: Codierung von Nachrichten
Beispiele der Praxis f¨ ur Codes sind: • ASCII– Code (American Standard Code for Information Interchange) Damit wird ein Alphabet, das aus Buchstaben, Ziffern und Sonderzeichen besteht, u ¨ ber dem Alphabet {0, 1} mit Wortl¨ange 8 codiert. Ein Ausschnitt:
Baumeister: Mathematik IV / Stand: April 1998 ASCII–Zeichen
429
Codewort ASCII–Zeichen Codewort
t (Zwischenraum) 00100000
!
00100001
0
00110000
A
01000001
1
00110001
B
01000010
2
00110010
C
01000011
• Der Lochstreifencode: Damit wird ein Alphabet aus Buchstaben und Sonderzeichen u ¨ ber dem Alphabet {0, 1} mit Wortl¨ange 5 dargestellt, physikalisch realisiert als F¨ unferkombination von gestanzten L¨ochern und ungestanzten Leerstellen im Lochstreifen. (Durch Sonderzeichen kann man Buchstaben auch als Ziffern interpretieren.) • Der Code von Zeichens¨atzen etwa bei TE X. Damit wird ein Alphabet aus Buchstaben, Ziffern und Sonderzeichen u ¨ ber dem Alphabet {0, 1, . . . , 7} (oktal) mit Wortl¨ange 3 dargestellt. Ein Beispiel: 046 steht f¨ ur & im Zeichensatz cmr10. Dabei ist cmr10 selbst wieder ein Codewort, dessen Bauart sich so erkl¨art: “cm“ steht f¨ ur “Computer Modern“, “r“ steht f¨ ur die Schriftart “Roman“, “10“ steht f¨ ur die Entwurfsgr¨oße. • ISBN (International Standard Book Number) Beispiel: 3 - 127 - 01901 - 7 (Die Zahl 3 steht f¨ ur den deutschsprachigen Raum, 127 steht f¨ ur den Verlag, 01901 steht f¨ ur die Nummer des Buches in der internen Z¨ahlung des Verlages, 7 ist eine Pr¨ ufziffer, die so zustande kommt: 1 · 3 + 2 · 1 + 3 · 2 + 4 · 7 + 5 · 0 + 6 · 1 + 7 · 9 + 8 · 0 + 9 · 1 = 7 mod 11 Eine Pr¨ ufziffer 10 wird als X (r¨omische 10) geschrieben.) • E A N (European Article Number / Strichcode) Beispiel: | ||| | || || | Beispiel 15.2 Betrachten wir X := {a, b, c} und folgende Codierung: a 7−→ 0, b 7−→ 1, c 7−→ 00 Erh¨alt der Empf¨anger (ohne Kanalcodierung !) das Wort 00, dann kann er ohne zus¨atzliche Maßnahmen nicht erkennen, ob es sich um die Nachricht aa oder c handelt. Der Grund daf¨ ur ist, daß das Codewort 0 ein Anfangsst¨ uck (Pr¨ afix) des Codewortes 00 ist. Mit der Codierung a 7−→ 00, b 7−→ 1, c 7−→ 01 haben wir diese Schwierigkeiten nicht. Etwa l¨aßt sich die codierte Nachricht 0001001 von links nach rechts eindeutig so decodieren: 00 steht f¨ ur a, 01 steht f¨ ur c, 00 steht f¨ ur a, 1 2 steht f¨ ur b; also ist die Nachricht acab
Baumeister: Mathematik IV / Stand: April 1998
430
Das obige Beispiel f¨ uhrt uns dazu, Codierungen auszuzeichnen, deren Codew¨orter von links nach rechts eindeutig zu lesen sind. Also: Definition 15.3 Eine Codierung c : X −→ A∗ heißt Pr¨ afix–Code, falls kein Codewort Pr¨afix eines anderen Wortes ist. 2 In der Praxis will man nat¨ urlich m¨oglichst effizient codieren, d.h. die Wortl¨ange der Codew¨orter nicht unn¨otig lang gestalten. Etwa ist die Pr¨afix–Codierung a 7−→ 00, b 7−→ 1, c 7−→ 01 wesentlich g¨ unstiger als die Pr¨afix–Codierung a 7−→ 00, b 7−→ 101, c 7−→ 1100. ur den die L¨ange aller Codew¨orter Gesucht ist also ein Pr¨afix–Code c : X −→ A∗, f¨ minimal ist, d.h. f¨ ur den X l(c(x)) x∈X
minimal ist; dabei ist l(w) = n gesetzt, falls w ∈ An ist. Das Problem einer Wahl eines Pr¨afix–Codes zur Quellencodierung l¨aßt sich nun so fassen: Gegeben sei eine Menge X = {x1, . . . , xn} und eine H¨aufigkeitsverteilung {p(x1 ), . . . , p(xn )}. Man konstruiere einen Pr¨afix–Code c : X −→ A∗ , f¨ ur den die Gr¨oße L(c) :=
n X
p(xi )l(c(xi))
i=1
(durchschnittliche/mittlere L¨ange der Codew¨orter) minimal ist. Die Annahme u ur die Praxis schon wesentlich. Denn hat ¨ber die Wahrscheinlichkeiten ist f¨ die Menge X eine zus¨atzliche Struktur, wie dies etwa bei unserem deutschen Alphabet X = {A, B, . . . , Z}2 der Fall ist, dann kommen nicht alle Elemente x ∈ X in Nachrichten gleich h¨aufig vor. Wir kommen darauf zur¨ uck. Ein ber¨ uhmte Satz von C. Shannon (1916 – ) besagt, daß die mittlere L¨ange der Codew¨orter des optimalen Pr¨afix–Codes Γopt bis auf einen Fehler kleiner als 1 bestimmt werden kann. Man hat n¨amlich −
n X
p(xi ) log 2 p(xi ) ≤ L(Γopt ) ≤ 1 −
i=1
n X
p(xi ) log2 p(xi ) .
i=1
Den optimalen Pr¨afix–Code kann man mit dem Algorithmus von Huffmann (1952) berechnen. 2
Umlaute werden als AE, OE, UE, β als SS geschrieben.
Baumeister: Mathematik IV / Stand: April 1998 Die Zahl −
n X
431
p(xi ) log2 (p(xi ))
i=1
heißt Entropie. Sie ist ein Maß (im Sinne der Informationstheorie) f¨ ur die durchschnittliche Anzahl rechts/links–Entscheidungen in dem Baum, mit dem wir den optimalen Pr¨afix– Code darstellen k¨onnen, um ein Codewort zu finden: ( ) .
&
0 .
1 &
00
& 01
.
11 ···
000 Dabei sind die Codew¨orter unterstrichen.
An den Enden des Baumes (Bl¨atter) stehen die die Codew¨orter und die Pr¨afix–Eigenschaft besagt, daß kein Codewort vor einem anderen Codewort im Baum erscheint. Etwa haben wir oben die Codierungen c1 : a 7−→ 0 , b 7−→ 1 , c 7−→ 00 und c2 : a 7−→ 00 , b 7−→ 1 , c 7−→ 01 kennengelernt. Die zugeh¨origen B¨aume sind: ( ) . 0
( ) &
. 1
&
0
.
.
00
00
1 & 01
Entropie ist die zentrale Idee der Shanonnschen Informationstheorie. Shannon ging 1948 von folgendem Gedankenexperiment aus: Vor einem Versuch V herrscht Unsicherheit oder Unbestimmtheit u ¨ber seinen Ausgang. Wir m¨ochten eine Zahl E(V ), die Entropie von V , definieren, die ein Maß f¨ ur die Unbestimmtheit (und damit auch f¨ ur den Informationsgehalt des Ergebnisses) des Versuchs sein soll: Wenn der Ausgang von V vorbestimmt ist, der Versuch also determiniert ist, soll E(V ) = 0 sein, je ungewisser der Ausgang ist, desto gr¨oßer soll E(V ) sein. Eine nat¨ urliche Annahme f¨ ur die Entropie E(V ) ist, daß sie nur von der Wahrscheinlichkeit p eines Ausgangs von V abh¨angig sein soll. Theoretische (und ¨ axiomatische) Uberlegungen f¨ uhrten Shannon zur grundlegenden Definition E(V ) :=
n X
pi log2 pi ,
i=1
wenn n Ausg¨ange mit den Wahrscheinlichkeiten p1 , . . . , pn m¨oglich sind.
Baumeister: Mathematik IV / Stand: April 1998
15.2
432
Entdecken und Korrigieren von Fehlern
In diesem Abschnitt verwenden wir ausschließlich das bin¨are Alphabet, d.h. A := {0, 1}. Sendet man ein Wort w ∈ A∗ u ¨ber den Kanal, so wird in der Regel ein Buchstabe“ 0 ” als 0 und ein Buchstabe“ 1 als 1 empfangen. Manchmal wird jedoch auf Grund von ” St¨orungen 0 als 1 und/oder 1 als 0 empfangen. Es ist nach Methoden gefragt, die diese Fehler entdecken und eventuell korrigieren. Meist verwendet man folgende Methode: Die Nachricht (etwa in Quellencodierung) wird in gleichlange Bl¨ocke der L¨ange k zusammengefaßt. Nach jedem Block werden r Kontrollsymbole angeh¨angt, welche in gewisser Weise aus den k Informationssymbolen gewonnen werden. Der gesamte Block der L¨ange k + r ist ein Kanal–Codewort. Die Aufgabe besteht nun darin, die Kontrollsymbole so ¨ zu w¨ahlen, daß Ubermittlungsfehler entdeckt und eventuell korrigiert werden k¨onnen. Beispiel 15.4 Wir w¨ahlen zur Blockl¨ange k die L¨ange r des Kontrollblocks als 2k und wiederholen im Codewort die Informationssymbole zweimal. Wir nennen diese Kanalcodierung die Wiederholungscodierung. Beispiel: Nachricht : 1011 Kanal-Codewort : 101110111011 Wird statt des Kanal–Codewortes 101110111011 das Wort 100110111011 empfangen, so ist klar, daß das 3.Informationssymbol fehlerhaft ist, allerdings nur dann, wenn wir wis¨ sen, daß bei der Ubertragung h¨ochstens ein Fehler passiert ist. Dieser Wiederholungscode entdeckt und korrigiert also einen Fehler. Er ist aber nicht sehr effizient, denn die Infork mationsrate betr¨agt wegen k+2k = 13 nur 33%. 2 Beispiel 15.5 Wir w¨ahlen zur Blockl¨ange k die L¨ange r des Kontrollblocks als 1. Das Kontrollsymbol w¨ahlen wir, indem wir die Summe der Informationssymbole mod 2 anh¨angen. Beispiel: Nachricht : 1011 Kanal-Codewort : 10111 Damit enthalten Kanal–Codeworte stets eine gerade Anzahl von Einsen, weshalb der Code Parit¨ atscode genannt wird. Der Parit¨atscode kann im allgemeinen einen Fehler entdecken, aber nicht korrigieren. 2 Beispiel 15.6 Beim ISBN–Code erkennt man an der Pr¨ ufziffer, ob an einer der 10 Stellen ein Fehler u ¨ bermittelt wurde, eine Fehlerkorrektur ist damit nicht m¨oglich. In der Praxis u ¨bermittelt man den ISBN–Code erneut. 2 Das Hauptproblem der Kanalcodierung besteht nun darin: Man konstruiere einen Code mit m¨oglichst hoher Informationsrate und m¨oglichst geringer Wahrscheinlichkeit, daß das empfangene Wort falsch decodiert wird.
Baumeister: Mathematik IV / Stand: April 1998
433
Die beiden angesprochenen Ziele sind ersichtlich gegenl¨aufig. Theoretisch ist das Problem durch einen weiteren Satz von Shannon gel¨ost: Es gibt einen Code, der die beiden Ziele in einem vorgegebenen Sinne erreicht. Die beiden Ziele wollen wir nun genauer untersuchen. Sei c eine Codierung mit Code Γc . Sei y eine Nachricht, die als Codewort v u ¨ber den Kanal gesendet wird, als Wort w beim Empf¨anger ankommt. Der Empf¨anger decodiert als Codewort v 0 und interpretiert es als Nachricht y 0 . Als erstes Problem besprechen wir das Problem, welches Codewort v 0 der Dekodierer w¨ahlen soll, wenn er w ∈ An erh¨alt. Es ist naheliegend nach der Regel vorzugehen, daß wenige“ Fehler wahrscheinlicher sind als viele“ und zu w ∈ An ein Codewort v 0 ∈ Γc ” ” zu w¨ahlen, welches sich von w an m¨oglichst wenigen Stellen unterscheidet. Hat er mehrere Codew¨orter zur Auswahl, so w¨ahlt er eines davon. Insbesondere setzt er im Fall w ∈ Γc naheliegenderweise v 0 := w. Diese Betrachtungsweise f¨ uhrt nun zu einem Distanzbegriff f¨ ur W¨orter, der sogenannten Hamming–Distanz. Wir setzen dH (w, w0 ) := #{i|wi 6= wi0 } f¨ ur w = (w1, . . . , wn ), w0 = (w10 , . . . , wn0 ) ∈ An . Es lassen sich sehr einfach die Eigenschaften einer Metrik verifizieren: 1. dH (w, w0 ) = 0 genau dann, wenn w = w0 . 2. dH (w, w0 ) = d(w0 , w) 3. dH (w, w0 ) ≤ dH (w, w00 ) + dH (w00, w) Die Zahl d(w, w0 ) heißt Hamming–Abstand der W¨orter w, w0 ∈ An. Die 1. Eigenschaft heißt Definitheit, die 2. Eigenschaft heißt Symmetrie und die 3. Eigenschaft heißt Dreiecksungleichung. Mit dem Abstandsbegriff sind auch “Kugeln“ erkl¨art: Br (w) := {w0 ∈ An |dH (w, w0 ) ≤ r} (Kugel um w mit Radius r) Wir analysieren die Frage der Fehlerentdeckung und Fehlerkorrektur unter der Annahme, ¨ daß bei der Ubermittlung im Kanal h¨ochstens t Fehler passieren. Also: Annahme: w ∈ An unterscheidet sich von v an h¨ochstens t Stellen, d.h., daß es zu dem empfangenen Wort w ein Codewort v gibt mit v ∈ Bt (w). Dann haben wir das Ergebnis: • Ein Code c : X −→ An entdeckt t Fehler, falls dH (w, w0 ) ≥ t + 1 f¨ ur alle w, w0 ∈ An , w 6= w0 , gilt. • Ein Code c : X −→ An korrigiert t Fehler, falls dH (w, w0 ) ≥ 2t + 1 f¨ ur alle w, w0 ∈ An , w 6= w0 , gilt.
Baumeister: Mathematik IV / Stand: April 1998
434
Wie erh¨alt man etwa das Ergebnis f¨ ur die Fehlerentdeckung ? Wird v in den Kanal eingegeben und das Wort w ∈ An mit w ∈ Bt(v), w 6= v, erhalten, so entdeckt der Dekodierer, daß w nicht das eingegebene Wort ist, wenn w nicht selbst Codewort ist. Es darf in Bt (v) also kein von v verschiedenes Codewort liegen, d.h. es muß Γc ∩ Bt(v) = {v} gelten f¨ ur alle v ∈ Γc . Dies ist gleichbedeutend mit dH (v, v˜) ≥ t + 1 f¨ ur alle v, v˜ ∈ Γc , v 6= v˜. Bei unseren eingangs angef¨ uhrten Beispielen haben wir: Wiederholungs–Code: dH (v, v˜) ≥ 3, v 6= v˜. Also entdeckt dieser Code zwei Fehler und korrigiert einen Fehler. Parit¨ats–Code: dH (v, v˜) ≥ 2, v 6= v˜. Also entdeckt dieser Code einen Fehler, kann aber keinen korrigieren. Es ist nun klar, daß Codierungen c : X 7−→ An gesucht sind, die die beiden widerstreitenden Ziele • dH (Γc ) := inf{dH (v, v˜)|v, v˜ ∈ Γc , v 6= v˜} ist m¨oglichst groß • #Γc ist m¨oglichst groß erreichen. Hieran schließen sich sch¨one kombinatorische Probleme an, u.a. das so reizvolle und mathematisch anspruchvolle Problem der Kugelpackungen. Wir gehen nicht weiter darauf ein, nur soviel sei angedeutet: Ein t−korrigierender Code ist besonders perfekt, wenn die Kugeln Bt (w), w ∈ An, die Menge An so u ¨ berdecken, daß jedes Codewort in genau einer Kugel liegt.
15.3
Lineare Codes
In diesem Abschnitt wollen wir Codes konstruieren und auf ihre Korrekturf¨ahigkeit untersuchen. Dabei werden wir nur lineare“ Codes betrachten. Diese lassen sich besonders ” gut untersuchen und anwenden, da daf¨ ur Methoden der linearen Algebra herangezogen werden k¨onnen. Die Bin¨arsymbole 0, 1 kann man als Elemente des Restklassenk¨orpers IF 2 := ZZ 2 auffassen. Dort haben wir eine Addition und Multiplikation, die sich aus den Tafeln + 0 1
·
0
0 1
0 0 0
1
1 0
1 0 1
0 1
Baumeister: Mathematik IV / Stand: April 1998
435
ergibt. Die bin¨aren W¨orter w ∈ An mit dem Alphabet A := {0, 1} := ZZ 2 kann man daher addieren und skalar multiplizieren gem¨aß: ⊕ : An × An 3 ((x1 , . . . , xn ), (y1 , . . . , yn)) 7−→ (x1 + y1 , . . . , xn + yn) ∈ An : A × An 3 (a, (x1, . . . , xn)) 7−→ (ax1, . . . , axn ) ∈ An Die W¨orter An , n ∈ IN , bilden daher einen Vektorraum u ¨ber dem Skalark¨orper IK := ZZ 2 . Seine Dimension ist n, da die W¨orter 100 . . . 0, 010 . . . 0, . . . , 0 . . . 01 aufgefaßt als Vektoren (1, 0, . . . , 0), (0, 1, 0, . . . , 0), . . . , (0, . . . , 0, 1) eine Basis bilden. Codes der L¨ange n sind Teilmengen von An (siehe oben). Wir zeichnen nun spezielle Teilmengen als Codes aus, n¨amlich diejenigen, die abgeschlossen sind bez¨ uglich der Addition und der skalaren Multiplikation. Solche Teilmengen sind bekanntermaßen lineare Unterr¨aume von An . Also: Definition 15.7 Ein linearer Code (der L¨ange n) ¨uber dem Alphabet A := ZZ 2 ist ein linearer Unterraum Γ von An. Die Dimension k dieses Unterraums heißt die Dimension des Codes. Wir sprechen also von einem (n, k)− Code, wenn ein linearer Code der L¨ange n und der Dimension k vorliegt. 2 In der obigen Definition haben wir die Codierung bei der Notation von Γ unterdr¨ uckt. Es sollte sofort klar sein, daß man lineare Codes u ¨ ber beliebigen endlichen K¨orpern betrachten kann; es ist lediglich das Alphabet A := ZZ 2 gegen einen beliebigen endlichen K¨orper auszutauschen. Bei der Fehlerkorrektur auf Compact Discs wird ein Code u ¨ ber eir nem K¨orper IK mit p , p Primzahl, – solche K¨orper gibt es, wenngleich ZZ pr nicht daf¨ ur in Frage kommt, wenn r > 1 ist, – verwendet. Etwa konstruiert man damit Codes der L¨ange 2056, die bis zu 33 aufeinanderfolgende Fehler (etwa entstanden durch einen Blitzschlag) korrigieren k¨onnen. In linearen Codes kann man die Minimaldistanz dH (Γ) etwas kompakter ausdr¨ ucken. Hat 1 2 man zwei Codew¨orter w , w ∈ Γ, so gilt dH (w1 , w2 ) = dH (w1 − w2 , θ) und daher dH (Γ) = min{dH (w1 , w2 )|w1 , w2 ∈ Γ, w1 6= w2 } = min{dH (w, θ)|w ∈ Γ, w 6= θ} Etwa bildet der Code 000, 011, 101, 100
Baumeister: Mathematik IV / Stand: April 1998
436
einen {3, 2}–Code. Als Basiselmente f¨ ur diesen Code k¨onnen die W¨orter 011, 101 dienen, denn 110 = 011 + 101. Sein minimaler Abstand ist offenbar 2. Er ist besonders systematisch, da er in den ersten beiden Parametern alle W¨orter aus A2 enth¨alt (siehe unten.) Der ISBN–Code ist ein (10, 9)− Code, allerdings u ufe ¨ ber dem K¨orper ZZ 11 . Man u ¨ berpr¨ dies ! Sei nun ein (n, k)−Code Γ vorgelegt und seien w1 , . . . , wk Vektoren einer Basis von Γ. Diese bin¨aren Tupel kann man als Zeilenvektoren einer k × n Matrix schreiben. Eine so zustandegekommene Matrix G nennen wir eine Generatormatrix des Codes. (Sie ist genausowenig eindeutig wie eine Basis !) Jedes Codewort kann eindeutig als Linearkombination der Basisw¨orter geschrieben werden. Dies bedeutet, daß jedes Codewort w ∈ Γ durch w = aG wobei a = (a1, . . . , an ) die Koeffizienten in der Linearkombination von w sind. (Es ist Konvention in der Codierungstheorie w = aG zu schreiben und nicht w = G0 a, wobei in der Matrix G0 die Basisw¨orter die Spalten sind. Aus dieser Darstellungsweise lesen wir sofort ab, daß ein (n, k)–Code genau 2k verschiedene Codew¨orter besitzt. Beachte auch, daß zur Speicherung eines (n, k)–Codes nur die k Basis–Codew¨orter gespeichert werden m¨ ussen, alle 2k Codew¨orter lassen sich daraus einfach ableiten. Etwa ist ! 0 1 1 G := 1 0 1 eine Generatormatrix des Codes 001, 011, 101, 110 Ein (n, n − 1)−Code mit der Generatormatrix
1
0 1 .. ... G := . 0 1 1 entspricht einem Code, in dem die n−te Position ein Parit¨atsbit ist. Ein (n, 1)−Code mit der Generatormatrix G⊥ := (1, . . . , 1) ist nichts anderes als der Wiederholungscode. Die Bezeichnung G⊥ ist nicht zuf¨allig gew¨ahlt, denn die zugeh¨origen Codes sind in einem gewissen Sinn orthogonal“ . Dies ” wollen wir nun aufkl¨aren.
Baumeister: Mathematik IV / Stand: April 1998
437
Definition 15.8 Ein (n, k)–Code Γ heißt systematisch, wenn es zu jedem u ∈ Ak genau ein Codewort w ∈ Γ gibt mit w = (u, v). Man nennt dann u die Nachricht, die als Codewort w codiert wird. 2 Oben haben wir schon systematische Codes gesehen. Es ist nun sehr wichtig, einzusehen, daß zu einem systematischen (n, k)−Code stets eine kanonische Generatormatrix, d.h. eine Generatormatrix G der Form G = (E|R) mit der Einheitsmatrix E ∈ Ak,k existiert. Dies folgt aus der Tatsache, daß es zu jeder Nachricht e1 := (1, 0, . . . , 0), . . . , ek := (0, . . . , 0, 1) ∈ Ak Codew¨orter w1 , . . . , wk ∈ Γ gibt. Also k¨onnen wir als G die Matrix mit den Zeilen (e1|w1 ), . . . , (ek |wk ) w¨ahlen. Haben wir daher einen systematischen (n, k)− Code und dazu eine kanonische Generatormatrix G, so ist klar, wie eine Nachricht u ∈ Ak durch ein Codewort w ∈ Γ codiert wird: w = uG Eine wichtige Frage ist, wie man erkennt, ob ein Wort w ∈ An ein Codewort ist. Dazu bedienen wir uns einer Pr¨ ufmatrix. Definition 15.9 Eine Matrix H ∈ Al,n heißt Kontrollmatrix oder Pr¨ ufmatrix zum Code Γ, falls n f¨ur jedes w ∈ A ¨aquivalent ist: (a) w ∈ Γ . (b) Hw = θ .
2 Mit etwas linearer Algebra erh¨alt man folgende Aussage: Ist G = (E|R) eine kanonische Generatormatrix des (n, k)− Codes Γ, so ist H := (Rt |E) eine Kontrollmatrix von Γ, genannt kanonische Kontrollmatrix. Eine kanonische Generatormatrix zum (3, 2)–Code 000, 011, 101, 110
Baumeister: Mathematik IV / Stand: April 1998
438
ist G :=
1 0 0 1
1 1
!
.
Also ist H := (1 1|1) eine Kontrollmatrix. Ein Wort w = abc geh¨ort also zum Code genau dann, wenn a+b+c=0 gilt, d.h. die Anzahl der Einsen in w gerade ist. Mit der Kontrollmatrix kann man also u ufen, ob ein Wort ein Codewort ist. Wir ¨berpr¨ kommen nun zur Frage, wie zu verfahren ist bei der Decodierung. Die naheliegendste Methode ist nat¨ urlich, ein empfangenes Wort mit jedem Codewort zu vergleichen. F¨ ur die hier vorliegenden linearen Codes gibt es eine bessere M¨oglicheit. Ist also Γ ein linearer (n, k)− Code, dann wird durch w ∼ w0 : ⇐⇒ w − w0 ∈ Γ ¨ eine Aquivalenzrelation erkl¨art. Die Klassen schreiben wir als w + Γ, d.h. w + Γ := {w + v|v ∈ Γ} Da die Dimension von Γ den Wert k hat, gibt es s := 2n−k Klassen wi + Γ mit An = ∪si=1 (wi + Γ) Liegt also ein gesendetes“ Wort v ∈ An vor, so ist zu entscheiden, als welches Codewort ” es interpretiert werden soll, und zwar auch dann, wenn es fehlerhaft u ¨ bertragen wurde. Ist w ∈ Γ das gesendete Wort, v ∈ An das empfangene Wort und e ∈ An der bei der ¨ Ubertragung aufgetretene Fehler, so gilt also v = w + e, v = wi + v 0 mit v 0 ∈ Γ, i ∈ {1, . . . , s}, und es folgt
e = wi + (w − v 0) ∈ wi + Γ.
Dies f¨ uhrt uns zu zwei Codierregeln. 1.Regel Decodiere v ∈ wi + Γ als das Codewort w := wi + v 2. Regel Berechne das sogenannte Syndrom σ := Hv und decodiere v als w := wi + σ, falls σ ∈ wi + Γ ist.
Baumeister: Mathematik IV / Stand: April 1998
15.4
439
Kryptographie
Im Gegensatz zu den vorhergehenden Ausf¨ uhrungen u ¨ber Codierung, die der technischen Effizienz dienen soll, ist nun das Verbergen von Nachrichten beabsichtigt. Dazu wird der vorliegende Klartext, der auch als Quellencode vorliegen mag, u ¨blicherweise in sogenannten Nachrichteneinheiten (Buchstaben, Buchstabengruppen, Blocks, Zifferngruppen) codiert. Solche Codiersysteme bezeichnen wir nun entsprechend ihrer Zielsetzung Kryptosysteme.3 ¨ Durch eine Ubermittlung von Nachrichteneinheiten durch einen Sender A an einen Empf¨anger B, codiert durch ein Kryptosystem, entsteht ein Geheimtext. Es ist das Ziel, das Kryptosystem so zu entwerfen und zwischen A und B abzusprechen, daß zwar B den Text decodieren kann, ein Unbefugter jedoch nicht. Gelingt dies einem Unbefugten, so spricht man vom Brechen des Kryptosystems. Wir unterscheiden im folgenden nun nicht mehr Nachricht und Nachrichteneinheit. Die prinzipielle L¨osung sieht so aus: A codiert (verschl¨ usselt) dazu die Nachricht mittels einer Schl¨ usselabbildung K, die auf der Menge M der Nachrichten injektiv operiert, also: K : M −→ M . Dann sendet A an B die verschl¨ usselte Nachricht K(m) (anstelle von m). Der Empf¨anger B decodiert (entschl¨ usselt) mittels einer Schl¨ usselabbildung D, die ebenso auf der Menge der Nachrichten operiert, also: D : M −→ M . Die Schl¨ ussel sollten so zusammenpassen, daß D(K(m)) = m gilt, und zwar f¨ ur alle m¨oglichen Nachrichten m. Dies bedeutet: D = K −1 In der Behandlung der Schl¨ ussel K, D – privat oder ¨offentlich – unterscheiden sich die Kryptosysteme. Sie sollten sich aber nicht im Grundsatz der Kryptographie unterscheiden, der da lautet: Die Sicherheit eines Kryptosystems darf nicht von der Geheimhaltung des “Algorithmus“, d.h. vom Verfahren zur Ermittlung von K(m) oder D(m) abh¨angen. Die Sicherheit gr¨ undet sich nur auf die Geheimhaltung des Schl¨ ussels. Private key – Kryptosysteme, sie werden auch klassische Kryptosysteme genannt, zeichnen sich dadurch aus, daß A, B geheim die Schl¨ ussel K, D austauschen. Hierin liegt 3
κρvπτ o´ς (griech.) = geheim
Baumeister: Mathematik IV / Stand: April 1998
440
ihre Schw¨ache: Wenn die Schl¨ ussel ¨offentlich werden, k¨onnen die Nachrichten, die A und B austauschen, mitgelesen werden. Im allgemeinen ist es so, daß nur K auszutauschen ist, da sich D aus K einfach ableiten l¨aßt; D ist ja die Inverse von K. Beide Beteiligte k¨onnen codieren und decodieren; es liegt also eine symmetrische Situation vor. Man spricht daher auch von symmetrischen Kryptosystemen. Public key – Kryptosysteme zeichnen sich dadurch aus, daß A die Nachricht, die er an B senden will, mit dem ¨offentlichen Schl¨ ussel von B codiert und so an B sendet. B entschl¨ usselt diese Nachricht mit seinem geheimen Schl¨ ussel D . Es liegt also eine asymmetrische Situation vor: A kann nur codieren, aber nicht decodieren. Man spricht daher auch von asymmetrischen Kryptosystemen. Da der Schl¨ ussel K ¨offentlich ist, kann man sich doch wohl auch die Inverse D von K verschaffen und Geheimhaltung w¨are nicht m¨oglich. Hier setzen die algebraischen Methoden zur Erzeugung von Schl¨ usseln K an, die in der Praxis die Ermittlung von D (nahezu) unm¨oglich machen. Bevor wir die public key – Verfahren besprechen, die wir eigentlich im Auge haben, einige generelle und historische Anmerkungen zu den klassischen Kryptosystemen. Eines der ¨altesten symmetrischen Kryptosysteme ist das Verfahren von G. Julius C¨asar (100 – 44 v. Chr.). Er operiert mit dem lateinischen Alphabet M := {A, B, . . . , Y, Z} mit 26 Buchstaben, und nimmt als Schl¨ usselabbildung K die Verschiebung um drei Buchstaben: Klartext A B C ... I J ... W X Y Z Geheimtext D E F . . . M N . . . Z A B C Der Klartext AFFE wird also als DIIH u ¨bermittelt. Wenn wir die Menge M mit den Zahlen 0, . . . , 25 identifizieren, k¨onnen wir die Schl¨ usselabbildung K so aufschreiben: K : {0, . . . , 25} 3 x 7−→ x + 3 mod 26 ∈ {0, . . . , 25} Damit gelingt die Algebraisierung dieser Codierung; wir kommen darauf zur¨ uck. Kann der C¨asar–Code gebrochen werden? Ja, er kann, wenn der zur Verf¨ ugung stehende Geheimtext nicht allzu kurz ist, mit der Statistikmethode gebrochen werden. Denn ein Geheimtext spiegelt die H¨aufigkeiten der Buchstaben in einem Text einer nat¨ urlichen Sprache wieder. Dazu reicht es f¨ ur Texte, die mit dem deutschen Alphabet verfaßt sind, meist aus, folgende Tabelle zu kennen: E : H¨aufigkeit ca. 17, 3% N : H¨aufigkeit ca. 10, 4% R : H¨aufigkeit ca. 8, 1% X : H¨aufigkeit ca. 0, 02%
Baumeister: Mathematik IV / Stand: April 1998
441
Diese unterschiedlichen H¨aufigkeiten bietet nun Angriffspunkte:4 Suche im Geheimtext nach dem h¨aufigsten Buchstaben: Er wird wohl dem Buchstaben E entsprechen; suche im Geheimtext nach dem zweith¨aufigsten Buchstaben: er wird wohl dem Buchstaben N entsprechen; suche nach . . . . Schließe eventuell verbliebene L¨ ucken aus dem Sinnzusammenhang. Selbst, wenn der zur Verf¨ ugung stehende Geheimtext kurz ist, l¨aßt sich der C¨asar–Code im allgemeinen dadurch brechen, daß man alle 26 F¨alle durchprobiert: Hat die Nachricht einen Sinn, dann findet man sehr schnell einen Ansatzpunkt. Eine Verallgemeinerung ist, die Schl¨ usselabbildung K, erkl¨art auf der Menge {0, . . . , 25}, folgendermaßen zu definieren: K : {0, . . . , 25} 3 x 7−→ ax + b mod 25 ∈ {0, . . . , 25} (a, b ∈ ZZ ) Diese Schar von Schl¨ usselabbildungen – die Parametre a, b sind die Scharparameter – nennt man affine Schl¨ ussel. W¨ahlt man a = 3, b = 2, erh¨alt man folgende Tabelle: Klartext A B C ... I J ... W X Y Z Geheimtext F I K . . . A D . . . M W Z C Allerdings f¨ uhrt dieser Vorschlag nicht immer zu einer brauchbaren Verschl¨ usselung. Etwa ergibt a = 2, b = 2 folgende Tabelle: Klartext A B C ... I J ... W X Y Z Geheimtext C E G . . . S U . . . U W Y Z Man stellt schnell fest, daß man f¨ ur a nur Zahlen in {0, . . . , 25} nehmen darf, die sogenannte Einheiten in ZZ 26 sind, d.h. solche Zahlen, f¨ ur die es a0 ∈ ZZ gibt mit aa0 ≡ 1 mod 26 . Dies sind gerade die zu 26 teilerfremden Zahlen 1, 3, 5, 7, 11, 15, 17, 19, 21, 23, 25 . Dies zeigt uns, daß es insgesamt 312 = 12 · 26 solche Schl¨ usselabbildungen gibt. Wer hindert uns die Schl¨ usselabbildung mit einem fairen “W¨ urfel“ mit 26 Seiten auszuw¨ urfeln? Dies bedeutete, eine der 26! Permutation der 26 Buchstaben willk¨ urlich herauszugreifen. Als Schl¨ ussel m¨ ußten wir uns also die Permutation merken, eine Aufgabe, die ohne Merkzettel – wer verstekt ihn gut genug! – nicht zu leisten ist. Einen Kompromiß stellt folgender Vorschlag dar, mit Merkwort und einem Merkbuchstaben zu arbeiten: W¨ahle ein Merkwort und einen Merkbuchstaben, schreibe das Merkwort ohne Buchstabenwiederholung beginnend beim Merkbuchstaben unter das Alphabet und erg¨anze anschließend alphabetisch die noch fehlenden Buchstaben: Etwa mit dem Merkwort AFFENHAUS und dem Merkbuchstaben D: Klartext A B C D E F G H I J K L M ... Y Z Geheimtext X Y Z A F E N H U S B C D . . . V W 4
Dieser Sachverhalt wird in der Erz¨ ahlung “Der Goldk¨afer“ von E.A. Poe sehr illustrativ beschrieben: Ein Geheimtext wird entschl¨ usselt durch Analyse der Buchstabenh¨aufigkeit (im Englischen).
Baumeister: Mathematik IV / Stand: April 1998
442
Der Klartext AFFE wird zum Geheimtext XEEF. Verzichtet man darauf, daß das Merkwort einen Sinn ergibt, kann man so wieder alle Permutationen erzielen. Die Schw¨ache der obigen Vorgehensweisen hat immer damit zu tun, daß wir mit einem Alphabet einer nat¨ urlichen Sprache arbeiten. Die H¨aufigkeitsindizien k¨onnen zwar verschleiert werden, indem man den h¨aufigen Buchstaben mehrere Kryptobuchstaben zuordnet, aber prinzipiell beseitigen kann man sie nicht. Von B. Vigen`ere (1523 – 1596) stammt die Idee, die C¨asar–Verschiebung im Wechsel zu benutzen. Der Wechsel der C¨asar–Verschiebung wird durch ein Merkwort gesteuert, das nicht l¨anger als der Klartext sein soll. Wir schreiben das Merkwort Buchstabe f¨ ur Buchstabe u ¨ ber den Klartext, und zwar wiederholt solange, bis u ¨ber jedem Buchstaben des Klartextes ein Buchstabe des Merkwortes zu stehen kommt. Bei der Verschl¨ usselung eines Klartextbuchstabens bestimmt nun der dar¨ uberstehende Buchstabe des Merkwortes die C¨asar–Verschiebung: Das verschobene Alphabet beginnt mit dem betreffenden Buchstaben des Merkwortes. Wir demonstrieren das Vorgehen mit dem Merkwort RODGAU und dem Klartext NIEDERRODEN. Merkwort R O D G A U R O D G A Klartext N I E D E R R O D E N Geheimtext E W H J E L I C G K N (Der 1. Geheimtextbuchstabe E kommt so zustande: Betrachte die Verschiebung des Alphabets, die mit R begint, ermittle dort, wie N verschl¨ usselt wird; man sieht mit E.) Der Angriffspunkt, den Schl¨ ussel zu brechen, ist folgender: Gibt es im Klartext Textst¨ ucke mit gleicher Buchstabenfolge mit einem Abstand, der ein Vielfaches der L¨ange des Merkwortes ist, so entsprechen diesen Textst¨ ucken im Geheimtext Textst¨ ucke mit gleicher Buchstabenfolge. Die Idee, diese Beobachtung auszuschlachten, geht auf C. Babbage (1792 – 1871) und F. W. Kasiski (1805 – 1181) zur¨ uck. Wenn sich im Geheimtext zwei Textst¨ ucke mit gleicher Buchstabenfolge finden, so ist ihr Abstand vermutlich ein Vielfaches der Merkwortl¨ange. Bei Textst¨ ucken, die in einer Buchstabenfolge mit mehr als zwei Buchstaben u bereinstimmen, kann man hier schon ziemlich sicher sein. Was ist das Ergebnis? Wir ¨ k¨onnen zumindest die Merkwortl¨ange herausfinden. Hat man die Merkwortl¨ange l gefunden, weiß man daß die Klartextstaben 1, l +1, 2l +1, . . . mit derselben C¨asar–Verschiebung zustandegekommen sind. Nun schl¨agt die statistische Methode, einen Code zu brechen, wieder zu. Nun gehen wir mehr algebraisch an die Vorgehensweisen heran. Dazu greifen wir auf ¨ das zahlenm¨aßige Aquivalent {0, . . . , 26} des Alphabets {A,. . . ,Z} zur¨ uck. Zur C¨asar– Verschiebung geh¨ort eine Schl¨ usselabbildung K : ZZ 26 3 x 7−→ ax + b mod 26 ∈ ZZ 26 , oder in Klassenschreibweise K : ZZ 26 3 x 7−→ ax + b ∈ ZZ 26 .
Baumeister: Mathematik IV / Stand: April 1998
443
Eine solche Abbildung enth¨alt zwei Parameter a, b . b kann beliebig in {0, . . . , 25} gew¨ahlt werden, a muß, um die Injektivit¨at der Schl¨ usselabbildung zu sichern, eine Einheit sein, d.h. es muß die Gleichung aa0 ≡ 1 mod 26 in ZZ 26 l¨osbar sein; a−1 := a0 ist dann das Inverse von a . Dann kann man auch die Umkehrabbildung D von K definieren: D : ZZ 26 3 x 7−→ a0x + b0 mod 26 ∈ ZZ 26 ; dabei ist a0 := a−1, b0 := −a−1b . Wir sehen, daß f¨ ur Verschl¨ usselung und Entschl¨ usselung derselbe Algorithmus n¨otig ist. Die statistische Codeanalyse dr¨ uckt sich nun so aus: Es sind etwa von u, v ∈ ZZ 26 die Urbilder x, y von K (x k¨onnte E, y k¨onnte N entsprechen). Den Code zu brechen reicht es nun aus, aus den Kongruenzen a0 u + b0 ≡ x mod 26 , a0 v + b0 ≡ y mod 26 die Parameter a0, b0 zu berechnen. Im Rahmen der Zahlentheorie haben wir dazu Hilfsmittel kennengelernt. Hier bietet sich sofort an, die Kongruenzen zu subtrahieren: a0(u − v) ≡ x − y mod 26 . Daraus erhalten wir a0 sofort, falls u − v eine Einheit ist: a0 ≡ (u − v)−1 (x − y) mod 26 . Einsetzen von a0 ergibt b0 und schließlich insgesamt a, b . Damit ist D, K bekannt und der Code gebrochen. Wir skizzieren nun kurz die algebraische Seite, wenn wir als Nachrichteneinheiten im Klartext 2–Buchstaben–Blocks ansehen. (Wir sehen von Tatsache ab, daß es nun eventuell geraten ist, den Zwischenraum t zum Alphabet hinzuzunehmen; wir h¨atten dann ZZ 26 durch ZZ 27 zu ersetzen.) Es ist klar, daß es 26 · 26 Paare gibt. Um Anschluß an das oben schon Diskutierte zu finden, wollen wir diese Paare als Elemente von ZZ 26·26 auffassen. Dies gelingt durch die Abbildung R : ZZ 26 × ZZ 26 3 (x, y) 7−→ 26x + y ∈ ZZ 26·26 . Damit k¨onnen wir die Frage der Verschl¨ usselung auf ZZ 26·26 betrachten. Es gibt daher in Sachen affine Verschl¨ usselungsabbildungen nichts Neues zu erarbeiten. Allerdings ben¨otigen wir zus¨atzliche Informationen, wenn wir einen affinen Code mit der Statistikmethode brechen wollen, n¨amlich eine Statistik u ¨ ber die H¨aufigkeit des Auftretens von Paaren. Hier ist eine Tabelle dazu: EN : H¨aufigkeit ca. 3, 8% ER : H¨aufigkeit ca. 3, 7% CH : H¨aufigkeit ca. 2, 7% DE : H¨aufigkeit ca. 2, 0%
Baumeister: Mathematik IV / Stand: April 1998
444
Beispiel 15.10 Der Klartext laute MATHE. Um Paare bilden zu k¨onnen, br¨auchten wir ein gerade Anzahl von Buchstaben. Dies erzwingen wir durch Anh¨angen eines Buchstabens, der den Sinngehalt der Nachricht nicht wesentlich st¨oren sollte; wir ¨andern hier ab zu MATHEQ. F¨ ur eine affine Verschl¨ usselung w¨ahlen wir a = 3, b = 3 . ∧
MA : 3 · (26 · 12 + 0) + 3 = KD ∧ TH : 3 · (26 · 19 + 7) + 3 = FY ∧ MA : 3 · (26 · 9 + 0) + 3 = NZ Der Geheimtext lautet also KDFYNZ.
2
Wir k¨onnen mit Paaren auch anders umgehen: Wir lassen affine Abbildungen direkt auf den Paaren wirken. Dies erreichen wir, indem wir Paare als Vektoren in ZZ 26 × ZZ 26 auffasen und affine Abbildungen auf solchen Vektoren wirken lassen. Ohne genauer auf Hintergr¨ unde einzugehen, schreiben wir die Schl¨ usselabbildung so auf: K : ZZ 26 × ZZ 26 3 z = (x, y) 7−→ Az + B ∈ ZZ 26 × ZZ 26 Dabei ist A eine Matrix mit Eintr¨agen in ZZ 26 und B ein Vektor mit Eintr¨agen in ZZ 26 ; die Gr¨oße Az entsteht als Produkt von A mit z in der u ¨blichen Weise. Beispiel 15.11 Wir w¨ahlen:
!
2 3 A := , B := 7 8 Wie sieht die Verschl¨ usselung von MATHEQ aus? MA : TH : EQ :
2 7 2 7 2 7
!
!
3 12 + 8 ! 0 ! 3 19 + 8 ! 16 ! 3 4 + 8 16
1 2
!
1 = 2 ! 1 = 2 ! 1 = 2
!
. !
25 8 ! 9 3 ! 5 2
∧
= ZI ∧
= JD ∧
= FC
Der Geheimtext lautet also ZIJDFC.
2
Wie sieht nun in diesem Fall Die Entschl¨ usselungsabbildung D aus? Halten wir uns an die Analogie zum Fall der affinen Abbildungen auf ZZ 26 . D : ZZ 26 × ZZ 26 3 z = (x, y) 7−→ A0z + B 0 ∈ ZZ 26 × ZZ 26 Dabei w¨ahlen wir die Matrix A0 mit Eintr¨agen in ZZ 26 so, daß AA0 = I wobei I die Einheitsmatrix ist, gilt. Ist dies m¨oglich? Ja, es ist m¨oglich, wenn die Determinante der Matrix A eine Einheit in ZZ 26 ist. Damit berechnet sich dann A0 wie die Inverse von A im Fall IR2,2 und B 0 ist gleich −A0B . Etwa ist die Inverse von A aus dem obigen Beispiel gegeben durch 0
A =
14 11 17 10
!
,
wobei die Determinante von A als 2 · 8 − 3 · 7 = −5 = 21 gegeben ist. (Beachte, 21 und 26 sind teilerfremd.)
Baumeister: Mathematik IV / Stand: April 1998
15.5
445
Public key – Kryptosysteme
Das RSA-Schema ist ein Kryptosystem, das mit ¨offentlichen Schl¨ usseln arbeitet. Es wurde 1977 von Ronald Rivest, Adi Shamir, Leonard Adleman vorgeschlagen. Das RSA-Schema stellt sich so dar: • Jede Nachricht wird dargestellt in Form einer oder mehrerer nat¨ urlicher Zahlen m ∈ {0, . . . , n − 1} =: M. (In der Praxis hat man die konkreten Nachrichten in die zul¨assigen Nachrichten aus M durch Codes (etwa den ASCII–Code, wobei die W¨orter als nat¨ urliche Zahlen zu interpretieren sind) umzuwandeln. • W¨ahle s ∈ IN und kodiere mit Ks : M 3 m 7−→ ms mod n ∈ M • W¨ahle t ∈ IN und dekodiere gem¨aß Dt : M 3 m 7−→ mt mod n ∈ M Man beachte, daß die Auswertung von Ks bzw. Dt (Potenzierung) im allgemeinen sehr effizient realisiert werden kann, w¨ahrend das Auffinden der k–ten Wurzel mod n, die ben¨otigt wird, um Dt aus Ks zu finden, schwierig ist. Voraussetzungen, die sicherstellen, daß die Schl¨ ussel zusammenpassen, ist: n = p · q , p, q Primzahlen , 1 < s < ϕ(n), s u ϕ(n) = 1, ts ≡ 1 mod ϕ(n).
(15.1)
Dies geht aus dem folgenden Lemma hervor: Lemma 15.12 Seien die Voraussetzungen (15.1) erf¨ullt. Dann gilt Dt ◦ Ks = id. Beweis: Wir wissen st = 1 + kϕ(n) mit k ∈ ZZ . Wir zeigen zun¨achst mst − m ≡ 0 mod p f¨ ur alle m ∈ {0, . . . , n − 1}.
(15.2)
Sei m ∈ {0, . . . , n − 1}. Wir wollen dies aus dem Satz von Fermat schließen. Allerdings fehlt die Voraussetzung m u p = 1. Kl¨aren wir daher den Fall m u p 6= 1. Hier ist, da p Primzahl ist, p ein Teiler von m; also m ≡ 0 mod p. Wenn p ein Teiler von m ist, dann ist p sicherlich ein Teiler von mst , d.h. mst ≡ 0 mod p und mst ≡ m mod p.
Baumeister: Mathematik IV / Stand: April 1998
446
Nun zeigen wir die Behauptung (15.2) f¨ ur den Fall m u p = 1 mit dem Satz von Fermat: mst ≡ ≡ ≡ ≡ ≡
m1+kϕ(n) mod p mmkϕ(n) mod p m(m(p−1))k·(q−1) mod p m1k·(q−1) mod p m mod p
Analog folgt mst − m ≡ 0 mod q Daraus ergibt sich mit p|(mst − m) , q|(mst − m), da p, q verschiedene Primzahlen sind, daß pq|(mst − m) gilt. Dies bedeutet aber mit n = pq mst ≡ m mod n
Nachdem wir nun gezeigt haben, daß das RSA-Schema korrekt arbeitet, bleibt zu fragen, ob es auch brauchbar im Sinne der Geheimhaltung ist. Jedermann kennt die ¨offentlichen Schl¨ usselzahlen, also die Zahlen n und s; kein Teilnehmer muß sich p, q und ϕ(n) merken. Um den Geheimtext entschl¨ usseln zu k¨onnen, m¨ ußte jemand die Zahl t berechnen. Dazu reicht es auch, die Zahl ϕ(n) zu kennen, denn mit Hilfe des euklidischen Algorithmus kann man dann eine Zahl t berechnen; siehe Folgerung 3.22. Die Zahl ϕ(n) kennt man, wenn man die Primfaktorzerlegung von n kennt. Denn dann ist n = pq und ϕ(n) = (p − 1)(q − 1). Umgekehrt, wenn man n und ϕ(n) kennt, dann kennt man sogar die Primfaktorzerlegung von n, denn aus pq = n , (p − 1)(q − 1) = ϕ(n) , errechnet man q
p + q = n − ϕ(n) + 1
p − q = ± (n − ϕ(n) + 1)2 − 4n. Es ist also ganz einfach mit dem Auffinden des geheimen Schl¨ ussels Dt , wenn man n faktorisieren kann. Und hier liegt die St¨arke des RSA-Schemas: Es ist ein schwieriges Problem, eine große Zahl zu faktorisieren. Zum Faktorisierungsproblem ! Naheliegend ist, f¨ ur alle Zahlen m ∈ {2, . . . , n − 1} durchzuprobieren, ob sie ein Teiler von n ist oder nicht. Nat¨ urlich muß man nicht alle Zahlen durchprobieren. Man kann sich
Baumeister: Mathematik IV / Stand: April 1998
447
auf die Primzahlen beschr¨anken und man muß auch nur die Zahlen von 2 bis zu einem m mit m2 ≥ n testen. Denn ist n = pq , so ist p2 ≤ n oder q 2 ≤ n. Das ist ein sicheres Verfahren, aber ein sehr, sehr langwieriges. Zum Beispiel muß man, um eine 200–stellige Zahl zu testen, im schlimmsten Fall die Primzahlen zwischen 2 und 10100 durchprobieren. Nach dem Primzahlsatz, den wir sp¨ater noch kennenlernen werden, bedeutet dies, etwa 1098 Zahlen durchprobieren zu m¨ ussen. Beispiel 15.13 Im Jahre 1990 wurde eine der meistgesuchten Faktorisierungen gefunden: Die neunte 9 Fermatzahl F9 = 22 + 1 = 2512 + 1 wurde in Primfaktoren zerlegt: F9 = 2424833 · k mit einem k ∈ ZZ . Die L¨osung gelang, indem man das Problem in kleine Portionen aufteilte und h¨appchenweise l¨oste. 2 Es ist festzuhalten: Bisher hat niemand einen guten/schnellen Faktorisierungsalgorithmus gefunden und man hofft (im Interesse der Geheimhaltung), daß auch in Zukunft kein schneller Algorithmus gefunden wird. Wie soll man den Schl¨ ussel w¨ahlen? In der heutigen Rechnertechnologie ist es m¨oglich, 200 2 2 n ∼ 10 , p ∼ n , q ∼ n zu realisieren. Die Wahl von s darf nicht zu klein ausfallen, da sonst ein verschl¨ usselter Text identisch mit dem Text selbst sein kann, d.h. daß ms = m f¨ ur eine Nachricht m sein kann. Solche “Fixpunkte“ von Ks haben zu tun mit kleinen Primteilern von p − 1 bzw. q − 1 .
15.6
Elektronische Unterschrift und elekronisches Geld
Eine Anwendung des RSA–Schemas ist die elektronische Unterschrift. Ein Nachrichtengeber A beglaubigt seine ¨offentliche Mitteilung m an einen Empf¨anger B durch Hinzuf¨ ugen ussel. Ein Empf¨anger der kodierten Nachricht Ks (m) ; Ks ist ein nur A bekannter Schl¨ kann mit dem ¨offentlichen Dekodierer Dt von A die Gleichung m = Dt (Ks (m)) u ufen. Ist sie erf¨ ullt, hat der Empf¨anger die Sicherheit, daß die Nachricht von A ¨berpr¨ stammt.
Kapitel 16 Graphentheorie Graphentheorie gilt als ein wesentlicher Bestandteil der “Diskreten Mathematik“, die sich vor allem mit der Manipulation endlicher Mengen besch¨aftigt. Im Kontext dieser Theorie lassen sich viele Aufgaben sehr einfach verstehen. Der algorithmische Standpunkt kommt hier zwar etwas zu kurz, ist aber von großer Bedeutung, da es sich bei den Aufgabenstellungen meist um sehr angewandte Situationen handelt.
16.1
Graphen und ihre Diagramme
Graphen bilden die fundamentale Datenstruktur in der Diskreten Mathematik, die sich vor allem mit endlichen Mengen (Abz¨ahlen, Strukturieren, Verkn¨ upfung, . . . ) besch¨aftigt. Die einfachste Struktur auf endlichen Mengen wird von einer zweistelligen Relation erzeugt: Zwei Elemente einer Menge stehen in einer vorgegebenen Beziehung oder nicht. Mit dem Begriff des Graphen erfassen wir gerade diese Situation. Beginnen wir mit einem bestens bekannten “Graphen“.
Abbildung 16.1: Das Haus von Nikolaus
Es hat Ecken (◦) und Kanten (—) und ist im Rythmus von Dies ist das Haus von Ni– ko–laus in einem Zug auf das Papier zu zaubern, ohne zweimal eine Kante nachziehen zu m¨ ussen. Damit sind schon wesentliche Begriffe der Graphentheorie angesprochen.
448
Baumeister: Mathematik IV / Stand: Juli 1998
449
Definition 16.1 Ein Graph besteht aus einem Paar (E, K), wobei E eine endliche nichtleere Menge von Ecken und K eine endliche Menge von Kanten ist und einer Vorschrift, die jeder Kante k ∈ K genau zwei (verschiedene oder gleiche) Ecken a, b ∈ E zuordnet, die wir Endecken von k nennen; ist a = b, so nennen wir k eine Schlinge bei a. Wir sagen, daß k die Ecken a und b verbindet, wenn a, b Endecken von k sind; oft schreiben wir daf¨ur k = {a, b} oder kurz k = ab . 2 F¨ ur einen Graphen mit Ecken E und Kanten K schreiben wir G(E, K). Ecken, die durch eine Kante verbunden sind, nennen wir benachbart. Eine Ecke, die zu keiner Kante Endecke ist, nennen wir isoliert. Sind zwei Ecken durch Kanten k1 , k2 , . . . , kn , n ≥ 2, verbunden, so heißen die Kanten k1 , . . . , kn Mehrfachkanten. Definition 16.2 Ein Graph G(E, K) heißt einfach, wenn er weder Schlingen noch Mehrfachkanten besitzt. 2 Einen Graph veranschaulicht man sich am besten durch eine Diagramm, indem man die Ecken als Punkte der (Zeichen–)Ebene zeichnet und die Kanten als Kurven zwischen den Endpunkten zeichnet, die nat¨ urlich im Fall einer Schlinge geschlossen sind. Dadurch ist auch die Bezeichnung “ Graph“ erkl¨art: das Ecken–Kanten–System erinnert an die graphische Darstellung von Funktionen. Diagramme sind ein n¨ utzliches Hilfsmittel, uns die abstrakte Struktur eines Graphen vorzustellen.
Abbildung 16.2: Beispiele von Graphen
Beispiel 16.3 Betrachte ein Beispiel einer endlichen Geometrie“ : ” IP := {A, B, C} , G 0 := {{A, B}, {A, C}, {B, C}} IP steht f¨ ur die Punkte, G 0 steht f¨ ur die Menge der Geraden. Dies ist ein Graph G(IP, G). 0 Endecken etwa der Kante k := {A, B} sind A und B. Ein Diagramm dazu ist in Abbildung 16.2 enthalten.
2
Baumeister: Mathematik IV / Stand: Juli 1998
450
Beispiel 16.4 Sei E := {1, 2, 3, 4, 5, 6}, K := {11, 12, 25, 34, 36, 46, 64}. (Die Kante ij verbindet die Ecke i mit der Ecke j .) Mit E, K liegt ein Graph G(E, K) vor, zu dem das 3. Diagramm in der Abbildung 16.2 geh¨oren mag. (Die Schlinge bei 1 ist die Kante 11.) 2 Im folgenden werden wir nahezu ausschließlich einfache Graphen betrachten. Einige einfache Graphen sind so wichtig, daß sie eigene Namen tragen. Z.B. heißen die einfachen n Graphen Gn := G(E, K) mit #E = n und #K = 2 – es gilt stets #K ≤ n2 – vollst¨ andige Graphen. In Abbildung 16.3 sind Diagramme dazu f¨ ur n ≤ 5 .
Abbildung 16.3: Einfache Graphen
Weitere Graphen spezieller Struktur sind die bipartiten Graphen Gm,n = G(E, K) mit E = U ∪ V , U ∩ V = ∅ , #U = m, #V = n , und jede Kante hat eine Ecke in U und eine Ecke in V . G3,3 ist in Abbildung 16.4 links zu sehen.
Abbildung 16.4: Bipartite Graphen
Beispiel 16.5 Die Teilbarkeit in den nat¨ urlichen Zahlen l¨aßt sich durch einen Graphen veranschaulichen, etwa: G := G(E, K) mit E := {1, . . . , n}, K := {(i, j)|1 ≤ i, j ≤ n, i teilt j}. Der Graph dazu ist als mittleres Diagramm in Abbildung 16.3 zu sehen. Beispiel 16.6
2
Baumeister: Mathematik IV / Stand: Juli 1998
451
Geplant ist eine Tennisturnier mit f¨ unf Teilnehmern a, b, c, d, e . Die Turnierbedingungen seien: 1. Es steht nur ein Tennisplatz zur Verf¨ ugung. 2. Jeder Teilnehmer spielt gegen jeden anderen Teilnehmer genau einmal. 3. Kein Teilnehmer spielt in zwei aufeinanderfolgenden Spielen.
Abbildung 16.5: Graph eines Tennisturniers
In der Abbildung 16.5 stellt jede der zehn Verbindungslinien eines der Spiele dar. In der Abbildung 16.5 ist auch ein Spielplan aufgezeichnet: Die zehn Punkte repr¨asentieren die Spiele, und zwei Punkte sind genau dann verbunden, wenn sie keinen gemeinsamen Spieler haben. Der doppelt eingezeichnete Weg“ liefert eine L¨osung f¨ ur die obigen Bedingungen ” (1), (2). Die zugeh¨orige Abbildung ist also ein Graph mit 10 Ecken und 15 Kanten. Das Diagramm haben wir nicht willk¨ urlich gestaltet, sondern eine ¨asthetisch ansprechende und einpr¨agsame Form daf¨ ur gew¨ahlt. 2 Mit den nun folgenden Begriffen “Kantenzug, Weg, Kreis“ k¨onnen wir etwas u ¨ ber die Fein–/Unterstruktur von Graphen herausfinden. Definition 16.7 Sei G(E, K) ein Graph. (a) Sind v0, v1, . . . , vn ∈ E, so daß vi mit vi+1 f¨ur jedes i = 0, . . . , n − 1 verbunden ist, so nennen wir W := [v0, . . . , vn ] einen Kantenzug von v0 nach vn der L¨ ange n . (b) Ein Kantenzug W = [v0, . . . , vn] heißt Weg, falls alle zugeh¨origen Kanten vi vi+1 paarweise verschieden sind. (c) Ein Weg W = [v0, . . . , vn] heißt Kreis, falls v0 = vn gilt.
2 Beispiel 16.8
Baumeister: Mathematik IV / Stand: Juli 1998
452
Der Graph in Beispiel 16.4 enth¨alt einen Kreis der L¨ange 3, n¨amlich [3, 4, 6, 3]. Ein Kreis der L¨ange 1 ist die Schlinge 11. Ein Kreis der L¨ange 2 ist [4, 6, 4], er wird durch die Mehrfachkanten 46, 64 erzeugt. 2 Definition 16.9 Sei G(E, K) ein Graph. (a) Ein Weg W = [v0, . . . , vn] heißt ein Eulerweg, wenn der Weg jede Kante des Graphen genau einmal enth¨alt. (b) Ein Eulerweg heißt ein Eulerkreis, wenn er ein Kreis ist. (c) Der Graph heißt Eulergraph, falls er einen Eulerkreis enth¨alt.
2 Der Begriff Eulerkreis“ stammt von dem vermutlich ¨altesten graphentheoretisch erfaßten ” Problem, der L¨osung des K¨onigsberger Br¨ uckenproblems durch L.Euler (1707 – 1783) im Jahre 1736. Die Abbildung 16.6 zeigt 4 Landst¨ ucke A, B, C, D und 7 Verbindungsbr¨ ucken a, b, . . . , g.
Abbildung 16.6: Das K¨onigsberger Br¨uckenproblem
Frage: Ist es m¨oglich von der Insel A aus einen Spaziergang zu machen, bei dem man alle Br¨ ucken genau einmal passiert und schließlich nach A zur¨ uckkehrt ? ¨ Ubersetzen wir dies in die Graphensprache, so resultiert der Graph aus Abbildung 16.7. Euler hat die Frage negativ beantworten k¨onnen, indem er zeigte, daß kein Eulerkreis existiert. Nach Bereitstellung von Begriffen k¨onnen wir dies ziemlich elementar beweisen. Definition 16.10 Ein Graph G(E, K) heißt zusammenh¨ angend, falls es zu jedem Paar von Ecken einen Kantenzug gibt, der diese Ecken verbindet, ansonsten unzusammenh¨ angend. 2
Baumeister: Mathematik IV / Stand: Juli 1998
453
Abbildung 16.7: Der Graph zum K¨onigsberger Br¨uckenproblem
Definition 16.11 Sei G = G(E, K) ein zusammenh¨angender Graph. Eine Kante k ∈ K heißt eine Br¨ ucke, falls der Graph G0 = G(E 0 , K 0) mit E 0 = E, K 0 = K\{k} nicht zusammenh¨angend ist. 2
Abbildung 16.8: Zusammenh¨angende Graphen
Definition 16.12 Sei G(E, K) ein Graph. (a) Ein Weg W = [v0, . . . , vn ] heißt Hamiltonweg, wenn der Weg W jede Ecke des Graphen genau einmal enth¨alt. (b) Ein Weg W = [v0, . . . , vn] heißt Hamiltonkreis, wenn W 0 := [v0, . . . , vn−1 ] ein Hamiltonweg ist und v0 = vn gilt. (c) Der Graph heißt Hamiltongraph, wenn er einen Hamiltonkreis enth¨alt.
2 Das Studium der hamiltonschen Wege und Kreise wurde 1856, etwa gleichzeitig, von Kirkmann und Hamilton angeregt. Hamilton fragte nach einem Hamiltonkreis im Graphen, der dem Kantenweg auf dem Dodekaeder entspricht. Die Abbildung 16.9 gibt die Antwort.
Baumeister: Mathematik IV / Stand: Juli 1998
454
Abbildung 16.9: Der Hamiltonkreis zum Dodekaeder
Die Abbildung 16.10 zeigt die Graphen zu anderen regul¨aren K¨orpern.
Abbildung 16.10: Hamiltonkreise zum Tetraeder bzw. W¨urfel
Spezielle Aufgaben, die sich mit der Problematik Hamiltonweg/Hamiltonkreis besch¨aftigen, sind viel ¨alter. Euler behandelte schon das Problem des R¨ osselsprungs auf einem n × n–Schachbrett. Gefordert ist, daß der Springer von einem Feld beginnend mit kontinuierlichen Z¨ ugen alle Felder genau einmal ber¨ uhrt und dann wieder zu seinem Ausgangspunkt zur¨ uckkehrt. Beispiel 16.13 Nehmen wir ein (quadratisches) Schachbrett mit n2 Feldern und verbinden wir zwei Ecken, wenn sie durch einen Springerzug verbunden sind; es resultiert ein Graph. Dann ist die Frage nach einem Hamiltonweg bzw. Hamiltonkreis klar. Seit Euler ist schon bekannt, daß ein Hamiltonkreis auf dem 8 × 8–Schachbrett existiert. Im Jahre 1991 gab es eine “Jugend forscht–Arbeit“ von A. Conrad, H. Morsey, T. Hindrichs mit dem Titel “Springer–Projekt“, die mit dem ersten Preis ausgezeichnet wurde. Sie behandelte das Springer–Problem haupts¨achlich von der algorithmischen Seite her. Es konnte u.a. nachgewiesen werden, daß jedes n × n–Schachbrett mit n ≤ 30 einen Hamiltonweg enth¨alt. Am beeindruckensten war die Idee, zur Suche nach Hamiltonwegen
Baumeister: Mathematik IV / Stand: Juli 1998
455
ein Schachbrett in Teilbretter zu zerlegen und Wege zu suchen, die nach einem “Muster“ von einem Teilbrett zum anderen springen. (Das Prinzip “divide et impera“/“divide and conquer“ steht hier Pate.) Hier ist eines ihrer Beispiele, wobei die Nummern die Zugfolge angeben:
5
2
7
80 77 74 11 16 13
8
79
4
1
3
6
9
78 73 76 17 12 15
10 81 14 75 18
32 29 34 69 66 63 24 19 22 35 68 31 72 27 70 21 64 25 30 33 28 67 62 65 26 23 20 39 36 41 56 71 58 47 52 49 42 55 38 61 44 53 50 59 46 37 40 43 54 57 60 45 48 51
Mit dieser Vorgehensweise l¨aßt sich das Problem sogar auf einem 1000× 1000–Schachbrett – man verwende 5 × 5–Teilbretter – l¨osen.1 2 Das Problem der Hamiltonkreise ist ungleich tiefliegender als das der Eulerkreise, f¨ ur Anwendungen aber sehr viel interessanter. Es gibt keine Charakterisierungen f¨ ur Hamiltonkreise, f¨ ur Eulerkreise werden wir sofort eine kennenlernen. Dabei benutzen wir den Algorithmus von Hierholzer (1873). Dazu ben¨otigen wir die folgende Definition. Definition 16.14 Sei G(E, K) ein Graph und sei v eine Ecke. Der Grad d(v) der Ecke v ist die Anzahl der Kanten, die v als Endecke besitzen, wobei Schlingen bei v doppelt gez¨ahlt werden. 2 Algorithmus von Hierholzer EIN Ein zusammenh¨angender Graph mit Eckenmenge E und Kantenmenge K, der nur Ecken von geradem Grad besitzt. Schritt1 Ausgehend von einer Ecke v0 ∈ E w¨ahle, solange dies m¨oglich ist, sukzessive Ecken v1, v2, . . . , vs ∈ E mit der Eigenschaft, daß [v0, v1, . . . , vi ] jeweils ein Weg ist. Fakt 1 (siehe unten): W0 := [v0, . . . , vs ] ist ein Kreis. Ist W0 ein Eulerkreis, dann gehe zu AUS. 1
In Spektrum 2/92, 10 – 14, ist eine erweiterte Darstellung der Arbeit nachzulesen.
Baumeister: Mathematik IV / Stand: Juli 1998
456
Schritt 2 W¨ahle eine Ecke w0 im Kreis W0 , zu der es eine Kante gibt, die eine Endecke hat, die nicht zu W0 geh¨ort. Fakt 2 (siehe unten): Diese Wahl ist m¨oglich. Schritt 3 Wie in Schritt 1 konstruiere ausgehend von w0 einen Weg W10 = [w0, w1 , . . . , wt ], wobei die Kanten von W0 nicht verwendet werden Fakt 3 (siehe unten): W10 ist ein Kreis. Schritt 4 Der neue Kreis W0 entsteht aus W0 , W10 dadurch, daß zuerst W0 bis w0 , dann W10 ganz und dann W0 von w0 bis vs durchlaufen wird. Fakt 4 (siehe unten): W0 ist ein Kreis. Ist W0 ein Eulerkreis, dann gehe zu AUS, sonst zu Schritt 2. AUS In endlich vielen Schritten wird ein Eulerkreis W0 erzielt. Zu Fakt 1 : Annahme: W0 ist nicht Kreis, d.h. v0 6= vs . Wird vs q−mal im Weg W0 durchlaufen, dann gilt d(vs ) = 2q + 1 im Widerspruch zur Voraussetzung. Zu Fakt 2: Diese Wahl ist m¨oglich, da der Kreis W0 noch kein Eulerkreis ist. Zu Fakt 3: Begr¨ undung wie zu Fakt 1. Zu Fakt 4: Offensichtlich. Beispiel 16.15 Betrachte den Graphen aus Abbildung 16.11
Abbildung 16.11: Beispiel zum Algorithmus von Hierholzer
und wende den Algorithmus von Hierholzer an mit v0 = a. Wir erhalten etwa sukzessive W0 = [a, b, h, a] , W10 = [b, c, d, f, c, h, g, b], W0 = [a, b, c, d, f, c, h, g, h, a] , W10 = [d, e, f, g, d], W0 = [a, b, c, d, e, f, g, d, f, c, h, g, b, h, a] , und W0 ist ein Eulerkreis.
2
Baumeister: Mathematik IV / Stand: Juli 1998
457
Satz 16.16 Sei G = G(E, k) ein Graph. Dann sind ¨aquivalent: (a) G ist ein Eulergraph. (b) G ist zusammenh¨angend und alle Ecken haben geraden Grad. Beweis: (a) =⇒ (b) Mit der Existenz eines Eulerkreises ist klar, daß G zusammenh¨angend ist. Sei W = [v0, . . . , vn−1 , v0] ein Eulerkreis. Tritt die Ecke v in der Folge v0, . . . , vn−1 genau p−mal auf, so gilt d(v) = 2p. Da G zusammenh¨angend ist, kommt jedes v ∈ E in W auch vor. (b) =⇒ (a) Es bleibt lediglich noch zu zeigen, daß AUS im Algorithmus von Hierholzer tats¨achlich erreicht wird. W¨ urde dies nicht eintreten, so g¨abe es schließlich eine Kante k ∈ K, die im erreichten Kreis W0 nicht enthalten ist, die aber nur Endecken u, v aus W0 besitzt. Dann gibt es aber keinen Weg von u nach v, Dies widerspricht der Voraussetzung, daß der Graph zusammenh¨angend ist. Hier ist ein Resultat zur Existenz von Hamiltonkreisen. Satz 16.17 Sei G = G(E; K) ein zusammenh¨angender Graph mit n := #E ≥ 3. Dann ist G ein Hamiltongraph, falls d(u) + d(v) ≥ n (16.1) gilt f¨ur alle u, v ∈ E, die nicht benachbart sind. Beweis: Sei W := [v1, . . . , vm] ein Weg in G von maximaler L¨ange. Klar, alle Nachbarn von v1 und vm geh¨oren zu W. 1. Fall: G enth¨alt einen Kreis W 0 = [w0, . . . , wm ] der L¨ange m. Annahme: m < n . Dann gibt es, da der Graph zusammenh¨angend ist, eine Ecke wi in W 0, die benachbart zu einer Ecke u ist, die nicht zu W 0 geh¨ort. Dann ist aber der Weg [v, wi, wi+1 , . . . , wi−1 ] ein Weg der L¨ange m + 1, im Widerspruch zur Maximalit¨at von W. Also gilt m = n und ein Hamiltonkreis ist gefunden. 2. Fall: G enth¨alt keinen Kreis der L¨ange m. Seien N(v1 ) := {a ∈ E|a geh¨ort zu W, v1a ∈ K} , ˜ m ) := {a ∈ E|a geh¨ort zu W, avm ∈ K} . N(v ˜ m ) = ∅, denn sonst w¨ Offensichtlich sind v1 , vm nicht benachbart und N(v1 ) ∩ N(v urde G einen Kreis der L¨ange m enthalten. Aus der Voraussetzung des Satzes folgt ˜ m) < m , n ≤ d(v1 ) + d(vm ) = #N(v1) + #N(v was wegen m ≤ n ein Widerspruch ist. Also tritt Fall 2 nicht ein.
Baumeister: Mathematik IV / Stand: Juli 1998
458
Die Voraussetzung (16.1) ist z.B. erf¨ ullt, wenn jede der n Ecken einen Grad nicht kleiner n als 2 hat. Man beachte, daß dieses Kriterium f¨ ur das n × n Schachbrett bei weitem nicht erf¨ ullt ist.
16.2
Ebene Graphen
Wir haben schon darauf hingewiesen, daß wir u ¨blicherweise einen Graphen G(E, K) durch ein Punkt–Linien–System in der Ebene veranschaulichen. Gibt es eine Darstellung, in der die Kanten von G sich nur an Ecken treffen aber niemals dazwischen, so sagen wir, der Graph G ist pl¨ attbar und nennen den so darstellbaren Graphen einen ebenen Graphen. Isolierte Ecken spielen dabei keine Rolle, sie k¨onnen ja irgendwohin plaziert werden, allerdings darf keine Kante u ¨ber eine isolierte Ecke laufen. Beispiel 16.18 Die Darstellung in Beispiel 16.4 ist keine ebene Darstellung, da sich z.B. die Linien 25 und 36 in einem Zwischenpunkt schneiden. Der Graph ist aber – ebenso wie der Graph zum Haus von Nikolaus – pl¨attbar, wir m¨ ussen ja nur die Komponenten auseinanderziehen; siehe Abbildung 16.12.
Abbildung 16.12: Beispiel f¨ur pl¨attbare Graphen
2 Ist G(E, K) ein ebener Graph, so zerlegen die Linien die Ebene in endlich viele topologisch zusammenh¨angende Gebiete, von denn genau eines, das ¨außere“ Gebiet, nicht beschr¨ankt ” ist. Der Grund daf¨ ur ist der ber¨ uhmte Jordansche Kurvensatz: “Eine geschlossene Jordankurve ϕ zerlegt die Ebene in zwei topologisch zusammenh¨angende Gebiete, von denen genau eines nicht beschr¨ankt ist.“ Das heißt: Zwei Punkte der Ebenen k¨onnen genau dann durch eine Jordan–Kurve verbunden werden, die ϕ nicht trifft, wenn sie entweder ¨ beide im Inneren oder beide im Außeren von ϕ liegen. So einleuchtend dieser Satz auch ist, sein Beweis ist alles andere als leicht. Wir k¨onnen also unterstellen, daß bei einem ebenen Graphen die Linien (die f¨ ur die Kanten stehen) die Ebene in endlich viele topologisch zusammenh¨angende Gebiete zerlegen. Diese Gebiete wollen wir L¨ ander nennen. Haben wir umgekehrt eine reale Landkarte“ L gegeben, so k¨onnen wir L sofort einen ” ebenen Graphen G(E, K) zuordnen: Die Ecken E sind die Schnittpunkte verschiedener
Baumeister: Mathematik IV / Stand: Juli 1998
459
Grenzen und die Kanten sind die zwischen Schnittpunkten verlaufenden Grenzlinien; eine Insel wird als Punkt und seine Grenze als Schlinge dargestellt. Wir halten ausdr¨ ucklich fest: L¨ander grenzen entlang einer Grenzlinie an, nicht nur in einem Punkt, und die L¨ander sind zusammenh¨angend.
Abbildung 16.13: Beispiele f¨ur “Nicht–Landkarten“
Definition 16.19 Eine Landkarte L(E, K, L) ist ein ebener Graph G = G(E, K) zusammen mit den zu G geh¨orenden L¨andern L . L¨ander, die eine gemeinsame Grenze haben, nennen wir benachbart.
2
Abbildung 16.14: Eine Landkarte mit zugeh¨origem Graph
Definition 16.20 Eine F¨ arbung einer Landkarte L(E, K, L) ist eine Abbildung f : L → M, wobei M eine endliche Menge von Farben ist, so daß L¨ander, die eine gemeinsame Grenzkante besitzen, stets verschiedene Farben erhalten. 2 Mit diesen Begriffen k¨onnen wir nun den 4–Farben–Satz formulieren: Jede Landkarte L hat die chromatische2 Zahl χ(L) ≤ 4 , d.h. die kleinste Zahl von Farben, die f¨ ur eine F¨arbung ausreicht, ist 4 . 2
χρ´oµα (griechisch) = (Haut–)Farbe.
Baumeister: Mathematik IV / Stand: Juli 1998
460
Beachte die Vereinbarung u ¨ber Landkarten! Bei den “Nicht–Landkarten“ aus Beispiel 16.13 ist die Situation anders: Im linken Diagramm (Angrenzung nur in einem Punkt) w¨aren nur zwei oder sieben Farben n¨otig, je nachdem, wie wir die Nachbarschaft definieren, im rechten Diagramm (E besteht aus zwei “St¨ ucken“) w¨aren f¨ unf Farben n¨otig. In Abbildung 16.15 sehen wir ein Beispiel, das zeigt, daß im allgemeinen wirklich 4 Farben n¨otig sind.
Abbildung 16.15: Eine Landkarte, bei der 4 Farben n¨otig sind
Der 4–Farben–Satz hat eine interessante Geschichte, die Beweisversuche dazu haben viel zur Entwicklung der Graphentheorie beigetragen. Am 23. Oktober 1852 schrieb Augustus de Morgan an seinen Kollegen Sir William Hamilton: Ein Student (F. Guthrie) fragte mich heute, ob es stimmt, daß die L¨ander jeder ” Landkarte stets mit h¨ochstens 4 Farben gef¨arbt werden k¨onnen, unter der Maßgabe, daß angrenzende L¨ander verschiedene Farben erhalten.“ Schon 1878 legte A.Kempe einen Beweisversuch f¨ ur den 4–Farben Satz vor. Obwohl Kempes Beweis einen Fehler enthielt – er wurde 1890 von Heawood entdeckt –, so vereinigte er doch nahezu alle Ideen, die zur endg¨ ultigen L¨osung 100 Jahre sp¨ater gef¨ uhrt haben. Der 5–Farbensatz von Heawood aus dem Jahre 1898 sagt, daß stets χ(L) ≤ 5 gilt. Ein korrekter Beweis f¨ ur den 4–Farbensatz wurde 1976 von Appel und Haken3 vorgelegt. Allerdings wurde der Beweis von der mathematischen Welt mit gemischten Gef¨ uhlen aufgenommen, denn der Beweis wurde gef¨ uhrt unter massivem Einsatz von Computern. (Der Computer wurde benutzt, um entscheidende Reduktionsschritte abzusichern.) Es gibt nun einen Beweis, der zwar immer noch nicht ohne Computer auskommt, der diesen aber schon ¨ reduziert einsetzt.4 Uber 100 Jahre hinweg hat das 4–Farben–Problem bedeutende Mathematik hervorgebracht und in seiner L¨osung st¨oßt es das Tor zu einer vielleicht die n¨achsten 100 Jahre pr¨agenden mathematischen Entwicklung auf: Computer–gest¨ utztes Suchen nach mathematischer Erkenntnis. Ein M¨archen schildert die F¨arbungsproblematik5 in anderem Kleide. Es war einmal ein K¨onig, der hatte f¨ unf S¨ohne. Als er sein Ende nahen f¨ uhlte, rief er sie zu sich und gebot ihnen, nach seinem Tode das Reich so unter sich zu teilen, daß jeder an die Reiche aller vier Br¨ uder grenzte, aber nicht nur in einem Punkt, sondern l¨angs einer 3
Habiliert in Frankfurt, Dr. h.c. der Universit¨at Frankfurt am Main Siehe M. Aigner: Ein neuer Beweis des 4–Farbensatzes, DMV–Mitteilungen 1/95 5 Das F¨arbungsproblem ist interessant erl¨autert in D. Hilbert, Wissen und math. Denken, Vorlesungsmitschrift aus dem WS 1922/23. Dort ist auch dieses M¨archen zu finden. 4
Baumeister: Mathematik IV / Stand: Juli 1998
461
Grenzlinie. Bald, nachdem er dies verf¨ ugt hatte, starb er, und die S¨ohne machten sich an den Versuch, das Reich im Sinne des Vaters zu teilen. Die Vorschrift schien den Br¨ udern vern¨ unftig und in ihrem Interesse. Aber so viel sie auch probierten und studierten, und obwohl sie die gr¨oßten Geometer des Landes zu Rate zogen, es gelang ihnen nicht, eine solche Aufteilung zu finden. Das Reich blieb ungeteilt, und da es dabei gedieh, kamen die Br¨ uder auf den Gedanken, der Vater habe die Unerf¨ ullbarkeit seiner Vorschrift gekannt und durch ihren Erlaß nur die Einheit des Reiches erhalten wollen. Die Aufgabe ist also, 5 Gebiete in einer Ebene anzugeben, sodaß jedes Gebiet an jedes andere l¨angs einer Linie angrenzt. Wir zeichnen zun¨achst zwei Gebiete, die l¨angs einer Grenzlinie zusammenstoßen, und sehen sofort, daß wir das dritte Gebiet nur anlegen d¨ urfen; in Abbildung 16.16 sind diese zwei Schritte zu sehen. In Abbildung 16.17 sind zwei Fortsetzungsversuche zu sehen; ein f¨ unftes Gebiet l¨aßt sich den Regeln entsprechend nicht anf¨ ugen.
Abbildung 16.16: Skizzen zum M¨archen
Abbildung 16.17: Skizzen zum M¨archen
Wir wissen nun, daß es keine L¨osung gibt, da das 4–Farben–Problem in Form des 4– Farben–Satzes gel¨ost ist. H¨atten die 5 K¨onigsbr¨ uder auf einem Torus (Fahrradschlauch) gelebt, so h¨atten sie der testamentarischen Bestimmung ohne M¨ uhe nachkommen k¨onnen, ja sogar mit 7 Br¨ udern w¨are die Aufteilung noch m¨oglich gewesen; siehe Beispiel 16.22. Beispiel 16.21 Eine Landkarte, die dadurch entsteht, daß endlich viele Geraden zum Schnitt gebracht werden, kann mit zwei Farben gef¨arbt werden; siehe Abbildung 16.18.
2
Beispiel 16.22
Baumeister: Mathematik IV / Stand: Juli 1998
462
Abbildung 16.18: Eine spezielle Landkarte
Abbildung 16.19: F¨arbung auf dem M¨obiusband
F¨ ur das M¨obiusband gilt der 6–Farben–Satz: Jede Landkarte auf einem M¨obiusband l¨aßt sich mit 6 Farben f¨arben. Daß man im allgemeinen tats¨achlich 6 Farben ben¨otigt, wird durch Abbildung 16.19 gezeigt. Dabei muß man wissen, daß das M¨obiusband aus einem rechteckigen Streifen dadurch entsteht, daß man zwei gegen¨ uberliegende Ecken so aneinander klebt, daß die Pfeile zur Deckung kommen (siehe Abbildung 16.19); die F¨arbung ist daher beidseitig vorzunehmen. In Abbildung 16.20 ist eine Landkarte auf einem Torus (Fahrradschlauch) aufgezeichnet. Dazu muß man wissen, daß der Torus aus einem rechteckigen Streifen dadurch entsteht, daß man jeweils gegen¨ uberliegende Enden so aneinander klebt, daß die Pfeile zur Deckung kommen. Die Landkarte zeigt, daß beim Torus mindestens 7 Farben zur F¨arbung n¨otig sind. Es gilt der 7–Farben–Satz: Jede Landkarte auf dem Torus l¨aßt sich mit 7 Farben f¨arben.
Abbildung 16.20: F¨arbung auf dem Torus
Baumeister: Mathematik IV / Stand: Juli 1998
463
2 16.3
B¨ aume
Kehren wir zur¨ uck zur Graphentheorie. Wir beweisen erste Ergebnisse. Sie waren auch erste Schritte im Beweisversuch des 4–Farben–Satzes von A. Kempe. Lemma 16.23 Sei G = G(E, K) ein Graph. Dann gilt #K =
1 X d(v) 2 v∈E
Beweis: Wir z¨ahlen die Paare (v, k), v ∈ E, k ∈ K, ab, f¨ ur die v Endecke von k ist. Da jede Kante genau 2 Endecken hat, ist die Anzahl einerseits 2 #K, andererseits tr¨agt jede Ecke v ∈ E mit d(v) zu dieser Anzahl bei. Das obige Lemma wird als Handschlaglemma bezeichnet. Die Wortwahl kommt von der Interpretation, daß man sich K als die Paare von Personen (E) vorstellen kann, die sich per Handschlag begr¨ ußen. Z. B. lesen wir daraus ab, daß die Anzahl der Personen, die auf einer Party eine ungerade Anzahl von G¨asten mit Handschlag begr¨ ußt haben, gerade ist. Dies ist eine Interpretation von Folgerung 16.24 Jeder Graph hat eine gerade Anzahl von Ecken ungeraden Grades. Beweis: Sei G = G(E; K) ein Graph. Seien E0 := {u ∈ E|d(u) gerade} , E1 := {u ∈ E|d(u) ungerade} . Nach Lemma 16.23 gilt 2 #K = P
woraus folgt, daß
X u∈E0
d(u) +
X
d(v) ,
v∈E1
d(v) gerade ist. Also muß #E1 gerade sein.
v∈E1
Definition 16.25 Ein einfacher Graph heißt Baum, wenn er zusammenh¨angend ist und keine Kreise enth¨alt. 2 In Abbildung 16.21 sind alle B¨aume mit h¨ochstens 5 Ecken aufgef¨ uhrt, Abbildung 16.22 enth¨alt alle B¨aume mit 6 Ecken. Dabei ist zu ber¨ ucksichtigen, daß wir zwei Graphen G1 =
Baumeister: Mathematik IV / Stand: Juli 1998
464
Abbildung 16.21: Alle B¨aume mit h¨ochstens 5 Ecken
G(E1 , K1 ), G2 = G(E2 , K2 ) dann nicht unterscheiden, wenn es eine bijektive Abbildung φ : E1 −→ E2 gibt mit der Eigenschaft u, v ∈ E1 sind benachbart ⇐⇒ φ(u), φ(v) ∈ E2 sind benachbart . Wir sagen dann, G1 , G2 sind isomorph (bez¨ uglich φ).
Abbildung 16.22: Alle B¨aume mit 6 Ecken
B¨aume6 kommen ins Blickfeld bei der Betrachtung von elektrischen Netzwerken. In der Informatik sind sehr wichtig die sogenannten bin¨ aren Wurzelb¨ aume. Dies ist ein Baum, der genau eine Ecke von Grad 2 und sonst nur Ecken von Grad 1 oder 3 besitzt; die Ecke von Grad 2 dient als Wurzel des Baumes. Lemma 16.26 Ist G = G(E, K) ein Baum, so gilt #K = #E − 1. Beweis: Induktion nach n := #E . Ist n = 1, dann kann es keine Kante geben, da sonst eine Schlinge vorhanden sein m¨ ußte. Sei #E = n + 1. Sei k ∈ K. Da G(E, K) keine Kreise enth¨alt, muß k eine Br¨ ucke sein. Der Graph G(E 0 , K 0), der nach Weglassen von k entsteht, d.h. E 0 = E, K 0 = K\{k}, 6
Seine Bahnhofsvorlesung am 14.11.97 in Frankfurt/Main (anl¨aßlich eines Protests gegen die Sparmaßnahmen an Hessens Hochschulen) begann der Informatikprofessor Seeger aus Marburg mit den Worten: “B¨aume sind in der Theorie der Datenbanken von großer Wichtigkeit.“
Baumeister: Mathematik IV / Stand: Juli 1998
465
zerf¨allt daher in zwei Graphen G(E1 , K1 ), G(E2 , K2 ), die offenbar wieder B¨aume sind. Da nun #E1 < #E, #E2 < #E ist, erhalten wir mit der Induktionsvoraussetzung #K1 = #E1 − 1 , #K2 = #E2 − 1, und somit #K = #K1 + #K2 + 1 = (#E2 − 1) + (#E2 − 1) + 1 = #E − 1.
Beachte: In einem Baum ist jede Kante eine Br¨ ucke. (Die Begr¨ undung daf¨ ur haben wir im Beweis zu Lemma 16.26 gegeben.) Der Zusammenhang der Anzahlen von Ecken, Kanten und L¨andern in einem ebenen Graphen ist Inhalt der eulerschen Polyederformel, die wir nun beweisen k¨onnen. Satz 16.27 Sei G = G(E, K) ein ebener zusammenh¨angender Graph mit den L¨andern L . Dann gilt #E − #K + #L = 2 . (16.2) Beweis: Wir f¨ uhren Induktion nach der Anzahl n := #K der Kanten. F¨ ur n = 0 besteht der Graph aus einer einzelnen Ecke, so daß #E = #L = 1 ist, die Formel also richtig ist. Sei nun #K = n + 1. Gibt es eine Kante k ∈ K, die keine Br¨ ucke ist, dann ist der Graph G(E 0 , K 0), der aus G(E, K) entsteht, indem wir die Kante k entfernen noch immer zusammenh¨angend und die an k angrenzenden L¨ander verschmelzen“. Also ” 0 #E = #E, #K 0 = #K − 1, #K−, #L0 = #L − 1 , und somit mit der Induktionsvoraussetzung #E − #K + #L = #E 0 − #K 0 − 1 + #L0 + 1 = 2. Besitzt aber der Graph nur Br¨ ucken, so muß er ein Baum sein. Dann ist aber #L = 1 und die Formel folgt aus 16.26. Nun wollen wir noch die platonischen K¨ orper entdecken. Dazu Definition 16.28 Ein ebener Graph G(E, K) mit L¨andern L heißt platonisch, wenn es nat¨urliche Zahlen r, s ≥ 3 gibt, so daß gilt: 1. alle Ecken haben Grad r; 2. alle L¨ander sind von Kreisen der L¨ange s berandet.
2
Baumeister: Mathematik IV / Stand: Juli 1998
466
Satz 16.29 Es gibt (bis auf Isomorphie) genau die in der Abbildung 16.23 dargestellten Graphen. Beweis: Sei n := #E, k := #K, l := #L. Da ein Kreis keine Kante doppelt enthalten kann, wird jedes der l L¨ander von s verschiedenen Kanten berandet. Da sich auf beiden Seiten einer Kante nie dasselbe Land befinden kann, denn in diesem Fall k¨ame die Kante in dem das Land berandenden Kantenzug doppelt vor, gilt ls = 2k. Jede Ecke hat Grad r. Also folgt mit dem Handschlaglemma nr = 2k. Aus n − k + l = 2 folgt nach Erweiterung mit dem Faktor 2r schließlich l(2s + 2r − sr) = 4r Daraus folgt 2s + 2r − sr > 0, d.h. (s − 2)(r − 2) − 4 < 0. Also gilt (s − 2)(r − 2) < 4. Nun gibt es aber wegen r, s ≥ 3 nur f¨ unf Produkte (s − 2)(r − 2), die kleiner als 4 sind, n¨amlich 1 · 1, 1 · 2, 2 · 1, 1 · 3, 3 · 1. Daraus lassen sich s und r und schließlich l, k, n bestimmen. Es ergibt sich damit die untenstehende Tabelle. Die Abbildung 16.23 zeigt, daß es zu jeder dieser M¨oglichkeiten auch wirklich einen Graphen gibt.
Abbildung 16.23: Graphen der platonischen K¨orper
Baumeister: Mathematik IV / Stand: Juli 1998
467
s r
l
k
n
Platonischer K¨ orper
3 3
4
6
4
Tetraeder
4 3
6
12
8
Oktaeder
3 4
8
12
6
W¨ urfel
3 5 20 30 12
Ikosaeder
5 3 12 30 20
Dodekaeder
In der letzten Spalte haben wir sogenannte platonische K¨ orper zugeordnet. Man kann n¨amlich den platonischen Graphen regul¨are Polyeder zuordnen. Regul¨are Polyeder sind Figuren im Raum, die allseitig von ebenen Fl¨achenst¨ ucken, die kongruente Vielecke mit lauter gleichen Seiten und Winkeln sind. In der obigen Tabelle f¨allt eine gewisse Symmetrie auf: Vertauscht man r und s, so gibt es jeweils wieder einen platonischen Graphen, bei dem l und n vertauscht sind. Dahinter verbirgt sich der Sachverhalt des dualen Graphen. Wir gehen hier nicht darauf ein. Ziehen wir einige Schl¨ usse aus der eulerschen Polyederformel 16.2. Satz 16.30 Sei G = G(E, K) ein ebener Graph mit n := #E und k := #K . Ist k ≥ 2, so gilt k ≤ 3n − 6 . Beweis: Seien L die L¨ander von G und sei l := #L . Jedes Land wird von mindestens drei Kanten berandet, jede Kante geh¨ort zu h¨ochstens zwei L¨andern. Daraus folgt 3l ≤ 2k . Mit l = 2 − n + k aus der Polyederformel 16.2 ergibt sich k ≤ 3n − 6 . Folgerung 16.31 Sei G = G(E, K) ein ebener Graph mit n := #E und k := #K , der keine Kreise der L¨ange 3 enth¨alt. Ist k ≥ 2, so gilt k ≤ 2n − 4 . Beweis: In diesem Fall ist jedes Land des Graphen von mindestens vier Kanten berandet; das Ergebnis folgt dann wie das von Satz 16.30. Folgerung 16.32 Sei G = G(E, K) ein ebener Graph. Dann gibt es eine Kante vom Grad ≤ 5 . Beweis:
Baumeister: Mathematik IV / Stand: Juli 1998
468
Sei G = G(E, K) ein ebener Graph mit n := #E und k := #K . Annahme: d(v) ≥ 6 f¨ ur alle v ∈ E . Mit dem Handschlaglemma 16.23 folgt 2k =
X
d(v) ≥ 6n ,
v∈E
was mit Satz 16.30 einen Widerspruch ergibt. Beispiel 16.33 Die Graphen
Abbildung 16.24: Nichtplanare Graphen
sind nicht pl¨attbar, was man f¨ ur G5 mit Satz 16.30 und f¨ ur G3,3 mit Folgerung 16.31 einsieht. Entdeckt man diese Graphen als “Details“ in einem gr¨oßerem Graphen, so kann 2 man sicher sein, daß auch der gr¨oßere Graph nicht pl¨attbar ist.
16.4
Der Heiratssatz
Der sogenannte Heiratssatz gibt Antwort auf die Frage, unter welchen Bedingungen es m¨oglich ist, daß jeder Mann eine seiner Bekannten heiratet. Dabei sei vorausgesetzt, daß jeder in der M¨annergruppe einige unter der Frauengruppe als Bekannte hat. F¨ ur die L¨osbarkeit dieses Problems ist es offensichtlich notwendig, daß f¨ ur jedes k je k M¨anner insgesamt mindestens k Frauen kennen. Der Heiratsatz hat zum Inhalt, daß diese notwendige Bedingung schon hinreichend ist. Die Modellierung des Problems nimmt den Begriff des bipartiten Graphen auf. In Abbildung 16.25 sind zwei Situationen erfaßt, eine l¨osbare und eine unl¨osbare.
Abbildung 16.25: Zwei Beispiele zum Heiratssatz
Baumeister: Mathematik IV / Stand: Juli 1998
469
Im rechten Diagramm reicht der Bekanntenkreis {w, y} f¨ ur die Interessenten“{c, d, e} ” nicht aus. Die fetten Kanten in diesem Diagramm geben an, daß f¨ ur {a, b, c, e} und {v, w, x, y} die Aufgabe gel¨ost werden kann. Definition 16.34 Sei ein bipartiter Graph G = G(U ∪ V, K) gegeben. Ein Matching M ⊂ K ist eine Menge von Kanten, die paarweise keine Endecken gemeinsam haben. 2 In einem bipartiten Graphen G interessieren wir uns f¨ ur ein naximal großes Matching – der Name Matching“ leitet sich aus dem englischen Wort match“ (= Partner) ab – und ” ” insbesondere f¨ ur die Matching-Zahl zu m(G) von G, welche die Anzahl vom Kanten in einem maximal großen Matching bezeichnet. Im rechten Diagramm von Abbildung 16.25 ist m(G) = 4. Man beachte, daß es zur Matching-Zahl m(G) mehrere Realisierungen geben kann. Als erstes beantworten wir die Frage, wann m(G) = #U ist; in diesem Falle sprechen wir von einem perfekten Matching. Dazu zun¨achst folgende Bezeichnung: Ist G = G(E, K) ein Graph und ist A eine Teilmenge von E, so bezeichnen wir mit N(A) := {v ∈ V |u, v sind benachbart f¨ ur ein u ∈ U} die Menge der Nachbarn von A. Satz 16.35 Sei G = G(U ∪ V, K) ein bipartiter Graph. Dann ist m(G) = #U genau dann, wenn f¨ur jede Teilmenge A von U mit der Menge N(A) der Nachbarn von A gilt: #A ≤ #N(A)
(16.3)
Beweis: Die Notwendigkeit der Bedingung 16.3 ist klar. Sei nun die Bedingung 16.3 erf¨ ullt. Sei M ⊂ K ein Matching mit #M < #U; irgendein Matching l¨aßt sich immer finden. Wir wollen zeigen, daß M kein maximales Matching sein kann. Sei u0 ∈ U eine Ecke, die mittels M nicht gematcht wird, d.h., die in M nicht vorkommt. Da #N({u0}) ≥ #{u0} = 1 ist, existiert ein Nachbar v1 ∈ V. Falls v1 nicht gematcht ist in M, d.h., falls v1 ∈ / N(M) gilt, f¨ ugen wir die Kante u0v1 zum Match M hinzu. STOP. Falls v1 gematcht ist, gibt es also u1 ∈ U mit u1 v1 ∈ M f¨ ur u1 6= u0. Da #N({u0 , u1}) ≥ #{u0, u1} = 2 ist, gibt es eine Ecke v2 ∈ V mit v2 6= v1, welche zu u0 oder u1 benachbart ist. Falls u2 nicht gematcht ist in M, f¨ ugen wir wie oben eine Kante zu M hinzu; STOP. Anderenfalls existiert eine Kante u1 , u2 in M mit u2 ∈ {u0, u1 }. Wir fahren nun so fort und erreichen schließlich eine ungematchte Ecke vr , wobei jede Ecke vi benachbart zu mindestens einer Ecke ui mit i < j ist. Gehen wir von vr r¨ uckw¨arts, so erhalten wir einen Weg W = [vr , ua, va, ub , . . . vh , u0], dessen Kanten uava , ub vb, . . . alle in M liegen, w¨ahrend die Kanten vr ua , vaub , . . . vh ub , . . . , vh u0 nicht zu M geh¨oren. Wir ersetzen nun im Weg W die s M–Kanten durch die s + 1 Kanten, die nicht zu M geh¨oren. Das so entstehende Matching M ∗ hat eine Kante mehr.
Baumeister: Mathematik IV / Stand: Juli 1998
470
Im allgemeinen wird ein bipartiter Graph G = G(U ∪ V, K) kein Matching m mit #M = #U besitzen. Wie groß kann die Matchingzahl m(G) sein ? Falls #A − #N(A) > 0 ist f¨ ur eine Teilmenge A von U, so bleiben mindestens #a − #N(A) Ecken ungematcht, d.h. m(G) ≤ #U − (#A − #N(A)). Mit δ := max(#A − #N(A)) A⊂U
sehen wir m(G) ≤ #U − δ. (Beachte, daß δ ≥ 0 gilt wegen #∅ − #N(∅) = 0.) Satz 16.36 Sei G = G(U ∪ V, K) ein bipartiter Graph. Dann ist m(G) = #U − max(#A − #N(A)). A⊂U
Beweis: Sei δ := max(#A − #N(A)). Wir wissen schon m(G) ≤ #U − δ. Sei D eine neue EckenA⊂S
menge mit #D = δ. Damit f¨ uhren wir den Graphen G∗ = G(U ∪ (V ∪ D), K ∗ ) ein; K ∗ entsteht aus K, indem wir zu K alle Kanten zwischen U und D hinzunnehmen. F¨ ur A ⊂ U gilt in G∗ f¨ ur die Nachbarn N ∗ (A) : N ∗ (A) = N(A) ∪ D. Also haben wir
#N ∗(A) = #N(A) + δ ≥ #A,
und in G∗ existiert ein Matching M ∗ mit #M ∗ = #U nach Satz 16.35. Entfernen wir nun die Kanten aus M ∗ , die zu D f¨ uhren, so erhalten wir ein Matching M in G mit #M = #U − δ.
Bemerkung 16.37 Der Heiratssatz kann auf vielfache Weise kombinatorisch interpretiert werden, indem eine gegebene Situation als Matchingproblem aufgefaßt wird. Etwa l¨aßt sich damit f¨ ur eine Familie S = (S1 , . . . , Sn ) von Teilmengen einer gegebenen Menge A die Frage kl¨aren, ob es paarweise verschiedenen Elemente u1, . . . , un gibt mit ui ∈ Si , 1 ≤ i ≤ n (Ein solches Tupel (u1, . . . , un ) heißt Transversale von S.) Die notwendige und hinreichende Bedingung daf¨ ur ist #I ≥ #(∪i∈I Si ) f¨ ur alle I ⊂ {1, . . . , n}.
2
Die Konstruktion von maximalen Matchings ist die haupts¨achlich interessierende Frage. Algorithmen daf¨ ur gibt es !
Baumeister: Mathematik IV / Stand: Juli 1998
16.5
471
Gewichtete Graphen
In einem Graphen G = G(E, K) k¨onnen wir jedem Weg W , der u ∈ E mit v ∈ E verbindet, eine L¨ange l(W ) zuordnen: ist W = [u, w1, . . . ws , v] ein solcher Weg, so setzen wir l(W ) := s + 1 . Wenn wir allgemeiner jede Kante des Weges nicht mit eins, sondern mit einer reellen Zahl bewerten, werden wir zur folgenden Definition gef¨ uhrt. Definition 16.38 Sei G = G(E, K) ein Graph. (a) Eine Abbildung ω : K −→ IR heißt eine Gewichtsfunktion auf dem Graphen. Das Paar (G, ω) heißt ein gewichteter Graph. (b) Ist W = [u, w1, . . . , ws , v] ein Weg in G, der u mit v verbindet, so heißt lω (W ) := ω(uw1) + . . . + ω(ws v) die (mit ω) gewichtete L¨ange von W.
2 Je nach Anwendung kann es sich bei den Gewichten bzw. L¨angen um Zeitdauern, Kosten, Gewinne, Verluste und vieles andere handeln. Es ist klar, daß der Fall einer nichtnegativen Gewichtsfunktion der weitaus interessanteste ist, zumal negative Gewichte auch zu Problemen f¨ uhren k¨onnen. Wir vereinbaren daher, daß eine Gewichtsfunktion stets nichtnegativ ist. Definition 16.39 Sei G = G(E, K) ein Graph und sei ω : K −→ [0, ∞] eine Gewichtsfunktion auf G. Wir setzen f¨ur u, v ∈ E die verbindbar sind distω (u, v) := min{lω (W )|W Weg, der u, v verbindet} und distω (u, v) := ∞, falls u, v nicht verbindbar sind.
2
Beispiel 16.40 Betrachte den Graphen aus Abbildung 16.26, der etwa eine Straßenkarte in einer Ortschaft wiedergibt: Was ist der k¨ urzeste Weg von a nach e ? Wir k¨onnen nat¨ urlich alle Wege von a nach b auflisten und den k¨ urzesten heraussuchen. Gesucht ist aber ein systematisches Vorgehen,
Baumeister: Mathematik IV / Stand: Juli 1998
472
Abbildung 16.26: Ein gewichteter Graph
das die Vielzahl von Wegen, die große L¨ange besitzen, vermeidet. Um von a nach e zu kommen, kann man den optimalen Weg entweder von e aus oder von a aus konstruieren. Von a aus hat man dist(a, e) aus den Gr¨oßen dist ω (b, e) + lω (ab), dist ω (h, e) + lω (ah), dist ω (g, e) + lω (ag) herauszufinden. Damit ist der Schl¨ ussel der rekursiven Idee gefunden. Unten formulieren wir dies algorithmisch, hier im Beispiel geben wir die L¨osung so an, indem wir an jeder Ecke die Kosten“ notieren, die entstehen um dorthin von a aus zu kommen. ”
Abbildung 16.27: Ein gewichteter Graph
Wir lesen den optimalen Weg [ah, he] mit Kosten dist ω (a, e) = 3 ab.
2
Algorithmus von Dijkstra EIN Gegeben sei ein mit ω : K −→ [0, ∞] gewichteter Graph G = G(E, K) und eine Ecke u0 ∈ E. Schritt 0 Setze d(u0 ) := 0, d(u) := ∞ f¨ ur u ∈ E\{u0 }. Setze U := E. Schritt 1 Falls U = ∅, dann gehe zu AUS. Schritt 2 Finde u∗ ∈ U mit d(u∗) = min d(u). u∈U
Schritt 3 F¨ ur alle u ∈ U mit u∗ u ∈ K setze d(u) := min{d(u), d(u) + lω (u∗ u)} Schritt 4 Setze U := U\{u∗} und gehe zu Schritt 1.
Baumeister: Mathematik IV / Stand: Juli 1998
473
AUS F¨ ur jedes u ∈ E wird ein Wert d(u) errechnet, der die k¨ urzeste L¨ange von u0 nach u angibt. Der Schritt 2 ist noch nicht pr¨azise formuliert, da keine Eindeutigkeit f¨ ur u∗ vorliegen muß. Man kann aber grunds¨atzlich festlegen, daß man die kleinste“ Ecke bez¨ uglich ” einer Listenzuordnung nimmt. ¨ Uberlegen wir uns noch den Rechenaufwand, der im Algorithmus von Dijkstra anf¨allt. Sicherlich kommt man mit #U − 1 Vergleichen aus. In Schritt 3 hat man maximal #U Wertzuweisungen vorzunehmen. Die Schleife von Schritt 1 bis Schritt 4 ist insgesamt #E mal zu durchlaufen. Da immer #U ≤ #E gilt, ergeben sich maximal (#E)2 Operationen. Dies bedeutet, daß die Laufzeit des Algorithmus polynomial in der Gr¨oße des Problems ist.
Kapitel 17 Elementare Statistik Das Kapitel u ¨ber Statistik ist haupts¨achlich der Verbindung der Theorie mit der Wirklichkeit gewidmet. Kurz ausgedr¨ uckt: Es handelt sich hier um das Problem, aus der Betrachtung eines (relativ kleinen) Teils einer großen Menge auf deren Gesetzm¨aßigkeiten zu schließen.
17.1
Merkmale
Im Alltag, in Wissenschaft und Technik, in Verwaltungen fallen große Datenmengen an oder werden gezielt erhoben. Im Regelfall sind dies Daten u ¨ber ein Merkmal X, das an den Elementen einer (umfangreichen) Beobachtungsmenge der Grundgesamtheit von Individuen oder Objekten in unterschiedlichen Auspr¨agungen zu erkennen ist. Das Ziel von Datenanalyse ist dann, eine aufschlußreiche Beschreibung der Verteilung dieser Auspr¨agung u ¨ber die Beobachtungsmenge zu gewinnen. Unter einer statistischen Aussage u ¨ ber X verstehen wir dann eine Aussage u ¨ber diese Verteilungen. Wahrscheinlichkeiten kommen dann ins Spiel, wenn wir in X eine Zufallsgr¨oße sehen (oder vermuten). Beispiel 17.1 Der Fachbereich Mathematik der Universit¨at startet eine Umfrage unter ehemaligen Studenten, die in den letzten f¨ unf Jahren den Abschluß als Diplommathematiker erreicht haben. Es wird eine Fragebogen erarbeitet und verschickt mit folgenden Fragen: (1) Wieviele Monate dauerte es vom Erwerb des Diploms bis zur ersten Anstellung ? (2) Sind Sie selbst¨andig erwerbst¨atig oder war ihre erste Anstellung an einer Universit¨atseinrichtung, in einer Großfirma (mehr als 200 Mitarbeiter), in einem mittelgroßen Betrieb (30 bis 200 Mitarbeiter), in einer Kleinfirma (weniger als 30 Mitarbeiter) oder sind Sie noch ohne Anstellung ? (3) Wie sch¨atzen Sie Ihr Gehalt ein ? H¨oher, etwa gleich oder niedriger als das Gehalt von Diplominformatikern ? Die erste Frage bezieht sich auf ein quantitatives Merkmal, als Antwort kommt eine Zahl, die zweite Frage bezieht sich auf ein qualitatives Merkmal, als Antwort ist ein Element aus der Menge mit den Elementen 474
Baumeister: Mathematik I / Stand: April 1997
475
selbst¨andig, Universit¨atseinrichtung, Großbetrieb, Mittelbetrieb, Kleinfirma, ohne Anstellung zu entnehmen. Die dritte Frage bezieht sich auf ein Rangmerkmal, der Befragte soll sein Gehalt in eine vorgegebenen Liste einordnen. Die Beobachtungsmenge ist hier die Menge der erfolgreichen Studienabg¨anger im Studiengang Diplommathematiker “. 2 ” Beispiel 17.2 Eine Universit¨at legt Datenmaterial u ufungsergebnisse der letzten 10 Jahre vor. ¨ber Pr¨
Als politische Botschaft“ wird verk¨ undet: ” • In allen Fachbereichen schnitten die Kandidatinnen besser ab als ihre m¨annlichen Konkurrenten. • Frauen sind an der Universit¨at benachteiligt, aber erheblich leistungsf¨ahiger ! Was ist dran an dieser Botschaft ? Die Prozentzahlen sind einigermaßen verwirrend: • Von der Gesamtheit haben 18.3% Frauen bestanden, aber 44.4% der M¨anner. • Von den 7000 weiblichen Kandidaten haben 62.1% bestanden, von den m¨annlichen aber 64.4%. Die Analyse erfolgt sp¨ater !
2
Definition 17.3 Sei Ω eine nichtleere Menge. (a) Eine Abbildung X : Ω −→ IR heißt quantitatives Merkmal; den Wert X(ω) f¨ur ein Element ω ∈ Ω nennt man seine Auspr¨ agung. (b) Die Beobachtung von Auspr¨agungen x1 , . . . , xn von n Elementen aus Ω nennt man eine Meßreihe (oder Stichprobe); die Zahl n heißt der Stichprobenumfang.
2 Beachte: Die Werte in einer Stichprobe m¨ ussen nicht notwendigerweise verschieden sein. Beispiel 17.4 Zur Erhebung aus Beispiel 17.1. Ein Teil (98) der Befragten (107) antwortete. Die Auswertung der Antworten auf die 3. Frage ergab:
Baumeister: Mathematik I / Stand: April 1997
476
Wartezeit x (Monate) Absolute H¨aufigkeit Relative H¨aufigkeit 0 10 0.10 1 8 0.08 2 15 0.15 3 48 0.48 4 1 0.01 5 2 0.02 6 3 0.03 >6 11 0.11
2 Definition 17.5 Sei S = {x1, . . . , xn} eine Stichprobe zum Merkmal X. (a) Wir setzen 1 #{X = x}χS (x) , x ∈ IR, n und nennen die so definierte Funktion hS : IR −→ IR die H¨ aufigkeitsfunktion oder empirische Dichte des Merkmals X bei der Stichprobe S. hS (x) :=
(b) Wir setzen 1 #{X ≤ x}χS (x) x ∈ IR, n und nennen die so definierte Funktion HS : IR −→ IR die empirische Verteilungsfunktion. HS (x) :=
2 (Der Vergleich mit Verteilung und Verteilungsfunktion wird deutlich, wenn wir als Wahrscheinlichkeitsmaß das Z¨ahlmaß verwenden.) Die Funktionen hS , HS erf¨ ullen offenbar die folgenden Bedingungen: • 0 ≤ hS (x) ≤ 1 , 0 ≤ HS (x) ≤ 1 , x ∈ IR . • HS ist monoton wachsend. • x→∞ lim HS (x) = 1, x→∞ lim HS (x) = 0.
Beispiel 17.6 Aus der Tabelle in 17.4 lesen wir ab: (A) Zehn Prozent der befragten Mathematikabsolventen fanden ihre Arbeit bereits vor Ende ihres Studiums (hS (0) = 0.10). (B) Vier von f¨ unf Befragten fanden ihre Arbeit bereits drei Monate nach Beendigung des Studiums (HS (3) = 0.81).
Baumeister: Mathematik I / Stand: April 1997
477
(C) Mehr als zehn Prozent der Befragten hatten nach einem halben Jahr noch keinen Job.
2 17.2
Statistische Parameter
Stichproben kann man durch die Angabe von sogenannten Kenngr¨oßen“ kennzeichnen. ” Hier besprechen wir die beiden Kenng¨oßen, die sp¨ater als Approximation f¨ ur den Erwartungswert und die Varianz angesehen werden k¨onnen. Definition 17.7 Sei {1, . . . , xn } eine Stichprobe des Merkmals X. Dann heißt das arithmetische Mittel 1 x := (x1 + · · · + xn) n das Stichprobenmittel von S. 2 Das Stichprobenmittel besitzt eine Optimalit¨atseigenschaft. Satz 17.8 Sei S = {x1, . . . , xn} eine Stichprobe zum Merkmal X. Dann gilt mit dem Stichprobenmittel x : n n X
(xi − x)2 = inf
x∈IR
i=1
X
(xi − x)2
i=1
Beweis: n P Betrachte f(x) := (xi − x)2 , x ∈ IR . Es gilt f¨ ur xˆ ∈ IR : i=1
0
f (ˆ x) = −2
n X
00
(xi − xˆ), f (ˆ x) = 2
i=1
n X
1 = 2n > 0.
i=1
Also ist xˆ ein Minimum von f genau dann, wenn f 0 (ˆ x) = 0 gilt; siehe Satz 8.18. Die 0 x) = 0 f¨ uhrt zu Gleichung f (ˆ n X i=1
Bemerkung 17.9
xi = nˆ x, d.h xˆ =
n 1X xi = x¯ n i=1
Baumeister: Mathematik I / Stand: April 1997
478
Eine weitere Kenngr¨oße einer Stichprobe S = {x1, . . . , xn} ist der Stichprobenmedian x˜ : (
x˜ :=
x n+1 2 1 n + x n+1 ) (x 2 2
, falls n ungerade , falls n gerade
2
Dieser Stichprobenmedian hat auch eine Optimalit¨atseigenschaft, n¨amlich n X
|xi − x˜| = inf
x∈IR
i=1
n X
|xi − x|
i=1
Die Schwierigkeit beim Nachweis dieser Eigenschaft liegt darin, daß die Funktion g : IR 3 x 7−→
n X
|xi − x| ∈ IR
i=1
nicht u ¨ berall differenzierbar ist. Aus der Darstellung g(x) =
l X
n X
i=1
i=l+1
(x − xi ) +
(xi − x) = (2l − n)x +
n X
xi −
I=l+1
l X
xi ,
i=1
wobei o.E. x1 ≤ x2 ≤ . . . ≤ xn (Umnumerierung) gelte und l so gew¨ahlt sei, daß xl ≤ x ≤ xl+1 gilt, kann man durch Fallunterscheidung (n gerade/n ungerade) das Ergebnis ermitteln. Weitere Kenngr¨oßen, auf die wir nicht eingehen, sind geometrische und harmonische Mittel und Spannweiten. 2 Definition 17.10 Sei S = {x1, . . . , xn } eine Stichprobe zum Merkmal X. Als Maß f¨ur die Abweichung von Stichprobenmittel x dient die Stichprobenvarianz s2x := Die Zahl sx :=
n 1 X (xi − x)2 . n − 1 i=1
v u u t
n 1 X (xi − x)2 n − 1 i=1
heißt Stichprobenstreuung oder Standardabweichung. Zur praktischen Berechnung von s2x ist oft die G¨ ultigkeit der Identit¨at s2x
n 1 X = ( x2i − nx) n − 1 i=1
n¨ utzlich (Nachweis!). Aus der Definition von sx leitet man leicht die Aussage √ √ xi ∈ [x − n − 1sx , x + n − 1sx ] , 1 ≤ i ≤ n,
2
Baumeister: Mathematik I / Stand: April 1997
479
ab. Sie zeigt deutlich, wie die Stichprobenstreuung die Ausdehnung der durch x1, . . . , xn gegebenen Punktmenge auf der Zahlengeraden beschreibt. Die Standardabweichung gibt Auskunft, wie sehr die Stichprobenwerte um ihr Zentrum streuen. Sie hat gegen¨ uber der Stichprobenvarianz den Vorteil, daß sie dieselbe Dimension wie das beobachtete Merkmal X hat. Bemerkung 17.11 1 den Faktor In der Definition der Stichprobenvarianz w¨ urde man anstatt des Faktors n−1 1 2 erwarten. Man beachte aber, daß s bei festem Stichprobenmittel x eine Funktion von x n n − 1 Variablen ist, da z.B. xn aus der Gleichung n−1 X
xi + xn = x
i=1
2
ermittelt und in s2x eingesetzt werden kann.
17.3
Paare von Messungen
Liegt eine Stichprobe S = {(x1 , y1), . . . , (xn, yn )} eines zweidimensionalen“ Merkmals ” X, Y vor, so sind die Stichprobenparameter Stichprobenmittel, Stichprobenvarianz, Standardabweichung entsprechend definiert: (x, y) := (
n n 1X 1X xi , yi ), n i=1 n i=1
v u
s2x
n n u 1 X 1 X := (xi − x)2 , sx := t (xi − x)2, n − 1 i=1 n − 1 i=1
s2y
n n u 1 X 1 X := (yi − y)2 , sy := t (yi − y)2 n − 1 i=1 n − 1 i=1
v u
Dazu kommt nun noch die Stichprobenkovarianz s2x,y :=
n 1 X (xi − x)(yi − y). n − 1 i=1
Als Veranschaulichung einer solchen zweidimensionalen“ Stichprobe ist der Eintrag von ” (xi , yi ) als Punkt in der Ebene IR 2 vern¨ unftig. Stellt sich nun heraus, daß diese Punkte nahezu auf einer Geraden liegen, so k¨onnen wir versuchen, eine Ausgleichsgerade“, auch ” Regressionsgerade“ von Y bzgl. X genannt, die sich der Lage der Punkte m¨oglichst ” gut anpaßt, einzuzeichnen. Aus dieser Geraden k¨onnen wir dann ablesen, welcher Y − ” Wert“zu einem vorgebenen X-Wert“ zu erwarten ist. Wir haben ein Maß f¨ ur die G¨ ute ” der Geraden bzgl. der Stichproben anzugeben. Ein solches Maß wird durch das Prinzip der kleinsten Quadrate, das auf C.F. Gauß zur¨ uckgeht, definiert. Die Gerade ist so zu legen, daß die Summe der Quadrate aller Abst¨ande der Punkte von der Geraden m¨oglichst klein wird. Dies bedeutet, daß die Aufgabe
Baumeister: Mathematik I / Stand: April 1997
480
Finde a, b ∈ IR so , daß n X
n X
i=1
i=1
(y1 − bxi − a)2 ≤
(yi − bxi − a)2
f¨ ur alle a, b ∈ IR gilt. zu l¨osen ist; dabei ist die Geradendarstellung x 7−→ y := bx + a mit Steigung b und Achsenabschnitt a eingearbeitet. Zur L¨osung ist also das Minimum der Funktion n q(a, b) :=
X
(yi − bxi − a)2 , a, b ∈ IR
i=1
zu finden. Zu festem a bzw. b muß sicher q(·, b) bzw. q(a, ·) ein Minimum besitzen. Daf¨ ur kennen wir die notwendige Bedingung, daß die Ableitung verschwinden muß. Dies bedeutet: n X
(yi − bxi − a) = 0 ,
n X
(yi − bxi − a)xi = 0.
i=1
I=1
Daraus liest man ab: a=
n n 1X bX yi − xi = y − bx n i=1 n i=1
n X
(yi − bxi − y + bx)xi = 0,
i=1 n X
n X
i=1
i=1
(yi − y)xi − b
(xi − x)xi = 0
Damit sind Kandidaten f¨ ur die gesuchten Geradenparameter a, b gefunden: b=
s2x,y , a = y − bx. s2x
(17.1)
Allerdings ist nun noch nicht klar, ob dieses Paar (a, b) wirklich eine Minimum von q liefert. Aus (17.1) lesen wir ab, daß die Regressionsgerade die sch¨one Eigenschaft besitzt, daß der Stochprobenmittelwert (x, y) auf dieser Geraden liegt.
Baumeister: Mathematik I / Stand: April 1997
17.4
481
Die Normalverteilung
Definition 17.12 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum. Eine Zufallsgr¨oße X : Ω −→ IR heißt kontinuierliche Zufallsgr¨ oße, wenn es eine Funktion f : IR 7−→ IR gibt mit FX (x) := P ({X ≤ a}) =
Za
f(t)dt ∞
f¨ur alle a ∈ IR . (Dabei ist
Ra −∞
f(t)dt) so zu verstehen:
Ra −∞
f(t)dt = lim
Ra
u→−∞ u
f(t)dt .)
Die Funktion f heißt dann Dichtefunktion und FX wieder Verteilungsfunktion.
2
Die Rechenregeln zur Verteilungsfunktion behalten ihre G¨ ultigkeit, eine Besonderheit ist P ({a ≤ x ≤ b} = P ({a < X ≤ b}), a ≤ b, dank der Tatsache, daß ein Integral
Ra a
f(t)dt stets verschwindet.
Definition 17.13 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und sei X : Ω −→ IR eine kontinuierliche Zufallsgr¨oße mit Dichte f . Wir sagen, daß der Erwartungswert von X existiert, wenn das (uneigentliche) Integral Z∞
|f(t)|dt := lim lim
a→−∞ b→∞
∞
existiert.
Z∞
IE (X) :=
Zb
|f(t)|dt
a
|f(t)|dt
−∞
2
heißt dann Erwartungswert von X .
Definition 17.14 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und sei X : Ω −→ IR eine kontinuierliche Zufallsgr¨oße mit Dichte f . Wir sagen, daß die Varianz von X existiert, wenn das (uneigentliche) Integral Z∞
(x − IE (X)) f(x)dx := lim lim
Zb
2
a→−∞ b→∞
∞
existiert.
Z∞
IVar(X) := −∞
heißt dann Varianz von X .
(x − IE (X))2 f(x)dx
a
(x − IE (X))2 f(x)dx
2
Baumeister: Mathematik I / Stand: April 1997
482
Wir f¨ uhren drei Beispiele f¨ ur kontinuierliche Zufallsgr¨oßen an.
Gleichverteilung Bildbereich:
WX = IR
Parameter der Verteilung: α, β ∈ IR Ra
1 dx χ[α,β](x) β − α
Verteilung:
P ({X ≤ a}) =
Erwartungswert:
β IE (x) = α + 2 (β − α)2 IVar (X) = 12
Varianz:
−∞
Beispiel 17.15 Beim Drehen eines Gl¨ ucksrades mit zuf¨alligem Ausgang, das nicht in Sektoren eingeteilt ist, kommt eine kontinuierliche gleichverteilte Zufallsgr¨oße ins Spiel: Wir beobachten den Winkel (oder das Bogenmaß) α ∈ [0, 2π) . Als Wahrscheinlichkeitsraum bietet sich an:
Ω := [0, 2π); Σ := kleinste σ–Algebra, die alle offenen Teilintervalle von [0, 2π) enth¨alt; P := Wahrscheinlichkeitsmaß, das auf offenen Intervalle mit der Intervall¨ange, dividiert du Die oben gew¨ahlte Zufallsgr¨oße ist dann die Idebntit¨at auf ω . Hier sehen wir, daß die Tatsache pα := P ({X = α}) = 0 , α ∈ [0, 2π) , seine Berechtigung hat. W¨are etwa pα∗ > 0 f¨ ur ein α∗ , so m¨ ußte palpha = pα∗ f¨ ur alle α ∈ [0, 2π) sein und die Bedingung P (Ω) = 1 w¨are nicht erf¨ ullt. 2
Normalverteilung Bildbereich:
WX = IR
Parameter der Verteilung: µ, σ Verteilung:
P ({X ≤ a}) =
Erwartungswert:
IE (X) = µ
Varianz:
IVar (X) = σ 2
Exponentialverteilung
Ra −∞
fµ,σ2 (t)dt
Baumeister: Mathematik I / Stand: April 1997 Bildbereich:
483
WX = (0, ∞)
Parameter der Verteilung: λ > 0 Verteilung:
P ({X ≤ a}) =
Erwartungswert:
1 IE (X) = λ IVar (X) = 12 λ
Varianz:
Ra −∞
λe−λt χ(0,∞)(t)dt
Wir haben die Binominalverteilung kennengelernt. Ihre Verteilung enth¨alt die Parameter p und n. Wir haben auch schon gesehen (Satz 7.30), daß man bei einem Grenz¨ ubergang n → ∞, p → 0, pn = λ , die Poissonverteilung erh¨alt. Macht man nun den Grenz¨ ubergang n → ∞ bei festem p, so erh¨alt man als N¨aherung f¨ ur die Binominalverteilung die Normalverteilung in folgendem Sinne: 1 (k − np2 ) P ({X = k}) ≈ q exp(− ) 2np(1 − p) 2πnp(1 − p) Diese N¨aherung ist schlecht, wenn p nahe 0 oder 1 liegt oder wenn n klein ist. In der Praxis betrachtet man die N¨aherung als brauchbar, wenn etwa np(1 − p) ≥ 10 gilt.
17.5
Sch¨ atzen von Parametern
Das Ziel von Sch¨atzverfahren ist es, aus Beobachtungen/Stichproben Schl¨ usse zu ziehen. Man wird dabei nicht darauf bestehen d¨ urfen, daß die Schl¨ usse stets richtig sind. Man wird dann mit dem Schlußverfahren zufrieden sein, wenn der Schaden, den der Schluß, basierend auf zuf¨alligen Beobachtungen, mit sich bringt, klein ist. Wahrscheinlichkeit kommt u ¨ ber die Auswahl der Stichprobe ins Spiel. Beispiel 17.16 Ein Teich enth¨alt eine unbestimmte Zahl N von Fischen, die gesch¨atzt werden soll. Dazu werden M Fische gefangen, mit einem weißen Fleck markiert und wieder ausgesetzt. Man wartet eine Weile, dann werden in einem zweiten Fischzug n Fische gefangen, und die Zahl x der markierten Fische in diesem zweiten Fang ermittelt. ˆ von N ergibt sich aus folgender Uberlegung: ¨ Eine plausible Sch¨atzung N Wenn x nicht zu x klein ist, m¨ ußte der Anteil n der markierten Fische am zweiten Fang ungef¨ahr gleich dem M ˆ eine gute Sch¨atzung Anteil N der markierten Fische am Gesamtbestand sein. Wenn N von N ist, m¨ ußte also x M ˆ ≈ Mn ≈ , d.h. N ˆ n x N ˆ gelten. Es liegt daher nahe, als Sch¨atzwert N(x) die zu MNn benachbarte ganze Zahl zu w¨ahlen. Die Wahrscheinlichkeit, x markierte Fische im zweiten Fang zu haben, ist
PN (x) =
M x
N −M n−x N n
(0 ≤ x ≤ n)
Baumeister: Mathematik I / Stand: April 1997
484
ˆ maximiert (Nachweis !) diese Wahrscheinlichkeit, d.h. P ˆ (x) = Der obige Sch¨atzwert N N max PN (x). 2 N ∈IN
17.6
Testen
Literaturverzeichnis [1] AGYRIS, J., FAUST, G., HAASE, M.: Die Erforschung des Chaos, Vieweg–Verlag, Braunschweig, 1993 [2] AIGNER, M.: Graphentheorie, Teubner Studienb¨ ucher, Stuttgart, 1983 [3] ANTON, H.: Lineare Algebra, Spektrum–Verlag, Heidelberg, 1994 [4] BARTHOLOME, A., RUNG, J., KERN, H.: Zahlentheorie f¨ ur Einsteiger, Vieweg– Verlag, Braunschweig, 1994 [5] BAUMEISTER, J.: Lineare Algebra I,II, Vorlesungsskript, Universit¨at Frankfurt/Main, 1995/96 [6] BEHR, H.: Lineare Algebra und analytische Geometrie, Vorlesungsskript, Universit¨at Frankfurt/Main, 1977/78 [7] BLANKENAGEL, J.: Elemente der Angewandten Mathematik, BI Wissenschaftsverlag, Mannheim, 1991 [8] BOSCH, K.: Elementare Einf¨ uhrung in die Wahrscheinlichkeitsrechnung, Vieweg– Verlag, Braunschweig, 1995 ´ J.: Geschichte der Mathematik 1700 – 1900, Vieweg, Braunschweig, [9] DIEUDONNE, 1985 [10] DINGES, H., ROST, H.: Prinzipien der Stochastik, Teubner Studienb¨ ucher, Stuttgart, 1982 [11] EBBINGHAUS, H.D., u.a.: Zahlen, Springer, New York, 1988 [12] ENGEL, A.: Mathematik I, Vorlesungsskript, Universit¨at Frankfurt/Main, 1993/94 [13] ENGEL, A.: Mathematik II, Vorlesungsskript, Universit¨at Frankfurt/Main, 1994 [14] ENGEL, A.: Mathematik III, Vorlesungsskript, Universit¨at Frankfurt/Main, 1981/82 [15] EKELAND, I.: Zufall, Gl¨ uck und Chaos, C. Hanser Verlag, M¨ unchen, 1992 [16] EVES, H., NEWSOM, C.,V.: An introduction to the Foundations and fundamental concepts of mathematics, Holt, Rinehart and Winston, New York, 1965
i
[17] FILLER, A.: Euklidische und nichteuklidische Geometrie, BI Wissenschaftsverlag, Mannheim, 1993 [18] FORSTER, O.: Analysis 1 und 2, Vieweg, Braunschweig, 1976 (Teil 1) und 1979 (Teil 2) ¨ [19] FUHRER, L.: Mathematik I: Einf¨ uhrung in die Stochastik, Vorlesungsskript, Universit¨at Frankfurt/Main, 1993/94 [20] GARDNER, M.: Mathematischer Karneval, Ullstein, 1975 [21] GERICKE, H.: Mathematik in Antike und Orient, Fourier, Wiesbaden, 1992 [22] GREINER, M., TINHOFER, G.: Stochastik f¨ ur Studienanf¨anger der Informatik, C. Hanser Verlag, M¨ unchen, 1996 [23] GRIFFITHS, H.B., HILTON, P.J.: Klassische Mathematik in zeitgem¨aßer Darstellung, Band 1,2,3, Vandenhoeck & Rupprecht, G¨ottingen, 1976 ¨ [24] GUNTHER, B.: Mathematik III: Einf¨ uhrung in die Geometrie, Vorlesungsskript, Universit¨at Frankfurt/Main, 1995/96 [25] HILBERT, D.: Grundlagen der Geometrie, Teubner Studienb¨ ucher, Stuttgart, 1987 [26] IHRINGER, T.: Diskrete Mathematik, Teubner Verlag, Stuttgart, 1994 [27] INDLEKOFER, K.–H.: Zahlentheorie, Birkh¨auser Verlag, Stuttgart, 1978 [28] KOECHER, M.: Lineare Algebra und analytische Geometrie, Springer, New York, 1985 [29] KOECHER, M.: Klassische elementare Analysis, Birkh¨auser, Basel, 1987 ¨ [30] KRAMER, W.: Denkste! Trugschl¨ usse aus der Welt des Zufalls und der Zahlen, Campus, Frankfurt, 1995 ¨ [31] KNORRER, H.: Geometrie, Vieweg, Braunschweig, 1996 [32] KRENGEL, U.: Einf¨ uhrung in die Wahrscheinlichkeitstheorie und Statistik, Vieweg, Braunschweig, 1988 [33] KROPP, G.: Geschichte der Mathematik, Sammlung Aula, Wiesbaden, 1985 [34] LENZ, H.: Vorlesungen u ¨ber projektive Geometrie, Akademische Verlagsgesellschaft, Leipzig, 1965 [35] LENZ, H.: Grundlagen der Elementarmathematik, C. Hanser Verlag, M¨ unchen– Wien, 1976 [36] MAIBAUM, G.: Wahrscheinlichkeitsrechnung, Verlag Harri Deutsch, Frankfurt/M., 1972 [37] MALLE, H.: Mathematik erleben, Harry Deutsch, Frankfurt/M., 1993 ii
Baumeister: Mathematik I / Stand: April 1997
iii
[38] MESCHKOWSKI, H.: Einf¨ uhrung in die moderne Mathematik, BI Wissenschaftsverlag, Mannheim, 1963 [39] PADBERG, F.: Elementare Zahlentheorie, Verlag Herder, Mainz, 1972 [40] PAULOS, J.A.: Von Algebra bis Zufall, Campus, Frankfurt, 1995 [41] REMMERT, R., ULLRICH, P.: Elementare Zahlentheorie, Birkh¨auser Verlag, Stuttgart, 1987 [42] RUELLE, D.: Zufall und Chaos, Springer, Berlin, 1994 [43] SCHEID, H.: Elemente der Geometrie, BI Wissenschaftsverlag, Mannheim, 1991 [44] SCHMID, W., BORSDORF, W.: Sph¨arische Trigonometrie, Band I und II, Bergakademie Freiberg, 1959 [45] SCHEID, H.: Elemente der Arithmetik und Algebra, BI Wissenschaftsverlag, Mannheim, 1991 [46] SOMINSKIJ, I.S.: Die vollst¨andige Induktion, Deutscher Verlag der Wissenschaft [47] STILLWELL, J.: Elements of Algebra, Springer, Berlin, 1994 [48] STORCH, U., WIEBE, H.: Lehrbuch der Mathematik, Band I, BI Wissenschaftsverlag, Mannheim, 1989 [49] STROTH, G.: Lineare Algebra, Heldermann, Lemgo, 1995 [50] STRUIK, D.J.: Abriß der Geschichte der Mathematik, VEB Deutscher Verlag der Wissenschaften, Berlin, 1980 [51] TIETZE, H.: Gel¨oste und ungel¨oste Mathematische Probleme aus alter und neuer Zeit, Verlag C.H. Beck, M¨ unchen, 1959 [52] TOTH, G.: Glimpses of Algebra and Geometry, Springer–Verlag, Berlin, 1998 [53] TURAU, V.: Algorithmische Graphentheorie, Addison–Wesley, 1996