Skript
Lineare Algebra Prof. Dr. C.P. Schnorr http://www.mi.informatik.uni-frankfurt.de Johann-Wolfgang-Goethe Universi...
455 downloads
1114 Views
1MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Skript
Lineare Algebra Prof. Dr. C.P. Schnorr http://www.mi.informatik.uni-frankfurt.de Johann-Wolfgang-Goethe Universit¨at Fachbereiche Mathematik und Informatik Frankfurt am Main 21. Juli 2000
Das vorliegende Skript ist eine Ausarbeitung der Vorlesungen Lineare Algebra I“ und ” Lineare Algebra II“ aus dem Wintersemester 1998/99 und Sommersemester 1999 an ” der Johann-Wolfgang-Goethe Universit¨at, Frankfurt am Main. In der vorliegenen Version sind Fehler der Auflage vom 4.Jan.2000 behoben (dank der detailierten Fehlerliste von Thomas Rupp). F¨ ur Hinweise auf weitere Fehler sind wir weiterhin dankbar.
Von Roger Fischlin, Marc Fischlin und Matthias Rupp 1999 u ¨berarbeitet und in LATEX 2ε gesetzt.
Inhaltsverzeichnis
Teil 1. Lineare Algebra I Kapitel 1. Lineare Gleichungssysteme
3
§1.
Gauß-Algorithmus
3
§2.
Gauß-Algorithmus und Matrizen
9
Kapitel 2. K¨orper, Ringe und Gruppen
13
§1. K¨orper
13
§2. Ringe und Schiefk¨orper
19
§3. Gruppen
21
§4. Homomorphismen
23
§5. Vom Ring Z abgeleitete K¨orper
26
Kapitel 3. Vektorr¨aume
29
§1. Vektorraum und Untervektorraum
29
§2. Lineare Unabh¨angigkeit, Basen und Dimension
32
Kapitel 4. Polynome
41
§1.
Vektorraum und Ring der Polynome
41
§2.
Division mit Rest
48
§3.
Nullstellen
51
§4.
Interpolation
55
Kapitel 5. Der Rang von Matrizen
59
§1.
Zeilenrang und Spaltenrang
59
§2.
Rang und lineare Gleichungssysteme
61
Kapitel 6. Lineare Abbildungen §1.
Eigenschaften
63 63 iii
iv
Inhaltsverzeichnis
§2.
Darstellende Matrix
Kapitel 7. Lineare Codes
65 71
§1.
Grundbegriffe
71
§2.
Gitter und Kugelpackungen
76
§3.
Generator- und PCH-Matrix
77
§4.
Hamming-Codes
80
Kapitel 8. Direkte Summe
83
§1.
Orthogonales Komplement
83
§2.
Direkte Summe
85
Kapitel 9. Volumina und Determinanten
89
§1.
Volumina
89
§2.
Determinanten
92
§3.
Permutationen und Leibniz’sche Determinantenformel
95
§4.
Eigenschaften
99
Kapitel 10. Normalformen und Eigenwerte
105
§1.
Eigenwerte und Eigenvektoren
105
§2.
Charakteristisches Polynom
110
§3.
Normalformen
114
Kapitel 11. Euklidische Vektorr¨aume
117
§1.
Vektornorm
117
§2.
Matrixnorm
119
§3.
Skalarprodukt
122
§4.
Orthogonale Abbildungen und Matrizen
127
Teil 2. Lineare Algebra II Kapitel 12. Konvexe Geometrie
133
§1.
Konvexe Mengen
133
§2.
142
§3.
Funktionen u ¨ber konvexen Mengen Kegel und Farkas’ Lemma
§4.
Eulers Polyederformel
150
Kapitel 13. Lineare Programmierung
153
145
§1.
Einleitung
153
§2.
Ecken und Basisl¨osungen
154
§3.
Simplex-Algorithmus
159
§4.
Simplex-Tableau
164
§5.
Dualit¨at
169
Inhaltsverzeichnis
v
Kapitel 14. Reelle und komplexe Vektorr¨aume §1. Dualit¨at linearer R¨aume §2. Bilineare, Sesquilineare und quadratische Formen §3. Hauptachsentransformation symmetrischer Matrizen §4. Unit¨are Endomorphismen und Matrizen §5. Normalform selbstadjungierter Endomorphismen
173 173 176 181 184 186
Kapitel 15. Endliche K¨orper §1. Charakteristik §2. Primk¨orper §3. Konstruktion endlicher K¨orper §4. Struktur der multiplikativen Gruppe endlicher K¨orper
191 191 193 194 198
Kapitel 16. Gittertheorie §1. Gitter §2. Gitterreduktion
201 201 205
Anhang A. Grundbegriffe §1. Notationen §2. Logik §3. Beweistechniken §4. Mengen, Relationen und Funktionen
211 211 211 214 216
¨ Anhang B. Ubungsaufgaben ¨ §1. Ubungsblatt 1 ¨ §2. Ubungsblatt 2 ¨ §3. Ubungsblatt 3 ¨ §4. Ubungsblatt 4 ¨ §5. Ubungsblatt 5 ¨ §6. Ubungsblatt 6 ¨ §7. Ubungsblatt 7 ¨ §8. Ubungsblatt 8 ¨ §9. Ubungsblatt 9 ¨ §10. Ubungsblatt 10 ¨ §11. Ubungsblatt 11 ¨ §12. Ubungsblatt 12 ¨ §13. Ubungsblatt 13 ¨ §14. Ubungsblatt 14 ¨ §15. Ubungsblatt 15 ¨ §16. Ubungsblatt 16 ¨ §17. Ubungsblatt 17
219 219 219 220 221 222 222 223 223 224 225 225 226 227 227 227 228 228
vi
Inhaltsverzeichnis
¨ §18. Ubungsblatt 18 ¨ §19. Ubungsblatt 19 ¨ §20. Ubungsblatt 20
229
¨ §21. Ubungsblatt 21 ¨ §22. Ubungsblatt 22
230
229 230 231
Literaturverzeichnis
233
Index
235
Teil 1
Lineare Algebra I
Kapitel 1
Lineare Gleichungssysteme
Zum L¨osen linearer Gleichungssysteme lernen wir mit dem Gauß-Verfahren einen wichtigen Algorithmus der linearen Algebra kennen.
1. Gauß-Algorithmus Wir betrachten lineare Gleichungen der Form a1 x1 + a2 x2 + . . . + an xn = b u ¨ber den reellen Zahlen, d.h. mit a1 , . . . , an , b ∈ R. Dabei heißen a1 , . . . , an Koeffizienten und x1 , . . . , xn Unbestimmte oder Variable. Wir suchen reelle Zahlen, die ¨ die Gleichung erf¨ ullen, setzt man sie f¨ ur x1 , . . . , xn ein. Beim Ubergang zu mehreren Gleichungen ergibt sich ein lineares Gleichungssystem (LGS) aus m Gleichungen in n Unbestimmten: a11 x1 + a12 x2 + · · · + a1n xn = b1 a21 x1 + a22 x2 + · · · + a2n xn = b2 .. .. .. .. . . . . am1 x1 + am2 x2 + · · · + amn xn = bm .
(1)
Um diese Darstellung eines linearen Gleichungssystems Pn zu vereinfachen, kann man die i-te Gleichungen mittels Summenzeichen als j=1 aij xj = bi schreiben. Statt jede der m Gleichungen einzeln anzugeben, verwendet man zur Notation von linearen Gleichungssystemen in der linearen Algebra u ¨blicherweise Matrizen und Vektoren: Def inition 1.1 (Matrix). Ein rechteckiges Schema A aus m Zeilen und n Spalten mit Eintr¨ agen aij ∈ R heißt m × n-Matrix u ¨ber R: a11 · · · a1n .. . A = (aij ) 1≤i≤m = ... . 1≤j≤n am1 · · · amn 3
4
1. Lineare Gleichungssysteme
Im Fall m = n heißt A quadratische Matrix. Die Menge aller m × n Matrizen u ¨ber R bezeichnen wir mit Mm,n (R) oder kurz Rm×n . Einspaltige Matrizen b ∈ Mm,1 (R) heißen Spaltenvektoren, einzeilige Matrizen b ∈ M1,m (R) Zeilenvektoren. Wenn aus dem Kontext hervorgeht, ob es ein Spaltenoder Zeilenvektor ist, nennen wir b kurz Vektor. Die Menge Mn,1 (R) = Rn×1 der reellwertigen Vektoren der L¨ange n bezeichnet man kurz als Rn , den Raum der nTupel reeller Zahlen. R3 ist zum Beispiel der uns umgebende Raum. In der Geometrie sprechen wir auch von kartesischen Koordinaten.1 Def inition 1.2 (Matrix-Vektor-Produkt). Sei A ∈ Mm,n (R) eine m × n-Matrix und x ∈ Rn ein Spaltenvektor. Das Matrix-Vektor-Produkt ist P n a x j=1 1j j m Ax = n ··· ∈ R , P amj xj j=1
der i-te Koeffizient von Ax ist das Produkt“ ” x.
Pn
j=1 aij xj
der i-ten Zeile von A mit
Das lineare Gleichungssystem (1) schreiben wir in Matrixform als a11 · · · a1n x1 b1 .. .. .. = .. . . . . am1 · · ·
amn
xn
(2)
bm
oder kurz Ax = b f¨ ur gegebene A, b und dem gesuchten x. Dabei ist x ein Unbestimmtenvektor, dessen Koordinaten x1 , . . . , xn noch zu ermitteln sind. Mit L¨os(A, b) := {x ∈ Rn | Ax = b } bezeichnen wir die L¨osungsmenge des linearen Gleichungssystems Ax = b. Man fasst die Koeffizientenmatrix A und den Vektor b zur erweiterten Matrix (A, b) a11 · · · a1n b1 .. .. ∈ M (A, b) := ... m,n+1 (R) . . am1 · · ·
amn bm
zusammen. Unser Ziel ist ein schnelles, mechanisches Verfahren zum L¨osen von linearen Gleichungssystemen. Die Standardmethode ist ein auf C.F. Gauß2 zur¨ uckgehender Algorithmus, der auch die Basis zahlreicher Beweise der Vorlesung bildet. Wir u uhren ¨berf¨ 1Zu Ehren von Rene ´ Descartes, 1596–1650, einem Wegbereiter der Mathematik der Neuzeit.
Er gilt als Begr¨ under der systematischen analytischen Geometrie. Seine Schrift G´eom´etrie“ geh¨ orte ” zu den Grundlagen, auf denen Newton und Leibniz sp¨ ater aufbauten. 2 Carl Friedrich Gauß, 1777–1855, war der bedeutendste Mathematiker seiner Zeit. Er lieferte in den meisten Teilgebieten der Mathematik und der Physik wichtige Beitr¨ age, beispielsweise in der Zahlentheorie und der Astronomie. Unter anderem gab er den ersten strengen Beweis f¨ ur den Fundamentalsatz der Algebra. Die Gauß’sche Zahlenebene tr¨ agt seinen Namen.
1. Gauß-Algorithmus
5
die erweiterte Matrix (A, b) schrittweise in ein leicht l¨osbares lineares Gleichungssystem, ohne die L¨osungsmenge L¨os(A, b) zu ¨andern: Def inition 1.3 (Treppenform). Eine Matrix A ∈ Mm,n (R) ist in Treppenform mit r ≥ 0 Stufen, wenn a) a11 6= 0, . . . , arr 6= 0 b) aij = 0 f¨ ur i > j und aij = 0 f¨ ur i > r. Ein lineares Gleichungssystem Ax = b bzw. die erweitere Matrix (A, b) ist in Treppenform, wenn die zugeh¨ orige Koeffizientenmatrix A Treppenform hat. Eine Matrix in Treppenform mit a11 a12 0 ... .. .. . . 0 ··· 0 ··· .. . 0 ···
r Stufen hat folgende Gestalt: ··· ··· ··· · · · a1n .. .. . . .. .. .. . . . 0 arr ar,r+1 · · · arn ··· 0 0 ··· 0 .. . ··· ··· ··· ··· 0
Dabei k¨onnen alle Eintr¨age bis auf a11 , . . . , arr Null sein. Bei einem lineares Gleichungssystem in Treppenform 3x1 + 3x2 − x3 = 0 x2 + x3 = 4 2x3 = 6 kann man die L¨osung unmittelbar ablesen: x3 := x1 := 0 − 3x2 + x3 = 0.
6 2
= 3, x2 := 4 − x3 = 1 und
Lemma 1.4 (L¨osung eines LGS in Treppenform). Sei A ∈ Mm,n (R) Matrix in Treppenform mit r ≥ 0 Stufen und b ∈ Rm . Dann gilt L¨os(A, b) 6= ∅
⇐⇒
br+1 = . . . = bm = 0.
Beweis. Da die Koeffizientenmatrix A in Treppenform mit r ≥ 0 Stufen ist, hat das lineare Gleichungssystem folgende Form: a11 x1 + a12 x2 + · · · + a1r xr + · · · + a1n xn = b1 a22 x2 + · · · + a2r xr + · · · + a2n xn = b2 .. . arr xr + · · · + arn xn = br 0 = br+1 .. . 0 = bm
6
1. Lineare Gleichungssysteme
Man sieht unmittelbar: Gibt es ein i ∈ {r + 1, . . . , m} mit bi 6= 0, dann hat das lineare Gleichungssystem keine L¨osung, denn die i-te Gleichung ist nicht erf¨ ullbar, so dass L¨os(A, b) = ∅. Sei br+1 = . . . = bm = 0. Wir zeigen, dass dann L¨os(A, b) 6= ∅ ist. W¨ahle beliebige xr+1 , . . . , xn ∈ R und berechne xr , xr−1 , . . . , x1 ∈ R induktiv gem¨aß: xr := (br − ar,r+1 xr+1 − . . . − arn xn )/arr xr−1 := (br−1 − ar−1,r xr − . . . − ar−1,n xn )/ar−1,r−1 .. . x1 := (b1 − a1,2 x2 − . . . − a1,n xn )/a11 . Die Division ist m¨oglich, weil die Koeffizientenmatrix A in Treppenform mit r ≥ 0 Stufen ist, so dass aii 6= 0 f¨ ur i = 1, . . . , r. Man u ¨berzeuge sich, dass x1 , . . . , xn eine L¨osung des linearen Gleichungssystems ist. Diese Vorgehensweise, um zu einem linearen Gleichungssystem in Treppenform die L¨osung zu ermitteln, entspricht dem aus der Schule bekannten Verfahren. Da durch eine Wahl der xr+1 , . . . , xn die restlichen xr , . . . , x1 eindeutig bestimmt sind, nennen wir xr+1 , . . . , xn freie (unabh¨ angige) Variable und xr , . . . , x1 gebundene Variable des linearen Gleichungssystems. Sei A ∈ Mm,n (R) und b ∈ Rm . Um das lineare Gleichungssystem Ax = b auf Treppenform zu u uhren, gehe iterativ vor. Durch Induktion u ¨berf¨ ¨ber r zeigen wir: (A, b) l¨aßt derart transformieren, dass die ersten r Spalten von A in Treppenform sind: • Die Induktionsverankerung f¨ ur r = 0 ist trivial, denn die 0-te Spalte von A ist stets in Treppenform. • Nach Induktionsvoraussetzung sind die ersten penform: a11 a12 · · · ··· ··· . . .. .. 0 .. .. .. .. . . . . A = 0 ··· 0 a r−1,r−1 ar−1,r 0 ··· 0 0 ar,r .. .. .. . . . 0 ··· 0 0 am,r
r − 1 Spalten von A in Trep···
··· ··· ···
a1n .. . .. .
ar−1,n ar,n .. . am,n
Wir schließen von r − 1 auf r. Falls aij = 0 f¨ ur alle i, j ≥ r, also ar,r · · · ar,n .. .. = 0, . . am,r · · ·
am,n
ist A bereits in Treppenform mit r Spalten. Im anderen Fall gibt es einen Eintrag aij 6= 0 mit i, j ≥ r, und wir verfahren wie folgt:
1. Gauß-Algorithmus
7
(1) Vertausche Zeile und Spalte mit Indices gr¨oßer oder gleich r, derart, dass dann arr 6= 0 ist (Der Wert arr heißt Pivotelement, man w¨ahlt einfache Pivotelemente, zum Beispiel 1). ir (2) Subtrahiere f¨ ur i = r + 1, . . . , m das aarr -fache der r-ten Zeile von (A, b) von der i-ten Zeile. Dann gilt f¨ ur die Elemente der r-ten Spalte mit Index i ≥ r: air aneu · arr = 0. ir = air − arr Die ersten r Spalten von A sind in Treppenform. Das Gauß-Verfahren beruht auf diesen drei Operationen: a) Zeilenoperation: Addiere das λ-fache der i-ten Zeile von (A, b) zur j-ten Zeile (λ ∈ R). b) Zeilenoperation: Vertausche die i-te und die j-te Zeile. c) Spaltenoperation: Vertausche die i-te und die j-te Spalte. Die L¨osung des linearen Gleichungssystems Ax = b bleibt bei linearen Operationen, d.h. bei Addition einer Gleichung zu einer anderen und bei Multiplikation einer Gleichung mit einem Skalar ungleich Null, erhalten. Die Zeilenoperationen lassen die ¨ L¨osungsmenge L¨os(A, b) invariant, man spricht daher auch von Aquivalenztransformationen. Beim Vertauchen der Spalten i und j werden ebenfalls im L¨osungsvektor die Koordinaten an den Stellen i und j vertauscht. Satz 1.5 (Gauß-Algorithmus). Sei A ∈ Mm,n (R) und b ∈ Rm . Dann transformiert der Gauß’sche Algorithmus (A, b) mit h¨ ochstens mn Zeilen- bzw. Spaltenoperationen in Treppenform. Man erh¨ alt L¨os(A, b) in O(n2 m) arithmetischen Schritten.3 Bemerkung 1.6. Mit dem Gauß-Verfahren kann man nicht nur lineare Gleichungssysteme u ¨ber den reellen Zahlen R, sondern jedem beliebigen K¨orper K l¨osen, denn K¨orper sind Zahlenbereiche, in denen man wie mir reellen Zahlen rechnet (wir gehen auf K¨orper in Kapitel 2 ein). Matrizen und Vektoren werden f¨ ur beliebige K¨orper entsprechend erkl¨art. Wir demonstrieren den Gauß-Algorithmus anhand eines Beispieles: Beispiel 1.7. Betrachte folgendes, lineares Gleichungssystem Ax = b gegeben durch: x1 + 4x2
=10
4x1 +16x2 + 7x3 =33 2x1 + 8x2 −21x3 =41 Wir wenden den Gauß-Algorithmus auf die erweiterte Matrix 1 4 0 10 4 16 7 33 2 8 −21 41 3Eine Funktion f : N → N hat das Wachstum O(g(n)), wenn es eine Konstante c gibt, so dass
f (n) ≤ c · g(n) f¨ ur alle n ∈ N. In unserem Zusammenhang bedeutet dies, dass der Algorithmus h¨ ochstens cn2 m arithmetische Schritte f¨ ur eine geeignete Konstante c ausf¨ uhrt.
8
1. Lineare Gleichungssysteme
an, als Pivotelement w¨ahle den ersten Eintrag Vierfache der ersten Zeile von der zweiten: 1 4 0 0 0 7 2 8 −21 Subtrahiere das Doppelte der ersten 1 0 0
in der ersten Zeile. Subtrahiere das 10 −7 41
Zeile von der dritten: 4 0 10 0 7 −7 0 −21 21
Vertausche die zweite mit der dritten Spalte: 1 0 4 10 0 7 0 −7 0 −21 0 21 Addiere das Dreifache der zweiten Zeile zur dritten: 1 0 4 10 0 7 0 −7 0 0 0 0 Wir l¨osen das transformierte, linearen Gleichungssystem (beachte die Spaltenvertauschung w¨ahrend des Gauß-Verfahrens) x1
+ 4x2 = 10 7x3
=−7 0 · x2 = 0
mittels Lemma 1.4. Der Wert von x2 ist frei w¨ahlbar und • x3 = −1, denn 7x3 = −7, sowie • x1 + 4x2 = 10, denn x1 = 10 − 4x2 . 10 − 4λ Die L¨osungsmenge ist: L¨os(A, b) = λ −1
λ∈R .
Man nennt ein lineares Gleichungssystem Ax = b homogen, falls b = 0, und inhomogen, falls b 6= 0. Die L¨osungsmenge eines homogenen linearen Gleichungssystems Ax = 0 hat eine lineare Struktur: Neben 0 ∈ L¨os(A, 0) gilt f¨ ur x, y ∈ L¨os(A, 0) und λ ∈ R, dass x ± y, λx ∈ L¨os(A, 0). Betrachten wir die Struktur von L¨os(A, b). F¨ ur jedes x0 ∈ L¨os(A, b) gilt L¨os(A, b) = x0 + L¨os(A, 0) = {x0 + x | x ∈ L¨os(A, 0) } , denn wegen A(x0 + x) = Ax0 + Ax f¨ ur x ∈ L¨os(A, 0) und Ax0 = b haben wir folgende ¨ Aquivalenz: A(x0 + x) = b
⇐⇒
Ax = 0.
2. Gauß-Algorithmus und Matrizen
9
Kennt man L¨os(A, 0), den sogenannten Kern von A, und eine spezielle L¨osung x0 ∈ L¨os(A, b), so kennt man bereits alle L¨osungen des imhomogenen linearen Gleichungssystems Ax = b.
2. Gauß-Algorithmus und Matrizen Wir wollen den Gauß-Algorithmus mit Hilfe von Matrizen-Operationen formulieren. Die Summe A + B zweier Matrizen A, B ∈ Mm,n (R) ist die Matrix bestehend aus der komponentenweisen Addition aij + bij der Eintr¨age von A und B, die skalare Multiplikation λA mit λ ∈ R ist ebenfalls komponentenweise erk¨art: λA = (λaij ) 1≤i≤m
A + B := (aij + bij ) 1≤i≤m
1≤j≤n
1≤j≤n
Die Multiplikation einer Matrix mit einem Vektor ist (Definition 1.2 auf Seite 4) ein Spezialfall der Matrizenmultiplikation: Def inition 1.8 (Multiplikation von Matrizen). Das Produkt AB zweier Matrizen A ∈ Mk,m (R) und B ∈ Mm,n (R) wird erkl¨ art durch m m P P a1ν bν1 · · · a1ν bνn ! m ν=1 ν=1 X .. .. AB = aiν bνj = ∈ Mk,n (R). . . 1≤i≤k m m ν=1 P P 1≤j≤n akν bν1 · · · akν bνn ν=1
ν=1
Den Eintrag cij des Produkts C := AB erh¨alt man durch Multiplikation der i-ten Zeile von A mit der j-ten Spalte von B cij =
m X
aiν bνj = ai1 b1j + ai2 b2j + . . . + aim bmj
ν=1
j ↓
a11 . . . i→ ai1 .. .
ak1
··· ···
···
a1m .. . b11 . aim .. .. b . m1 akm
j ↓
···
···
c11 . .. b1n .. = i→ ci1 . .. bmn .
b1j .. .
···
bmj
···
ck1
···
c1j .. .
···
···
cij
···
.. . ···
ckj
···
c1n .. . cin .. .
ckn
Im Gegensatz zur Multiplikation reeller Zahlen ist die Multiplikation von Matrizen ist nicht kommutativ, d.h. es gibt Matrizen A, B mit A · B 6= B · A, und das Produkt zweier von Null verschiedener Matrizen kann durchaus Null ergeben: 1 0 0 1 0 1 · = 0 0 0 0 0 0 0 1 1 0 0 0 · = . 0 0 0 0 0 0
10
1. Lineare Gleichungssysteme
Die n × n-Einheitsmatrix 1 0 0 . . . In := .. . . . . 0 ···
0 .. . ∈ Mn,n (R) 0 1
··· .. . .. . 0
entspricht dem Einselement der uns bekannten Zahlenbereiche, d.h. f¨ ur alle A ∈ Mm,n (R) gilt Im A = A und AIn = A. Geht n aus dem Kontext hervor, sprechen wir kurz von der Einheitsmatrix. Die Bezeichnung In kommt vom englischen Identity. Im Deutschen wird die Einheitsmatrix auch mit En bezeichnet. Mit dem sogenannten Kronecker-Symbol ( 1 δij := 0
falls i = j falls i = 6 j
kann man die die Einheitsmatrix beschreiben durch In := (δij )1≤i,j≤n . Def inition 1.9 (Elementarmatrizen). Zu i, j mit i 6= j und λ ∈ R \ {0} bezeichnen wir die quadratischen Matrizen i ↓
a) Vi,j
1
..
i→ := j→
j ↓
. 1 0 0 .. . 0 1
···
0 1
..
0
. 1 0
···
0
1 0 .. . 0 0 1
..
. 1
i ↓
b) Ti (λ) := i→
1
..
. 1 λ 1
..
. 1
∈ Mn,n (R).
∈ Mn,n (R).
2. Gauß-Algorithmus und Matrizen
11
j ↓
1
c) Ti,j (λ) := i→
..
. ..
. ..
λ
. 1
∈ Mn,n (R).
als Elementarmatrizen. F¨ ur A ∈ Mm,n (R) gilt: a) Die Multiplikation mit Vi,j von links entspricht der Vertauschung der i-ten Zeile mit der j-ten Zeile von A. b) Die Multiplikation mit Ti (λ) von links entspricht der Multiplikation der i-ten Zeile von A mit dem Skalar λ. c) Die Multiplikation mit Ti,j (λ) von links entspricht der Addition des λ-fachen der j-ten Zeile zur i-ten Zeile von A. Die Multiplikation einer Matrix mit einer Elementarmatrix von links bewirkt eine Transformation der Zeilen der Matrix, eine Multiplikation von rechts dagegen eine Transformation der Spalten der Matrix. Insbesondere vertauscht man durch Multiplikation von rechts mit der Matrix Vi,j die Spalten i und j. Def inition 1.10 (Dreiecksmatrix). Eine quadratische Matrix T ∈ Mn,n (R) heißt • untere Dreiecksmatrix, falls tij = 0 f¨ ur i < j und • obere Dreiecksmatrix, falls tij = 0 f¨ ur i > j. Die Menge der unteren Dreiecksmatrizen bezeichnen wir mit UDn (R) ⊆ Mn,n (R), die Menge der oberen Dreiecksmatrizen mit ODn (R) ⊆ Mn,n (R). Bei unteren Dreiecksmatrizen sind alle Eintr¨age oberhalb der Hauptdiagonalen Null, also t11 0 · · · 0 .. .. .. .. . . . . .. .. . . 0 tn1 · · · · · · tnn , bei oberen Dreiecksmatrizen alle unterhalb der Hauptdiagonalen. Satz 1.11 (Produkt von Dreiecksmatrizen). Das Produkt zweier unterer Dreiecksmatrizen ist eine untere Dreiecksmatrix. Beweis. Seien A, B ∈ UDn (R) und C := AB ∈ Mn,n (R). Es ist cij = 0 f¨ ur i < j nachzuweisen. Da A und B untere Dreiecksmatrizen sind gilt, f¨ ur i < j: cij =
n X
aik bkj =
k=1
unn damit C ∈ UDn (R).
i X k=1
aik bkj + |{z} =0
j X
aik bkj + |{z}
k=i+1 =0
n X
aik bkj = 0 |{z}
k=j+1 =0
12
1. Lineare Gleichungssysteme
Man u ur obere Dreiecksmatrizen gilt. ¨berlege sich, dass eine analoge Aussage f¨ Weil die Zeilentransformationen Ti,j (λ) im Gauß-Verfahren untere Dreiecksmatrizen sind, folgt aus Satz 1.11: Korollar 1.12. Sei (A, b) eine erweiterte Matrix derart, dass das Gauß-Verfahren keine Zeilen- und keine Spaltenvertauschungen vornimmt. Dann liefert es eine untere Dreiecksmatrix T , so dass T A Treppenform hat. Bemerkung 1.13. Die Dreiecksmatrizen Ti,j (λ) im Gauß-Verfahren (ohne Zeilenund Spaltenvertauschungen) erf¨ ullen t11 = . . . = tmm = 1. Diese Eigenschaft bleibt bei der Multiplikation von Matrizen aus UDm (R) erhalten. Ist A eine quadratische Matrix dergestalt, dass der Gauß-Algorithmus keine Zeilenund Spaltenvertauschungen vornimmt, gilt T A ∈ ODn (R) mit der Transformationsmatrix des Gauß-Verfahrens T ∈ UDn (R). Def inition 1.14 (Permutationsmatrix). Eine quadratische Matrix P = (pij ) ∈ Mn,n (R) heißt Permutationsmatrix, wenn a) pij ∈ {0, 1} n P b) pij = 1 j=1
und
n P
pji = 1
f¨ ur i = 1, . . . , n.
j=1
Eine Permutationsmatrix hat in jeder Zeile und in jeder Spalte genau eine Eins und sonst nur Nullen als Eintr¨age. Auch f¨ ur Permutationsmatrizen gilt, dass sie, von links multipliziert, die Zeilen vertauscht (permutiert), von rechts multipliziert dagegen die Spalten. Ist dabei pij = 1, dann ist die j-te Zeile (Spalte) von A gleich der i-ten Zeile (Spalte) von P A (von AP ). Korollar 1.15. F¨ uhrt das Gauß-Verfahren auf der erweiterten Matrix (A, b) keine Zeilenvertauschung durch, dann liefert es eine untere Dreiecksmatrix T und eine Permutationsmatrix P , so dass T AP in Treppenform ist. ¨ In Ubungsaufgabe 2.4 wird gezeigt: Satz 1.16. Sei A ∈ Mn,n (R). Dann gibt es Permutationsmatrizen P1 , P2 ∈ Mn,n (R) und Dreiecksmatrizen T ∈ UDn (R), B ∈ ODn (R) mit P1 AP2 = T B. Da P1 , P2 , T, B einfach zu invertieren4 sind, erh¨alt man eine Formel f¨ ur die inverse Matrix A−1 . Die Diagonalelemente von T sind 1. Korollar 1.17 (Matrix-Inversion). Mit Hilfe des Gauß-Algorithmus kann man zu einer quadratischen Matrix A ∈ Mn,n (R) in O(n3 ) arithmetischen Schritten die inverse Matrix A−1 mit mit A · A−1 = In = A−1 · A bestimmen. Die Aussage von Korollar 1.17 gilt nicht nur f¨ ur die reellen Zahlen R, sondern ebenfalls f¨ ur beliebige K¨orper K.
−1 4Eine quadratische Matrix A ∈ M ∈ Mn,n (R) n,n (R) heißt invertierbar, wenn es eine Matrix A mit A · A−1 = In = A−1 · A gibt.
Kapitel 2
Ko ¨rper, Ringe und Gruppen
Wir besch¨aftigen uns in diesem Kapitel n¨aher mit verschiedenen algebraischen Strukturen und Abbildungen, welche die algebraische Struktur erhalten, sogenannten Homomorphismen.
1. K¨ orper Die reellen Zahlen sind ein Beispiel f¨ ur die algebraische Struktur eines sogeannten K¨orpers: Def inition 2.1 (K¨orper). Ein K¨ orper ist eine nichtleere Menge K mit zwei Verkn¨ upfungen + : K × K → K, · : K × K → K,
(a, b) 7→ a + b (Addition) (a, b) 7→ a · b (Multiplikation),
welche die folgenden Axiome erf¨ ullen: • Gesetze der Addition: (1) Assoziativit¨ at: (x + y) + z = x + (y + z) f¨ ur alle x, y, z ∈ K. (2) Kommutativit¨ at: x + y = y + x f¨ ur alle x, y ∈ K(3) Existenz eines Nullelements 0 ∈ K: 0 + x = x = x + 0 f¨ ur alle x ∈ K. (4) Existenz additiver inverser Elemente: Zu jedem x ∈ K gibt es ein −x ∈ K mit x + (−x) = 0 = (−x) + x. • Gesetze der Multiplikation: (5) Assoziativit¨ at: (x · y) · z = x · (y · z) f¨ ur alle x, y, z ∈ K. (6) Kommutativit¨ at: x · y = y · x f¨ ur alle x, y ∈ K. (7) Existenz eines Einselements 1 ∈ K \ {0}: 1 · x = x = x · 1 f¨ ur alle x 6= 0. (8) Existenz multiplikativer inverser Elemente: Zu jedem x ∈ K \ {0} gibt es ein x−1 ∈ K mit x · x−1 = 1 = x−1 · x. 13
14
2. K¨orper, Ringe und Gruppen
• Distributivgesetze:1 (9) Linksdistributivit¨ at: x · (y + z) = x · y + x · z f¨ ur alle x, y, z ∈ K. (10) Rechtsdistributivit¨ at: (x + y) · z = x · z + y · z f¨ ur alle x, y, z ∈ K. Wir schreiben abk¨ urzend xy statt x · y und x − y statt x + (−y), und vereinbaren, dass die Multiplikation st¨arker bindet als die Addition, also xy + z = (xy) + z, um auf zus¨atzliche Klammerungen zu verzichten. Jeder K¨orper hat mindestens zwei Elemente, denn das Nullelement 0 und das Einselement 1 sind per Definition verschieden. Da zu einer algebraischen Struktur neben einer Menge auch ihre Verkn¨ upfungen geh¨oren, ist ein K¨orper genaugenommen ein 3-Tupel (K, +, ·). Wir werden uns aber meist abk¨ urzend nur auf K beziehen. Lemma 2.2. In einem K¨ orper K gelten die folgenden Rechenregeln: a) Nullelement 0 und Einselement 1 sind eindeutig bestimmt. b) Das additive Inverse −x und das multiplikative Inverse x−1 eines Elements x ∈ K bzw. x ∈ K \ {0} sind eindeutig bestimmt. c) Es gilt −(−x) = x und ((x)−1 )−1 = x f¨ ur x ∈ K bzw. x ∈ K \ {0}. d) F¨ ur x, y, z ∈ K folgt aus x + z = y + z, dass x = y. e) F¨ ur x, y ∈ K und z ∈ K \ {0} folgt aus xz = yz, dass x = y. f) Ein Produkt xy ist Null, sobald einer der Faktoren x, y ∈ K Null ist. Insbesondere gilt 0 · x = x · 0 = 0. g) Es gilt Nullteilerfreiheit, d.h. das Produkt xy von x, y ∈ K \ {0} ist ungleich Null. h) F¨ ur x, y ∈ K \ {0} gilt (xy)−1 = y −1 x−1 . i) F¨ ur x, y ∈ K gilt x · (−y) = (−x) · y = −(xy). Insbesondere ist (−x) · (−y) = xy. Beweis. Sei K ein K¨orper und x, y, z ∈ K. a) Sei 00 ∈ K ein Nullelement. Da 0 und 00 beides Nullelemente sind, folgt aus Axiom 3: 00 = 0 + 00 = 0. Sei 10 ∈ K ein Einselement. Weil 1 und 10 beides Einselemente sind, folgt aus Axiom 7: 10 = 1 · 10 = 1. b) Sei (−x)0 ein additives Inverses zu x. Es folgt: (3)
(1)
(4)
(−x)0 = (−x)0 + (x + (−x)) = ((−x)0 + x) +(−x) = −x. | {z } | {z } (4)
(3)
=0
=0
(x−1 )0
Sei ein multiplikatives Inverses zu x ∈ K \ {0}. Dann gilt analog zum vorherigen Schritt: (7)
(8)
(5)
(8)
(7)
(x−1 )0 = (x−1 )0 · 1 = (x−1 )0 · (x · x−1 ) = ((x−1 )0 · x) · x−1 = 1 · x−1 = x−1 . 1Aufgrund der Kommutativit¨ at der Multiplikation gen¨ ugt bereits eines der Distributivgesetze.
1. K¨orper
15
c) Aus (−x) + x = 0 bzw. (x−1 ) · x = 1, folgt dass x das eindeutig bestimmte Inverse zu −x bzw. x−1 ist. d) Wegen Axiom (1) und x + z = y + z gilt: x = x + (z − z) = (x + z) − z = (y + z) − z = y + (z − z) = y. | {z } | {z } =0
=0
e) Wegen Axiom (5) und xz = yz gilt: x = x · 1 = x(zz −1 ) = (xz)z −1 = (yz)z −1 = y(zz −1 ) = y · 1 = y. f) Wir zeigen x · 0 = 0. Der Rest der Aussage folgt dann aus Axiom (6). Gem¨aß Axiomen (3) und (9) gilt: x · 0 = x · (0 + 0) = x · 0 + x · 0, also x · 0 = x · 0 + x · 0. Aus d) folgt 0 = x · 0. g) Wir zeigen, dass aus xy 6= 0 folgt x = 0 oder y = 0. Angenommen, xy = 0 und x 6= 0. Dann hat x ein multiplikatives Inverses x−1 und: y = 1 · y = (x−1 x)y = x−1 (xy) = x · 0 = 0. h) Wir zeigen, dass y −1 x−1 Inverses zu xy ist: −1 −1 −1 (y −1 x−1 )(xy) = ((y −1 x−1 )x)y = (y −1 x | {z x})y = (y · 1)y = y y = 1. =1
i) Aus xy + x(−y) = x(y − y) = x · 0 = 0 folgt −(xy) = x(−y). Analog erhalten wir aus xy + (−x)y = (x − x)y = 0 · y = 0, dass −(xy) = (−x)y. Weil xy das additive Inverse zu −(xy) ist, gilt (−x)(−y) = −((−x)y) = −(−(xy)) = xy. Dies war zu zeigen.
Wir kennen bereits einige K¨orper, beispielsweise die reellen Zahlen R, sowie die rationalen Zahlen Q mit der gewohnten Addition und Multiplikation und den Rechenregeln −1 ad + bc a c ac a c a b + = · = = . b d bd b d bd b a Die reellen und die rationalen Zahlen sind Beispiele f¨ ur angeordnete K¨orper: Def inition 2.3 (Angeordneter K¨orper). Ein K¨ orper K heißt angeordnet, wenn es eine Relation >“ gibt mit: ” (A1) F¨ ur a ∈ K gilt genau eine der drei Beziehungen a > 0, a = 0, −a > 0. (A2) Aus a > 0 und b > 0 folgt a + b > 0 f¨ ur a, b ∈ K. (A3) Aus a > 0 und b > 0 folgt a · b > 0 f¨ ur a, b ∈ K.
16
2. K¨orper, Ringe und Gruppen
Die endlichen K¨ orper Z2 und Z3 . Im Gegensatz zu unseren vorherigen Beispielen bilden die ganzen Zahlen Z keinen K¨orper, denn in Z existieren keine Inverse bez¨ uglich der Multiplikation. Wir k¨onnen aber einen endlichen K¨ orper, also einen K¨orper mit nur endlich vielen Elementen, aus 0 und 1 konstruieren. Dazu setze Z2 := {0, 1} und definiere Addition und Multiplikation wie folgt: + 0 1 0 0 1 1 1 0
· 0 1 0 0 0 1 0 1
Man u ullt sind. Geht man alle alternativen ¨berzeuge sich, dass alle K¨orperaxiome erf¨ Belegungen der Additions- und der Multiplikationstafel durch, so ergibt sich, dass keine anders definierte Addition und Multiplikation die K¨orperaxiome erf¨ ullen, denn durch die Eigenschaften des Nullelements 0 und des Einselements 1 sind die Werte bis auf 1 + 1 und 0 · 0 festgelegt. • Die Summe 1+1 muß 0 sein, denn sonst g¨abe es zu 1 kein negatives Element. • Das Produkt 0 · 0 muß 0 sein, denn sonst w¨are f) aus Lemma 2.2 verletzt. Addition und Multiplikation sind im K¨orper mit zwei Elementen durch die K¨orpergesetze eindeutig bestimmt. Da jeder K¨orper mindestens das Null- und das Einselement enthalten muß, gibt es (bis auf Benennung) nur einen K¨orper mit zwei Elementen. Auf analoge Weise gelingt die Konstruktion des K¨orpers mit drei Elementen: Wir setzen Z3 := {0, 1, 2} und erkl¨aren Addition und Multiplikation wie folgt: + 0 1 2
0 0 1 2
1 1 2 0
2 2 0 1
· 0 1 2
0 0 0 0
1 0 1 2
2 0 2 1
Auch hier u ullt sind. ¨berzeuge sich der Leser, dass alle K¨orpergesetze erf¨ Bemerkung 2.4. Endliche K¨orper heißen Galoisfelder 2 (im Englischen heißt ein K¨orper field“). Sie sind bis auf Benennung der Elemente (Isomorphie) eindeutig ” bestimmt. Man spricht daher von dem endlichen K¨orper Fq mit q Elementen. F¨ ur Primzahlen p kann man Fp aus Z ableiten. Wir besch¨aftigen uns allgemein mit endlichen K¨orpern in Kapitel 15. Der K¨ orper der komplexen Zahlen. Als weiteres und wichtiges Beispiel eines K¨orpers lernen wir die komplexen Zahlen kennen, mit denen bereits Cardano3 im 16. Jahrhundert, wenn auch unverstanden, rechnete. Zu Konstruktion der komplexen Zahlen C erweitern wir die reellen Zahlen und betrachten Paare von reellen Zahlen: C := R2 = {(a, b) | a, b ∈ R } . 2Zu Ehren von Evariste Galois, 1811–1832, einem franz¨ osischen Mathematiker, der, zu seiner Zeit unverstanden, wichtige Beitr¨ age zur Gruppentheorie und zur Aufl¨ osungstheorie algebraischer Gleichungen lieferte. Er starb mit 21 Jahren bei einem Duell. 3Geronimo Cardano, 1501–1576. Cardano war ein italienischer Mathematiker, Arzt und Naturforscher. Er ver¨ offentlichte u.a. das ihm von Tartaglia mitgeteilte Verfahren zur L¨ osung kubischer Gleichungen und ein Buch u urfelspiel. ¨ber das W¨
1. K¨orper
17
Man definiert Addition und Multiplikation wie folgt: (a, b) + (a0 , b0 ) := (a + a0 , b + b0 ) (a, b) · (a0 , b0 ) := (aa0 − bb0 , ab0 + a0 b).
(3)
Durch Nachrechnen ergibt sich, dass C mit obiger Addition und Multiplikation einen K¨orper bildet. Dabei ist (0, 0) das Nullelement und (1, 0) das Einselement. Zu (a, b) b a ist −(a, b) := (−a, −b) Inverses bez¨ uglich der Addition und ( a2 +b 2 , − a2 +b2 ) Inverses bez¨ uglich der Multiplikation. Einbettung der reellen Zahlen. Wir interpretieren die reellen Zahlen R ∼ = R × {0} ⊂ C als Teilmenge der komplexen Zahlen. Offenbar ist {(a, 0) | a ∈ R } abgeschlossen gegen¨ uber Addition und Multiplikation der komplexen Zahlen. Unsere Interpretation ist gerechtfertigt, denn man erh¨alt in den Gleichungen (3) f¨ ur b = b0 = 0 die gewohnte Addition und Multiplikation der reellen Zahlen. Darstellung mit der imagin¨ aren Einheit. Um zu einem besseren Verst¨andnis im Umgang mit den komplexen Zahlen zu kommen, betrachten wir eine alternative Darstellung. Wir zeichnen ein Element der komplexen Zahlen aus und nennen i := (0, 1) die imagin¨ are Einheit.4 Offenbar verf¨ ugt diese u ¨ber die Eigenschaft i2 = (0, 1)(0, 1) = 2 (−1, 0) = −1, also i = −1. Mit dem Einselement (1, 0) und der imagin¨aren Einheit (0, 1) verf¨ ugen wir u ¨ber eine Basis von C, mit deren Hilfe sich jede komplexe Zahl als Linearkombination von 1 und i darstellen l¨aßt: (a, b) = a(1, 0) + b(0, 1) = a + bi = a + ib. In dieser Darstellung ergeben sich, unter Ber¨ ucksichtigung von i2 = −1, die Regeln f¨ ur die Addition und die Multiplikation komplexer Zahlen auf nat¨ urliche Weise aus den Rechenregeln der reellen Zahlen: a + ib + a0 + ib0 = a + a0 + i(b + b0 ) (a + ib)(a0 + ib0 ) = aa0 + iab0 + iba0 + i2 bb0 = aa0 − bb0 + i(ab0 + a0 b). Wir stellen die Inversen bez¨ uglich Addition und Multiplikation auf diese Weise dar: −(a + ib) = −a − ib (a + ib)−1 =
a − ib . a2 + b2
a b Diese entsprechen den anfangs angegebenen Inversen (−a, −b) und ( a2 +b 2 , − a2 +b2 ), denn:
a + ib + (−a − ib) = 0 + i · 0 = 0 a − ib a2 − i2 b2 a2 + b2 (a + ib) 2 = = = 1. a + b2 a2 + b2 a2 + b2 4Auf Leonhard Euler, 1707–1783, einen bekannten Mathematiker, geht die Einf¨ uhrung dieses Symbols zur¨ uck. In den zahlreichen Ver¨ offentlichungen Eulers finden sich neben einer F¨ ulle von Abhandlungen auch viele ausgezeichnete Gesamtdarstellungen mathematischer Gebiete. Er verzeichnete bedeutende Erfolge in den meisten Gebieten der Mathematik und ihrer Anwendungen im weiteren Sinne. Die Symbole f (x), π und e gehen auf ihn zur¨ uck.
18
2. K¨orper, Ringe und Gruppen
Abbildung 1. Gauß’sche Zahlenebene Imagin¨arteil 6 b 7 ` i ϕ
0
1
a
-
Realteil
Die Gauß’sche Zahlenebene 5 liefert eine geometrische Interpretation der komplexen Zahlen. Wir fassen die komplexen Zahlen als Punkte der reellen Ebene auf und nennen a den Realteil und b den Imagin¨ arteil einer komplexen Zahl a + ib. Anhand dieser Auffassung wird deutlich, dass man komplexe Zahlen auf eine dritte Art und Weise darstellen kann, n¨amlich mit Polarkoordinaten: Wir interpretieren einen Punkt als Ortsvektor und beschreiben ihn durch seine euklidische6 L¨ange und den Winkel zwischen ihm und der positiven reellen Achse (siehe Abbildung 1). Jede komplexe Zahl (außer der Null) wird eindeutig durch ihre L¨ange ` und ihren Winkel ϕ beschrieben. Wir erhalten eine bijektive Abbildung R2 → R≥0 × [0, 2π),
(a, b) 7→ (`, ϕ),
wobei R≥0 := {x ∈ R | x ≥ 0 } die Menge der nicht-negativen, reellen Zahlen ist. Wie sieht die Darstellung von Die L¨ange der √ a+ib ∈ C in in Polarkoordinaten aus? a 2 2 komplexen Zahl a + ib ist ` = a + b , f¨ ur den Winkel gilt cos ϕ = ` bzw. sin ϕ = b` : (a, b) = a + ib = `(cos ϕ + i sin ϕ). Die Multiplikation zweier komplexer Zahlen in Polarkoordinaten gestaltet sich einfach: `(cos ϕ + i sin ϕ) · `0 (cos ϕ0 + i sin ϕ0 ) = ``0 (cos(ϕ + ϕ0 ) + i sin(ϕ + ϕ0 )).
5Carl Friedrich Gauß, 1777–1855, siehe Fußnote auf Seite 4 6Euklid, ca. 365–300 v.Chr., war einer der großen Mathematiker und Philosophen der Antike.
Seine Elemente“ sind eines der bekanntesten mathematischen Werke u ¨berhaupt und waren 2000 ” ¨ Jahre lang Grundlage der Mathematikausbildung. Uber ihn selbst ist wenig bekannt, doch wird folgende Anekdote von ihm u uler ihn fragte, welchen Nutzen er davon habe, ¨berliefert: Als ein Sch¨ die geometrischen Lehrs¨ atze zu lernen, rief Euklid einen seiner Sklaven und beauftragte ihn, dem Studenten eine kleine Geldm¨ unze zu schenken, da dieser armselige Mensch einen Gewinn aus seinen ” Studien ziehen m¨ usse“.
2. Ringe und Schiefk¨orper
19
Zur Multiplikation zweier komplexe Zahlen (in Polarkoordinaten), multipliziere die L¨angen und addiere die Winkel, denn gem¨aß Additionstheoremen f¨ ur Sinus und Cosinus gilt: cos(ϕ + ϕ0 ) = cos ϕ cos ϕ0 − sin ϕ sin ϕ0 sin(ϕ + ϕ0 ) = sin ϕ cos ϕ0 + sin ϕ0 cos ϕ. Unterko ¨rper. Interpretiert man die Standard-Zahlenbereiche als Erweiterungen voneinander, also N ⊂ Z ⊂ Q ⊂ R ⊂ C, ist zu erkennen, dass diese zunehmend abgeschlossen gegen¨ uber verschiedenen Operationen sind: • N Abschluß gegen¨ uber Addition und Multiplikation • Z Abschluß von N gegen¨ uber Subtraktion. • Q Abschluß von Z gegen¨ uber Division. • R Abschluß von Q gegen¨ uber H¨aufungspunkten und Konvergenz • C Abschluß von R gegen¨ uber algebraischen Gleichungen.7 Die rationalen Zahlen Q sind ein Unterk¨orper der reellen Zahlen R, die man ihrerseits als Unterk¨orper der komplexen Zahlen C auffaßt:8 Def inition 2.5 (Unterk¨orper). Eine nichtleere Teilmenge K0 ⊆ K eines K¨ orpers K 0 heißt Unterk¨ orper, wenn K mit den Verkn¨ upfungen von K selbst ein K¨ orper ist. Assoziativit¨at, Kommutativt¨at und die Distributivgesetze u ¨bertragen sich vom K¨orper K auf die Teilmenge K0 . Satz 2.6. Sei K ein K¨ orper. Ein Teilmenge K0 ⊆ K mit den gleichne Verk¨ upfungen ist genau dann ein Unterk¨ orper von K, wenn a) 0, 1 ∈ K0 , b) f¨ ur x, y ∈ K0 ist x − y ∈ K0 und c) f¨ ur x, y ∈ K0 \ {0} ist xy −1 ∈ K0 . Wir folgern sp¨ater diese Charakterisierung mittels Korollar 2.14 aus Satz 2.17.
2. Ringe und Schiefk¨ orper Ein Ring unterscheidet sich im wesentlichen dadurch von einem K¨orper, dass er nicht notwendigerweise u ugt. Je nachdem, welche Axiome ¨ber multiplikative Inverse verf¨ außerdem nicht gelten, unterscheiden wir verschiedene Arten von Ringen: Def inition 2.7 (Ring). Ein Ring R erf¨ ullt alle K¨ orperaxiome bis auf die Axiome 6 (Kommutativit¨ at der Multiplikation), 7 (Existenz der Eins) und 8 (Existenz inverser Elemente) gelten. 7Jedes Gleichung Pn a xi = 0 mit n ≥ 1 und a , . . . , a ∈ C hat eine L¨ osung x ∈ C. Dies 0 n i=0 i
ist der sogenannte Fundamentalsatz der Algebra von C.F. Gauß, auf den wir in Kapitel 4 u ¨ber Polynome genauer eingehen (Fakt 4.23). 8Hingegen ist zum Beispiel Z = {0, 1} kein Unterk¨ orper der reellen Zahlen R (obwohl 0, 1 ∈ R), 2 denn die Verkn¨ upfungen sind unterschiedlich: In Z2 gilt 1 +2 1 = 0, w¨ ahrend u ¨ber den reellen Zahlen 1 + 1 = 2 ist.
20
2. K¨orper, Ringe und Gruppen
Existiert das Einselement, sprechen wir von einem Ring mit Eins, ist die Multiplikation kommutativ, von einem kommutativen Ring. Ein nullteilerfreier, kommutativer Ring, der außer der 0 ein weiteres Element enth¨ alt, heißt Integrit¨ atsring (auch Integrit¨ atsbereich). Zu einem Ring geh¨oren neben einer Menge auch seine Verkn¨ upfungen, ein Ring ist eigentlich ein 3-Tupel (R, +, ·). Wie bei K¨orpern beziehen wir uns aber meist abk¨ urzend nur auf R. Bei Ringen fallen die beiden Distributivgesetze (Axiome 9 und 10) im allgemeinen nicht zusammen. Ein Ring heißt nullteilerfrei (siehe Lemma 2.2), wenn er keine Nullteiler besitzt. Da in Ringen keine multiplikativen Inversen existieren m¨ ussen, folgt im allgemeinen aus xz = yz nicht, dass y = z ist (d.h. man darf nicht k¨ urzen“). Unterringe definiert man analog zu Unterk¨orpern (Definition 2.5). ” Beispiel 2.8. Wir haben bereits einige Ringe kennengelernt: • Die Menge Z der ganzen Zahlen bildet einen kommutativen Ring mit Eins. Dieser Ring ist sogar ein Integrit¨atsbereich. • Die Menge Mn,n (R) der quadratischen Matrizen bildet einen Ring mit Eins. Dabei ist die Nullmatrix das Nullelement und die Einheitsmatrix das Einselement. Dieser Ring ist nicht nullteilerfrei. Wenn wir in der Definition eines K¨orpers auf die Kommutativit¨at der Multiplikation verzichten, erh¨alt man einen sogenannten Schiefk¨ orper (Divisionsring): Def inition 2.9 (Schiefk¨orper). Ein Schiefk¨ orper S erf¨ ullt alle K¨ orperaxiome bis auf Axiom 6 (Kommutativit¨ at der Multiplikation). Im Gegensatz zu K¨orpern ist es bei Schiefk¨orpern zwingend erforderlich (da die Multiplikation nicht kommutativ sein muß), explizit 1x = x1 = 1 zu fordern. Dann stimmt Linksinverses und Rechtsinverses zu einem Element u ¨berein: −1 −1 −1 −1 −1 x−1 L = xL (xxR ) = (xL x) xR = xR | {z } | {z } =1
=1
Im Gegensatz ein einem K¨orper sind f¨ ur Schiefk¨orper sind beide Distributivit¨atsgesetze notwendig. Quaternionen-Schiefk¨ orper. Als Beispiel eines Schiefk¨orpers betrachten wir den Schiefk¨orper der Quaternionen H, den Hamilton9 entdeckte. Die Idee ist, die komplexen Zahlen zu erweitern, indem man statt Paaren 4-Tupel reeller Zahlen betrachtet. Wir setzen H := R4 = {(a, b, c, d) | a, b, c, d ∈ R} und f¨ uhren dann in Analogie zur imagin¨aren Einheit in C drei imagin¨are Einheiten i, j, k ein, f¨ ur die gilt i2 = j 2 = k 2 = −1,
ij = k,
jk = i,
ki = j.
9William Rowan Hamilton, 1805–1865. Ein irischer Mathematiker und Physiker mit Arbeiten auf den Gebieten der Mechanik, der Optik und der Algebra.
3. Gruppen
21
Mit diesen imagin¨aren Einheiten stellt man ein Element (a, b, c, d) ∈ H als a + ib + jc + kd dar. Addition und Multiplikation zweier Quaternionen h = (a, b, c, d), h0 = (a0 , b0 , c0 , d0 ) ∈ H ergeben sich unter Ber¨ ucksichtigung der Eigenschaften der imagin¨aren Einheiten aus der gewohnten Addition und Multiplikation der reellen Zahlen: h + h0 = a + a0 + i(b + b0 ) + j(c + c0 ) + k(d + d0 ) h · h0 = aa0 − bb0 − cc0 − dd0 + i(ab0 + ba0 + cd0 − dc0 ) + j(ac0 − bd0 + ca0 + db0 ) + k(ad0 + bc0 − cb0 + da0 ). Mit c = d = 0 sind dies die komplexen Zahlen (einschließlich der gewohnten Addition und Multiplikation in C). Man kann die komplexen Zahlen C∼ = C × {0} × {0} ⊂ H ⊂ als Teilmenge der Quaternionen betrachten, es gilt R ⊂ ∼ C ∼ H.
3. Gruppen Im Gegensatz zu K¨orpern und Ringen verf¨ ugen Gruppen nur u upfung. ¨ber eine Verkn¨ Def inition 2.10 (Gruppe). Eine Gruppe ist eine Menge G mit einer Verkn¨ upfung · : G × G → G und den Gesetzen: a) Assoziativit¨ at: (xy)z = x(yx) f¨ ur alle x, y, z ∈ G. b) Existenz des neutralen Elementes 1: 1 · x = x · 1 = x f¨ ur alle x ∈ G. c) Existenz inversen Elemente x−1 ∈ G: x−1 x = 1 = xx−1 f¨ ur alle x ∈ G. Eine Gruppe G heißt kommutative Gruppe, falls die Verkn¨ upfung kommutativ ist, d.h. f¨ ur x, y ∈ G gilt x · y = y · x. Das neutrale Element 1 wird oft auch mit e (f¨ ur Einheit) bezeichnet. Eine kom10 mutative Gruppe nennt man abelsch . Wir haben in der Gruppen-Definition 2.10 die multiplikative Schreibweise verwendet. Bei einer additiven Schreibweise wird die Verkn¨ upfung mit +“, das neutrale Element mit 0 und die inversen Elemente mit −x ” bezeichnet. Man verwendet allgemein f¨ ur Gruppen die multiplikative Schreibweise (G, ·) und f¨ ur kommutative Gruppen die additive Schreibweise (G, +). Def inition 2.11 (Monoid, Halbgruppe). Ein Monoid M erf¨ ullt alle Gruppenaximone bis auf die Existenz inverser Elemente. Eine Halbgruppe H ist eine nichtleere Menge H mit einer assoziativen Verkn¨ upfung. Ein Monoid ist eine Halbgruppe mit einem neutralen Element, eine Gruppe ist eine Halbgruppe mit inversen Elementen. Beispiel 2.12. Beispiele f¨ ur Halbgruppen, Monoide und Gruppen sind: 10Niels Hendrik Abel, 1802–1829, ein bedeutender norwegischer Mathematiker. Er lieferte wichtige Beitr¨ age zur Funktionentheorie (insbesondere zu elliptischen Funktionen und Integralen) und zur Aufl¨ osungstheorie algebraischer Gleichungen. Zu seinen Ergebnissen z¨ ahlen beispielsweise das Abelsche Theorem, eine Verallgemeinerung des Additionstheorems elliptischer Integrale, sowie die Unaufl¨ osbarkeit der allgemeinen Gleichungen f¨ unften oder h¨ oheren Grades in Radikalen.
22
2. K¨orper, Ringe und Gruppen
• Sei X eine nicht leere Menge. Die Menge aller Abbildungen Abb(X, X) := {f | f : X → X } ist mit der Komposition (Hintereinanderausf¨ uhrung) (f ◦ g)(x) := f (g(x)), als Verkn¨ upfung ein Monoid: F¨ ur alle f, g, h ∈ Abb(X, X) und x ∈ X gilt (h ◦ (f ◦ g))(x) = h(f (g(x))) = (h ◦ f )(g(x)) = ((h ◦ f ) ◦ g)(x) Die Einheit ist die Identit¨atsfunktion id(x) = x. • Die Menge Mn,m (K) der n × n-Matrizen u ¨ber einem K¨orper K ist mit der Multiplikation und der Einheitsmatrix als neutralem Element eine Halbgruppe. Die Assoziativit¨at der Matrix-Multiplikation u ¨bertr¨agt sich aus K (siehe ¨ Ubungsaufgabe 2.1). • Die Menge N0 = {0, 1, 2, . . .} der nat¨ urlichen Zahlen ist mit der Addition und 0 als neutralem Element ein Monoid. • Die Menge GLn (K) := A ∈ Mn,n (K) A−1 existiert
der invertierbaren n × n-Matrizen u ¨ber einem K¨orper K ist mit der Multiplikation eine Gruppe (die allgemeine, lineare Gruppe). Zu C := AB mit A, B ∈ GLn (K) ist das Inverse C −1 = B −1 A−1 . • Sei R ein Ring mit Eins. Dann ist die Menge der invertierbaren Elemente R∗ := r ∈ R r−1 existiert
mit der Multiplikation eine Gruppe, die sogenannte Einheitengruppe. Es ist R∗ ⊆ R \ {0} und im Fall eines K¨orpers K gilt die Gleichheit K∗ = K \ {0}.
Analog zu Lemma 2.2 weist man folgende Rechenregeln f¨ ur Gruppen nach: Lemma 2.13. In einer Gruppe G gelten die folgenden Rechenregeln: a) Das Einselement 1 ist eindeutig bestimmt. b) Das Inverse x−1 eines Elements x ∈ G ist eindeutig bestimmt. c) F¨ ur x, y ∈ G gilt (xy)−1 = y −1 x−1 . d) F¨ ur x, y, z ∈ G folgt aus xz = yz, dass x = y. e) F¨ ur x, y, z ∈ G folgt aus zx = zy, dass x = y. Mit Gruppen k¨onnen wir K¨orper und Ringe k¨ urzer als bisher beschreiben. Korollar 2.14 (K¨orper). Eine nichtleere Menge K zusammen mit zwei inneren Verkn¨ upfungen (Addition und Multiplikation) ist genau dann ein K¨ orper, falls: a) K ist zusammen mit der Addition eine kommutative Gruppe. b) K∗ ist zusammen mit der Multiplikation eine kommutative Gruppe. c) Es gilt Distributivit¨ at.
4. Homomorphismen
23
Korollar 2.15 (Ring). Eine nichtleere Menge R mit zwei inneren, bin¨ aren Verkn¨ upfungen Addition und Multiplikation. ist genau dann ein Ring, falls: a) R ist zusammen mit der Addition eine kommutative Gruppe. b) R \ {0} ist zusammen mit der Multiplikation eine Halbgruppe. c) Es gilt Links- und Rechtsdistributivit¨ at. R ist genau dann ein (kommutativer) Ring mit Eins, wenn R \ {0} mit der Multiplikation einen (kommutativen) Monoid darstellt. Untergruppe definiert man analog zu Unterk¨orpern (Definition 2.5). Def inition 2.16 (Untergruppe). Eine nichtleere Teilmenge U einer Gruppe G heißt Untergruppe, wenn U mit der Verkn¨ upfung aus G selbst eine Gruppe ist. Eine einfache Charakterisierung einer Untergruppe liefert folgender Satz: Satz 2.17. Sei G eine Gruppe. Eine nichtleere Teilmenge U ⊆ G ist genau dann eine Untergruppe von G, falls aus x, y ∈ U folgt xy −1 ∈ U . Beweis. Offenbar erf¨ ullt jede Untergruppe U ⊆ G das Kriterium. Angenommen, eine nichtleere Teilmenge U ⊆ G erf¨ ullt die Bedingung. Die Assoziativit¨at u ¨bertr¨agt sich von G auf U , nachzuweisen bleibt, dass die Teilmenge U abgeschlossen gegen¨ uber der Verkn¨ upfung ist und Inverse in U existieren. Wegen U 6= ∅ existiert ein u ∈ U , aus dem zweiten Kriterium folgt mit x := u und y := u: 1 = uu−1 ∈ U. Die Teilmenge U enth¨alt das Einselement 1. Zu u ∈ U ist auch u−1 ∈ U , denn aus der zweiten Eigenschaften und 1 ∈ U folgt u−1 = 1 · u−1 ∈ U , und U ist eine Untergruppe von G. Wir beweisen Satz 2.6 mit Hilfe der Charakterisierung aus Korollar 2.14. Nach Satz 2.17 gilt f¨ ur K0 : • (K0 , +) ist eine Untergruppe von (K, +) und • ((K0 )∗ , ·) eine Untergruppe von (K∗ , ·). Da sich die Distributivit¨at u ugt ¨bertr¨agt, ist K0 ein K¨orper. Statt Eigenschaft a) gen¨ 0 ∗ die Bedingung (K ) 6= ∅.
4. Homomorphismen Ein Homomorphismus ist eine Abbildung, bei der kein Unterschied besteht, ob man zuerst die auf der Struktur definierte Verkn¨ upfung und danach den Homomorphismus ausf¨ uhrt oder umgekehrt. Homomorphismen sind rechentreue“ oder strukturerhal” ” tende“ Abbildungen, d.h. die Rechenregeln einer Struktur bleiben bei der Abbildung erhalten. Def inition 2.18 (Gruppenhomomorphismus). Seien (G, · ) und (G0 , ◦) Gruppen. Eine Abbildung f : G → G0 heißt Gruppenhomomorphismus, falls f¨ ur x, y ∈ G gilt f (x · y) = f (x) ◦ f (y).
(4)
24
2. K¨orper, Ringe und Gruppen
Man beachte, dass es sich bei x · y um die Verkn¨ upfung von G handelt, bei f (x) ◦ f (y) dagegen um die Verkn¨ upfung von G0 . F¨ ur Homomorphismen von Halbgruppen und Monoiden fordert man ebenfalls Eigenschaft (4). √ Beispiel 2.19. F¨ ur die Gruppe (R≥0 , ·) ist die Funktion f (x) := x ein Homomorphismus: √ √ √ f (x · y) = x · y = x · y = f (x) · f (y). Die Funktion exp : (R, +) → (R, ·), x 7→ ex ist ein Gruppenhomomorphismus: exp(x + y) = ex+y = ex · ey = exp(x) · exp(y). Sei f : G → G0 ein Gruppenhomomorphismus und x ∈ G. Es gilt f (1G ) = 1G0 , denn f (1) = f (1 · 1) = f (1) · f (1), und aus 1 = f (1) = f (x · x−1 ) = f (x) · f (x−1 ) erhalten wir f (x−1 ) = f (x)−1 . Das Bild von f ist bild f := {f (x) | x ∈ G } ⊆ G0 und ker f := {x ∈ G | f (x) = 1 } = f −1 (1) ⊆ G heißt der Kern von f .11 Man kann leicht nachrechnen, dass ker f eine Untergruppe von G und bild f Untergruppe von G0 ist. Def inition 2.20 (Ring- und K¨orperhomomorphismus). Seien (R, +, ·) und (R0 , ⊕, ◦) Ringe. Eine Abbildung f : R → R0 heißt Ringhomomorphismus, falls f¨ ur x, y ∈ R gilt a) Additivit¨ at: f (x + y) = f (x) ⊕ f (y) und b) Homogenit¨ at: f (x · y) = f (x) ◦ f (y). Falls R, R0 K¨ orper sind, spricht man von einem K¨ orper-Homomorphismus. Bei einem Homomorphismus f : A → A0 u ¨bertragen alle Operationen die algebraischen Struktur A. Man spricht davon, dass die Operationen der Struktur sich u aglich sind. ¨bertragen oder mit f vertr¨ Bemerkung 2.21 (Homomorphieprinzip). Seien A und A0 algebraische Strukturen und f : A → A0 ein surjektiver Homomorphismus (Epimorphismus). Dann gilt f¨ ur jede der beteiligten Verkn¨ upfungen, dass sich Assoziativit¨at, Kommutativit¨at, die Existenz des neutralen Elements sowie die Existenz der inversen Elemente von A auf A0 u ¨bertragen. Man nennt dies das Homomorphieprinzip. Sei f : R → R0 ein Ringhomomorphismus. Bild und Kern werden analog erkl¨art. Man nennt bild(f ) := {f (x) | x ∈ R } das Bild von f und ker f := {x ∈ R | f (x) = 0 } = f −1 (0) den Kern von f . Es gilt f (0) = 0 und f (−x) = −f (x), denn f : (R, +) → (R0 , +) ist ein Gruppenhomorphismus. Def inition 2.22 (Spezielle Homomorphismen). Ein Homomorphismus f heißt 11Beachte, dass f −1 (y) nicht die Umkehrabbildung bezeichnet (diese existiert im allgemeinen nicht), sondern die Menge aller x ∈ G mit f (x) = y.
4. Homomorphismen
25
• Monomorphismus, falls f injektiv ist. • Epimorphismus, falls f surjektiv ist. • Isomorphismus, falls f bijektiv ist. • Endomorphismus, falls f eine Abbildung einer Menge in sich ist. • Automorphismus, falls f ein bijektiver Endomorphismus ist. Die Umkehrabbildung eines Isomorphismus ist ebenfalls ein Isomorphismus. Zwei Strukturen A, A0 heißen isomorph, A ∼ = A0 , falls ein Isomorphismus f : A → A0 existiert. Beispiel 2.23. F¨ ur G := 2k k ∈ Z gilt (Z, +) ∼ = (G, ·), wobei der Isomorphismus k durch f : Z → G mit k 7→ 2 gegeben ist. Wir betrachten als weiteres Beispiel f¨ ur spezielle Homomorphismen einen K¨orperautomorphismus der komplexen Zahlen C. Beispiel 2.24. Die Abbildung f : C → C mit (a + ib) 7→ (a − ib) ordnet jeder komplexen Zahl z = a + ib die dazugeh¨orige konjugiert komplexe Zahl z := a − ib zu. Dies entspricht in der Gauß’schen Zahlenebene einer Spiegelung an der reellen Achse. Da f eine Abbildung von C nach C ist, bleibt zu zeigen, dass f bijektiv ist und die Homomorphie-Eigenschaften besitzt. Die Bijektivit¨at folgt aus f (f (a + ib)) = f (a − ib) = a + ib, d.h. es ist f −1 = f . Wir rechnen die Homomorphie-Eigenschaften nach: f (a + ib) + f (a0 + ib0 ) = a − ib + a0 − ib0 = (a + a0 ) − i(b + b0 ) = f (a + a0 + i(b + b0 )) = f (a + ib + a0 + ib0 ). F¨ ur die Multiplikation gilt: f (a + ib)f (a0 + ib0 ) = (a − ib)(a0 − ib0 ) = (aa0 − bb0 ) − i(ab0 + a0 b) = f (aa0 − bb0 + i(ab0 + a0 b)) = f ((a + ib)(a0 + ib0 )). Dies ergibt folgende Rechenregeln f¨ ur die Konjugation komplexer Zahlen z1 , z2 ∈ C: z1 + z 2 = z1 + z2 z1 · z 2 = z1 · z 2 z 1 = z1 . Betrachten wir die Konjugation in der Darstellung mit Polarkoordinaten. Offenbar haben z und z die gleiche L¨ange. F¨ ur die Winkel gilt ϕ = 2π − ϕ = −ϕ mod 2π. Das Produkt zweier konjugiert komplexer Zahlen z1 · z2 hat den Winkel −ϕ1 + (−ϕ2 ) mod 2π, das konjugiert komplexe Produkt zweier komplexer Zahlen z1 · z2 hat den Winkel
26
2. K¨orper, Ringe und Gruppen
−(ϕ1 + ϕ2 ) mod 2π. Dabei folgt die Gleichheit der Winkel und L¨angen auch aus den Homomorphie-Eigenschaften der komplexen Konjugation: z1 · z2 = z1 · z2 .
5. Vom Ring Z abgeleitete K¨ orper Wir haben bereits in Abschnitt 1 dieses Kapitels die endlichen K¨orper Z2 und Z3 kennengelernt. Nun konstruieren wir aus den ganzen Zahlen Z endliche Strukturen Zp , die sich f¨ ur prime12 p als K¨orper erweisen. Sei n ∈ N \ {0}. Wir erkl¨aren Addition und Multiplikation auf dem ganzzahligen Intervall [0, n − 1] = {0, 1, . . . , n − 1} ⊆ N gem¨aß a +n b := (a + b) − qn a ·n b := (ab) − q 0 n mit q, q 0 ∈ Z, so dass (a + b) − qn ∈ [0, n − 1] und (ab) − q 0 n ∈ [0, n − 1]. Das eindeutig bestimmte q bzw. q 0 ergibt sich aus der Division mit Rest [W96]: Satz 2.25 (Division mit Rest). Zu a ∈ Z, b ∈ N \ {0} gibt es eindeutig bestimmte Zahlen q, r ∈ Z mit a = qb + r und 0 ≤ r < b. Da r eindeutig bestimmt ist, nennen wir r den Rest bei der Division von a durch b und bezeichnen ihn mit a mod b (man spricht a modulo b“). Also: ” a +n b := (a + b) mod n a ·n b := (ab) mod n Def inition 2.26 (Zn ). Sei Zn := ([0, n−1], +n , ·n ) die algebaische Struktur bestehend aus der Menge [0, n − 1] und den beiden Verkn¨ upfungen +n“ und ·n“. ” ” F¨ ur Zn schreibt man auch Z/nZ oder Z/(n) und spricht von einem Faktorring. Wir wollen zeigen, dass Zn ein kommutativer Ring mit Einselement ist. Nach dem Homomorphie-Prinzip (Bemerkung 2.21 auf Seite 24) gen¨ ugt der Nachweis, dass die Abbildung rn : Z → Zn mit rn (a) := a mod n, d.h. a wird abgebildet auf den Teilerrest bei Division durch n, ein Homomorphismus ist. Es gilt r−1 (a) = a+nZ = {a + nz | z ∈ Z }. Wir identifizieren das Element a ∈ Zn mit der Menge a + nZ: Zn = [0, n − 1]
↔
{r + nZ | r = 0, 1, . . . , n − 1 } .
Zu einem festen r ∈ [0, n − 1] heißt die Menge r + nZ die Restklasse modulo n und r nennt man einen Repr¨ asentanten dieser Restklasse. Die Restklasse ist unabh¨angig von der Wahl des Repr¨asentanten: r + nZ = r0 + nZ
⇐⇒
r − r0 ∈ nZ.
(5)
12Eine Zahl p ∈ N\{1} heißt prim, wenn p nicht als Produkt ab mit a, b ∈ [1, p−1] darstellbar ist.
Dabei wird die Zahl 1 als Spezialfall per Definition ausgeschlossen. Teilt eine Primzahl ein Produkt xy, so teilt p einen der beiden Faktoren x oder y.
5. Vom Ring Z abgeleitete K¨orper
27
Die nachzuweisenden Homomorphie-Eigenschaften rn (a + b) = rn (a) +n rn (b) rn (a · b) = rn (a) ·n rn (b) mit a, b ∈ Z sind ¨aquivalent zu:13 (a + b) + nZ = (a + nZ) + (b + nZ) (ab) + nZ = (a + nZ) · (b + nZ)
(6)
F¨ ur a, b ∈ [0, n − 1] gilt offenbar (6). Sei a0 := a + sn und b0 := b + tn mit s, t ∈ Z und a, b ∈ [0, n − 1]. Es gen¨ ugt der Nachweis von (a0 + b0 ) − (a + b) ∈ nZ (a0 b0 ) − (ab) ∈ nZ,
(7)
d.h. rn (a + b) = rn (a0 + b0 ) und rn (ab) = rn (a0 b0 ), d.h. beide Repr¨asentanten stehen jeweils f¨ ur die gleiche Restklasse. Gleichungen (7) folgen aus: (a0 + b0 ) − (a + b) = (a + b + (s + t)n) − (a + b) = (s + t)n ∈ nZ (a0 b0 ) − (ab) = (ab + atn + bsn + tsn2 ) − (ab) = (at + bs + tsn)n ∈ nZ Wir haben gezeigt: Satz 2.27. F¨ ur n ∈ N \ {0} ist Zn ist ein kommutativer Ring mit Eins. Das Nullelement ist die Restklasse 0+nZ, das Einelement 1+nZ. Insbesondere ist (Zn , +) nach Satz 2.27 eine kommutative Gruppe. Im allgemeinen handelt es sich bei Zn jedoch um keinen K¨orper, denn beispielsweise existiert in Z4 kein multiplikatives Inverses zu 2. Satz 2.28. Zn ist genau dann ein K¨ orper, wenn n eine Primzahl ist. Beweis. Wir wissen bereits aus Satz 2.27, dass Zn ein kommutativer Ring mit Eins ist und sich von einem K¨orper nur durch Axiom 8 (Existenz inverser Elemente) unterscheiden kann. Ist n keine Primzahl, so gibt es a, b ∈ [1, n − 1] mit n = ab. Wegen (ab) mod n = 0 sind a mod n und b mod n Nullteiler in Zn , so dass Zn kein K¨orper ist. Sei p eine Primzahl. Wir zeigen, dass es zu jedem a ∈ [1, p − 1] ein Inverses gibt und Zp daher ein K¨orper ist. Betrachte die Produkte a ·p 0, a ·p 1, . . . , a ·p (p − 1). Diese sind paarweise verschieden. Denn angenommen, es g¨abe i, j mit 0 ≤ i 6= j < p und a ·p i = a ·p j. Da a 7→ (a mod p) ein Homomorphismus ist, folgt a(i − j) ∈ pZ und p teilt a(i − j). Da p eine Primzahl ist, teilt p mindestens einen der Faktoren. Wegen 0 6= a < p, muß p die Differenz i − j teilen — Widerspruch, denn 0 < |i − j| < p. Da die p obigen Produkte paarweise verschieden sind und |Zp | = p ist, l¨aßt sich jedes Element aus Zp darstellen als Produkt von a und einem anderen Element b ∈ Zp . Wegen 1 = a ·p b ist b Inverses zu a. 13Gleichung (6) bedeutet, dass + “ und · “ u asentanten und die Addition bzw. Muln n ¨ ber Repr¨
” ” tiplikation auf Z erkl¨ art werden. Zu zeigen bleibt, dass die Verkn¨ upfungen wohldefiniert sind, d.h. unabh¨ angig von der Wahl der Repr¨ asentanten.
28
2. K¨orper, Ringe und Gruppen
Der Beweis ist nicht konstruktiv, liefert also keinen Anhaltspunkt f¨ ur die Berechnung des Inversen von in Zp . Man kann die Inversen effizient mit dem (erweiterten) Euklidische Algorithmus, der in den Vorlesungen u ¨ber Algebra“ und diskrete Mathematik“ ” ” vorgestellt wird, bestimmen. Beispiel 2.29. Betrachten wir ein weiteres Beispiel eines endlichen K¨orpers. Den K¨orper Z7 mit sieben Elementen leiten wir aus Z ab: + 0 1 2 3 4 5 6
0 0 1 2 3 4 5 6
1 1 2 3 4 5 6 0
2 2 3 4 5 6 0 1
3 3 4 5 6 0 1 2
4 4 5 6 0 1 2 3
5 5 6 0 1 2 3 4
6 6 0 1 2 3 4 5
· 0 1 2 3 4 5 6
0 0 0 0 0 0 0 0
1 0 1 2 3 4 5 6
2 0 2 4 6 1 3 5
3 0 3 6 2 5 1 4
4 0 4 1 5 2 6 3
5 0 5 3 1 6 4 2
6 0 6 5 4 3 2 1
Wir nennen zwei ganze Zahlen a, b ∈ Z kongruent modulo n, falls die Reste bei Division von a und b durch n gleich sind, also a − b ∈ nZ ist: a≡b
(mod n).
¨ Die Kongruenz modulo n ist ein Beispiel f¨ ur eine Aquivalenzrelation auf Z. ¨ ¨ Def inition 2.30 (Aquivalenzrelation, Aquivalenzklasse). Sei X eine Menge. Eine ¨ Teilmenge R ⊆ X × X ist eine Aquivalenzrelation auf X, wenn gilt: (A1) Reflexivit¨ at: (x, x) ∈ R f¨ ur alle x ∈ X. (A2) Symmetrie: Aus (x, y) ∈ R folgt (y, x) ∈ R. (A3) Transitivit¨ at: Aus (x, y), (y, z) ∈ R folgt (x, z) ∈ R. Anstelle von (x, y) ∈ R schreibt man oft xRy. Zu x ∈ X heißt die Teilmenge [x]R := {y ∈ Y | (x, y) ∈ R } ¨ die Aquivalenzklasse von x bez¨ uglich R. ¨ Die Aquivalenzklassen bez¨ uglich der Kongruenz modulo n sind die n Restklassen. Man rechnet mit Hilfe von (5) leicht nach: ¨ Satz 2.31. Sei n ∈ N \ {0}. Die Kongruenz modulo n ist eine Aquivalenzrelation auf den gaznzen Zahlen Z.
Kapitel 3
Vektorr¨ aume
Zentraler Gegenstand der linearen Algebra sind Vektorr¨aume, die wir in diesem Abschnitt kennenenlernen. Wir definieren den Begriff und f¨ uhren Untervektorr¨aume, Basen und Dimension ein.
1. Vektorraum und Untervektorraum Wir beginnen mit der Definition des Vektorraums (auch linearer Raum genannt): Def inition 3.1 (Vektorraum). Sei K ein K¨ orper. Eine nichtleere Menge V mit zwei Verkn¨ upfungen +: V × V → V , · : K×V →V ,
(v, w) 7→ v + w (Addition) (λ, v) 7→ λ · v (Skalare Multiplikation)
heißt K-Vektorraum, wenn f¨ ur alle λ, µ ∈ K und v, w ∈ V gilt: a) (V, +) ist eine kommutative Gruppe. b) Assozitativit¨ at: λ · (µ · v) = (λ · µ) · v c) Distributivit¨ at: (λ + µ) · v = λ · v + µ · v,
λ · (v + w) = λ · v + λ · w
d) 1 · v = v. Ein Vektorraum ist eine kommutative Gruppe mit einer ¨außeren Verkn¨ upfung zu einem K¨orper. Statt K-Vektorraum sagt man auch Vektorraum u ¨ber K. Die Elemente v ∈ V heißen Vektoren, die Elemente λ ∈ K nennt man Skalare. Wir schreiben 0 f¨ ur den Nullvektor bzw. einfach 0, wenn Verwechselungen mit dem Nullelement des K¨orpers K ausgeschlossen werden k¨onnen. Beispiel 3.2. Betrachte einige Beispiele zu Vektorr¨aumen. 29
30
3. Vektorr¨aume
• Sei K ein K¨orper. Die Menge Kn bildet mit den komponentenweise definierten Operationen λx1 x1 + y1 x1 x1 y1 .. .. .. λ · ... = ... . + . = . xn λxn xn + yn xn yn einen K-Vektorraum. Da die Operationen komponentenweise definiert sind, u ¨bertragen sich die Rechengesetze von K und die Vektorraumaxiome gelten. • Sei K ein K¨orper. Dann ist die Menge der m × n Matrizen Mm,n (K) u ¨ber diesem K¨orper zusammen mit Addition und skalaren Multiplikation ein KVektorraum. • Die komplexen Zahlen C lassen sich als R-Vektorraum interpretieren. Dabei ist die Addition die in Kapitel 1 angegebene und die Multiplikation mit einem Skalar λ ist die Multiplikation einer reellen Zahl mit einer komplexen Zahl: λ(a + ib) = (λ + i0)(a + ib) = λa + iλb. • Sei ein X nichtleere Menge und K ein K¨orper. Dann ist die Menge der Abbildungen von X nach K Abb(X, K) := {f | f : X → K } mit der Addition (f + g)(x) 7→ f (x) + g(x) und der skalaren Multiplikation (λf )(x) 7→ λf (x) ein K-Vektorraum. Wir folgern aus den Axiomen des Vektorraums: Lemma 3.3. In einem K-Vektorraum V gelten folgende Rechenregeln: a) F¨ ur v ∈ V und λ ∈ K gilt 0 · v = λ · 0 = 0. b) Aus λ · v = 0 mit λ ∈ K und v ∈ V folgt λ = 0 oder v = 0. c) F¨ ur v ∈ V gilt (−1) · v = −v. Beweis. Seien v ∈ V und λ ∈ K. Aus der Distributivit¨at folgt: 0 + 0 · v = 0 · v = (0 + 0) · v = 0 · v + 0 · v 0 + λ · 0 = λ · 0 = λ · (0 + 0) = λ · 0 + λ · 0. Da (V, +) eine Gruppe ist, folgt 0 · v = λ · 0 = 0. Sei λ · v = 0 und λ 6= 0. Nach Definition des Vektorraums ist 1 · v = v. Wir erhalten: v = 1 · v = (λ−1 λ) · v = λ−1 · (λ · v) = λ−1 · 0. Aus Eigenschaft a) folgt v = 0. Aufgrund des Distributivgesetzes gilt: v + (−1) · v = 1 · v + (−1) · v = (1 − 1) · v = 0 · v. Aus Eigenschaft a) folgt 0 · v = 0, so dass (−1) · v das additive Inverse zu v ist.
Analog zu Untergruppen, -ringen und -k¨orpern definiert man Untervektorr¨ aume und aufbauend auf diesen weitere Teilstrukturen von Vektorr¨aumen.
1. Vektorraum und Untervektorraum
31
Def inition 3.4 (Untervektorraum). Sei V ein K-Vektorraum. Eine nichtleere Teilmenge U ⊆ V heißt Untervektorraum, wenn sie ein K-Vektorraum ist. Betrachten wir Beispiele von Untervektorr¨aumen: • Im R2 bilden die Punkte Ga = (x, y)T ∈ R2 y = ax einer Geraden durch den Ursprung, f¨ ur ein festes a ∈ R, einen Untervektorraum des R2 . • Sei K ein K¨orper. Die Menge UDn (K) der unteren n × n-Dreiecksmatrizen ist ein Untervektorraum des K-Vektorraums der n × n Matrizen Mm,n (K). Lemma 3.5. Eine nichtleere Teilmenge U eines K-Vektorraums V ist genau dann ein Untervektorraum, wenn sie abgeschlossen gegen¨ uber Addition und skalarer Multiplikation ist. Beweis. Falls U ein Untervektorraum von V darstellt, ist er abgeschlossen gegen¨ uber Addition und skalarer Multiplikation. Umgekehrt, angenommen U ⊆ H ist abgeschlossen gegen¨ uber Addition und skalarer Multiplikation. Seien v, w ∈ U und λ ∈ K. Assoziativit¨at, Distributivit¨at und 1·v = v u ¨bertragen sich von V auf U . Bleibt zu zeigen, dass U mit der Addition eine kommutative Gruppe bildet. Mit u ∈ U ist −1 · u = −u ∈ U , so dass zu u, v ∈ U auch u − v ∈ U . Aus dem Untergruppenkriterium, Satz 2.17 auf Seite 23, folgt die Behauptung. Im R2 ist eine Gerade Ga,b , die nicht durch den Ursprung geht, Ga,b = (x, y)T ∈ R2 y = ax + b
mit a, b ∈ R und b 6= 0, ein verschobene Untervektorraum“: ” Ga,b = (0, b)T + (x, y)T ∈ R2 y = ax = (0, b)T + Ga .
Wir f¨ uhren f¨ ur verschobene Unterr¨aume“ den Begriff des affinen Unterr¨ aums ein: ” Def inition 3.6 (Affiner Unterraum, Richtungsraum, Parallel). Eine Teilmenge A eines K-Vektorraums V heißt affiner Unterraum, wenn sie leer ist oder es ein a0 ∈ A und einen Untervektorraum U ⊆ V mit A = a0 + U gibt. Wir nennen R(A) := U = {x − a0 | x ∈ A } = {x − y | x, y ∈ A } Richtungsraum von A. Affine Unterr¨ aume A und A0 heißen parallel, A k A0 , falls 0 0 R(A) ⊆ R(A ) oder R(A ) ⊆ R(A). Beachte, dass der Richtungsraum R(A) unabh¨angig von a0 ist. Wie wir sp¨ater sehen werden, sind Geraden die eindimensionalen affinen Unterr¨aume des Kn und die Hyperebenen die affinen Unterr¨aume des Kn der Dimension n − 1. Def inition 3.7 (Gerade, Hyperebene). Eine Teilmenge G ⊆ Kn heißt Gerade, falls es a, a0 ∈ Kn gibt mit G = a0 + Ka = {a0 + λa | λ ∈ K } . Eine Teilmenge H ⊆ Kn heißt Hyperebene, falls es a ∈ Kn , a 6= 0, und b ∈ K gibt mit H = x ∈ Kn aT x = b = L¨os(aT , b).
32
3. Vektorr¨aume
Wir k¨onnen die L¨osungsmengen linearer Gleichungssysteme mit der Terminologie der Vektorr¨aume beschreiben. Sei A ∈ Mm,n (K) und b ∈ Km . Dann ist L¨os(A, b) ⊆ Kn ein affiner Unterraum mit dem Richtungsraum L¨os(A, 0). Umgekehrt gilt, dass jeder affine Unterraum L¨osungsmenge eines inhomogenen linearen Gleichungssystem ist. Wir werden den Beweis zu einem sp¨ateren Zeitpunkt geben.
2. Lineare Unabh¨ angigkeit, Basen und Dimension Schließt man eine Menge von Vektoren aus einem Vektorraum linear ab, ergibt dies den von diesen Vektoren erzeugten Unterraum. Als erstes f¨ uhren wir dazu den Begriff der Linearkombination ein: Def inition 3.8 (Linearkombination). Sei V ein K-Vektorraum, v1 , . . . , vn ∈ V und λ1 , . . . , λn ∈ K. Dann heißt der Vektor n X v= λi vi = λ1 v1 + . . . + λn vn i=1
eine Linearkombination der Vektoren v1 , . . . , vn . Beachte, dass eine Linearkombination nur aus endlich vielen Vektoren besteht. Linearkombinationen, die durch Permutationen der Summanden auseinander hervorgehen, sind gleich. Bildet man zu gegebenen Vektoren alle m¨oglichen Linearkombinationen, heißt dies lineare H¨ ulle: Def inition 3.9 (Lineare H¨ ulle). Sei V ein K-Vektorraum. Die lineare H¨ ulle (linearer Abschluß, Erzeugnis oder Spann) von X = {x1 , x2 , . . .} ⊆ V ist ( n ) X span(X) := λi xi n ∈ N, λi ∈ K, xi ∈ X . i=1
F¨ ur endliche X sei λi = 0 f¨ ur i > |X|. Andere Schreibweisen f¨ ur span(X) sind L(X) und hXi.
Die lineare H¨ ulle einer unendlichen Menge von Vektoren besteht aus den Linearkombinationen aller endlichen Teilmengen dieser Menge. Die lineare H¨ ulle einer endlichen Menge von Vektoren X = {x1 , . . . , xn } besteht aus allen Linearkombinationen dieser Vektoren: ( n ) n X X span(X) := λi xi λi ∈ K = Kxi . i=1
i=1
Die lineare H¨ ulle von Vektoren ist nach Lemma 3.5 ein Untervektorraum, denn mit u, v ∈ span(X) und λ ∈ K gilt n n n X X X u+v = λi xi + µi xi = (λi + µi )xi ∈ span(X) i=1 n X
λv = λ
i=1
i=1 n X
λi vi =
i=1
i=1
(λλi )vi ∈ span(X).
2. Lineare Unabh¨angigkeit, Basen und Dimension
33
F¨ ur X = ∅ erhalten wir in Definition 3.9 die leere Summe und als Erzeugnis der leeren Menge den kleinstm¨oglichen Untervektorraum: span(∅) = {0}. Def inition 3.10 (Erzeugendensystem). Sei V ein K-Vektorraum und X ⊆ V . Ein Erzeugendsystem von span(X) ist eine Teilmenge Y ⊆ X mit span(Y ) = span(X). Die Definition legt nahe, dass nicht alle Vektoren einer Menge f¨ ur ihr Erzeugnis wesentlich sind. Tats¨achlich ver¨andert sich die lineare H¨ ulle einer Menge von Vektoren X nicht, f¨ ugt man eine Linearkombination von Vektoren aus X hinzu. L¨aßt sich der hinzugef¨ ugte Vektor nicht als Linearkombination von Vektoren aus X darstellen, so ver¨andert seine Hinzunahme die lineare H¨ ulle. Wir f¨ uhren f¨ ur diesen Sachverhalt den Begriff der linearen Unabh¨angigkeit ein: Def inition 3.11 (Linear unabh¨angig). Sei V ein K-Vektorraum. Eine Teilmenge X = {x1 , . . . , xn } ⊆ V heißt linear unabh¨ angig, falls f¨ ur λ1 , . . . , λn ∈ K gilt n X
λi xi = 0
=⇒
λ1 = . . . = λn = 0.
i=1
X heißt linear abh¨ angig, falls X nicht linear unabh¨ angig ist. Eine unendliche Menge von Vektoren heißt linear unabh¨ angig, wenn jede endliche Teilmenge linear unabh¨ angig ist, und heißt linear abh¨ angig, wenn sie eine endliche linear abh¨ angige Teilmenge enth¨ alt. Die leere Menge ist linear unabh¨ angig. Eine Menge von Vektoren ist linear unabh¨angig, wenn der Nullvektor nur die triviale Darstellung hat. Aus der Definition folgt direkt: Satz 3.12. Sei V ein K-Vektorraum und X = {x1 , . . . , xn } ⊆ V . Dann sind folgende Aussagen ¨ aquivalent: a) X ist linear unabh¨ angig. b) Die Darstellung der Null als Linearkombination der xi ist eindeutig. Pn c) F¨ ur (λ1 , . . . , λn ) ∈ Kn \ {0} ist i=1 λi xi 6= 0. Beispiel 3.13. Es gilt: • Im Kn sind die Vektoren (1, 1, 1), (1, 1, 0), (0, 0, 1) linear abh¨angig, denn 1 · (1, 1, 1) − 1 · (1, 1, 0) − 1 · (0, 0, 1) = 0 i
• Wir nennen ei := (0, . . . , 0, 1, 0, . . . , 0) ∈ Kn den i-ten kanonischen Einheitsvektor. Die Einheitsvektoren sind linear unabh¨angig, da jede Komponente einer Linearkombination nur von genau einem der Einheitsvektoren bestimmt wird; sollen alle Komponenten der Linearkombination 0 sein, m¨ ussen daher auch alle Koeffizienten 0 sein. • Der Nullvektor ist stets linear abh¨angig (denn 1 · 0 = 0). • Seien a = (a1 , a2 ), b = (b1 , b2 ) ∈ R2 . Dann gilt – a, b sind genau dann linear abh¨angig, wenn es ein λ ∈ R gibt mit a = λb oder b = λa. – a, b sind genau dann linear unabh¨angig, wenn 4(a, b) = a1 b2 −a2 b1 6= 0.
34
3. Vektorr¨aume
• Die Richtungsr¨aume von Geraden sind genau dann linear abh¨angig, wenn die Geraden parallel sind. Wir zeichnen bestimmte Erzeugendensysteme aus und weisen anschließend nach, dass diese minimal sind: Def inition 3.14 (Basis). Sei V ein K-Vektorraum. Eine Teilmenge B ⊂ V heißt Basis von V , wenn sie ein linear unabh¨ angiges Erzeugendensystem von V ist. Die Einheitsvektoren bilden offenbar eine Basis des Kn . Wir bezeichnen diese Basis als die Standardbasis des Kn . Offensichtlich ist die Darstellung eines Vektors als Linearkombination der Standardbasis eindeutig. Satz 3.15. Sei V ein K-Vektorraum. B ⊂ V ist genau dann eine Basis von V , wenn f¨ ur alle B 0 ( B gilt span(B 0 ) 6= V . Beweis. Sei V ein K-Vektorraum und B ⊂ V . Wir zeigen beide Richtungen: Wir zeigen zuerst, falls B eine Basis ist, dann ist B auch ein minimales Erzeugendensystem. Wir beweisen dazu, dass ein Erzeugendensystem, welches nicht minimal ist, auch keine Basis bildet (Beweis durch Kontraposition). Sei B 0 ein Erzeugendensystem mit B 0 ( B und span(B 0 ) = span(B). Dann existiert ein b ∈ B \ B 0 mit P b ∈ span(B 0 ). Wir stellen b als Linearkombination der Elemente von B 0 dar: b = ni=1 λi b0i mit b01 , . . . , b0n ∈ B 0 . Damit erh¨alt man eine nicht-triviale Darstellung der Null 0=b−
n X
λi b0i
i=1
Also sind b01 , . . . , b0n , b linear abh¨angig, und B ist keine Basis. Wir zeigen, falls B ein minimales Erzeugendensystem ist, dann ist B eine Basis. Wir f¨ uhren dazu einen Beweis durch Kontraposition und beweisen, dass B nicht minimal ist, wenn B keine Basis ist. Sei B = {b1 , . . . , bn } ⊆ V ein linear abh¨ P angiges Erzeugendensystem. Dann gibt es eine nichttriviale Darstellung der Null ni=1 λi bi = 0 mit (λ1 , . . . , λn ) ∈ Kn \ {0}. Wir nehmen o.B.d.A. an,1 dass λ1 6= 0 (sonst benenne die bi entsprechend um). Dann ist b1 =
n X λi bi ∈ span(b2 , . . . , bn ) λ1 i=2
B0
und = {b2 , . . . , bn } bildet ein Erzeugendensystem.2 Wegen B 0 = B \{b1 } ist B nicht minimal. Korollar 3.16. Jeder Vektorraum hat eine Basis. 1Ohne Beschr¨ ankung der Allgemeinheit: Diese Annahme dient nur der Vereinfachung der folgen-
den Darstellung und kann stets erf¨ ullt werden (z.B. durch Umbennung der Indizes). 2Die Division ist m¨ oglich, da der Vektorraum u orper definiert ist. ¨ber einem K¨
2. Lineare Unabh¨angigkeit, Basen und Dimension
35
F¨ ur endlich erzeugte Vektorr¨aume folgt Korollar 3.16 unmittelbar aus Satz 3.15. F¨ ur unendlich erzeugte Vektorr¨aume ben¨otigt man zus¨atzlich das Lemma von Zorn: In der Menge der linear unabh¨angigen Teilmengen gibt es ein maximales Element. Satz 3.17. Sei V ein K-Vektorraum, I eine Indexmenge und B = {bi | i ∈ I } ⊂ V eine Basis von V . Dann hat jedes v ∈ V genau eine endliche Darstellung X v= λ i bi mit λi ∈ K. i∈I
Da zu einer gegebenen, geordneten3 Basis B jeder Vektor v eine eindeutige Darstellung als Linearkombination der Basisvektoren hat, sind die Koeffizienten λi dieser Darstellung eindeutig festgelegt. Man nennt λ := (λi | i ∈ I) den Koordinatenvektor von v bez¨ uglich der Basis B und schreibt: X v = Bλ = λ i bi . i∈I
Beweis. Wir f¨ uhren den Beweis zu zu Satz 3.17 durch Widerspruch. Sei V ein KVektorraum und B = {b1 , . . . , bn , . . .} ⊂ V eine Basis von V . Angenommen, es g¨abe zwei unterschiedliche Darstellungen eines Vektors v ∈ V n X i=1
λ i bi =
n X
λ0i bi
i=1
Pn 0 Dann ist mit (λ1 , . . . , λn ) 6= i=1 (λi − λi )bi = 0 eine nicht-triviale Darstellung der Null und B keine Basis — Widerspruch zur Annahme. (λ01 , . . . , λ0n ).
In Aufgabe 5.2 zeigen wir, dass Vektorraum-Isomorphismen Basen auf Basen abbilden: Satz 3.18. Seien V1 , V2 K-Vektorr¨ aume und ψ : V1 → V2 ein Isomorphismus. Dann gilt: a) Genau dann sind ψ(v1 ), . . . , ψ(vm ) ∈ V2 linear unabh¨ angig, wenn v1 , . . . , vn ∈ V1 linear unabh¨ angig sind. b) Genau dann bilden ψ(b1 ), . . . , ψ(bn ) eine Basis von V2 , wenn b1 , . . . , bn eine Basis von V1 darstellen. ¨ Die bisherigen Uberlegungen gelten sowohl f¨ ur endlich erzeugte als auch f¨ ur unendlich erzeugte Vektorr¨aume. Im weiteren beschr¨anken wir uns auf endlich erzeugte Vektorr¨aume. F¨ ur diese formulieren wir das folgende Lemma: Lemma 3.19. Sei V ein K-Vektorraum mit Basis B = {b1 , . . . , bn }.Dann ist V ∼ = Kn . P Beweis. Da jedes v ∈ V eine eindeutige Darstellung v = ni=1 λi bi mit λ1 , . . . , λn ∈ K hat, ist die Abbildung ψ : Kn → V mit f (λ) := Bλ bijektiv. Weil ψ ein Homomorphismus von Vektorr¨aumen ist, folgt die Behauptung. 3D.h. die Reihenfolge der Vektoren in der Basis ist fixiert.
36
3. Vektorr¨aume
Unser Ziel ist es zu zeigen, dass alle Basen von V dieselbe M¨achtigkeit haben. Wir werden f¨ ur diese Zahl den Begriff der Dimension des Vektorraums in Definition 3.23 einf¨ uhren. Satz 3.20. Je n linear unabh¨ angige Vektoren des Kn bilden eine Basis des Kn . Beweis. Seien a1 , . . . , an ∈ Kn linear unabh¨angige Vektoren. Es ist zu zeigen, dass diese Vektoren ein Erzeugendensystem des Kn sind, also span(a1 , . . . , an ) = Kn . Da span(a1 , . . . , an ) ⊆ Kn trivialerweise gilt, bleibt Kn ⊆ span(a1 , . . . , an ) nachzuweisen. Dies gilt, wenn die Matrix mit den Spalten a1 , . . . , an A = a1 · · · an ∈ Mn,n (K) invertierbar ist. Denn wenn es ein multiplikatives Inverses A−1 ∈ Mn,n (K) zu A gibt, ist x = A−1 b f¨ ur jedes b ∈ Kn eine L¨osung des linearen Gleichungssystems Ax = b und damit l¨aßt sich jeder Vektor b ∈ Kn als Linearkombination der Spalten a1 , . . . , an von A (mit Koeffizienten x1 , . . . , xn ) darstellen. ¨ Wir zeigen die Invertierbarkeit von A. Nach Ubungsaufgabe 2.4 gibt es Permutationsmatrizen P1 , P2 ∈ Mn,n (K), so dass das Gauß-Verfahren auf P1 AP2 ohne Zeilen- und Spaltenvertauschungen auskommt. Nach Satz 1.16 auf Seite 12 gibt es T = (ti,j ) ∈ UDn mit t11 = · · · = tnn = 1, B ∈ ODn , so dass P1 AP2 = T B. Es gen¨ ugt zu zeigen, dass es zu B eine inverse Matrix B −1 gibt, denn dann hat −1 A = P1 T BP2−1 die Inverse A−1 = P2 B −1 T −1 P1 . Sei O.B.d.A. P1 = P2 = In . Wir zeigen durch Widerspruch, dass f¨ ur B = (bij ) gilt b11 b22 · · · bnn 6= 0, ¨ so dass nach Ubungsaufgabe 4.2 ein Inverses B −1 existiert. Angenommen, es g¨abe ein i mit bii = 0. W¨ahle das maximale i mit bii = 0: i
∗
0 . T .. b1 . .. . B = . = i . bTn ... . . . 0
∗ .. . ..
.
···
··· .. . ∗ .. .
···
··· ..
···
···
.
0 .. .
···
..
.
bi+1,i+1 .. . ···
..
.
..
.
0
∗ .. . .. . .. . .. .
∗
bn,n
Dann gilt bTi
=
n X
j=i+1
λj bTj
mit λi+1 , . . . , λn ∈ K,
(8)
2. Lineare Unabh¨angigkeit, Basen und Dimension
37
denn mit bi+1,i+1 ∗ .. 0 . B0 = .. . .. . 0 ··· und
b0 Ti
··· .. . .. . 0
∗ .. . ∗
bn,n
= (bi,i+1 , . . . , bi,n ) ist T
T
b0 i = x0 B 0 l¨osbar durch x0 T = b0 Ti B −1 . Dabei existiert B −1 wegen bi+1,i+1 · · · bn,n 6= 0. Andererseits sind bT1 , . . . , bTn linear unabh¨angig, denn wegen A = T B gilt T −1 aTi = bTi . Da aT 7→ T aT Homomorphismus von Vektorr¨aumen ist und die Umkehrabbildung aT 7→ T aT ebenfalls, ist aT 7→ T −1 aT Isomorphismus von Vektorr¨aumen. Damit folgt aus der linearen Unabh¨angigkeit von aT1 , . . . , aTn , dass b1 , . . . , bn linear unabh¨angig sind im Widerspruch zu (8). Also ist b11 · · · bnn 6= 0 und B und A sind invertierbar. Lemma 3.21. Es gilt Kn ∼ = Km genau dann, wenn n = m. ∼ Km . Umgekehrt zeigen wir, dass Kn ∼ Beweis. Aus n = m folgt unmittelbar Kn = = m m n ∼ K impliziert n = m. Angenommen, es sei K = K f¨ ur m < n. Dann g¨abe es einen Vektorraum-Isomorphismus ψ : Kn → Km und die Bilder {ψ(e1 ), . . . , ψ(en )} der Standardbasis e1 , . . . , en des Kn w¨aren gem¨aß Satz 3.18 linear unabh¨angig. Nach Satz 3.20 ist andererseits ψ(e1 ), . . . , ψ(em ) Basis des Km . Widerspruch, da alle Basen eines Vektorraums die gleiche L¨ange haben. Lemma 3.22. Sei V ein K-Vektorraum. Dann sind folgende Aussagen ¨ aquivalent: a) V ∼ = Kn . b) Jede Basis von V hat die M¨ achtigkeit n. c) Die Maximalzahl linear unabh¨ angiger Vektoren in V ist n. ¨ Beweis. Die Aquivalenz a) ⇐⇒ b) folgt aus den Lemmata 3.19 und 3.21. ¨ Wir zeigen die Aquivalenz b) ⇐⇒ c). Seien {b1 , . . . , bm } linear unabh¨angige Vektoren, so dass m maximal ist. Dann gilt span({b1 , . . . , bm }) = V , denn jeder Vektor v ∈ V \ span({b1 , . . . , bm }) ist linear unabh¨angig von {b1 , . . . , bm }. Somit ist ¨ b1 , . . . , bm eine Basis von V . Es folgt m = n, wobei n durch die Aquivalenz von a) und b) eindeutig erkl¨art ist. Alle Basen eines endlich erzeugten Vektorraums haben die gleiche M¨achtigkeit. Wir nennen diese Zahl die Dimension des Vektorraums. Da die Dimension endlich erzeugter Vektorr¨aume eine nat¨ urliche Zahl ist, nennt man solche Vektorr¨aume endlich dimensional. Def inition 3.23 (Dimension). Sei V ein K-Vektorraum mit V ∼ = Kn . Dann heißt dim V := n die Dimension von V . Der Begriff der linearen Unabh¨ angigkeit liefert ein Kriterium f¨ ur die Invertierbarkeit von Matrizen:
38
3. Vektorr¨aume
Satz 3.24 (Invertierbarkeitskriterium f¨ ur Matrizen). F¨ ur quadratische Matrizen A ∈ Mn,n (K) sind folgende Aussagen ¨ aquivalent: a) A ∈ GLn (K), d.h. A ist invertierbar. b) AT ∈ GLn (K), d.h. AT ist invertierbar. c) Die Zeilen (Spalten) von A sind linear unabh¨ angig. ¨ Beweis. Betrachten wir die Aquivalenz a) ⇐⇒ b). Sei A invertierbar. Dann gibt −1 −1 es ein A ∈ Mn,n (K) mit AA = In . Es gilt (AA−1 )T = InT = In und somit −1 T T T −1 −1 (A ) A = In . Also (A ) = (A )T . Die R¨ uckrichtung folgt mit (AT )T = A und der gleichen Argumentation. ¨ Wir weisen die Aquivalenz a) ⇐⇒ c) nach. Im Beweis zu Satz 3.20 wurde gezeigt, dass A invertierbar ist, wenn die Zeilen von A linear unabh¨angig sind. F¨ ur regul¨are A hat das homogene lineare Gleichungssystem Ax = 0 nur die triviale L¨osung x = 0, denn die Abbildung ψ : x 7→ Ax ist invertierbar ψ −1 : y 7→ A−1 y. Andererseits gilt: aT1 , . . . , aTn sind linear abh¨angig ⇐⇒ Ax = 0 f¨ ur ein x ∈ Kn \ {0}. Also folgt, dass aT1 , . . . , aTn linear unabh¨angig sind.
Linear unabh¨angige Vektoren k¨onnen zu einer Basis erg¨anzt werden. Wir beginnen mit der Existenz einer solchen Erg¨anzung: Satz 3.25 (Basiserg¨anzungssatz). Sei V ein K-Vektorraum mit n := dim V und U ⊆ V ein Untervektorraum von V mit m := dim U . Dann kann man jede Basis {b1 , . . . , bm } von U zu einer Basis {b1 , . . . , bm , . . . , bn } von V erweitern. Beweis. Wir f¨ uhren den Beweis durch vollst¨andige Induktion nach k := n − m: • Die Induktionsverankerung erfolgt f¨ ur k = 0, indem wir zeigen, dass jede Basis von U auch Basis von V ist, d.h. U = V . Dies gilt nach Satz 3.20 f¨ ur n n ∼ V = K und damit wegen V = K f¨ ur jedes V . • Der Induktionsschritt erfolgt von k − 1 nach k. Wir w¨ahlen bm+1 ∈ V \ U . Dann sind {b1 , . . . , bm+1 } linear unabh¨angig. Sei U 0 = span(b1 , . . . , bm+1 ). Die Induktionsannahme gilt f¨ ur U 0 und V wegen dim V − dim U 0 = k − 1. Also gibt es {bm+2 , . . . , bn } so dass {b1 , . . . , bn } Basis von V ist. Dies war zu zeigen.
Aus dem Beweis des Basiserg¨anzungssatzes folgt: Korollar 3.26 (Austauschsatz von Steinitz). Sei BV Basis von V . Dann kann man im Basiserg¨ anzungssatz 3.25 die Vektoren bm+1 , . . . , bn in BV w¨ ahlen. Beweis. Es gibt ein bm+1 ∈ BV so dass {b1 , . . . , bm , bm+1 } linear unabh¨angig ist. Damit kann bm+1 im Induktionsschritt in BV gew¨ahlt werden. In Anlehnung an den Satz u ¨ber die M¨achtigkeit der Vereinigung zweier endlicher Mengen |X ∪ Y | = |X| + |Y | − |X ∩ Y | formulieren wir einen Satz u ¨ber die Dimension der Summe U + V := {u + v | u ∈ U, v ∈ V } zweier Untervektorr¨aume U, V :
2. Lineare Unabh¨angigkeit, Basen und Dimension
39
Satz 3.27 (Dimensionssatz). Sei W ein K-Vektorraum und U, V ⊆ W Untervektorr¨ aume von W . Dann gilt dim(U + V ) = dim U + dim V − dim(U ∩ V ). Beweis. Wir f¨ uhren einen direkten Beweis. Sei B eine Basis von U ∩ V . Nach Satz 3.25 gibt es Basen B ∪ B 0 von U sowie B ∪ B 00 von V . Wir zeigen, dass B ∪ B 0 ∪ B 00 eine Basis von U + V ist. Wegen span(B ∪ B 0 ) = U und span(B ∪ B 00 ) = V gilt U + V = span(B ∪ B 0 ∪ B 00 ). Sei X
λ i bi +
bi ∈B
X
λ0i b0i +
b0i ∈B0
X
λ00i b00i = 0.
=−
X
00 b00 i ∈B
Dann ist U3
X
λ i bi +
X
λ0i b0i
λ00i b00i ∈ V
P 00 00 und λi bi ∈ U ∩ V . Andererseits ist B ∪ B00 linear unabh¨angig und B eine Basis von U ∩ V . Aufgrund der Eindeutigkeit der Darstellung sind somit alle λ00i = 0. Aus Symmetriegr¨ unden sind alle λ0i = 0. Weil B eine Basis ist, sind alle λi = 0, und der Nullvektor hat nur die triviale Darstellung. Damit ist B ∪ B 0 ∪ B 00 linear unabh¨angig. Weil B, B 0 , B 00 paarweise disjunkt sind gilt: |B ∪ B 0 ∪ B 00 | = |B ∪ B 0 | + |B ∪ B 00 | − |B| dim(U + V ) = dim U + dim V − dim(U ∩ V ). Dies war zu zeigen.
Kapitel 4
Polynome
In diesem Abschnitt lernen wir den Vektorraum und Ring der Polynome kennen. Wir betrachten Polynome dabei als formale, algebraische Objekte.
1. Vektorraum und Ring der Polynome Sei K ein K¨orper und X ∈ / K ein Symbol, das wir Unbestimmte nennen. F¨ ur i ∈ N i bezeichne X die i-te Potenz von X, also X i := XX . . . X} . | {z i Faktoren
Zus¨atzlich sei X 0 := 1. Das Symbol X verh¨alt sich wie ein K¨orperelement, d.h. zum Beispiel ist die Multiplikation von X i mit einem K¨orperelement λ ∈ K kommutativ, also X i ·λ = λ·X i . Wir suchen nicht, wie bei einem linearen Gleichungssystem Ax = b, eine L¨osung x, sondern betrachten X als formales Objekt. Um diesen Unterschied hervorzuheben, verwenden andere Autoren als Unbestimmte statt X alternativ t oder τ. Def inition 4.1 (Polynom). Sei K ein K¨ orper und X ∈ / K ein Symbol. Ein Polynom p(X) u ¨ber K ist eine endliche (formale) Potenzreihe der Form 2
n
p(X) := p0 + p1 X + p2 X + · · · + pn X =
n X
pi X i
i=0
mit Koeffizienten p0 , p1 , . . . , pn ∈ K. Der Vektor koeffvekn (p) := (p0 , p1 , . . . , pn ) ∈ Kn+1 heißt der Koeffizientenvektor des Polynoms p(X). Als Nullpolynom bezeichnet man das Polynom, dessen Koeffizienten alle Null sind. P Meist schreibt man kurz p statt p(X) und l¨aßt bei der Darstellung ni=0 pi X i diejenigen Monome pi X i weg, deren Koeffizienten pi gleich Null sind. F¨ ur das Nullpolynom schreiben wir einfach 0. 41
42
4. Polynome
Beispiel 4.2. Wir betrachten einige Beispiele von Polynomen u ¨ber R: u = 9 − 2X 2
koeffvek2 (u) = (9, 0, −2) 2
v = 1 + 2X + 4X + 16X
4
koeffvek5 (v) = (1, 2, 4, 0, 16, 0)
w=X
koeffvek1 (w) = (0, 1) Pn
Def inition 4.3 (Grad eines Polynoms). Sei p(X) = i=0 pi X i ein Polynom ungleich dem Nullpolynom. Der Grad deg p des Polynoms p ist gleich dem maximalen Index k mit pk 6= 0: deg p = max {i ∈ N0 | pi 6= 0 } . F¨ ur das Nullpolynom definieren wir deg 0 := −∞. Das Nullpolynom und Polynome mit Grad 0 werden als konstante Polynome bezeichnet. Manche Autoren setzen deg 0 := 0, allerdings muß dann in der Gradformel, die wir sp¨ater kennenlernen, der Fall der Nullpolynome gesondert betrachtet werden. Die Rechenregeln f¨ ur −∞ sind einpr¨agsam, interpretiert man −∞ als kleiner als jede ” Zahl“, so dass f¨ ur alle z ∈ R gilt −∞ + z = −∞ z + (−∞) = −∞ −∞ + (−∞) = −∞. und −∞ < z. Einige Beispiele sollen die Definition des Grads von Polynomen verdeutlichen: Beispiel 4.4. F¨ ur die Polynome u, v, w u ¨ber R gilt: u = X + 7X 2 + 0 · X 5
deg u = 2
v = 1 + 2X + X 3 + 3X 4
deg v = 4
w=X
deg w = 1
Pn i Zu einem Polynom p(X) = i=0 pi X vom Grad n ≥ 1 heißt der Koeffizient pn der f¨ uhrende Koeffizient von p. Ist der f¨ uhrende Koeffizient 1, heißt das Polynom normiert. Von den drei Polynomen in Beispiel 4.4 ist nur w ein normiertes Polynom, der f¨ uhrende Koeffizient von u ist 7, der von v gleich 3. P Def inition von Polynomen). Zwei Polynome p(X) = ni=0 pi X i und Pm 4.5 (Gleichheit orper K sind gleich, wenn deg p = deg q und pi = qi q(X) = i=0 qi X i u ¨ber einem K¨ f¨ ur i = 0, 1, . . . , deg p. Zur Definition ist ¨aquivalent, dass zwei Polynome p, q u ¨ber einem K¨orper K genau dann gleich sind, wenn f¨ ur t := max{deg p, deg q, 0} koeffvekt (p) = koeffvekt (q)
1. Vektorraum und Ring der Polynome
43
in Kt+1 u ¨bereinstimmen.1 Insbesondere entspricht jeder Koeffizientenvektor einem eindeutig bestimmten Polynom und umgekehrt: Lemma 4.6. Sei K ein K¨ orper und K[X]n die Menge aller Polynome u ¨ber K mit Grad kleiner oder gleich n. Dann ist die Abbildung koeffvekn : K[X]n → Kn+1 ,
n X
pi X i 7→ (p0 , p1 , . . . , pn )
i=0
bijektiv. Beweis. Aus der Vor¨ uberlegung folgt, dass die Abbildung koeffvekn injektiv ist, d.h. f¨ ur alle p(X), q(X) ∈ K[X]n mit koeffvekn (p) = koeffvekn (q) gilt auch die Gleichheit p(X) = q(X) der Polynome. Die Abbildung ist ebenfalls surjektiv, denn f¨ ur alle P a = (a0 , a1 , . . . , an ) ∈ Kn+1 ist p(X) = ni=0 ai X i ein Polynom mit koeffvekn (p) = a. P P Zu zwei Polynomen p(X) = ni=0 pi X i und q(X) = ni=0 qi X i u ¨ber einem K¨orper K definieren wir die Summe als n X p(X) + q(X) := (pi + qi )X i i=0
und, da es sich ebenfalls um ein Polynom handelt, schreibt man kurz (p + q)(X). In Form der Koeffizientenvektoren bedeutet die Addition: koeffvekn (p + q) = koeffvekn (p) + koeffvekn (q) Wir f¨ uhren zus¨atzlich die Multiplikation mit K¨orperelementen λ ∈ K ein (Skalarmultiplikation): λ · p(X) :=
n X
(λ · pi )X i .
i=0
Da es sich ebenfalls um ein Polynom handelt, schreibt man kurz (λp)(X). In Form der Koeffizientenvektoren bedeutet die Multiplikation mit einem Skalar λ: koeffvekn (λp) = λ · koeffvekn (p). Beispiel 4.7. Betrachten wir ein Beispiel mit den beiden Polynomen p = X 2 und q = 3X + X 2 + 2X 3 u ¨ber R: 3 · p + 4 · q = (3X 2 ) + (12X + 4X 2 + 8X 3 ) = 12X + 7X 2 + 8X 3 . Der Grad der Summe zweier Polynome p und q ist offenbar h¨ochstens so groß wie das Maximum von deg p und deg q. Er kann aber auch kleiner sein, wenn beide Polynome den gleichen Grad haben und die Summe beider f¨ uhrender Koeffizienten Null ist. Zum Beispiel: (1 + X 2 ) + (1 − X 2 ) = 2. 1Beachte: F¨ ur p(X) = q(X) = 0 ist t = 0.
44
4. Polynome
Bei der Skalarmultiplikation bleibt der Grad des Polynoms erhalten, sofern der Skalar nicht die Null ist. Korollar 4.8. Sei K ein K¨ orper, p, q Polynome u ¨ber K und λ ∈ K \ {0}. Dann gilt: deg(p + q) ≤ max{deg p, deg q} deg(λp) = deg p. F¨ ur λ = 0 ist deg(λp) = −∞. Betrachten wir die Menge der Polynome mit beschr¨anktem Grad, so ist diese unter Addition und Multiplikation mit Skalaren abgeschlossen und bildet einen Vektorraum: Satz 4.9 (Vektorraum der Polynome). Sei K ein K¨ orper und K[X]n die Menge aller Polynome u ¨ber K mit Grad kleiner oder gleich n. Mit der Addition und der skalaren Multiplikation ist K[X]n ein K-Vektorraum der Dimension n + 1. Beweis. Die Koeffizientenfunktion koeffvekn : K[X]n → Kn+1 ist nach Lemma 4.6 bijektiv. Zus¨atzlich hat die Abbildung die homomorphen Eigenschaften koeffvekn (p + q) = koeffvekn (p) + koeffvekn (q) koeffvekn (λ · p) = λ · koeffvekn (p), so dass K[X]n isomorph zum Vektorraum Kn+1 der Dimension n + 1 ist.
Eine Basis des K-Vektorraums K[X]n bilden die Polynome 1, X, X 2 , . . . , X n , denn: Pn i a) Jedes Polynom p(X) = i=0 pi X kann man als Linearkombination der 2 n Polynome 1, X, X , . . . , X mit Koeffizienten aus K, n¨amlich p0 , p1 , . . . , pn , schreiben. P b) Die Polynome 1, X, X 2 , . . . , X n sind linear unabh¨angig, weil aus ni=0 λi Xi = 0 (beachte, 0 steht f¨ ur das Nullpolynom) mit λ0 , λ1 , . . . , λn ∈ K und der Definition der Gleichheit von Polynomen folgt, dass λ0 = · · · = λn = 0 gilt. Wir k¨onnen diese Basis auch aus dem Isomorphismus koeffvekn : K[X]n → Kn+1 ableiten, da nach Satz 3.18 auf Seite 35 Isomorphismen Basen auf Basen abbilden. Def inition 4.10 Das Produkt p(X) · q(X) zweier PolyP (Produkt von Polynomen). P i ist definiert als: nome p(X) = ni=0 pi X i und q(X) = m q X i=0 i p(X) · q(X) :=
n+m i X X i=0
k=0
i
pk qi−k X =
n+m X i=0
X
pk q l X i .
k+l=i
Dieses Produkt, man nennt es auch Konvolution oder Faltung, ist ebenfalls ein Polynom, f¨ ur dass wir kurz (p · q)(X) schreiben. Die Koeffizienten u0 , u1 , . . . , un+m des
1. Vektorraum und Ring der Polynome
45
Produkts u(X) = p(X) · q(X) bestehen aus den Summen u 0 = p0 q 0 u 1 = p0 q 1 + p1 q 0 u 2 = p 0 q 2 + p 1 q 1 + p2 q 0 .. . un+m−2 = pn−2 qm + pn−1 qm−1 + pn qm−2 un+m−1 = pn−1 qm + pn qm−1 un+m = pn qm . Die Summen sind symmetrisch: Vertauschen von p(X) und q(X) ¨andert nicht das Produkt, da die Multiplikation im K¨orper kommutativ ist. Die Polynommultiplikation ist daher ebenfalls kommutativ. Die Konvolution entspricht genau dem Produkt, faßt man beide Polynome als Summen mit der Variablen X auf: X X X n m n n n X X pi X i · qi X i = q 0 pi X i + q1 pi X i+1 + · · · + qm pi X i+m i=0
i=0
i=0
i=0
i=0
Nach Ordnen der Monome erhalten wie die Formel zur Polynommultiplikation. Satz 4.11 (Gradformel f¨ ur Polynome). Seien p(X) und q(X) Polynome u ¨ber einem K¨ orper. Dann gilt f¨ ur den Grad des Produktes deg(p · q) = deg p + deg q. Beweis. Sei u = p · q das Produkt der beiden Polynome: Nehmen wir zun¨achst an, p und q seien ungleich dem Nullpolynom. Mit p(X) =
deg Xp
pi X i
und q(X) =
i=0
deg Xq
qi X i
i=0
folgt aus der Definition der Konvolution u=
deg X p+deg q X i i=0
pk qi−k X i
k=0
dass deg(p · q) ≤ deg p + deg q gilt. Wegen 6=0
udeg p+deg q
6=0
z }| { z }| { = pdeg p · qdeg q 6= 0
ist der Grad von u mindestens deg p + deg q, so dass die Gleichheit gilt.2 Falls p oder q das Nullpolynom ist, trifft dies auch auf das Produkt u zu und die Behauptung folgt aus den Rechenregeln f¨ ur −∞. 2Beachte: Der Schluß, dass das Produkt ungleich Null ist, wenn beide Faktoren ungleich Null sind, gilt in einem Ring im allgemeinen nicht.
46
4. Polynome
Aus der Gradformel folgt, dass K[X]n kein Ring ist, denn zu p ∈ K[X]n mit deg p = n gilt p · p ∈ / K[X]n wegen deg(p · p) = 2n. Beschr¨anken wir aber nicht den Grad der Polynome, erh¨alt man einen Ring: Satz 4.12 (Polynomring). Sei K ein K¨ orper. Dann ist die Menge K[X] aller Polynome u ¨ber K ein kommutativer, nullteilerfreier Ring mit Eins. Die K¨orperelemente K bettet man als konstante Polynome in den Ring K[X] ein und schreibt K f¨ ur die Menge der konstanten Polynome des Ringes K[X]. Beweis. Summe und Produkt zweier Polynome sind ebenfalls Polynome, so dass zu zeigen ist: a) (K[X], +) ist eine abelsche Gruppe. b) Die Multiplikation ist assoziativ und kommutativ, es existiert ein Einselement. c) Distributivgesetze: F¨ ur alle u, v, w ∈ K[X] gilt Linksdistributivit¨at: u(v + w) = u · v + u · w. Wegen der Kommutativit¨at der Multiplikation gilt damit auch Rechtsdistributivit¨at: (v + w)u = v · u + w · u. Die Nullteilerfreiheit folgt aus der Gradformel (Satz 4.11). Man rechnet leicht nach, dass (K[X], +) eine abelsche Gruppe ist. Das neutrale Element bez¨ uglich der Addition ist das Nullpolynom. Die Multiplikation ist wie bereits gezeigt kommutativ, und das neutrale Element bez¨ uglich der Multiplikation ist das konstante Polynom p(X) = 1. F¨ ur den Nachweis der Assoziativit¨at betrachten wir den i-ten Koeffizienten des Produkts u(vw): =(v·w)j
}| z { X X X X vs wt = ur vs wt ur
r+j=i
s+t=j
(Assoziativit¨at von (K, ·))
r+j=i s+t=j
=
X
ur vs wt
r+s+t=i
=
X X
ur vs ·wt .
|
}
j+t=i
r+s=j
{z
=(u·v)j
Dieser stimmt mit dem i-ten Koeffizienten des Produkts (uv)w u ¨berein. Die einzelnen Koeffizienten der beiden Polynome u(vw) und (uv)w sind identisch, so dass (uv)w = u(vw) f¨ ur alle u, v, w ∈ K[X] gilt. F¨ ur den Nachweis des Distributivgesetzes betrachten wir den i-ten Koeffizienten von u(v + w) und verwenden, dass im K¨orper das Distributivgesetz gilt: X X X X ur (vs + ws ) = (ur vs + ur ws ) = ur vs + ur ws r+s=i
r+s=i
r+s=i
r+s=i
1. Vektorraum und Ring der Polynome
47
Dieser stimmt mit dem i-ten Koeffizienten der Summe uv + uw u ¨berein und wir erhalten u(v + w) = u · v + u · w f¨ ur alle u, v, w ∈ K[X]. In der Schule lernt man bereits Polynome kennen, genauer Polynomfunktionen. Statt P als formale, endliche Potenzreihe faßt man p(X) = ni=0 pi X i als Funktion p : R → R mit p:
x 7→ p(x) :=
n X
pi xi ∈ R
i=0
auf. Diese Anschauung als Funktionen unterscheidet sich aber von unserer Betrachungsweise. Zum Beispiel k¨onnen zwei Polynome p, q ∈ K[X] verschieden sein, auch wenn die zugeh¨origen Polynomfunktionen identisch sind, also p(x) = q(x) f¨ ur alle x ∈ K gilt. Sei zum Beispiel K = Z2 , d.h. Addition und Multiplikation erfolgen modulo 2, und betrachte das Polynom p(X) = X 2 +2 X ∈ Z2 [X]: p(0) = 02 +2 0 = 0 p(1) = 12 +2 1 = 0. Obwohl die Werte der zugeh¨origen Polynomfunktion mit der des Nullpolynoms u ¨bereinstimmt, sind f¨ ur uns beide Polynome nicht gleich. Die Polynomfunktion p : x 7→ p(x) ist kein K¨orperhomomorphismus, denn zum Beispiel f¨ ur K = R und p(X) = X 2 gilt p(1 + 2) 6= p(1) + p(2). Wir erhalten aber einen Einsetzungshomomorphismus, wenn man die Stelle x fixiert und als Argument Polynome w¨ahlt: Satz 4.13 (Einsetzungshomomorphismus). Sei K[X] ein Polynomring und x ∈ K ein K¨ orperelement. Dann ist die Abbildung X ϕx : K[X] → K, p(X) 7→ p(x) := pi xi i≥0
ein Ringhomomorphismus, den man Einsetzungshomomorphismus nennt. Beweis. Wir m¨ ussen die beiden Homomorphie-Eigenschaften Additivit¨at und Homogenit¨at nachweisen. Seien p, q ∈ K[X] mit p(X) =
n X
pi X
i
und q(X) =
i=0
m X
qi X i .
i=0
Zum Nachweis der Additivit¨at sei o.B.d.A. m = n (erweitere gegebenenfalls das Polynom geringeren Grades um die entsprechenden Monome mit Koeffizient Null). Es gilt ϕx (p + q) =
n X i=0
(pi +K qi )xi =
n X i=0
pi xi +K
n X i=0
qi xi = ϕx (p) + ϕx (q),
48
4. Polynome
wegen des Distributivgesetzes in K. Analog zeigt man die Homogenit¨at ϕx (p · q) = ϕx (p) · ϕx (q): X X n m i i ϕx (p) · ϕx (q) = pi x · qi x i=0
=
=
n X
i=0
pi q0 xi +
i=0 n+m i X X i=0
n X
pi q1 xi+1 + · · · +
i=0
n X
pi qm xi+m
i=0
pk qi−k xi
k=0
= ϕx (p · q). Wir haben das Distributivgesetz verwendet und dass Addition und Multiplikation in K kommutativ sind. An welchen Stellen? Wir haben Polynome u ¨ber einem K¨orper K betrachtet. Allgemeiner definiert man Polynome u ¨ber kommutativen Ringen R mit Eins. Analog zu Satz 4.12 zeigt man, dass R[X] ebenfalls ein kommutativer Ring mit Eins ist. Dann gilt aber im allgemeinen deg(p · q) ≤ deg p + deg q, denn es ist m¨oglich, dass das Produkt beider f¨ uhrender Koeffizienten Null ist (zum Beispiel 2X · 2X 2 ∈ Z4 [X]). Falls R Nullteiler enh¨alt, so auch der Polynomring R[X]. Ein bekanntes Beispiel f¨ ur Polynomringe u ¨ber einem Ring ist der Ring Z[X] aller Polynome mit ganzzahligen Koeffizienten. F¨ ur diesen Ring Z[X] gilt aber weiterhin die Gleichheit bei der Gradformel — Warum?
2. Division mit Rest Wir haben bereits in Kapitel 2.5 die Division mit Rest im Ring Z kennengelernt. Zu a ∈ Z, b ∈ Z \ {0} existieren eindeutig bestimmte Zahlen q, r ∈ Z mit a = qb + r
und 0 ≤ r < |b|.
Die Zahl r heißt Divisionsrest. Ein analoges Resultat leiten wir f¨ ur den Polynomring K[X] her, wobei man statt des Absolutbetrags den Grad des Polynoms verwendet. Satz 4.14 (Polynomdivision). Sei K ein K¨ orper und K[X] ein Polynomring sowie a, b ∈ K[X] und b nicht das Nullpolynom. Dann existieren eindeutig bestimmte Polynome q, r ∈ K[X] mit a = qb + r
und
deg r < deg b.
Beweis. Da b nicht das Nullpolynom ist, gilt deg b ≥ 0. Wir beweisen die Aussage in zwei Schritten: (1) Zun¨achst zeigen wir die Existenz und anschließend, (2) dass die Polynome q, r ∈ K[X] eindeutig bestimmt sind. Die erste Behauptung ist offensichtlich, wenn deg a < deg b, da dann q = 0 und r = a die Bedingung erf¨ ullen. Wir zeigen durch Induktion u ¨ber deg a, dass die Aussage auch f¨ ur deg a ≥ deg b ≥ 0 gilt.
2. Division mit Rest
49
• Verankerung: Sei deg a = 0, also a(X) = a0 . Wegen deg b ≤ deg a und b 6= 0 hat das Polynom b die Form b(X) = b0 . Setze q := a0 b−1 0 und r = 0. • Induktionsschritt: Sei n := deg a > 1 und m := deg b ≤ n. Wir nehmen an, die Behauptung sei bereits f¨ ur alle Polynome a0 , b ∈ [X] mit deg a0 < n gezeigt und belegen die Behauptung f¨ ur n. Nach Induktionsannahme existieren 0 0 zu a , b ∈ K[X] mit deg a < n Polynome q 0 , r0 ∈ K[X] mit a0 = q 0 b + r0
und deg r0 < deg b.
n−m und a0 := a − q 00 b. Man rechnet leicht nach, daß Setze q 00 := an b−1 m X deg(q 00 b) = n sowie die beiden Polynome q 00 b und a den gleichen f¨ uhrenden Koeffizienten an haben. Dieser hebt sich in der Differenz a0 = a − q 00 b weg, so dass deg a0 < n gilt. Auf dieses Polynom a0 wenden wir die Induktionsannahme an. Es gibt Polynome q 0 , r0 ∈ K[X] mit
a0 = q 0 b + r
und deg r0 < deg b.
Es gilt a = q 00 b + a0 = q 00 b + q 0 b + r = (q 00 + q 0 )b + r0 wobei deg r0 < deg b. Mit q := q 00 + q 0 und r := r0 erhalten wir die Behauptung. Es ist noch die Eindeutigkeit nachzuweisen. Seien q, r, q 0 , r0 ∈ K[X] Polynome mit a = qb + r a = q 0 b + r0
und deg r < deg b und deg r0 < deg b.
Wir zeigen q = q 0 und r = r0 . Aus 0 = a − a = qb + r − (q 0 b + r) erh¨alt man: (q − q 0 )b = r − r0 . Wegen deg(r − r0 ) ≤ max{deg r, deg r0 } < deg b ist der Grad des Polynoms (q − q 0 )b kleiner als der des Polynoms b. Aus der Gradformel f¨ ur Polynome deg(q − q 0 ) + deg(b) = deg((q − q 0 )b) < deg b ergibt sich deg(q − q 0 ) = −∞ oder a¨quivalent, daß q − q 0 das Nullpolynom ist. Also ist q = q 0 und r = a − qb = a − q 0 b = r0 . Betrachten wir ein Beispiel zur Division mit Rest: Beispiel 4.15. Wir wollen das Polynom X 5 durch X 2 − 1 u ¨ber einem beliebigem K¨orper dividieren. X5 : (X 2 − 1) = (X 2 − 1) · (X 3 + X) + X 5 3 X −X X3 X3 − X X
50
4. Polynome
Man kann zeigen, dass der Divisionrest von X k durch (X n − 1) gleich X k mod n ist. Allgemeiner ist der Divisionsrest eines Polynoms dividiert durch (X n − 1): m m X X i n pi X mod (X − 1) = pi X i mod n . i=0
i=0
Sei f ∈ K[X] ein nicht-konstantes Polynom, zum Beispiel X n − 1. Wie im Fall der ganzen Zahlen f¨ uhrt man f¨ ur p, q ∈ K[X] Addition und Multiplikation verbunden mit einer Modulo-Reduktion durch: p +f q := (p + q) mod f p ·f q := (p · q) mod f Wie im Fall der ganzen Zahlen modulo n, die wir in Abschnitt 5 untersucht haben, kann man u ¨ber die Restklassen modulo f einen Ring definieren. Den entstehenden Ring bezeichnet man als Faktorring und schreibt K[X]/(f ). F¨ ur geeignete Polynome ist dies sogar ein K¨orper, wie wir in Kapitel 15 ab Seite 191 sehen werden. Beispiel 4.16. Sei K = Z2 und f (X) := X 2 + X + 1. Da der Divisionsrest den Grad kleiner als deg(X 2 + X + 1) = 2 hat, besteht Z2 [X]/(f ) genau aus den Polynomen mit Grad maximal 1: 0, 1, X, X + 1. F¨ ur die Addition gilt (a + bX+) +f (a0 + b0 X) = (a + a0 ) + (b + b0 )X. Die Multiplikationstabelle sieht wie folgt aus: · 0 1 X X +1
0 1 X X +1 0 0 0 0 0 1 X X +1 0 X X +1 1 0 X +1 1 X
Der Leser u ¨berzeuge sich, dass F4 := Z2 [X]/(f ) ein K¨orper mit vier Elementen ist. F4 hat den Unterk¨orper {0, 1}. Beispiel 4.17. Untersuchen wir zum Abschluß ein weiteres Beispiel, n¨amlich K = R und f (X) = X 2 + 1. Da der Divisionsrest den Grad kleiner als deg(X 2 + 1) = 2 hat, besteht R[X]/(f ) genau aus den Polynomen mit Grad maximal 1: R[X]/(X 2 + 1) = {a + bX | a, b ∈ R } . F¨ ur die Addition gilt (a + bX) +f (a0 + b0 X) = (a + a0 ) + (b + b0 )X und wegen X 2 mod f = −1 erhalten wir f¨ ur das Produkt: (a + bX) ·f (a0 + b0 X) = (aa0 + ab0 X + a0 bX + bb0 X 2 ) mod f = (aa0 + ab0 X + a0 bX − bb0 ) mod f = aa0 − bb0 + (a0 b + ab0 )X
3. Nullstellen
51
Man kann nachrechnen, dass dies ein K¨orper ist (aufwendig!). Allerdings kennen wir diesen K¨orper bereits: Man u ¨berzeuge sich, dass die Abbildung ψ : C → R[X]/(X 2 + 1),
a + ib 7→ a + bX
einen Isomorphismus bildet, also ψ(x + y) = ψ(x) +f ψ(y) und ψ(x · y) = ψ(x) ·f ψ(y) erf¨ ullt sowie bijektiv ist. Dann gilt R[X]/(X 2 + 1) ' C und es folgt, dass R[X]/(X 2 + 1) wie C ein K¨orper ist.
3. Nullstellen Wir wollen die Nullstellen von Polynomen untersuchen. Vor allem interessieren wir uns f¨ ur Nullstellen von Polynomen p ∈ C[X] u ¨ber dem K¨orper C und seinem Unterk¨orper R. Pn i Def inition 4.18 (Nullstelle). Sei p(X) = ¨ber i=0 pi X ∈ K[X] ein Polynom u 0 0 heißt einem K¨ orper K und K ⊆ K ein Unterk¨ orper von K. Ein Element λ ∈ K P Nullstelle oder Wurzel von p (¨ uber K0 ), falls ni=0 pi λi = 0. Ein konstantes Polynom p(X) = p0 hat nur dann eine Nullstelle, wenn es das Nullpolynom ist. Falls ein Polynom eine Nullstelle λ hat, kann man den Linearfaktor (X −λ) abspalten: Satz 4.19 (Satz von Ruffini). Sei p ∈ K[X] ein Polynom (ungleich dem Nullpolynom) mit Nullstelle λ ∈ K. Dann gibt es ein Polynom q ∈ K[X] mit p = (X − λ)q
und
deg q = deg p − 1
Beweis. Division mit Rest von p durch (X − λ) ergibt: p = q(X − λ) + r
mit deg r < 1.
Der Rest r ist ein konstantes Polynom. Der Einsetzungshomomorphismus liefert mit 0 = ϕλ (p) = ϕλ (q) · ϕλ (X − λ) +ϕλ (r) = ϕλ (r), | {z } =0
dass ϕλ (r) = 0 und das Polynom r eine Nullstelle hat. Also ist r das Nullpolynom. Es ist m¨oglich, dass man den Linearfaktor (X − λ) mehrfach abspalten kann. Def inition 4.20 (Vielfachheit einer Nullstelle). Sei λ ∈ K die Nullstelle eines Polynoms p ∈ K[X] ungleich dem Nullpolynom. Die gr¨ oßte Zahl ν ≥ 1 mit p = (X − λ)ν q
und
q ∈ K[X]
heißt die Vielfachheit der Nullstelle λ. Die Anzahl der Nullstellen und ihre Mehrfachheiten l¨aßt sich durch den Grad des Polynoms nach oben absch¨atzen:
52
4. Polynome
Lemma 4.21. Sei p ∈ K[X] ein Polynom u orper K, das ungleich dem ¨ber einem K¨ Nullpolynom ist. Seien λ1 , . . . , λm ∈ K Nullstellen von p und ν1 , . . . , νm ihre Vielfachheiten. Dann gilt m X νi ≤ deg p. i=1
Insbesondere ist die Anzahl der Nullstellen maximal deg p. Beweis. Wir wenden iterativ Satz 4.19 an und erhalten m Y p= (X − λi )νi q i=1
mit q ∈ K[X] ungleich dem Nullpolynom (formal durch einen einfachen Induktionsbeweis u ¨ber die Anzahl der Nullstellen, wobei vielfache Nullstellen entsprechend mehrfach gez¨ahlt werden, zu belegen). Aus der Gradformel erhalten wir: deg p =
m X
νi + deg q
i=1
Mit deg q ≥ 0 folgt die Behauptung.
Wir schließen weiter: Pn i Korollar 4.22. Sei p(X) = orper K. Das ¨ber einem K¨ i=0 pi X ein Polynom u Polynom p ist genau dann das Nullploynom, wenn es mehr als n Nullstellen hat. Beweis. Falls p das Nullpolynom ist, gilt die Aussage offenbar. F¨ ur p ungleich dem Nullpolynom hat es nach Lemma 4.21 maximal deg p ≤ n Nullstellen. Das Polynom p(X) := 2X 2 + 2 ∈ C[X] hat u ¨ber R keine Nullstellen, u ¨ber den komplexen Zahlen C allerdings die beiden Nullstellen ±i. Man sagt, es zerf¨ allt u ¨ber C in Linearfaktoren: 2X 2 + 2 = 2(X + i)(X − i) Wir wollen mit Hilfe des Fundamentalsatzes der Algebra, den C.F. Gauß3 erstmals 1799 in seiner Dissertation bewies, zeigen, dass jedes nicht-konstante Polynom in C[X] in Linearfaktoren zerf¨allt. Fakt 4.23 (Fundamentalsatz der Algebra). Jedes nicht-konstante Polynom p ∈ C[X] hat mindestens eine Nullstelle u ¨ber C. Es gibt zahlreiche Beweise (u.a. hat auch Gauß sp¨ater weitere Beweise gegeben), die allerdings Hilfsmittel aus der Analysis verwenden. Wir verwenden den Fundamentalsatz, um nachstehendes Resultat zu folgern: Lemma 4.24. Jedes Polynom p ∈ C[X] ungleich dem Nullpolynom zerf¨ allt in Linearfaktoren, d.h. es gibt a, λ1 , . . . , λn ∈ C mit a 6= 0, n = deg p und p(X) = a · (X − λ1 )(X − λ2 ) · · · (X − λn ). 3Carl Friedrich Gauß, 1777–1855, siehe Fußnote auf Seite 4
3. Nullstellen
53
Beweis. Wir zeigen die Aussage durch Induktion u ¨ber n = deg p. • Induktionsverankerung f¨ ur n = 0. Das Polynom hat die Form p(X) = p0 . Mit a := p0 6= 0 folgt die Behauptung. • Induktionsschluß von n − 1 auf n. Nach Induktionsannahme zerfallen alle Polynome q ∈ C[X], deren Grad gleich n − 1 ≥ 0 ist, in Linearfaktoren. Gem¨aß Fundamentalsatz der Algebra hat das Polynom p(X) ∈ C[X] eine Nullstelle λ1 ∈ C. Aus Satz 4.19 erhalten wir: p(X) = (X − λ1 )q(X) mit λ1 ∈ C, q(X) ∈ C[X] und deg q = n − 1. Nach Induktionsannahme zerf¨allt q(X) in Linearfaktoren, d.h. es gibt a, λ2 , λ3 , . . . , λn ∈ C mit q(X) = a · (X − λ2 )(X − λ3 ) · · · (X − λn ). Mit p(X) = (X − λ1 )q(X) folgt die Behauptung. Eine Zerlegung in Linearfaktoren ist u ¨ber R im allgemeinen nicht m¨oglich, wie das Beispiel des Polynoms 2X 2 +2 zeigt. Aber wir werden sehen, dass man jedes Polynom p(X) ∈ R[X] als Produkt von Linearfaktoren und Polynomen zweiten Grades in R[X] schreiben kann. Lemma 4.25. Sei p ∈ R[X] ungleich dem Nullpolynom und λ ∈ C eine Nullstelle von p. Dann ist auch die konjugierte komplexe Zahl4 λ eine Nullstelle von p und insbesondere stimmen die Vielfachheiten der Nullstelle λ und λ u ¨berein. P Beweis. Sei p(X) := ni=0 pi X i . Wegen pi = pi folgt aus den Homomorphie-Eigenschaften von x 7→ x 0=0=
n X
pi λ i =
i=0
n X
pi λ i =
i=0
n X
pi λ i ,
i=0
so dass λ ebenfalls eine Nullstelle ist. F¨ ur die Aussage der Vielfachheit bezeichne ν(p, x) die Vielfachheit der Nullstelle x des Polynoms p. Im Fall, dass die vorgegebene Nullstelle λ reell ist, also λ ∈ R, gilt λ = λ und ν(p, λ) = ν(p, λ ). Wir zeigen durch Induktion u ur ¨ber ν(p, λ), dass f¨ λ ∈ C \ R gilt ν(p, λ) ≤ ν(p, λ ).
(9)
• Induktionsverankerung ν(p, λ) = 1: Weil mit λ auch λ eine Nullstelle ist, gilt ν(p, λ) = 1 ≤ ν(p, λ ). • Induktionsschluß von ν(p, λ) − 1 auf ν(p, λ): Wir nehmen an, dass f¨ ur alle Polynome p0 mit Nullstelle λ und ν(p0 , λ) = ν(p, λ) − 1 gilt: ν(p0 , λ) ≤ ν(p0 , λ ).
(10)
4Zur Erinnerung: a + ib = a − ib. Die Abbildung x 7→ x ist ein Automorphismus des K¨ orpers C mit x = x. Es gilt y = y gdw. y ∈ R.
54
4. Polynome
Da mit λ ebenfalls λ 6= λ eine Nullstelle ist, k¨onnen wir gem¨aß Satz 4.19 die beiden Linearfaktoren (X − λ) und (X − λ ) abspalten: p = (X − λ)(X − λ ) · p0 Weil ν(p0 , λ) = ν(p, λ) − 1 ist, wenden wir die Induktionsannahme (10) an und erhalten mit ν(p0 , λ ) = ν(p, λ ) − 1 die Behauptung (9). Die Absch¨atzung ν(p, λ) ≥ ν(p, λ) folgt bereits aus Ungleichung (9), man setze λ ← λ und beachte λ = λ. Damit ist die Gleichheit bewiesen. Sei λ := a + ib ∈ C \ R und λ = a − ib die konjugiert komplexe Zahl (beachte λ 6= λ). Das normierte Polynom q(X) := (X − λ)(X − λ ) = (X − a − ib)(X − a + ib) = X 2 − aX − ibX − aX + a2 + iab + ibX − iab − i2 b2 = X 2 − 2aX + a2 + b2 hat zwar reelle Koeffizienten, aber keine Nullstelle u ¨ber R (Warum?). Nach Lemma 4.24 zerf¨allt jedes Polynom p(X) mit reellen Koeffizienten u ¨ber C in Linearfaktoren. Wir fassen die Linearfaktoren (X − λ) und (X − λ ) der echt komplexen Nullstellen λ des Polynoms p(X) zusammen, nach Lemma 4.25 treten sie jeweils paarweise auf: Satz 4.26. Jedes Polynom p ∈ R[X] ungleich dem Nullpolynom hat eine Zerlegung p(X) = a(X − λ1 )(X − λ2 ) . . . (X − λr ) · q1 (X) · q2 (X) · · · qc (X) mit a, λ1 , λ2 , . . . , λr ∈ R, a 6= 0, und normierten Polynomen q1 (X), . . . , qc (X) ∈ R[X] vom Grad 2 ohne Nullstelle u ¨ber R. Insbesondere hat das Polynom p genau r Nullstellen u ¨ber R und es gilt deg p = r + 2c. Aus der Gleichung deg p = r + 2c erhalten wir f¨ ur Polynome p mit ungeradem Grad, dass r ebenfalls ungerade ist. Korollar 4.27. Jedes Polynom p ∈ R[X] mit ungeradem Grad hat mindestens eine Nullstelle u ¨ber R. Der Fundamentalsatz der Algebra ist eine reine Existenzaussage, aus dem Satz l¨aßt sich kein Verfahren zur Bestimmung von Nullstellen ableiten. F¨ ur ein Polynom aX 2 + bX + c ∈ C[X] zweiten Grades erhalten wir die Nullstellen λ1 , λ2 aus der seit u ¨ber 2000 Jahren bekannten pq-Formel √ −b ± b2 − 4ac λ1,2 = . 2a Etwas kompliziertere Formeln dieser Art gibt es auch f¨ ur Polynome vom Grad 3 und 4. Die Formel f¨ ur Polynome dritten Grades ver¨offentlichte 1545 G. Cardano5, allerdings wurde sie bereits um 1515 von S. del Ferro (1465–1526) oder N. Fontana6 gefunden, aber nicht publiziert. Cardanos Sch¨ uler L. Ferrari (1522–1565) f¨ uhrte 5Geronimo Cardano, 1501–1576, siehe Fußnote auf Seite 16. 6auch Tartaglia, d.h. Stotterer, genannt.
4. Interpolation
55
um 1540 den Fall eines Polynoms vierten Grades auf die Nullstellenbestimmung eines Polynoms dritten Grades zur¨ uck. F¨ ur Polynome ab Grad 5 hat 1826 N.H. Abel7 gezeigt, dass es solche allgemeinen Formeln aus algebraischen Gr¨ unden nicht geben kann. F¨ ur praktische Anwendung kennt man in der angewandten Mathematik bzw. Numerik aber effiziente Verfahren zur Bestimmung oder Approximation von Nullstellen von Polynomen.
4. Interpolation Wir haben zu einem Polynom p(X) ∈ K[X]n die Polynomfunktion x 7→ p(x) kennengelernt. In diesem Abschnitt suchen wir zu gegebenen Punkten (ai , bi ), i = 0, . . . , n, ein Polynom p ∈ K[X]n mit p(ai ) = bi f¨ ur alle i. Die Motivation f¨ ur diese Fragestellung, dem Interpolationsproblem, ist vielf¨altig. H¨aufig sollen gemessene Daten geeignet verbunden werden. In der Mathematik ist Interpolation ein Hilfsmittel f¨ ur die Approximation von Funktionen. In der Informatik kennt man ein Verfahren basierend auf der Interpolation, um zwei Polynome schneller als mit der Schulmethode zu multiplizieren. Def inition 4.28 (Interpolationsproblem). Sei K ein K¨ orper. Das Interpolationsproblem lautet: • Gegeben n + 1 Paare (ai , bi ) ∈ K2 , i = 0, . . . , n, mit paarweise verschiedene ai . • Finde ein Polynom p ∈ K[X]n mit p(ai ) = bi f¨ ur i = 0, . . . , n. Die Werte a0 , . . . , an heißen St¨ utzstellen, die eindeutig bestimmte L¨ osung p(X) nennt man Interpolationspolynom. Bevor wir die Existenz des Interpolationspolynoms zeigen, beweisen wir, dass, wenn es existiert, in diesem Fall eindeutig bestimmt ist: Lemma 4.29. Es gibt h¨ ochstens ein Interpolationspolynom. Beweis. Seien p, q ∈ K[X]n Interpolationspolynome. Wir zeigen, dass p = q oder ¨aquivalent d := p − q das Nullpolynom ist. Nach Lemma 4.8 ist der Grad des Differenzpolynoms d durch n beschr¨ankt: deg d = deg(p − q) ≤ max{p, q} ≤ n. P Das Differenzpolynom d = ni=0 di X i hat mindestens n + 1 Nullstellen, denn beide Polynome p und q nehmen an den St¨ utzstellen a0 , . . . , an jeweils den gleichen Wert an: d(ai ) = p(ai ) − q(ai ) = bi − bi = 0 f¨ ur i = 0, . . . , n. Nach Korollar 4.22 ist das Polynom d das Nullpolynom. 7Niels Hendrik Abel, 1802–1829, siehe Fußnote auf Seite 21.
56
4. Polynome
Um zu zeigen, dass das Interpolationspolynom existiert und wie P man es berechnen kann, fassen wir Koeffizienten des gesuchten Polynoms p(X) = ni=0 pi X i als Unbekannte auf. Wir suchen p0 , . . . , pn ∈ K mit p(ai ) =
n X
pj aji = bi
f¨ ur i = 0, . . . , n.
j=0
Dies ist ein lineares Gleichungsystem in 1 a0 a20 · · · 1 a1 a2 · · · 1 .. .. .. . . . |
1 an a2n · · · {z
den n + 1 Variablen p0 , . . . , pn : an0 p0 b0 n a1 p1 b1 .. · .. = .. . . . . ann
=:Vn+1 (a0 ,a1 ,...,an )
pn
(11)
bn
}
Der Rang der (n+1)×(n+1)-Koeffizientenmatrix Vn+1 (a0 , . . . , an ) ist maximal n+1, so dass das lineare Gleichungsystem (11) l¨osbar ist. Da h¨ochstens ein Interpolationspolynom, d.h. eine L¨osung des linearen Gleichungsystems, existiert, ist der Rang der Koeffizientenmatrix gleich n + 1. Satz 4.30 (Interpolationspolynom). Sei K ein K¨ orper. Zu n+1 Paaren (ai , bi ) ∈ K2 , i = 0, . . . , n, mit paarweise verschiedenen ai gibt es genau ein Interpolationspolynom p ∈ K[X]n , so dass p(ai ) = bi f¨ ur i = 0, . . . , n. Eine Matrix der Form Vn+1 (a0 , . . . , an ) heißt Vandermonde-Matrix. Falls die Werte a0 , . . . , an paarweise verschieden sind, hat die Matrix vollen Rang, denn zum linearen Gleichungssystem (11) existiert genau eine L¨osung. Sollten zwei Werte ai , aj mit i 6= j identisch sein, sind zwei Zeilen der Koeffizientenmatrix gleich und die Matrix hat nicht vollen Rang. Korollar 4.31 (Vandermonde-Matrix). Sei K ein K¨ orper und a0 , . . . , an−1 ∈ K. Die n × n-Vandermonde-Matrix 1 a0 a20 · · · an−1 0 1 a1 a21 · · · an−1 1 Vn (a0 , . . . , an−1 ) = . . . . .. .. .. .. n−1 2 1 an−1 an−1 · · · an−1 hat genau dann vollen Rang, wenn a0 , . . . , an−1 paarweise verschieden sind. ¨ Das Interpolationspolynom k¨onnen wir mit dem Gauß-Algorithmus bestimmen. Uberlicherweise verwendet man die Lagrange’sche Form des Interpolationspolynoms. Zu gegebenen St¨ utzstellen a0 , . . . , an sei n Y X − aj `i (X) := ai − aj j=0 j6=i
f¨ ur i = 0, . . . , n.
4. Interpolation
57
Diese Polynome `i (X) ∈ K[X]n heißen Lagrange-Koeffizienten oder auch LagrangePolynome. Man rechnet leicht folgende charakteristische Eigenschaft der LagrangeKoeffizienten nach: ( 1 falls i = k `i (ak ) = δi,k = 0 falls i 6= k. Das gesuchte Interpolationspolynom lautet in der Lagrange’schen Form n X L(X) := `i (X) · bi . i=0
Offenbar ist L(ai ) = bi und wegen deg `i (X) ≤ n gilt L(X) ∈ K[X]n . Beispiel 4.32. Wir suchen ein Polynom p ∈ R[X]2 mit p(1) = 3, p(2) = 5 und p(3) = 10. Die Lagrange-Koeffizienten lauten (X − 2)(X − 3) = 12 (X 2 − 5X + 6) (1 − 2)(1 − 3) (X − 1)(X − 3) `1 (X) = = −(X 2 − 4X + 3) (2 − 1)(2 − 3) (X − 1)(X − 2) `2 (X) = = 12 (X 2 − 3X + 2). (3 − 1)(3 − 2) Das gesuchte Polynom lautet `0 (X) =
p(X) = 3 · `0 (X) + 5 · `1 (X) + 10 · `2 (X) = 32 X 2 − 52 X + 4. Man u ¨berzeuge sich durch Nachrechnen, dass die L¨osung korrekt ist.
Kapitel 5
Der Rang von Matrizen
Unser Ziel ist die Entwicklung eines Kriteriums f¨ ur die L¨osbarkeit von inhomogenen linearen Gleichungssystemen sowie f¨ ur die Bestimmung der Dimension des L¨osungsraums des zugeh¨origen homogenen linearen Gleichungssystems.
1. Zeilenrang und Spaltenrang Die Spaltenvektoren einer Matrix erzeugen einen Untervektorraum, den sogenannten Spaltenraum der Matrix: Def inition 5.1 (Spaltenraum, Spaltenrang). Sei A = (A1 , . . . , An ) ∈ Mm,n (K) Matrix mit den Spalten A1 , . . . , An ∈ Km . Dann nennen wir SR(A) := span(A1 , . . . , An ) den Spaltenraum von A. Die Dimension des Spaltenraums dim SR(A) nennen wir den Spaltenrang von A. Nach Lemma 3.22 ist die Dimension des Spaltenraums gleich der maximalen Zahl linear unabh¨angiger Spalten einer Matrix. F¨ ur die Zeilen einer Matrix definiert man analog Zeilenraum und Zeilenrang: Def inition 5.2 (Zeilenraum, Zeilenrang). Sei A = (z1 , . . . , zm )T ∈ Mm,n (K) Matrix T ∈M mit Zeilen z1T , . . . , zm 1,n (K). Dann nennen wir ZR(A) := span(z1 , . . . , zm ) den Zeilenraum von A. Die Dimension des Zeilenraums dim ZR(A) heißt Zeilenrang von A. Auch in diesem Fall gilt wegen Lemma 3.22, dass die Dimension des Zeilenraums gleich der maximalen Zahl linear unabh¨angiger Zeilen ist. Spaltenraum und Zeilenraum einer Matrix sind im allgemeinen nicht gleich. Beide Vektorr¨aume haben aber die gleiche Dimension: 59
60
5. Der Rang von Matrizen
Satz 5.3. Zeilenrang und Spaltenrang einer Matrix sind stets gleich. Beweis. Wir f¨ uhren einen direkten Beweis mit Hilfe des Gauß-Verfahrens: Sei A ∈ ¨ Mm,n (K) Matrix. Dann gibt es nach Ubungsaufgabe 4.2 • Permutationsmatrizen P ∈ Mm,m (K) und P 0 ∈ Mn,n (K), • T ∈ UDm , T 0 ∈ ODn , • und D = (dij ) ∈ Mm,n (K) mit d11 · · · drr 6= 0 und dij = 0 sonst, so dass gilt: P AP 0 = T DT 0 . Dabei ist T −1 die Zeilentransformationen im Gauß-Verfahren zu P AP 0 . DT 0 ist in Treppenform mit r Stufen. Die Matrizen T und T 0 sind nicht nur invertierbar, sondern es gilt sogar t11 = · · · = tmm = 1 und t011 = · · · = t0nn = 1. O.B.d.A. sei P = Im und P 0 = In , denn Zeilen- oder Spaltenvertauschungen a¨ndern weder den Zeilen- noch den Spaltenrang. F¨ ur die Diagonalmatrix D gilt offenbar dim ZR(D) = dim SR(D) = r. Wir zeigen, dass elementare Zeilen- und Spaltentransformationen weder den Zeilennoch den Spaltenrang a¨ndern. Die Behauptung folgt dann aus: dim ZR(A) = dim ZR(D) = dim SR(D) = dim SR(A). T ∈M Seien A1 , . . . , An ∈ Km die Spalten und z1T , . . . , zm 1,n (K) die Zeilen von A. Wir betrachten die Zeilentransformation A 7→ Tij (λ)A, die das λ-fache der j-ten Zeile zur i-ten Zeile von A addiert: A 7→ Ti,j (λ) bewirkt zi0 = zi + λzj . Wir zeigen, dass sich der Zeilenraum nicht ¨andert und die Dimension des Spaltenraums gleichbleibt:
a) Es gilt ZR(A) = ZR(Tij (λ)A), denn • wegen zi0 = zi + λzj ist ZR(Tij (λ)A) ⊆ ZR(A) und • wegen zi = zi0 − λzj ist ZR(A) ⊆ ZR(Tij (λ)A). b) Es gilt dim SR(A) = dim SR(Tij (λ)A), denn die Multiplikation mit Tij (λ) liefert einen Vektorraum-Isomorphismus ψ : SR(A) → SR(A),
S 7→ Tij (λ)S.
F¨ ur jeden Vektorraum-Isomorphismus ψ gilt nach Satz 3.18 auf Seite 35, dass A1 , . . . , An genau dann linear unabh¨angig sind, wenn ψ(A1 ), . . . , ψ(An )linear unabh¨angig sind. Also ist dim SR(A) = dim SR(Tij (λA). Man nutzt die Gleichheit von Spaltenrang und Zeilenrang und spricht vom Rang einer Matrix: Def inition 5.4 (Rang). Sei A ∈ Mm,n (K). Dann heißt rang(A) := dim SR(A) = dim ZR(A) der Rang von A. Der Rang ist eine Invariante bei der Multiplikation mit invertierbaren Matrizen:
2. Rang und lineare Gleichungssysteme
61
Satz 5.5. Seien A ∈ Mm,n (K) und B ∈ Mm,m (K), B 0 ∈ Mn,n (K) invertierbare Matrizen. Dann gilt: rang A = rang(BA) = rang(AB 0 ). Beweis. Der Beweis rang A = rang(BA) erfolgt direkt u ¨ber Isomorphie von Vektorr¨aumen: Die Abbildung ψ : SR(A) → SR(BA),
x 7→ Bx ∼ SR(BA). Dahe sind insbeist ein Vektorraum-Isomorphismus und somit gilt SR(A) = sondere die Dimensionen beider Vektorr¨aume gleich, und es gilt rang(A) = rang(BA). Der Beweis von rang(A) = rang(AB 0 ) f¨ uhrt man analog.
2. Rang und lineare Gleichungssysteme Inhomogene lineare Gleichungssysteme Ax = b haben genau dann eine L¨osung, wenn der Vektor b von den Spalten von A linear abh¨angig ist. Hieraus folgt auch, dass homogene lineare Gleichungssysteme stets eine L¨osung besitzen, denn der Nullvektor ist linear abh¨angig. Wir formulieren dieses Kriterium mittels der Begriffe Spaltenraum und Spaltenrang: Satz 5.6 (L¨osbarkeitskriterium f¨ ur lineare Gleichungssysteme). Sei (A, b) ∈ Mm,n+1 (K) erweiterte Matrix des linearen Gleichungssystems Ax = b. Dann gilt a) L¨os(A, b) 6= ∅ ⇐⇒ SR(A) = SR(A, b). b) L¨os(A, b) = ∅ ⇐⇒ dim SR(A, b) = dim SR(A) + 1. Beweis. Sei A = (A1 , . . . , An ) ∈ Mm,n (K) Matrix mit Spalten A1 , . . . , An ∈ Km und b ∈ Km . Wir zeigen beide Behauptungen direkt: a) L¨os(A, b) 6= ∅ ⇐⇒ SR(A) = SR(A, b) Da genau dann L¨os(A, b) 6= ∅, wenn ein es ein x ∈ Kn gibt mit Ax = b, gilt: L¨os(A, b) 6= ∅
⇐⇒
∃x :
n X
Ai xi = b.
i=1
Also: L¨os(A, b) 6= ∅
⇐⇒
b ∈ span(A1 , . . . , An ) = SR(A).
Weil b ∈ SR(A) ¨aquivalent zu SR(A) = SR(A, b) ist, folgt die Behauptung: L¨os(A, b) 6= ∅
⇐⇒
SR(A) = SR(A, b).
b) L¨os(A, b) = ∅ ⇐⇒ dim SR(A, b) = dim SR(A) + 1 Wegen Teil a) gilt L¨os(A, b) = ∅ genau dann, wenn SR(A) 6= SR(A, b). Aus SR(A) 6= SR(A, b)
⇐⇒
span(A1 , . . . , An ) 6= span(A1 , . . . , An , b), | {z } | {z } =SR(A)
=SR(A,b)
folgt mit dim SR(A) ≤ dim SR(A, b) ≤ dim SR(A) + 1: L¨os(A, b) = ∅ ⇐⇒ dim SR(A, b) = dim SR(A) + 1. Dies war zu zeigen.
62
5. Der Rang von Matrizen
Der Rang einer Matrix gibt uns ein Kriterium f¨ ur die L¨osbarkeit des entsprechenden homogenen linearen Gleichungssystems: Satz 5.7. Sei A ∈ Mm,n (K). F¨ ur das zugeh¨ orige homogene lineare Gleichungssystem Ax = 0 gilt dim L¨os(A, 0) = n − rang(A). ¨ Beweis. Sei A ∈ Mm,n (K). Nach Ubungsaufgabe 4.2 gibt es • Permutationsmatrizen P ∈ Mm,m (K) und P 0 ∈ Mn,n (K), • T ∈ UDm , T 0 ∈ ODn und • D = (dij ) ∈ Mm,n (K) mit d11 · · · drr 6= 0 und dij = 0 sonst, so dass gilt: P AP 0 = T DT 0 . O.B.d.A. sei P = Im und P 0 = In . F¨ ur die L¨osungsmenge des zur Diagonalmatrix D geh¨orenden homogenen linearen Gleichunggsystem Dx = 0 gilt L¨os(D, 0) = span(er+1 , . . . , en ), denn wegen d11 x1 = 0, . . . , drr xr = 0
und d11 · · · drr 6= 0
gilt x1 = . . . = xr = 0 und xr+1 , . . . , xn sind frei w¨ahlbar. Also ist dim L¨os(D, 0) = n − r = n − rang D. Es bleibt zu zeigen, dass die Multiplikation mit den Elementarmatrizen T und T 0 weder die Dimension des L¨osungsraums noch den Rang der Matrix ver¨andert. Wir zeigen zuerst, dass L¨os(T DT 0 , 0) = T 0
−1
L¨os(D, 0).
Aufgrund von Bemerkung 1.13 auf Seite 12 und Satz 5.6 auf Seite 61 sind T und T 0 invertierbar. Es gilt: x ∈ L¨os(T DT 0 , 0)
⇐⇒
T DT 0 x = 0.
Multiplikation der Gleichung T DT 0 x = 0 mit T liefert: x ∈ L¨os(T DT 0 , 0)
⇐⇒
DT 0 x = 0,
d.h. x ∈ L¨os(T DT 0 , 0) genau dann, wenn T 0 x ∈ L¨os(D, 0): x ∈ L¨os(T DT 0 , 0) Also ist L¨os(T DT 0 , 0) = T
0 −1
⇐⇒
x ∈ T0
−1
L¨os(D, 0).
L¨os(D, 0) und damit gilt
dim L¨os(T DT 0 , 0) = dim(T 0 Aus Lemma 5.5 folgt rang D =
rang(T DT 0 ).
−1
L¨os(D, 0)).
Kapitel 6
Lineare Abbildungen
Wir nennen eine Abbildung zwischen zwei algebraischen Strukturen Homomorphismus, wenn die Funktion mit der bzw. den Verkn¨ upfungen der Struktur vertr¨aglich ist. F¨ ur Vektorr¨aume heißen solche Funktionen lineare Abbildungen.
1. Eigenschaften Seien U und V Vektorr¨aume u ¨ber einem K¨orper K. Ein Homomorphismus f : U → V , also eine Abbildung, bei der f¨ ur alle u1 , u2 ∈ U und λ ∈ K gilt Additivit¨at: f (u1 + u2 ) = f (u1 ) + f (u2 ) Homogenit¨at: f (λ · u1 ) = λ · f (u1 )
(12)
heißt lineare Abbildung: Def inition 6.1 (Lineare Abbildung). Seien U und V Vektorr¨ aume u or¨ber einem K¨ per K. Eine lineare Abbildung ist ein Homomorphismus f : U → V . Die Menge aller linearen Abbildungen von U nach V bezeichnen wir mit Lin(U, V ) := {f : U → V | f ist Homomorphismus } .
(13)
Die Eigenschaften (12) einer linearen Abbildung lassen sich zu einer Gleichung zusammenfassen. Eine Funktion f : U → V ist genau dann eine lineare Abbildung, wenn f¨ ur u1 , u2 ∈ U und λ1 , λ2 ∈ K gilt: f (λ1 u1 + λ2 u2 ) = λ1 · f (u1 ) + λ2 · f (u2 ). Man u ¨berlegt sich leicht, dass mit f, g ∈ Lin(U, V ) auch h := f + g mit h(u) = f (u) + g(u) eine lineare Abbildung ist, ebenso k := λf mit k(u) = λ · f (u) f¨ ur λ ∈ K. Die Menge der linearen Abbildungen Lin(U, V ) ist bez¨ uglich Addition und skalarer Multiplikation abgeschlossen: Satz 6.2. Seien U und V Vektorr¨ aume u orper K. Dann ist Lin(U, V ) ¨ber einem K¨ zusammen mit der oben angegebenen Addition und skalaren Multiplikation ein KVektorraum. 63
64
6. Lineare Abbildungen
Die Hintereinanderausf¨ uhrung (Konkatenation) h := f ◦g ∈ Lin(U, W ) mit h(u) = f (g(u)) zwei linearer Abbildungen f ∈ Lin(V, W ) und g ∈ Lin(U, V ) ist ebenfalls eine lineare Abbildung. Denn f¨ ur u1 , u2 ∈ U , λ1 , λ2 ∈ K und v1 := g(u1 ), v2 := g(u2 ) gilt: h(λ1 u1 + λ2 u2 ) = f g(λ1 u1 + λ2 u2 ) = f λ1 · g(u1 ) + λ2 · g(u2 ) = f λ1 v1 + λ2 v2 = λ1 · f (v1 ) + λ2 · f (v2 )
= λ1 · f (g(u1 )) + λ2 · f (g(v2 )) = λ1 · h(u1 ) + λ2 · h(u2 ). Beschr¨anken wir uns auf den Fall U = V = W , also Endomorphismen, so ist die Menge der linearen Abbildungen mit den beiden Verkn¨ upfungen Addition und Konkatenation ein Unterring aller Abbildungen f : U → U : Satz 6.3. Sei K ein K¨ orper und U ein K-Vektorraum. Die Menge aller linearen Abbildungen Lin(U, U ) mit Addition +“ und Konkatenation ◦“ ist ein Ring. ” ” Wie bei Abbildungen u ¨blich bezeichnet man mit bild f den Bildbereich der Funktion f ∈ Lin(U, V ): bild f := f (U ) = {f (u) | u ∈ U } ⊆ V. bild f ist ein Untervektorraum von V . Der Kern ker f der Abbildung f ∈ Lin(U, V ) umfasst die Vektoren u ∈ U , welche auf die Null abgebildet werden: ker f := f −1 (0) = {u ∈ U | f (u) = 0 } ⊆ U. ker f ist ein Untervektorraum von U Aufgrund der Linearit¨at ist f (0) = 0, so dass der Nullvektor stets im Kern einer linearen Abbildung liegt. Bei einem trivalen Kern, d.h. ker f = {0}, ist die Abbildung injektiv. Ein surjektive Abbildung f hat genau dann trivalen Kern, wenn f ein Isomorphismus ist. F¨ ur die Dimension der beiden Untervektorr¨aume ker f und bild f einer linearen Abbildung f ∈ Lin(U, V ) gilt folgende ¨ Relation, die wir in Ubungsaufgabe 8.1 beweisen: Satz 6.4 (Dimensionsformel f¨ ur lineare Abbildungen). Seien U und V Vektorr¨ aume u ber einem K¨ o rper K sowie f ∈ Lin(U, V ) eine lineare Abbildung. Dann gilt: ¨ dim(ker f ) + dim(bild f ) = dim U. Der folgende Satz trifft auch auf unendlich dimensionale Vektorr¨aume zu, wenngleich wir uns im Beweis auf den in der Vorlesung betrachteten Fall von Vektorr¨aumen endlicher Dimension beschr¨anken. Satz 6.5. Seien U und V Vektorr¨ aume u orper K und a1 , . . . , an eine ¨ber einem K¨ Basis von U . Eine lineare Abildung f ∈ Lin(U, V ) ist genau dann ein Isomorphismus, wenn die Bilder f (a1 ), . . . , f (an ) der Basisvektoren von U eine Basis von V bilden. Beweis. Wir zeigen beide Richtungen. Sei f ein Isomorphismus. Es gilt: span {f (a1 ), . . . , f (an )} ⊆ bild f ⊆ V.
(14)
2. Darstellende Matrix
65
Da f bijektiv ist, existiert zu jedem v ∈ V ein Vektor u :=
n X
λi ai ∈ U
mit
v = f (u) = f
i=1
n X
λi ai
!
=
i=1
n X
λi f (ai ).
i=1
In Verbindung mit den Inklusionen (14) gilt V = span {f (a1 ), . . . , f (an )} ⊆ bild f ⊆ V. Da V die Dimension n hat, bilden f (a1 ), . . . , f (an ) eine Basis von V . Umgekehrt, sei f (a1 ), . . . , f (an ) eine Basis von V . Dann ist dim U = dim V . Aus V = span {f (a1 ), . . . , f (an )} ⊆ bild f ⊆ V ¨ folgt dim(bild f ) = dim V = dim U , d.h. f ist surjektiv. Nach Ubungsaufgabe 8.1 ist f ein Isomorphismus. Die Dimension des Bildbereiches nennt man den Rang einer linearen Abbildung: Def inition 6.6 (Rang einer Abbildung). Seien U und V Vektorr¨ aume u ¨ber einem K¨ orper K und f : U → V eine lineare Abbildung. Dann heißt rang f := dim(bild f ) der Rang von f . Den Begriff Rang“ haben wir zuvor in Kapitel 5 f¨ ur Matrizen defininert. Wie ” ¨ wir in Abschnitt 2 in diesem Kapitel und Ubungsaufgabe 8.2 zeigen werden, kann jeder Abbildung f ∈ Lin(U, V ) eine eindeutig bestimmte Matrix F mit f (x) = F x zugeordnet werden, wobei der Rang der Abbildung f mit dem Rang der Matrix F u ¨bereinstimmt. Um eine lineare Abbildung f : U → V anzugeben, gen¨ ugt es, die Bilder der Basisvektoren von U zu spezifizieren. Sei a1 , . . . , an eine Basis des Vektorraums U . P F¨ ur das Bild eines Vektors u = ni=1 λi ai ∈ U erhalten wir aus den HomomorphieEigenschaften der linearen Abbildung: ! n n n X X X f (u) = f λi ai = f (λi ai ) = λi f (ai ). i=1
i=1
i=1
Umgekehrt sind zwei lineare Abbildungen f, g : U → V genau dann identisch, wenn die Bilder der Basisvektoren jeweils u ¨bereinstimmen.
2. Darstellende Matrix Wir zeigen in diesem Abschnitt, dass man zu einen K¨orper K die Menge der Matrizen Mm,n (K) als die Menge der linearen Abbildungen Lin(Kn , Km ) interpretieren kann. Zu einer Matrix A ∈ Mm,n (K) ist durch x 7→ Ax eine lineare Abbildung gegeben, denn es gilt A(x + y) = Ax + Ay und A(λx) = λAx f¨ ur x, y ∈ Kn und λ ∈ K: Lemma 6.7. Sei K ein K¨ orper. Dann ist zu jeder Matrix A ∈ Mm,n (K) die Funktion φA : Kn → Km , eine lineare Abbildung.
x 7→ Ax
66
6. Lineare Abbildungen
Umgekehrt kann jede lineare Abbildung f : Kn → Km durch eine eindeutig bestimmte Matrix F ∈ Mm,n (K) beschrieben werden, also f (x) = F x. Diese Matrix F wollen wir im folgenden herleiten. Seien e1 , . . . , en die kanonischen Einheitsvektoren. Die Abbildung f ist eindeutig durch die Bilder der Einheitsvektoren gegeben, denn P f¨ ur x = ni=1 xi ei gilt: ! n n n X X X f (x) = f xi ei = f (xi ei ) = xi · f (ei ). i=1
i=1
i=1
Um diese Darstellung in Matrix-Vektor-Schreibweise f (x) = F x zu formulieren, w¨ahle als Spalten die Bilder der Einheitsvektoren: F := f (e1 ) f (e2 ) · · · f (en ) ∈ Mm,n (K). P Bezeichnen wir die Spaltenvektoren mit fi := f (ei ), gilt f¨ ur x = ni=1 xi ei ∈ Kn : ! n n n X X X Fx = xi fi = xi f (ei ) = f xi ei = f (x) i=1
i=1
i=1
Diese Konstruktion fassen wir mit folgendem Merksatz zusammen: Die Spalten sind die Bilder der Einheitsvektoren. Zwei lineare Abbildungen genau dann u ¨berein, wenn die Bilder der Einheitsvektoren identisch sind. Weil diese die Spaltenvektoren sind, ist die Matrix zu einer linearen Abbildung eindeutig bestimmt. Korollar 6.8. Sei K ein K¨ orper. Die K-Vektorr¨ aume Lin(Kn , Km ) und Mm,n (K) sind isomorph. Beweis. Wir zeigen, dass die Abbildung ϕ : Lin(Kn , Km ) → Mm,n (K),
f 7→ f (ei ) 1≤i≤n ∈ Mm,n (K)
ein Isomorphismus ist. Die Abbildung ϕ ist injektiv, denn gilt ϕ(f ) = ϕ(g) f¨ ur f, g ∈ Lin(Kn , Kn ), so stimmen beide Funktionen g, f auf den Einheitsvektoren (einer Basis des Kn ) u ¨berein, und sind identisch. Die Funktion ϕ ist ebenfalls surjektiv, denn gem¨aß Lemma 6.7 ist durch eine Matrix F ∈ Mn,n (K) eine lineare Abbildung f : x 7→ F x mit ϕ(f ) = F gegeben. Zu zeigen bleibt die Linearit¨at der Funktion ϕ. F¨ ur f, g ∈ Lin(Kn , Km ) und λ, µ ∈ K gilt ϕ(λf + µg) = λ · f (ei ) + µ · g(ei ) 1≤i≤n = λ · f (ei ) 1≤i≤n + µ · g(ei ) 1≤i≤n = λ · ϕ(f ) + µ · ϕ(g).
Die Abbildung ϕ : Lin(Kn , Km ) → Mm,n (K) ist somit ein Isomorphismus.
In Satz 6.3 haben wir gezeigt, dass die Menge der linearen Abbildungen Lin(Kn , Kn ) mit Addition und Komposition einen Ring bildet. Dieser ist isomorph zum Ring der n × n Matrizen, wobei die Hintereinanderausf¨ uhrung f ◦ g zweier Abbildungen f, g ∈ Lin(Kn , Kn ) dem Produkt F · G der zugeh¨origen Matrizen entspricht:
2. Darstellende Matrix
67
Korollar 6.9. Sei K ein K¨ orper. Die Ringe (Lin(Kn , Kn ), +, ◦) und (Mn,n (K), +, ·) sind isomorph. Beweis. Wir betrachten die Abbildung ϕ : Lin(Kn , Kn ) → Mn,n (K),
f 7→ F := f (ei ) 1≤i≤n ∈ Mn,n (K)
Aus dem Beweis zu Satz 6.8 wissen wir bereits, dass die Abbildung ϕ eine Bijektion darstellt. Ferner ist die Funktion additiv, d.h. f¨ ur f, g ∈ Mn,n (K) gilt ϕ(f + g) = ϕ(f ) + ϕ(g). Zu zeigen bleibt, dass sie auch vertr¨aglich mit der Konkatenation bzw. Multiplikation ist: ϕ(f ◦ g) = ϕ(f ) · ϕ(g) = F · G Seien F = (fi,j )1≤i,j≤n = ϕ(f ) und G = (gi,j )1≤i,j≤n = ϕ(g). Es gen¨ ugt zu zeigen, dass der i-te Spaltenvektor des Matrixprodukts F G gleich dem Bild (f ◦ g)(ei ) ist. Wegen fi,j = (f (ej ))i und gi,j = (g(ej ))i folgt aus der Linearit¨at der Abbildungen f, g: ! n n n X X X gi,ν · eν = gν,i f (eν ) = f (eν ) · gν,i (f ◦ g)(ei ) = f (g(ei )) = f ν=1
ν=1
ν=1
Der Vektor f (eν ) ist der ν-te Spaltenvektor (fj,ν )1≤j≤n von F so dass gilt: Pn ν=1 f1,ν gν,i P n f2,ν gν,i ν=1 (f ◦ g)(ei ) = . .. Pn . f g ν=1 n,ν ν,i Das Bild (f ◦g)(ei ) stimmt mit der i-ten Spalte der Matrix F G u ¨berein, also ϕ(f ◦g) = F G. Wir haben uns auf die linaren Funktionen Lin(Kn , Kn ) (auf quadatische Matrizen) beschr¨ankt, damit die Konkatenation (das Matrixprodukt) definiert ist. Man rechnet leicht nach, dass allgemein f¨ ur f ∈ Lin(Km , Kr ) und g ∈ Lin(Kn , Km ) gilt: ϕ(f ◦ g) = | {z }
∈Mr,n (K)
ϕ(f ) | {z }
·
ϕ(g) |{z}
∈Mr,m (K) ∈Mm,n (K)
In anderen F¨allen ist weder die Konkatenation der Funktionen f, g noch das Produkt der Matrizen definiert. Wir haben zuvor nur lineare Abbildungen der Form f : Kn → Km betrachtet. Seien U, V zwei K-Vektorr¨aume, A = {a1 , . . . , an } eine geordnete Basis von U und B = {b1 , . . . , bm } eine geordnete Basis von V . Den Fall einer Abbildung f ∈ Lin(U, V ) f¨ ur zwei beliebige Vektorr¨aume reduziert man mittels der Koordinatenfunktion zu den Basen A und B Aλ 7→ (λ1 , λ2 , . . . , λn ) Bµ 7→ (µ1 , µ2 , . . . , µm )
68
6. Lineare Abbildungen
auf eine Abbildung der Form Kn → Km mit den kanonischen Einheitsvektoren als Basen. Die Matrix MA,B (f ) einer linearen Funktion f ∈ Lin(U, V ) bez¨ uglich gegebener Basen A, B von U und V beschreibt die Abbildung der Koordinatenvektoren: Def inition 6.10 (Darstellungsmatrix einer linearen Abbildung). Seien U, V Vektorr¨ aume u orper K, sowie A = {a1 , . . . , an } eine geordnete Basis von U ¨ber einem K¨ und B = {b1 , . . . , bm } eine geordnete Basis von V . Die Darstellungsmatrix MA,B (f ) := (fij ) 1≤i≤m ∈ Mm,n (K) 1≤j≤n
einer linearen Abbildung f ∈ Lin(U, V ) bez¨ uglich der Basen A, B ist erkl¨ art durch f (ai ) =
n X
fj,i bj
f¨ ur i = 1, . . . , m.
j=1
Die i-te Spalte von MA,B (f ) ist der Koordinatenvektor von f (ai ) zur Basis B. Die Hintereinanderausf¨ uhrung zwei linearer Funktionen g : U → V und f : V → W f¨ ur Vektorr¨aume U, V, W mit Basen A, B, C bedeutet, dass man die darstellenden Matrizen multipliziert. Die darstellende Matrix FA,B einer linearen Funktion f : U → V h¨angt von den gew¨ahlten Basen A, B der Vektorr¨aume U und V ab. Sei A0 eine ¨ weitere Basis von U . Der Basiswechsel, der Ubergang von der Basis A0 zur Basis A des Vektorraums U wird durch den Isomorphismus bzw. die darstellende Matrix TA0 ,A beschrieben. Die beschreibende Matrix FA0 ,B der Abbildung f zu den Basen A0 , B lautet MA0 ,B (f ) = MA,B (f ) · TA0 ,A . W¨ahlt man statt B eine andere Basis B 0 des Vektorraums V und sei TB0 ,B die darstellende Matrix dieses Basiswechsels, so ist die beschreibende Matrix FA0 ,B0 zu den Basen A0 , B 0 gegeben als das Matrixprodukt MA0 ,B0 (f ) = TB−1 0 ,B · MA,B (f ) · TA0 ,A .
(15)
Diese Identit¨at nennt man Transformationsformel f¨ ur darstellende Matrizen. Beispiel 6.11. Wir betrachten einen Endomorphismus f des Vektorraums K[X]2 der Polynome mit Grad maximal 2 u ¨ber einem beliebigen K¨orper K. Seien A = {a1 , a2 , a3 } und B = {b1 , b2 , b3 } geordnete Basen, bestehend aus den Polynomen: a1 (X) = 1 + X + X 2
b1 (X) = X + X 2
a2 (X) = 1 + X
b2 (X) = −1 + X
a3 (X) = −1
b3 (X) = X 2 .
Die Abbildung f ist gegeben durch die Bilder der Basisvektoren: f (a1 ) := b1 − b3 f (a2 ) := b3 f (a3 ) := b1 + b2 − b3 .
2. Darstellende Matrix
69
Aus dieser Definition der Funktion f l¨aßt sich unmittelbar die darstellende Matrix MA,B (f ) bez¨ uglich der Basen A, B herleiten, denn der i-te Spaltenvektor ist der Koordinatenvektor von f (ai ) zur Basis B: +1 0 +1 0 +1 MA,B (f ) = 0 −1 +1 −1 Wir f¨ uhren einen Basiswechsel durch und ersetzen die Basis A durch die Basis A0 := {a01 , a02 , a03 }, bestehend aus den Polynomen: a01 (X) = 1 a02 (X) = X a03 (X) = X 2 Um die darstellende Matrix MA0 ,B (f ) der Funktion f zu berechnen, bestimmen wir zuerst die Transformationsmatrix TA0 ,A . Wegen a01 (X) = −a3 (X) a02 (X) = a2 (X) + a3 (X) a03 (X) = a1 (X) − a2 (X) lautet die Transformationsmatrix TA0 ,A
0 0 +1 = 0 +1 −1 −1 +1 0
und die darstellende Matrix MA0 ,B (f ) = MA,B (f ) · TA0 ,A : +1 0 +1 0 0 +1 −1 +1 +1 0 +1 · 0 +1 −1 = −1 +1 0 . MA0 ,B (f ) = 0 −1 +1 −1 −1 +1 0 +1 0 −2 Wir wollen unsere Rechnung u ufen. Man u ¨berpr¨ ¨berzeuge sich durch Nachrechnen, dass f¨ ur die Funktion f gilt !
f (1) = B(MA0 ,B (f ) · e1 ) = −b1 − b2 + b3 !
f (X) = B(MA0 ,B (f ) · e2 ) = b1 + b2 !
f (X 2 ) = B(MA0 ,B (f ) · e3 ) = b1 − 2b3 wobei e1 , e2 , e3 die kanonischen Einheitsvektoren sind.
Kapitel 7
Lineare Codes
Ein wichtiges Teilgebiet der Kodierungstheorie, in der Vektorr¨aume eine wichtige Rolle spielen, sind lineare Codes.
1. Grundbegriffe Eine Nachricht soll von einem Sender u ¨ber einen Kanal an einen Empf¨anger u ¨ber¨ mittelt werden. Dabei handelt es sich um einen gest¨orten Ubertragungskanal, d.h. die Nachricht kann fehlerhaft u ¨bertragen werden. Ziel ist es, dass der Empf¨anger die korrekte Nachricht dennoch erh¨alt. Dazu wird die Nachricht kodiert, man f¨ ugt zus¨atzliche (redundante) Informationen hinzu. Statt der Nachricht u ¨bertr¨agt man ¨ das zugeh¨orige Codewort. Auch wenn bei der Ubermittlung Fehler auftreten, kann der Empf¨anger mit Hilfe der im Codewort enthaltenen zus¨atzlichen Informationen die eigentliche Mitteilung bestimmen. gest¨ orte evtl. gest¨ ortes empfangene ¨ Nachricht Kodierung Codewort Ubertragung Codewort Dekodierung Nachricht
m
7→
c
−−−−−−→ Kanal
c˜
7→
m
An den Code werden dabei bestimmte Anforderungen gestellt: • Es sollen m¨oglichst viele Fehler (St¨orungen) korrigiert werden k¨onnen. • Die Codeworte sollen im Vergleich zu den Nachrichten nur unwesentlich l¨anger sein. • Kodierung und Dekodierung sollen effizient durchzuf¨ uhren sein. In der Praxis finden sich zahlreiche Anwendungen fehlerkorrigierender Codes, beispielsweise die Daten¨ ubertragung von Raumsonden zur Erde oder die Datenfern¨ ubermittlung mittels Modem. Auch in der Unterhaltungselektronik werden fehlerkorrigierende Codes verwendet: Die Daten auf CDs (Compact Discs) sind kodiert, damit der CD-Player kleinere Besch¨adigungen der CD ausgleichen kann. 71
72
7. Lineare Codes
Wir besch¨aftigen uns in diesem Abschnitt mit einer wichtigen Klasse von Codes, den linearen Codes. Ein linearer Code ist ein Untervektorraum u ¨ber einem endlichen K¨orper: Def inition 7.1 ([n, k]-Code). Sei K ein endlicher K¨ orper. Ein K-Vektorraum C ⊆ Kn der Dimension k heißt [n, k]-Code u ¨ber K. Im Fall K = F2 = {0, 1} sprechen wir von einem bin¨ aren, linearen Code. Um Nachrichten mit Hilfe linearer Codes zu kodieren, w¨ahlen wir als Nachrichtenmenge den Vektorraum Kk der Worte der L¨ange k u ¨ber dem Alphabet“ des K¨orpers ” k K und verwenden eine injektive Abbildung c : K → C, die jeder Nachricht eindeutig ein Codewort eines [n, k]-Codes C ⊆ Kn zuweist.1 Die Dekodierung erfolgt mit der Minimal-Distanz-Dekodierung (auch Maximum-Likelihood-Dekodierung). Man ordnet dem u ¨bertragenen Codewort dasjenige Codewort zu, das ihm am ¨ahnlichsten“ ist, ” d.h. welches den kleinsten Abstand zu ihm hat. Den Abstand zweier Codew¨orter wird mit der Hamming-Distanz 2 genannten Metrik (zur Definition einer Metrik siehe Kapitel 11, Definition 11.4 auf Seite 118; man rechnet leicht nach, dass die HammingDistanz die dort angegebenen Eigenschaften erf¨ ullt) gemessen: Def inition 7.2 (Hamming-Distanz). Seien x, y ∈ Kn . Dann heißt d(x, y) := | {i | xi 6= yi } | Hamming-Distanz (auch Hamming-Abstand) von x und y. Die Hamming-Distanz ist die Anzahl der Komponenten, in denen sich zwei Vektoren unterscheiden. Die Minimal-Distanz-Dekodierung erfolgt in zwei Schritten: (1) Bestimme zu c˜ das Codewort c ∈ C mit minimalem Hamming-Abstand d(˜ c, c). (2) Bestimme die dem Codewort c zugeordnete Nachricht m0 . F¨ ur lineare Codes gen¨ ugt es, die Distanz zum Nullvektor zu betrachten: Def inition 7.3 (Hamming-Gewicht). Sei x ∈ Kn . Wir nennen w(x) := d(x, 0) = | {i | xi 6= 0 } | das Hamming-Gewicht von x. Je gr¨oßer der Abstand der Codeworte voneinander ist, desto mehr Fehler kann man korrigieren. Eine wichtige Gr¨oße f¨ ur lineare Codes ist deren Minimalabstand : Def inition 7.4 (Minimalabstand). Sei C ein [n, k]-Code. Dann bezeichnen wir d(C) := min {d(x, y) | x, y ∈ C, x 6= y } als den Minimalabstand von C. F¨ ur C = {0} setzen wir d({0}) = min ∅ = ∞. Um zu kennzeichnen, dass ein [n, k]-Code Minimalabstand d hat, spricht man auch von einem [n, k, d]-Code. 1Wir haben die Menge C der Codeworte als Code bezeichnet. Teilweise in der Literatur und
nach DIN 44300 wird die eindeutige Zuordnung c : Kk → C als Code definiert. 2 Richard W. Hamming, einer der Gr¨ underv¨ ater der Kodierungstheorie. Bell Laboratories, 1948.
1. Grundbegriffe
73
Def inition 7.5 (Minimalgewicht). Sei C ein [n, k]-Code. Dann heißt w(C) := min {w(x) | x ∈ C \ {0} } das Minimalgewicht von C. F¨ ur C = {0} setzen wir w({0}) = min ∅ = ∞. F¨ ur lineare Codes stimmt das Minimalgewicht mit dem Minimalabstand u ¨berein: Lemma 7.6. Sei C ⊆ Kn linearer Code. Dann gilt d(C) = w(C). Beweis. Sei C ⊆ Kn ein [n, k]-Code und x, y ∈ C. F¨ ur C = {0} folgt die Gleichheit trivialerweise. F¨ ur C 6= {0} ist der Abstand zwischen x und y die Anzahl der Komponenten, in denen sich die beiden unterscheiden. Genau f¨ ur diese Komponenten ist aber auch die Differenz x − y von 0 verschieden. Damit gilt d(x, y) = w(x − y). Da wir bereits mit y = 0 ∈ C und x ∈ C alle Elemente von C erhalten, folgt die Behauptung. ¨ Bei einem Ubertragungsfehler werden Komponenten des Codewortes c ∈ C ver¨andert (Wir setzen zur Vereinfachung voraus, dass stets n Zeichen empfangen werden). Bezogen auf das empfangene Codewort bedeutet das c˜ = c + e mit einem Fehlervektor e ∈ Kn . Def inition 7.7 (t-fehlererkennend, t-fehlerkorrigierend). Ein linearer Code C heißt t-fehlererkennend, wenn die Minimal-Distanz-Dekodierung bis zu t fehlerhafte Komponenten in den gest¨ orten Codew¨ ortern erkennt. Ein linearer Code C heißt t-fehlerkorrigierend, wenn die Minimal-Distanz-Dekodierung bis zu t fehlerhafte Komponenten in den gest¨ orten Codew¨ ortern korrigiert. Wir veranschaulichen uns die Situation: Stellt man sich die Codew¨orter als Punkte im Raum Kn vor, so bilden diejenigen gest¨orten Codew¨orter (die Elemente des Kn ), welche die Minimal-Distanz-Dekodierung einem Codewort zuordnet, eine Kugel um dieses Codewort. Def inition 7.8 (Kugel). Sei C ⊆ Kn linearer Code. Dann nennen wir f¨ ur c ∈ C Bt (c) := {x ∈ Kn | d(x, c) ≤ t } eine Kugel um c mit Hamming-Radius t. '$ '$ '$ '$ p
p
p
p
'$ '$ '$ '$ &% &% &% &% t p p p p
c
&% &% &% &%
Alle Vektoren bzw. gest¨orten Codew¨orter innerhalb einer Kugel werden bei der Minimal-Distanz-Dekodierung dem Codewort im Mittelpunkt der Kugel zugeordnet. Es gibt Codes, die mehr Fehler erkennnen als korrigieren k¨onnen, denn falls die Kugeln n¨amlich nicht disjunkt sind, sondern an ihrem Rand“ gemeinsame Punkte haben, ” sind diese zwar keine g¨ ultigen Codeworte, k¨onnen aber auch nicht eindeutig einem g¨ ultigen Codewort zugeordnet werden (denn die Mittelpunkte der beiden Kugeln sind gleichweit entfernt). Aus obigen Betrachtungen folgt direkt
74
7. Lineare Codes
Korollar 7.9. Ein linearer Code C ⊆ Kn ist genau dann t-fehlerkorrigierend, wenn d(C) ≥ 2t + 1. Wir pr¨azisieren die Vorstellung davon, wieviel Nachricht“ und wieviel Korrek” ” turinformationen“ die Codew¨orter eines linearen Codes enthalten. Ein [n, k]-Code ist ein k-dimensionaler Untervektorraum eines n-dimensionalen Vektorraums u ¨ber einem endlichen K¨orper K. Die Codew¨orter haben die L¨ange n, die Anzahl frei w¨ahlbarer Komponenten in den Codew¨ortern ist k. Wir haben also k Komponenten f¨ ur die Informationen zur Verf¨ ugung und senden n Komponenten pro Codewort. Im Fall von bin¨aren Codes nennen wir k die Anzahl der Informationsbits und n−k die Anzahl der Korrekturbits. Informationsrate und Korrekturrate eines bin¨aren linearen Codes sind die Verh¨altnisse von Informationsbits bzw. Korrekturbits zur L¨ange der Codew¨orter: Def inition 7.10 (Informations- und Korrekturrate). Sei C ein bin¨ arer [n, k]-Code. Dann heißt k Anzahl Informationsbits = n Bitl¨ ange die Informationsrate von C und l m d(C)−1 2
n
=
Anzahl Korrekturbits Bitl¨ ange
die Korrekturrate von C. Bis auf die schnelle Kodierung und Dekodierung k¨onnen wir unsere Anforderungen vom Anfang des Kapitels an einen guten Code beschreiben: Def inition 7.11 (Guter Code). Eine Folge (Ci )n∈N von bin¨ aren [ni , ki ]-Codes Ci heißt gut, wenn lim
i→∞
ki > 0, ni
lim
i→∞
d(Ci ) > 0, ni
lim ni = ∞.
i→∞
Eine Folge bin¨arer linearer Codes heißt gut, wenn Informationsrate und Korrekturrate bei steigender Bitl¨ange positiv bleiben. Beispiel 7.12. Um die Begriffe zu verdeutlichen und anzuwenden, betrachten wir zwei konkrete bin¨are lineare Codes. • Beim t-fachen Wiederholungscode wird jede Nachricht t-mal hintereinander verschickt: k C := (x, x, . . . , x) ∈ Fkt x ∈ F . 2 2 | {z } t-mal
Die Nachrichten sind Vektoren aus Fk2 , haben also die L¨ange k und die Codew¨orter sind Vektoren u ur ein festes t ≥ 1. ¨ber F2 der L¨ange n = kt f¨ Der t-fachen Wiederholungscode C ist ein [kt, k]-Code mit Minimalgewicht
1. Grundbegriffe
75
d(C) = t. Wir bestimmen die Informationsrate und die Korrekturrate von C: Informationsrate =
k 1 = kt t
Korrekturrate =
d t−1 2 e . kt
Die Folge t-facher Wiederholungscodes stellt keinen guten Code dar, denn d t−1 e lim Informationsrate · Korrekturrate = lim 22 = 0. k→∞ k→∞ t k • Der bin¨arer Code mit einem Parit¨atsbit beruht auf der Idee, die Nachricht um ein Pr¨ ufbit zu erweitern, derart, dass die Summe der Komponenten modulo 2 sets 0 ist: ( ) n X C := (x1 , . . . , xn ) ∈ Fn2 xi = 0 (mod 2) . i=1
Die Dimension von C ist um eins kleiner als die L¨ange dera Codew¨orter, denn ein Bit wird als Pr¨ ufbit verwendet. Der Parit¨atscode C l¨aßt sich als L¨osungsraum eines homogenen linearen Gleichungssystems u ¨ber F2 auffassen C = L¨os(eT , 0)
mit eT = (1, 1, . . . , 1) ∈ M1,n (F2 ),
denn in F2 gilt eT (x1 , . . . , xn )T = auf Seite 62 folgt
Pn
i=1 xi .
Mit rang(eT ) = 1 und Satz 5.7
dim(C) = n − rang(eT ) = n − 1. Wir bestimmen das Minimalgewicht des Parit¨atscodes C. Da der Nullvektor bei der Bestimmung des Minimalgewichts nicht ber¨ ucksichtigt wird und Vektoren mit nur einer von Null verschiedenen Komponente nicht zum Code geh¨oren, gilt: d(C) = min w(c) = w((1, 1, 0, . . . , 0)) = 2. c∈C
Wir berechnen die Informationsrate und die Korrekturrate von C: Informationsrate =
1 n−1 =1− n n
Korrekturrate =
d 2−1 1 2 e = . n n
Die Folge der Parit¨atsbit-Codes ist ebenfalls kein guter Code, denn: n−1 lim Informationsrate · Korrekturrate = lim = 0. n→∞ n→∞ n2 Es gibt Folgen von guten Codes, zum Beispiel Justesen-Codes und Turbo-Codes. Diese beruhen auf endlichen K¨orpern K mit q m Elementen, q prim, insbesondere auf K¨orpern mit 2m Elementen. Die Konstruktion und Beweise gehen aber u ¨ber den Rahmen der dieser Vorlesung hinaus [Lint98].
76
7. Lineare Codes
2. Gitter und Kugelpackungen Die Konstruktion von bin¨aren [n, k]-Codes mit m¨oglichst großem Minimalgewicht bei gegebenem (n, k) h¨angt mit dem Problem der dichtesten Kugelpackungen im Rn zusammen. Der Zusammenhang ergibt sich dabei unmittelbar aus den vorherigen ¨ Uberlegungen. Da wir mit linearen Codes arbeiten, interessieren wir uns prim¨ar f¨ ur diejenigen Kugelpackungen, die linearen Codes entsprechen. Es sind dies die sogenannten gitterartigen Kugelpackungen. Um den intuitiven Begriff eines Gitters zu formalisieren, stellen wir uns vor, dass wir ein Gitter u ¨ber den n-dimensionalen Raum Rn legen und davon nur die Kreu” zungspunkte“ betrachten. Diese erhalten wir als die ganzzahligen Linearkombinationen einer Basis: Def inition 7.13 (Volldimensionales Gitter). Sei B := {b1 , . . . , bn } ⊂ Rn eine geordnete Basis des Rn . Dann heißt ) ( n X L(b1 , . . . , bn ) := t i b i ti ∈ Z ⊂ R n i=1
ein volldimensionales Gitter mit Gitterbasis B.
Ein Gitter L ⊂ Rn ist eine additive Untergruppe des Rn , die keinen H¨aufungspunkt hat (diskret ist). Wir gehen auf Gitter in Kapitel 16 ab Seite 201 n¨aher ein. Beispiel 7.14. Ein einfaches Beispiel f¨ ur ein Gitter im Rn ist Zn mit der Gitterbasis e1 , . . . , en . Def inition 7.15 (Gitterartige Kugelpackung). Eine Kugelpackung des Rn heißt gitterartig, wenn die Kugelmittelpunkte ein Gitter bilden. Unter der Packungsdichte: einer gitterartigen Kugelpackung verstehen wir den Anteil der Kugelvolumen am gesamten Raum. Je h¨oher die Packungsdichte einer gitterartigen Kugelpackung ist, desto gr¨oßer sind die Abst¨ande zwischen den Codeworten des entsprechenden linearen Codes. Wir nutzen diese Entsprechung, um diejenigen linearen Codes auszuzeichnen, die optimalen, d.h. dichtesten Kugelpackungen entsprechen Def inition 7.16 (t-perfekter Code). Ein linearer Code C ⊆ Kn heißt t-perfekt, wenn die Kugeln Bt (c) zu c ∈ C eine Zerlegung (Partition) des Kn bilden: [ a) Die Kugeln bedecken den gesamten Raum: Bt (c) = Kn . c∈C
b) Die Kugeln sind disjunkt: Bt (c) ∩ Bt (c0 ) = ∅ f¨ ur c, c0 ∈ C mit c 6= c0 . F¨ ur kleine n kennt man optimale, d.h. dichteste gitterartige Kugelpackungen des Rn [CS93]. Wir betrachten einige Beispiele: • R1 : Die reelle Zahlengerade ist einfach optimal aufzuteilen. Die Kugeln sind dabei die reellen Intervalle von der Gr¨oße der L¨ange des Gitterbasisvektors:
3. Generator- und PCH-Matrix
77
Da jede Zahl einem Intervall zugeordnet ist, betr¨agt die Packungsdichte 1. • R2 : Auch in der reellen Ebene entspricht die optimale Aufteilung der Vorstellung. Wir packen die Kreise m¨oglichst dicht zusammen: '$ '$ '$ '$ p
p
p
p
'$ '$ '$ '$ &% &% &% &% p p p p &% &% &% &%
Dabei gilt: Fl¨ache der Halbkugel mit Radius 12 Fl¨ache des gleichseitigen Dreiecks mit Kantenl¨ange 1 1 1 2 ( ) π π = 2 1 2√ = √ ≈ 0, 9069. 2 3 4 3
Packungsdichte =
• R3 : Mit der gleichen Idee wie im R1 und R2 werden die Kugeln im reellen Raum zu einer Apfelsinen-Gitter-Packung“ angeordnet. Die Packungsdichte ” π betr¨agt 3√ . 2 • R8 : Im R8 ist die maximale Packungsdichte 2−4 . Die angegebenen Packungsdichten sind jeweils maximal f¨ ur gitterartige Kugelpackun1 2 3 8 gen des R , R , R und R . Innerhalb der Fragestellung der maximalen Packungsdichten im Rn gibt es noch ungel¨oste Probleme: • Maximale Packungsdichte von gitterartigen Kugelpackungen im Rn f¨ ur n > 8. • Maximale Packungdichte f¨ ur beliebige Kugelpackungen im Rn f¨ ur n > 2. Dabei m¨ ussen die Kugeln den gleichen Radius haben. F¨ ur n = 3 nennt man dies das Problem von Kepler3.
3. Generator- und PCH-Matrix Da ein linearer Code ein Untervektorraum ist, kann man ihn durch eine Basis eindeutig charakterisieren. F¨ ur lineare Codes faßt man die Basisvektoren in einer Matrix zusammen. In der Kodierungstheorie betrachtet man u ¨blicherweise Zeilenvektoren: Def inition 7.17 (Generatormatrix). Sei C ⊆ Kn ein [n, k]-Code und g1 , . . . , gk ∈ Kn eine Basis von C. Dann heißt T g1 .. G := . ∈ Mk,n (K) gkT Generatormatrix (auch Basismatrix) zu C. 3Johannes Kepler, 1571-1630 war ein ber¨ uhmter Astronom und Mathematiker. Sein Hauptbesch¨ aftigungsgebiet waren die Planetenbewegungen.
78
7. Lineare Codes
Man kann einen [n, k]-Code C ⊆ Kn durch seine Generatormatrix angeben. Da jedes Codewort eine Linearkombination u ur ¨ber K der Basisvektoren von C ist, gilt f¨ die Generatormatrix von C n o n o C = GT u u ∈ Kk = (uT G)T u ∈ Kk . F¨ ur den Rn kennen wir den Begriff der Orthogonalit¨ at. Er besagt, dass zwei Vektoren n T x, y ∈ R senkrecht aufeinander stehen, wenn x y = 0: x ⊥ y ⇐⇒ xT y = xy T = 0. Wir k¨onnen diesen Begriff auf beliebige Vektorr¨aume u ¨bertragen, dabei verliert er jedoch die geometrische Bedeutung des senkrecht Aufeinanderstehens“: So sind im ” Fn2 alle Vektoren mit einer geraden Anzahl von Einsern orthogonal zu sich selbst. Wir definieren zu einem gegebenen Untervektorraum U ⊆ Kn den dazugeh¨origen Orthogonalraum als den Untervektorraum derjenigen Vektoren, die orthogonal zu allen Vektoren aus U stehen: Def inition 7.18 (Orthogonalraum). Sei U ⊆ Kn ein K-Vektorraum. Dann ist U ⊥ := v ∈ Kn uT v = 0 f¨ ur alle u ∈ U der Orthogonalraum zu U .
Zu linearen Codes nennen wir den Orthogonalraum dualen Code: Def inition 7.19 (Dualer Code). Sei C ⊆ Kn ein [n, k]-Code. Dann heißt C ⊥ := u ∈ Kn cT u = 0 f¨ ur alle c ∈ C der duale Code zu C.
Der duale Code ist zu einem [n, k]-Code C ist ein linearer Code der Dimension n − k, denn ist G Generatormatrix zu C, dann gilt: dim C ⊥ = dim L¨os(G, 0) = n − rang G = n − dim C = n − k. Satz 7.20. Sei C ⊆ Kn ein [n, k]-Code. Dann ist C ⊥ ein [n, n − k]-Code. Die Dimensionen eines linearen Codes und seines dualen Codes addieren sich zur Dimension des umgebenden Raumes auf: dim C + dim C ⊥ = k + n − k = n. F¨ ur beliebige K-Vektorr¨aume U ⊆ Kn gilt analog dim U + dim U ⊥ = n. Lemma 7.21. Sei C ⊆ Kn ein [n, k]-Code. Dann ist C = (C ⊥ )⊥ . Beweis. Sei C ⊆ Kn ein [n, k]-Code und H ∈ Mn−k,n (K) Generatormatrix von C ⊥ . Nach Konstruktion gilt C ⊆ (C ⊥ )⊥ , denn (C ⊥ )⊥ besteht aus allen Vektoren, die orthogonal zu C ⊥ sind. Die Vektoren aus C sind per Definition orthogonal zu C ⊥ . Weiterhin gilt f¨ ur die Dimension von (C ⊥ )⊥ mit Satz 7.20: dim(C ⊥ )⊥ = n − dim C ⊥ = n − (n − k) = k = dim C. Wegen C ⊆ (C ⊥ )⊥ und dim C = dim(C ⊥ )⊥ folgt mit Satz 3.20 und der Isomorphie endlich erzeugter Vektorr¨aume zu Kn die Behauptung.
3. Generator- und PCH-Matrix
79
Die Generatormatrix des dualen Codes erlaubt es uns, schnell zu u ufen, ob ein ¨berpr¨ empfangenes Wort g¨ ultig ist, d.h. ob ein Vektor ein Codewort ist: Satz 7.22. Sei C ⊆ Kn ein [n, k]-Code und H Generatormatrix zu C ⊥ . Dann gilt f¨ ur n c∈K : c ∈ C ⇐⇒ Hc = 0. Der Test, ob ein empfangenes Wort ein g¨ ultiges Codewort ist, wird damit besonders einfach. Man nennt eine Generatormatrix H von C ⊥ daher eine PCH-Matrix (P arity CH eck-Matrix, auch Kontrollmatrix, Pr¨ ufmatrix ) zu C. Beachte, dass man mit Hilfe der Kontrollmatrix und Satz 7.22 nur effizient entscheiden kann, ob ein empfanges Wort ein (g¨ ultiges) Codewort darstellt oder nicht. Wir zeichnen diejenigen Generatormatrizen und PCH-Matrizen aus, deren linker bzw. rechter Teil die Einheitsmatrix ist: Def inition 7.23 (Kanonische Generatormatrix, kanonische PCH-Matrix). Eine Generatormatrix der Form (Ik , B) mit B ∈ Mk,n−k (K) heißt kanonische Generatormatrix. Eine PCH-Matrix der Form (A, In−k ) mit A ∈ Mn−k,k (K) heißt kanonische PCH-Matrix. Wir zeigen, dass und wie man zu einem gegebenen linearen Code eine kanonische Generatormatrix erh¨alt. Voraussetzung ist, dass die ersten k Spalten der gegebenen Generatormatrix linear unabh¨angig sind. Satz 7.24. Sei C ⊆ Kn ein [n, k]-Code mit Generatormatrix G = (A, B) ∈ Mk,n (K), A ∈ Mk,k (K) und B ∈ Mk,n−k (K). Es gibt eine Generatormatrix G0 mit G0 = (Ik , B 0 ) genau dann, wenn rang A = k. Beweis. Nach Satz 3.24 ist A invertierbar und A−1 G = (Ik , A−1 B) ist Generatormatrix des linearen Codes C.
F¨ ur kanonische Generatormatrizen gilt, dass die ersten k Komponenten der Codeworte c = (c1 , . . . , cn ) ∈ Kn jeden Wert (c1 , . . . , ck ) ∈ Kk annehmen. Die ersten k Komponenten (c1 , . . . , ck ) sind Informationsstellen, die u ¨brigen Komponenten (ck+1 , . . . , cn ) sind Pr¨ ufstellen. Die eigentliche Information einer Nachricht m steht in den Informationsstellen. Die restlichen Pr¨ ufstellen sind redundant, sie dienen zur Fehlerkontrolle und Fehlerkorrektur. F¨ ur K = F2 sprechen wir von Informationsbits und Pr¨ ufbits. Die Kodierung einer Nachricht m ∈ Kk erfolgt durch die Abbildung m 7→ mT G. Gibt es zu jedem linearen Code eine kanonische Generatormatrix? Offensichtlich ¨ nicht; wir k¨onnen jedoch eine Aquivalenzrelation auf linearen Codes einf¨ uhren, so dass ¨ sich in jeder Aquivalenzklasse ein linearer Code mit kanonischer Generatormatrix findet. Zwei lineare Codes heißen ¨aquivalent, wenn man ihre PCH-Matrizen durch Permutationen der Spalten ineinander u uhren kann. ¨berf¨ ¨ Def inition 7.25 (Aquivalente Codes). Seien C, C 0 ⊆ Kn zwei [n, k]-Codes mit PCH0 Matrizen H, H ∈ Mn−k,n (K). Dann heißen C und C 0 ¨ aquivalent, wenn eine Permutationsmatrix P ∈ Mn,n (K) mit H 0 = HP existiert.
80
7. Lineare Codes
¨ Man u ist (siehe Definition 2.30 auf ¨berzeuge sich, dass dies eine Aquivalenzrelation Seite 28). Satz 7.26. Zu jedem linearen Code gibt es einen ¨ aquivalenten Code mit kanonischer Generatormatrix. Beweis. Sei C ⊆ Kn ein [n, k]-Code mit Generatormatrix G ∈ Mk,n (K). Wir gehen in zwei Schritten vor: (1) Multiplikation mit einer regul¨aren k × k Matrix T von links liefert eine neue Generatormatrix G0 = T G von C. (2) Multiplikation mit einer n × n Permutationsmatrix von rechts liefert die Generatormatrix G0 P eines ¨aquivalenten Codes. Also ist f¨ ur regul¨are Matrizen T ∈ Mk,k (K) und Permutationsmatrizen P ∈ Mn,n (K) die Matrix T GP stets Generatormatrix eines zu C ¨aquivalenten linearen Codes. Bleibt zu zeigen, dass es geeignete Matrizen T und P gibt so dass T GP = (Ik , B) ist. Dazu w¨ahlen wir P so, dass die ersten k Spalten von GP linear unabh¨angig sind. G hat genau k linear unabh¨angige Spalten, denn G ist eine Basis von C und es gilt daher k = dim C = rang G = Spaltenrang von G. Wir erhalten eine Matrix GP = (D, B) ∈ Mk,n (K) mit D ∈ Mk,k (K) und B ∈ Mk,n−k (K). Wegen rang D = k ist D regul¨ar. Wir multiplizieren von links mit der regul¨aren k × k Matrix D−1 und es gilt D−1 (D, B) = (Ik , B). ¨ Im Ubungsaufgabe 9.2 stellen wir einen Zusammenhang zwischen kanonischer Generatormatrix und kanonischer PCH-Matrix eines linearen Codes her. Dieser erlaubt es, Generatormatrix bzw. PCH-Matrix eines linearen Codes (und damit sowohl den linearen Code selbst als auch seinen dualen Code) durch eine einzige Matrix A anzugeben. Diese gen¨ ugt zur Bestimmung von G und H. Satz 7.27. Sei C ⊆ Kn ein [n, k]-Code und A ∈ Mk,n−k (K). Genau dann ist (Ik , A) eine Generatormatrix zu C, wenn (−AT , In−k ) PCH-Matrix zu C ist.
4. Hamming-Codes Wir lernen eine weitere Klasse bin¨arer linearer Codes kennen, die Hamming-Codes.4 Hamming-Codes sind 1-fehlerkorrigierend und gestatten eine einfache Dekodierung. r
Def inition 7.28 (Hamming-Code). Der bin¨ are Hamming-Code Cr ⊂ F22 −1 ist der Code zur PCH-Matrix Hr , deren Spalten aus den 2r − 1 Vektoren von Fr2 \ {0} besteht. Der Hamming-Code Cr ist also ein [2r − 1, 2r − r − 1]-Code. Charakteristisch f¨ ur bin¨are Hamming-Codes sind die paarweise verschiedenen Spaltenvektoren der Kontrollmatrix. Die Reihenfolge der Spalten von H ist willk¨ urlich, denn eine andere Anordnung erzeugt einen ¨aquivalenten Code mit gleichen Eigenschaften. F¨ ur r = 3 sieht 4R.W. Hamming, siehe Fußnote auf Seite 72
4. Hamming-Codes
81
die kanonische PCH-Matrix des Hamming-Codes 1 1 1 0 1 H3 = 1 1 0 1 0 1 0 1 1 0
C3 wie folgt aus: 0 0 1 0 . 0 1
Das Minimalgewicht eines Hamming-Codes Cr ist konstant: Satz 7.29. F¨ ur den Hamming-Code Cr gilt d(Cr ) = 3. Er ist 1-fehlerkorrigierend. Beweis. Offenbar gibt es ein Codewort c ∈ Cr mit w(c) = 3, so dass d(Cr ) ≤ 3. Es gen¨ ugt, d(Cr ) ≥ 3 zu zeigen: • Falls d(C) = 1,g¨abe es ein c ∈ C mit w(c) = 1. Wegen Hr c = 0 m¨ ußte eine Spalte in Hr gleich 0 sein. Widerspruch. • Falls d(C) = 2, g¨abe es ein c ∈ C mit w(c) = 2, d.h. zwei Komponenten von c w¨aren 1 und alle anderen 0. Wegen Hr c = 0 m¨ ußten zwei Spalten von Hr gleich sein. Widerspruch. Also ist d(C) = 3.5
Um ein empfangenes Hamming-Code-Wort c˜ zu dekodieren, berechne H c˜ und unterscheide zwei F¨alle: a) H c˜ = 0: Da nach Satz 7.22 ein g¨ ultiges Codewort empfangen wurde, sind entweder keine oder mindestens drei Fehler aufgetreten. Wir setzen c := c˜.6 b) H c˜ 6= 0: Es ist mindestens ein Fehler aufgetreten. Falls genau ein Fehler aufgetreten ist, gilt H c˜ = H(c + ei ) = 0 + hi , wobei hi ∈ M1,2r −1 (F2 ) die i-te Spalte von H ist. Da die Spalten von H paarweise verschieden sind, ist die Spalte eindeutig bestimmt und wir setzen c := c˜ − ei . Wir berechnen die Packungsdichte der einem (bin¨aren) Hamming-Code Cr entr r sprechenden gitterartigen Kugelpackung des F22 −1 . Der Hamming-Code Cr ⊂ F22 −1 r ist ein [2r − 1, 2r − r − 1]-Code. Aufgrund K = F2 gilt |C| = 22 −r−1 und wegen d(C) = 3 sind die Kugeln B1 (c) paarweise disjunkt. Da eine Kugel mit Radius 1 genau die Codew¨orter enth¨alt, die sich von ihrem Mittelpunkt c in genau einer Komponente unterscheiden, gilt |B1 (c)| = 1 + dim F22
r −1
= 2r .
Die Kugeln nehmen den gesamten Raum ein: P |B1 (c)| r |Cr |2r 22 −r−1 2r c∈Cr Packungsdichte = = = = 1. 22r −1 22r −1 22r −1 5Man kann den Satz auch aus Ubungsaufgabe ¨ 10.1 folgern: Die Spalten von Hr sind paarweise
verschieden und damit u angig, also d(Cr ) ≥ 2 + 1. Umgekehrt ist die Summe der ¨ber F2 linear unabh¨ ersten drei Spalten Null, so dass d(Cr ) < 3 + 1 gilt. 6Falls mehr zwei Ubertragungsfehler ¨ aufgetreten sind, ist diese Wahl falsch, wir k¨ onnen dies aber nicht erkennen.
82
7. Lineare Codes
Wir haben den folgenden Satz bewiesen, wonach der Hamming-Code Cr ⊂ F22 Beispiel eines 1-perfekten Codes ist:
r −1
das
Satz 7.30. Die Kugeln B1 (c) mit Hammingradius 1 um die Codeworte des Hammingr r Codes Cr ⊂ F22 −1 bilden eine Zerlegung von F22 −1 .
Kapitel 8
Direkte Summe
Zu einem Untervektorraum U des Rn betrachten wir das orthogonale Komplement U ⊥ aller auf U senkrecht stehenden Vektoren. Jeder Vektor w ∈ Rn kann eindeutig als Summe eines Vektors aus U und eines Vektors aus U ⊥ dargestellt werden. Diese Zerlegung formalisieren wir mit dem Begriff der direkten Summe.
1. Orthogonales Komplement Sei K ein K¨orper und U ⊆ Kn ein Untervektorraum. In Kapitel 7 haben wir den Orthogonalraum U ⊥ zu U definiert als ur alle u ∈ U ⊆ Kn . U ⊥ := v ∈ Kn uT v = 0 f¨
Sowohl U als auch der zugeh¨orige Orthogonalraum U ⊥ sind Untervektorr¨aume von Kn . Nach Satz 7.20 stehen die Dimensionen in folgender Relation: dim U + dim U ⊥ = n. F¨ ur den Fall K = R zeigen wir, dass im Durchschnitt U ∩ U ⊥ nur der Nullvektor liegt, man nennt daher U ⊥ ⊆ Rn das orthogonale Komplement zum Untervektorraum U ⊆ Rn . Der Orthogonalraum U ⊥ ist im Vektorraum Rn komplement¨ar im Sinne einer sogenannten direkten Summe o n U ⊕ U ⊥ = u + v u ∈ U, v ∈ U ⊥ = Rn bei der jeder Vektor w ∈ Rn als (eindeutig bestimmte) Summe w = u + v mit u ∈ U und v ∈ U ⊥ darstellbar ist: Satz 8.1. Sei U ⊆ Rn ein Untervektorraum von Rn . Dann gilt: a) U ∩ U ⊥ = {0}. b) Jeder Vektor w ∈ Rn ist eindeutig darstellbar als Summe w = u + v mit u ∈ U und v ∈ U ⊥ . 83
84
8. Direkte Summe
Beweis. Sei U ⊆ Rn ein Untervektorraum von Rn . Wir zeigen U ∩ U ⊥ = {0}. Sei v ∈ U ∩ U ⊥ . Wegen vi2 ≥ 0 folgt aus vT v =
n X
vi2 = 0,
i=1
dass vi = 0 f¨ ur alle i, also v der Nullvektor ist.1 Zu zeigen bleibt, dass die Darstellung w = u + v mit u ∈ U und v ∈ U ⊥ eindeutig ist. Sei b1 , . . . , bk eine Basis von U und bk+1 , . . . , bn eine Basis von U ⊥ . Wir zeigen, P dass die Vektoren b1 , . . . , bn eine Basis von Rn bilden. Seien λ1 , . . . , λn ∈ Rn mit ni=1 λi bi = 0. Dann gilt: k X
λ i bi = −
n X
i=1
i=k+1
| {z }
|
∈U
λ i bi
{z
∈U ⊥
}
Da der Vektor auf der linken Seite in U und der auf der rechten in U ⊥ ist, liegen beide Vektoren sowohl in U als auch in U ⊥ , also im Durchschnitt U ∩ U ⊥ . Wegen U ∩ U ⊥ = {0} sind beide Vektoren 0. Weil b1 , . . . , bk und bk+1 , . . . , bn Basen sind, folgt: λ 1 = · · · = λk = 0 λk+1 = · · · = λn = 0. Die n Vektoren b1 , . . . , bn ∈ Rn sind linear unabh¨angig und bilden nach Satz 3.20 eine Basis des Vektorraums Rn . Wir definieren zwei lineare Abbildungen, die einen Vektor w auf seine Anteile in U und dem orthogonalen Komplement U ⊥ abbilden (diese Abbildung heissen Projektionen): πU : n X i=1
πU⊥ :
Rn → U λi bi 7→
k X
n X
λ i bi
i=1
i=1
Rn → U ⊥ λi bi 7→
n X
λ i bi .
i=k+1
Offenbar gilt w = πU (w) + πU⊥ (w). Diese Zerlegung mit πU (w) ∈ U und πU⊥ (w) ∈ U ⊥ ist eindeutig, weil b1 , . . . , bn eine Basis von Rn ist. F¨ ur die beiden Projektionen π und π ⊥ , die wir im Beweis zu Satz 8.1 definiert haben, gilt π ◦ π = π und π ⊥ ◦ π ⊥ = π ⊥ . Dies ist charakteristisch f¨ ur Projektionen, die man f¨ ur beliebige, algebraische Strukturen (Gruppen, Ringe, Vektorr¨aume, usw.) bildet: Def inition 8.2 (Projektion). Eine Projektion π ist ein Endomorphismus mit π ◦ π = π. Die Funktion πU : V → U , die den Vektor aus dem Vektorraums V auf seinen Anteil im Untervektorraum U abbildet, nennt man orthogonale Projektion von V auf U . 1F¨ ur diesen Schluß setzen wir voraus, dass v1 , . . . , vn reelle Zahlen sind, f¨ ur endliche K¨ orper gilt dies im allgemeinen nicht.
2. Direkte Summe
85
2. Direkte Summe Nach Satz 8.1 gilt f¨ ur einen Untervektorraum U ⊆ Rn und den zugeh¨origen Orthogonalraum U ⊥ : U + U ⊥ = {u + v | u ∈ U, v ∈ U ⊥ } = Rn U ∩ U ⊥ = {0}. Dies ist ein Beispiel einer (inneren) direkten Summe Rn = U ⊕ U ⊥ : Def inition 8.3 (Innere direkte Summe). Seien U1 , . . . , Ut Untervektorr¨ aume desselben Vektorraums. Dann nennen wir ) ( n t t M X X Ui := Ui = ui ui ∈ Ui i=1 i=1 i=1 P innere direkte Summe, falls Ui ∩ ur j = 1, . . . , t. i6=j Uj = {0} f¨ P Seien U1 , . . . , Ut mit Ui ∩ aume. Die Dimension des i6=j Uj = {0} Untervektorr¨ Lt Vektorraums i=1 Ui ist die Summe dim
t M i=1
Ui =
t X
dim Ui
i=1
¨ der Dimension der einzelnen Untervektorr¨aume (Ubungsaufgabe 10.4). Analog, aber verschieden von der inneren direkten Summe ist die externe direkte Summe (auch direktes oder kartesisches Produkt): n
× Ui := {(u1 , u2 , . . . , un ) | ui ∈ Ui } .
i=1
F¨ ur die externe direkte Summe m¨ ussen U1 , . . . , Un nicht notwendigerweise Untervektorr¨aume desselben Vektorraums sein. Die Begriffe innere und externe direkte Summe erkl¨art man f¨ ur beliebige, algebraische Strukturen mit kommutativer Addition, wie zum Beispiel Abelsche Gruppen, Ringe, Ringe mit Eins, Vektorr¨aume usw. Im folgenden sei (Ai )i∈I eine Familie von Mitgliedern einer solchen algebraischen Struktur. Die Abbildung i 7→ Ai sei injektiv, I ⊆ N heißt Indexmenge. Es bezeichne 0i ∈ Ai das neutrale Element der Addition und (gegebenenfalls) 1i ∈ Ai das Einselement. Def inition 8.4 (Externe direkte Summe). Sei (Ai )i∈I eine Familie von Mitgliedern einer algebraischen Struktur mit kommutativer Addition. Dann nennen wir × Ai := {(ai )i∈I | ai ∈ Ai , ai = 0i bis auf endlich viele i ∈ I }
i∈I
externe direkte Summe. Die Operationen auf ×i∈I Ai werden komponentenweise erkl¨ art: (ai )i∈I (bi )i∈I := (ai bi )i∈I λ · (ai )i∈I := (λ · ai )i∈I .
∈ {+, −, ·, /, . . .}
86
8. Direkte Summe
Assoziativit¨at, Kommutativit¨at und (gegebenenfalls) Distributivit¨at der Operationen u ¨bertragen sich wegen der komponentenweise Definition der Operationen aus der Familie (Ai )i∈I der algebraischen Struktur. (0i )i∈I ist das Nullelement und (1i )i∈I das Einselement der externen direkten Summe ×i∈I Ai . Satz 8.5. F¨ ur eine Familie (Ai )i∈I von Gruppen, Ringe oder Vektorr¨ aumen hat die externe direkte Summe ×i∈I Ai die gleiche algebraische Struktur. Satz 8.5 gilt nicht f¨ ur K¨orper und Schiefk¨orper, denn ein Element (ai )i∈I ist genau dann invertierbar, wenn zu jedem ai das Inverse a−1 existiert. Es gibt aber (ai )i∈I i ungleich der Null, zu denen kein Inverses existiert. Zum Beispiel ist A := K × K f¨ ur einen K¨orper K kein K¨orper, da es zu (1, 0) 6= 0 kein Inverses in K × K gibt: Beispiel 8.6. Die externe direkte Summe Z2 × Z3 der beiden endlichen K¨orper Z2 und Z3 besteht aus den sechs Elementen: (0, 0), (1, 0), (0, 1), (1, 1), (0, 2), (1, 2). Die Addition und Multiplikation ist definiert als (a1 , a2 ) + (b1 , b2 ) := (a1 + a2 mod 2, b1 + b2 mod 3) (a1 , a2 ) · (b1 , b2 ) := (a1 · a2 mod 2, b1 · b2 mod 3). Zwar ist Z2 × Z3 wie Z2 und Z3 ein Ring, aber kein K¨orper.
F¨ ur den Vektorraum Rn mit Unterraum U und orthogonalem Komplement U ⊥ gilt: Rn = U ⊕ U ⊥ ' U × U ⊥ . Der Isomorphismus Ψ : U × U ⊥ → Rn ist gegeben durch (u, v) 7→ u + v. Die Umkehrabbildung ist Ψ−1 (x) = πU (x), πU⊥ (x) mit den beiden Projektionen πU und πU⊥ aus dem Beweis zu Satz 8.1. Wir charakterisieren die externe direkte Summe ×i∈I Ai ohne Bezug auf die Darstellung der Elemente (ai )i∈I zu nehmen. Die externe, direkte Summe ×i∈I Ai ist L isomorph zur inneren, direkten Summe ti=1 hi (Ai ) f¨ ur geeignete Monomorphismen (Injektionen) hi : Ai → A: Satz 8.7. Sei (Ai )i∈I eine Familie von Mitgliedern einer algebraischen Struktur mit einer kommutativen Addition. Es gilt A ' × Ai i∈I
genau dann, wenn es Monomorphismen (Injektionen) hi : Ai →PA f¨ ur jedes i ∈ I 2 gibt, derart, dass jedes a ∈ A eine eindeutige Zerlegung a = i∈I hi (ai ) hat mit ai ∈ Ai , so dass ai = 0i (d.h. hi (ai ) = 0A ) f¨ ur alle bis auf endlich viele i ∈ I. Beweis. Wir zeigen beide Richtungen: P 0 0 2Eindeutigkeit der Zerlegung heißt, dass aus P i∈I hi (ai ) = i∈I hi (ai ) folgt ai = ai .
2. Direkte Summe
87
⇒“ A ' ×i∈I Ai ⇒ die Zerlegungen aus Satz 8.7 existieren. L ” Wir definieren zu A := ti=1 hi (Ai ) Abbildungen hi : Ai → A gem¨aß x 7→ (aj )j∈I mit ( x falls i = j aj := 0 falls i 6= j. P Offenbar hat a := (aj )j∈I ∈ A die eindeutige Darstellung a = i∈I hi (ai ). Die Summe ist endlich, denn nach Definition der externen Summe gilt ai = 0i , d.h. hi (ai ) = 0A , f¨ ur alle bis auf endlich viele i ∈ I. Nach Voraussetzung existiert ein Isomorphismus Ψ : ×i∈I Ai → A. Wir setzen die Injektion hi fort zu Ψ ◦ hi : A i → A mit Ψ ◦ hi (ai ) = Ψ(h(ai )). Die Eindeutigkeit der Darstellung a = hi (ai ) mit ai ∈ Ai u ¨bertr¨agt sich beim Isomorphismus Ψ.
P
i∈I
Ψ◦
⇐“ Die Zerlegungen aus Satz 8.7 existieren ⇒ A ' ×i∈I Ai ” Seien hi : Ai → A Injektionen, so dass es eine eindeutige Zerlegung a = P i∈I hi (ai ) mit ai ∈ Ai gibt. Wir definieren einen Homomorphismus Ψ : ×i∈I Ai → A gem¨aß X Ψ ((ai )i∈I ) := hi (ai ). i∈I
Die Summe ist endlich, weil bis auf endlich viele i ∈ I gilt ai = 0i und hi (ai ) = 0A ∈ A. Die Abbildung Ψ ist surjektiv, denn nach Voraussetzung P existiert zu jedem a ∈ A eine Zerlegung a = i∈I hi (ai ). Aus der Eindeutigkeit der Zerlegung folgt, dass Ψ injektiv ist. Die Abbildung Ψ : ×i∈I Ai → A ist der gesuchte Isomorphismus. Dies war zu zeigen.
Beispiel 8.8. Wir wollen Satz 8.7 anhand eines Beispieles verdeutlichen: Betrachte Z2 × Z3 . Wir zeigen, dass Z6 ' Z2 × Z3 ist. Dazu definiere Monomorphismen • h1 : Z2 → Z6 mit h1 (x) := 3x mod 6 und • h2 : Z3 → Z6 mit h2 (x) := 4x mod 6. Es gilt: ( 1 mod 2 3≡ 0 mod 3
und
( 0 mod 2 4≡ 1 mod 3.
Zu a ∈ Z6 ist nachzuweisen, dass eine eindeutige Zerlegung als (a1 , a2 ) ∈ Z2 × Z3 mit a = h1 (a1 ) + h2 (a2 )
88
8. Direkte Summe
existiert. Setze a1 := a mod 2 und a2 := a mod 3. Aus der Tabelle a ∈ Z6 a1 ∈ Z2 h1 (a1 ) ∈ Z6 a2 ∈ Z3 h2 (a2 ) ∈ Z6 h1 (a1 ) + h2 (a2 ) ∈ Z6 0 0 3·0=0 0 4·0=0 0+0=0 1 1 3·1=3 1 4·1=4 3+4=1 2 0 3·0=0 2 4·2=2 0+2=2 3 1 3·1=3 0 4·0=0 3+0=3 4 0 3·0=0 1 4·1=4 0+4=4 5 1 3·1=3 2 4·2=2 3+2=5 folgt die Behauptung. Diese Konstruktion gilt allgemein f¨ ur das Produkt n von paarweise teilerfremden Zahlen q1 , q2 , . . . , qt : Zn ' Zq1 × Zq2 × · · · × Zqt . Diese Isomorphie heißt Chinesischer Restsatz und wird in den Vorlesungen u ¨ber Al” gebra“ und diskrete Mathematik“ vorgestellt. ” F¨ ur unendliche Familien (Ai )i∈I definiert man das direkte Produkt im Unterschied zur externen direkten Summe als Y Ai := {(ai | i ∈ I) | ai ∈ Ai } . i∈I
Es ist ×i∈I Ai ⊆
Q
i∈I
Ai , f¨ ur endliche Indexmengen I gilt die Gleichheit.
Kapitel 9
Volumina und Determinanten
Die Determinante einer quadratischen Matrix ist eine dieser Matrix zugeordnete Zahl. Diese Zuordnung, die Determinantenfunktion, hat charakteristische Eigenschaften, die wir in diesem Kapitel untersuchen. Neben dem Nachweis der Existenz und der Eindeutigkeit der Determinantenfunktion lernen wir Methoden zu ihrer Berechnung kennen.
1. Volumina Das Volumen von K¨orpern wie beispielsweise Quadern, W¨ urfeln oder Kugeln im 3dimensionalen Raum ist ein aus der Schule bekannter Begriff. Wir verallgemeinern den Begriff des Volumens vom R3 auf den Rn . Die resultierende Volumenfunktion hat nahezu die Eigenschaften der Determinantenfunktion und motiviert so deren Einf¨ uhrung. Def inition 9.1 (Euklidische L¨ange). Sei b = (b1 , . . . , bn ) ∈ Rn . Dann heißt v u n √ uX kbk := t b2i = bT b i=1
die (euklidische) L¨ ange1 von b. Wir betrachten dabei nur die positive L¨ osung der Wurzel. Volumina setzen die euklidische L¨ange als Norm voraus. Man sieht an dieser Stelle bereits, warum wir uns auf die reellen Zahlen beschr¨anken, denn f¨ ur endliche K¨orper hat die L¨ange keine geometrische Bedeutung. Im Rn dagegen gilt wegen b =: (b1 , . . . , bn )T ∈ Rn , dass b = 0 genau dann, wenn kbk = 0. 1Die euklidische L¨ ange ist ein Spezialfall der p-Norm mit p = 2. Wir untersuchen Normen
allgemein in Kapitel 11.
89
90
9. Volumina und Determinanten
Die Vorstellung, dass zwei Vektoren eine Fl¨ache aufspannen, drei Vektoren einen Quader, usw. erweitern wir auf den allgemeinen Fall. Dazu betrachten wir die Menge aller Linearkombinationen mit Skalaren aus dem reellen Intervall [0, 1]: Def inition 9.2 (Parallelepiped). Seien b1 , . . . , bn ∈ Rn . Dann nennen wir ( n ) X P (b1 , . . . , bn ) := ti bi t1 , . . . , tn ∈ R mit 0 ≤ t1 , . . . , tn ≤ 1 i=1
das von b1 , . . . , bn aufgespannte Parallelepiped (auch Parallelotop, Parallelflach). Beispiel 9.3. Das Parallelepiped eines Vektors b1 ∈ Rn besteht aus allen Punkten auf dem Geradenst¨ uck vom Nullpunkt zu b1 : 1 b1 0
Das Parallepiped zweier Vektoren b1 , b2 ∈ Rn besteht aus dem von den beiden Vektoren aufgespannten Fl¨achenst¨ uck:
b2
b1
-
Stehen die Vektoren senkrecht aufeinander, ist das Volumen von P (b1 , . . . , bn ) Q gleich dem Produkt der Seitenl¨ angen ni=1 kbi k. Im allgemeinen Fall ordnen wir einer Folge von Vektoren b1 , . . . , bn ∈ Rn die Orthogonalvektoren (H¨ohen) b∗1 , . . . , b∗n ∈ Rn wie folgt zu: Def inition 9.4 (Orthogonalvektoren). Seien b1 , . . . , bn ∈ Rn . Dann setzen wir Ui = span(b1 , . . . , bi−1 ) und ordnen b1 , . . . , bn die Orthogonalvektoren b∗1 , . . . , b∗n ∈ Rn zu mit bi = (bi − b∗i ) + b∗i ∈ Ui ⊕ Ui⊥ . Die Zerlegung der bi ist gem¨aß Satz 8.1 eindeutig. Es gilt: bi − b∗i ∈ span(b1 , . . . , bi−1 )
und b∗i ∈ span(b1 , . . . , bi−1 )⊥ .
F¨ ur i < j gilt per Definition bTi b∗j = 0, also bi ⊥ b∗j und es ist span(b1 , . . . , bi ) = span(b∗1 , . . . , b∗i ). Ein Orthogonalvektor b∗i steht damit senkrecht zu allen vorherigen Vektoren b1 , . . . , bi−1 und der von den Orthogonalvektoren aufgespannte Raum ist der gleiche wie der von den urspr¨ unglichen Vektoren b1 , . . . , bn aufgespannte Raum. Man beachte, dass sich die Parallelepipede P (b1 , . . . , bn ) und P (b∗1 , . . . , b∗n ) unterscheiden, das Volumen der Parallelepipede jedoch gleich bleibt.
1. Volumina
91
Beispiel 9.5. Wir verdeutlichen uns die Situation f¨ ur zwei Vektoren b1 , b2 ∈ Rn anhand einer Zeichnung: 6
b∗2
b2
-
b1 = b∗1
Hier wird deutlich, warum nicht nur die linearen H¨ ullen der Vektoren und ihrer Or¨ thogonalvektoren gleich sind, sondern auch, warum sich das Volumen beim Ubergang zu den Orthogonalvektoren nicht ¨ andert. Def inition 9.6 (Volumen). Seien b1 , . . . , bn ∈ Rn und b∗i , . . . , b∗n ∈ Rn die zugeh¨ origen Orthogonalvektoren. Dann heißt n Y vol P (b1 , . . . , bn ) = kb∗i k i=1
das Volumen von P (b1 , . . . , bn ). Wir kommen zu den Eigenschaften des Volumens, die im Wesentlichen auch die der Determinantenfunktion sein werden: Lemma 9.7 (Eigenschaften des Volumens). Seien b1 , . . . , bn ∈ Rn , λ ∈ R und i 6= j. Dann gilt: (V1) vol P (b1 , . . . , bi + λbj , . . . , bn ) = vol P (b1 , . . . , bi , . . . , bn ). (V2) vol P (b1 , . . . , λbi , . . . , bn ) = |λ| · vol P (b1 , . . . , bi , . . . , bn ). (V3) {b1 , . . . , bn } linear abh¨ angig
=⇒
vol P (b1 , . . . , bn ) = 0.
(V4) P (b1 , . . . , bn ) = P (bσ(1) , . . . , bσ(n) ) f¨ ur alle Permutationen σ ∈ Sn . Beweis. Seien b1 , . . . , bn ∈ Rn , λ ∈ R und i 6= j. (V1) O.B.d.A. sei j < i (denn wegen (V4) ¨andert sich das Volumen f¨ ur j > i nicht). Dann gilt b∗i = (bi + λbj )∗ ∈ span(b1 , . . . , bi−1 )⊥ Mit anderen Worten: Der Orthogonalvektor b∗i steht senkrecht zu allen vorherigen Vektoren b1 , . . . , bi−1 und deswegen auch zu allen Linearkombinationen dieser Vektoren. Somit bleibt das Volumen gleich, wenn man das skalare Vielfache eines Vektors zu einem anderen Vektor addiert. (V2) Es gilt (λbi )∗ = λ(b∗i ). In der Produktbildung in Definition 9.6 k¨onnen wir den Skalar im Betrag herausziehen: kλb∗i k = |λ| · kb∗i k. (V3) O.B.d.A. sei {b1 , . . . , bi−1 } linear unabh¨angig und {b1 , . . . , bi } linear abh¨angig (denn mit (V4) k¨onnen die Vektoren vertauscht werden). Dann l¨aßt sich bi als Linearkombination von b1 , . . . , bi−1 darstellen und der orthogonale Anteil von bi ist 0, also b∗i = 0 und die Behauptung folgt. Die letzte Aussage gilt trivialerweise.
92
9. Volumina und Determinanten
2. Determinanten Die geometrische Anschauung des Volumens setzt reelle Vektorr¨aume voraus. F¨ ur beliebige K¨orper K verallgemeinert man die Volumenfunktion zur vorzeichenbehafteten Determinantenfunktion. Wir identifizieren Kn×n ∼ = Mn,n (K) und definieren die Determinantenfunktion axiomatisch durch ihre Eigenschaften: Def inition 9.8 (Determinantenfunktion). Eine Abbildung z1 .. det : Mn,n (K) → K, M = . 7→ det M zn heißt Determinantenfunktion, wenn f¨ ur λ ∈ R und i 6= j gilt: z1 z1 .. .. . . (D1) det zi + λzj = det zi .. .. . . zn zn z1 z1 .. .. . . (D2) det λzi = λ det zi .. .. . . zn zn (D3) det In = 1 Wir zeigen in Satz 9.12, dass die Determinantenfunktion durch (D1) – (D3) eindeutig charakterisiert ist. Um die Analogie zu den Eigenschaften der Volumenfunktion zu verdeutlichen, leiten wir weitere Eigenschaften, aus (D1)–(D3) her. W¨ahrend die Beziehung zwischen (V1) und (D1) bzw. (V2) und (D2) unmittelbar ersichtlich ist — der einzige Unterschied findet sich im Fehlen des Betrags des Skalars — trifft dies f¨ ur (V3) und (D3) nicht zu. Wir zeigen daher die folgende Erg¨anzung zu (D3): Lemma 9.9. Sei A ∈ Mn,n (K). Dann gilt: (D3’) Aus rang A < n folgt det A = 0. Beweis. Seien z1 , . . . , zn ∈ M P1,n (K) die Zeilenvektoren von A ∈ Mn,n (K) mit rang A < n. O.B.d.A. sei z1 = ni=2 λi zi . Dann gilt: Pn 0 0 i=2 λi zi z z z 2 (D1) 2 (D2) 2 det A = det = det .. = 0 · det .. = 0. .. . . . zn
Es folgt die Behauptung.
zn
zn
2. Determinanten
93
Wir kommen zum Analogon von (V4), der Schiefsymmetrie. Die Determinante wechselt beim Vertauschen zweier Zeilen das Vorzeichen. Lemma 9.10. Seien z1 , . . . , zn ∈ M1,n (K) Zeilenvektoren einer quadratischen Matrix. Dann gilt f¨ ur i 6= j: z1 z1 .. .. . . zi zj .. (D4) det . = − det ... . zj zi .. .. . . zn zn Beweis. Es gilt: .. .. .. .. .. . . . . . zi zi −zj −zj zj (D1) .. .. (D1) .. (D1) .. (D2) det . = det . = det . = det . = − det ... . zj zj + zi zj + zi zi zi .. .. .. .. .. . . . . . Dies war zu zeigen.
Die Determinantenfunktion ist nicht nur im Sinne von (D2) linear, sondern sie ist auch in jeder Zeile linear: Lemma 9.11. Seien z1 , . . . , zn ∈ M1,n (K) Zeilenvektoren einer Matrix. Dann gilt z1 z1 z1 .. .. .. . . . 0 0 (D5) det zi + zi = det zi + det zi .. .. .. . . . zn zn zn Eine Funktion die (D2) und (D5) erf¨ ullt heißt multilinear. Beweis. Seien z1 , . . . , zn ∈ M1,n (K) Zeilenvektoren einer Matrix und z1 z1 .. .. . . 0 0 Z := Z := zi zi . .. .. . . zn zn
94
9. Volumina und Determinanten
Falls rang Z < n und rang Z 0 < n gilt, ist auch z1 .. . 0 rang zi + z i < n .. . zn und alle in Lemma 9.11 auftretenden Determinanten sind 0. Sei im weiteren rang Z = n oder rang Z 0 = n. Wir k¨onnen o.B.d.A. rang Z = n annehmen. Dann ist {z1 , . . . , zi , . . . , zn } eine Basis des Kn und zi0 l¨aßt sich darstellen als zi0 =
n P
λi zi . Es folgt:
i=1
z1 z1 z1 z1 z1 .. .. .. .. .. . . . . . 0 (D1) (D2) 0 detzi + zi = detzi + λi zi = (1 + λi ) det zi = det zi + det zi . .. .. .. .. .. . . . . . zn zn zn zn zn
Wir vergewissern uns, dass (D1) – (D3) die Determinantenfunktion eindeutig charakterisieren: Satz 9.12 (Eindeutigkeit der Determinantenfunktion). Es gibt h¨ ochstens eine Determinantenfunktion. Beweis. Seien det, det0 : Mn,n (K) → K Determinantenfunktionen. Wir zeigen, dass beide Abbildungen identisch sind, d.h. f¨ ur alle A ∈ Mn,n (K) gilt det A = det0 A. F¨ ur 0 rang A < n gilt mit (D3’) det A = det A = 0. Sei also rang A = n. Da A vollen Rang hat, ben¨otigt der Gauß-Algorithmus keine Spaltenvertauschungen, kommt also nur mit Zeilenvertauschungen aus; denn w¨ urde bei der Transformation von A eine Spalte mit ar,r = ar+1,r = . . . = an,r = 0 auftreten (und nur dann ist eine Spaltenvertauschung notwendig), w¨are rang A < n. Aus der transformierten Matrix A0 des Gauß-Verfahrens erhalten wir durch weitere elementare Zeilentransformationen eine Diagonalmatrix A00 : 0 0 a11 ∗ · · · ∗ a11 0 · · · 0 .. .. 0 ... ... elementare 0 ... ... . . Gauß0 00 −−−−−−−→ A = A −−−−−−−→ A = . . .. .. .. .. Algorithmus .. .. . . . . ∗ Zeilentransf. 0 0 · · · 0 a0nn 0 · · · 0 a0nn Da diese Transformationen den Rang unver¨andert lassen, gilt rang A00 = n. Wir betrachten die Auswirkungen auf die Determinante von A, wobei s ∈ N die Anzahl der
3. Permutationen und Leibniz’sche Determinantenformel
95
Zeilenvertauschungen im Gauß-Verfahren sei. Es gilt det A
(D1),(D4)
=
(−1)s det A0
(D1)
(−1)s det A00
(D2)
(−1)s a11 · · · ann det In
(D3)
(−1)s a11 · · · ann ,
= =
=
sowie det0 A
(D1),(D4)
=
(−1)s det0 A0
(D1)
(−1)s det0 A00
(D2)
(−1)s a11 · · · ann det0 In
(D3)
(−1)s a11 · · · ann .
= = =
Wir erhalten det A = det0 A.
Aus der Leibniz’sche Determinantenformel, die wir in Satz 9.25 auf Seite 97 beweisen, folgt, dass die Determinantenfunktion auch existiert. Da die Determinantenfunktion jeder quadratischen Matrix A genau einen Wert det A zuordnen, sprechen wir von der Determinante der Matrix A. Mit dem Wissen der Existenz lassen sich weitere Aussagen aus dem Beweis von Satz 9.12 ableiten: Korollar 9.13 (Determinante einer Diagonalmatrix). Sei D ∈ Mn,n (K) eine Diagonalmatrix mit Diagonalelementen d11 , . . . , dnn . Dann gilt: n Y det D = dii = d11 · · · dnn . i=1
Ferner erhalten wir folgendes Invertierbarkeitskriterium f¨ ur Matrizen: Korollar 9.14. F¨ ur quadratische Matrizen A ∈ Mn,n (K) sind die folgenden Aussagen ¨ aquivalent: a) A ∈ GLn (K), d.h. A ist invertierbar. b) rang A = n. c) det A 6= 0. Wir k¨onnen die Determinante effizient berechnen: Korollar 9.15. Mit dem Gauß-Algorithmus l¨ aßt sich die Determinante einer n × n Matrix in O(n3 ) Schritten berechnen.
3. Permutationen und Leibniz’sche Determinantenformel Um die Existenz der Determinantenfunktion zu zeigen, befassen wir uns mit Permutationen und ihren Eigenschaften. Eine Permutation ist eine bijektive Abbildung einer Menge in sich. Da die Benennung der Mengenelemente hier keine Rolle spielt,
96
9. Volumina und Determinanten
betrachten wir O.B.d.A. Abbildungen der Menge {1, 2, . . . , n} ⊂ N in sich. Die Menge aller Permutationen auf {1, . . . , n} bezeichnet man mit Sn . Die M¨achtigkeit von Sn , d.h. die Anzahl der Permutationen, ist n! = n · (n − 1) · · · 2 · 1 (Fakult¨at von n). Zusammen mit der Hintereinanderausf¨ uhrung (Konkatenation) als Operation ist Sn eine Gruppe: Def inition 9.16 (Symmetrische Gruppe Sn ). F¨ ur X = {1, . . . , n} heißt Sn := {σ ∈ Abb(X, X) | σ bijektiv } die symmetrische Gruppe Sn . Die Konkatenation von Permutationen bezeichnet man als Produkt von Permutationen. Wir kennzeichnen besonders einfache Arten von Permutationen: Def inition 9.17 (Transposition, Nachbartransposition). Eine Permutation, die nur zwei Elemente vertauscht, heißt Transposition. Eine Transposition, die zwei aufeinanderfolgende Elemente i und i + 1 vertauscht, heißt Nachbartransposition. Man bezeichnet f¨ ur i 6= j die Transposition, welche i und j vertauscht, mit (i, j). Eine Nachbartransposition ist entsprechend eine Transposition der Form (i, i + 1). Offenbar ist jede Permutation als Produkt von Transpositionen darstellbar. Da sich jede Transposition als Produkt von Nachbartranspositionen darstellen l¨aßt (man tauscht das kleinere“ Element solange nach oben“, bis es an seinem Platz angekom” ” men ist), gilt: Satz 9.18. Jede Permutation l¨ aßt sich als Produkt von Nachbartranspositionen darstellen. Def inition 9.19 (Fehlstand). Sei σ ∈ Sn und i, j ∈ {1, . . . , n}. Dann heißt ein Paar (i, j) mit i<j
und
σ(i) > σ(j)
ein Fehlstand von σ. Die Anzahl der Fehlst¨ ande von σ bezeichnen wir mit f (σ) := |{(i, j) | i < j und σ(i) > σ(j) }| . F¨ ur die Anzahl der Fehlst¨ande von Transpositionen und Nachbartranspositionen gilt: Lemma 9.20. Sei σ = (i, j) ∈ Sn eine Transposition mit i < j und τ ∈ Sn eine Nachbartransposition. Dann gilt: a) f (σ) = 2(j − i − 1) + 1. b) f (τ σ) = f (σ) ± 1. Beweis. Sei σ = (i, j) ∈ Sn Transposition mit i < j und τ ∈ Sn Nachbartransposition. Die Fehlst¨ande von σ sind • (i, x) mit i < x < j • (y, j) mit i < y < j • (i, j).
3. Permutationen und Leibniz’sche Determinantenformel
97
Damit ergeben sich insgesamt j − i − 1 + j − i − 1 + 1 = 2(j − i − 1) + 1 Fehlst¨ande. ¨ Die zweite Behauptung wird in Ubungsaufgabe 12.4 gezeigt. Mit den beiden Aussagen aus Lemma 9.20 charakterisieren wir eine Klasse von Transpositionen: Korollar 9.21. Sei σ ∈ Sn . Dann sind folgende Aussagen ¨ aquivalent: a) f (σ) ist gerade. b) Sind τ1 , . . . , τn Nachbartranspositionen mit σ = τ1 · · · τn , so ist n gerade. c) σ ist Produkt einer geraden Anzahl von Nachbartranspositionen. Korollar 9.21 l¨aßt sich auch f¨ ur ungerade Anzahlen von Fehlst¨anden formulieren. Wir nennen eine Permutation gerade bzw. ungerade, wenn die Anzahl ihrer Fehlst¨ande gerade bzw. ungerade ist und ordnen ihr ein entsprechendes Vorzeichen (Signum) zu: Def inition 9.22 (Signum). Sei σ ∈ Sn eine Permutation. Dann heißt sig(σ) := (−1)f (σ) ∈ {−1, +1} das Signum von σ. Wir nennen σ gerade, falls f (σ) gerade ist und ungerade, falls f (σ) ungerade ist. Die geraden Permutationen bilden eine Untergruppe von Sn , die sogenannte alternierende Gruppe: Def inition 9.23 (Alternierende Gruppe). Wir nennen An := {σ ∈ Sn | σ gerade} = sig−1 (+1) die alternierende Gruppe. Weil die Abbildung ψ : An → Sn \ An , τ 7→ στ bijektiv ist, folgt: Lemma 9.24. Sei σ ∈ Sn \ An . Dann gilt Sn = An ∪ σAn = An ∪ {στ | τ ∈ An } , und es ist |An | = 21 n!. Eine Formel zur Berechnung der Determinante wurde bereits 1690 von Leibniz2 entwickelt. Ihre Bedeutung liegt jedoch nicht in der Berechnung konkreter Determinanten, sondern in ihrer Rolle in Beweisen. Satz 9.25 (Leibniz’sche Determinantenformel). Sei A = (aij ) ∈ Mn,n (K). Dann gilt X det A = sig(σ)a1,σ(1) · · · an,σ(n) . σ∈Sn
2Gottfried Wilhelm Leibniz, 1646-1716. Bedeutender Naturwissenschaftler und Philosoph. Mitbegr¨ under der Infinitesimalrechnung.
98
9. Volumina und Determinanten
Insbesondere folgt aus Satz 9.25 die Existenz der Determinantenfunktion. F¨ ur n = 2 liefert die Leibniz’sche Determinantenformel: a b det = ad(−1)0 + bc(−1)+1 = ad − bc. c d Die folgende Regel f¨ ur n = 3 ist auch als Sarrus’sche Regel 3 bekannt: a11 a12 a13 a11 a22 a33 + a12 a23 a31 + a13 a21 a32 det a21 a22 a23 = −a13 a22 a31 − a23 a32 a11 − a33 a12 a21 . a31 a32 a33 Man erh¨alt sie aus den 3! = 6 in der Leibniz-Formel auftretenden Permutationen. Eine Merkregel daf¨ ur lautet Hauptdiagonalen (&) minus Nebendiagonalen (.)“: ” a11 a12 a13 a11 a12 a11 a12 a13 a11 a12 a21 a22 a23 a21 a22 a21 a22 a23 a21 a22 a31 a32 a33 a31 a32 a31 a32 a33 a31 a32 | {z } |{z} | {z } a11 a22 a33 +a12 a23 a31 +a13 a21 a32
−
(a13 a22 a31 +a23 a32 a11 +a33 a12 a21 )
F¨ ur Dreiecksmatrizen erhalten wir die aus Korollar 9.13 auf Seite 95 bekannte Formel a11 ∗ · · · ∗ .. Y n 0 ... ... . = det aii , .. .. .. . . . ∗ i=1 0 · · · 0 ann denn f¨ ur alle Permutationen σ ∈ Sn außer der Identit¨at gibt es ein i mit σ(i) < i und somit ai,σ(i) = 0. Beweis. Wir beweisen die Leibniz’sche Determinantenformel, Satz 9.25, durch Nachweis der Eigenschaften (D1)–(D3) f¨ ur X det : Mn,n (K) → K, A 7→ sig(σ)a1,σ(1) · · · an,σ(n) . σ∈Sn
Sei A ∈ Mn,n (K) Matrix mit Zeilenvektoren z1 , . . . , zn ∈ M1,n (K). (D1) Wir zeigen zuerst, dass det“ in jeder Zeile linear ist: ” z1 z1 z1 .. .. .. . . . det zi + λzj = det zi + λ det zj .. .. .. . . . zn zn zn Dies folgt, da f¨ ur jede Permutation σ ∈ Sn gilt: a1,σ(1) · · · (aj,σ(j) + λaj,σ(j) ) · · · an,σ(n) = a1,σ(1) · · · aj,σ(j) · · · an,σ(n) + a1,σ(1) · · · λaj,σ(i) · · · an,σ(n) . 3Pierre-Fre ´ de ´ric Sarrus, 1798–1858.
4. Eigenschaften
99
Bleibt zu zeigen, dass det A0 = 0 f¨ ur z1 .. . zj 0 A = ... ∈ Mn,n (K). zj .. . zn Die Matrix A0 enth¨alt die Zeile zj zweimal, n¨amlich in der i-ten und in der j-ten Zeile. Sei τ = (i, j) ∈ Sn diejenige Transposition, welche i und j vertauscht. O.B.d.A. gelte i < j. Laut Lemma 9.24 stellt Sn = An ∪ An τ eine Zerlegung (Partition) von Sn dar. Jede Permutation σ ∈ Sn ist entweder gerade (σ ∈ An ) oder von der Form σ 0 τ mit σ = σ 0 τ , σ 0 ∈ An . Damit gilt: X det A0 = sig(σ)a01,σ(1) · · · a0n,σ(n) σ∈Sn
=
X
sig(σ)a01,σ(1) · · · a0n,σ(n) +
sig(στ )a01,στ (1) · · · a0n,στ (n) .
σ∈An
σ∈An
Mit sig σ = 1 und
X
sig σ 0 τ
= −1 folgt:
det A0 X X a01,σ(1) · · · a0n,σ(n) − a01,στ (1) · · · a0i,στ (i) · · · a0j,στ (j) · · · a0n,στ (n) = σ∈An
σ∈An
=
X
a01,σ(1) · · · a0n,σ(n) −
σ∈An
X
a01,σ(1) · · · a0i,σ(j) · · · a0j,σ(i) · · · a0n,σ(n)
σ∈An
= 0. Die Leibniz’sche Determinantenformel ist linear in jeder Zeile. (D2) Mit gleichem Argument wie in (D1) (Linearit¨at in jeder Zeile) folgt auch (D2). (D3) F¨ ur die Einheitsmatrix gilt, dass es zu jeder Permutation σ ∈ Sn außer der Identit¨at ein i gibt mit σ(i) 6= i und damit ai,σ(i) = 0. Also ist det In = a11 · · · ann = 1. Aus Satz 9.12 u ¨ber die Eindeutigkeit der Determinantenfunktion folgt die Behauptung.
4. Eigenschaften Wir besch¨aftigen uns mit weiteren Eigenschaften der Determinantenfunktion. Zuerst zeigen wir, dass alle bisherigen Aussagen auch f¨ ur die Spalten einer Matrix gelten: Satz 9.26. Es gilt det A = det AT .
100
9. Volumina und Determinanten
Beweis. Sei A ∈ Mn,n (K), σ ∈ Sn . Da Permutationen bijektiv sind, gilt in der Leibnizformel aus Satz 9.25 auf Seite 97: a1,σ(1) · · · an,σ(n) = aσ−1 (1),1 · · · aσ−1 (n),n . F¨ ur das Vorzeichen gilt sig(σ) = sig(σ −1 ). Aus X X det A = aσ−1 (1),1 · · · aσ−1 (n),n sig(σ −1 ) = aσ(1),1 · · · aσ(n),n sig(σ) = det AT σ −1 ∈Sn
σ∈Sn
folgt die Behauptung.
Korollar 9.27. Die Eigenschaften (D1)-(D5) der Determinantenfunktion gelten analog f¨ ur die Spalten einer Matrix. Die Streichungsmatrix Matrix a11 · · · a1j .. .. . . a · · · a A0ij := ij i1 .. .. . . an1 · · · anj
A0ij ∈ Mn−1,n−1 (K) zu A = (aij ) ∈ Mn,n (K) ist erk¨art als die ··· ··· ···
a1,1 a1n .. .. . . ai−1,1 ain = .. ai+1,1 . . .. ann an,1
··· ··· ···
a1,j−1 .. .
a1,j+1 .. .
···
ai−1,j−1 ai−1,j+1 · · · ai+1,j−1 ai+1,j+1 · · · .. .. . .
···
an,j−1
an,j+1
···
ann .. . ai−1,n , ai+1,n .. . an,n
die durch Streichen der i-ten Zeile und j-ten Spalte in A entsteht. Durch Umstellung der Leibniz’schen Determinantenformel erh¨alt man den Satz von Laplace4: Satz 9.28 (Entwicklungssatz von Laplace). Sei A = (aij ) ∈ Mn,n (K). Dann gilt: a) Entwicklung nach der i-ten Zeile: det A =
n P
(−1)i+j aij det A0ij .
j=1 n P
b) Entwicklung nach der j-ten Spalte: det A =
i=1
(−1)i+j aij det A0ij .
Der Entwicklungssatz reduziert den Rechenaufwand nicht notwendigerweise, denn es treten n Determinanten der Gr¨oße n − 1 auf; berechnet man diese mit der Leibniz’schen Determinantenformel, so ergeben sich die n(n − 1)! = n! Permutationen der Leibnizformel f¨ ur die urspr¨ ungliche Matrix. Durch eine geschickte Wahl der Zeile bzw. Spalte, nach der man entwickelt, kann man die Determinante effizienter berechnen (man w¨ahle beispielsweise Zeilen oder Spalten mit vielen Nullen). Sei K ein K¨orper und a1 , . . . , an ∈ K. In einem Induktionsbeweis zeigt man mit Hilfe geschickter Zeilenoperationen und des Entwicklungssatzes von Laplace f¨ ur die 4Pierre Simon Laplace, 1749–1827, war ein bedeutender franz¨ osischer Mathematiker und Na-
turforscher. Er verfaßte wichtige Arbeiten auf den Gebieten der Wahrscheinlichkeitsrechnung, wo er die sogenannte Laplace-Transformation einf¨ uhrte, und der Astronomie. In seinem Hauptwerk, der f¨ unfb¨ andigen M´ecanique c´eleste“ ( Himmelsmechanik“), finden sich Untersuchungen zu Kugelfunk” ” tionen, konfokalen Fl¨ achen zweiter Ordnung, der sogenannten Laplace-Gleichung, zur Potentialtheorie und zu partiellen Differentialgleichungen. Durch seinen politischen Opportunismus brachte er es bis zum Marquis und Pair von Frankreich.
4. Eigenschaften
101
¨ Vandermonde-Matrix (Ubungsaufgabe 11.1): 1 1 ··· a1 a2 det Vn (a1 , . . . , an ) = det .. .. . . n−1 an−1 a ··· 1 2
1 an .. . ann−1
Y (ai − aj ) . = i>j
Vergleiche das Resultat mit Korollar 4.31 auf Seite 56. Def inition 9.29 (Minor). nennen wir a1,1 .. . ai−1,1 Aij := 0 ai+1,1 .. .
Zu einer quadratischen Matrix A = (aij ) ∈ Mn,n (K)
an,1
··· ··· ··· ··· ···
a1,j−1 .. .
0 .. .
···
a1,j+1 .. .
··· ··· ···
ai−1,j−1 0 ai−1,j+1 0 1 0 ai+1,j−1 0 ai+1,j+1 .. .. .. . . . an,j−1 0 an,j+1
···
a1,n .. . ai−1,n 0 ai+1,n .. . an,n
Minor von A. Def inition 9.30 (Adjunkte). Zu einer quadratischen Matrix A = (aij ) ∈ Mn,n (K) nennen wir det A11 · · · det An,1 .. .. T adj(A) := = (det Aji ) = (det Aij ) . . det A1,n · · ·
det An,n
die Adjunkte (auch komplement¨ are Matrix) von A. Lemma 9.31. Sei A ∈ Mn,n (K). Dann gilt: a) A · adj(A) = det(A) · In . b) Falls A regul¨ ar, dann A−1 =
adj(A) det A .
Beweis. Sei A ∈ Mn,n (K). F¨ ur die Komponenten von A · adj(A) gilt mit dem Entwicklungssatz von Laplace 9.28: X n A · adj(A) = aik det Ajk =
k=1 n X k=1
=
X n k=1
1≤i,j≤n
aik
X n
j+`
(−1)
·0·
det A0j`
j+k
+ (−1)
`=1,`6=k
aik (−1)j+k det A0jk
·1·
det A0jk
! 1≤i,j≤n
(16) 1≤i,j≤n
F¨ ur den Eintrag (i, j) der Matrix A · adj(A) gilt: ( det A falls i = j A · adj(A) i,j = 0 falls i 6= j
102
9. Volumina und Determinanten
Der erste Fall folgt aus Satz 9.28, denn f¨ ur i = j ist Gleichung (16) gerade die Entwicklung nach der i-ten Zeile. F¨ ur den zweiten Fall sei a1,1 · · · a1,n .. .. . . ai,1 ··· ai,n .. .. . . A¯ := aj−1,1 · · · aj−1,n ∈ Mn,n (K) ai,1 ··· ai,n aj+1,1 · · · aj+1,n .. .. . . an,1 · · · an,n die Matrix, welche aus A entsteht, wird die j-te Zeile durch die i-te Zeile ersetzt. Entwicklung nach der j-ten Zeile liefert det A¯ =
n X
(−1)j+k aik det A0jk = 0,
k=1
denn A¯ hat zwei gleiche Zeilen (und damit ist rang A¯ < n). Die zweite Aussage folgt mit Division durch det A direkt aus der ersten. Aus Lemma 9.31 folgt, dass man f¨ ur regul¨are Matrizen die L¨osung der dazugeh¨origen linearen Gleichunggsysteme angeben kann, wenn die Determinante und die Adjunkte der Matrix bekannt sind: Korollar 9.32 (Cramer’sche Regel). Sei A ∈ Mn,n (K) invertierbar und b ∈ Kn . Dann gilt f¨ ur die L¨ osung von Ax = b: x=
adj(A) ·b det A
n
xj =
1 X det Aij bi . det A i=1
F¨ ur die Berechnung dieser L¨osung auf Computern sind Absch¨atzungen der Gr¨oßen der auftretenden Zahlen von Bedeutung. Eine solche Absch¨atzung f¨ ur x lautet: Korollar 9.33. Sei A = (aij ) ∈ Mn,n (K) invertierbar und b ∈ Kn sowie |aij | , |bi | ≤ B f¨ ur 1 ≤ i, j ≤ n. Dann gilt f¨ ur die L¨ osung von Ax = b nn B n |xi | ≤ , det A insbesondere ist |xi | ≤ nn B n f¨ ur ganzzahlige A, b. Beweis. Die Absch¨atzung folgt aus Korollar 9.32, |bi | ≤ B und |det Aij | ≤ (n − 1)!B n−1 . Letzteres ergibt sich aus der Leibnizformel, denn entwickelt man Aij nach der i-ten Zeile, so treten f¨ ur die resultierende Matrix A0ij genau (n − 1)! Permutationen von je n − 1 Matrixeintr¨agen in der Leibnizformel auf. Eine wichtige Eigenschaft der Determinante ist ihre Multiplikativit¨ at.
4. Eigenschaften
103
Satz 9.34 (Multiplikativit¨at der Determinante). Seien A, B ∈ Mn,n (K). Dann gilt: det(A · B) = det A · det B. Beweis. Falls eine oder beide Matrizen nicht vollen Rang haben, ist det A = 0 oder ¨ det B = 0 und somit det A · det B = 0. Nach Ubungsaufgabe 8.3 gilt rang(AB) < n und die Behauptung folgt. Wir setzen voraus im weiteren voraus, dass beide Matrizen vollen Rang haben. Nach Beweis von Satz 9.12 auf Seite 94 l¨aßt sich A durch elementare Zeilenoperationen (insbesondere ohne Spaltenvertauschungen) in die Einheitsmatrix u uhren. Damit ¨berf¨ gibt es Elementarmatrizen T1 , . . . , Tt ∈ Mn,n (K), so dass Tt Tt−1 · · · T1 A = In . Da Elementarmatrizen invertierbar sind, ist A = T1−1 · · · Tt−1 . Wir zeigen, dass f¨ ur jede Elementarmatrix Ti−1 gilt det(Ti−1 B) = det Ti−1 det B
(17)
und die Behauptung folgt. Wir betrachten die drei Typen von Elementarmatrizen: • F¨ ur Tij (λ) gilt mit (D1), dass det Tij (λ) = det In = 1 und Gleichung (17) folgt. • F¨ ur Ti (λ) gilt mit (D2), dass det Ti (λ) = λ det In = λ und Gleichung (17) folgt. • F¨ ur Vij folgt Gleichung (17) aus (D4). Dies war zu zeigen.
Auch u ¨ber die Determinante von Matrizen einer bestimmten Gestalt kann man Aussagen treffen, beispielsweise u ¨ber die Determinante von Kastenmatrizen: Lemma 9.35. Seien A1 , . . . , At Matrizen u ¨ber A1 0 ··· 0 . .. 0 A . .. 2 det . .. .. . . . 0 . 0 · · · 0 At
K. Dann gilt
t Y det Ai = i=1
Beweis. Die Behauptung folgt aus der Leibniz’schen Determinantenformel, denn alle Permutationen, die Matrixeintr¨age enthalten, die gleich Null sind, tragen zur Summe, also der Determinante, nichts bei. Bleiben nur diejenigen Permutationen u ¨brig, die lediglich Eintr¨age innerhalb der Ai vertauschen. Dies sind aber die Permutationen von det A1 , . . . , det At . Da die Addition des skalaren Vielfachen einer Zeile zu einer anderen Zeile die Determinante nicht a¨ndert, gilt:
104
9. Volumina und Determinanten
Satz 9.36 (K¨astchensatz). Seien A1 , . . . , At Matrizen u ¨ber K. Dann gilt A1 ∗ ··· ∗ . Y .. t 0 A . .. 2 det . det Ai = .. .. . . . ∗ i=1 . 0 · · · 0 At Im allgemeinen gilt jedoch f¨ ur Matrizen A, B, C, D ∈ Mn,n (K): A B det 6= det A · det D − det B · det C. C D
Kapitel 10
Normalformen und Eigenwerte
Wir haben in Kapitel 6 gesehen, dass jede lineare Abbildung durch eine Matrix darstellbar ist. In diesem Abschnitt leiten wir durch geeignete Basenwahl einfache bzw. kanonische Darstellungsmatrizen her.
1. Eigenwerte und Eigenvektoren Wir fassen diejenigen Matrizen zu Klassen zusammen, die den gleichen Endomorphismus bez¨ uglich verschiedener Basen des Kn darstellen. Man definiert dazu die folgende ¨ Aquivalenzrelation: ¨ Def inition 10.1 (Ahnliche Matrizen). Zwei Matrizen A, B ∈ Mn,n ( K ) heißen ¨ ahnlich, A ∼ B, wenn es eine invertierbare Matrix T ∈ GLn (K) gibt mit A = T −1 BT. ¨ ¨ Die Ahnlichkeitsrelation ist eine Aquivalenzrelation (siehe Definition 2.30 auf Seite 28): ¨ ¨ Satz 10.2. Die Ahnlichkeitsrelation ist eine Aquivalenzrelation auf Mn,n (K). ¨ Beweis. Seien A, B, C ∈ Mn,n (K). Wir zeigen die Eigenschaften einer Aquivalenz−1 relation: Aus A = In AIn = In AIn = A folgt die Reflexivit¨at: A ∼ A. Sei A ∼ B, ¨ d.h. A = T BT −1 . Dann gilt T −1 AT = B, also B ∼ A, so dass die Ahnlichkeitsrelation die Symmetrie-Eigenschaft A ∼ B ⇐⇒ B ∼ A erf¨ ullt. Zu zeigen bleibt die Transitivit¨at: Aus (A ∼ B) und (B ∼ C) folgt A ∼ C. Sei A = T BT −1 und B = SCS −1 . Dann gilt A = T BT −1 = T SCS −1 T −1 = (T S)C(T S)−1 . Nach Satz 5.5 auf Seite 61 sind T S und (T S)−1 regul¨ar, so dass A ∼ C.
105
106
10. Normalformen und Eigenwerte
Wir zeichnen diejenigen linearen Abbildungen aus, die sich — bei geeigneter Basiswahl — durch m¨oglichst einfache Matrizen darstellen lassen: Def inition 10.3 (Diagonalisierbarkeit). Eine quadratische Matrix heißt diagonalisierbar, wenn sie zu einer Diagonalmatrix ¨ ahnlich ist. Eine lineare Abbildung heißt diagonalisierbar, wenn es eine Basis gibt, so dass ihre Darstellungsmatrix eine Diagonalmatrix ist. Zur Untersuchung der Diagonalisierbarkeit verwenden wir Eigenwerte und Eigenvektoren. Dabei handelt es sich um Vektoren, bei denen eine lineare Abbildung einer Multiplikation mit einem Skalar (einem Eigenwert) entspricht. Die Eigenvektoren sind also diejenigen Vektoren, die von der linearen Abbildung gestreckt werden. Def inition 10.4 (Eigenwert, Eigenvektor). Sei A ∈ Mn,n (K) eine quadratische Matrix. Dann nennen wir einen Skalar λ ∈ K einen Eigenwert von A, wenn es einen Vektor v ∈ Kn \ {0} gibt mit Av = λv. Ein solcher Vektor v heißt ein Eigenvektor von A zum Eigenwert λ. Man beachte, dass Null ein Eigenwert sein kann, ein Eigenvektor jedoch stets vom Nullvektor verschieden ist. Nicht jede Matrix ist diagonalisierbar. So ist beispielsweise die folgende, JordanK¨ astchen genannte Matrix, nicht diagonalisierbar: λ 0 ··· ··· 0 .. 1 . . . . . . . . 0 . . . . . . . . . .. .. . . .. .. . . 0 . . 0 ··· 0 1 λ Wir leiten ein Kriterium zur Diagonalisierbarkeit her: Satz 10.5. Eine quadratische Matrix A ∈ Mn,n (K) ist genau dann diagonalisierbar, wenn es eine Basis des Kn aus Eigenvektoren von A gibt. Beweis. Zu jeder Diagonalmatrix gibt es eine Basis des Kn bestehend aus Eigenvektoren, denn die Diagonalmatrix λ1 0 · · · 0 . 0 . . . . . . .. ∈ Mn,n (K) D := .. . . .. . . . 0 0 · · · 0 λn hat die Eigenwerte λ1 , . . . , λn mit den dazugeh¨origen Eigenvektoren e1 , . . . , en ∈ Kn , also den kanonischen Einheitsvektoren. ¨ Sei A ∈ Mn,n (K) regul¨ar. Beim Ubergang von A zu einer ¨ahnlichen Matrix −1 T AT u ¨bertragen sich die Eigenwerte und Eigenvektoren von A: Ist bi ∈ Kn Eigenvektor zum Eigenwert λi ∈ K von A, also Abi = λi bi , dann ist T −1 bi ein Eigenvektor
1. Eigenwerte und Eigenvektoren
107
von T −1 AT zum Eigenwert λi : T −1 AT (T −1 bi ) = T −1 Abi = T −1 λi bi = λi (T −1 bi ). Damit bildet b1 , . . . , bn ∈ Kn eine Basis des Kn bestehend aus Eigenvektoren von A genau dann, wenn T −1 b1 , . . . , T −1 bn ∈ Kn eine Basis des Kn aus Eigenvektoren der ¨ahnlichen Matrix T −1 AT ist. Weil die Diagonalisierbarkeit von A ¨aquivalent zur ¨ Ahnlichkeit zu einer Diagonalmatrix ist, folgt die Behauptung. Aus dem n¨achsten Satz folgt, dass eine n × n Matrix h¨ochstens n paarweise verschiedene Eigenwerte hat: Satz 10.6. Sei A ∈ Mn,n (K). Dann sind Eigenvektoren b1 , . . . , bm ∈ Kn von A zu paarweise verschiedenen Eigenwerten λ1 , . . . , λm ∈ K linear unabh¨ angig u ¨ber K. Beweis. Wir f¨ uhren den Beweis durch vollst¨andige Induktion nach m: • Zur Induktionsverankerung sei m = 1 und b1 Eigenvektor von A. Wegen b1 6= 0 ist b1 linear unabh¨angig. • Der Induktionsschritt erfolgt von m − 1 nach m. Seien b1 , . . . , bm ∈ Kn Eigenvektoren zu den paarweise verschiedenen Eigenwerten λ1 , . . . , λm ∈ K von A. Es ist zu zeigen, dass b1 , . . . , bm linear unabh¨angig sind: m X
ti bi = 0
=⇒
(t1 , . . . , tm ) = 0.
i=1
Sei
Pm
i=1 ti bi
= 0. Dann ist A
m X
ti bi =
i=1
O.B.d.A. sei λm 6= 0. Aus m X i=1
m X
ti Abi =
m X
ti λi bi = 0. i=1 i=1 Pm Pm i=1 ti bi = λm i=1 ti bi erhalten m X
ti λ i bi =
wir:
λ m ti bi ,
i=1
so dass: m X i=1
(ti λi − ti λm )bi =
m−1 X i=1
(t λ − t λ ) b = 0. | i i {z i m} i ∈K
Da nach Induktionsvoraussetzung b1 , . . . , bm−1 linear unabh¨angig sind, gilt ti λi = ti λm f¨ ur i = 1, . . . , m − 1. Nach Voraussetzung sind die Eigenwerte λ1 , . . . , λm paarweise verschieden und es folgt t1 = . . . = tm−1 = 0 und damit tm = 0. Dies war zu zeigen.
Aus Satz 10.5 folgt: Korollar 10.7 (Diagonalisierbarkeitskriterium). Jede n × n Matrix mit n paarweise verschiedenen Eigenwerten ist diagonalisierbar.
108
10. Normalformen und Eigenwerte
Die Matrix 01 10 hat die Eigenwerte 1 und −1 mit den Eigenvektoren 11 und +1 1 0 01 −1 . Somit gilt 1 0 ∼ 0 −1 . Die Umkehrung von Korollar 10.7 gilt nicht; eine diagonalisierbare Matrix kann weniger als n paarweise verschiedene Eigenwerte haben: Die Matrix 1 1 −1 2 2 3 1 1 1 1 1 2 0 0 2 1 1 3 − A = 2 4 2 = −1 0 2 0 2 0 4 4 ∈ M3,3 (R) 4 1 1 1 1 1 3 0 −1 1 0 0 6 4
4
4
ist diagonalisierbar, hat jedoch nur zwei Eigenwerte: • Eigenwert 2 mit Eigenvektoren (1, −1, 0)T und (1, 0, −1)T . • Eigenwert 6 mit Eigenvektor (1, 2, 1)T . Lemma 10.8. Sei A ∈ Mn,n (K). Paarweise verschiedene λ1 , . . . , λn ∈ K sind genau dann Eigenwerte zu A, falls A ¨ ahnlich zu einer Diagonalmatrix D ∈ Mn,n (K) mit Diagonalelementen λ1 , . . . , λn ist: λ1 0 · · · 0 . 0 . . . . . . .. . A∼. . . . . . . . . 0 0 · · · 0 λn Beweis. Sei D ∈ Mn,n (K) die in Lemma angegebene Diagonalmatrix mit λ1 , . . . , λn als Diagonalelementen. Hat A die paarweise verschiedenen Eigenwerte λ1 , . . . , λn , so ist A mit Korollar 10.7 diagonalisierbar. Nach dem Beweis von Satz 10.5 u ¨bertragen sich die Eigenwerte und die Diagonalmatrix hat obige Gestalt. Ist umgekehrt A ¨ahnlich zu D, u ¨bertragen sich die Eigenwerte von D auf A. Die Eigenwerte von D sind gerade λ1 , . . . , λn . Eine Matrix A ∈ Mn,n (K) kann h¨ochstens n Eigenwerte, aber wesentlich mehr Eigenvektoren haben. F¨ ur einen Eigenvektor v ∈ Kn zum Eigenwert λ ∈ K sind auch alle skalaren Vielfachen µv von v Eigenvektoren von A: A(µv) = µAv = µλv = λ(µv) Die Summe zweier Eigenvektoren v1 , v2 ∈ Kn zum gleichen Eigenwert λ von A ist ebenfalls ein Eigenvektor: A(v1 + v2 ) = Av1 + Av2 = λv1 + λv2 = λ(v1 + v2 ) Die Menge aller Eigenvektoren zu einem Eigenwert einer Matrix und der Nullvektor bilden nach Lemma 3.5 einen Untervektorraum von Kn , den sogenannten Eigenraum von A zum Eigenwert λ: Def inition 10.9 (Eigenraum). Sei A ∈ Mn,n (K) und λ ∈ K Eigenwert von A. Dann nennen wir Eig(A, λ) := {v ∈ Kn | Av = λv } den zugeh¨ origen Eigenraum.
1. Eigenwerte und Eigenvektoren
109
Der Eigenraum von A und λ besteht also aus allen Eigenvektoren von A zu λ sowie dem Nullvektor (der per Definition kein Eigenvektor ist). Lemma 10.10. Sei A ∈ Mn,n (K) und λ1 , . . . , λm paarweise verschiedene Eigenwerte von A. Dann gilt a)
m X
Eig(A, λi ) ∼ =
i=1
b) dim
m M
Eig(A, λi ).
i=1
m X
Eig(A, λi ) =
i=1
m X
dim Eig(A, λi ).
i=1
Beweis. Sei A ∈ Mn,n (K) und λ1 , . . . , λn paarweise verschiedene Eigenwerte von A. Um zu zeigen, dass die Summe der Eigenr¨aume isomorph zur inneren P direkten Summe der Eigenr¨aume ist, gen¨ ugt der Nachweis, dass jeder Vektor u ∈ m i=1 Eig(A, λi ) eine eindeutige Darstellung u = u1 + . . . + um
mit ui ∈ Eig(A, λi )
hat. Zur Eindeutigkeit der Darstellung ¨aquivalent ist die Aussage Eig(A, λi ) ∩
m X
Eig(A, λj ) = {0} f¨ ur i = 1, . . . , m.
j=1 j6=i
P Sei ui ∈ Eig(A, λi ) mit ui = j6=i uj und uj ∈ Eig(A, λj ). Nach Satz 10.6 sind u1 , . . . , um linear unabh¨angig. Andererseits gilt ui =
m X
uj
j=1 j6=i
⇐⇒
ui −
m X
uj = 0.
j=1 j6=i
Also ist uj = 0 f¨ ur j = 1, . . . , m, j 6= i und die Behauptung folgt. Die zweite Aussage ¨ fogt in Verbindung mit der ersten Behauptung und Ubungsaufgabe 10.4. Wir erhalten als Kriterium f¨ ur Diagonalisierbarkeit: Satz 10.11. Eine Matrix A ∈ Mn,n (K) mit paarweise verschiedenen Eigenwerten λ1 , . . . , λm ist genau dann diagonalisierbar, wenn m X
dim Eig(A, λi ) = n.
i=1
Beweis. Wir zeigen beide Richtungen: P ⇒“ A ist diagonalisierbar ⇒ m i=1 dim Eig(A, λi ) = n. ” Da A diagonalisierbar ist, gibt es eine regul¨are Matrix T ∈ Mn,n (K) mit λ1 0 · · · 0 . .. .. . . .. −1 −1 0 T. A = T DT = T . . . . . . . . . 0 0 · · · 0 λn
110
10. Normalformen und Eigenwerte
Dabei k¨onnen einzelne λi mehrfach auftreten, denn A hat nach Voraussetzung m ≤ n paarweise verschiedene Eigenwerte. Die kanonischen Einheitsvektoren e1 , . . . , en ∈ Kn sind Eigenvektoren zu D und damit bilden T −1 e1 , . . . , T −1 en eine Basis des Kn aus linear unabh¨angigen Eigenvektoren von A. Pm ⇐“ i=1 dim Eig(A, λi ) = n ⇒ A ist diagonalisierbar. ” Nach Voraussetzung gibt es eine Basis b1 , . . . , bn ∈ Kn des Kn aus Eigenvektoren von A. Sei T c1 .. −1 B = (b1 · · · bn ) ∈ Mn,n (K) und B = . ∈ Mn,n (K) cTn mit c1 , . . . , cn ∈ Mn,1 (K). Dann gilt In = B −1 B = (cTi bj )1≤i,j≤n = (δij )1≤i,j≤n . Aus B −1 AB = B −1 Ab1 · · · Abn = B −1 λ1 b1 · · · λm bn folgt:
B
−1
AB =
(cTi λj bj )1≤i,j≤n
λ1
0 = .. . 0
0 .. . .. . ···
··· .. . .. . 0
0 .. . . 0 λm
Dabei k¨onnen einzelne λi mehrfach auftreten. Dies war zu zeigen.
2. Charakteristisches Polynom Das charakteristische Polynom einer Matrix erlaubt es, die Eigenwerte einer linearen Abbildung zu bestimmen. Def inition 10.12 (Charakteristisches Polynom). Zu einer quadratischen Matrix A ∈ Mn,n (K) heißt a1,1 − X a1,2 ··· a1,n .. .. .. a2,1 . . . ∈ K[X] χA (X) := det(A − XIn ) = det .. .. .. . . . an−1,n an,1 · · · an,n−1 an,n − X das charakteristische Polynom von A. Berechnen wir die Determinante det(A − XIn ) nach der Leibniz-Formel, Satz 9.25 auf Seite 97, erh¨alt man das charakteristisches Polynom in Form einer Summe von n!
2. Charakteristisches Polynom
111
Polynomen: n Y X det(A − XIn ) = (aii − X) + qσ i=1
mit qσ ∈ K[X]n−1 .
σ∈Sn \Id
Der Grad des charakteristischen Polynoms zu einer n × n-Matrix ist daher n. Das charakteristische Polynom einer linearen Abbildung ist das charakteristische Polynom einer Darstellungsmatrix dieser Abbildung. Diese Festlegung ist wohldefiniert, denn zwei Darstellungsmatrizen einer linearen Abbildung haben als ¨ahnliche Matrizen das gleiche charakteristische Polynom: Lemma 10.13. Seien A, B ∈ Mn,n (K) mit A ∼ B. Dann gilt χA (X) = χB (X). Beweis. Seien A, B, T ∈ Mn,n (K) mit T regul¨ar und B = T −1 AT . Es gilt χB (X) = det(T −1 AT − XIn ) = det(T −1 AT − XT −1 T ) = det(T −1 (A − XIn )T ) = det T −1 det(A − XIn ) det T. Mit det T −1 =
1 det T
folgt die Behauptung.
Def inition 10.14 (Charakteristisches Polynom einer linearen Abbildung). Das charakteristische Polynom einer linearen Abbildung ist das charakteristische Polynom einer Darstellungsmatrix der Abbildung. Man kann die Eigenwerte einer Matrix A u ¨ber die Nullstellen ihres charakteristisches Polynom χA ermitteln: Lemma 10.15. Sei A ∈ Mn,n (K). Ein Skalar λ ∈ K ist genau dann Eigenwert von A, wenn χA (λ) = 0. Beweis. Sei A ∈ Mn,n (K) und λ ∈ K. Da f¨ ur v ∈ Kn und λ ∈ K gilt Av = λv
⇐⇒
(A − λIn )v = 0,
ist λ genau dan ein Eigenwert von A, falls L¨os(A − λIn , 0) 6= {0}. Nach Satz 5.7 auf Seite 62 ist: L¨os(A − λIn , 0) 6= {0}
⇐⇒
rang(A − λIn ) < n.
Weil eine Matrix dann und nur dann sigul¨ar ist, wenn ihre Determinante Null ist, folgt: λ ist Eigenwert von A
⇐⇒
det(A − λIn ) = 0.
Aus χA (λ) = det(A − λIn ) erhalten wir die Behauptung.
Beispiel 10.16. In der reellen Ebene R2 beschreiben wir eine Drehung um den Nullpunkt mit dem Winkel ϕ durch die lineare Abbildung mit der Matrix cos ϕ − sin ϕ Dϕ := ∈ M2,2 (R) sin ϕ cos ϕ
112
10. Normalformen und Eigenwerte
F¨ ur das charakteristische Polynom gilt χDϕ (X) = det
cos ϕ − X − sin ϕ sin ϕ cos ϕ − X
= (cos ϕ − X)(cos ϕ − X) − (− sin ϕ sin ϕ) = cos2 ϕ − (2 cos ϕ)X + X 2 + sin2 ϕ. Aus der Euler’schen Formel cos2 ϕ + sin2 ϕ = 1 folgt: χDϕ (X) = X 2 − (2 cos ϕ)X + 1
(18)
Mit der pq-Formel sind die beiden Nullstellen x1,2 =
2 cos ϕ ±
p
4 cos2 ϕ − 4 2
¨ genau dann reell, wenn 4 cos2 ϕ − 4 ≥ 0, also cos2 ϕ = 1. Alternative Uberlegung: Nach dem Fundamentalsatz der Algebra (Fakt 4.23 auf Seite 52) zerf¨allt χDϕ u ¨ber C 0 in Linearfaktoren, d.h. es gibt c, λ, λ ∈ C mit χDϕ (X) = c(X − λ)(X − λ0 ) = c(X 2 − X(λ + λ0 ) + λλ0 ). Nach Lemma 4.25 auf Seite 53 ist λ0 = λ und mit (18) folgt c = 1, λ + λ = 2 cos ϕ und λλ = 1. F¨ ur λ = a + ib ergibt sich a = cos ϕ und cos2 ϕ + b2 = 1. Damit ist λ genau dann reell, wenn cos2 ϕ = 1, also f¨ ur ϕ = 0 und ϕ = π. Eine Drehung in R2 hat nur dann reelle Eigenwerte, wenn ϕ = 0 (also Dϕ = Id) oder ϕ = π (also bei einer Spiegelung an der x2 -Achse). Die entsprechenden Eigenwerte sind 1 und −1. Wie sehen die Eigenr¨aume aus? Man erh¨alt die Menge der Eigenwerte, indem man die Nullstellen des charakteristischen Polynoms ermittelt. Der naheliegende Gedanke, dass die Vielfachheiten der Eigenwerte den Vielfachheiten der Nullstellen des charakteristischen Polynoms entsprechen, trifft im allgemeinen nicht zu. Entsprechend zur Notation in Kapitel 4, Definition 4.20 auf Seite 51, bezeichnen wir die Vielfachheit einer Nullstelle λ von χA (X) mit ν(A, λ). Die Vielfachheit des Eigenwerts λi von A ist genau dim Eig(A, λi ): Lemma 10.17. Sei A ∈ Mn,n (K) und λ ∈ K. Dann gilt dim Eig(A, λ) ≤ ν(A, λ). Beweis. Sei k := dim Eig(A, λ), b1 , . . . , bk linear unabh¨angige Eigenvektoren zu λ und b1 , . . . , bk , . . . , bn sei Basis des Kn . Wir setzen B = (b1 · · · bn ) ∈ Mn,n (K). Dann
2. Charakteristisches Polynom
ist B −1 AB von der Form λ 0 . 0 . . . . ... . . −1 B AB = .. . .. . .. 0 ···
113
··· .. . .. . .. .
···
···
0
∗ .. . .. .
λ
∗
···
∗
0 .. .
d1,1 .. .
···
d1,n−k .. .
0 .. .
∗ .. . .. .
0 dn−k,1 · · ·
dn−k,n−k
∈ Mn,n (K).
Mit Lemma 10.13 und Satz 9.36 u ¨ber die Determinante von Kastenmatrizen gilt χA (X) = χB −1 AB (X) = det(B −1 AB − XIn ) = (λ − x)k χD (X). Somit gilt ν(A, λ) ≥ k.
Beispiel 10.18. Wir betrachten ein Jordan-K¨ astchen: λ 0 ··· ··· 0 .. 1 . . . . . . . . J = 0 . . . . . . . . . .. ∈ Mn,n (K). .. . . .. .. . . 0 . . 0 ··· 0 1 λ Es gilt 0 ··· 1 . . . dim Eig(A, λ) = n − rang 0 . . . .. . . . . 0 ···
··· ..
.
..
.
0
···
..
. 1
0 .. . .. = n − (n − 1) = 1 . .. . 0
sowie χJ (x) = (λ − x)n . Wir erhalten ν(J, λ) = n > dim Eig(J, λ) = 1.
Wir erhalten folgendes Diagonalisierbarkeitskriterium: Satz 10.19. Eine quadratische Matrix A ∈ Mn,n (K) ist genau dann diagonalisierbar, wenn a) Das andig in Linearfaktoren zerf¨ allt: P charakteristische Polynom χA (X) vollst¨ λ∈K ν(A, λ) = n
b) F¨ ur alle Eigenwerte λ ∈ K gilt: ν(A, λ) = dim Eig(A, λ) Beweis. Beide Bedingungen zusammen sind gleichwertig zu X dim Eig(A, λ) = n λ∈K
und nach Satz 10.11 gilt dies genau f¨ ur diagonalisierbare Matrizen.
114
10. Normalformen und Eigenwerte
Bei diagonalisierbaren Matrizen entspricht die Vielfachheit der Nullstellen des charakteristischen Polynoms der Vielfachheit der Eigenwerte. Bemerkung 10.20. Wir wissen, dass jedes Polynom p ∈ C[X] vom Grad n u ¨ber C in Linearfaktoren zerf¨allt. Die Nullstellen m¨ ussen nicht paarweise verschieden sein, aber fast alle Polynome p ∈ C[X] vom Grad n haben n verschiedene Nullstellen in C. Die Ausnahmemenge in C[X]n ∼ = Cn+1 hat das Lebesguemaß 0. Damit sind fast alle Matrizen A ∈ Mn,n (C) u ¨ber C diagonalisierbar.
3. Normalformen Wie wir gesehen haben, sind nicht alle Matrizen diagonalisierbar. Jedoch kann jede Matrix auf einfache“ Formen, die kanonischen oder Normalformen, gebracht werden. ” P j m ∈ K[X] ein norDef inition 10.21 (Begleitmatrix). Sei p(X) = m−1 j=0 aj X + X miertes Polynom vom Grad m. Dann heißt 0 ··· ··· 0 −a0 .. 1 . . . . −a1 .. ∈ M L := 0 . . . . . . ... m,m (K) . .. . . .. .. . . . 0 . 0 · · · 0 1 −am−1 Begleitmatrix zu p. Im Fall m = 1 ist L = (−a0 ) ∈ M1,1 (K). F¨ ur jede lineare Abbildung mit vollem Rang gibt es eine Darstellungsmatrix aus Begleitmatrizen auf der Diagonalen [G86, Kap. 6, Satz 7]. Satz 10.22. Jede regul¨ are Matrix A ∈ Mm,m (K) ist ¨ ahnlich zu einer Kastenmatrix der Form L1 0 ··· 0 .. .. 0 . L . 2 . . .. .. . . . . 0 0 ··· 0 Lt Dabei sind L1 , . . . , Lt Begleitmatrizen zu Potenzen von irreduziblen (¨ uber K unzerlegbaren) Polynomen pi ∈ K[X]. Das charakteristische Polynom von A ist das Produkt dieser Polynome: χA (X) =
t Y
pi .
i=1
Man spricht von einer blockdiagonalen Matrix . Lemma 10.23. Die Begleitmatrix L ∈ Mm,m (K) hat das charakteristische Polynom χL (X) = det(L − XIm ) = (−1)m p(X).
3. Normalformen
115
Beweis. Sei L ∈ Mm,m (K) die Begleitmatrix zum normierten Polynom p(X) =
m−1 X
ai X i + X m .
i=0
F¨ ur das charakteristische Polynom
χL (X) = det(L − XIm ) = det
−X 0 .. .
0 .. . .. . .. .
0
···
1
··· .. . .. . .. . 0
−a0
0 .. .
−a1 .. 0 . .. −X . 1 (−am−1 − X)
erhalten wir durch Entwicklung nach der letzten Spalte gem¨aß dem Entwicklungssatz 9.28 von Laplace, wobei A0im ∈ Mm−1,m−1 (K) die entsprechende Streichungsmatrix bezeichnet: χL (X) =
m−1 X
(−1)i+m (−ai−1 ) det A0im + (−1)m+m (−am−1 − X) · det A0mm
i=1
m
= (−1)
X m
i−1
(−1)
ai−1 det A0im
− X · det A0mm .
i=1
Mit det A0im = (−X)i−1 (was wir anschließend beweisen werden) gilt weiter: X m m i−1 i−1 χL (X) = (−1) (−1) ai−1 (−X) − X · (−X)m−1 = (−1)m
i=1 m−1 X
ai X i + (−1)m X m
i=0
m
= (−1) p(X). Der Nachweis von −X
det A0im
0
··· ···
. . 1 .. .. 0 ... ... .. . . . . . . . ··· 0 = det 00 ··· ··· .. . . .. .. . 0
···
···
···
··· ···
0
.. . .. . .. .
. .. .. . . ! 1 −X 0 ··· ··· ··· 0 = (−X)i−1 ··· 0 1 −X 0 ··· 0 . . . . . . . . .. . . . . . .. .. .. 0 . . . . . . . −X . . ..
··· ··· ···
···
···
···
···
0
1
folgt unmittelbar durch Laplace-Entwicklung nach der letzten Zeile: det A0im = (−1)(m−1)+(m−1) · 1 · (−X)i−1 · 1m−i = (−X)i−1 .
116
10. Normalformen und Eigenwerte
Pn i Ist p(X) = ur die Unbestimmte i=0 pi X ∈ K[X] ein Polynom, kann man f¨ X nicht nur Elemente aus K, sondern auch Endomorphismen f : V → V eines KVektorraums V einsetzen. Wir erhalten einen Endomorphismus p(f ) : V → V mit p(f ) = p0 · id + p1 f + . . . + pn−1 f n−1 + pn f n wobei fk = f ◦ . . . ◦ f | {z } k-mal
die k-fache Hintereinanderausf¨ uhrung bezeichnet. Auf gleiche Weise kann man ebenfalls eine Matrix A ∈ Mn,n (K) einsetzen: p(A) = p0 In + p1 A + . . . + pn−1 An−1 + pn An ∈ Mn,n (K) Der Satz von Cayley-Hamilton besagt, setzt man eine Matrix in ihr eigenes charakteristisches Polynom ein, ergibt dies die Nullmatrix: Satz 10.24 (Cayley-Hamilton). F¨ ur A ∈ Mn,n (K) ist χA (A) = 0. Einen Beweis findet man in [Beu98, Kapitel 8.3]. Wir wenden den Satz von Cayley-Hamilton auf die beschreibende Matrix einer linearen Abbildung an und erhalten: Korollar 10.25. Sei V ein K-Vektorraum und f : V → V Endomorphismus. Dann gilt χf (f ) = 0, d.h. χf (f ) ist die Nullabbildung. F¨ ur allgemeine Homomorphismen von Vektorr¨aumen f : U → V ist weder die Determinante noch das charakteristische Polynom erkl¨art. Die Determinante der Darstellungsmatrix ist zwar im Fall dim U = dim V erkl¨art, aber von der Wahl der Basen in U und V abh¨angig. F¨ ur beliebige Homomorphismen von Vektorr¨aumen f : U → V kann man die Basen in U und V stets so w¨ahlen, dass f durch eine Diagonalmatrix dargestellt wird. Bemerkung 10.26. Die sogenannte Jordan’sche Normalform bezieht sich nur auf n × n Matrizen und Endomorphismen, deren charakteristisches Polynom χA (X) in Linearfaktoren zerf¨allt, d.h. χA (X) hat mit Vielfachheiten gez¨ahlt n Nullstellen. Dies ist ein Spezialfall, der P u ¨ber dem K¨orper R bei großem n relativ selten ist. Ist A ∈ Mn,n (K) regul¨ar und λ∈K ν(A, λ) = n, dann ist A ¨ahnlich zu einer verallgemeinerten Diagonalmatrix, deren K¨asten Jordan-K¨astchen sind. Dabei ist λ ein Eigenwert von A.
Kapitel 11
Euklidische Vektorr¨ aume
In den vorherigen Kapiteln betrachteten wir allgemeine K¨orper K. Die analytische ” Geometrie“ dagegen basiert auf dem K¨orper der reellen Zahlen. Man erweitert die Vektorraumstruktur um ein sogenanntes Skalarprodukt, um sowohl L¨ange als auch Winkel zu definieren.
1. Vektornorm Bei einem normierten Vektorraum ist außer dem Raum selbst eine Funktion gegeben, die jedem Vektor eine L¨ ange (Norm) zuordnet: Def inition 11.1 (Vektornorm). Sei V ein R-Vektorraum. Eine Vektornorm auf V ist eine Abbildung k·k : V → R mit folgenden Eigenschaften: (N1) Positive Definitheit: kvk > 0 f¨ ur v 6= 0. (N2) Positive Homogenit¨ at: kλvk = |λ| · kvk f¨ ur λ ∈ R, v ∈ V . (N3) Dreiecksungleichung: kv + wk ≤ kvk + kwk f¨ ur v, w ∈ Rn . Die reelle Zahl kvk heißt Norm oder L¨ ange des Vektors v. Aus der positiven Homogenit¨at folgt mit λ = 0, dass k0k = 0 ist, aufgrund der positiven Definitheit gilt daher: kvk = 0
⇐⇒
v = 0.
F¨ ur V = Rn verwendet man h¨aufig eine der folgenden Normen, dabei sei x = (x1 , . . . , xn )T ∈ Rn : P • Betragsnorm: kxk1 := ni=1 |xi |. qP n 2 • Euklidische Norm:: kxk2 := i=1 xi . • Maximumsnorm: kxk∞ := max |xi |. i=1,...,n
117
118
11. Euklidische Vektorr¨aume
Der Nachweis der Norm-Eigenschaften ist einfach. Eine Verallgemeinerung dieser Beispiele ist die sogenannte p-Norm zu einer festen, reellen Zahl p ≥ 1: X 1 n p p |xi | kxkp := . i=1
F¨ ur p = 1 bzw. p = 2 erh¨alt man die Betrags- und die euklidische Norm, die Maximumsnorm ergibt sich als Grenzfall der p-Norm f¨ ur p → ∞. Die positive Definitheit und Homogenit¨at erf¨ ullt die p-Norm offenbar, die Dreiecksungleichung folgt aus der Minkowski’schen Ungleichung, die man in der Analysis zeigt. Fakt 11.2 (H¨older’sche Ungleichung). Zu p, q ≥ 1 mit p1 + 1q = 1 gilt f¨ ur alle x, y ∈ Rn : T x y ≤ kxk · kyk . p q Ein Spezialfall der H¨older’schen Ungleichung ist die Cauchy-Schwarz-Ungleichung. Mit p = q = 2 folgt f¨ ur x, y ∈ Rn : T x y ≤ kxk · kyk 2 2
Die Gleichheit gilt genau dann, wenn beide Vektoren linear abh¨angig sind.
Fakt 11.3. Je zwei Normen k·k und k·k0 auf dem Rn sind ¨ aquivalent, d.h. es gibt Konstanten c1 , c2 ∈ R mit c1 · kxk ≤ kxk0 ≤ c2 · kxk f¨ ur alle x ∈ Rn . Zum Beispiel gilt f¨ ur x ∈ Rn : √ kxk2 ≤ kxk1 ≤ n · kxk2 √ kxk∞ ≤ kxk2 ≤ n · kxk∞ kxk∞ ≤ kxk1 ≤ n · kxk∞ . Der Abstand (Distanz ) zwischen zwei Vektoren x, y ∈ Rn l¨aßt sich definieren als d(x, y) := kx − yk. Wir haben im Kapitel 7 u ¨ber lineare Codes gesehen, dass man den Abstand zweier Vektoren auch unabh¨angig von einer Norm formulieren kann. Def inition 11.4 (Metrik). Sei V ein Vektorraum u orper K. Eine Metrik ¨ber einem K¨ auf V ist eine Abbildung d : V × V → R mit folgenden Eigenschaften: (M1) Symmetrie: d(x, y) = d(y, x) f¨ ur x, y ∈ V . (M2) Dreiecksungleichung: d(x, z) ≤ d(x, y) + d(y, z) f¨ ur x, y, z ∈ V . (M3) Es gilt x = y ⇐⇒ d(x, y) = 0 f¨ ur x, y ∈ V . Die reelle Zahl d(x, y) heißt Abstand oder Distanz von x und y. F¨ ur den Abstand zweier Vektoren x und y gilt stets d(x, y) ≥ 0, denn: 0 = d(x, x) ≤ d(x, y) + d(y, x) = d(x, y) + d(x, y) = 2 · d(x, y).
2. Matrixnorm
119
Zu jeder Norm k·k ist d(x, y) = kx − yk eine Metrik auf dem Raum Rn . Die Umkehrung gilt nicht, denn zur Metrik d mit ( 1 falls x 6= y d(x, y) := 0 sonst auf dem Rn stellt die Abbildung x 7→ d(x, 0) keine Norm dar (wieso?).
2. Matrixnorm Die Matrixnorm auf Mm,n (R) ist mit der Isomorphie Rm·n ' Mm,n (R) ¨aquivalent zur Vektornorm auf Rm·n : Def inition 11.5 (Matrixnorm). Eine Matrixnorm auf Mm,n (R) ist eine Abbildung k·k : Mm,n (R) → R mit folgenden Eigenschaften: (N1) Positive Definitheit: kAk > 0 f¨ ur A 6= 0. (N2) Positive Homogenit¨ at: kλAk = |λ| · kAk f¨ ur λ ∈ R, A ∈ Mm,n (R). (N3) Dreiecksungleichung: kA + Bk ≤ kAk + kBk f¨ ur A, B ∈ Mm,n (R). Die reelle Zahl kAk heißt Norm der Matrix A. Auch f¨ ur Matrixnormen ist genau dann A = 0, wenn kAk = 0 gilt. Man verwendet h¨aufig eine der folgenden beiden Normen, dabei sei A = (aij )ij ∈ Mm,n (R): • Die Frobenius-Norm entspricht der euklidischen Norm auf Rm×n : v uX n um X t kAkF := a2i,j . i=1 j=1
• die p-Matrixnorm zu einer festen, reellen Zahl p ≥ 1: kAxkp kAkp := sup . x6=0 kxkp Wegen der positiven Homogenit¨at k¨onnen wir die p-Matrixnorm auch schreiben als: n o kAkp = sup kAxkp kxkp = 1 .
Die p-Matrixnorm interpretiert A als Abbildung Rn → Rm mit x 7→ Ax und nicht als Vektor in Rm×n ' Mm,n (R). Die Matrixnorm kAkp gibt an, um welchen Faktor die L¨ange (in der p-Norm) des Vektors x durch die Abbildung x 7→ Ax h¨ochstens gestreckt wird: kAxkp ≤ kAkp · kxkp
(19)
Wir haben die p-Matrixnorm kAkp der Matrix Mm,n (R) definiert als das Supremum von der p-Vektornorm kAxkp u ¨ber alle x aus der n-Sph¨are (Kugeloberfl¨ache) n o Sn,k·kp := x ∈ Rn kxkp = 1
zur Vektornorm k·kp . Die p-Norm einer Matrix ist eine reelle Zahl, denn die Abbildung x 7→ kAxkp ist stetig und Sn,k·kp kompakt:
120
11. Euklidische Vektorr¨aume
Lemma 11.6. Zu einer Matrix A ∈ Mm,n (R) nimmt die Abbildung x 7→ kAxkp mit x ∈ Sn,k·kp ihr Supremum an. Die p-Matrixnorm hat die wichtige Eigenschaft der Submultiplikativit¨ at: Lemma 11.7 (Submultiplikativit¨at der p-Matrixnorm). Seien A ∈ Mk,m (R) und B ∈ Mm,n (R). Dann gilt: kA · Bkp ≤ kAkp · kBkp . Beweis. Wir wenden Absch¨atzung (19) an: kABxkp = kA(Bx)kp ≤ kAkp · kBxkp ≤ kAkp · kBkp · kxkp . Aus der Ungleichung f¨ ur beliebiges x 6= 0 kABxkp kxkp
≤ kAkp · kBkp
folgt, dass das Supremum kA · Bkp = supx6=0 der Normen beider Matrizen beschr¨ankt ist.
n kABxk o p
kxkp
durch das Produkt kAkp ·kBkp
Im Beweis zu Lemma 11.6 benutzen wir, dass bei der Zusammensetzung linearer Abbildungen die Darstellungsmatrizen multipliziert werden. F¨ ur φB : x 7→ Bx und φA : x 7→ Ax ist die Zusammensetzung φA ◦ φB mit φA (φB (x)) beschrieben durch die Matrix AB: φA ◦ φB = φ(A·B) . In der Numerik verwendet man die Matrix-Norm, um zu zeigen, dass ein iteratives Verfahren eine approximative L¨osung bestimmt. Wir geben im folgenden einen Algorithmus zur n¨aherungsweisen Berechnung der inversen Matrix zu einer gegebenen Matrix an. Zun¨achst zeigen wir das Analogon zur geometrischen Reihe P ν f¨ (1 − x)−1 = ∞ x ur x ∈ R mit |x| < 1 f¨ ur Matrizen: ν=0 Satz 11.8. Sei A ∈ Mn,n (R) eine quadratische Matrix mit p-Norm kAkp < 1. Dann gilt (In − A)−1 =
∞ X
Aν
und
kIn − Akp ≤
ν=0
1 . 1 − kAkp
Beweis. Die Matrix In − A ist regul¨ar, denn anderenfalls g¨abe es ein x 6= 0 mit (In − A)x = 0, also x = Ax. Wegen kxkp = kAxkp ist dann kAkp ≥ 1 im Widerspruch zur Voraussetzung. Das Inverse (In − A)−1 existiert. Die Identit¨at (In − A) ·
t X
Aν = In − At−1
ν=0
impliziert lim (In − A) ·
t→∞
t X ν=0
Aν = In .
(20)
2. Matrixnorm
121
Aufgrund der Submultiplikativit¨at der p-Norm, die wir in Lemma 11.6 gezeigt haben, gilt:
t+1
A ≤ kAk · kAk · · · kAk = kAkt+1 p p p p p | {z } (t + 1)-mal
Mit der Voraussetzung kAkp < 1 folgt limt→∞ At+1 p = 0. Gleichung (20) multipliziert mit (In − A)−1 ergibt: lim
t→∞
t X
Aν = (In − A)−1 .
(21)
ν=0
Mit der Dreiecksungleichung f¨ ur die Matrixnorm erhalten wir: ∞ X
(In − A)−1 ≤ kAν kp ≤ p ν=0
Die letzte Absch¨atzung ist die geometrische Reihe |x| < 1.
1 . 1 − kAkp P∞
ν ν=0 x
=
1 1−x
f¨ ur x ∈ R mit
Es folgt: Lemma 11.9. Seien A, B ∈ Mn,n (R) quadratische Matrizen mit kIn − ABkp ≤ f¨ ur ein < 1. Dann gilt: kIn − 2AB + (AB)2 kp ≤ 2 . | {z } =AB(AB−2In )
Beweis. Aus dem binomischen Lehrsatz und der Submultiplikativit¨at der p-Matrixnorm folgt:
In − 2AB + (AB)2 = (In − AB)2 ≤ 2 . p p
W¨ahle eine Startmatrix B0 mit kIn − AB0 kp ≤ f¨ ur ein < 1. F¨ ur die Folge Bi := Bi−1 (−ABi−1 + 2In ) i = 1, 2, 3, . . . gilt: i
kIn − ABi kp ≤ 2 . Nach jeder Iteration wird der Abstand ABi zur Einheitsmatrix In immer kleiner. Die Differenz In − ABi quadriert sich in jeder Iteration, man spricht von quadratischer Konvergenz. Anhand des Wertes wissen wir, nach wievielen Iterationen man eine n¨aherungsweise L¨osung mit der gew¨ unschten Approximationsg¨ ute gefunden hat. Die p-Norm der Startmatrix k¨onnen wir mit folgendem Satz nach oben mit Hilfe der p- und 1-Vektornorm absch¨atzen:
122
11. Euklidische Vektorr¨aume
Satz 11.10. Sei A ∈ Mn,n (R) eine quadratische Matrix mit Spalten A1 , . . . , An . Dann gilt: kxk1 kAkp ≤ max kAi kp · max . n i=1,...,n x∈R \{0} kxkp Beweis. Es ist: kAkp = max x6=0
kAxkp kxkp
= max
k
Pn
i=1 Ai xi kp
kxkp
x6=0
.
Aus der Dreicksungleichung und der positiven Homogenit¨at der p-Matrixnorm folgt: ! n n X X kxi k |xi | ≤ max max kAi kp · kAkp ≤ max kAi kp · i=1,2,...,n x6=0 x6=0 kxkp kxkp i=1 i=1 Pn Mit kxk1 = i=1 |xi | erhalten wir die Behauptung: kAkp ≤ max kAi kp · max i=1,...,n
x6=0
kxk1 . kxkp
Zum Beispiel ist
kxk1 kxk2
≤
√
n und
kxk1 kxk∞
≤ n f¨ ur x ∈ Rn \ {0}.
3. Skalarprodukt Ein euklidischer Vektorraum ist ein reeller Vektorraum in Verbindung mit einem Skalarprodukt: Def inition 11.11 (Skalarprodukt). Sei V ein R-Vektorraum. Ein Skalarprodukt auf V ist eine Abbildung h·, ·i : V × V → R, die folgenden Regeln gen¨ ugt: (S1) Positive Definitheit: hv, vi > 0 f¨ ur alle v 6= 0. (S2) Bilinearit¨ at: F¨ ur jedes v ∈ V sind die beiden Abbildungen hv, ·i , h·, vi : V → R mit w 7→ hv, wi und w → 7 hw, vi linear.1 (S3) Symmetrie: hv, wi = hw, vi f¨ ur alle v, w ∈ V . Man sagt kurz, h·, ·i ist eine positiv definite, symmetrische Bilinearform auf V . Ein wichtiges Beispiel eines Skalarproduktes auf dem Rn , das sogenannte kanonische Skalarprodukt auf dem Rn , haben wir bereits kennengelernt: n X hx, yi := xy T = xi yi . i=1
Man u ullt. Neben dem ¨berzeuge sich, dass es die Bedingungen eines Skalarprodukts erf¨ kanonischen Skalarprodukt gibt es auch Skalarprodukte, die durch einen Basiswechsel entstehen. Sei etwa B ∈ Mn,n (R) eine Basismatrix bestehend aus den Spaltenvektoren B1 , . . . , Bn . Dann hat das kanonische Skalarprodukt h·, ·i zur Basis B die Form h·, ·iB mit: hv, wiB := hBv, Bwi = (Bv)T (Bw) = v T B T Bw. 1Wegen der Symmetrie h¨ atte es gen¨ ugt, die Linearit¨ at in nur einer Komponente zu fordern.
3. Skalarprodukt
123
die Matrix Q := B T B ist symmetrisch, d.h. Q = QT . ur einen euklidischen Vektorraum verwenden wir als Norm die Abbildung kvk := p F¨ hv, vi. F¨ ur das kanonische Skalarprodukt im Rn liefert dies die euklidische L¨ange v u n uX kxk = t x2i . i=1
p Wir zeigen, daß kvk := phv, vi eine Norm ist. Aus den Eigenschaften des Skalarprodukts folgt unmittelbar hv, vi > 0 f¨ ur v 6= 0 und p p p p hλv, λvi = λ · hv, λvi = λ2 · hv, vi = |λ| · hv, vi. Die Dreiecksungleichung kv + wk ≤ kvk + kwk der Norm weist man mit Hilfe der Cauchy-Schwarz-Ungleichung nach: ≤kvk+kwk
z }| { kv + wk = kvk + 2 · hv, wi + kwk2 ≤ (kvk + kwk)2 2
2
Zu zeigen bleibt die Absch¨atzung hv, wi ≤ kvk · kwk: Satz 11.12 (Cauchy-Schwarz-Ungleichung). In jedem euklidischen Vektorraum V gilt f¨ ur v, w ∈ V : |hv, wi| ≤ kvk · kwk . Die Gleichheit gilt genau dann, wenn beide Vektoren linear abh¨ angig sind. Beweis. F¨ ur w = 0 gilt die Behauptung, so dass im weiteren w 6= 0 sei. Setze hv,wi λ := kwk2 . Es gilt: 0 ≤ hv − λw, v − λwi
(22)
= hv, v − λwi − λ · hw, v − λwi = hv, vi − 2λ · hv, wi + λ2 · hw, wi Mit hu, ui = kuk2 folgt: 0 ≤ kvk2 − 2 ·
hv, wi2 hv, wi2 hv, wi2 2 + = kvk − . kwk2 kwk2 kwk2
Wir erhalten die Behauptung aus hv, wi2 ≤ kvk2 · kwk2 . Die Gleichheit in (22) gilt genau dann, wenn w = 0 oder v = µw f¨ ur ein µ ∈ R. Seien x, y ∈ Rn \ {0} und h·, ·i das kanononische Skalarprodukt. Gem¨aß CauchySchwarz-Ungleichung gilt −1 ≤ Somit gilt cos ϕ =
hx,yi kxk·kyk
hx, yi ≤ +1. kxk · kyk
f¨ ur genau ein Winkel ϕ ∈ [0, π]:
124
11. Euklidische Vektorr¨aume
Abbildung 1. Winkel y y2
ϕK
-
x
cos ϕ
y1
Abbildung 2. Cosinus +1 π/2
0
π
3π/2
2π -
ϕ
−1 π/2
π
} rϕ
cos ϕ
e1 -
0/2π
2π/2 Satz 11.13. Zu x, y ∈ Rn \ {0} ist der Winkel zwischen x, y ϕ := ∠(x, y) := arccos mit cos ϕ =
hx, yi kxk · kyk
hx,yi kxk·kyk .
Beweis. Sei o.B.d.A. x = (x1 , x2 )T ∈ R2 mit x2 = 0 und x1 ≥ 0, sowie y = (y1 , y2 )T ∈ R2 . F¨ ur den Winkel ϕ = ∠(x, y) gilt: cos ϕ =
y1 kxk · y1 hx, yi Ankathete = =p 2 = . 2 Hypothenuse kxk · kyk kxk · kyk y 1 + y2
Wir erhalten als Verallgemeinerung des Satzes von Pythagoras:
3. Skalarprodukt
125
Satz 11.14 (Cosinussatz). F¨ ur x, y ∈ Rn \ {0} gilt mit ϕ := ∠(x, y): kx − yk2 = kxk2 + kyk2 − 2 hx, yi = kxk2 + kyk2 − 2 kxk · kyk · cos ϕ. F¨ ur cos ϕ = 0 ist ∠(x, y) = 21 π, also cos ϕ = 0
⇐⇒
kxk2 + kyk2 = kx − yk2 .
Korollar 11.15 (Parallelogramm-Gleichung). F¨ ur x, y ∈ Rn \ {0} gilt: kx + yk2 + kx − yk2 = 2 kxk2 + 2 kyk2 .
Abbildung 3. Parallelogramm-Gleichung x :
kx − yk
0
kx + yk
- x+y
j
y
Ist der Winkel ∠(v, w) = 90◦ , sagt man, der Vektor w steht senkrecht auf v: Def inition 11.16 (Orthogonalit¨at). Zwei Vektoren v, w ∈ V eines euklidischen Vektorraums V sind orthogonal oder senkrecht, v ⊥ w, falls hv, wi = 0. Wir schreiben v ⊥ U f¨ ur eine Menge U von Vektoren, wenn v orthogonal zu allen Vektoren u ∈ U ist. Eine Menge von Vektoren v1 , . . . , vn ∈ V heißt orthogonal, wenn vi ⊥ vj f¨ ur i 6= j. Wie f¨ ur das kanonische Skalarprodukt in Abschnitt 1 definiert man zu einem Untervektorraum U eines reellen Vektorraum V das orthogonale Komplement U ⊥ gem¨aß U ⊥ := {v ∈ V | hu, vi = 0 f¨ ur alle u ∈ U } = {v ∈ V | v ⊥ U } . Analog zu Satz 8.1 gilt V = U ⊕ U ⊥ . Def inition 11.17 (Orthogonal-, Orthonormalbasis). Die Vektoren b1 , . . . , bn eines Vektorraum V nennt man orthonormal oder Orthonormalsystem, wenn kbi k = 1 f¨ ur i = 1, . . . , n und bi ⊥ bj f¨ ur i 6= j.2 Bilden die Vektoren eine Basis von V , spricht man von einer Orthogonal- bzw. Orthonormalbasis. aus
Vektoren b1 , . . . , bn eines Orthogonalsystems sind stets linear unabh¨angig, denn Pn λ b ur i = 1, . . . , n: j=1 j j = 0 folgt f¨ * n + n X X 0 = h0, bi i = λ j bj , b i = λi · hbj , bi i = λi · hbi , bi i = λi · kbi k , j=1
j=1
2Anders ausgedr¨ uckt hbi , bj i = δi,j f¨ ur 1 ≤ i, j ≤ n.
126
11. Euklidische Vektorr¨aume
so dass wegen bi 6= 0 folgt kbi k = 6 0 und λ1 = · · · = λn = 0. Sei b1 , . . . , bn eine Orthogonalbasis P eines reellen Vektorraums V . Jeden Vektor v ∈ V k¨onnen wir schreiben als v = nj=1 λj bj . Es folgt f¨ ur i = 1, . . . , n: * n + n X X λ j bj , b i = λj hbj , bi i = λi · hbi , bi i = λi · kbi k2 hv, bi i = j=1
i=j
Die i-te Koordinate bez¨ uglich der Orthogonalbasis ist λi =
hv,bi i : kbi k2
Satz 11.18. Sei b1 , . . . , bn eine Orthogonalbasis eines reellen Vektorraums V . F¨ ur v ∈ V gilt: v=
n X hv, bi i i=1
F¨ ur eine Orthonormalbasis ist v =
· bi .
kbi k2
Pn
i=1 hv, bi i
· bi .
Sei V ein reeller Vektorraum und U ein Untervektorraum mit einer orthogonalen Basis b1 , . . . , bm . Diese k¨onnen wir durch Hinzunahme von Vektoren bm+1 , . . . , bn aus U ⊥ zu einer Basis von V erweitern. Die orthogonale Projektion πU : V → U ist gegeben durch: v 7→
m X hv, bj i j=1
kbj k2
· bj
Das Schmidt’sche Orthogonalisierungsverfahren erzeugt zu einer Basis b1 , . . . , bn eines euklidischen Vektorraums V eine Orthogonalbasis b∗1 , . . . , b∗n gem¨aß folgender Rekursion: b∗1 := b1 b∗i := bi −
i−1 X hbi , b∗ i j ∗ k2 kb j j=1
· b∗j
f¨ ur i > 1.
(23)
Die Vektoren b∗1 , . . . , b∗n nennt man die H¨ohen der Basisvektoren b1 , . . . , bn , die Ko∗ ¨ effizienten µi,j := hbkbi∗,bkj2i Gram-Schmidt-Koeffizienten. In Ubungsaufgabe 12.2 zeigen j wir die Korrektheit des Schmidt’schen Orthogonalisierungsverfahrens: Satz 11.19. Sei b1 , . . . , bn eine Basis eines euklidischen Vektorraums V . Die Vektoren b∗1 , . . . , b∗n der Rekursion (23) bilden eine Orthogonalbasis von V . Aus der Eindeutigkeit der Zerlegung bi = πU (bi ) + πU ⊥ (bi ) folgt, dass f¨ ur eine geordnete Basis, d.h. die Reihenfolge der Basisvektoren ist fest vorgegeben, die H¨ohen eindeutig bestimmt sind. Indem wir die H¨ohen b∗1 , . . . , b∗n der Orthogonalbasis normieren, also b∗i durch kb1∗ k · i b∗i ersetzen, erh¨alt man eine Orthonormalbasis, d.h. jeder euklidische Vektorrraum besitzt eine Orthonormalbasis.
4. Orthogonale Abbildungen und Matrizen
127
4. Orthogonale Abbildungen und Matrizen Wir nennen eine Abbildung orthogonal, wenn das gegebene Skalarprodukt zweier Vektoren x, y mit dem der Bilder u ¨bereinstimmt: Def inition 11.20 (Orthogonale Abbildung). Eine lineare Abbildung f : Rn → Rm heißt orthogonal (auch isometrisch), wenn f¨ ur alle x, y ∈ Rn gilt: hx, yi = hf (x), f (y)i . Der Begriff orthogonale Abbildung“ l¨aßt sich auf den Fall beliebiger Vektorr¨aume ” verallgemeinern. Sei V ein reeller, n-dimensionaler Vektorraum mit Basis B und Φ : V → Rn der Isomorphismus, der einen Vektor auf seinen Koordinatenvektor bez¨ uglich der Basis abbildet: Φ(Bt) = (t1 , . . . , tn )T . Durch hv, wiV := hΦ(v), Φ(w)i ist ein Skalarprodukt auf V definiert. Der Endomorphismus F : V → V heißt orthogonal, wenn hv, wiV = hf (v), f (w)i f¨ ur alle v, w ∈ V ist. Dies gilt genau dann, wenn die Abbildung (Φ ◦ f ◦ Φ−1 ) : Rn → Rn orthogonal ist. Lemma 11.21. Sei A ∈ Mn,n (R) und φA : Rn → Rn mit x 7→ Ax. Die Abbildung φA ist genau dann orthogonal (bez¨ uglich kanonischem Skalarprodukt), wenn AT = A−1 . Beweis. Sei e1 , . . . , en die Standardbasis des Rn . Die Abbildung φA ist genau dann orthogonal, wenn f¨ ur 1 ≤ i, j ≤ n gilt: hei , ej i = hφA (ei ), φA (ej )i . | {z } | {z } =eT i ·ej
T =eT i A Aej
Dies gilt genau dann, wenn AT A = In , also AT = A−1 .
Eine Basis b1 , . . . , bn heißt orthonormal, falls hbi , bj i = δi,j f¨ ur 1 ≤ i, j ≤ n. Satz 11.22. Sei A ∈ Mn,n (R) und φA : Rn → Rn mit x 7→ Ax. Bez¨ uglich des kanonischen Skalarprodukts sind folgende Aussagen ¨ aquivalent: a) Die Abbildung φA ist orthogonal, d.h. AT A = In . b) A−1 = AT . c) Die Zeilenvektoren bilden eine Orthonormalbasis des Rn . d) Die Spaltenvektoren bilden eine Orthonormalbasis des Rn . Wir nennen die Matrix A orthogonal, wenn die Spalten- bzw. Zeilenvektoren eine Orthonormalbasis des Rn bilden: Def inition 11.23 (Orthogonale Matrix). Eine quadratische Matrix A ∈ Mn,n (R) heißt orthogonal, wenn AT A = In . Die Menge der orthogonalen n × n-Matrizen bezeichnet man mit On (R) ⊆ Mn,n (R). Die orthogonalen n × n-Matrizen On (R) bilden bez¨ uglich der Multiplikation eine Gruppe bzw. eine Untergruppe von GLn (R):
128
11. Euklidische Vektorr¨aume
Satz 11.24. Die Menge der orthogonalen n×n-Matrizen On (R) ist ein multiplikative Gruppe. Beweis. Da die Matrix-Multiplikation assoziativ ist, gen¨ ugt der Nachweis, dass On (R) abgeschlossen ist gegen Multiplikation und Inversenbildung. Zu A, B ∈ On (R) gilt AB ∈ On (R), denn T T (AB)T (AB) = B T · A | {zA} ·B = B B = In . =In
Zu A ∈ On (R) gibt es ein Inverses A−1 = AT ∈ On (R).
Wir haben bereits einige der Matrixgruppen kennengelernt. Die allgemeine, lineare Gruppe ist GLn (K) = {A ∈ Mn,n (K) | det A 6= 0 } . F¨ ur K = R bilden die orthogonalen Matrizen On (R) = A ∈ GLn (R) AT A = In
eine Untergruppe von GLn (R), die sogenannte orthogonale Gruppe (vergleiche Satz 11.24 auf Seite 128). Die spezielle orthogonale Gruppe SOn (R) ist ihrerseits eine Untergruppe von On (R): SOn (R) = {A ∈ On (R) | det A = +1 } Beispiel 11.25. Beispiele orthogonaler 2 × 2-Matrizen sind Drehungen Dϕ um ϕ ∈ [0, 2π) und Spiegelungen SP: cos ϕ − sin ϕ 1 0 Dϕ = SP = sin ϕ cos ϕ 0 −1 Mit diesen beiden Matrix-Typen k¨onnen wir die Menge der orthogonalen 2 × 2Matrizen schreiben als O2 (R) = {Dϕ , SP ·Dϕ | ϕ ∈ [0, 2π) }. Es gilt [Beu98, Kap. 10.4]: Satz 11.26. Sei A ∈ On (R) eine orthogonale n × n-Matrix. Dann gibt es eine orthogonale Matrix T ∈ On (R), so dass T −1 AT von folgender Form ist: Ik −I` 0 D ϕ 1 (24) . . . . 0 Dϕm Jede orthogonale Abbildung φ : Rn → Rm hat bez¨ uglich einer geeigneten Orthonormalbasis eine darstellende Matrix der Form (24).
4. Orthogonale Abbildungen und Matrizen
129
Sei b1 , . . . , bn Basis eines euklidischen Vektorraums. Mit dem Gram-SchmidtOrthogonalisierungsverfahren b∗1 := b1 b∗i := bi −
i−1 X hbi , b∗ i j ∗ kbj k2 j=1
· b∗j
(25)
f¨ ur i > 1.
berechnet man eine Orthogonalbasis b∗1 , . . . , b∗n . Zu den Gram-Schmidt-Koeffizienten ∗ µi,j := hbkbi∗,bkj2i mit i > j definiere: j ( 1 f¨ ur i = j µij := 0 f¨ ur i < j, so dass:
b1 · · ·
bn = b∗1 · · ·
1 µ2,1 · · · µn−1,1 µn,1 0 1 µn−1,2 µn,2 .. .. . . .. ∗ .. bn · . . . 0 0 1 µn,n−1 0 ··· 0 0 1 | {z } T = µi,j 1≤i,j≤n
Wir normieren die Vektoren der Orthogonalbasis: b∗1
···
b∗n
=
b∗1 kb∗1 k
|
··· {z
b∗n kb∗n k
∈On (R)
· }
kb∗1 k
0 .. . .. . 0 · · · 0 kb∗n k {z } 0 .. .
0 .. . 0
|
·
Diagonalmatrix mit pos. Elementen
und erhalten:
b1 · · ·
b∗ bn = kb∗1 k | 1
··· {z
∈On (R)
b∗n kb∗n k
kb∗1 k
0 · . } .. 0
|
0 .. . ···
0 .. . · µi,j T 1≤i,j≤n .. . 0 0 kb∗n k {z } ·
∈ODn (R)
Da die Gram-Schmidt-Orthogonalisierung eindeutig ist, gilt: Satz 11.27. Sei B ∈ GLn (R). Dann existiert eine eindeutige Zerlegung B = OT mit orthogonaler Matrix O ∈ On (R) und obere Dreiecksmatrix T ∈ ODn (R). Korollar 11.28 (Iwasawa-Zerlegung). Sei B ∈ GLn (R). Dann existiert eine eindeutige Zerlegung B = ODT mit orthogonaler Matrix O ∈ On (R), einer Diagonalmatrix D mit positiven Diagonalelementen und einer oberen Dreiecksmatrix T ∈ ODn (R).
Teil 2
Lineare Algebra II
Kapitel 12
Konvexe Geometrie
Polyhedra, lineare Ungleichungssysteme und lineare Programmierung stellen drei Facetten des gleichen Problemfeldes dar: eine geometrische, eine algebraische und eine optimierende Sichtweise. Diese Beziehungen wurden zuerst von J. Fourier um 1820 bemerkt und sp¨ater im 20. Jahrhundert wiederentdeckt. In diesem Abschnitt besch¨aftigen wir uns mit der geometrischen und der algebraische Sicht, auf die lineare Programmierung gehen wir in Kapitel 13 ein.
1. Konvexe Mengen Zu p, q ∈ Rn bezeichnen wir die Verbindungsstrecke von p und q mit: [p, q] := {λp + (1 − λ)q | 0 ≤ λ ≤ 1 } = {λp + µq | λ ≥ 0, µ ≥ 0, λ + µ = 1 } . Def inition 12.1 (Konvexe Menge). Eine Teilmenge K ⊆ Rn ist eine konvexe Menge, wenn f¨ ur alle p, q ∈ K gilt [p, q] ⊆ K, d.h. die Verbindungsstrecke in K liegt. T Sei (Ki )i∈I eine Familie konvexer Mengen, dann ist auch der Durchschnitt i∈I Ki eine konvexe Menge. Die Vereinigung konvexer Mengen ist hingegen im allgemeinen nicht konvex. Dies f¨ uhrt zum Begriff der konvexen H¨ ulle: Def inition 12.2 (Konvexe H¨ ulle). Zu einer Teilmenge M ⊆ Rn ist die konvexe H¨ ulle \ kon(M ) := K. M ⊆K K konvex
Die konvexe H¨ ulle kon(M ) von M ist die kleinste konvexe Menge, die M umfasst. Zur vereinfachung der Notation schreiben wir kon(p1 , . . . , pk ) f¨ ur die konvexe H¨ ulle einer Menge von Punkten p1 , . . . , pk . P Def inition 12.3 (Konvexkombination). Eine Linearkombination ki=0 λi pi von k+1 Punkten p0 , . . . , pk ∈ Rn mit λ0 , . . . , λk ∈ R heißt Konvexkombination, wenn λ0 , . . . , λk ≥ P 0 und ki=0 λi = 1. 133
134
12. Konvexe Geometrie
Zum Bespiel sind die Punkte einer Verbindungsstrecke [p, q] genau die Konvexkombinationen der Punkte p und q. Lemma 12.4. Sei K ⊆ Rn eine konvexe Menge und p0 , . . . , pk ∈ K. Dann enth¨ alt Pk K jede Konvexkombination i=0 λi pi von p0 , . . . , pk . Beweis. F¨ ur k = 0 kommt nur p0 als Konvexkombination von p0 in Betracht, so dass die Behauptung f¨ ur k = 0 trivial ist. F¨ ur k ≥ 1 beweisen wir die Aussage durch Induktion u ber k: ¨ • Inmduktionsasis k = 1: Sei x eine Konvexkombination von p0 , p1 , diese liegt auf der Verbindungsstrecke: x ∈ [p0 , p1 ]. Da K konvex ist, gilt [p0 , p1 ] ⊆ K und es folgt x ∈ K. P • Induktionsschluß von k − 1 auf k: Sei x := ki=0 λi pi eine Konvexkombination. O.B.d.A. sei λk > 0. Dann ist µ := 1 − λ0 = λ1 + · · · + λk > 0 und es gilt λk λ1 p1 + · · · + pk . x = λ 0 p0 + µ µ µ | {z }
=:y
Pk
Wegen λµ1 , . . . , λµk ≥ 0 und i=1 λµi = µµ = 1 ist y eine Konvexkombination der k − 1 Punkten p1 , . . . , pk ∈ K. Nach Induktionssannahme gilt y ∈ K. Da x=
k X
λi pi = λ0 p0 + µy,
i=0
λ0 , µ ≥ 0 und λ0 + µ = 1 ist x eine Konvexkombination der beiden Punkte p0 , y ∈ K. Wir erhalten aus der Induktionsverankerung die Behauptung. Dies war zu zeigen.
Satz 12.5. F¨ ur jede Menge M ⊆ Rn gilt: ) ( k k ∈ N und p , . . . , p ∈ M , X 0 k P , kon(M ) = λ i pi λ0 , . . . , λk ≥ 0 mit ki=0 λi = 1 i=0
d.h. die konvexe H¨ ulle kon(M ) ist gleich der Menge L der Konvexkombinationen von je endlich vielen Punkten aus M . P P 0 0 Beweis. Wir zeigen, dass L konvex ist. Seien x := ki=0 λi pi und x0 := m i=0 λi pi 0 0 0 Konvexkombinationen von p0 , . . . , pk ∈ M und p0 , . . . , pm ∈ M . Zu zeigen ist [x, x ] ⊆ L. Sei y := λx + λ0 x0 ∈ [x, x0 ] mit λ, λ0 ≥ 0 und λ + λ0 = 1. Es gilt: y = λx + λ0 x0 = λ
m X i=0
λ i pi + λ 0
m X i=0
λ0i p0i
1. Konvexe Mengen
135
P Pm 0 0 mit λ m i=0 λi + λ i=0 λi ≥ 0. Damit ist y eine Konvexkombination der k + m Punkten p0 , . . . , pk , p00 , . . . , p0m ∈ M , so dass y ∈ L gilt. Def inition 12.6 (Polyeder, Polygon). Ein (konvexes) Polyeder P ⊆ Rn ist die konvexe H¨ ulle endlich vieler Punkte kon(p0 , p1 , . . . , pk ). Polyeder im R2 heißen Polygone. Im Englischen nennt man ein (konvexes) Polyeder Polytope. Ein Simplex ist ein einfaches Polyeder: Abbildung 1. Simplices s
s
s s
s
0-Simplex
s
1-Simplex
s
s
2-Simplex
s
s
3-Simplex
Def inition 12.7 (Simplex). Die konvexe H¨ ulle kon(p0 , . . . , pk ) von k + 1 Punkten p0 , . . . , pk ∈ Rn heißt k-Simplex, wenn p1 − p0 , p2 − p0 , . . . , pk − p0 linear unabh¨ angig sind. Die lineare Unabh¨angigkeit der Differenzvektoren ist unab¨angig von der Reihenfolge der Punkte p0 , p1 , . . . , pk . Wir hatten in Definition 3.6 auf Seite 31 zu einem affinen Teilraum A den Richtungsraum R(A) = {p − a0 | p ∈ A } = {p − q | p, q ∈ A } (mit festem a0 ∈ A) eingef¨ uhrt. Der Richtungsraum ist ein von der Wahl des Punktes a0 unabh¨angiger Vektorraum. Def inition 12.8 (Dimension affiner Untervektorraum). Die Dimension eines affinen Untervektoraums A ist die Dimension seines Richtungsraums, also dim A := dim R(A). Def inition 12.9 (Affine H¨ ulle). Zu einer Teilmenge M ⊆ Rn ist die affine H¨ ulle \ aff(M ) := A. M ⊆A A affiner Teilraum
Die affine H¨ ulle aff(M ) von M ist der kleinste affine Teilraum, der M umfasst. Def inition 12.10 (Affin unabh¨angig). Die k + 1 Punkte p0 , . . . , pk ∈ Rn heißen affin unabh¨ angig, wenn p1 − p0 , p2 − p0 , . . . , pk − p0 linear unabh¨ angig sind oder,¨ aquivalent, wenn dim aff(p0 , . . . , pk ) = k gilt. Def inition 12.11 (Halbraum, Polyhedron). Sei ϕ : Rn → R eine lineare Abbildung und b ∈ R. Eine Teilmenge H = {x ∈ Rn | ϕ(x) ≥ b } ⊆ Rn
136
12. Konvexe Geometrie
heißt (affiner) Halbraum. Ein Polyhedron P ⊆ Rn ist der Durchschnitt endlich vieler Halbr¨ aume. Die Dimension des Polyhedron P 6= ∅ ist ∃ affin unabh¨ a ngige dim P := dim aff(P ) = max k ∈ N . p0 , p 1 , . . . , p k ∈ P Abbildung 2. Halbraum
p p pp ppp ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppp pp p p p p p p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p pp ϕ(x) ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp≥ p p p p p pbp p p p p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pp p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp p p p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp p p pp ppp ppp ppp pp pp p p
ϕ(x) = b Eine lineare Abbildung ϕ : Rn → R ist gegeben durch ϕ(x) = ax f¨ ur einen n Zeilenvektor a ∈ R . Ein Polyhedron P k¨onnen wir schreiben als L¨osungsmenge eines linearen Ungleichungssystems Ax ≥ b: P = {x ∈ Rn | Ax ≥ b } . Def inition 12.12 (Extremalpunkt, Ecke). Sei K ⊆ Rn eine konvexe Menge. Ein Punkt p ∈ K heißt Extremalpunkt von K, falls kein q ∈ Rn \ {0} mit p ± q ∈ K existiert. E(K) bezeichne die Menge der Extremalpunkte von K. Die Extremalpunkte eines Polyhedron P nennt man Ecken von P . Folgende, ¨aquivalente Charakterisierungen der Extremalpunkte beweist man durch elementares Nachrechnen: Fakt 12.13. Sei K ⊆ Rn eine konvexe Menge. Dann sind folgende Aussagen ¨ aquivalent: a) p ∈ E(K), d.h. p ist ein Extremalpunkt von K. b) Es gibt keine Strecke [p1 , p2 ] ⊆ K mit p ∈ [p1 , p2 ] \ {p1 , p2 }. c) K \ {p} ist konvex. Lemma 12.14. Sei P := kon(p0 , . . . , pk ) ⊆ Rn ein Polyeder mit paarweise verschiedenen p0 , . . . , pk . Genau dann ist pk keine Ecke, wenn das Polyeder die konvexe H¨ ulle der u ¨brigen Punkte ist, also P = kon(p0 , . . . , pk−1 ). ¨ Beweis. Wir zeigen folgende Aquivalenz: pk ∈ / E(P ) Es gilt:
⇐⇒
pk ist Konvexkombination von p0 , . . . , pk−1
1. Konvexe Mengen
137
Abbildung 3. Ecke −q p p p pp pp ppp ppp ppp pppp pppp ppppp pppp ppp ppp pp p I psp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p pppppppppppppppppppppppp p ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp p p p p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p ppp ppppp ppppp pppppR ppppppppppppppppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp +q p p p p p p p p p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp p ppK pp ppp ppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pp p p pp pp ppp ppp ppp pp p
P ⇐“ Sei pk = k−1 Wegen pk ∈ / {p0 , . . . , pk−1 } gilt i=0 λi pi eine Konvexkombination. ” P λi < 1 f¨ ur alle i, so dass aufgrund k−1 λ = 1 mindestens zwei der λi -Werte i=0 i ungleich Null sind. Seien o.B.d.A. λ0 , λ1 6= 0. Mit := min(λ0 , λ) gilt pk ± (p0 − p1 ) ∈ P, P denn k−1 i=1 λi pi ± p0 ± p1 ist eine Konvexkombination von Punkten in P . Folglich gilt pk ∈ / E(P ). ⇒“ Sei pk ∈ / E(P ). Es existiert ein q ∈ Rn \ {0} mit pk ± q ∈ P . Seien pk + q = Pk−1 Pk−1 0 ” i=0 λi pi und pk − q = i=0 λi pi Konvexkombinationen. Dann ist k−1
(pk + q) + (pk − q) X λi + λ0i = pi pk = 2 2 i=0
ebenfalls eine Konvexkombination von p0 , . . . , pk−1 ∈ P , so dass kon(p0 , . . . , pk ) = kon(p0 , . . . , pk−1 ). Mit P = kon(p0 , . . . , pk ) folgt die Behauptung. Dies war zu zeigen.
Sei P := kon(p0 , . . . , pk ) ⊆ Rn ein Polyeder mit paarweise verschiedenen p0 , . . . , pk . Nach Lemma 12.14 gilt pk ∈ E(P )
⇐⇒
P 6= kon(p0 , . . . , pk−1 ),
so dass E(P ) ⊆ {p0 , . . . , pk } ist. Man kann alle Nicht-Extremalpunkte aus der Menge {p0 , . . . , pk } entfernen, ohne die konvexe H¨ ulle P zu ver¨andern. Wir erhalten folgenden Satz, der auf Minkowski1 zur¨ uckgeht: Korollar 12.15 (Satz von Minkowski). Jedes Polyeder P ⊆ Rn ist die konvexe H¨ ulle seiner Ecken, kurz P = kon(E(P )). Die Darstellung eines Polyeders als konvexe H¨ ulle seiner Ecken ist minimal, kanonisch und explizit. Ziel ist es im folgenden, eine kanonische, explizite Darstellung ¨ f¨ ur Polyhedra zu finden. In Ubungsaufgabe 13.2 wird gezeigt: 1Das Interesse von Hermann Minkowski (1864–1909) f¨ ur konvexe Geometrie und lineare Un-
gleichungen kam aus der Zahlentheorie. Er formuliert und bewies zahlreiche wichtige Resultate f¨ ur konvexe Menge und deren Volumen. Mit seinem Buch Geometrie der Zahlen“ (1896) begr¨ undete er ” das gleichnamigen Gebiet der Mathematik.
138
12. Konvexe Geometrie
Abbildung 4. Zerlegung in Simplices p ppp ppp ppp ppp pp pp p p p p pp pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp pppp ppp ppp ppp pp pp pp pp p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pp p p p ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pp p p ppp pp pp p p p
Satz 12.16. Jedes Polyeder P ist die disjunkte“ Vereinigung von endlich vielen ” Simplices S1 , S2 , . . . , St mit E(Si ) ⊆ E(P ). Disjunkt“ bedeutet, dass dim(Si ∩ Sj ) < ” dim P f¨ ur i 6= j. Abbildung 4 zeigt ein Beispiel zur Aussage des Satzes 12.16: Der Polyeder ist die disjunkte Vereinigung dreier Simplices. Der Beweis zu folgendem Satz, wonach ein Polyeder ein Polyhedron ist, wird ¨ ebenfall in Ubungsaufgabe 13.2 gef¨ uhrt: Satz 12.17. Jedes Polyeder P ⊆ Rn ist der Durchschnitt endlich vieler Halbr¨ aume und ist somit ein Polyhedron.
Abbildung 5. Seite eines Polyhedron H=
H= H+
p pp pp p p H − pp pp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp ppp ppp pp p p pppppppppppppppppppp ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp ppp pp pp p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp P ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp pp p p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p p p pp ppp ppp ppp p
H−
+
H ppp ppp ppp pppp pppp ppppp pppp ppp ppp pp p p p p p p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p p ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp ppppppppppppppppppppppppppppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp p pppppppppppppppp ppp pp ppp ppp ppp ppp ppp ppp ppp ppp P ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p p p p pp ppp ppp ppp ppp ppp ppp pp p p pp p
Def inition 12.18 (Seite eines Polyhedron). Sei P ⊆ Rn ein Polyhedron und H = {x ∈ Rn | ϕ(x) ≥ b } ein Halbraum. Dann ist P ∩ H eine Seite von P zur St¨ utzebene H = := {x ∈ Rn | ϕ(x) = b }, falls P ∩ H ⊆ H = . Der Polyhedron P und die leere Megne ∅ sind (uneigentliche) Seiten von P zur St¨ utzebene Rn . P ∩ H = ist genau dann eine Seite von P zur St¨ utzebene H = , wenn P ⊆ H + := {x ∈ Rn | ϕ(x) ≥ b } oder P ⊆ H − := {x ∈ Rn | ϕ(x) ≤ b } ,
1. Konvexe Mengen
139
d.h. H = schneidet P nicht im Inneren von P . Da ein Polyhedron der (endliche) Durchschnitt von Halbr¨aumen ist, k¨onnen wir jede Seite als endlichen Durchschnitt von Halbr¨aumen darstellen: Lemma 12.19. Jede Seite S eines Polyhedron P ist selbst ein Polyhedron. Jede Seite von S ist ebenfalls eine Seite von P . Seiten der Dimension k bezeichnet man als k-Seite des Polyhedron P . Wir nennen 1-Seiten Kanten und (dim P − 1)-Seiten Fl¨ achen des Polyhedron P . Die Ecken E(P ) des Polyhedron sind die 0-Seiten. Satz 12.20. Sei P ⊆ Rn ein beschr¨ ankter Polyhedron. Dann ist P ein Polyeder mit P = kon(E(P )). Beweis. Die Behauptung ist trival f¨ ur P = ∅ und k = 0 Wir beweisen die Aussage des Satzes f¨ ur die u ¨brigen F¨alle durch Induktion u ¨ber k := dim P ≥ 1: • Induktionsbasis k = 1: Es gilt P = [p1 , p2 ], E(P ) = {p1 , p2 } und P = kon(p1 , p2 ). • Induktionsschluß von k − 1 auf k: Der Polyhedron P habe die (k − 1)-Seiten P1 , . . . , Pm . Der Polyhedron P hat m Fl¨achen P1 , . . . , Pm , wenn er der Durchschnitt von m Halbr¨aumen ist und kein Halbraum redundant ist. Wir setzen zun¨achst voraus, dass P = kon(P1 , . . . , Pm ).
(26)
Dann gilt: [ [ m m (26) Ind.Ann. P = kon Pi = kon kon(E(Pi )) i=1
i=1
¨ In Verbindung mit Ubungsaufgabe 13.3 folgt, da die Ecken von P genau die Ecken der Pi sind: [ m P = kon E(Pi ) = kon(E(P )). i=1
Zu zeigen bleibt Gleichung (26), d.h. f¨ ur alle p ∈ P ist p ∈ kon
Sm
Abbildung 6. Schiefe Seiten Hi , Hj p p p p p pp ppp ppp ppp ppp pppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp p p p p p p p p p p p p p p ppp ppp ppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppppppppppppppppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppsppp ppp ppp ppp ppp p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp
p p pp pp pp p ppp ppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp p p p p p p p p j ppp ppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp ppH ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp sppp ppp ppp ppp ppp ppppppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p
Hi
P unbeschr¨ankt F¨ ur den Fall p ∈
Sm
i=1 Pi
trifft dies offenbar zu, so dass im weiteren p∈P \
m [
i=1
Pi
i=1 Pi
.
140
12. Konvexe Geometrie
T sei. Der Polyhedron ist der Durchschnitt P = m j=1 Hj von m ≥ 2 paarweise verschiedenen Halbr¨aumen. Weil P beschr¨ankt ist, gibt es Hi , Hj , die schief zu einander liegen (vergleiche Abbildung 6, der rechte Fall ist nicht m¨oglich). Es existiert eine Gerade G durch p, so dass [p0 , p1 ] := G ∩ P beschr¨ankt ist. Aus [ m p ∈ kon(p0 , p1 ) ⊆ kon Pi = kon(P1 , . . . , Pm ) i=1
folgt die Behauptung. Dies war zu zeigen.
Wir wollen Satz 12.20 auf unbeschr¨ankte Polyhedra erweitern. Die Gleichung (26) gilt f¨ ur beliebige Polyhedra bis auf die Sonderf¨alle aff
• P = Rn (Rn hat keine eigentliche Seite) und aff
• P = H f¨ ur einen Halbraum H (H hat genau eine eigentliche Seite H = ). aff
Dabei bezeichnet =“ affin ismorph: ” Def inition 12.21 (Affin isomorph). Zwei Teilmenge M, M 0 ⊆ Rn sind affin isoaff
morph, M = M 0 , wenn es eine affine Isomorphie ψ : aff(M ) → aff(M 0 ) mit ψ(M ) = M 0 gibt. Sei aff(M ) = b + V mit Untervektorraum V ⊆ Rn und b ∈ Rn . Die Abbildung ψ : b+V → b0 +V 0 ist ein affiner Isomorphismus, falls es einen Vektorraum-Isomorphismus ϕ : V → V 0 mit ψ(b + x) = b0 + ϕ(x) gibt. Lemma 12.22. Sei P ⊆ Rn ein mit n := dim P , P 6= Rn und P kein Sm Polyhedron ur die (n − 1)-Seiten Pi von P . Halbraum. Dann gilt P = kon i=1 Pi f¨ Abbildung 7. Gerade G durch p p0 p pp ppp pp p
ppppppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pp p p p p p0 p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p pppppppppppppppppppppp prp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p ppp pp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppprppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp pprp p1 ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp rp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp rp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppppppppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p p p p p p p p p p p p p p p p rp p p p p p p p p p p p p p p p p p p p p p
p1
S Beweis. Zu p ∈ P \ m 0 , p1] := G ∩ P i=1 Pi gibt es eine Gerade G durch p, so dass S[p m beschr¨ankt ist (siehe Abildung 7). Aus p ∈ kon(p0 , p1 ) ⊆ kon i=1 Pi folgt die Behauptung. Es gilt: Satz 12.23. Sei P ⊆ Rn ein Polyhedron mit n := dim P , P 6= Rn und P kein Sk ur die eigentlichen Seiten H1 , . . . , Hk von Halbraum. Dann gilt P = kon j=1 Hj f¨ P , die affine R¨ aume bzw. Halbr¨ aume sind (Ecken sind Hj der Dimension 0).
1. Konvexe Mengen
141
Beweis. Wir zeigen die Aussage durch Induktion u ur n = 0 ¨ber n. Die Verankerung f¨ ist trivial. Sei n ≥ 1. Es gilt f¨ ur die (n − 1)-Seitenfl¨achen P1 , . . . , Pm von P : Lemma 12.22
P
⊆
[ [ m k Ind.Ann. kon Pi ⊆ kon Hj . i=1
j=1
Entweder ist die Induktionsvoraussetzung anwendbar auf Pi oder Pi = Hj f¨ ur ein j. Die Seitenfl¨ache der Dimension maximal n − 2 von P sind genau die Seitenfl¨ache der Dimension h¨ochstens n − 2 der P1 , . . . , Pm .
Abbildung 8. Halbraum als Konvexe H¨ ulle von Halbstrahlen p p pp ppp ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppp pp p p p p p p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p p p p p p p p p p p p p p p p p p p p p p pp ] p ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp 3 p p p pp p p p p p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp p p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp + pp pp pp pp pp pp pp pp pp p p p p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p p ppp ppp ppp ppp ppp ppp H pp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp ppp ppp pp p pp pp pp pp pp pp pp pp pp pp pp pp pp p ^ pp ppp pppp pppp pppp ppp ppp pp p p p
H=
Def inition 12.24 (Halbgerade). Eine Teilmenge G ⊆ Rn heißt Halbgerade, falls es a, a0 ∈ Rn gibt mit G = {a0 + λa | λ ∈ R≥0 } . Jeder Halbraum im Rn ist die konvexe H¨ ulle von n + 1 Halbgeraden (vergleiche Abbildung 8). Korollar 12.25. Eine Teilmenge P ⊆ Rn ist genau dann ein Polyhedron, wenn P die konvexe H¨ ulle von endlich vielen Punkten und Halbgeraden ist. Die Zerlegung eines Polyhedron P ⊆ Rn in ein Polyeder P 0 und einen sogenannten Kegel C P = P0 + C (vergleiche Abbildung 9) ist eindeutig, sofern E(P ) = E(P 0 ) Es gilt dann f¨ ur C: Aus p ∈ P folgt p + λx ∈ C C := x ∈ Rn . f¨ ur alle λ ∈ R≥0
Wir besch¨aftigen uns mit Kegeln in Abschnitt 3.
142
12. Konvexe Geometrie
Abbildung 9. Zerlegung Polyhedron in Polyeder und Kegel -
=
+
-
2. Funktionen u ¨ ber konvexen Mengen In diesem Abschnitt betrachten wir konvexe (konkave, lineare) Funktionen u ¨ber konvexen Menge. Def inition 12.26 (Konvexe Funktion). Sei K ⊆ Rn eine konvexe Menge. Eine Funktion f : K → R heißt konvex, wenn f¨ ur alle p, q ∈ K und λ ∈ [0, 1] gilt: f (λp + (1 − λ)q) ≤ λf (p) + (1 − λ)f (q).
(27)
Induktiv folgt aus Eigenschaft (27): Falls f eine konvexe Funktion ist, gilt f¨ ur jede Konvexkombination der Punkte p0 , . . . , pk ∈ K: X X k k f λ i pi ≤ λi f (pi ). i=0
i=0
Im Fall K ⊆ R gilt f¨ ur konvexe Funktionen, dass wie in Abbildung 10 die Funktionswerte nicht oberhalb der Verbindungsstrecke [p, q] liegen. Abbildung 10. Konvexe Funktion f p
r
r
q
Wir wollen eine konvexe Funktion f u ¨ber einer konvexen Menge K minimieren. Ein Punkt p heißt lokale Minimalstelle, wenn in einer -Umgebung U (p) := {q ∈ K : kp − qk ≤ } um p die Funktionswerte f (p) ≤ f (q) sind. F¨ ur konvexe Funktionen ist jede lokale Minimalstelle p eine globale Minimalstelle, d.h. f (p) ≤ f (q) f¨ ur alle q ∈ K:
2. Funktionen u ¨ ber konvexen Mengen
143
Satz 12.27. Sei K ⊆ Rn eine konvexe Menge und f : K → R eine konvexe Funktion. Dann ist jede lokale Minimalstelle von f globale Minimalstelle. Beweis. Sei p ∈ K eine lokale Minimalstelle. Dann existiert ein ∈ (0, 1), so dass die Funktionswerte der Punkte in der -Umgebung U (p) nicht kleiner als f (p) sind: ∀q ∈ U (p) :
f (p) ≤ f (q).
(28)
Angenommen, p sei keine gobale Minimalstelle von f , d.h. es g¨abe ein y ∈ K mit f (y) < f (p). Betrachten wir die Punkte der Verbindungsstrecke [p, y] ⊆ K, die in der -Umgebung U (p) liegen. F¨ ur λ ∈ (0, ) gilt, weil f eine konvexe Funktion ist: f (λp + (1 − λ)y) ≤ λf (p) + (1 − λ) f (y) < λf (p) + (1 − λ)f (p) = f (p), |{z}
so dass ein Punkte q ∈ [p, y] ∩ U (p) mit f (q) < f (p) existiert — Widerspruch zu (28). Aus Satz 12.27 folgt f¨ ur eine konkave Funktion f , dass eine lokale Maximalstelle von f globale Maximalstelle ist: Def inition 12.28 (Konkave Funktion). Sei K ⊆ Rn eine konvexe Menge. Eine Funktion f : K → R heißt konkav, wenn −f eine konvexe Funktion ist. In der linearen Programmierung versuchen wir, eine lineare Funktion f u ¨ber einem konvexen Polyeder zu optimieren (minimieren oder maximieren). Da lineare Funktionen sowohl konvex als auch konkav sind, hat man die globale Extremalstelle gefunden, wenn es sich um eine lokale Optimalstelle handelt. Satz 12.29. Sei P ⊆ Rn ein Polyeder und f : P → R eine konvex Funktion. Dann gilt sup f (p) = max f (p), p∈E(P )
p∈P
d.h. f nimmt das Maximum an einer Ecke an. Beweis. Angenommen, es g¨abe einen Nichtecke y ∈ P \ E(P ) mit f (y) > max f (p). p∈E(P )
Nach Korollar 12.15 ist der Punkt y eine Konvexkombination von Ecken p0 , . . . , pk P des Polyeders, d.h. y = ki=0 λi pi mit λi 6= 0. Weil die Funktion f konvex ist und Pk atzung: i=1 λ = 1 gilt, erhalten wir folgende Absch¨ X X k k f (y) = f λ i pi ≤ λi f (pi ) ≤ max f (pi ) ≤ max f (p) i=0
i=0
i
p∈E(P )
Dies ist ein Widerspruch zur Annahme f (y) > maxp∈E(P ) f (p).
Weil eine lineare Funktion sowohl konvex als auch konkav ist, folgt aus Satz 12.29, dass beim Optimieren einer linearen Funktion u ¨ber einem Polyeder eine optimale Ecke existiert:
144
12. Konvexe Geometrie
Korollar 12.30. Sei P ⊆ Rn ein Polyeder und f : Rn → R eine lineare Funktion. Dann gilt: a) sup f (P ) = maxp∈E(P ) f (p). b) inf f (P ) = minp∈E(P ) f (p). F¨ ur Polyhedra gilt ein entsprechendes Resultat, dass wir in Kapitel 13 (Satz 13.5 auf Seite 156) beweisen werden: Korollar 12.31. Sei P ⊆ Rn ein Polyhedra mit E(P ) 6= ∅ und f : Rn → R eine lineare Funktion. Dann gilt a) sup f (P ) = maxp∈E(P ) f (p), sofern sup f (P ) < +∞. b) inf f (P ) = minp∈E(P ) f (p), sofern inf f (P ) > −∞. Der Satz von Minkowski, Korollar 12.15 auf Seite 137, wonach ein Polyeder die konvexe H¨ ulle seiner Ecken ist, gilt nicht nur f¨ ur Polyeder, sondern f¨ ur beliebige konvexe, abgeschlossene, beschr¨ankte Mengen. Analog zu Satz 12.29 nimmt eine konvexe Funktion f ihr Maximum an einer Extremalstelle an, unter der Voraussetzung, dass die konvexe Menge Extremalpunkte hat und f beschr¨ankt ist: Satz 12.32. Sei K ⊆ Rn eine konvexe, abgeschlossene, beschr¨ ankte Menge mit E(K) 6= ∅ und f : K → R eine konvexe Funktion. Dann gilt: a) K = kon(E(K)). b) sup f (K) = maxp∈E(K) f (p), sofern sup f (K) < +∞.
Abbildung 11. Trennungslemma H= ϕ(x) ≤ ϕ(x0 ) q
r w
y
p p p p p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p pp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp K pppppppppppppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp spppppx pp pp ppp ppp0ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp p pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppppppppppppppppppp
r
Zum Abschluß formulieren und beweisen wir das sogenannte Trennungslemma, das sp¨ater zu Dualit¨atsbeweisen verwendet wird: Satz 12.33 (Trennungslemma). Sei K ⊆ Rn eine konvexe, abgeschlossene Menge und q ∈ Rn \ K ein Punkt außerhalb von K. Dann gibt es eine lineare Funktion ϕ : Rn → R mit ϕ(x) > ϕ(q) f¨ ur alle x ∈ K.
3. Kegel und Farkas’ Lemma
145
Beweis. Sei h·, ·i das Standardskalarprodukt und k·k die euklidsche Norm, d.h. kxk = p hx, xi. Die Funktion x 7→ kx − qk nimmt ihr Minimum f¨ ur x ∈ K im n¨achsten“ ” K-Punkte x0 zu q an (vergleiche Abbildung 11). Setze: ϕ(x) := hx, x0 − qi = (x0 − q)T x. Sei H = := {x ∈ Rn | ϕ(x) = ϕ(x0 ) } wie in Abbildung 11. Der Richtungsraum R(H = ) der Hyperebene H = ist orthogonal zu x0 − q. Es gilt f¨ ur den vorgegebenen Punkt q ∈ Rn \ K: hq, x0 − qi = ϕ(q) ≥ ϕ(x0 ) = hx0 − q + q, x0 − qi = kx0 − qk2 + hq, x0 − qi . Angenommen, es existierte ein y0 ∈ K mit ϕ(y) < ϕ(x0 ). Zu Vereinfachung der Notation sei q := 0. Weil K konvex ist, gilt [x0 , y0 ] ⊆ K, d.h. zu jedem λ ∈ [0, 1] gilt y(λ) := x0 + λ(y0 − x0 ) ∈ K. Wir zeigen, dass die Norm von y := y(λ) von x0 weg, also mit zunehmendem λ, zun¨achst abnimmt, was der Wahl von x0 widerspricht. Es ist: f (λ) := kx0 k2 − kyk2 = hx0 , x0 i − hy, yi = −λ2 hy0 − x0 , y0 − x0 i + 2λ(hx0 , x0 i − hx0 , y0 i) Die Ableitung f 0 der Funktion f : R → R an der Stelle λ = 0 liefert: f 0 (0) = 2(hx0 , x0 i − hx0 , y0 i). Es existiert ein > 0, so dass f¨ ur y = y(λ) mit 0 < λ < gilt: kyk < kx0 k Dies ist ein Widerspruch zur Wahl von x0 , so dass unsere Annahme, es g¨abe ein y0 ∈ K mit ϕ(y) < ϕ(y0 ) falsch ist. Im Beweis zum Trennungslemma ist H = St¨ utzebene durch x0 , das auf dem Rand Rd(K) der Menge K liegt. Zu jedem x0 ∈ Rd(K) gibt es eine St¨ utzebene mit x0 ∈ H = + und K ⊆ H .
3. Kegel und Farkas’ Lemma Zur Vorbereitung des Beweises zu Farkas’ Lemma f¨ uhren wir die Begriffe des Kegels und Polydehrals ein und weisen Eigenschaften nach. Def inition 12.34 (Kegel, Polyhedral). Ein (konvexer) Kegel (Cone) ist eine nichtleere Teilmenge C ⊆ Kn , so dass mit c1 , c2 ∈ C auch λ1 c2 + λ2 c2 ∈ C f¨ ur alle λ1 , λ2 ∈ R≥0 gilt. Ein Kegel der Form C = {x | Ax ≤ 0 } heißt polyhedral. Ist (Ci )i∈I eine Familie von Kegeln, dann ist auch der Durchschnitt Kegel.
T
i∈I
Ci ein
146
12. Konvexe Geometrie
Abbildung 12. Beispiel Kegel x2 6 pp pppp pp pp pp ppppp ppppp ppppp ppppp ppppp pppp pp pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppp p pp pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp p pppppppppppppppppppp p ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp pp pp pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp C pppppppppppppppppppp p p p p p p p p p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp p ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp pppp pppp pppp pppp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p p p p p p ppp ppp ppp pp pp pp pp pp pp p p p p p
- x1
0
Def inition 12.35 (Endlich erzeugter Kegel). Zu einer Teilmenge M ⊆ Rn ist \ cone(M ) := C. C⊇M C Kegel
der kleinste Kegel, der M umfasst. ¨ In Ubungsaufgabe 15.1 zeigen wir: Satz 12.36. F¨ ur jede Menge M ⊆ Rn gilt: ) ( k X k ∈ N und p0 , . . . , pk ∈ M , cone(M ) := λ i pi . λ0 , . . . , λ k ≥ 0 i=0
Vergleicht man diese Darstellung mit der einer konvexen Menge aus Satz 12.5 auf Seite 134, so folgt cone(M ) = R≥0 · kon(M ). Lemma 12.37. Der Durchschnitt von beliebig vielen, endlich erzeugten Kegel ist endlich erzeugt. Beweis. Der Durchschnitt von Polyedern ist wieder ein Polyeder, sofern er nicht leer ist. Der Durchscnitt von Kegel ist nie leer, denn er enth¨alt den Nullpunkt. Def inition 12.38 (Dualer Kegel). Der duale Kegel zu einem Kegel C ⊆ Rn ist C ∗ := y ∈ Rn xT y ≥ 0 f¨ ur alle x ∈ C . C ∗ ist ein Kegel, denn zu y1 , y2 ∈ C ∗ gilt f¨ ur x ∈ C und λ1 , λ2 ≥ 0: xT (λ1 y1 + λ2 y2 ) = λ1 xT y1 +λ2 xT y2 ≥ 0 + 0 = 0, | {z } | {z } ≥0
so dass aus y1 , y2 ∈
C∗
folgt λ1 y1 + λ2 y2 ∈
≥0
C ∗.
3. Kegel und Farkas’ Lemma
147
Abbildung 13. Beispiel Kegel und dualer Kegel 6
0
C∗
p p p pp pp pp ppp ppp ppp ppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp p p p p p p p p p p p p pp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pqpqpp ppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp p p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppC ppppppppppppppppp p p pp pp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p p pp pp ppp ppp ppp ppp ppp ppp ppp ppp p p p pp pp ppp
Beispiel 12.39. Abbildung 13 zeigt einen Kegel C und den dualen Kegel C ∗ . Seien Csub , C ⊆ R2 Kegel mit Csub ⊆ C, dann gilt f¨ ur die dualen Kegel die umgekehrte ∗ Inklusion Csub ⊇ C ∗ . Falls C = R2 , dann besteht der duale Kegel nur aus dem Ursprung C ∗ = {0}. Wir haben im Kapitel 7 u ¨ber lineare Codes gesehen, dass der duale des dualen Codes C ⊥ der Ausgangscode C ist. Die gleiche Aussage trifft auch auf den dualen eines dualen Kegels C ∗ zu, sofern C abgeschlossen ist: Satz 12.40. Sei C ⊆ Rn ein abgeschlossener Kegel. Dann gilt (C ∗ )∗ = C. Beweis. Es gilt: C ∗ = y ∈ Rn (C ∗ )∗ = z ∈ Rn
T x y ≥ 0 f¨ ur alle x ∈ C T y z ≥ 0 f¨ ur alle y ∈ C ∗
Nach Definition gilt y T x = xT y ≥ 0. f¨ ur alle x ∈ C und y ∈ C ∗ , so dass C ⊆ (C ∗ )∗ . Zu zeigen bleibt die Inklusion (C ∗ )∗ ⊆ C. Angenommen, diese Inklusion sei falsch, d.h. es existiert ein z ∈ (C ∗ )∗ mit z ∈ / C. Sei x ∈ Rn ϕ(x) := uT x = u0 die Trennungsebene zu z und C. Gem¨aß Trennungslemma, Satz 12.33 auf Seite 144, gilt: • ϕ(z) = uT z ≤ u0 und • ϕ(x) = uT x ≥ u0 f¨ ur alle x ∈ C. Dann ist ϕ(x) f¨ ur x ∈ C nach unten beschr¨ankt. Die Abbildung ϕ(x) nimmt ihr Minimum 0 an, und zwar an der Stelle x = 0. Die Absch¨atzung uT z ≤ u0 ≤ uT x = ϕ(x)
f¨ ur alle x ∈ C
impliziert uT z ≤ 0 (wegen ϕ(0) = 0 und 0 ∈ C). Aus uT x ≥ 0 f¨ ur alle x ∈ C folgt ∗ ∗ ∗ u ∈ C . Wir erhalten den Widerspruch z ∈ / (C ) , denn aufgrund uT z < 0 ist die Forderung y T z ≥ 0 nicht erf¨ ullt f¨ ur alle y ∈ C ∗ . Satz 12.41. Sei C ⊆ Rn ein abgeschlossener Kegel. Dann gilt:
148
12. Konvexe Geometrie
a) C ist genau dann endlich erzeugt, wenn C ∗ endlich erzeugt ist. b) C ist genau dann endlich erzeugt, wenn C polyhedral. Beweis. Zu x ∈ R sei y1 , . . . , yn−1 eine Basis von span(x)⊥ = (xR)⊥ . Der duale Kegel cone(x)∗ = cone(x, y1 , . . . , yn−1 ) ist endlich erzeugt. Abbildung 14. Basis von (xR)⊥ x
0 (xR)⊥
a) Sei C = cone(x1 , . . . , xk ) endlich erzeugt. Dann gilt C ∗ = cone(x1 , . . . , xk )∗ =
k \
cone(xi )∗ ,
(29)
i=1
denn X k i=1
λi xi
T
·y =
k X
λi xTi y ≥ 0
i=1
folgt xTi y ≥ 0 f¨ ur alle i und umgekehrt. Also ist der duale Kegel C ∗ der ¨ Durchschnitt von endlich erzeugten Kegeln und nach Ubungsaufgabe 15.3 somit endlich erzeugt. Wir haben gezeigt, dass mit C ebenfalls der duale Kegel C ∗ endlich erzeugt ist. Weil C nach Voraussetzung abgeschlossen ist, wenden wir Satz 12.40, also (C ∗ )∗ = C, an und erhalten die R¨ uckrichtung der Behauptung. b) Angenommen, C = {x | Ax ≤ 0 } sei Polyhedral. Bezeichne aT1 , . . . , aTm die Zeilenvektoren der Matrix A. Aufgrund von Gleichung (29) gilt: C=
m \
cone(aTi )∗ = cone(aT1 , . . . , aTm )∗ .
i=1
¨ Nach Ubungsaufgabe 15.3 ist C als Durchschnitt von endlich erzeugten Kegeln ebenfalls endlich erzeugt.
3. Kegel und Farkas’ Lemma
149
Sei umgekehrt C = cone(x1 , . . . , xk ) ein endlich erzeugter Kegel. Nach Satz 12.40 gilt: ∗ ∗ C = cone(x1 , . . . , xk )∗ = y y T xi ≥ 0 f¨ ur i = 1, 2, . . . , k . | {z } =C ∗ C ∗ polyhedral.
Also ist der endlich erzeugte, duale Kegel Nach Satz 12.40 ∗ folgt: Falls C endlich erzeugt ist, dann ist ebenfalls C = (C ∗ )∗ endlich erzeugt und polyhedral. Dies war zu zeigen.
Satz 12.42 (Farkas’ Lemma). F¨ ur A ∈ Mm,n (R) und c ∈ Rm sind folgende Aussagen aquivalent: ¨ a) F¨ ur alle x ∈ Rm mit Ax ≥ 0 gilt cT x ≥ 0. b) Es existiert ein y ∈ Rm mit y ≥ 0 und cT = y T A. Beweis. Sei C der von den Zeilenvektoren aT1 , . . . , aTm der Matrix A erzeugten Kegel. Gem¨aß Satz 12.36 gilt: (m ) X C := cone(aT1 , . . . , aTm ) = λi aTi λ1 , . . . , λm ≥ 0 . i=1
aTi x
Da die Forderung Ax ≥ 0 und ≥ 0 f¨ ur i = 1, . . . , m gleichwertig sind, haben wir n ¨ f¨ ur alle x ∈ R folgende Aquivalenz: Ax ≥ 0
⇐⇒
x ∈ C ∗.
Damit folgt: • Aussage a) ist a¨quivalent zu c ∈ (C ∗ )∗ . • Aussage b) ist ¨aquivalent zu c ∈ C. Weil C ein abgeschlossener Kegel ist, erhalten wir C = (C ∗ )∗ aus Satz 12.40, d.h. beide Aussagen sind gleichwertig. Wir folgern aus Farkas’ Lemma, Satz 12.42, die nachstehende Variante: Korollar 12.43 (Farkas’ Lemma – Variante I). F¨ ur A ∈ Mm,n (R) und b ∈ Rn sind folgende Aussagen ¨ aquivalent: a) Es existiert ein x ≥ 0 mit Ax ≤ b. b) F¨ ur alle y ∈ Rm mit y T A ≥ 0 gilt y T b ≥ 0. Beweis. Setze Aext := (A, Im ) ∈ Mm,m+n (R). Folgende Aussagen sind ¨aquivalent, denn Ax ≤ b kann man gleichwertig schreiben als Ax + s = b mit s ≥ 0: a) Es existiert ein x ∈ Rn mit Ax ≤ b. b’) Es existiert ein xext ≥ 0 mit Aext xext = b. Wir wenden Farkas Lemma 12.42 mit A := AText und c := b auf Aussage b’) an und erhalten, dass a) Es existiert ein x ≥ 0 mit Ax ≤ b.
150
12. Konvexe Geometrie
b) F¨ ur alle y ∈ Rm mit y T Aext ≥ 0 gilt bT y ≥ 0. ¨aquivalent sind.
¨ In Ubungsaufgabe 17.3 geben wir eine weitere Variante von Farkas’ Lemma: Korollar 12.44 (Farkas’ Lemma – Variante II). F¨ ur A ∈ Mm,n (R) und b ∈ Rn sind folgende Aussagen ¨ aquivalent: a) Es existiert ein x ∈ Rn mit Ax ≤ b. b) F¨ ur alle y ∈ Rm mit y ≥ 0 und y T A = 0 gilt y T b ≥ 0.
4. Eulers Polyederformel Wir wollen zum Abschluß des Kapitels Eulers Polyederformel f¨ ur Polyeder mit einfachen Ecken beweisen: Satz 12.45 (Euler, Poincar´e 1893/99). Sei P ein d-Polyeder, fi bezeichne die Anzahl der i-Seiten von P . Dann gilt: d−1 X
(−1)i fi = 1 + (−1)d+1 .
i=0
F¨ ur die Anzahl der Ecken schreibt man V := #E(P ) (vertices), f¨ ur die Anzahl der Kanten E (edges) und F f¨ ur die Anzahl der Fl¨achen (faces). F¨ ur d = 2, 3 lautet die Euler’sche Polyederformel: V −E =0 V −E+F =2
d=2: d=3:
Man vergleiche die Ergebnisse mit den Beispielen in Abbildung 15. F¨ ur d = 2 gilt V = E = 5, so dass V − E = 5 − 5 = 0 ist. Der 3-Simplex hat V = 4 Ecken, E = 6 Kanten und F = 4 Fl¨achen, so dass V − E − F = 4 − 6 + 4 = 2 ist. Abbildung 15. Euler’sche Polyederformel d = 2, 3 s
s
s
s s s
s
s
s
Poincar´es Beweis basiert auf algebraischen Methoden. Wir wollen den Beweis mit unseren Mitteln f¨ ur Polyeder P mit einfachen Ecken f¨ uhren. Wir nehmen an, jede Ecke p ∈ E(P ) des d-Polyeders habe d Nachbarecken, und f¨ uhren den Beweis durch Induktion u ¨ber die Anzahl #E(P ) der Ecken. F¨ ur die Induktionsverankerung sei #E(P ) = d + 1, d.h. P ist ein d-Simplex. Im d-Simplex ist eine i-Seite S charakterisiert durch eine Auswahl von i + 1 aus d + 1
4. Eulers Polyederformel
151
Ecken, die auf S liegen:2 fi =
d+1 . i+1
(30)
F¨ ur 0-Seiten ist d+1 = d + 1, denn eine 0-Seite ist eine der d + 1 Ecken. F¨ ur 1-Seiten 1 d(d+1) d+1 ist 2 = 2 , denn jeweils zwei der Ecken bilden eine Kante. Wegen Gleichung (30) gilt: d−1 X
d−1 X
d+1 (−1) fi = (−1) i+1 i=0 i=0 d−1 X i−1 d + 1 = (−1) i i=1 d X i d+1 =− (−1) i i=1 d+1 X i d+1 0 d+1 d+1 d + 1 =− (−1) + (−1) + (−1) . i 0 d+1 i
i
i=0
Wegen
d+1 0
= 1 und
d−1 X
d+1 d+1
= 1 erhalten wir die Behauptung
i
d+1
(−1) fi = 1 + (−1)
−
i=0
denn aus (a + b)n = Summe Null ist.
d+1 X
|i=0 Pn
i=0
n i
i
(−1)
d+1 i
{z
= 1 + (−1)d+1 ,
}
=(1−1)d+1
ai bn−i folgt mit a = −1, b = 1 und n = d + 1, dass die
F¨ ur den Induktionsschluß erniedrigen wir die Anzahl #E(P ) der Ecken. W¨ahle e ∈ E(P ). Sei H = die Hyperebene durch die d Nachbarecken von e. Sei o.B.d.A. e ∈ H + . Wie haben den Polyeder P zerlegt in • einen d-Simplex P ∩ H + und • einen Polyeder P ∩ H − mit weniger als #E(P ) Ecken. Bezeichne mit fi die Anzahl der i-Seiten von P und mit fi0 die Anzahl der i-Seiten von P ∩ H − . Die Behauptung folgt aus der Induktionsannahme angewendet auf P ∩ H − , wenn d−1 X
(−1)i (fi − fi0 ) = 0.
(31)
i=0
2F¨ ur 0 ≤ k ≤ n ist der Binomialkoeffizient erkl¨ art als
n k
n! := k!(n−k)! , d.h. gleich der Anzahl der M¨ oglichkeiten, eine Teilmenge von k Elementen aus einer Menge von n Elementen auszuw¨ ahlen. Insbesondere gilt n = 1 und n0 = 1. n
152
12. Konvexe Geometrie
Wir zeigen zun¨achst d fi − i fi0 = d fi − +1 i
f¨ ur i ≤ d − 1 (32) f¨ ur i = d − 1.
P ∩H + ist ein d-Simplex. F”ur i < d−1 ist fi −fi0 die Anzahl der i-Seiten von P ∩H + durch e. Eine i-Seite von P ∩ H + durch e ist charakterisiert durch die Auswahl von i der d Nachbarecken von e in P ∩ H + . F¨ ur i = d − 1 ist fi die Anzahl der (d − 1)-Seiten von P ∩ H + durch e minus 1. Wir wenden Gleichung (32) an und erhalten (31): d−1 d−1 X X i 0 i d (−1) (fi − fi ) = (−1) − (−1)d−1 i i=0 i=0 d X d d i d −(−1) −(−1)d−1 = (−1) d i |{z} } |i=0 {z =(1−1)d =0
= 0.
Dies komplettiert den Induktionsschritt.
=1
Kapitel 13
Lineare Programmierung
Wir haben in Kapitel 12 die globalen Extremalstellen von konvexen und konkaven Funktionen u ¨ber konvexen Mengen untersucht. In diesem Kapitel besch¨aftigen wir uns mit dem Fall linearer Funktionen und lernen mit dem Simplex-Algorithmus ein praktikales Verfahren kennen, um eine Lineareform unter Ber¨ ucksichtigung von linearen Ungleichungen zu optimieren.
1. Einleitung In der linearen Programmierung maximiert oder minimiert man eine Linearform in n Variablen x1 , . . . , xn unter Beachtung von m Restriktionen, die in Form linearer Gleichungen oder Ungleichungen gegeben sind, und der Forderung, dass die Variablen nicht negativ sind: n n≤o n P minimiere P c x , so dass aij xj = bi f¨ ur i = 1, 2, . . . , m ≥ maximiere j=1 j j j=1 xj ≥ 0 f¨ ur j = 1, 2, . . . , n. Eine solche Aufgabe nennt man lineares Programm und das L¨osen lineares Programmieren. Die zu optimierende Linearform heißt Ziel- oder auch Objektfunktion, im Fall einer Minimierungsaufgabe spricht man angelehnt an die wirtschaftliche Interpretation von der Kostenfunktion. Die Forderung x1 , . . . , xn ≥ 0 wird als Nichtnegativit¨ atsbedingung bezeichnet. Falls eine Variable xi auch negative Werte nehmen darf, also xi eine freie Variable ist, besteht eine M¨oglichkeit, xi durch die Differenz yi − zi f¨ ur zwei neue Variable yi ,zi zu ersetzen und diese der Nichtnegativit¨atsbedingung zu unterwerfen. (Variablen-Splitting). Zur Vereinfachung der Darstellung verwenden wir die u ¨bliche Matrix/VektorSchreibweise. Da die Maximierung von cT x ¨aquivalent zur Minimierung von −cT x ist, gen¨ ugt es, Minimierungsaufgaben zu betrachten. Bei den Restriktionen beschr¨anken wir uns auf ≤“-Ungleichungen, da die Bedingung ai x ≥ bi gleichwertig zu −ai x ≤ −bi ” 153
154
13. Lineare Programmierung
ist und die Gleichung ai x = bi ¨aquivalent zu den beiden Ungleichungen ai x ≤ bi , −ai x ≤ −bi ist. Def inition 13.1 (Kanonische Form eines linearen Programms). Die kanonische Form eines linearen Programms in n Variablen mit m Restriktionen lautet minimiere cT x,
so dass Ax ≥ b x ≥ 0,
wobei A eine m × n-Matrix, b ein Spaltenvektor mit m Eintr¨ agen und c ein Spaltenvektor mit n Eintr¨ agen ist. Georg Dantzig arbeitete w¨ahrend des Zweiten Weltkrieges bei der US-Luftwaffe an der Aufstellung von Pl¨anen (Programmen) zur Logistik und Produktion. F¨ ur komplexere Programme suchte Dantzig nach einer mechanischen Methode zum L¨osen. Als Modell u ¨bernahm er das Input-Output-Modell von Leontief aus dem Jahr 1932. In diesem Modell sind die Beziehungen zwischen den Produktionsfaktoren beschr¨ankt und die Einsatzmenge der Ressourcen und die Ausbringungsmenge stehen in einem proportionalen Verh¨altnis. Dantzig erg¨anzte die Optimierung nach einer linearen Zielfunktion und entwickelte im Sommer 1947 den Simplex-Algorithmus.1 Der Wirtschaftswissenschaftler Koopmans erkannte die Bedeutung der linearen Programmierung f¨ ur die Unternehmensplanung (Operation-Research) und legte den Grundstein der Popularit¨at der linearen Programmierung in den Wirtschaftwissenschaften. Auf ihn geht auch die Bezeichnung lineare Programmierung“ zur¨ uck: Er hatte 1951 diese ” Bezeichnung als Alternative zu Dantzigs Titel Programming in a linear Structure“ ” (Report der US-Luftwaffe 1948) vorgeschlagen. F¨ ur den Erfolg der linearen Programmierung ist neben den Anwendungen in der Unternehmensplanung auch die Entwicklung der ersten Rechenmaschinen entscheidend: Mit dem Simplex-Algorithmus konnten lineare Programme gel¨ost werden, die bislang zu komplex waren. Parallel zur Entwicklung im Westen hatte sich seit 1939 der russische Mathematiker Kantorvicz mit speziellen Produktionsproblemen und deren mathematischer Struktur besch¨aftigt sowie Verfahren f¨ ur diese Klasse linearer Programme entwickelt. Die Arbeiten blieben im Osten unbeachtet und im Westen bis Ende der f¨ unfziger Jahre g¨anzlich unbekannt. Die k¨oniglich schwedische Akademie der Wissenschaften zeichnete 1975 Koopmans und Kantorvicz mit dem Nobelpreis f¨ ur Wirtschaftswissenschaften aus. Dantzig wurde nicht ausgezeichnet, da die Akademie dessen Beitrag als zu mathematisch f¨ ur eine Auszeichnung in Wirtschaftswissenschaften einstufte.
2. Ecken und Basislo ¨sungen Wir haben bereits die kanonische Form eines linearen Programms in n Variablen mit m Restriktionen kennengelernt: minimiere cT x, so dass Ax ≥ b x ≥ 0, 1Die Idee des Simplex-Algorithmus’, iterativ von einer Ecke des Polyhedrons zu einer benach-
barten Ecke mit niedrigem Zielwert zu gehen, ist jedoch nicht neu: Sie fand sich bereits in Arbeiten ´e-Poussin (1911), die allerdings unbeachtet blieben. von Fourier (1823) und de la Valle
2. Ecken und Basisl¨osungen
155
wobei A eine m×n-Matrix, b ein Spaltenvektor mit m und c einer mit n Eintr¨agen ist. F¨ ur Beweise und Algorithmen sind Restriktionen der Form Ax = b statt Ax ≥ b vorteilhafter. Durch Einf¨ uhren von m Slack-Variablen (auch Schlupfvariablen genannt) r mit r ≥ 0 transformieren wir Ax ≥ b in Ax − r = b, d.h. erg¨anzen die Koeffizientenmatrix rechts durch eine (negierte) Einheitsmatrix und erhalten ein ¨aquivalentes Programm in n + m Variablen: Def inition 13.2 (Standardform eines linearen Programms). Die Standardform eines linearen Programms in n Variablen mit m Restriktionen lautet minimiere cT x,
so dass Ax = b x ≥ 0,
wobei A eine m × n-Matrix, b ein Spaltenvektor mit m Eintr¨ agen und c ein Spaltenvektor mit n Eintr¨ agen ist. Ein lineares Programm in Standardform u uhrt man in die kanonische Form ¨berf¨ mittels Ersetzen der Gleichheit Ax = b durch Ax ≤ b und −Ax ≤ −b. Wir nehmen meists an, dass die Koeffizientenmatrix vollen Zeilenrang hat, d.h. keine Restriktion eine Linearkombination der u ¨brigen und somit redundant bzw. nicht mit den u ¨brigen erf¨ ullbar ist. Insbesondere gilt dann m ≤ n. Def inition 13.3 (Zul¨assigkeitsbereich). Zum linearen Programm in Standardform bezeichne Zstd := {x ∈ Rn | Ax = b, x ≥ 0 } die Menge aller zul¨ assigen L¨ osungen, den Zul¨ assigkeitsbereich. Im Fall Zstd = ∅ heißt das Programm widerspr¨ uchlich. Die Menge aller optimalen, zul¨ assigen L¨ osungen sei Ω(c, Zstd ). Der Zielwert ist beschr¨ ankt, wenn T inf c x x ∈ Zstd > −∞. Sonst kann man den Zielwert beliebig reduzieren und erh¨ alt Ω(c, Zstd ) = ∅.
Der Zul¨assigkeitsbereich Zstd ist als Durchschnitt endlich vieler Halbr¨aume ein Polyhedron. Sofern der Zielwert des linearen Programms beschr¨ankt ist, stellt die Menge Ω(c, Zstd ) der optimale L¨osungen ebenfalls ein Polyhedron dar, denn Ω(c, Zstd ) = Zstd ∩ x ∈ Rn cT x ≥ copt f¨ ur copt := min cT x x ∈ Zstd . Falls Ω(c, Zstd ) mehr als eine optimale L¨osung enth¨alt, sprechen wir von Mehrdeutigkeit. Eine L¨osung x ∈ Zstd ist eine Ecke des Zul¨assigkeitsbereichs bzw. des Polyhedrons Zstd , wenn kein y 6= 0 mit x ± y ∈ Zstd existiert. Die Menge der Ecken des Zul¨assigkeitsbereichs bezeichnen wir mit E(Zstd ). Falls der Ursprung eine zul¨assige L¨osung ist, so stellt der Ursprung eine Ecke dar, denn f¨ ur alle y 6= 0 sind 0 ± y nicht gleichzeitig zul¨assige L¨osungen, weil ±y ≥ 0 nicht gilt. Lemma 13.4. Aus 0 ∈ Zstd folgt 0 ∈ E(Zstd ). Falls x ∈ Zstd keine Ecke ist, gilt dann x 6= 0. Das Konzept einer Ecke ist grundlegend f¨ ur die lineare Programmierung: Es existiert immer eine optimale Ecke, sofern die L¨osungsmenge Zstd nicht leer und der minimale Zielwert endlich ist.
156
13. Lineare Programmierung
Satz 13.5. Der Zul¨ assigkeitsbereich Zstd sei nicht leer und der optimale Zielwert des linearen Programms sei endlich. Dann enth¨ alt Ω(c, Zstd ) eine Ecke von Zstd , d.h. es gibt eine Ecke des Zul¨ assigkeitsbereichs, die optimal ist. Beweis. Sei x ∈ Ω(c, Zstd ) eine optimale L¨osung des linearen Programms. Es gen¨ ugt, T T eine Ecke p mit c x ≥ c p zu finden. Wir versuchen, in mehreren Schritten aus x eine Ecke zu erhalten. Falls x eine Ecke ist, sind wir fertig. Sei x ≥ 0 keine Ecke, d.h. es existiert ein y 6= 0 mit x ± y ∈ Zstd . Nach Lemma 13.4 gilt x 6= 0. Insbesondere ist x ± y ≥ 0 sowie Ax + Ay = b und Ay = 0 wegen Ax = b. Durch einen m¨oglichen ¨ Ubergang von y auf −y erreichen wir cT y ≤ 0.
(33)
Falls cT y = 0, w¨ahle y = (y1 , . . . , yn ) so, dass ein Eintrag yj < 0 existiert. Wir f¨ uhren eine Fallunterscheidung bez¨ uglich des Vektors y durch: a) Es gibt einen Eintrag j mit yj < 0. W¨ahle λ > 0 maximal mit x + λy ≥ 0. Der Vektor xneu := x + λy ≥ 0 hat im Vergleich zu x mindestens eine Null-Komponente mehr. F¨ ur xneu ∈ neu Zstd gen¨ ugt der Nachweis von Ax = b: Axneu = A(x + λy) = Ax + λ · (Ay) = Ax = b. | {z } =0
b) Es gilt y ≥ 0 (und nach Wahl von y auch c 6= 0). F¨ ur jedes λ ≥ 0 ist x + λy ∈ Zstd wegen A(x + λy) = Ax + λ · (Ay) = Ax = b | {z } =0
cT y
und x+λy ≥ x ≥0. Falls < 0 ist, verstoßen wir gegen die Endlichkeitsbe dingung von inf cT x x ∈ Zstd . Gem¨aß Voraussetzung (33) gilt cT y = 0. Da nach Wahl y 6= 0 und c 6= 0 sind, muß y mindestens eine negative Komponente haben — Widerspruch zu Fall b). Wiederhole den ersten Fall, bis wir eine Ecke erhalten. Da der neue Vektor im Vergleich zum Vorg¨angervektor eine Null-Komponente mehr hat, erh¨alt man nach maximal n Iterationen eine Ecke. Damit ist Satz 12.31 auf Seite 144 bewiesen, denn ein Polyhedra kann man als Zul¨assigkeitsbereich eines linearen Programms auffassen. Aus Satz 13.5 folgt ferner wegen Zstd = Ω(0, Zstd ): Korollar 13.6. Der nicht leere Zul¨ assigkeitsbereich Zstd hat eine Ecke. Um eine optimale L¨osung eines linearen Programms zu finden, gen¨ ugt es nach Satz 13.5 die (endlich vielen) Ecken des Zul¨assigkeitsbereichs zu untersuchen. Wir haben Ecken bisher geometrisch beschrieben, im folgenden wollen wir eine algebraische Charakterisierung herleiten. Dazu identifizieren die Ecken x ∈ E(Zstd ) durch Unterteilung von x1 , . . . , n in Basis- und Nichtbasis-Variablen. F¨ ur eine nicht leere
2. Ecken und Basisl¨osungen
157
Indexmenge I ⊆ {1, 2, . . . , n} sei AI die Matrix bestehend aus den Spaltenvektoren von A mit aufsteigend angeordneten Indizes in I und analog xI den Vektor bestehend aus den entsprechenden Eintr¨age des Vektors x. Lemma 13.7. Sei x ∈ Zstd und I := {i | xi > 0 }. Genau dann gilt x ∈ E(Zstd ), wenn I = ∅ oder die Spalten von AI linear unabh¨ angig sind. ¨ Beweis. Wir zeigen die negierte Aquivalenz: Der Punkt x ∈ Zstd ist genau dann keine Ecke von Zstd , wenn I 6= ∅ und die Spalten von AI linear abh¨angig sind. ⇒“ AI habe linear abh¨angige Spalten, d.h. insbesondere ist I 6= ∅ und x 6= 0. ” Dann existiert ein Vektor yI 6= 0 mit AI · yI = 0. Wir erg¨anzen yI durch Null-Komponenten zu y ∈ Rn mit Ay = 0. W¨ahle λ > 0 mit x ± λy ≥ 0. Dies ist wegen yi = xi = 0 f¨ ur i ∈ / I und xi > 0 f¨ ur i ∈ I m¨oglich. Aus A(x ± λy) = Ax ± λ · (Ay) = Ax = b | {z } =0
erhalten wir x ± λy ∈ Zstd , so dass x ∈ / E(Zstd ).
⇐“ Der Punkt x sei keine Ecke. Dann existiert nach Definition ein y 6= 0 mit ” x ± y ∈ Zstd und es ist x 6= 0. Wegen Ax + Ay = b Ax − Ay = b gilt Ay = 0. In Verbindung mit x±y ≥ 0 erhalten wir: Aus xi = 0 (¨aquivalent i∈ / I) folgt yi = 0. Sei yI der Vektor, der aus den Eintr¨agen I von y besteht. ¨ Nach vorheriger Uberlegung und y 6= 0 ist yI 6= 0. Das heißt, dass 0 = Ay = AI · yI und AI hat wegen yI 6= 0 linear abh¨angige Spalten. Die Auswahl einiger Spalten der Koeffizientenmatrix A wie in Lemma 13.7 entspricht einer Partition der Indizes {1, 2, . . . , n} in zwei Mengen: Def inition 13.8 (Basis-Nichtbasis-Partition). Zum linearen Programm in Standardform heißt eine Partition (B, N ) von {1, 2, . . . , n} Basis-Nichtbasis-Partition, wenn die Spaltenvektoren der Matrix von AB eine Basis des Rm bilden (insbesondere |B| = m). Sie ist zul¨ assig, wenn der Koordinatenvektor xB := A−1 uglich der B b von b bez¨ Spaltenvektoren von AB keine negativen Eintr¨ age hat. Die Variablen xi mit i ∈ B nennt man Basis- und die mit i ∈ N Nichtbasisvariablen der Partition. Jeder (zul¨assigen) Basis-Nichtbasis-Partition ordnen wir eine (zul¨assige) L¨osung zu: Def inition 13.9 (Basisl¨osung). Zu einer Basis-Nichtbasis-Partition (B, N ) bezeichne Φ(B, N ) die zugeh¨ orige Basisl¨ osung x mit xB := A−1 B b und xN := 0. Wir nennen den Zielwert der zugeh¨ origen Basisl¨ osung Φc (B, N ) := cT · Φ(B, N ) = cTB A−1 B b den Zielwert der Basis-Nichtbasis-Partition (B, N ).
158
13. Lineare Programmierung
Im folgenden Satz stellen wir die Beziehung zwischen den Ecken des Zul¨assigkeitsbereichs und den zul¨assigen Basis-Nichtbasis-Partitionen dar. Zwar ist die Basisl¨osung einer zul¨assigen Basis-Nichtbasis-Partition eine Ecke, umgekehrt k¨onnen aber einer Ecke mehrere zul¨assige Basis-Nichtbasis-Partitionen zugeordnet werden. Satz 13.10. Die m × n-Koeffizientenmatrix A habe vollen Zeilenrang m ≤ n. Dann gilt: a) Zur zul¨ assigen Basis-Nichtbasis-Partition (B, N ) ist Φ(B, N ) ∈ E(Zstd ). b) Jede Ecke x ∈ E(Zstd ) ist eine zul¨ assige Basisl¨ osung zur Partition (B, N ), erg¨ anzt man {i | xi > 0 } gegebenenfalls durch Hinzunahme von Indizes weiterer, linear unabh¨ angiger Spaltenvektoren zu B mit M¨ achtigkeit m. Beweis. F¨ ur die erste Aussage beachte, dass f¨ ur x := Φ(B, N ) nach Definition xB = A−1 = 0 insgesamt x ≥ 0 gilt. Aus b ≥ 0 und wegen x N B Ax = AB xB + AN xN = AB A−1 B b + AN 0 = b folgt x ∈ Zstd . Da nach Definition rang AB = m, erhalten wir aus Lemma 13.7, dass x eine Ecke der L¨osungsmenge ist. Zum Beweis der zweiten Behauptung sei x ∈ E(Zstd ) mit I := {i | xi > 0 }. Nach Lemma 13.7 sind die Spaltenvektoren von AI linear unabh¨angig, so dass nach Voraussetzung |I| ≤ rang A = m ist. Im Fall |I| = m sei B := I, sonst erg¨anze I durch Hinzunahme der Indizes weiterer, linear unabh¨angiger Spaltenvektoren zu B mit M¨achtigkeit m. Sei N = {1, 2, . . . , n} \ B. Wegen xB\I = 0 gilt: AB xB = AI xI + AB\I xB\I = Ax = b. Weil xB = A−1 assige Basis-Nichtbasis-Partition. B b ≥ 0, ist (B, N ) eine zul¨
Es ist m¨oglich, dass einer Ecke verschiedene, zul¨assige Basis-Nichtbasis-Partitionen zugeordnet werden k¨onnen. In diesem Fall nennt man die Ecke und zugeh¨orige BasisNichtbasis-Partitionen degeneriert: Def inition 13.11 (Degeneration). Eine zul¨ assige Basis-Nichtbasis-Partition (B, N ) und die zugeh¨ orige Basisl¨ osung x := Φc (B, N ) heißen degeneriert (entartet), wenn xB Nulleintr¨ age hat. Eine Ecke des Zul¨assigkeitsbereichs ist degeneriert, wenn sie auf mehr als n − m Seitenfl¨achen {x ∈ Rn | xk = 0 }, n¨amlich k ∈ N und einer weiteren mit k ∈ B, liegt. Nach Satz 13.10 finden wir den optimalen Zielwert, indem wir zu jeder BasisNichtbasis-Partition testet, ob diese zul¨assig ist und das Minimum der zugeh¨origen Zielwerte ausgeben. ur kleine n und m durchf¨ uhrbar, denn Dieser Ansatz ist aber nur f¨ n n m viele Basis-Nichtbasis-Partitionen. Beim Simplex-Algorithmus es gibt m ≥ m versucht man die Anzahl der betrachteten Basis-Nichtbasis-Partitionen zu reduzieren, indem nur Partitionen in Betracht gezogen werden, deren der Zielwert mindestens das bisher erreichte Niveau hat.
3. Simplex-Algorithmus
159
3. Simplex-Algorithmus Dantzig hatte im Rahmen der Forschung der US-Luftwaffe lineare Programme zur Planung der Logistik und Produktion im Kriegsfall formuliert und hoffte vergebens, dass man in der Wirtschaftmathematik mechanische Methoden zur linearen Programmierung kannte. W¨ahrend des Sommers 1947 entwickelte er den Simplex-Algorithmus. Als erste, ¨offentliche Publikation gilt Dantzigs Text [Dantzig51]. Die Bezeichnung Simplex-Algorithmus“ geht auf Dantzigs urspr¨ ungliche Voraussetzung zur¨ uck, dass ” die L¨osungsmenge ein Simplex sei. Das Simplex-Verfahren funktioniert auch bei Degeneration, sofern bei der Pivot-Wahl sichergestellt ist, nicht in eine Endlosschleife zu geraten. Die grundlegende Idee der Simplex-Methode ist, beginnend von einer Ecke des Zul¨assigkeitsbereichs iterativ zu benachbarten Ecken zu gehen, bis eine optimale Ecke erreicht wird. In der Praxis bildet der Ursprung meist die Ausgangsecke, im anderen Fall k¨onnen wir in einer ersten Phase mittels Simplex-Algorithmus eine Ecke der L¨osungsmenge bestimmen. Nach Korollar 13.6 auf Seite 156 existiert eine Ausgangsecke, sofern die Restriktionen nicht widerspr¨ uchlich sind. Wir setzen zun¨achst voraus, dass eine zul¨assige Basis-Nichtbasis-Partition (B, N ) und zugeh¨orige Basisl¨osung (Ecke) bekannt sind, und untersuchen die folgenden Punkte: • Wie erh¨alt man die Basis-Nichtbasis-Partition bzw. Basisl¨osung einer benachbarten Ecke mit niedrigerem Zielwert und wie entscheidet man sich bei mehreren Alternativen? • Wie ist eine optimale Ecke zu erkennen? • Unter welchen Bedingungen terminiert dieses Verfahren? Zur Basis-Nichtbasis-Partition (B, N ) kann man das lineare Programm schreiben als: minimiere cT x, so dass AB xB + AN xN xB , xN
=b ≥ 0.
Nur die Variablen xN sind unabh¨angig, xB erhalten wir gem¨aß xB (xN ) := A−1 B (b − AN xN ) .
(34)
Die Objektfunktion lautet: cT x = cTB xB (xN ) + cTN xN T = cTB A−1 B (b − AN xN ) + cN xN
T T −1 = cTB A−1 B b + cN − cB AB AN xN . | {z } | {z } =Φc (B,N )
:=sT N
Wir haben die Zielfunktion relativ zu einer Basis-Nichtbasis-Partition (B, N ) umgeformt. Der Wert Φc (B, N ) ist der Zielwert an der Stelle Φ(B, N ). Def inition 13.12 (Relative Zielfunktion). Zu einer zul¨ assigen Basis-Nichtbasis-Partition (B, N ) heißt die Funktion Φc (B, N ) + sT x mit sB := 0 und sTN := cTN − cTB A−1 B AN die relative Zielfunktion.
160
13. Lineare Programmierung
Beachte, Φc (B, N ) h¨angt nur von der Basis-Nichtbasis-Partition (B, N ) und der zugeh¨origen Basisl¨osung, jedoch nicht von der Variablen x ab. Die relative Zielfunktion gibt an, wie sich der Zielwert verh¨alt, ¨andern wir den Wert von Nichtbasisvariablen. Angelehnt an die ¨okonomische Interpretation im Fall einer Minimierungsaufgabe heißen die Koeffizienten s Schattenpreise, die (informell formuliert) angeben, was es kostet, eine Nichtbasisvariable xj um eine Einheit zu erh¨ohen.2 Durch die Schattenpreise erhalten wir ein Optimalit¨atskriterium f¨ ur die Basisl¨osung: Satz 13.13 (Optimalit¨atskriterium). Die Basisl¨ osung bzw. die Ecke zur zul¨ assigen Basis-Nichtbasis-Partition (B, N ) ist genau dann optimal, wenn f¨ ur die relative Zielfunktion der Vektor sN ≥ 0 ist, d.h. alle Schattenpreise nicht-negativ sind. Beweis. Wegen cT x = Φc (B, N ) + sTN xN und der Forderung xN ≥ 0 f¨ ur alle zul¨assigen L¨osungen x ∈ Zstd k¨onnen wir den Zielwert nur reduzieren, falls mindestens ein Eintrag in sN negativ ist. Sei xi eine Nichtbasisvariable, also i ∈ N , mit negativem Schattenpreis si . Wir wollen i in die Basis B aufnehmen und werden daf¨ ur einen Index j aus B entfernen. Die Variable xi der Basisl¨osung zur Partition (B, N ) hat als Nichtbasisvariable den Wert 0. Um diese auf λ ≥ 0 zu setzen, muß man die Werte der Variablen xB gem¨aß Gleichung (34) ¨andern: −1 xB (xN (λ)) := A−1 B (b − λAei ) = AB (b − λAi ) .
(35)
Sei x(λ) die neue L¨osung in Abh¨angigkeit in λ. Wegen (35) gilt: Ax(λ) = AB · xB (xN (λ)) + AN xN (λ) = AB A−1 B (b − λAi ) + λAi = b. Der Zielwert c(λ) ist cT x(λ) = Φc (B, N ) + sTN xN (λ) = Φc (B, N ) + si λ. Aufgrund si < 0 nimmt der Zielwert mit wachsendem λ ab. Wir w¨ahlen das maximale λ ≥ 0 mit x(λ) ∈ Zstd . Wegen xN (λ) ≥ 0 und Ax(λ) = b suchen wir das gr¨oßte λ ≥ 0 mit xB (xN (λ)) ≥ 0. Zu λsup := sup {λ ∈ R≥0 | x(λ) ≥ 0 } unterscheide drei Situationen: • Im Fall λsup = +∞ k¨onnen wir den Zielwert beliebig verkleinern, der Zielwert ist unbeschr¨ankt und das Verfahren stoppt. • Im Fall 0 < λsup < +∞ existiert ein j, so dass xj (0) > 0 und xj (λsup ) = 0 ist, denn f¨ ur x(0) = 0 muß λsup = 0 sein. Wir tauschen j ∈ B und i ∈ N f¨ ur neu neu die neue Basis-Nichtbasis-Partition (B , N ) aus. Die neue Basisl¨osung ist x(λsup ), der Zielwert sinkt auf c(λsup ). Zu zeigen bleibt, dass f¨ ur die neue Basis-Nichtbasis-Partition die Ma¨ trix AB neu vollen Rang hat. Wir wollen zeigen, dass der Ubergang von den Spaltenvektoren AB auf AB neu eine Basistransformation ist. Angenommen, der neue Vektor Ai sei eine Linearkombination der Spaltenvektoren AB\{j} , 2Diese Interpretation der Koeffizienten der relativen Zielfunktion stammt aus der klassischen Sensitivit¨ atsanalyse. Im Fall von Degeneration muß diese Interpretation nicht korrekt sein.
3. Simplex-Algorithmus
161
d.h. es g¨abe einen Koeffizientenvektor u mit uj = 0 und AB uB = Ai . Dann ist der Eintrag j des Vektors λsup A−1 B Ai = λsup uB gleich 0. Aus −1 xB (λsup ) = A−1 B b − λsup AB Ai | {z } | {z } | {z }
j-tes Bit Null
=xB (0)
j-tes Bit Null
folgt, dass xj (0) = 0 — Widerspruch zur Wahl von j. • Im Fall λsup = 0 ist die Ecke degeneriert: Es gibt einen Index k ∈ B, so dass der Eintrag k in xB = A−1 B b Null ist (also die Basisvariable xk den Wert 0 hat), die Komponente k in A−1 ahle den Index j des B Ai hingegen nicht. W¨ Spaltenvektors aus der Menge {k ∈ B | xk = 0 } so, dass die Spaltenvektoren von A{i}∪B\{j} linear unabh¨angig sind. Mit der neuen Basis-NichtbasisPartition ist die gleiche Basisl¨osung verbunden und insbesondere vermindern wir den Zielwert nicht. Falls der Zul¨assigkeitsbereich Zstd keine degenerierte Ecke hat, finden wir nach endlich vielen Iterationen eine optimale Ecke oder bemerken, dass das lineare Programm unbeschr¨ankt ist. Bevor wir genauer auf die Wahl eingehen, welche Variable aus der Basis entfernt und welche hinzugenommen wird, zeigen wir, dass der zuvor beschrie¨ bene Ubergang zu einer anderen Ecke des Zul¨assigkeitsbereichs anschaulich bedeutet, dass man sich entlang der Menge {x(λ) | 0 ≤ λ ≤ λsup } , einer Kante3 des Polyhedrons, bewegt und umgekehrt auch alle benachbarten Ecken betrachtet. Zwei Ecken p, p0 heißen benachbart, wenn [p, p0 ] eine Kante ist. Wir sagen, zwei zul¨assige Basis-Nichtbasis-Partitionen (B, N ) und (B 0 , N 0 ) sind benachbart, wenn |B \ B 0 | = 1, d.h. die beiden Partitionen sind durch Austausch einer Basis- gegen eine ¨ Nichtbasis-Variable ineinander u uhrbar. In Ubungsaufgabe 17.1 zeigen wir: ¨berf¨ Satz 13.14. F¨ ur den Zul¨ assigkeitsbereich Zstd gilt: a) Zwei Ecken p, p0 ∈ E(Zstd ), p 6= p0 , sind genau dann benachbart, d.h. [p, p0 ] ist eine Kante von Zstd , wenn zul¨ assige, benachbarte Basis-Nichtbasis-Partitionen (B, N ), (B 0 , N 0 ) mit p = Φ(B, N ) und p0 = Φ(B 0 , N 0 ) existieren. b) Falls f¨ ur zwei zul¨ assige, benachbarte Basis-Nichtbasis-Partitionen (B, N ) und (B 0 , N 0 ) die Basisl¨ osungen Φ(B, N ) und Φ(B 0 , N 0 ) nicht benachbart sind, gilt 0 Φ(B, N ) = Φ(B , N 0 ) und die Ecke ist degeneriert. In jeder Iteration nehmen wir eine Variable xi in die Basis auf und eine Variable xj heraus. Die Entscheidung f¨ ur ein Index-Paar (i, j) ∈ N × B heißt Pivot-Wahl. F¨ ur die von Wahl (i, j) gibt es sogenannte Pivot-Regeln, weil zumeist mehrere Alternativen existieren. Dantzig [Dantzig51] hat urspr¨ unglich zwei Regeln vorgeschlagen: Nonbasic-Gradient-Methode: W¨ahle i ∈ N mit minimalem Schattenpreis si < 0. Best-Improvement-Regel: W¨ahle i ∈ N mit der maximal m¨oglichen Abnahme des Zielwertes. 3[p, p0 ] ist eine Kante, wenn zu keinem Punkt x ∈ [p, p0 ] ein y 6= 0 mit (p−p0 ) ⊥ y und x±y ∈ Z std existiert.
162
13. Lineare Programmierung
Diese Richtlinien stellen neben der formalen Anforderungen keine Bedingungen an die Wahl von j ∈ B, d.h. welche Variable aus der Basis genommen werden soll. Bei beiden Regeln besteht die Gefahr des Cyclings (Kreisens). Wir haben in Satz 13.14 gesehen, dass im Fall einer degenerierten Ecke mehrere Basis-Nichtbasis-Partitionen zur gleichen Basisl¨osung existieren. Bei beiden Pivot-Regeln ist es m¨oglich, dass wir nach einigen Iterationen wieder die Ausgangspartition erreichen, ohne die Ecke zu verlassen. Der interessierte Leser findet ein Beispiel bestehend aus 3 Gleichungen und sieben Variablen, bei dem man nach sechs Schritten wieder die Ausgangspartition erreicht, in [Dantzig66, V97]. Die heute gel¨aufigste Pivot-Regel, die Cycling verhindert, geht auf Bland [Bland77] zur¨ uck: Blands Pivot-Regel: Nimm xi mit minimalem i ∈ {k ∈ N | sk < 0 } in die Basis auf und entferne xj mit minimalem j ∈ {k ∈ B | xk (λsup ) = 0 }. F¨ ur Blands Pivot-Regel ist gew¨ahrleistet, dass der Simplex-Algorithmus stets terminiert [V97, PS82]: Fakt 13.15. Mit Blands Pivot-Regel tritt kein Cycling auf. Beim Simplex-Algorithmus 1 auf Seite 163 setzen wir in Schritt 1 voraus, dass zu Beginn eine zul¨assige Basis-Nicht-Basispartition (B, N ) respektive eine zul¨assige Basisl¨osung x bekannt ist. Falls das Programm in kanonischer Form, also minimiere cT x, so dass Ax ≤ b x ≥ 0, gegeben ist, f¨ uhren wir Slack-Variablen r ein, so dass neben den Nichtnegativit¨atsbedingungen x, r ≥ 0 die Restriktionen x A Im =b r lauten. Die letzten m Spalten, die Einheitsvektoren, sind offenbar linear unabh¨angig. F¨ ur b ≥ 0, erhalten wir mit x = 0 und r = b eine zul¨assige Basisl¨osung und entsprechend eine zul¨assige Basis-Nichtbasis-Partition. Falls bei der kanonischen Form b negative Eintr¨age hat oder das lineare Programm in Standardform mit Ax = b vorliegt, ist eine zul¨assige Basisl¨osung nicht immer offensichtlich. Wenngleich in der Praxis meist der Ursprung eine Ecke des Zul¨assigkeitsbereichs darstellt, ist die Bestimmung einer Ecke in Schritt 1 des Simplex-Algorithmus’ im allgemeinen nicht trivial. Man kann sogar zeigen, dass das Finden einer beliebigen L¨osung zu einem linearen Ungleichungssystem ¨aquivalent zur linearen Programmierung ist. Ein Ansatz ist der sogenannte Zwei-Phasen-Simplex-Algorithmus. Wir erweitern das Programm durch Einf¨ uhren neuer Variablen t und minimieren die Summe der neuen Variablen: P minimiere m i=1 ti , so dass Ax + t = b x, t ≥ 0. Falls der optimale Zielwert ungleich 0 ist, gilt Ax 6= b f¨ ur alle x ≥ 0 und das urspr¨ ungliche lineare Programm hat keine zul¨assige Basisl¨osung. Im anderen Fall ist t = 0 f¨ ur jede optimale L¨osung (x, t), also Ax = b. Wir setzen wegen t = 0 voraus, dass die Variablen t Nichtbasis-Variablen sind. Aus der Basis-Nichtbasis-Partition
3. Simplex-Algorithmus
163
Abbildung 1. Simplex-Algorithmus mit Blands Pivot-Regel Eingabe: Lineares Programm in Standardform (1) W¨ ahle zul¨ assige Basis-Nichtbasis-Partition (B, N ). (2) Berechne zur Basis-Nichtbasis-Partition aktuellen Zielwert Φc (B, N ) und Schattenpreise sN . (3) IF sN ≥ 0 THEN stoppe mit Ausgabe Φ(B, N ). (4) W¨ ahle i := min {k ∈ N | sk < 0 }. (5) λsup := sup {λ ∈ R≥0 | x(λ) ≥ 0 } mit xB (λ) = A−1 B (b − λAi ). (6) Fallunterscheidung: • λsup = +∞: Stoppe, Zielwert ist unbeschr¨ ankt. • λsup < +∞: Setze j := min {k ∈ B | xk (λsup ) = 0 }. (7) B := {i} ∪ B \ {j}, N := {1, 2, . . . , n} \ B (8) GOTO 2
(B, N ) erh¨alt man eine zul¨assige Basisl¨osung f¨ ur das urspr¨ ungliche Programm durch Entfernen der Indizes f¨ ur t aus N . Haben wir im ersten Schritt eine zul¨assige Basisl¨osung bzw. Basis-Nichtbasis-Partition mit dem Simplex-Algorithmus bestimmt oder das Programm als widerspr¨ uchlich erkannt, ist nun das eigentliche Programm mit dem Simplex-Verfahren 1 zu l¨osen. Man nennt dieses zweistufige Verfahren ZweiPhasen-Simplex-Algorithmus, da das Programm in zwei getrennten Phasen gel¨ost wird. Ein Nachteil der Zwei-Phasen-Methode ist, dass beide Stufen separat arbeiten, insbesondere w¨ahlen wir die in der ersten Phase gefundene Basis-Nichtbasis-Partition unabh¨angig von der Zielfunktion cT x. Eine M¨oglichkeit, beide Phasen zu kombinieren, bildet die Big-M-Methode. Zu einem Programm in Standardform f¨ uhre m zus¨atzliche Variablen t ein und l¨ose x Pm T minimiere c x + M i=1 ti , so dass A Im =b t x, t ≥ 0 mit einer hinreichend großen Konstanten M . Mit der Konstanten M erreichen wir, dass f¨ ur alle optimalen L¨osungen (x, t) gilt t = 0 und x eine optimale L¨osung des urspr¨ unglichen Programms ist. n Es gibt maximal m zul¨assige Basis-Nichtbasis-Partitionen, die Anzahl der Iterationen von Algorithmus 1 ist durch 2n beschr¨ankt. Berechnen der Inversen A−1 B , L¨osen des linearen Gleichungssystems AB xB = b sowie die u ¨brigen Aufgaben in jeder Iteration gelingen jeweils in O(n3 ) Schritten. Satz 13.16. Zu einem linearen Programm in n Variablen mit m ≤ n Restriktionen liefert der Simplex-Algorithmus 1 in O(n3 2n ) Schritten entweder eine optimale Ecke oder erkennt, dass das Programm widerspr¨ uchlich bzw. unbeschr¨ ankt ist.
164
13. Lineare Programmierung
Der Satz 13.16 liefert nur eine exponentielle Laufzeitschranke f¨ ur den SimplexAlgorithmus. F¨ ur die Analyse haben wir die Anzahl der betrachteten Basis-NichtbasisPartitionen durch die Anzahl aller m¨oglichen Partitionen nach oben beschr¨ankt. Klee und Minty [KM72, S86] haben 1972 ein lineares Programm in 2n Variablen und n Restriktionen angeben, f¨ ur das die Simplex-Methode mit Dantzigs Nonbasicn Gradient-Pivotregel 2 −1 Iterationen ben¨otigt. Dieses negative Resultat wurde in den ´tal Folgejahren auf die anderen, bekannten Pivotregeln u ¨bertragen, Avis und Chva [AC78] zeigten die exponentielle Schranke f¨ ur Blands Pivotregel. Wenngleich der urspr¨ ungliche Simplex-Algorithmus kein Polynomialzeit-Verfahren darstellt, ist es bis heute ein offenes Problem, ob eine (deterministische oder randomisierte) Pivotregel existiert, f¨ ur welche die Anzahl der Iterationen polynomiell ist, d.h. man beweisen kann, dass der Simplex-Algorithmus jedes lineare Programm effizient l¨ost. Diese Worst-Case-Laufzeit steht im Widerspruch zur Praxis. In Dantzigs Buch [Dantzig66] schreibt der Erfinder der Simplex-Methode, dass in den zahlreichen Beispielen aus der Praxis die Anzahl der Iterationen f¨ ur ein lineares Programm in kanonischer Form mit m Restriktionen und n Variablen im Bereich von 2m bis 3m liegt. Mit Khachiyans Ellipsoid-Methode [Kh79] kennt man zwar bereits seit 1979 einen Polynomialzeit-Algorithmus4 f¨ ur die lineare Programmierung, allerdings ist das Verfahren nicht praktikabel. Basierend auf einer Arbeit von Karmakar [Ka84] wurden Ende der Achtziger Jahren Interior-Point-Methoden entwickelt [V97]. Diese l¨osen lineare Programme in Polynomialzeit und sind f¨ ur große Programme mit mehr als 1000 Variablen eine Alternative zum Simplex-Algorithmus. F¨ ur die Variante des Simplex-Algorithmus’ mit der sogenannten SchatteneckenPivotregel von Borgwardt (1988) ist die Laufzeit f¨ ur zuf¨allige (nach einer bestimmten Verteilung) verteilte A, b, c im Durchschnitt durch ein Polynom in der Variablenanzahl n und der Anzahl Restriktionen m beschr¨ankt. Es ist jedoch ein offenes Problem, ob f¨ ur die lineare Programmierung ein starker Polynomialzeit-Algorithmus, d.h. die Laufzeit ist durch ein Polynom in n und m beschr¨ankt und h¨angt insbesondere nicht von der Eingabel¨ange ab, existiert. Es ist ebenso ungekl¨art, ob die Distanz zwischen zwei Ecken e1 , e2 der L¨osungsmenge (d.h. die Anzahl der Kanten auf dem Kantenzug von e1 nach e2 ) durch ein Polynom in n und m beschr¨ankt ist, also eine Pivotregel existieren kann, f¨ ur die das Simplex-Verfahren ein starker PolynomialzeitAlgorithmus ist.
4. Simplex-Tableau F¨ ur die Rechnung per Hand ist die Simplex-Methode in Form von Algorithmus 1 (Seite 163) ungeeignet: In jeder Iteration l¨osen wir ein lineares Gleichungssystems bzw. bestimmen eine inverse Matrix und gehen die Halbgerade x(λ) bis zu einer Ecke entlang, um die Indizes f¨ ur den Basiswechsel zu ermitteln. Zum L¨osen eines linearen Programms per Hand haben sich Simplex-Tableaus etabliert, die eine alternative Darstellung des Simplex-Algorithmus’ liefern. F¨ ur die Simplex-Tableaus f¨ uhre eine neue Variable −z und als weitere Restriktion cT x − z = 0 ein. Das Ziel ist, den Wert von −z zu maximieren. Fixiere −z als Basisvariable, d.h. beachte diese Variable bei 4Die Laufzeit ist durch ein Polynom in der Bitl¨ ange der ganzzahligen Eingabe A, b, c beschr¨ ankt.
4. Simplex-Tableau
165
der Pivot-Auswahl nicht. Das Tableau hat folgenden Aufbau: −z
x
0
A
b
1
cT
0
Sei (B, N ) eine zul¨assige Basis-Nichtbasis-Partition. Um die Basisl¨osung unmittelbar aus dem Simplex-Tableau abzulesen, u uhren wir durch elementare Zeilenoperatio¨berf¨ nen das Gleichungssystem Ax = b in ein ¨aquivalentes System A0 x = b0 mit A0B = Im , so dass f¨ ur die Basisl¨osung x := Φ(B, N ) gilt xB = b0 und xN = 0. Das Tableau hat schematisch folgenden Aufbau: −z
xN
xB
0
A0N
Im b0
1
cTN
cTB
0
In der letzten Zeile soll die relative Zielfunktion steht. Durch elementare Zeilenoperationen l¨oschen wir die Eintr¨age der Basisvariablen in der letzten Zeile, d.h. wir subtrahieren die i-te Zeile ci -mal von der letzten Zeile. Wegen xB = b0 ist der Eintrag in Feld rechts unten −cTB xB = −Φc (B, N ). Die xB -Eintr¨age der letzten Zeile sind Null und, da A0B = Im , entsprechen die xN -Eintr¨age den Schattenpreisen cTN − cTB A0N = sN bez¨ uglich der Basis-Nichtbasis-Partition (B, N ), so dass das Simplex-Tableau zur Basis-Nichtbasis-Partition (B, N ) schematisch wie folgt aussieht: −z
xN
xB
0
A0N
Im
1
sTN
b0
sTB = 0 −Φc (B, N )
Zusammenfassend: Wir erhalten die Basisl¨osung und die relative Zielfunktion (die Schattenpreise) zu einer gegebenen Basis-Nichtbasis-Partition (B, N ), indem man mittels elementarer Zeilenoperationen in den Spalten zu xB die Einheitsvektoren e1 , . . . , em erzeugt. Der negierte Zielwert steht rechts unten. Unser Ziel ist es, den Wert im Feld rechts unten zu maximieren. Zu kl¨aren ist, wie man die Pivotwahl (i, j) ∈ N ×B nach Blands Regel im SimplexTableau vornimmt. Die Wahl i ∈ N , d.h. welche Variable xi in die Basis genommen wird, treffen wir anhand der Schattenpreise in der letzten Zeile: W¨ahle das minimale i ∈ N mit si < 0. Um j ∈ B zu bestimmen, betrachte zum Skalar λ ≥ 0 den Ausdruck xB (λ) = (A0B )−1 b0 − λA0 ei = b0 − λA0i aus Definition 35 auf Seite 160, berechne λsup := sup {λ ∈ R≥0 | x(λ) ≥ 0 } und w¨ahle j := min {k ∈ B | xk (λsup ) = 0 } .
166
13. Lineare Programmierung
F¨ ur λsup bestimmen wir λsup (k) := sup {µ ∈ R≥0 | b0k − µ · A0ik ≥ 0 } f¨ ur 1 ≤ k ≤ m, also ( b0 k falls A0ik 6= 0 0 λsup (k) := Aik +∞ sonst. und setzen λsup gleich dem Minimum aller λsup (k) ≥ 0. Bezogen auf das Tableau besagt Blands Pivotregel: (1) W¨ahle die erste Spalte i mit dem kleinsten, negativen Schattenpreis (Pivotspalte). (2) W¨ahle die oberste Zeile j mit λsup (j) = λsup (Pivotzeile). Um λsup zu ermitteln, dividiere in jeder Zeile k die rechte Seite b0k durch den Koeffizienten A0ik in der Pivotspalte, sofern dieser ungleich Null ist, und bestimmte den kleinsten, nicht-negativen Quotienten. (3) Erzeuge durch elementare Zeilenoperationen in der Pivotspalte i den kanonischen Einheitsvektor ej . Abbildung 2. Zul¨assigkeitsbereich des Beispiel-Programms x2 III
6
5 4 3 2 1 0
p p p pp ppp ppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp p p p p p p p p p p pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p ppp ppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pp p p p p p p pp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp p II ppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp I - x1
1
2
3
4
5
Wir demonstrieren Simplex-Tableaus und das Rechnen mit ihnen anhand eines einfachen Beispieles. Minimiere −x1 − x2 unter den Restriktionen x1 , x2 ≥ 0 und 2x1 ≤ 10 −3x1 + 6x2 ≤ 18 2x1 + x2 ≤ 13. Abbildung 2 zeigt den Zul¨assigkeitsbereich im R2 . In Matrixschreibweise und mit Slackvariablen lauten die Restriktionen: x1 x2 10 2 0 1 0 0 −3 6 0 1 0 · x3 = 18 . x4 13 2 1 0 0 1 x5
4. Simplex-Tableau
167
Erg¨anze drei Slackvariablen x3 , x4 , x5 , die aktuellen Basisvariablen werden durch Fettdruck gekennzeichnet (In leeren Feldern steht jeweils eine Null): −z
1
x1 x2 x3 x4 x5 2 1 10 −3 6 1 18 2 1 1 13 −1 −1 0
Aus dem Tableau erhalten wir als Basisl¨osung x = (0, 0, 10, 18, 13) mit Zielwert 0 und Schattenpreisen (−1, −1, 0, 0, 0). In Abbildung 2 entspricht dies dem Nullpunkt. Blands Regel folgend w¨ahle x1 als neu in die Basis zu nehmende Variable, denn der minimale Schattenpreis ist s1 = s2 = −1 und wir entscheiden uns f¨ ur den kleinsten Index i ∈ {1, 2}. Wegen λsup (1) =
10 2
=5
λsup (2) =
18 −3
= −6
λsup (3) =
13 2
= 6, 5
ist λsup = λsup (1) und wir nehmen x3 aus der Basis, da in der ersten Zeile die Basiseins von x3 steht. −z
s
1
x1 x2 x3 x4 x5 2 1 10 −3 6 1 18 2 1 1 13 −1 −1 0 •
λsup (k) 10/2 = 5 • 18/ − 3 = −6 13/2 = 6, 5
Multipliziere die erste Zeile mit 12 und addiere Vielfache zu den u ¨brigen Zeilen, damit in der x1 -Spalte der erste Einheitsvektor e1 steht: −z x1 1
1
x2
x3 x4 x5 0, 5 5 6 1, 5 1 33 1 −1 1 3 −1 0, 5 5
Aus dem Tableau erhalten wir als Basisl¨osung x = (5, 0, 0, 33, 3) mit Zielwert −5 und Schattenpreisen (0, −1, 12 , 0, 0). In Abbildung 2 entspricht dies dem Punkt I. Im n¨achsten Schritt nimm x2 in die Basis auf. Wegen λsup (1) = +∞
λsup (2) =
33 6
= 5, 5
ist λsup = λsup (3) und wir entfernen x5 aus der Basis: −z x1 x2 1 1 1
x3 x4 x5 0, 5 5 7, 5 1 −6 15 −1 1 3 −0, 5 1 8
λsup (3) =
3 1
=3
168
13. Lineare Programmierung
Aus dem Tableau erhalten wir als Basisl¨osung x = (5, 3, 0, 15, 0) mit Zielwert −8 und Schattenpreisen (0, 0, − 12 , 0, −1). In Abbildung 2 entspricht dies dem Punkt II. Im letzten Schritt nimm x3 in die Basis auf. Wegen λsup (1) =
5 0,5
= 10
λsup (2) =
15 7,5
=2
λsup (3) =
3 −1
= −3
ist λsup = λsup (2) und wir entfernen x4 aus der Basis: −z x1 x2 x3 x4 x5 1 −0, 06 0, 4 1 0, 13 −0, 8 1 0, 13 0, 2 1 0, 06 0, 6
4 2 5 9
Die erreichte L¨osung ist optimal, da alle Schattenpreise der Nichtbasisvariablen positiv sind. Der optimale Wert ist x = (4, 5, 2, 0, 0) bzw. Punkt III in Abbildung 2. Der optimale Zielwert ist −9. Es exisitiert ebenfalls eine Kurzform der Simplex-Tableaus, wie sie zum Beispiel in [Fischer92] verwendet wird. Die Koeffizientenvektoren der geordneten Basisvariablen haben stets die Form einer Einheitsmatrix und die zugeh¨origen Schattenpreise sind Null, so dass die Angaben im Simplex-Tableau redundant sind. In der Kurzform schreibt man die Basisvariablen links und l¨aßt die zugeh¨origen Spalten weg, der Wert rechts ist der Wert der Basisvariablen. Das Ausgangstableau des zuvor behandelten Programms lautet in dieser Form: x1 x2 x3 2 10 x4 −3 6 18 x5 2 1 13 −z 1 1 0 Aus den Regeln f¨ ur das Rechnen im erweitertern Simplex-Tableau lassen sich die Regeln f¨ ur die Kurzform herleiten. Diese sind aber komplizierter und anf¨alliger f¨ ur Rechenfehler gegen¨ uber des erweiterten Tableaus. Zum Abschluß wollen wir noch die F¨alle von Degeneration und Mehrdeutigkeit im allgemeinen Simplex-Tableau betrachten. Eine Basisl¨osung bzw. die zugeh¨orige Basis-Nichtbasis-Partition ist degeneriert, wenn ein i ∈ B mit xi = 0 existiert, also eine Basisvariable xi = 0 ist. Da die Werte der Basisvariablen in der Spalte rechts stehen, bedeutet eine Null in diesen Feldern, dass die aktuelle Basisl¨osung degeneriert ist. Zum Beispiel beschreibt das folgende Tableau eine degenerierte Ecke, denn die Basisvariable x2 ist gleich 0: −z x1 x2 x3 x4 x5 1 9 3 2 8 1 1 7 1 1 3 1
4 2 0 6
Im Fall von Mehrdeutigkeit gibt es mindestens zwei optimale Ecken. Wenn wir eine optimale L¨osung gefunden haben, sind alle Schattenpreise der relativen Zielfunktion
5. Dualit¨at
169
gr¨oßer oder gleich 0. Um zu einer Ecke mit gleichem Zielwert zu gelangen, kommen nur Nichtbasis-Variablen mit Schattenpreis Null in Frage, denn in diesem Fall addieren wir kein Vielfaches zur relativen Zielfunktion, um den entsprechenden Eintrag zu l¨oschen. Zum Beispiel beschreibt das folgende Tableau eine optimale Ecke im Fall von Mehrdeutigkeit: −z x1 x2 x3 x4 x5 1 2 8 1 3 1 1 3 9 −1 3 0
4 2 8 6
Wir ersetzen die Basisvariable x5 durch x3 , das neue Simplex-Tableau hat folgende Form: −z x1 x2 x3 x4 x5 1 2 −2 0 1 3 1 2 1 0 −3 2 1 0 3 6 Diese ebenfalls optimale Ecke ist wegen x1 = 0 ferner degeneriert. Man erkennt Mehrdeutigkeit im Simplex-Tableau, wenn f¨ ur eine optimale L¨osung (d.h. kein Schattenpreis ist negativ) der Schattenpreis einer Nichtbasis-Variablen auch verschwindet und diese Variable in der Basis aufgenommen werden kann.
5. Dualit¨ at In einer Unterhaltung mit Dantzig hatte John von Neumann 1947 die grundlegenden Begriffe der Dualit¨at in der linearen Programmierung eingef¨ uhrt. Er ordnete einem linearen Programm (primales Programm) LP
minimiere cT x, so dass Ax ≥ b x ≥ 0,
ein duales Programm zu, wobei beide optimalen Werte u ¨bereinstimmen, sofern das primale Programm weder unbeschr¨ankt noch widerspr¨ uchlich ist. Def inition 13.17 (Duales Programm). Das duale lineare Programm zu einem linearen Programm in kanonische Form lautet: LP*
maximiere bT y,
so dass AT y ≤ c y ≥ 0.
W¨ahrend das primale Programm eine Mimimierungsaufgabe ist, soll beim dualen Programm die Zielfunktion maximiert werden. Offenbar ist das duale Programm des dualen Programms das primale Ausgangsprogramm. Wir bezeichnen mit Z und Z ∗ die Zul¨assigkeitsbereiche des primalen und des dualen Programms in kanonischer Form. Unser Ziel ist zu zeigen, dass der Zielwert von primalen und dualem Programm (sofert ein Programm beschr¨ankt und das Restriktionssystem nicht widerspr¨ uchlich ist) u bereinstimmen. ¨
170
13. Lineare Programmierung
Lemma 13.18 (Schwache Dualit¨at). F¨ ur x ∈ Z und y ∈ Z ∗ gilt bT y ≤ cT x. Beweis. Wegen Ax ≥ b und y ≥ 0 gilt bT y ≤ (Ax)T y = xT AT y. In Verbindung mit AT y ≤ c und y ≥ 0 erhalten wir bT y ≤ xT (AT y) ≤ xT c und mit xT c = cT x folgt die Behauptung.
Sofern die Zul¨assigkeitsbereiche leer sind, liefert jede duale L¨osung y ∈ Z ∗ eine T nicht untere Schanke f¨ ur min c x x ∈ Z und jede primale L¨osung x ∈ Z eine obere Schranke f¨ ur max bT y y ∈ Z ∗ . Aus der schwachen Dualit¨at folgt f¨ ur das primale und zugeh¨origes duales Programm: • Falls eines der Programme unbeschr¨ankt ist, sind die Restriktionen des anderen Programms widerspr¨ uchlich. • Im Fall eines widerspr¨ uchlichen Programms ist das andere entweder ebenfalls widersp¨ uchlich oder der Zielwert ist unbesch¨ankt (Es gibt Beispiele f¨ ur beide F¨alle). Aus der schwachen Dualit¨at erhalten wir ein Optimalit¨atskriterium: Eine primale L¨osung x ∈ Z ist optimal, wenn eine duale L¨osung y ∈ Z ∗ mit bT y = cT x existiert. Die Umkehrung dieser Aussage ist die sogenannte starke Dualit¨ at: Satz 13.19 (Dualit¨at). Falls die Restriktionssysteme des primalen Programms LP in kanonischer Form und des zugeh¨ origen dualen Programm LP* nicht widersp¨ uchlich sind, stimmen beide, optimalen Zielwerte u ¨berein. Beweis. Wegen der schwachen Dualit¨at, Lemma 13.18, gen¨ ugt zu zeigen, dass x ∈ Z ∗ T T und y ∈ Z mit c x ≤ b y existieren. Aus der Variante von Farkas’ Lemma in Korollar 12.43 auf Seite 149 folgt, dass f¨ ur beliebiges c0 ∈ R die nachstehenden Aussagen ¨aquivalent sind:5 a) Es existiert ein x ≥ 0 und Ax ≥ b mit cT x ≤ c0 . −A −b b) Es existiert ein x ≥ 0 mit x≤ . T c c0 −A y T λ c) F¨ ur alle ≥ 0 mit y ≥ 0 gilt −bT λ cT
c0
y · ≥ 0. λ
d) F¨ ur alle y ≥ 0 und λ ≥ 0 mit AT y ≤ λc gilt λc0 ≥ bT y. e) F¨ ur alle y ≥ 0 mit AT y ≤ c gilt c0 ≥ bT y. Angenommen, f¨ ur alle y ∈ Z ∗ gilt bT y ≤ c0 < min cT x x ∈ Z f¨ ur ein geeignetes T c0 . Dann existiert eine primale L¨osung x ∈ Z mit c x ≤ c0 im Widerspruch zur Wahl von c0 kleiner als der optimale, primale Zielwert. 5F¨ ur den Beweis der Implikation d)⇒e)“ w¨ ahle λ = 1. F¨ ur die R¨ uckrichtung e)⇒d)“ unter-
” ” scheide die beiden F¨ alle λ > 0 und λ = 0. F¨ ur λ > 0 folgert man Aussage d) aus e) mit y := λ−1 y. Um die Behauptung, f¨ ur alle y ≥ 0 mit AT y ≤ 0 gilt bT y ≤ 0, zu folgern, w¨ ahle x0 ∈ Z (existiert nach Voraussetzung): Wegen Ax0 ≥ b, AT y ≤ 0 und x0 , y ≥ 0 gilt dann bT y ≤ xT0 AT y ≤ 0.
5. Dualit¨at
171
Obwohl von Neumann diesen Satz bereits 1947 formulierte und bewies, ist er erst 1951 explizit in einer Arbeit von Tucker, Kuhn und Gale erschienen. Auch einem linearen Programm in Standardform, LPstd
minimiere cT x, so dass Ax = b x ≥0
ordnet man ein duales Programm zu (beachte, y sind freie Variablen): maximiere bT y,
LP* std
so dass AT y + s = c s ≥ 0.
∗ F¨ ur die Standardform gilt auch die schwache Dualit¨at, d.h. f¨ ur x ∈ Zstd und y ∈ Zstd ist bT y ≤ cT x, denn
bT y = (Ax)T y = xT (AT y) ≤ xT c. Der Dualit¨atssatz, die Gleichheit der optimalen Zielwerte, u ¨bertr¨agt sich ebenfalls ¨ (siehe Ubungsaufgabe 16.3): Korollar 13.20 (Dualit¨at). Hat das primale Programm LPstd in Standardform eine optimale L¨ osung, so auch das duale Programm LP* std und beide Zielwerte stimmen u ¨berein. Zum Abschluß geben wir eine Motivation des dualen Programms basierend auf den Simplex-Tableaus. Zum linearen Programm in Standardform LPstd
minimiere cT x, so dass Ax = b x ≥0
wird eine weitere Variable −z und eine zus¨atzliche Restriktion −z + cT x = 0 hinzugef¨ ugt, das neues Ziel ist die Minimierung von z. Bezogen auf das Tableau −z
x
0
A
b
1
cT
0
subtrahiert man Vielfache der oberen Zeilen von der Zielzeile, um den Wert im Feld rechts unten zu maximieren. Bezeichne y die Vielfachen, so steht in der letzten Zeile der Vektor der Schattenpreise s := c − AT y. Wir haben eine optimale L¨osung x gefunden, dann und nur dann, wenn die Schattenpreise s ≥ 0 sind. Aufgrund6 xT s = xTB sB + xTN sN = 0 |{z} |{z} =0
=0
und Ax = b gilt: 0 = xT s = xT c − xT AT y = cT x − bT y.
(36)
6Wegen x, s ≥ 0 muß f¨ ur alle i entweder xi oder si Null sein. Man nennt dies komplement¨ are Slackness.
172
13. Lineare Programmierung
Die Minimierung von cT x ist daher gleichwertig zur Maximierung von bT y. Beim Rechnen im Simplex-Tableau haben wir durch die Multiplizierer y und die Schattenpreise s eine L¨osung des dualen linearen Programms ermittelt: LP* std
maximiere bT y, so dass AT y + s = c s ≥ 0.
Gleichung (36) liefert die starke Dualit¨at: Die optimalen Zielwerte des primalen und des dualen Programms stimmen, sofern einer endlich ist, u ¨berein. Kombiniert man primales und duales Programm, ergibt sich ein System linearer Ungleichungen: Ax = b AT y + s = c cT x − bT y = 0
(37)
x, s ≥ 0 Das Finden einer L¨osung (x, y, s) ist gleichwertig zur linearen Programmierung, denn x stellt in diesem Fall wegen der starken Dualit¨at eine optimale L¨osung des primalen Ausgangsprogramms dar. Faßt man (37) als Restriktionen f¨ ur ein lineares Programm auf, so ist bereits das Finden einer Startecke f¨ ur den Simplex-Algorithmus ¨aquiva” lent“ zum linearen Programmieren.
Kapitel 14
Reelle und komplexe Vektorr¨ aume
In diesem Abschnitt untersuchen wir Linear-, Bilinear- und quadratische Formen. Der duale Vektorraum wird eingef¨ uhrt und wir gehen ausf¨ uhrlich auf Skalarprodukte im Rn und im Cn ein. Wir betrachten symmetrische, orthogonale (hermitesche,unit¨are) Matrizen und die zugeh¨origen Endomorphismen.
1. Dualit¨ at linearer R¨ aume Zu einem K-Vektorraum V haben wir in Kapitel 6 auf Seite 63 die Bezeichnung Lin(V, K) := {` : V → K | ` ist Homomorphismus } f¨ ur die Menge der linearen Abbildungen ` : V → K eingef¨ uhrt. Nach Satz 6.2 ist Lin(V, K) mit Addition und skalarer Multiplikation (`1 + `2 )(v) := `1 (v) + `2 (v) (λ · `)(v) := λ · `(v) f¨ ur `1 , `2 , ` ∈ Lin(V, K) und λ ∈ K ein K-Vektorraum. Sei b1 , . . . , bn eine Basis von V . Gibt es eine zugeh¨orige Basis von Lin(V, K)? Definiere lineare Abbildungen `1 , . . . , `n ∈ Lin(V, K) gem¨aß ( 1 falls i = j `i (bj ) = δi,j = 0 sonst. Solche linearen Abbildungen existieren und sind eindeutig bestimmt, denn die Bilder der Basisvektoren charakterisieren eine lineare Abbildung eindeutig. Satz 14.1. Sei V ein endlich-dimensionaler K-Vektorraum mit Basis b1 , . . . , bn ∈ V . Dann bilden `1 , . . . , `n ∈ Lin(V, K) mit `i (bj ) = δi,j eine Basis von Lin(V, K). Insbesondere ist dim V = dim Lin(V, K). 173
174
14. Reelle und komplexe Vektorr¨aume
Beweis. Die Abbildungen `1 , . . . , `n ∈ Lin(V, K) sind linear unabh¨angig, denn aus Pn λ ` i=1 i i ≡ 0 (Nullabbildung) folgt 0=
n X
λi `i (bj ) = λj `j (bj ) = λj
i=1
f¨ ur alle j = 1, . . . , n. Zu zeigen bleibt, dass die Abbildungen `1 , . . . , `n ∈ Lin(V, K) den Raum Lin(V, K) erzeugen. Zu ` ∈ Lin(V, K) definiere λi := `(bi ) und 0
` :=
n X
λi · `i ∈ span(`1 , . . . , `n ).
i=1
Die Bilder der Basisvektoren b1 , . . . , bn der beiden Funktionen ` und `0 stimmen u ¨berein `(bi ) = λi = `0 (bi ), so dass ` = `0 ist. Die linearen Abbildungen `1 , . . . , `n ∈ Lin(V, K) erzeugen folglich Lin(V, K). In Satz 14.1 verwenden wir implizit dim V < ∞, weil nur endliche Summen allgemein erkl¨art sind. Def inition 14.2 (Dualer Vektorraum, duale Basis). Sei V ein K-Vektorraum mit Basis b1 , . . . , bn ∈ V . Dann heißt L∗ := Lin(V, K) der duale Vektorraum (Dualraum) zu V und `1 , . . . , `n ∈ Lin(V, K) mit `i (bj ) = δi,j ist die duale Basis zu b1 , . . . , bn ∈ V . Bei der Definition der dualen Basis ist die Rolle von `i und bi symmetrisch. Jeder Vektor b ∈ V operiert als lineare Abbildung auf Lin(V, K) gem¨aß b:
Lin(V, K) → K `
7→ `(b).
Es gilt: Korollar 14.3. Sei V ein endlich-dimensionaler K-Vektorraum. Dann gilt: (V ∗ )∗ = V. Betrachten wir den Fall V = Kn . Es gilt Lin(Kn , K) ∼ = Kn , die lineare Abbildung n ` ∈ Lin(K , K) l¨aßt sich schreiben als `(x1 , . . . , xn ) =
n X
ai xi
i=1
mit den Koeffizienten ai := `(ei ) f¨ ur die kanonischen Einheitsvektoren e1 , . . . , en . Man nennt das formale Polynome `=
n X
ai Xi ∈ K[X1 , . . . , Xn ]
i=1
eine Linearform in den Variablen X1 , . . . , Xn .
1. Dualit¨at linearer R¨aume
175
Def inition 14.4 (Annulator, Nullstellenmenge). Sei V ein endlich-dimensionaler K-Vektorraum. Zu M ⊆ V heißt M 0 := {` ∈ V ∗ | `(m) = 0 f¨ ur alle m ∈ M } Annulator von M . Zu L ⊆ V ∗ nennt man L0 := {v ∈ V | `(v) = 0 f¨ ur alle ` ∈ L } die Nullstellenmenge von L. Eine Teilmenge I ⊆ K[X1 , . . . , Xn ] heißt Polynomideal, wenn (I, +) eine abelsche Gruppe ist und I · K[X1 , . . . , Xn ] ⊆ I.1 Zu M ⊆ Kn ist der Annulator M 0 = {p ∈ K[X1 , . . . , Xn ] | p(x) = 0 f¨ ur alle x ∈ M } ein Polynomideal. Zum Ideal I ⊆ K[X1 , . . . , Xn ] ist die Nullstellenmenge I 0 ⊆ Kn eine Manigfaltigkeit mit (I 0 )0 ⊇ I. (I 0 )0 ist ein Radikalideal, es enth¨alt zu f auch jedes Polynom g mit g q = f f¨ ur q ∈ N. F¨ ur Radikalideale I gilt (I 0 )0 = I. Satz 14.5. Sei V ein endlich-dimensionaler K-Vektorraum und U ⊆ V ein Untervektorraum. Dann ist der Annulator U 0 ⊆ V ∗ von U ein Untervektorraum von V ∗ , so dass gilt dim U + dim U 0 = dim V und (U 0 )0 = U . Beweis. Sei b1 , . . . , bm eine Basis von U und b1 , . . . , bm , . . . , bn eine Basis von V . Sei `1 , . . . , `n ∈ V ∗ die duale Basis zu b1 , . . . , bn . Dann gilt: U 0 ⊆ span(`m+1 , `m+2 , . . . , `n ). Somit ist dim U + dim U 0 = m + (n − m) = n = dim V. Offenbar gilt (U 0 )0 = span(b1 , . . . , bm ) = U .
Zum Abschluß wollen den dualen Vektorrraum mit dem dualen Code aus Kapitel 7 vergleichen und Gemeinsamkeiten aufzeigen. Zu einem K¨orper K ist ein linearer Code ein Untervektorraum C des Vektorraums Kn . Der zu C dualen Code ist nach Definition 7.19 auf Seite 78 erkl¨art als ur alle c ∈ C C ⊥ := u ∈ Kn cT u = 0 f¨ Es gilt C 0 ∼ = C ⊥ , dim C + dim C ⊥ = dim V und (C ⊥ )⊥ = C. Der Annulator C 0 und der duale Code C ⊥ sind in verschiedene R¨aume, n¨amlich Kn und Lin(Kn , K) eingebettet. 1D.h. mit f ∈ I und g ∈ K[X , . . . , X ] liegt auch das Produkt f g im Ideal I. 1 n
176
14. Reelle und komplexe Vektorr¨aume
2. Bilineare, Sesquilineare und quadratische Formen Sei K ein K¨orper und V ein K-Vektorraum. Eine Abbildung s : V × V → K nennen wir Bilinearform, wenn sie in jeder Komponente linear ist: Def inition 14.6 (Bilinearform). Sei V ein K-Vektorraum. Eine Abbildung s : V × V → K heißt bilinear (Bilinearform) auf V , wenn f¨ ur alle u, v, w ∈ V und λ ∈ K gilt: (B1) s(u + v, w) = s(u, w) + s(v, w) und s(λv, w) = λs(v, w). (B2) s(u, v + w) = s(u, v) + s(u, w) und s(v, λw) = λs(v, w). Eine Bilinearform s : V × V → K heißt symmetrisch, wenn s(v, w) = s(w, v) f¨ ur alle v, w ∈ V . Das kanononische Skalarprodukt h·, ·i : Rn × Rn → R mit hv, wi = v T w induziert eine symmetrische Bilinearform auf Rn . Welche Bilinearformen stellen ihrerseits Skalarprodukte dar? Def inition 14.7 (Positiv definite Bilinearform). Eine Bilinearform s : V × V → R eines R-Vektorraums V heißt positiv definit, wenn f¨ ur alle v ∈ V gilt: a) s(v, v) ≥ 0. b) s(v, v) = 0 gdw. v = 0. Aus der Definition auf Seite 176 folgt unmittelbar: Satz 14.8. Sei V ein R-Vektorraum und s : V × V → R eine Bilinearform. Genau dann ist s symmetrisch und positiv definit, wenn s ein Skalarprodukt ist. Betrachten wir ein weiteres Beispiel eines Skalarprodukts. Sei I := [a, b] ⊆ R ein Intervall und V := C(I, R) der R-Vektorraum der stetigen Funktionen f : I → R. Die Abbildung V × V → R mit Z b (f, g) 7→ f (t)g(t)dt a
ist eine symmetrische, positiv definite Billinearform, also ein Skalarprodukt auf dem Vektorraum C(I, R). Sei B = {b1 , . . . , bn } ⊂ V eine geordnete Basis des K-Vektorraums V . Zum Vektor Bt =
n X
ti b i ∈ V
i=1
nennen wir t ∈ Kn den Koordinatenvektor von Bt. Eine Bilinearform s : V × V → K wird zur Basis B durch die Matrix MB (s) := s(bi , bj ) 1≤i,j≤n ∈ Mn,n (K) dargestellt. Es gilt: s(Bt, Bt0 ) = tT · MB (s) · t0 .
(38)
2. Bilineare, Sesquilineare und quadratische Formen
177
Man kann sich leicht u ¨berlegen, dass zu zwei Bilinearformen s, s0 ihre Summe s + s0 0 mit (s + s )(v, w) = s(v, w) + s0 (v, w) ebenfalls eine Bilinearform ist, ebenso skalare Vielfache. Die Menge der Bilinearformen eines K-Vektorraums ist folglich ein KVektorraum. Da jede n × n-Matrix u ¨ber K eine Bilinearform definiert und umgekehrt, gilt: Korollar 14.9. Sei V ein K-Vektorraum der Dimension n := dim V . Dann ist der K-Vektorraum der Bilinearformen auf V isomorph zu Kn×n . Seien A und B Basen eines K-Vektorraums V . Dann existiert eine invertierbare ur den Basiswechsel von B zu A, also A = BT . Der KordinaMatrix2 T ∈ GLn (K) f¨ tenvektor zu b = At bez¨ uglich der Basis B ist gegeben durch T t, denn b = At = (BT )t = B(T t). F¨ ur die darstellende Matrix einer Bilinearform gilt folgende Transformationsformel beim Basiswechsel: Korollar 14.10. Seien A und B Basen eines K-Vektorraums mit A = BT . Dann gilt f¨ ur die darstellende Matrix einer Bilinearform s : V × V → K: MB (s) = T T · MA (s) · T. Beweis. Nach Gleichung (38) gilt: s(Bt, Bt0 ) = tT · MB (s) · t0 = (T t)T · MA (s) · (T t0 ) = tT · T T · MA (s) · T · T t0 . Es folgt MB (s) = T T · MA (s) · T .
Zum Vergleich: F¨ ur einen Endomorphismus f : V → V lautet die Transformationsformel aus Gleichung (15) auf Seite 68: MB (f ) = T −1 · MA (f ) · T. Aus Korollar 14.10 folgt, dass wie bei Endomorphismen der Rang der Darstellungsmatrix unabh¨angig von der Wahl der Basis ist: Def inition 14.11 (Rang einer Bilinearform). Der Rang einer Bilinearform s : V × V → K ist der Rang rang(MB (s)) der Darstellungsmatrix bez¨ uglich einer Basis B des Vektorraums V . Def inition 14.12 (Positiv definite Matrix). Eine reelle, quadratische Matrix A ∈ Mn,n (R) heißt positiv definit, wenn xT Ax ≥ 0 f¨ ur alle x ∈ Rn und xT Ax = 0 gdw. x = 0. Offenbar gilt: −1 2Zur Erinnerung: GL (K) = A ∈ M existiert ist die Gruppe der invertierbaren n n,n (K) A
n × n-Matrizen u ¨ber K.
178
14. Reelle und komplexe Vektorr¨aume
Korollar 14.13. Sei V ein R-Vektorraum mit Basis B und s : V × V → R eine Bilinearform. Genau dann ist s ein Skalarprodukt auf V , wenn die Matrix MB (s) symmetrisch und positiv definit ist. F¨ ur den reellen Vektorraum Rn ist hv, wi = v T w das Standardskalarprodukt. Auch f¨ ur den komplexen Vektorraum Cn gibt es ein kanonisches Skalarprodukt:3 n X T vi wi . hv, wiC = v w = i=1
1 2 -linear),
Die Abbildung h·, ·iC ist sesquilinear (d.h. 1 + es gilt hv, wiC = hw, viC und ¨ hv, viC ∈ R≥0 sowie die Aquivalenz hv, viC = 0 gdw. v = 0. Def inition 14.14 (Sesquilinearform). Sei V ein C-Vektorraum. Eine Abbildung s : V × V → C heißt sesquilinear (Sesquilinearform) auf V , wenn f¨ ur alle u, v, w ∈ V und λ ∈ C gilt: (SE1) s(u + v, w) = s(u, w) + s(v, w) und s(λv, w) = λ · s(v, w). (SE2) s(u, v + w) = s(u, v) + s(u, w) und s(v, λw) = λ · s(v, w). Eine Sesquilinearform h : V × V → C heißt hermitesch (hermitesche Form), wenn h(v, w) = h(w, v) f¨ ur alle v, w ∈ V . F¨ ur hermitesche Formen h gilt h(v, v) = h(v, v), so dass h(v, v) stets reell ist: Def inition 14.15 (Positiv definite, hermitesche Form). Eine hermitesche Form h : V × V → C eines C-Vektorraums V heißt positiv definit, wenn f¨ ur alle v ∈ V gilt: a) h(v, v) ≥ 0. b) h(v, v) = 0 gdw. v = 0. Zu einem reellen Vektorraum V nennt man eine symmetrische Bilinearform, die positiv definit ist, Skalarprodukt auf V . F¨ ur komplexe Vektorr¨aume heißen hermitesche Formen, die positiv definit sind, Skalarprodukte: Def inition 14.16 (Skalarprodukt). Sei V ein C-Vektorraum. Eine hermitesche Form h : V × V → C heißt Skalarprodukt auf V , wenn h positiv definit ist. Def inition 14.17 (Hermitische und positiv definite Matrix). Eine Matrix A ∈ Mn,n (C) heißt a) hermitesch, wenn A = AT . b) positiv definit, wenn xT Ax ∈ R≥0 f¨ ur alle x ∈ Cn und xT Ax = 0 gdw. x = 0. F¨ ur eine Matrix A mit reellen Eintr¨agen bedeutet A = AT wegen A = A, dass die Matrix symmetrisch ist. Korollar 14.18. Sei V ein C-Vektorraum mit Basis B und s : V × V → C eine Bilinearform. Genau dann ist s ein Skalarprodukt auf V , wenn die Matrix MB (s) hermitesch und positiv definit ist. 3Zur Erinnerung: Zu a + ib ∈ C ist die konjugierte komplexe Zahl a + ib = a − ib. Die Abbildung
x 7→ x ist ein Automorphismus des K¨ orpers C mit x = x. Es gilt y = y gdw. y ∈ R. F¨ ur z = a + ib ∈ C gilt zz = a2 + b2 ∈ R.
2. Bilineare, Sesquilineare und quadratische Formen
179
Wir haben bereits in Kapitel 11 den Begriff euklidischer Vektorraum“ f¨ ur einen ” reellen Vektorraum in Verbindung mit einem Skalarprodukt verwendet: Def inition 14.19 (Euklidischer bzw. unit¨arer Vektorraum). Ein euklidischer (unit¨ arer) Vektorraum V ist ein R-Vektorraum (C-Vektorraum) zusammen mit einem Skalarprodukt auf V . Wir ordnen jeder Bilinearform eine quadratische Form zu: Def inition 14.20 (Quadratische Form). Sei s : V × V → K eine Bilinearform auf einem K-Vektorraums V . Die zugeh¨ orige, quadratische Form q : V → K ist erkl¨ art durch q(v) := s(v, v). Ist die Bilinearform durch s(Bt, Bt0 ) = t·MB (s)·t0 gegeben, gilt f¨ ur die zugeh¨orige, quadratische Form q((Bt) = t · MB (s) · t. Faßt man die Koordinaten t1 , . . . , tn von t als formale Variable auf, gilt q ∈ K[t1 , . . . , tn ]. Dies ist ein quadratisches Polynom, homogen vom Grad 2. Satz 14.21. Sei K ein K¨ orper mit Charakteristik4 char(K) 6= 2. F¨ ur die zugeh¨ orige, quadratische Form q einer symmetrischen Bilinearform s : V × V → K auf dem K-Vektorrraum gilt: s(v, w) = 21 q(v + w) − q(v) − q(w) . Beweis. Aus der Bilinearit¨at von s folgt: (1 + 1) · s(v, w) = s(v + w, w) − s(w, w) + s(v, w + v) − s(v, w) . | {z } | {z } =s(v,w)
=s(v,w)
Wegen der Voraussetzung char(K) 6= 2 ist 1 + 1 6= 0 und wir k¨onnen durch (1 + 1) dividieren. In Satz 11.12 auf Seite 123 haben wir die Cauchy-Schwarz-Ungleichung bereits f¨ ur euklidische Vektorr¨aume bewiesen. Satz 14.22 (Cauchy-Schwarz-Ungleichung). In jedem euklidischen oder unit¨ arem Vektorraum V gilt f¨ ur v, w ∈ V : |hv, wi| ≤ kvk · kwk . Die Gleichheit gilt genau dann, wenn beide Vektoren linear abh¨ angig sind. Der Beweis der Cauchy-Schwarz-Ungleichung, den wir im folgenden geben, basiert auf folgenden Satz aus [Fischer92]: 4Wir f¨ uhren die Charakteristik eines K¨ orpers in Kapitel 15 ein. Die Charakteristik der K¨ orper Q,
R und C ist zum Beispiel Null, die der endlichen K¨ orper Zp ist gleich p. F¨ ur K¨ orper mit char(K) 6= 2 gilt 1 + 1 6= 0.
180
14. Reelle und komplexe Vektorr¨aume
Fakt 14.23 (Determinanten-Multiplikations-Theorem). Sei A = (a1 , . . . , an ) ∈ Mm,n (K) und B = (b1 , . . . , bm ) ∈ Mn,m (K). Dann gilt f¨ ur f¨ ur die m × m-Matrix AB T : X det(AB T ) = det(ai1 , . . . , aim ) · det(bi1 , . . . , bim ). 1≤i1 ≤···≤im ≤n
Insbesondere ist det AB T = 0 f¨ ur n < m. Aus dem Determinanten-Multiplikations-Theorem folgern wir, dass f¨ ur jede m × nMatrix A u ¨ber einem K¨orper K gilt: X det AAT = det(ai1 , . . . , aim )2 . 1≤i1 ≤···≤im ≤n
Speziell: a) F¨ ur K = R gilt det AAT ≥ 0. b) F¨ ur K = C ist det AAT eine reelle Zahl gr¨oßer oder gleich Null. Wir wollen nun die Cauchy-Schwarz-Ungleichung aus Satz 14.22 beweisen. O.B.d.A. sei V = Cn . Zu v = (v1 , . . . , vn )T ∈ Cn und w = (w1 , . . . , wn )T ∈ Cn erkl¨are T v v1 · · · vn A := = ∈ M2,n (C). wT w1 · · · wn F¨ ur die Determinante der Matrix T
AA =
hv, vi hv, wi hw, vi hw, wi
gilt nach vorherigen Folgerungen aus dem Determinanten-Multiplikations-Theorem: det AAT = hv, vi · hw, wi − hv, wi · hw, vi = kvk2 · kwk2 − |hv, wi|2
≥ 0. ¨ Also |hv, wi|2 ≤ kvk2 · kwk2 . F¨ ur die Gleichheit haben wir folgende Aquivalenz: |hv, wi|2 = kvk2 · kwk2 ⇐⇒ det AAT = 0. Die Forderung det AAT = 0 ist gleichbedeutend damit, dass die 2 × 2-Matrix AAT nicht vollen Rang hat, d.h. der Rang von A ist maximal 1. |hv, wi|2 = kvk2 · kwk2
⇐⇒
v, w linear abh¨angig.
Wir geben einen weiteren Beweis der Cauchy-Schwarz-Ungleichung aus Satz 14.22 ¨ in Ubungsaufgabe 19.1 mit Hilfe einer Isometrie5 ψ : span(v, w) → C2 mit ψ(v) ∈ T (0, 1) C. 5D.h. hv, wi = hψ(v), ψ(w)i f¨ ur alle v, w.
3. Hauptachsentransformation symmetrischer Matrizen
181
3. Hauptachsentransformation symmetrischer Matrizen Der zentrale Satz dieses Abschnitt lautet: Satz 14.24. F¨ ur symmetrische Matrizen A ∈ Mn,n (R) sind folgende Aussagen ¨ aquivalent: a) A ist positiv definit. b) Es existiert eine invertierbare Matrix T ∈ GLn (R) mit A = T T T . Vor dem Beweis zu Satz 14.24 folgern wir: Korollar 14.25. Im Rn geht jedes Skalarprodukt h·, ·i : Rn × Rn → R durch einen Basiswechsel aus dem kanonischen Skalarprodukt h·, ·ikan hervor. Beweis. Sei I = {e1 , . . . , en } die Standardbasis des Rn und B = IT eine weitere Basis (mit Transformationsmatrix T ). Dann gilt: hIt, Isikan = ht, sikan = tT s. Sei andererseits h·, ·i ein beliebiges Skalarprodukt auf den Koordinatenvektoren. Mit A := T T T gilt: ht, si = tT As Sei A := BT . Der Koordinatenvektor zu b := Bt ∈ Rn bez¨ uglich A ist s := T −1 t, denn b = Bt = BT T −1 t = As. Der Koordinatenvektor zu b0 := Bt0 ∈ Rn bez¨ uglich A ist s0 := T −1 t0 . Das kanonische Skalarprodukt zur Basis A ist:
0
0 T b, b kan = Bt, Bt0 kan = T t, T t0 kan = tT T | {zT} t . =:A
Das kanonische Skalarprodukt geht beim Basiswechsel in ein beliebiges Skalarprodukt der Koordinantenvektoren u ¨ber. Wir kommen zum Beweis von Satz 14.24: Beweis. Die R¨ uckrichtung von von Satz 14.24 ist offensichtlich: tT T T T t = (T t)T · (T t) ≥ 0. Sei A = (ai,j )1≤i,j≤m symmetrisch und positiv definit. F¨ ur die obere Dreiecksmatrix 1 − aa12 − aa13 · · · − aa1n 11 11 11 0 1 0 ··· 0 .. .. .. T1 := ... ∈ ODn (R) (39) . . . 0 · · · ··· 1 0 0 ··· ··· 0 1
182
14. Reelle und komplexe Vektorr¨aume
gilt: T1T AT1
=
a11 0 . 0 A0
Weil A positiv definit ist, gilt a11 > 0 und A0 ist ebenfalls positiv definit. Wende die entsprechende Transformationsmatrix induktiv auf A0 an. Es existiert ein Tn ∈ GLn (R) mit a11 0 · · · · · · 0 0 a22 0 .. .. .. .. T . . . D := Tn ATn = . .. 0 . 0 0 0 0 0 · · · 0 ann √ √ √ √ Setze T := Tn / D mit D := Diag( a11 , . . . , ann ). Dann gilt T T AT = In . Falls die Matrix A u ¨ber einem beliebigem K¨orper K ist, k¨onnen wir, sofern A 6= 0, o.B.d.A. a11 6= 0 in Gleichung (39) voraussetzen (permutiere gegenenfalls die Zeilen und Spalten von A derart, dass die erste Zeile von A nicht Null ist). F¨ uhrt man den Beweis wie in Satz 14.24, folgt: Korollar 14.26. Sei K ein K¨ orper und A ∈ Mn,n (K) eine symmetrische Matrix. Dann gibt es ein T ∈ GLn (K), so dass D := T T AT eine Diagonalmatrix ist bzw. es gilt A = (T −1 )T DT −1 . Wir folgern weiter aus dem Beweis zu Satz 14.24: Korollar 14.27. Sei A ∈ Mn,n (R) eine symmetrische Matrix. Dann gibt es ein T ∈ GLn (R) mit D = T T AT f¨ ur eine Diagonalmatrix D mit Eintr¨ agen aus {±1, 0}. Beweis. Wegen Korollar 14.26 sei o.B.d.A. A eine Diagonalmatrix: a11 0 · · · · · · 0 0 a22 0 .. .. .. .. . . . A= . .. 0 . 0 0 0 0 0 · · · 0 ann Definere die Matrix T = (tij )1≤i,j≤n gem¨aß √1 falls i = j und aii > 0. aii √ 1 falls i = j und aii < 0. −aii tij := 1 falls i = j und aii = 0. 0 falls i 6= j. Offenbar ist D := T T AT eine Diagonalmatrix mit Eintr¨agen aus {±1, 0}.
3. Hauptachsentransformation symmetrischer Matrizen
183
Korollar 14.28. Sei V ein R-Vektorraum und s : V × V → R eine Bilinearform. Dann gibt es eine Basis B sowie eine Diagonalmatrix D mit Eintr¨ agen aus {±1, 0}, f¨ ur die gilt: s(Bt, Bt0 ) = tT Dt0 . Wir haben in Definition 14.7 auf Seite 176 eine Bilinearform s : V × V → R eines R-Vektorraums V positiv definit genannt, wenn f¨ ur alle v ∈ V a) s(v, v) ≥ 0 b) s(v, v) = 0 gdw. v = 0 gilt. Wir wollen die Bezeichung negativ definit“ f¨ ur den Fall, dass s(v, v) ≤ 0 f¨ ur alle ” v ∈ V ist, einf¨ uhren: Def inition 14.29 (Negativ definite und indefinite Bilinearform). Eine Bilinearform s : V × V → R eines R-Vektorraums V heißt negativ definit, wenn −s positiv definit ist. Die Bilinearform nennt man indefinit, wenn s(v, v) sowohl negative als auch positive Werte annimmt. Def inition 14.30 (Degeneriete Bilinearform). Eine Bilinearform s : V × V → R eines R-Vektorraums V nennt man degeneriert, wenn f¨ ur ein v ∈ V \ {0} gilt s(v, ·) ≡ 0. Zu einer Bilinearform s : V × V → R ist der Nullraum N(s) erkl¨art als die Menge aller Vektoren v ∈ V , f¨ ur die s(v, ·) die Nullabbildung, also s(v, ·) ≡ 0, ist. Offenbar ist N(s) ein Untervektorraum von V : Def inition 14.31 (Nullraum einer Bilinearform). Zur Bilinearform s : V × V → R eines R-Vektorraums V heißt N(s) := {v ∈ V | s(v, ·) ist Nullabbildung } der Nullraum (auch Ausartungsraum). Die Bilinearform s : V × V → R ist genau dann degeneriert, falls der Nullraum N(s) neben der Null weitere Vektoren enth¨alt, also dim N(s) > 0. Lemma 14.32. Sei s : V × V → R Bilinearform eines R-Vektorraums V . Dann gilt: dim N(s) + rang s = dim V. Beweis. Sei B eine Basis von D, so dass eine Diagonalmatrix D mit Eintr¨agen aus {±1, 0} und s(Bt, Bt0 ) = tT Dt0 . existiert (Korollar 14.28). Dann ist: dim N(s) = {i | dii = 0 } rang s = {i | dii 6= 0 } Aus rang s = dim V − dim N(s) folgt die Behauptung.
184
14. Reelle und komplexe Vektorr¨aume
4. Unit¨ are Endomorphismen und Matrizen Wir hatte bereits auf Seite 127 orthogonale Abbildungen und Matrizen f¨ ur den Rn eingef¨ uhrt. Diese Begriffe u ¨bertragen wir auf den Fall komplexer Vektorr¨aume: Def inition 14.33 (Orthogonale und unit¨are Endomorhismus). Sei V ein euklidischer (unit¨ arer) Vektorraum mit Skalarprodukt h·, ·i. Ein Endomorhismus f : V → V heißt orthogonal (unit¨ ar), wenn f¨ ur alle v, w ∈ V gilt: hv, wi = hf (v), f (w)i . Man verwendet alternativ auch die englische Bezeichnung Isometrie“. Die Spalten” und die Zeilenvektoren einer orthogonalen bzw. unit¨aren Matrix bilden bez¨ uglich des kanonischen Skalarprodukts jeweils eine Orthonormalbasis6 des Rn bzw. Cn . Mit f ist auch die inverse Abbildung f −1 ein unit¨arer Endomorphismus. F¨ ur die Eigenwerte λ von f gilt |λ| = 1. Def inition 14.34 (Orthogonale und unit¨are Matrix). Eine reelle, quadratische Matrix A ∈ Mn,n (R) heißt orthogonal, wenn AT A = In . Eine komplexe, quadratische Matrix A ∈ Mn,n (C) heißt unit¨ ar, wenn AT A = In . Die Menge der orthogonalen n × n-Matrizen bezeichnet man mit On (R), die er unit¨ aren Matrizen mit Un (C). In Satz 11.24 auf Seite 128 haben wir gezeigt, dass On (R) eine Gruppe ist. Analog weist man nach, dass Un (C) ebenfalls eine Gruppe ist. Satz 14.35. Sei V ein euklidischer (unit¨ arer) Vektorraum mit Orthonormalbasis B. Der Endomorphismus f : V → V ist genau dann orthogonal (unit¨ ar), wenn die Darstellungsmatrix MB (f ) orthogonal (unit¨ ar) ist. Beweis. Da B orthonormal ist, haben wir hBt, Bsi = ht, si. Falls f unit¨ar ist, gilt hMB (f )t, MB (f )si = tT MB (f )T · MB (f )s. Der Endomorphismus f ist genau dann unit¨ar, wenn MB (f )T · MB (f ) = In ist.
Satz 14.36. Sei V ein unit¨ arer Vektorraum und f : V → V ein Endomorphismus. Dann gibt es eine Orthonormalbasis von V bestehend aus Eigenvektoren von f . Beweis. Wir f¨ uhren den Beweis durch Induktion u ¨ber die Dimension n := dim V . Die Verankerung ist offensichtlich, so dass im weiteren n ≥ 2 sei. Das charakteristische Polynom χf ∈ C[X] hat gem¨aß Fundamentalsatz der Algebra (Fakt 4.23 auf Seite 52) eine Nullstelle λ1 ∈ C. Da f ein Isomorphismus ist, gilt λ1 6= 0. Es gibt einen Eigenvektor v1 ∈ V \ {0} zu λ1 mit f (v1 ) = λ1 v1 . Sei W := {w ∈ V | hv1 , wi = 0 } = span(v1 )⊥ . Weil f ein Isomorphismus ist, gen¨ ugt der Nachweis der Inklusion f (W ) ⊆ W , um f (W ) = W zu zeigen. F¨ ur w ∈ W gilt: λ1 hv1 , f (w)i = hλ1 v1 , f (w)i = hf (v1 ), f (w)i = hv1 , wi = 0. 6Zur Erinnerung: Die Basis b , b , . . . , b heißt Orthonormalbasis, wenn hb , b i = δ ur 1 ≤ 1 2 n i j i,j f¨ i, j ≤ n.
4. Unit¨are Endomorphismen und Matrizen
185
Nach Induktionsannahme gibt es eine Orthonormalbasis von W bestehend aus Eizu einer genvektoren von f |W . Wir erg¨anzen diese Basis durch den Vektor √ v1 hv1 ,v1 i
Orthonormalbasis von V bestehend aus Eigenvektoren von f .
Korollar 14.37. Sei A ∈ Un (C) eine unit¨ are Matrix. Dann existiert eine unit¨ are Matrix S ∈ Un (C) mit λ1 0 .. S −1 AS = . 0
λn
f¨ ur λ1 , . . . , λn ∈ C mit |λi | = 1. Insbesondere ist A diagonalisierbar. Beweis. Fasse A als Darstellungsmatrix von f bez¨ uglich einer Orthogonalbasis von V auf. Dann ist λ1 0 .. . 0 λn die Darstellungsmatrix bez¨ uglich einer Orthonormalbasis aus Eigenvektoren. Die Matrix S ∈ Un (C) transformiert die beiden Orthonormalbasen ineinander. ¨ Wir leiten in Ubungsaufgabe 21.3 eine Darstellung wie in Korollar 14.37 her, f¨ ur den Fall, dass die Matrix A reelle Eintr¨age hat: Satz 14.38. Sei A ∈ On (R). Dann existiert eine orthogonale Matrix S ∈ On (R), so dass S T AS eine Diagonalmatrix mit K¨ astchen der Form cos ϕ − sin ϕ cos ϕ sin ϕ ±1 , , sin ϕ cos ϕ − sin ϕ − cos ϕ ist. Wir erhalten: Korollar 14.39. Sei V ein euklidischer Vektorraum und f : V → V ein orthogonaler Endomorphismus. Dann gibt es zu V eine Orthonormalbasis B derart, dass die Darstellungmatrix MB (f ) von f zur Basis B eine Diagonalkastenmatrix mit K¨ astchen der Form cos ϕ − sin ϕ cos ϕ sin ϕ ±1 , , sin ϕ cos ϕ − sin ϕ − cos ϕ mit ϕ ∈ [0, 2π) ist. Bemerkung 14.40. Die Kastenmatrix cos ϕ sin ϕ SPϕ := ∈ O2 (R) − sin ϕ − cos ϕ in Satz 14.38 und Korollar 14.39 stellt eine Spiegelung an einer Geraden dar. Es gibt eine orthogonale Matrix S ∈ O2 (R) mit +1 0 T S · SPϕ ·S = , 0 −1
186
14. Reelle und komplexe Vektorr¨aume
so dass die Kastenmatrix der Form SPϕ in Satz 14.38 und Korollar 14.39 entf¨allt. Um dies zu zeigen, betrachte das charakteristische Polynom der Kastenmatrix SPϕ : cos ϕ − λ sin ϕ χSPϕ (λ) = det − sin ϕ − cos ϕ − λ = (cos ϕ − λ)(− cos ϕ − λ) − sin2 ϕ = λ2 − cos2 ϕ − sin2 ϕ = λ2 − 1. Die Matrix SPϕ hat die beiden Eigenwerte ±1: • Eigenvektor zum Eigenwert +1 ist (− sin ϕ, cos ϕ − 1)T . • Eigenvektor zum Eigenwert −1 ist (− sin ϕ, cos ϕ + 1)T . Man kann f¨ ur S ∈ O2 (R) die Matrix √ − sin ϕ 2−2 cos ϕ √cos ϕ−1 2−2 cos ϕ
√ − sin ϕ 2+2 cos ϕ √cos ϕ+1 2+2 cos ϕ
!
w¨ahlen.
5. Normalform selbstadjungierter Endomorphismen Wir beginnen mit der Definition von selbstadjungierten Endomorphismen: Def inition 14.41 (Selbstadjungierter Endomorphismus). Sei V ein euklidischer (unit¨ arer) Vektorraum endlicher Dimension. Ein Endomorphismus f : V → V heißt selbstadjungiert, wenn f¨ ur alle v, w ∈ V gilt: hf (v), wi = hv, f (w)i . In Satz 14.35 auf Seite 184 haben wir gesehen, dass ein Endomorphismus genau dann orthogonal (unit¨ar) ist, wenn die Darstellungsmatrix bez¨ uglich einer Orthonormalbasis orthogonal (unit¨ar) ist. Sollte die Matrix hingegen symmetrisch (hermitesch) sein, so ist dann und nur dann der Endomorphismus selbstadjungiert: Satz 14.42. Sei V ein euklidischer (unit¨ arer) Vektorraum mit Orthonormalbasis B. Ein Endomorphismus f : V → V ist genau dann selbstadjungiert, wenn die Darstellungsmatrix MB (f ) symmetrisch (hermitesch) ist. Beweis. Weil B eine Orthonormalbasis ist, gilt hBt, Bsi = ht, si. F¨ ur die Darstellungsmatrix A := MB (f ) zur Basis B haben wir f (Bt) = BAt. Somit: hf (Bt), Bsi = hBAt, Bsi = hAt, si = tAT s hBt, f (Bs)i = hBt, BAsi = ht, Asi = tAs. Damit ist f selbstadjungiert dann und nur dann, wenn A = AT .
Satz 14.43 (Hauptachsentheorem). Sei V ein euklidischer (unit¨ arer) Vektorraum. Ein Endomorphismus f : V → V ist selbstadjungiert genau dann, wenn es eine Orthonormalbasis von V bestehend aus Eigenvektoren von f gibt.
5. Normalform selbstadjungierter Endomorphismen
187
Bevor wir Satz 14.43 beweisen, folgern wir: Korollar 14.44. Eine komplexe, quadratische Matrix A ∈ Mn,n (C) ist genau dann hermitesch, wenn es eine unit¨ are Matrix S ∈ Un (C) gibt, f¨ ur die Diagonalmatrix −1 T D := S AS = S AS reeell ist. Im Gegensatz zu Korollar 14.37 auf Seite 185 sind die Diagonalelemente von D stets reell. Im Falls A ∈ Mn,n (R) ist S ∈ On (R) eine orthogonale Matrix. Beweis. Wir beweisen Korolllar 14.44. Sei A hermitesch. W¨ahle ein Orthonormalbasis b1 , . . . , bn von Cn bestehend aus Eigenvektoren der Matrix A, eine solche existiert nach Satz 14.43. Setze S := b1 b2 · · · bn ∈ Un (C). Es gilt:
b1 T b1
S T AS =
0
hb1 , b1 iC .. = . T bn bn 0 0
0 ..
. hbn , bn iC
∈ Mn,n (R).
Die R¨ uckrichtung zeigt man analog.
Wir kommen zum Beweis von Satz 14.43: Beweis. Der Endomorphismus f : V → V sei selbstadjungiert. Durch Induktion u ¨ber dim V konstruieren wir eine Orthonormalbasis von V bestehend aus Eigenvektoren von f . Sei λ1 eine Nullstelle des Charakteristischen Polynoms χf ∈ C[X] und v1 ∈ V Eigenvektor zum Eigenwert λ1 , d.h. f (v1 )) = λ1 v1 und v1 6= 0. Es gilt: λ1 hv1 , v1 i = hλ1 v1 , v1 i = hf (v1 ), v1 i . Weil f selbstadjungiert ist, erhalten wir λ1 hv1 , v1 i = hv1 , f (v1 )i = hv1 , λ1 v1 i = λ1 hv1 , v1 i , so dass λ1 reell ist. Setze W := {w ∈ V | hv1 , wi = 0 } ⊆ V. W ist offenbar ein Untervektorraum von V . Es gilt f (W ) ⊆ W , denn f¨ ur w ∈ W ist: hv1 , f (w)i = hf (v1 ), wi = hλ1 v1 , wi = λ1 hv1 , wi Der Endomorphismus f : W → W ist gem¨aß Voraussetzung selbstadjungiert. Nach Induktionsannahme gibt es eine Orthonormalbasis von W mit Eigenvektoren von v1 liefert dies die gew¨ unschte Orthonormalbasis von V . f |W . Zusammen mit √ 1 hv1 ,v1 i
F¨ ur die R¨ uckrichtung sei v1 , . . . , vn eine Orthonormalbasis von V , wobei vi Eigenvektor von f zum Eigenwert λi ist. Wegen X X X X X f ti vi , si vi = λi ti si = ti vi , f si vi i
ist f selbstadjungiert.
i
i
i
i
188
14. Reelle und komplexe Vektorr¨aume
Satz 14.45. Sei V ein euklidischer (unit¨ arer) Vektorraum und f : V → V ein selbstadjungierter und invertierbarer Endomorphismus. Dann ist ist f −1 ebenfalls selbstadjungiert. Beweis. Es gilt:
f −1 (v), f (w) = f f −1 (v), w = hv, wi .
Also f −1 (v), w = v, f −1 (w) , so dass f −1 selbstadjungiert ist.
Bezogen auf die Darstellungsmatrix gilt: Korollar 14.46. Ist A ∈ GLn (C) hermitesch, so auch A−1 . Satz 14.47 (Polarzerlegung). Sei A ∈ GLn (C). Dann gibt es eine eindeutige Zerlegung A = BC mit unit¨ arer Matrix B ∈ Un (C) und positiv definiter, hermitescher Matrix C ∈ Mn,n (C). Beweis. Die Matrix AT A ist hermitesch, denn (AT A)T = AT A = AT A, ferner ist AAT positiv definit: xT (AT A)x = (Ax)T · ( Ax) ≥ 0. Nach Korollar 14.44 gibt es ein S ∈ Un (C) mit D := S T AT A S ∈ Mn,n (R). Seien s1 , . . . , sn die Spaltenvektoren von S. S := {s1 , . . . , sn } ist eine Orthonormalbasis mit Eigenvektoren si von AAT zum Eigenwert λi > 0. √ Definiere einen Endomorphismus f : Cn → Cn durch f (si ) := λi si . Es gilt f (f (St)) = S(Dt), d.h. MS (f ) = MS (f 2 ) = D. Sei I die Basis bestehend aus den kanonischen Einheitsvektoren, der Basiswechsel von S ist gegeben durch die Transformationsmatrix S −1 . MI (f 2 ) = S · MS (f 2 ) · S −1 = SDS −1 = AT A. Setze C := MI (f ) und B := AC −1 . Somit gilt A = BC. denn √ Dann ist C hermitesch, √ die Darstellungsmatrix zur Orthogonalbasis S ist D mit Eigenwerten λi . Nach ¨ Ubungsaufgabe 22.1 ist C positiv definit. Zu zeigen bleibt, dass B unit¨ar ist: B −1 = CA−1 = C −1 C 2 A−1 = C −1 AT AA−1 T = C −1 AT = AT (C −1 )T = ( A · C −1 )T = (AC −1 )T = B T
Betrachten wir zum Abschluß die Eindeutigkeit der Zerlegung. Angenommen, A = BC = B 0 C 0 mit unit¨aren Matrizen B, B und hermiteschen Matrizen C, C 0 . Dann gilt: C 2 = AT A = ( B 0 C 0 )T B 0 C 0 = C 0 T · B 0 T · B 0 C 0 = C 0 T · C 0 = (C 0 )2 , Offenbar stimmen die Eigenwerte und die Eigenvektoren von C, C 0 u ¨berein (benutze, dass C, C 0 positiv definit ist). Dann gilt f¨ ur die hermiteschen Matrizen C = C 0 .
5. Normalform selbstadjungierter Endomorphismen
189
F¨ ur reelle Matrizen lautet Satz 14.47: Korollar 14.48. Sei A ∈ GLn (R). Dann gibt es eine eindeutige Zerlegung A = BC mit orthogonaler Matrix B ∈ On (R) und positiv definiter, symmetrischer Matrix C. Korollar 14.49. Sei A ∈ GLn (C). Dann gibt es eine eindeutige Zerlegung A = BC mit unit¨ arer Matrix B ∈ Un (C) und positiv definiter, hermitescher Matrix C. Beweis. Wende Satz 14.47 an auf AT . Sei AT = BC die Polarzelegung mit unit¨arer Matrix B ∈ Un (C) und positiv definiter, hermitescher Matrix C ∈ Mn,n (C). Aus den Eigenschaften von B und C folgt: A = C T · B T = CB −1 . ¨ Wie die Ahnlichkeitsrelation von Seite 105 ist die im folgenden erkl¨arte Kongruenz¨ relation eine Aquivalenzrelation auf der Menge der reellen (bzw. komplexen) n × nMatrizen: Def inition 14.50 (Kongruente Matrizen). Zwei quadratische Matrizen A, B ∈ Mn,n (R) oder Mn,n (C), heißen kongruent, A ≈ B, wenn es eine invertierbare Matrix T ∈ GLn (R) bzw. GLn (C) gibt mit A = T T BT. Der Nachweis, dass diese Relation eine Aquivalenzrelation ist, f¨ uhrt man wie den ¨ entsprechende Beweis f¨ ur die Ahnlichkeitsrelation in Satz 10.2 auf Seite 105. Def inition 14.51 (Tr¨agheitsindex). Der Tr¨ agheitsindex einer hermiteschen Matrix A ∈ Mn,n (C) ist die mit Vielfachheit gez¨ ahlte Anzahl t(A) der positiven Eigenwerte von A. Satz 14.52 (Tr¨agheitssatz von Sylvester). Seien A, B ∈ Mn,n (R) oder Mn,n (C). Genau dann sind A, B kongruent, wenn ihre R¨ ange und Tr¨ agheitsindizes u ¨bereinstimmmen: A≈B
⇐⇒
rang A = rang B und t(A) = t(B).
Wir beweisen den Tr¨agheitssatz von Sylvester f¨ ur den Fall komplexer Matrizen. Wir beginnen zun¨achst mit einem Lemma: Lemma 14.53. Sei A ∈ Mn,n (C). Dann gilt f¨ ur den Tr¨ agheitsindex von A: V ist ein Untervektorraum von Cn , so t(A) = max dim V dass xT Ax positiv definit auf V ist.
Beweis. Wir zeigen zun¨achst die ≥“-Ungleichung. Seien v1 , . . . , vt(A) linear un” abh¨angige Eigenvektoren von A zu positiven Eigenwerten. Dann ist xT Ax positiv definit auf span(v1 , . . . , vt(A) ). F¨ ur den Beweis der ≤“-Relation f¨ uhren wir die Annahme dim V > t(A) zum Wi” derspruch. Sei v1 , . . . , vn eine Basis von Cn aus Eigenvektoren von A zu Eigenwerten
190
14. Reelle und komplexe Vektorr¨aume
λ1 , . . . , λn ∈ R (nach Satz 14.43 auf Seite 186). O.B.d.A. gelte λ1 , . . . , λt(A) > 0 λt(A)+1 , . . . , λr < 0 λr+1 , . . . , λn = 0. Wegen dim V > t(A) gibt es ein w ∈ V ∩ span(v1 , . . . , vt(A) )⊥ , w 6= 0, mit der P Darstellung w = ni=t(A)+1 ti vi . wT Aw =
n X
ti ti λi < 0.
i=t(A)+1
Also ist
xT Ax
nicht positiv definit auf V — Widerspruch.
Kongruente Matrizen haben den gleichen Tr¨agheitsindex, denn die rechte Seite in Lemma 14.53 ¨andert sich nicht: Genau dann ist xT Ax positiv definit auf V , wenn xT T T AT x positiv definit auf T (V ) ist: Korollar 14.54. Sei A ∈ Mn,n (C) und T ∈ GLn (C). Dann gilt: t(A) = t(T T AT ). Aus Korollar 14.54 folgt bereits eine Implikation des Tr¨agheitssatzes von Sylvester: Sind die Matrizen A, B kongruent, so stimmen ihre R¨ange und Tr¨agheitsindizes u ¨berein. Sei umgekehrt
t(A)
rang A
+1
..
0
. +1 −1
..
.
−1 0
0
..
. 0
≈ A.
Man vertausche und normiere die Eigenwerte der Diagonalmatrix D nach Korollar 14.44 auf Seite 187. Stimmen R¨ange und Tr¨agheitsindizes u ¨berein, also rang A = rang B und t(A) = t(B), gilt A ≈ B. Damit ist der Tr¨agheitssatz von Sylvester bewiesen. Zum Abschluß betrachten wir die Zerlegung eines reellen Vektorraums V bez¨ uglich einer symmetrischen Bilinearform s : V × V → R. Sei • V 0 := N(s) = {v ∈ V | s(v, ·) ist Nullabbildung } der Nullraum. • V + ⊆ V Unterraum max. Dimension, so dass s positiv definit auf V + ist. • V − ⊆ V Unterraum max. Dimension, so dass s negativ definit auf V − ist. Satz 14.55. Es gilt V = V 0 ⊕ V + ⊕ V − . Beweis. O.B.d.A. sei V = Rn . Sei s(v, w) = v T Aw und A symmetrisch. Dann gilt A ≈ D ∈ {±1, 0}n×n . Der Satz gilt offenbar f¨ ur D.
Kapitel 15
Endliche K¨ orper
In diesem Kapitel charakterisieren wir endliche K¨orper. Wir zeigen, dass jeder endliche K¨orper pn Elemente hat, wobei p eine Primzahl und n eine nat¨ urliche Zahl ist. Umgekehrt geben wir ein Verfahren an, um zu jeder gegebenen Primzahl p und jedem n ∈ N einen K¨orper mit pn Elementen konstruiert. Ferner betrachten wir in Abschnitt 4 die Struktur der multiplikativen Gruppe endlicher K¨orper. Zur Erinnerung: Wir kennen bereits eine spezielle Klasse endlicher K¨orper: In Satz 2.28 auf Seite 27 haben wir gezeigt, dass der Ring Zn der Restklassen modulo n genau dann ein K¨oper ist, wenn n prim ist. Damit haben wir bereits endliche K¨orper mit p Elementen kennengelernt.
1. Charakteristik Sei K ein K¨orper. Wir f¨ uhren folgenden Notation ein: 0 · 1 = 0,
n · 1 = 1| + 1 + {z· · · + 1},
(−n) · 1 = −(n · 1),
n∈N
n-mal
Dabei ist 1 das multiplikative neutrale Element und + die Addition in K. Die Notation n · 1 sollte dabei nicht mit der Multiplikation n · 1 = n im K¨orper verwechselt werden. Schreiben wir folgenden n · 1, so ist stets die hier eingef¨ uhrte Notation gemeint. Man verifiziert leicht mittels der K¨orperaxiome, dass die folgenden Rechenregeln f¨ ur alle m, n ∈ Z gelten: (mn) · 1 = (m · 1)(n · 1),
(m + n) · 1 = (m · 1) + (n · 1)
(40)
Wir k¨onnen die Notation n · 1 formal als Abbildung ϕK : Z → K mit ϕK (n) = n · 1 auffassen. Diese Abbildung ist gem¨aß der Eigenschaften (40) ein Ringhomomorphismus. 191
192
15. Endliche K¨orper
Def inition 15.1 (Charakteristik). Sei K ein K¨ orper. Die Charakteristik von K ist definiert durch: ( 0 n · 1 6= 0 f¨ ur alle n ∈ N char K = min {n ∈ N | n · 1 = 0 } sonst. Es gilt beispielsweise char R = 0 und char Zp = p. F¨ ur K¨orper mit Charakteristik 0 sind alle Werte n · 1 verschieden, denn aus m · 1 = n · 1 f¨ ur m ≤ n folgt 0 = (n · 1) − (m · 1) = (n − m) · 1, doch dies ist nach Definition der Charakteristik nur f¨ ur m = n m¨oglich. Insbesondere zeigt dies, dass der Homomorphismus ϕK f¨ ur K¨orper K mit char K = 0 injektiv ist. Ferner erhalten wir, dass die Charakteristik eines endlichen K¨orpers stets verschieden von 0 ist. Andererseits gibt es unendliche K¨orper, deren Charakteristik ungleich 0 ist (beispielsweise hat Zp (x), der kleinste K¨orper, der alle Polynome in der Variablen x mit Koeffizienten aus Zp enth¨alt, unendlich viele Elemente, aber die Charakteristik p). Die Beispiele R und Zp sind K¨orper mit Charakteristik 0 bzw. primer Charakteristik. Der folgende Satz zeigt, dass die Charakteristik nur diese Werte annimmt: Satz 15.2. Sei K ein K¨ orper. Dann ist char K entweder 0 oder prim. Beweis. Sei char K = n = ab f¨ ur a, b, n ∈ N mit 1 < a, b < n. Dann gilt 0 = n · 1 = (ab) · 1 = (a · 1)(b · 1). Da der K¨orper K nullteilerfrei ist, folgt a · 1 = 0 oder b · 1 = 0 und somit ein Widerspruch zur Minimalit¨at von n. n
Wir betrachten die Frobenius-Abbildung σp,n : K → K mit x 7→ xp in K¨orpern mit Charakteristik p 6= 0. Der folgende Satz zeigt, dass die Abbildung in diesen K¨orpern homomorph ist. Satz 15.3. Sei K ein K¨ orper mit char K = p 6= 0. Dann ist die Frobenius-Abbildung σp,n f¨ ur alle n ∈ N ein Ringhomomorphismus, d.h. f¨ ur alle x, y ∈ K gilt: n
σp,n (x + y) = (x + y)p n σp,n (xy) = (xy)p
n
n
= xp + y p n n = xp y p
= σp,n (x) + σp,n (y) = σp,n (x)σp,n (y)
Beweis. Die multiplikative Formel ist offensichtlich. Wir betrachten die additive Eigenschaft zun¨achst f¨ ur den Fall n = 1. Nach der binomischen Formel gilt: p−1 X p · 1 xk y p−k + y p (x + y)p = xp + k k=1 Da p! = kp k!(p − k)! u k! und (p − k)! f¨ ur 1 ≤ k, p − k ≤ ¨ber Z und keiner der Faktoren p p− 1 von der Primzahl p geteilt wird, muß k durch p teilbar sein. Dann ist aber p ur alle k = 1, . . . , p − 1 und daraus k · 1 = 0 in K nach Definition der Charakteristik f¨ p p p folgt (x + y) = x + y . F¨ ur den Fall n > 1 wende man n-mal z 7→ z p an.
2. Primk¨orper
193
2. Primk¨ orper In diesem Abschnitt geben wir eine a¨quivalente Betrachtung der Charakteristik an. Dazu f¨ uhren wir die Definition des Primk¨ orpers eines K¨opers K ein. Der Primk¨orper ist der kleinste Unterk¨orper von K: Def inition 15.4 (Primk¨orper). Sei K ein K¨ orper. Dann heißt \ L P (K) = L ist Unterk¨ orper von K
der Primk¨ orper von K. Dabei haben wir die — leicht u ufbare — Eigenschaft verwendet, dass der ¨berpr¨ Durchschnitt von Unterk¨orpern wieder ein Unterk¨orper ist. Satz 15.5. Sei K ein K¨ orper. Dann gilt: a) char K = 0 genau dann, wenn P (K) ∼ = Q. b) char K = p 6= 0 genau dann, wenn P (K) ∼ = Zp . Beweis. Wir zeigen die vier Implikationen: (1) char K = 0 ⇒ P (K) ∼ =Q Der K¨orper P (K) enth¨alt mit 1 auch alle Summen n · 1 sowie die multiplikativen Inversen (n · 1)−1 f¨ ur n ∈ Z \ {0}. Folglich ist −1 m, n ∈ Z, n 6= 0 ⊆ P (K) L := (m · 1)(n · 1)
Wir wissen bereits, dass der Homomorphismus ϕK :Z → = n·1 K mit ϕK (n) injektiv ist. Dann ist aber offensichtlich L ∼ = Q = ab a, b ∈ Z, b 6= 0 und damit L K¨orper. Folglich ist auch P (K) ⊆ L, da der Primk¨orper der kleinste Unterk¨orper von K ist, und somit P (K) = L ∼ = Q. ∼ (2) char K = p 6= 0 ⇒ P (K) = Zp Offensichtlich ist L := {n · 1 | n ∈ Z } = {n · 1 | n ∈ {0, 1, . . . , p − 1} } ∼ Zp . Wie im ersten und wegen der Homomorphieeigenschaft von ϕK gilt L = ∼ Fall folgt P (K) = L = Zp . (3) P (K) ∼ = Q ⇒ char K = 0 Angenommen, es w¨are char K = p 6= 0. Dann w¨are P (K) ∼ = Zp nach 2 und somit nicht isomorph zu Q. (4) P (K) ∼ = Zp ⇒ char K = p 6= 0 Folgt wie im vorigen Fall: Angenommen, es w¨are char K = 0. Dann w¨are P (K) ∼ = Q nach 1 und somit nicht isomorph zu Zp . Als einfache Folgerung erhalten wir, dass char L = char K f¨ ur jeden Unterk¨orper L von K, da die Primk¨orper P (L), P (K) nach Definition eines Primk¨orpers identisch sind. Wir kommen damit zum ersten Teilresultat u ¨ber endliche K¨orper:
194
15. Endliche K¨orper
Satz 15.6. Sei K ein endlicher K¨ orper. Dann gilt |K| = (char K)n = pn f¨ ur eine Primzahl p und ein n ∈ N. Beweis. Wir betrachten K als Vektorraum u ¨ber seinem Primk¨orper P (K): Die Addition zwischen Vektoren v, w ∈ K ist durch die Addition im K¨orper K definiert. Ebenso ist die Skalarmultiplikation λv f¨ ur λ ∈ P (K) und v ∈ K durch die Multiplikation in K erkl¨art. Man u uft leicht, dass die Vektorraumaxiome erf¨ ullt sind, da (K, +) ¨berpr¨ eine abelsche Gruppe ist und (λ + µ)v = λv + µv, λ(v + w) = λv + λw, (λµ)v = λ(µv) sowie 1 · v = v aus den K¨orperaxiomen folgen. Da der Vektorraum K endlich ist, gibt es eine (endliche) Basis b1 , . . . , bn ∈ K f¨ ur ein n ∈ N. Jedes v ∈ K hat damit eine eindeutige Darstellung v=
n X
λ i bi ,
λ1 , . . . , λn ∈ P (K)
i=1
Folglich hat K genau so viele Elemente, wie es Tupel (λ1 , . . . , λn ) mit λ1 , . . . , λn ∈ P (K) gibt. Da K endlich ist, ist P (K) ∼ ur eine Primzahl p = char K, und daraus = Zp f¨ folgt die Behauptung.
3. Konstruktion endlicher K¨ orper In diesem Abschnitt zeigen wir, wie man zu gegebener Primzahl p und gegebenem n ∈ N einen endlichen K¨orper mit pn Elementen konstruiert. Zur Erinnerung: F¨ ur einen K¨orper K ist K[X] der Ring der Polynome in X mit Koeffizienten aus K, die Elemente K werden als konstante Polynome in K[X] eingebettet. Analog zu Z haben wir bereits in Kapitel 4 die Restklassenkonstruktion von Polynomen im Ring K[X] kennengelernt. Zur Wiederholung betrachten wir ein Beispiel: Beispiel 15.7. Wir betrachten Z2 = {0, 1} und das Polynom p(X) = X 2 + X + 1 ∈ Z2 [X]. Wegen X 2 ≡ −X − 1 mod p(X) sind die Restklassen die Polynome mit Grad maximal 1. So ist beispielsweise X 3 ≡ X · X 2 ≡ X(−X − 1) ≡ −X 2 − X ≡ X + 1 − X ≡ 1 mod p(X) F¨ ur diesen Restklassenring schreiben wir: Z2 [X]/(p(X)) = {0, 1, X, X + 1}. Es gilt X(X + 1) ≡ X 2 + X ≡ −1 mod p(X) und da −1 = 1 in Z2 , sind X und X + 1 zueinander invers. Tats¨achlich ist damit Z2 [X]/(p(X)) ein K¨orper mit 4 Elementen. Wir wissen, dass Zn = Z/nZ die Restklassen modulo n sind, die wir durch die Zahlen 0, 1, . . . , n−1 repr¨asentieren k¨onnen. Im Fall K[X]/(p(X)) sind die Restklassen die Polynome mit Grad kleiner als deg p(X). Ferner ist K[X] wie Z ein Integrit¨atsring und es exisitiert Division mit Rest. Wir k¨onnen daher die Restklassenbildung in K[X] durch Vergleich zu Zn motivieren. Wir haben gezeigt, dass Zn genau dann ein K¨orper ist, wenn n ∈ N prim ist. Zur Erinnerung:
3. Konstruktion endlicher K¨orper
195
Eine Zahl n ∈ N \ {1} ist genau dann prim, wenn n|ab nur f¨ ur n|a oder n|b m¨oglich ist. Dabei wird die Zahl 1 als Spezialfall (sogenannte Einheit) per Definition ausgeschlossen. Die aus der Schulmathematik bekannte Eigenschaft, dass Primzahlen die Zahlen sind, die nur 1 und sich selbst als Teiler besitzen, heißt in der Algebra Irreduzibilit¨at: Eine Zahl n ∈ N \ {1} heißt irreduzibel, wenn n = ab nur f¨ ur a = 1 oder b = 1 m¨oglich ist. Da in N die Primzahlen genau die irreduziblen Zahlen sind, sind in diesem Fall beide Definitionen ¨aquivalent. Wir u ¨bertragen den Begriff der Irreduzibilit¨at auf den Ring K[X]. Dabei spielen die Elemente K in K[X] die Rolle der Eins in N: Def inition 15.8 (Irreduzibles Polynom). Sei K ein K¨ orper. Ein nicht-konstantes Polynom p(X) ∈ K[X] heißt irreduzibel u ur ¨ber K, wenn p(X) = a(X)b(X) nur f¨ a(X) ∈ K oder b(X) ∈ K m¨ oglich ist. Beispielsweise sind Polynome vom Grad 2 oder 3 genau dann irreduzibel u ¨ber ¨ K, wenn sie keine Nullstelle in K besitzen (Ubung). F¨ ur Polynome vom Grad 4 oder h¨oher gilt dies im allgemeinen nicht, z.B. ist das Polynom X 4 + 2X + 1 = (X 2 + 1)2 u ¨ber den reellen Zahlen R nicht irreduzibel, obwohl es keine reelle Nullstelle besitzt. Der Begriff eines Primpolynoms l¨aßt sich auf offensichtliche Weise auf dem Ring K[X] definieren, und wie in N folgt, dass die Primpolynome in K[X] genau die irreduziblen Polynome sind. Analog zu Zp gilt: Fakt 15.9. Sei K ein K¨ orper. Dann ist K[X]/(p(X)) genau dann ein K¨ orper, wenn p(X) irreduzibel u ¨ber K ist. Eine wichtige Eigenschaft dieses K¨orpers K[X]/(p(X)) ist, dass das Polynom p(X) darin die Nullstelle λ := X mod p(X) (Restklasse von X) besitzt, denn p(λ) ≡ p(X mod p(X)) ≡ p(X) ≡ 0 mod p(X) Beachte, dass wir bei Nullstellenbetrachtungen Werte in das Polynom einsetzen und das Polynom auswerten, w¨ahrend wir beispielsweise bei der Restklassenkonstruktion das Polynom als formales Objekt ansehen. Beispiel 15.10. Wir betrachten R[X]/(X 2 + 1) = {a + bX | a, b ∈ R }. Die Nullstelle X mod X 2 + 1 nennen wir in diesem Fall i, so dass i2 ≡ X 2 ≡ −1 mod X 2 + 1 Der Ring R[X]/(X 2 + 1) entspricht n¨amlich den komplexen Zahlen C, und wir haben die imagin¨are Einheit als Nullstelle des irreduziblen Polynoms X 2 + 1 eingef¨ uhrt. Die Polynommultiplikation (a + bX)(c + dX) ≡ ac + (ad + bc)X + bdX 2 ≡ (ac − bd) + (ad + bc)X mod X 2 + 1 entspricht (ebenso wie die Polynomaddition) der in Abschnitt 1 auf Seite 16 per Definition festgelegten Multiplikation (bzw. Addition) in den komplexen Zahlen (mit i statt X).
196
15. Endliche K¨orper
Im K¨orper K[X]/(p(X)) hat das Polynom p(X) eine Nullstelle λ (mit Vielfachheit n). Wenn wir diese Nullstelle abspalten p(X) = (X − λ)n q(X), erhalten wir ein Polynom q(X) in diesem K¨orper, das wir in irreduzible Faktoren q1 (X), . . . , qm (X) zerlegen k¨onnen. F¨ ur den Faktor q1 (X) bilden wir den Restklassenk¨orper, in dem q1 (X) und damit auch p(X) eine weitere Nulltelle hat. Wenn wir dieses Verfahren iterieren (und zwar maximal deg p(X)-mal), erhalten wir einen K¨orper, in dem p(X) vollst¨andig in Linearfaktoren X − λi zerf¨allt. Dieser K¨orper ist bis auf Isomorphie eindeutig bestimmt und heißt Zerf¨ allungsk¨ orper : Def inition 15.11 (Zerf¨allungsk¨orper). Sei K ein K¨ orper und p(X) ∈ K[X]. Der Zerf¨ allungsk¨ orper von p(X) u orper Z ⊇ K, in dem p(X) ¨ber K ist der kleinste K¨ vollst¨ andig in Linearfaktoren zerf¨ allt: p(X) = c · (X − λ1 ) · · · (X − λn ) ∈ Z[X] mit c ∈ K, λ1 , . . . , λn ∈ Z, n = deg p(X). Wir haben uns oben u ¨berlegt, dass jedes irreduzible Polynom einen Zerf¨allungsk¨orper besitzt. Tats¨achlich h¨atten wir bei der Konstruktion bereits mit einem nicht irreduziblen Polynom starten k¨ onnen, indem wir dieses Polynom zun¨achst in irreduzible Faktoren zerlegt h¨atten. Wir erhalten: Satz 15.12. Sei K ein K¨ orper. F¨ ur jedes Polynom p(X) ∈ K[X] existiert der Zerf¨ allungsk¨ orper. √ √ Beispielsweise ist Q( 2) = a + b 2 a, b ∈ Q der Zerf¨allungsk¨orper des Poly√ √ noms X 2 − 2 = (X + 2)(X − 2). Wir kommen zur Konstruktion eines endlichen K¨orpers mit pn Elementen f¨ ur gegebene p, n. Ausgehend von einem K¨orper mit Charakteristik p (beispielsweise Zp ) n konstruieren wir einen geeigneten Unterk¨orper des Zerf¨allungsk¨orpers von X p − X: Satz 15.13. Sei K ein K¨ orper mit char K = p 6= 0, n ∈ N und Z der Zerf¨ allungsk¨ orpers n p des Polynoms q(X) = X − X ∈ K[X] u ¨ber K. Dann ist n L = {a ∈ Z | q(a) = 0 } = a ∈ Z ap = a ein Unterk¨ orper von Z mit pn Elementen.
Beweis. Wir zeigen, dass L ein Unterk¨orper von Z ist. Wegen char Z = char K = p n ist die Frobenius-Abbildung σp,n mit σp,n (a) = ap ein Homomorphismus auf Z. Wir u ur p = 2 ist dies klar, da ¨berlegen uns zun¨achst, dass mit b ∈ L auch −b ∈ L ist. F¨ 1 + 1 = 0 = 1 − 1, d.h. −1 = 1 und −b = (−1)b = b. Sei p > 2 und damit pn ungerade. n n n Dann ist (−b)p = (−1)p bp = (−1)b = −b und damit −b ∈ L. Wir beweisen damit das Unterk¨orperkriterium, dass mit a, b auch a − b und ab−1 (f¨ ur b 6= 0) in L liegen: n
n
n
(a − b)p = ap + (−b)p = a − b n n n −1 (ab−1 )p = ap bp = ab−1 Offensichtlich ist 1 ∈ L. Daraus folgt nach Satz 2.6 auf Seite 19, dass L ein Unterk¨orper von Z ist.
3. Konstruktion endlicher K¨orper
197
Bleibt zu zeigen, dass L genau pn Elemente hat. Da das Polynom q(X) vom Grad im Integrit¨atsbereich Z[X] maximal pn Nullstellen haben kann, folgt die obere Schranke |L| ≤ pn . Es gen¨ ugt daher zu zeigen, dass die Nullstellen von q(X) alle verschieden sind. Dazu verwenden wir folgendes Fakt, dass wie hier nicht beweisen werden:
pn
Fakt 15.14. Seien g(X), h(X) ∈ K[X] teilerfremd in K[X], d.h. f (X)|g(X) und f (X)|h(X) ist nur f¨ ur f (X) ∈ K m¨ oglich,1, dann sind g(X) und h(X) auch in Z[X] teilerfremd. Um dieses Fakt anzuwenden, f¨ uhren wirPdie symbolische (oder P auch algebraische) n i 0 Ableitung eines Polynoms ein: Zu h(X) = i=0 hi X sei h (X) = ni=1 (i · 1)hi X i−1 . Es gilt die aus der Analysis bekannte Rechenregel (gh)0 (X) = g 0 (X)h(X)+g(X)h0 (X). Angenommen, q(X) hat eine mehrfache Nullstelle λ mit Vielfachheit m ≥ 2 in Z: q(X) = (X − λ)m r(X) Dann ist in Z[X] einerseits q 0 (X) = (m · 1)(X − λ)m−1 r(X) + (X − λ)m r0 (X), und in K[X] wegen char K = p andererseits n −1
q 0 (X) = (pn · 1)X p
− 1 = −1.
Insbesondere sind q(X) und q 0 (X) in K[X] teilerfremd (da nur konstante Polynome das Polynom q 0 (X) = −1 teilen), also auch in Z[X]. In Z[X] haben beide Polynome wegen m ≥ 2 allerdings den gemeinsamen Teiler X − λ, und wir erhalten einen Widerspruch. Folglich hat q(X) keine mehrfachen Nullstellen und es gilt |L| ≥ pn . n
n
Der Frobenius-Homomorphismus σp,n ist auf L bijektiv: Aus xp = y p erhalten wir n 1 = (xy −1 )p = xy −1 und damit x = y. Folglich ist σp,n auf L injektiv und — da injektive Abbildung zwischen endlichen Mengen gleicher M¨achtigkeit stets bijektiv sind — sogar ein Automorphismus auf L. Ohne Beweis geben wir einige weitere Eigenschaften endlicher K¨orper an [FS78, W96]: Fakt 15.15. Sei K ein endlicher K¨ orper mit pn Elementen, p prim, n ∈ N. Dann gilt a) Jeder K¨ orper L mit pn Elementen ist isomorph zu K. b) Die Unterk¨ orper von K sind (bis auf Isomorphie) genau die K¨ orper mit pm Elementen f¨ ur m|n. c) Es gilt P (K) ∼ = Zp und char K = p. 1Der Teilbarkeitsbegriff u agt sich unmittelbar von Z auf Polynomringe: Ein Polynom a(X) ¨bertr¨
teilt ein Polynom b(X), wenn bei Division mit Rest b(X) = q(X)a(X) + r(X) der Rest r(X) das Nullpolynom ist.
198
15. Endliche K¨orper
4. Struktur der multiplikativen Gruppe endlicher K¨ orper In diesem Abschnitt betrachten wir die Struktur der multiplikativen Gruppe K∗ := K\{0} endlicher K¨orper K. Wir zeigen, dass diese Gruppe zyklisch ist, d.h. es gibt ein Gruppenelement, so dass die Potenzen dieses Elements bereits die gesamte Gruppe durchlaufen. Wir beginnen mit einem Beispiel: Beispiel 15.16. Wir betrachten den K¨orper F4 = Z2 [X]/(X 2 + X + 1) = {0, 1, X, X + 1}. Diesen K¨orper haben wir bereits in Beispiel 15.7 in Abschnitt 3 kennengelernt. Die Elemente X und X + 1 sind zueinander invers. Die multiplikative Gruppe F∗4 = {1, X, X + 1} besteht aus 3 Elementen. Die Ordnung eines Elements a einer endlichen Gruppe (G, ·) ist definiert durch: ordG a = min {n ∈ N | an = 1 } , wobei an das n-fache Produkt von a in G ist. In unserem Fall: ordF∗4 1 = 1, = 3,
da
X 2 ≡ −X − 1 ≡ X + 1 mod X 2 + X + 1 X 3 ≡ X · X 2 ≡ X(X + 1) ≡ 1 mod X 2 + X + 1
ordF∗4 X + 1 = 3,
da
(X + 1)2 ≡ X 2 + 2X + 1 ≡ X mod X 2 + X + 1 (X + 1)3 ≡ (X + 1)(X + 1)2 ≡ 1 mod X 2 + X + 1
ordF∗4 X
Es gilt daher F∗4 = {X 0 , X 1 , X 2 } = {(X + 1)0 , (X + 1)1 , (X + 1)2 }.
Allgemeiner nennt man eine Gruppe, die von einem Element erzeugt wird, zyklisch. Wir definieren zun¨achst die Ordnung eines Elementes formal: Def inition 15.17 (Ordnung eines Elementes). F¨ ur eine Gruppe (G, ·) heißt ( 0 an = 6 1 f¨ ur alle n ∈ N ordG a = n min {n ∈ N | a = 1 } sonst die Ordnung des Elementes a in G. Geht die Gruppe G aus dem Kontext hervor, schreiben wir abk¨ urzend ord a statt ordG a. Def inition 15.18 (Zyklische Gruppe). Eine Gruppe (G, ·) heißt zyklisch, wenn es ein primitives (oder auch erzeugendes) Element g ∈ G mit hgi := {g 0 , g 1 , g 2 , g 3 , . . . } = G gibt. Das Element g nennt man auch Generator. Wir u ur ein Element a einer zyklischen Gruppe die Elemente ¨berlegen uns, dass f¨ a0 , a1 , . . . , an−1 mit n = ord a verschieden sind. Angenomen, es w¨are ai = aj f¨ ur 0 ≤ i < j < n. Dann w¨are aj−i = 1 f¨ ur 1 ≤ j − i < n im Widerspruch zur Minimalit¨at
4. Struktur der multiplikativen Gruppe endlicher K¨orper
199
von n. Insbesondere bedeutet dies, dass die Ordnung eines Elementes einer endlichen Gruppe h¨ochstens die Anzahl der Elemente der Gruppe sein kann. Beispiel 15.19. Wir betrachten die multiplikative Gruppe Z∗5 := {1, 2, 3, 4} des endlichen K¨orpers Z5 . Diese ist eine zyklische Gruppe, die von 2 erzeugt wird: 20 = 1 mod 5 21 = 2 mod 5 22 = 4 mod 5 23 = 2 · 22 = 3 mod 5. Es gilt h2i = Z∗5 . Auch 3 ist ein Generator der Gruppe Z∗5 , 4 ist hingegen kein primitives Element der Gruppe. Unser Ziel ist es, zu zeigen, dass die multiplikative Gruppe K∗ endlicher K¨orper K stets zyklisch ist. Dazu ben¨otigen wir folgende Fakten u ¨ber die Ordnung von Elementen: Fakt 15.20. Sei G eine multiplikative Gruppe. Dann gilt f¨ ur a, b ∈ G: • Wenn m| ord a, dann ist ord am =
ord a m .
• Wenn ord a, ord b teilerfremd sind, dann ist ord(ab) = ord a · ord b. Den ersten Punkt des Faktes k¨onnen wir mit unserem Wissen bereits beweisen: a m n ord a = 1 und somit ord am ≤ Zur Abk¨ urzung sei n = ord m . Offensichtlich ist (a ) = a n. Angenommen, es w¨are t = ord am < n. Dann w¨are (am )t = amt = 1 und folglich ord a ≤ mt < ord a, Widerspruch. Auf den Beweis der zweiten Eigenschaft verzichten wir hier. Das folgendes Lemma bereitet die zentrale Aussage dieses Abschnitts vor: Lemma 15.21. Sei G eine endliche Gruppe und m = max {ord a | a ∈ G }. Dann gilt bm = 1 f¨ ur alle b ∈ G. Beweis. Sei a ein Element mit ord a = m. Ferner sei b ein beliebiges Element mit ord b = n. Wir betrachten die (eindeutige) Primfaktorzerlegung von m und n: m=
k Y
i pm i ,
n=
i=1
k Y
pni i ,
mi , n i ≥ 0
i=1
wobei p1 , . . . , pk prim sind. Setze r=
k Y
i pm i ,
i=1 mi
s=
k Y
pni i
i=1 mi ≥ni
so dass wegen r| ord a und s| ord b nach Fakt 15.20 die Ordnungen k Y m i ord a = = pm i , r r
i=1 mi ≥ni
k Y n ord b = = pni i s s
i=1 mi
200
15. Endliche K¨orper
teilerfremd sind. Es folgt: r s
r
s
ord(a b ) = ord a · ord b =
k Y
max{mi ,ni }
pi
i=1
Da m maximal ist, ergibt sich ni ≤ mi f¨ ur alle i = 1, . . . , k, denn sonst w¨are ar bs ein Element mit Ordnung gr¨oßer als m. Wir erhalten n|m und somit bm = (bn )m/n = 1. Satz 15.22. Sei K ein endlicher K¨ orper. Dann ist die multiplikative Gruppe (K∗ , ·) zyklisch. Beweis. Sei m = max {ord a | a ∈ K∗ }. Nach Lemma 15.21 ist damit bm = 1 f¨ ur ∗ m ∗ alle b ∈ K , d.h. das Polynom X − 1 hat mindestens |K | Nullstelllen und daher ist m ≥ |K∗ |. Andererseits ist m ≤ |K∗ |, da alle Elemente a0 , a1 , . . . , am−1 f¨ ur ein a mit ord a = m verschieden sind. Folglich gibt es ein g mit Ordnung ord g = m = |K∗ |, so dass die (verschiedenen) Elemente g 0 , g 1 , . . . , g m−1 die gesamte Gruppe K∗ durchlaufen.
Kapitel 16
Gittertheorie
Wir haben Gitter bereits in Kapitel 7 auf Seite 76 definiert. In diesem Kapitel besch¨aftigen wir uns intensiver mit Gittern und lernen Reduktionsbegriffe kennen.
1. Gitter Wir betrachten den Rn mit dem kanonischen Skalarprodukt h·, ·i : Rn × Rn → R mit p hu, vi = uT v und der euklidischen Norm kuk = hu, ui. Def inition 16.1 (Gitter). Zu linear unabh¨ angigen Vektoren b1 , . . . , bm ∈ Rn heißt (m ) X L(b1 , . . . , bm ) := ti b i t i ∈ Z ⊂ R n i=1
das Gitter mit Basis b1 , . . . , bm und Rang m.
Beispiel 16.2. Zu A ∈ Mm,n (R) ist L¨os(A, 0) ∩ Zn = {x ∈ Zn | Ax = 0 } ein Gitter vom Rang n − rang A. Ein Gitter (Lattice) L(b1 , . . . , bm ) ⊆ span(b1 , . . . , bm ) ist das diskrete Analogon zu R-Vektorr¨aumen. Ein Gitter L ⊆ Rn ist eine additive Untergruppe des Rn . Was bedeutet, dass L diskret ist? Lemma 16.3. Sei L ⊆ Rn eine additive Untergruppe. Dann sind folgende Aussagen aquivalent: ¨ a) L hat keinen H¨ aufungspunkt im Rn . b) F¨ ur alle r > 0 ist die Menge {x ∈ L : kxk ≤ r} endlich. Eine additive Untergruppe L ⊆ Rn mit diesen Eigenschaften heißt diskret. Gitter sind genau die additiven Untergruppen des Rn : Satz 16.4. Sei L ⊆ Rn eine additive Untergruppe, dann sind folgende Aussagen aquivalent: ¨ a) L ist ein Gitter. 201
202
16. Gittertheorie
b) L ist diskret. Beweis. F¨ ur die Implikation a)⇒b)“ sei L := L(b1 , . . . , bm ) ein Gitter mit Basis ” b1 , . . . , bm . Sei ϕ : Rm → span(b1 , . . . , bm ) der Vektorraum-Isomorphismus mit m X ti b i . ϕ(t1 , . . . , tm ) := i=1
ϕ(Zm )
Zm
Es gilt = L. Offenbar ist L ⊆ span(L) ebenfalls diskret ist.
⊆
Rm
diskret und weil ϕ−1 stetig ist, folgt, dass
Umgekehrt sei L ⊆ Rn eine diskrete, additive Untergruppe. Setze m := dim span(L). Wir konstruieren eine Basis b1 , . . . , bn durch Induktion u ¨ber m: • Verankerung f¨ ur m = 1: W¨ahle einen k¨ urzesten Vektor b1 ∈ L \ {0}. Dann gilt L = L(b1 ). Denn angenommen, es g¨abe einen Vektor b ∈ L \ L(b1 ). Wegen span(b) = span(b1 ) gibt es ein t ∈ R \ Z mit b = tb1 . Dann ist auch b0 := b − bte · b1 ∈ L, wobei bte := dt − 21 e die n¨achste, ganze Zahl zu t bezeichnet. Es gilt b0 = t0 b1 6= 0 mit 0 < |t0 | ≤ 21 , also
0
b = |t0 | · kb1 k ≤ 1 kb1 k , 2
ein Widerspruch zur Wahl von b1 mit minimaler L¨ange.
• Induktionsschluß von m − 1 auf m: Wegen m = dim span(L) gibt es im Raum span(L) lineare unabh¨angige Vektoren v1 , . . . , vm . Nach Induktionsvoraussetzung ist L0 := L ∩ span(v, . . . , vm−1 ) 0 ein Gitter Pmvom Rang m − 1. Sei b1 , . . . , bm−1 eine Basis des Gitters L . W¨ahle bm := i=1 ti vi ∈ L mit minimalem tm > 0. Weil L diskret ist, gibt es ein solches tm . Es folgt L = L(b1 , . . . , bm ).
Def inition 16.5 (Basis, Gram-Matrix, Gitterdeterminante). Sei L := L(b1 , . . . , bm ) ⊆ Rn ein Gitter. Dann ist B := b1 · · · bm ∈ Mn,m (R)
eine Basismatrix zu L und wir schreiben L = L(B). Die m × m-Matrix B T B heißt 1 Gram-Matrix von B und det L := det(B T B) 2 die Determimante von L.
Wir zeigen, dass Rang und Determinante von L von der Wahl der Basis unabh¨angig sind: Lemma 16.6. Sei B eine Basismatrix zum Gitter L ⊆ Rn vom Rang m und B 0 eine Basismatrix zum Gitter L0 ⊆ Rn vom Rang m0 . Dann sind folgende Aussagen aquivalent: ¨ a) Beide Gitter sind gleich: L = L0 . b) Es ist m = m0 und es existiert eine ganzzahlige, unimodulare Matrix T ∈ GLm (Z) = {U ∈ Mm,m (Z) | det U = ±1 } mit
B0
= BT .
1. Gitter
203
Beweis. Betrachten wir die Implikation a)⇒b)“. Wegen L = L0 gilt m = m0 . Aus ” L0 ⊆ L folgt m0 ≤ m. Insbesondere ist jeder Spaltenvektoren von B 0 ein Gittervektor von L, d.h. eine ganzzahlige Linearkombination der Spalten von B. Es existert eine ganzzahlige Matrix T ∈ Mm,m (Z) mit B 0 = BT : m = m0 = rang B 0 = rang(BT ) ≤ T ≤ m. Also gilt rang T = m und die ganzzahlige Matrix T ist invertierbar: B 0 T −1 = B. Aus Symmetriegr¨ unden (d.h. L0 ⊇ L) ist T −1 eindeutig bestimmt und ganzzahlig, somit | det T | = 1. Die R¨ uckrichtung ist offensichtlich. Nach Lemma 16.6 haben Basismatrizen eines Gitters denselben Rang. Betrachten wir die Determinante: Lemma 16.7. Sei L(B) = L(B 0 ). Dann gilt det B T B = det B 0 T B 0 . Beweis. Gem¨aß Lemma 16.6 existiert ein T ∈ GLm (Z) mit B 0 = BT und | det T | = 1. Aus T
det B 0 B = det(BT )T (BT ) = det B T B · (det T )2 = det B T B | {z } =1
folgt die Behauptung.
Abbildung 1. Grundmasche P(b1 , b2 ) von b1 , b2 b2
pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp ppppppppppppppppppppppppppppppp p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp p p p p p p P(b p p p p p p p p 1p p p,p pbp p 2p p )p p p p p p p p ppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppp ppppppppppppppppppppppppppppppp p ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppppp ppppp ppppp ppppp ppppp ppppp pp pp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pp pp pp pp pp b
1
0
Def inition 16.8 (Grundmasche). Zur Gitterbasis b1 , . . . , bm ⊆ Rn heißt (m ) X P(b1 , . . . , bm ) := ti b i 0 ≤ t 1 , . . . , t n < 1 i=1
Grundmasche zu b1 , . . . , bm .
Das Volumen der Grundmasche entspricht der Determinante des erzeugten Gitters: Lemma 16.9. F¨ ur jedes Gitter L := L(B) ⊆ Rn vom Rang m gilt det L = volm (P(B)).
204
16. Gittertheorie
Beweis. Im Fall m = n, d.h. das Gitter ist volldimensional, gilt: 1
1
det L = (det B T B) 2 = (det B · det B) 2 = det B = volm (P(B)). Im Fall m < n gibt es eine isometrische Abbildung T : span(L) → Rm , die Skalarprodukt und Volumen erh¨alt: det L = det T (L) = volm (T (P(B))) = volm (P(B)). Jeder (geordneten) Gitterbasis b1 , . . . , bm ∈ Rn ordnet man ein Orthogonalsystem bb1 , . . . , bbm ∈ Rn gem¨aß Schmidt’schem Orthogonalisierungsverfahren zu: bbi := bi −
i−1 X hbi , bbj i
kbbj k2 j=1 | {z }
·bbj
f¨ ur i = 1, 2, . . . , m.
=:µi,j
Mit den Gram-Schmidt-Koeffizienten µi,j gilt: bi = bbi +
i−1 X j=1
µi,jbbj .
f¨ ur i = 1, 2, . . . , m.
(41)
Der Vektor bbi ist die Projektion πi (bi ) von bi auf den Raum span(b1 , . . . , bi−1 )⊥ . Man definiert µi,j := 0 f¨ ur j > 0 und µi,i := 1, um die Gleichungen (41) in Matrixschreibweise darzustellen: 1 µ2,1 · · · µm−1,1 µm,1 µm−1,2 µm,2 0 1 . . . . b b . . . . b 1 · · · b m = b1 · · · b m · . . . . . 0 0 1 µm,m−1 0 ··· 0 0 1 | {z } T = µi,j 1≤i,j≤m Ein Ziel der Gitterreduktion ist das Finden eines k¨ urzesten nicht-trivalen (d.h. ungleich der Nullvektor) Gittervektors in L. Dessen L¨ange heißt das erste sukzessive Minimum λ1 (L) von L: Def inition 16.10 (Sukzessive Minima). Zu einem Gitter L ⊆ Rn vom Rang m heißen die Werte Es existieren linear unabh¨ angige λi (L) := min r > 0 v1 , . . . , vi ∈ L mit max kvi k ≤ r. f¨ ur i = 1, 2, . . . , m sukzessive Minima von L.
Es gilt λ1 (L) ≤ λ2 (L) ≤ · · · ≤ λm (L).
2. Gitterreduktion
205
2. Gitterreduktion Ziel der Gitterreduktion ist es, eine reduzierte Basis f¨ ur ein gegebenes Gitter zu finden. Die Vektoren der Basis sollen (weitgehend) • orthogonal sein und • die L¨ange der Basisvektoren den sukzessiven Minima entsprechen. Wir analysieren zuerst den Fall von Gitter mit Rang 2. Betrachte Abbildung 2: Liegt der Vektor b2 im markierten Bereich, also − 12 ≤ µ2,1 ≤ + 12 , ist die Basis b1 , b2 reduziert: Def inition 16.11 (Reduzierte Basis). Eine (geordnete) Basis b1 , b2 ∈ Rn heißt reduziert, wenn a) kb1 k ≤ kb2 k. b) |µ2,1 | ≤ 21 .
Abbildung 2. Reduzierte Basis b1 , b2 |µ2,1 | ≤
1 2
ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp b2 ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pp pp pp pp p p p p p p p p p p p p p pp pp pp pp ppp ppp ppp ppp ppp ppp ppp ppp ppp p p pp pp ppp ppp ppp ppp pp pp p p
r
- b1
0
pppp pppp ppp ppp pp pp p p p p p pp pp ppp ppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppp pppp pppp pppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp ppppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp ppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp pppp ppppppppppppppppppppppppppppppppppppppp
Algorithmus 3 transformiert die gegebene Basis b1 , b2 in eine reduzierte Basis desselben Gitters. Reduzierte Basen realisieren die beiden sukzessiven Minima des Gitters: Fakt 16.12. Sei b1 , b2 eine reduzierte Basis eines Gitters L. Dann gilt λ1 (L) = kb1 k und λ2 (L) = kb2 k. Ein Reduktionsbegriff f¨ ur Gitter vom Rang m ≥ 2 stammt von A.K. Lenstra, ´sz [LLL82]: H.W. Lenstra und L. Lova
206
16. Gittertheorie
Abbildung 3. Reduktions-Algorithmus Eingabe: Basis b1 , b2 ∈ Rn (1) b2 := b2 − bµ2,1 e · b1 . (2) IF kb2 k < kb1 k THEN swap(b1 ,b2 ); GOTO 1.
Def inition 16.13 (L3 -reduzierte Basis). Eine (geordnete) Basis b1 , . . . , bm ∈ Rn heißt L3 -reduziert mit Parameter δ ∈ ( 14 , 1], wenn (L1) |µi,j | ≤ 12 f¨ ur 1 ≤ j < i ≤ m. 2 b (L2) δ · kbk−1 k ≤ kbbk k2 + µ2k,k−1 · kbbk−1 k2 f¨ ur k = 2, 3, . . . , m.
F¨ ur eine L3 -reduzierte Basis b1 , . . . , bm gilt kbbk−1 k2 ≤ α · kbbk k2
(42)
mit α := (δ − 41 )−1 , denn wegen Eigenschaft L1 ist µ2k,k−1 ≤ 41 und Ungleichung (42) folgt aus Eigenschaft L2. In [LLL82] wurden die Parameter δ = 43 und α = 2 benutzt. Man kann eine gebenene Basis effizient in eine L3 -reduzierte desselben Gitters u uhren [LLL82]: ¨berf¨ ´sz Fakt 16.14. Der Reduktions-Algorithmus von Lenstra, Lenstra und Lova n 3 transformiert eine gegebene Gitterbasis b1 , . . . , bm ∈ Z in eine L -reduzierte zum Parameter δ < 1 in O(m3 n log B) arithmetischen Schritten auf ganzen Zahlen der Bitl¨ ange O(n log B) mit B := maxi kbi k2 . Bemerkung 16.15. Die Laufzeit des Reduktions-Algorithmus’ und die auftretenden Bitl¨angen sind ebenfalls polynomiell besch¨ankt, wenn die Basis aus rationalen Vektoren besteht. Mit Hilfe des L3 -Reduktions-Algorithmus’ k¨onnen wir den k¨ urzesten, nicht-trivialen Gittervektor bis auf einen exponentiellen Faktor approximieren: Satz 16.16. Sei b1 , . . . , bm ∈ Rn eine L3 -reduzierte Basis des Gitters L. Dann gilt mit α := δ−1 1 : 4
kb1 k2 ≤ αm−1 · λ1 (L). Pm Beweis. Sei v = i=1 ti bi ∈ L ein Gittervektor mit kvk = λ1 (L). O.B.d.A. sei tm 6= 0, sonst erniedrige m. Es gilt: T v = b1 · · · bm · t = bb1 · · · bbm µi,j 1≤i,j≤m · t. Wir erhalten kvk2 ≤ t2m · kbbm k2 ≤ kbbm k2 . Andererseits gilt wegen Ungleichung (42): kb1 k2 = kbb1 k2 ≤ α · kbb2 k2 ≤ · · · ≤ αm−1 · kbbm k2 Somit ist kb1 k2 ≤ αm−1 · kvk2 = αm−1 λ1 (L)2 .
Wir zitieren weitere Eigenschaften L3 -reduzierter Basen [LLL82]:
2. Gitterreduktion
207
Fakt 16.17. Sei b1 , . . . , bm ∈ Rn eine L3 -reduzierte Basis des Gitters L zum Parameter δ. Dann gilt mit α := δ−1 1 : 4
2
a) α1−j ≤
kbbj k kbj k2 ≤ ≤ αm−1 f¨ ur j = 1, . . . , m. λj (L)2 λj (L)2 n−1
2
b) kb1 k2 ≤ α 2 (det L) m . m m Q c) kbi k2 ≤ α( 2 ) (det L)2 . i=1
In den beiden folgenden Abschnitt stellen wir Anwendungen der Gitterreduktion vor. Simultane Diophantische Approximation. Beim Problem der simultanen Diophantischen Approximation sucht man zu gegebenen α1 , . . . , αn ∈ Q und ∈ (0, 1) Zahlen p1 , . . . , pn , q ∈ Z mit αi − pi ≤ i=1,. . . ,n q q
und 1 ≤ q ≤ −n . Ein klassischer Satz von Hermite besagt, dass eine L¨osung existiert. Wir zeigen, dass man mit dem L3 -Algorithmus eine L¨osung berechnen kann, wird die Restriktion bez¨ uglich q abgeschw¨acht zu: 1≤q≤2
n(n+1) 4
−n =: δ.
Wir bestimmen eine L3 -reduzierte Basis b1 , . . . , bn+1 des Gitters L ⊆ Qn , welches von folgender Basismatrix erzeugt wird: 1 0 · · · 0 0 −α1 0 1 0 0 −α2 .. .. .. .. . . . . B := (43) ∈ Mn+1,n+1 (Q). 0 0 1 0 −αn−1 0 0 · · · 0 1 −αn 0 0 ··· 0 0 /δ Offenbar ist det L = /δ. F¨ ur jede L3 -reduzierte Basis b1 , . . . , bn+1 k¨onnen wir die L¨ange des ersten Basisvektors wie folgt absch¨atzen: 2 2 n n n n n+1 = 2 2 · 2− 2 2 = 2 . (44) kb1 k2 ≤ 2 2 · (det L) n+1 = 2 2 · δ Sei (p1 , . . . , pn , q) ∈ Zn+1 der Koeffizientenvektor von b1 bez¨ uglich der Basismatrix B aus (43): p1 − qα1 .. . b1 = pn − qαn q/δ O.B.d.A. sei q ≥ 0, sonst betrachte −b1 . Es gilt in Verbindung mit Absch¨atzung (44) n X q 2 2 kb1 k2 = (pi − αi q)2 + 2 ≤ 2 , δ i=1
208
16. Gittertheorie
so dass jede Komponente absolut durch beschr¨ankt ist: |pi − αi q| ≤
f¨ ur i = 1, . . . , n
q/δ ≤ . Es ist q > 0, da f¨ ur q = 0 wegen b1 6= 0 mindestens ein ganzzahliges pi 6= 0 ist und die Absch¨atzung |pi | ≤ < 1 nicht erf¨ ullt w¨are. Wir dividieren durch q ≥ 1 pi δ bzw. multiplizieren die letzte Ungleichung mit und erhalten αi − q ≤ q mit 1 ≤ q ≤ δ. Satz 16.18. Es gibt einen Polynomialzeit-Algorithmus, der zu α1 , . . . , αn ∈ Q und ∈ (0, 1) Zahlen p1 , . . . , pn , q ∈ Z mit αi − pi ≤ i=1,. . . ,n q q und 1 ≤ q ≤ 2
n(n+1) 4
−n liefert.
Rucksack-Problem. Beim Rucksack-Problem (auch Subsetsum-Problem genannt) sind zu a1 , . . . , an ∈ N und s ∈ N ein Vektor e ∈ {0, 1}n mit n X
ei ai = s
i=1
zu bestimmen oder zu zeigen, dass ein solcher nicht existiert. Zwar k¨onnen wir effizient u ufen, ob ein Vektor e eine L¨osung darstellt, vermutlich gibt es aber keinen ¨berpr¨ Polynomialzeit-Algorithmus, der eine L¨osung bestimmt: Fakt 16.19 (Cook, Levin). Die Sprache ( ) n X (n, a1 , . . . , an , s) ∈ Nn+2 ∃e ∈ {0, 1}n : ei ai = s i=1
ist N P-vollst¨ andig.
Gibt es ein Polynomialzeit-Entscheidungsverfahren f¨ ur die Rucksack-Sprache, so kann jede nicht-deterministische Turingmaschine in Polynomialzeit deterministisch simuliert werden. Zu einem gegebenen Rucksack-Problem (n, a1 , . . . , an , s) ist das inverse Problem erkl¨art durch n, a1 , . . . , an , s :=
n X i=1
ai − s .
Eine L¨osung e des Ausgangsproblems liefert unmittelbar eine L¨osung e des inversen Problems und umgekehrt: n X i=1
ei ai = s
⇐⇒
n X i=1
(1 − ei ) ai = s. | {z } =ei
2. Gitterreduktion
209
Fakt 16.20 (Lagarias, Odlyzko 1985). F¨ ur fast alle (a1 , . . . , an ) ∈ [1, A]n mit Dichte n d := log maxi ai < 0, 6463 l¨ ost der k¨ urzeste Gittervektor des Gitters erzeugt von der 2 Basismatrix 1 0 ··· 0 0 .. . 1 0 q 0 1 .. . . b1 · · · bn+1 = , N > .. .. 2 n, . 0 0 ··· 1 0 N a1 N a2 · · · N an N s entweder das Rucksack-Problem oder das inverse Problem. Einer L¨osung e = (e1 , . . . , en ) des Rucksack-Problems ordnen wir folgenden Gittervektor zu e1 e1 n .. .. X . . v(e) := ei bi − bn−1 = = . en i=1 Pn en N 0 i=1 ei ai − s) p p ur den Vektor assoziert mit der L¨osung e Es gilt kvk ≤ n/2 oder kvk ≤ n/2 f¨ des inversen Problems, da eine der beiden L¨osungvektoren maximal 12 n Eins-Eintr¨age hat. Coster, Joux, LaMacchina, Odlyzko, Schnorr und Stern [CJLOSS92] haben das Resultat durch Modifikation der Gitterbasis zu 1 1 0 ··· 0 2 .. 1 0 . 1 2 .. .. , . b1 · · · bn+1 = . . . . 1 0 0 ··· 1 2 N a1 N a2 · · · N an N s verbessert (CJLOSS-Gitter). Der L¨osungsvektor
v(e) :=
n X
e1 − 21 .. = . 1 en − 2 0
ei bi − bn−1
i=1
hat die L¨ange v u n uX 2 √ ei − 12 = 12 n, kvk = t i=1
sofern die L¨osung e jeweils 21 n-viele Koordinaten ei = 0 und ei = 1 hat. Damit ist die p L¨ange des L¨osungsvektors um den Faktor 1/2 kleiner als beim Gitter von Lagarias und Odlyzko, w¨ahrend die Gitterdeterminanten beider Gitter von derselben Gr¨oßenordnung sind.
210
16. Gittertheorie
Fakt 16.21. F¨ ur fast alle (a1 , . . . , an ) ∈ [1, A]n mit Dichte d < 0, 9408 l¨ ost der k¨ urzeste Gittervektor des CJLOSS-Gitters entweder das Rucksack-Problem oder das inverse Problem.
Anhang A
Grundbegriffe
1. Notationen Wir wiederholen die aus der Schulmathematik bekannten Notationen f¨ ur Zahlmengen. Es bezeichne • N = {1, 2, 3, . . . } die Menge der nat¨ urlichen Zahlen, • N0 = {0, 1, 2, . . . } die Menge der nat¨ urlichen Zahlen mit 0, • Z = {0, ±1, ±2, . . . } die Menge der ganzen Zahlen, • Q = ab a, b ∈ Z, b 6= 0 die Menge der rationalen Zahlen, und • R die Menge der reellen Zahlen.
Manche Autoren verwenden das Symbol N f¨ ur die Menge N0 = {0, 1, 2, . . . }. Als Abk¨ urzung f¨ ur Summen und Produkte reeller Zahlen x1 , . . . , xn schreiben wir n n X Y xi = x1 + x2 + · · · + xn und xi = x1 · x2 · · · xn i=1
i=1
Gegebenenfalls schr¨anken wir den Laufindex zus¨atzlich ein, wie beispielsweise in der folgenden Formel, die gleichzeitig eine doppelte Summation zeigt: n X m n X X xi,j = (xi,1 + · · · + xi,i−1 + xi,i+1 + · · · + xi,m ) i=1 j=1 j6=i
i=1
P Q Die leere“ Summe 0i=1 xi setzen wir auf 0. Das leere“ Produkt 0i=1 sei 1. ” ” Neben den lateinischen Buchstaben A, . . . , Z, a, . . . , z werden in der Mathematik h¨aufig die griechischen Klein- und Großbuchstaben verwendet. Dabei sind die in der Tabelle nicht aufgef¨ uhrten griechischen Großbuchstaben mit den entsprechenden lateinischen Großbuchstaben identisch.
2. Logik Die klassische Aussagenlogik geht von zwei Wahrheitswerten 1 (wahr) und 0 (falsch), aussagenlogischen Variablen und Funktionen ∨ (oder), ∧ (und), ¬ (nicht) aus. Eine 211
212
A. Grundbegriffe
Großbuchstabe
Γ ∆
Θ
Λ
Kleinbuchstabe
α β γ δ , ε ζ η θ, ϑ ι κ λ µ ν
Name
Alpha Beta Gamma Delta Epsilon Zeta Eta Theta Iota Kappa Lambda Mu Nu
Großbuchstabe
Ξ Π Σ Υ Φ Ψ Ω
Kleinbuchstabe
o ξ o π, $ ρ, % σ, ς τ υ φ, ϕ χ ψ ω
Name
O Xi O Pi Rho Sigma Tau Upsilon Phi Chi Psi Omega
aussagenlogische Variable a kann die Werte 0 und 1 annehmen und die Funktionen der Variablen a, b definiert man durch den Verlauf der Wahrheitswerte: a 0 0 1 1
b 0 1 0 1
¬a a ∧ b a ∨ b 1 0 0 1 0 1 0 0 1 0 1 1
Allgemeiner kann man komplexere Formeln durch Verschachtelung aufbauen, beispielsweise f¨ ur zwei Formeln ¬a und b ∨ c die Formel (¬a) ∧ (b ∨ c) bilden. Zur Vereinfachung der Klammerschreibweise legen wir folgende Bindungspriorit¨aten fest: ¬ vor ∧ vor ∨. Dadurch k¨onnen wir Klammern entfallen lassen und erhalten beispielsweise aus (¬a) ∧ (b ∨ c) die Vereinfachung ¬a ∧ (b ∨ c). Dies entspricht der bekannten Vereinfachung der Klammerschreibweise bei Multiplikation und Addition f¨ ur reelle Zahlen. Belegt man die Variablen in einer aussagenlogischen Formel, kann man den Wahrheitswert der Formel berechnen, indem man die Werte von innen nach außen“ be” rechnet. F¨ ur zwei aussagenlogischen Formeln A und B (¨ uber den gleichen Variablen) schreiben wir A = B, wenn die Wahrheitswerte von A und B unter allen Belegungen der Variablen identisch sind. Neben den offensichtlichen Eigenschaften f¨ ur die Funktionen ∧, ∨ und ¬ wie beispielsweise A ∧ B = B ∧ A, A ∨ B = B ∨ A und ¬¬A = A gelten die beiden folgenden wichtigen Regeln: • Regel von DeMorgan: ¬(A ∧ B) = ¬A ∨ ¬B und ¬(A ∨ B) = ¬A ∧ ¬B • Distributivit¨at: (A ∨ B) ∧ C = (A ∧ C) ∨ (B ∧ C) und (A ∧ B) ∨ C = (A ∨ C) ∧ (B ∨ C) Man verifiziere diese Regeln durch den Werteverlauf. Eine Implikation oder Folgerung A ⇒ B ( wenn A, dann B“) ist definiert durch ” A ⇒ B = ¬A ∨ B
2. Logik
213
Wir sagen, dass die Aussage A die Aussage B impliziert bzw. dass A hinreichend f¨ ur B ist. Umgekehrt sagen wir, dass B aus A folgt bzw. dass B notwendig f¨ ur A ist. Wir nennen A Voraussetzung oder Annahme und B Folgerung. ¨ Eine Aquivalenz A ⇔ B ( A genau dann, wenn B“) ist definiert durch ” A ⇔ B = (A ⇒ B) ∧ (B ⇒ A) Wir sagen, dass A und B ¨aquivalent sind bzw. das A notwendig und hinreichend f¨ ur B (und umgekehrt) ist. Bez¨ uglich der Bindung gelte ¬ vor ∧ vor ∨ vor ⇒ vor ⇔. Implikationen A ⇒ B sind stets nur in eine Richtung zu lesen“. Die Umkehrung ” gilt im allgemeinen nicht, wie das folgende Beispiel zeigt: Eine nat¨ urliche Zahl gr¨oßer als 5 ist auch gr¨oßer als 3. Um die Implikation besser hervorzuheben, formulieren wir die Aussage (und auch die folgenden Beispiele) in eine explizite wenn. . . dann“-Aussage um. ” Wenn eine nat¨ urliche Zahl gr¨oßer als 5 ist, dann ist sie gr¨oßer als 3. Die Umkehrung der Aussage ist: Wenn eine nat¨ urliche Zahl gr¨oßer als 3 ist, dann ist sie gr¨oßer als 5. Offensichtlich ist die Zahl 4 ein Gegenbeispiel. Wir betrachten einige elementaren Eigenschaften von Implikationen, die sich unmittelbar aus der Charakterisierung durch die logischen Verkn¨ upfungen ergeben. Diese Eigenschaften bilden die Grundlage f¨ ur das folgende Kapitel u ¨ber Beweistechniken. • Kontraposition: A ⇒ B = ¬B ⇒ ¬A • Transitivit¨at: (A ⇒ B) ∧ (B ⇒ C) ist hinreichend f¨ ur A ⇒ C • Kontradiktion: A ⇒ B = A ∧ ¬B ⇒ 0 Die Transitivit¨at besagt, dass man aus A ⇒ B und B ⇒ C die Aussage A ⇒ C ¨ schliessen kann. M¨ochte man beispielsweise die Aquivalenz der Aussagen A, B und C beweisen, so gen¨ ugt es wegen der Transitivit¨at, A ⇒ B, B ⇒ C und C ⇒ A zu zeigen (Ringschluß). Die Kontradiktion besagt, dass die Hinzunahme von ¬B zur Voraussetzung A auf einen Widerspruch f¨ uhrt. Die Pr¨ adikatenlogik f¨ uhrt zus¨atzlich den Allquantor ∀ und den Existenzquantor ∃ ein. Die Interpretation der Formeln ∀x : A bzw. ∃x : B ist, dass die aussagenlogische Formel A f¨ ur alle x gilt bzw. dass es ein x gibt, so dass die aussagenlogische Formel B gilt; die Formeln A bzw. B h¨angen dabei im allgemeinen von x ab. Das Universum“, ” aus dem x stammt, geht in der Regel aus dem Kontext hervor. Tats¨achlich ist die Wahl dieses Universums“ entscheidend f¨ ur die G¨ ultigkeit der Formeln, wie wir an ” einem Beispiel sehen werden. Der Begriff der G¨ ultigkeit ist bei pr¨adikatenlogischen Formeln komplizierter zu formalisieren als bei aussagenlogischen Formeln. Wir verzichten daher hier auf eine Definition und beschr¨anken uns auf die oben angegebene Interpretation. Pr¨adikatenlogische Formeln k¨onnen wie aussagenlogische Formeln verschachtelt werden, so dass beispielsweise Formeln der Form ∀x : (A ⇒ ∃y : B) m¨oglich sind.
214
A. Grundbegriffe
Dabei nehmen wir an, dass Quantoren st¨arker binden als aussagenlogische Funktionen. Tritt der gleiche Quantorentyp hintereinander auf, so faßt man diese Quantoren im allgemeinen zusammen, z.B. ∀x : ∀y : A zu ∀x, y : A. F¨ ur die Quantoren gelten folgende Regeln: ¬ ∀x : A = ∃x : ¬A
und
¬ ∃x : A = ∀x : ¬A.
Beachte, dass ¬ ∀x : A = ¬ (∀x : A) nach Festlegung der Bindungpriorit¨aten. Bei ¨ Verschachtelung erh¨alt man beispielsweise die Aquivalenz von ¬ ∃x : ∀y : A und ∀x : ∃y : ¬A. Wir betrachten ein Beispiel. Sei < das bekannte Kleiner-Als“-Pr¨adikat u ¨ber den ” reellen bzw. nat¨ urlichen Zahlen: a < c ist genau dann wahr, wenn es eine positive Zahl b ∈ R mit a + b = c gibt. Gegeben sei die Formel ∀r, t : r < t ⇒ ∃s : (r < s ∧ s < t) , die ausdr¨ uckt, dass zwischen zwei verschiedenen Zahlen r, t stets eine weitere Zahl s liegt. Betrachten wir r, s, t u ¨ber den reellen Zahlen, gilt diese Formel, denn s = 1 ¨ ullt f¨ ur alle r, t mit r < t die Bedingung. Uber den nat¨ urlichen Zahlen 2 (r + t) ∈ R erf¨ gilt die Aussage nicht, denn zwischen r und t = r + 1 liegt keine weitere nat¨ urliche Zahl.
3. Beweistechniken Um mathematische Aussagen von der Form A ⇒ B zu beweisen, gibt es elementare Vorgehensweisen, von denen wir hier einige wichtige vorstellen. Direkte Beweise. Bei einem direktem Beweis wird die Aussage A ⇒ B zerlegt in Aussagen der Form A ⇒ A1 , A1 ⇒ A2 , . . ., An−1 ⇒ An , An ⇒ B. Aus der Transitivit¨at folgt dann die Behauptung A ⇒ B. Die einzelnen Implikationen k¨onnen dann mit einer der in diesem Kapitel aufgef¨ uhrten Beweistechniken gezeigt werden bzw. sind meistens einfach zu sehen. Setzt man beispielsweise als bekannt voraus, dass das Produkt und die Summe zweier nat¨ urlicher Zahlen positiv ist, so l¨aßt sich die Aussage Wenn m > n f¨ ur nat¨ urliche Zahlen m, n gilt, dann ist m2 > n2 . durch einen direkten Beweis zeigen: Aus m > n folgt m = n + k f¨ ur eine nat¨ urliche Zahl k. Mit dem Binomischen Lehrsatz erhalten wir m2 = (n+k)2 = n2 +2nk+k 2 . Die letzten beiden Summanden sind das Produkt nat¨ urlicher Zahlen und damit ebenso wie die Summe 2nk + k 2 positiv. Wir schließen, dass m2 = n2 + 2nk + k 2 > n2 . Obwohl wir die Aussage als wenn. . . dann“-Aussage formuliert haben, ist sie im” plizit eine pr¨adikatenlogische Formel: u urlichen Zahlen gilt ∀m, n : (m > ¨ber den nat¨ 2 2 ¨ n ⇒ m > n ). Die angegebene Aussage entspricht der sprachlichen Ubersetzung dieser Formel, da wir in der Annahme beliebige nat¨ urliche Zahlen m, n mit m > n voraussetzen.
3. Beweistechniken
215
Vollst¨ andige Induktion. Die vollst¨ andige Induktion erlaubt es, Eigenschaften bez¨ uglich der nat¨ urlichen Zahlen zu beweisen: Wenn f¨ ur eine Zahl m die Eigenschaft E(m) gilt und f¨ ur alle n ≥ m folgt E(n + 1) aus E(n), dann gilt E(n) f¨ ur alle n ≥ m. Wir betrachten ein Beispiel: Wenn n ≥ 3 f¨ ur n ∈ N ist, dann gilt 2n > 2n. Wir beweisen diese Aussage durch vollst¨andige Induktion: In der Induktionsverankerung zeigen wir, dass die Formel f¨ ur n = 3 gilt. Dies folgt durch unmittelbares nachrechnen. Im Induktionsschritt zeigen wir, dass aus der Induktionsvoraussetzung 2n > 2n auch 2n+1 > 2(n + 1) folgt. Durch die Induktionsvoraussetzung erhalten wir 2n+1 = 2 · 2n = 2n + 2n > 2n + 2n Andererseits gilt offensichtlich 2n ≥ 2 f¨ ur alle n ≥ 1 und damit auch f¨ ur n ≥ 3. Es folgt 2n+1 > 2n + 2n ≥ 2n + 2 = 2(n + 1) und daraus die Behauptung. Folgt die Eigenschaft E(n+1) nicht nur aus E(n), sondern beispielsweise aus E(n) und E(n − 1), so ist die Induktionsverankerung f¨ ur die Werte E(m) und E(m + 1) zu zeigen. Die vollst¨andige Induktion besagt in diesem Fall: Wenn E(m), E(m + 1) gelten und f¨ ur alle n ≥ m + 1 aus E(n) und E(n − 1) auch E(n + 1) folgt, dann gilt E(n) f¨ ur alle n ≥ m. Beweis durch Kontraposition. Beim Beweis durch Kontraposition zeigt man die Aussage ¬B ⇒ ¬A, um A ⇒ B zu beweisen. Diese Vorgehensweise ist meistens einfacher als ein direkter Beweis. Wir demonstrieren die Beweistechnik am Beispiel der Primzahlen. Aus der Schulmathematik ist bekannt, dass eine nat¨ urliche Zahl prim ist, wenn sie nur durch sich selbst und durch 1 teilbar ist, wobei die 1 als Primzahl ausgeschlossen wird. Die ersten f¨ unf Primzahlen lauten daher 2, 3, 5, 7, 11. Allgemein gilt: Wenn p ∈ N prim ist und p > 2, dann ist p ungerade. Der Beweis erfolgt durch Kontraposition, d.h. wir zeigen, dass eine gerade Zahl p nicht prim ist oder p ≤ 2 gilt. Beachte, dass wir hier die DeMorgansche Regel auf ¬(p prim ∧ p > 2)“ angewendet haben. Wenn aber p gerade ist, dann ist p = 2 ” oder p ≥ 4 echt durch 2 teilbar und damit nicht prim. Beweise durch Widerspruch fomuliert man h¨aufig als Beweis durch Widerspruch: Beweis durch Widerspruch. Beim Beweis durch Widerspruch (auch Beweis durch Kontradiktion) beweist man A ⇒ B, indem man zeigt, dass A ∧ ¬B auf einen Widerspruch f¨ uhrt. Beispiel: Wenn p ∈ N prim ist und p > 2, dann ist p ungerade. Nehmen wir also an, dass p prim, p > 2 und p gerade ist. Dann ist allerdings die Primzahl p > 2 echt durch 2 teilbar — Widerspruch zur Eigenschaft von Primzahlen.
216
A. Grundbegriffe
4. Mengen, Relationen und Funktionen Zur Vereinfachung verwenden wir hier die naive“ Mengenlehre nach Cantor, die be” sagt, dass jede Eigenschaft E eine Menge ME definiert: die Menge ME = {x | E(x) } ist die Sammlung“ von Objekten x, f¨ ur die E(x) erf¨ ullt ist. Obwohl diese Anschau” ung auf inhaltliche Widerspr¨ uche f¨ uhrt (Russelsche Antinomie1), gen¨ ugt sie f¨ ur eine elementare Einf¨ uhrung der Begriffe. Wir f¨ uhren zun¨achst einige Notationen ein. Seien X, Y Mengen. Ist x ein Element der Menge X, dann schreiben wir x ∈ X. Wir sagen auch, dass x in X liegt bzw. das x in X enthalten ist. Die Menge X ist eine Teilmenge von Y (X ⊆ Y ), wenn jedes x ∈ X auch Element von Y ist. Ein Element x ist genau dann in der Vereinigung X ∪ Y von X und Y , wenn es in mindestens einer der beiden Mengen X und Y liegt. Das Element x ist genau dann im Durchschnitt X ∩ Y von X und Y enthalten , wenn es sowohl in X als auch in Y liegt. Die Differenz X \ Y von X und Y enth¨alt alle Elemente x ∈ X, die nicht in Y liegen. Beachte, dass Y Elemente enthalten kann, die nicht in X sind (und damit nat¨ urlich auch nicht in X \ Y ). Gilt Y ⊆ X, so schreibt man auch X − Y statt X \ Y . F¨ ur eine endliche Menge X heißt die Anzahl |X| der Elemente in X die M¨ achtigkeit von X. F¨ ur unendliche Mengen ist die Definition der M¨achtigkeit aufwendiger und wir verzichten hier darauf. Mit ∅ bezeichnen wir die leere Menge, die kein Element enth¨alt. Vereinigung und Durchschnitt zweier Mengen kann man verallgemeinern: ur eine nicht-leere Menge I und Mengen Xi f¨ ur i ∈ I S T F¨ bezeichnet i∈I Xi bzw. i∈I Xi die Menge, die genau die x enth¨alt, f¨ ur die ein i ∈ I mit x ∈ Xi existiert bzw. f¨ ur die x ∈ Xi f¨ ur alle i ∈ I. Die Menge I nennen wir in diesem Fall Indexmenge. In der Schule verwendet man — bewußt oder unbewußt — zwei Eigenschaften von Funktionen: F¨ ur eine Funktion f : X → Y mit Definitionsbereich X ⊆ R und Wertebrereich Y ⊆ R gibt es f¨ ur alle x ∈ X mindestens einen Wert y ∈ Y mit f (x) = y (so dass f auf X definiert ist) und andererseits h¨ochstens einen Wert y ∈ Y mit f (x) = y (so dass jedes x auf maximal einen Wert abgebildet wird). Wir formalisieren diese Eigenschaften, indem wir den Begriff des kartesischen Produkts und der Relation einf¨ uhren. F¨ ur zwei Mengen X, Y ist X × Y das Kartesische Produkt, das die Menge bezeichnet, die genau die geordneten Paare (x, y) mit x ∈ X und y ∈ Y enth¨alt. Das geordnete Paar (x, y) heißt auch Tupel. Allgemeiner kann man das Kartesische Produkt f¨ ur n Mengen X1 , . . . , Xn definieren. Ein Element (x1 , . . . , xn ) dieses Produkts heißt dann n-Tupel. Falls X1 = X2 = · · · = Xn schreibt man abk¨ urzend X1n statt X1 × · · · × Xn . Eine n-stellige Relation R u ¨ber X1 × · · · × Xn ist eine Teilmenge von X1 ×· · ·×Xn . Im Fall n = 2, d.h. R ⊆ X ×Y , spricht man von einer bin¨aren Relation. Wir definieren eine Funktion f : X → Y als spezielle bin¨are Relation f ⊆ X × Y (und verwenden daher in dieser Definition die Schreibweise (x, y) ∈ f statt f (x) = y), mit
1Betrachte die Menge R aller Mengen, die sich nicht selbst enthalten. Enth¨ alt R sich selbst, dann
ist R nicht in R nach Definition. Enth¨ alt andererseits R nicht sich selbst, so ist R in R nach Definition enthalten. Wir erhalten somit den Widerspruch, dass die Menge R sich genau dann enth¨ alt, wenn sie sich nicht enth¨ alt.
4. Mengen, Relationen und Funktionen
217
der Eigenschaft, dass f¨ ur jedes x ∈ X genau ein y ∈ Y mit (x, y) ∈ f existiert. Wir nennen eine Funktion auch Abbildung. F¨ ur eine Relation R u ¨ber X ×Y heißt X der Argumentbereich, Y der Wertebereich, die Menge der x ∈ X, f¨ ur die ein y ∈ Y mit (x, y) ∈ R existiert, der Definitionsbereich, die Menge der y, f¨ ur die ein x mit (x, y) ∈ R existiert, der Bildbereich. Diese Definitionen gelten damit auch f¨ ur Funktionen, wobei dort Argument- und Definitionsbereich gleich sind und man mit f (X) oder bild f das Bild von X unter f bezeichnet. Das Urbild f −1 (y) eines Wertes y ∈ Y unter einer Funktion f : X → Y ist die Menge aller x ∈ X, f¨ ur die (x, y) ∈ f . Wir sagen, dass x ein Urbild von y unter f ist, wenn −1 x ∈ f (y). Eine Funktion f : X → Y heißt surjektiv, wenn es f¨ ur alle y ∈ Y ein x ∈ X mit f (x) = y gibt. Die Funktion f heißt injektiv, wenn f¨ ur alle y ∈ Y h¨ochstens ein x ∈ X mit f (x) = y existiert. Sie heißt bijektiv, wenn sie injektiv und surjektiv ist. F¨ ur eine injektive Funktion f : X → Y bezeichnet man mit f −1 : f (X) → X auch die Umkehrfunktion von f , d.h. die Funktion mit f −1 (f (x)) = f (f −1 (x)) = x f¨ ur alle x ∈ X. Beachte, dass die Injektivit¨at garantiert, dass es sich dabei tats¨achlich um eine Funktion handelt, da es zu jedem y maximal ein x mit f −1 (y) = x gibt. Die Umkehrfunktion von f an einer festen Stelle y und das Urbild von y unter f werden mit dem gleichen Symbol f −1 (y) bezeichnet. Obwohl Verwechselungen prinzipiell m¨oglich sind, geht im allgemeinen aus dem Zusammenhang hervor, welches Objekt gemeint ist; bei einer injektiven Funtion f ist das Urbild f −1 (y) f¨ ur ein y ∈ f (X) insbesondere genau die einelementige Menge, deren Element der Wert der Umkehrfunktion f −1 an der Stelle y ist. Zur Veranschaulichung der Begriffe betrachten wir Funktionen f, g, h : N → N u urlichen Zahlen. Die Funktion f sei definiert durch ¨ber den nat¨ f (n) = 2n Dann ist f injektiv, da f (m) = 2m 6= 2n = f (n) f¨ ur m 6= n. Die Funktion ist allerdings nicht surjektiv, da die ungeraden Zahlen keine Urbilder unter f besitzen. Eine surjektive, aber nicht injektive Funktion ist ( n falls n gerade 2 g(n) = n+1 falls n ungerade 2 Offensichtlich bildet g jede ungerade Zahl und die darauffolgende gerade Zahl auf den gleichen Wert ab. Daher ist g nicht injektiv. Andererseits ist g surjektiv, da f¨ ur jedes m der Wert 2m ein Urbild ist. Ein triviales Beispiel einer bijektiven Funktion u urlichen Zahlen ist die ¨ber den nat¨ Identit¨atsfunktion id(n) = n. Wir betrachten als weiteres Beispiel folgende Funktion: ( n − 1 falls n gerade h(n) = n + 1 falls n ungerade Die Funktion h vertauscht jede ungerade Zahl mit ihrem geraden Nachfolger und ist daher bijektiv. Ferner ist h die Umkehrfunktion zu sich selbst.
Anhang B
¨ Ubungsaufgaben
¨ 1. Ubungsblatt 1 Aufgabe 1.1. L¨ ose das lineare Gleichungssystem zu folgender erweiterter Matrix u ¨ber K = R und K = {0, 1, 2} = Z3 : 2 1 1 2 0 2 1 0 1 0 ∈ M4,5 (K) (A, b) = 0 1 2 0 1 1 1 2 1 2 Aufgabe 1.2. Sei K beliebiger K¨ orper, (A, b) ∈ M2,3 (K) und det(A) := a11 a22 − a12 a21 ∈ K sei die Determinante von A. Zeige: Ax = b ist genau dann f¨ ur alle b ∈ K2 l¨ osbar, wenn det(A) 6= 0. Hinweis: Zeilen- und Spaltenoperationen ¨ andern |det(A)| nicht. Aufgabe 1.3. Sei K beliebiger K¨ orper und UDn ⊂ Mn,n (K) die Menge der unteren Dreiecksmatrizen, d.h. der Matrizen A = (aij )1≤i,j≤n mit aij = 0 f¨ ur i < j. Zeige: A, B ∈ UDn ⇒ A · B ∈ UDn . Aufgabe 1.4. Sei A = (ai,j )1≤i,j≤n ∈ UDn . Zeige: Zu A gibt es genau dann ein multiplikatives Inverses A−1 ∈ UDn , wenn a11 a22 · · · ann 6= 0. F¨ ur A−1 gelte nach −1 −1 −1 Definition AA = A A = In . Hinweis: Bestimme A durch R¨ uckw¨ artsaufl¨ osen eines lineare Gleichungssystem in Treppenform.
¨ 2. Ubungsblatt 2 Aufgabe 2.1. Sei K K¨ orper. Die Operationen + (Addition) und · (Multiplikation) auf Mn,n (K) sind durch die K¨ orperoperationen von K erkl¨ art: X n (aij ) + (bij ) = (aij + bij ), (aiν ) · (bνj ) = aiν bνj ν=1
Zeige: 219
¨ B. Ubungsaufgaben
220
a) Die Multiplikation auf Mn,n (K) ist assoziativ und distributiv. b) Die Multiplikation auf Mn,n (K) f¨ ur n ≥ 2 ist nicht kommutativ. Aufgabe 2.2. Invertiere die Matrix
1 2 A= 0 1
1 1 1 1
2 0 2 2
0 1 0 1
¨ u orper K = {0, 1, 2} mit folgendem Verfahren: Uberf¨ uhre A durch Multipli¨ber dem K¨ kation mit Elementarmatrizen von rechts (bzw. links) in I4 . Wende dieselben Transformationsschritte auf I4 an. Zeige: Das Verfahren liefert f¨ ur beliebige K¨ orper K und A ∈ Mn,n (K) die inverse Matrix A−1 . Aufgabe 2.3. Zu A = (aij ) ∈ Mm,n (K) ist AT := (aji ) ∈ Mn,m (K) die transponierte Matrix. Zeige: a) (AB)T = B T AT f¨ ur A ∈ Mm,n (K), B ∈ Mn,k (K). b) P P T = In gilt f¨ ur alle Permutationsmatrizen P ∈ Mn,n (K). Hinweis: P = Vi1 ,j1 · · · Vik ,jk mit Vertauschungsmatrizen Viν ,jν . Aufgabe 2.4. Sei K K¨ orper und A ∈ Mnn (K). Zeige: Es gibt Permutationsmatrizen P1 , P2 und T ∈ UDn , B ∈ ODn mit P1 A P2 = T B. Hinweis: Ziehe die Zeilen und Spaltenvertauschungen im Gauß-Verfahren vor.
¨ 3. Ubungsblatt 3 Aufgabe 3.1. Sei C=
a −b b a
a, b ∈ R ⊂ M2,2 (R).
Zeige: C ist K¨ orper, C ∼ = C. Es gilt a −b ` 0 cos ϕ − sin ϕ = , b a 0 ` sin ϕ cos ϕ wobei die Abbildung
R2 → R≥0 × [0, 2π), (a, b) 7→ (`, ϕ) a −b bijektiv ist. Die Abbildung x 7→ x sind die Dreh-Streckungen der reellen b a Ebene, erl¨ autere dies. Aufgabe 3.2. Sei K K¨ orper, G ⊂ Kn Gerade und H ⊂ Kn Hyperebene. Zeige: G, H sind entweder parallel oder sie haben genau einen Punkt gemeinsam. Der Satz gilt nicht, wenn man den K¨ orper K durch einen Ring ersetzt, weshalb?
¨ 4. Ubungsblatt 4
221
Aufgabe 3.3. Sei V ein K-Vektorraum und x1 , . . . , xk ∈ V . Zeige, dass aspan(x1 , . . . , xk ) := x1 +
k X
(xi − x1 )K
i=2
der kleinste affine Unterraum ist, der x1 , . . . , xk enth¨ alt. Hinweis: aspan(x1 , x2 ) = x1 +(x2 −x1 )K ist die Gerade durch x1 , x2 . Mit x1 , . . . , xk ∈ A enth¨ alt jeder affine Unterraum A auch aspan(x1 , . . . , xk ). Aufgabe 3.4. Zeige, dass die folgenden Aussagen gelten, wenn man K¨ oraum ersetzt durch einen der Begriffe K¨ orper, Schiefk¨ orper, Ring, Gruppe, Halbgruppe, Vektorraum, affiner Raum. Sei Y ein K¨ oraum. T a) Sind Yi ⊆ Y f¨ ur i ∈ I K¨ oraume, so auch Yi . i∈I
b) Zu X ⊆ Y gibt es einen kleinsten K¨ oraum hXi mit X ⊆ hXi. Weshalb l¨ aßt man zu, dass affine R¨ aume leer sind, aber Vektorr¨ aume nicht? Hinweis: Weise Eigenschaften nach, wie Assoziativit¨ at, Kommutativit¨ at, Existenz des Inversen usw.
¨ 4. Ubungsblatt 4 Aufgabe 4.1. L¨ ose u orper Z5 = {0, 1, 2, 3, 4} das lineare Gleichungssystem ¨ber dem K¨ Ax = b mit 2 1 3 4 2 . (A | b) = 3 4 1 2 3 Konstruiere eine Basis von L¨os(A, 0). Erl¨ autere das L¨ osungsverfahren. Aufgabe 4.2 (2 zus¨atzliche Punkte). Sei A ∈ Mm,n (K), K K¨ orper. Zeige: Es gibt Permutationsmatrizen P, P 0 und T ∈ UDm , T 0 ∈ ODn sowie eine Diagonalmatrix D ∈ Mm,n (K) mit P AP 0 = T DT 0 . Dabei gelte f¨ ur D = (dij ), dass d11 6= 0, . . . , drr 6= 0 und dij = 0 sonst. Ferner sind die Diagonalelemente von T , T 0 alle 1. Erl¨ autere zun¨ achst, dass man nach ¨ Ubungsblatt 2, Aufgabe 4, erreichen kann, dass P AP 0 = T B f¨ ur eine Matrix B in Treppenform mit r Stufen. Aufgabe 4.3. Sei G kommutative Gruppe und H ⊆ G Untergruppe. Die Menge G/H = {aH | a ∈ G } besteht aus den Nebenklassen von H. Zeige: G/H ist Gruppe mit der Multiplikation (aH)(bH) = (ab)H. Zeige zun¨ achst, dass die Multiplikation wohldefiniert ist, d.h. unabh¨ angig von der Wahl der Repr¨ asentanten. Aufgabe 4.4 (2 zus¨atzliche Punkte). Sei C der K¨ orper der komplexen Zahlen. Zeige: a −b H= a, b ∈ C ⊂ M2,2 (C) ist Schiefk¨ orper. ¯b a ¯
¨ B. Ubungsaufgaben
222
Nach Aufgabe 1.2 ist die Matrix genau dann invertierbar, wenn ihre Determinante a¯ a + b¯b ungleich Null ist. Zeige, dass die Determinante genau dann null ist, wenn a = b = 0.
¨ 5. Ubungsblatt 5 Aufgabe 5.1. Sei 2 0 −2 −4 4 4 4 1 3 2 2 5 5 , , , , , , 4 ⊂ R4 . X := 0 7 7 0 6 6 5 −1 0 1 −2 −2 −2 −3 Konstruiere eine Basis B ⊂ X von span(X ). Beschreibe das Verfahren.
Aufgabe 5.2. Sei K ein K¨ orper, V1 , V2 Vektorr¨ aume u ¨ber K und ψ : V1 → V2 ein Isomorphismus. Zeige: a) Die inverse Abbildung ψ −1 : V2 → V1 ist ebenfalls ein Isomorphismus. Hinweis: Es gilt x = y ⇐⇒ ψ(x) = ψ(y), sowie ψ(ψ −1 (x)) = x. b) F¨ ur jede Basis b1 , . . . , bn von V1 gilt, dass ψ(b1 ), . . . , ψ(bn ) eine Basis von V2 ist. Hinweis: ψ(x) = 0 ⇐⇒ x = 0. Folgere, dass die Polynome 1, X, . . . , X n eine Basis des Vektorraums K[X]n bilden. Aufgabe 5.3. Sei A = (aij ) ∈ Mm,n (K). Zeige: Das Gauß’sche Eliminationsverfahren angewandt auf (A | b) ben¨ otigt keine Zeilenvertauschung, wenn (ai1 , . . . , aij ) ∈ Kj i = 1, . . . , j linear unabh¨ angig ist f¨ ur j = 1, . . . , n. Gilt auch die Umkehrung?
Aufgabe 5.4. Seien x1 , . . . , xn ∈ Kn linear unabh¨ angig u orper K. Zeige: ¨ber dem K¨ Es gibt genau eine Hyperebene H ⊂ Kn mit x1 , . . . , xn ∈ H.
¨ 6. Ubungsblatt 6 Aufgabe 6.1. Konstruiere die Hyperebene H ⊂ Z57 durch die Punkte (1, 2, 3, 4, 5), (2, 3, 4, 5, 1), (3, 4, 5, 1, 2), (4, 5, 1, 2, 3), (5, 1, 2, 3, 4). Beschreibe das Verfahren. Aufgabe 6.2. Seien A, B Matrizen u orper K. Zeige: ¨ber einem K¨ .. A . 0 a) rang . . . . . . . . = rang(A) + rang(B) . 0 .. B b) max(rang(A), rang(B)) ≤ rang(A | B) ≤ rang(A) + rang(B). Aufgabe 6.3 (2 zus¨atzliche Punkte). Beweise Satz 3.20 durch Induktion u ¨ber n: n n Je n linear unabh¨ angige Vektoren T a1 , . . . , an ∈ K bildeneine Basis des K . a1 a11 0 .. 0 . . . . . Hinweis: Transformiere A = . in T AT = mit invertierbaren . . T 0 an 0 . A
¨ 8. Ubungsblatt 8
223
Matrizen T ∈ UDn , T 0 ∈ ODn . Wende die Induktionsannahme auf A0 an. Weshalb kann man O.B.d.A. annehmen, dass a11 6= 0 ? Aufgabe 6.4. Sei K K¨ orper und a1 , . . . , an ∈ K paarweise verschieden. Zeige: Die Vandermonde-Matrix 1 1 ··· 1 a1 a2 · · · an Vn (a1 , . . . , an ) := .. .. .. . . . n−1 n−1 n−1 a1 a2 · · · an hat Rang n. Hinweis: Beweis durch Induktion u ¨ber n.
¨ 7. Ubungsblatt 7 Aufgabe 7.1. Konstruiere eine Basis des L¨ osungsraums zum linearen Gleichungssystem 6 X
(1)
ai 2i = 0 ,
i=0
6 X
(2)
ai 3i = 0
i=0
in den Unbestimmten a0 , . . . , a6 u anze die Basis jeweils zu Basen der ¨ber Z11 . Erg¨ L¨ osungsr¨ aume der LGS’e (1) und (2). Aufgabe 7.2. Seien b1 , . . . , bm ∈ Kn , K endlicher K¨ orper und dim span(b1 , . . . , bm−2 ) = dim span(b1 , . . . , bm ) = m − 2. Zeige: a) Es gibt genau eine Darstellung bm−1 = b) Es gibt genau |K| Darstellungen bm =
m−2 P
λ i bi .
i=1 m−1 P
λ i bi .
i=1
Aufgabe 7.3. Sei K K¨ orper, a1 , . . . , an ∈ K paarweise verschieden und b1 , . . . , bn ∈ P i ∈ K[X] mit p(a ) = b f¨ p x K. Zeige: Es gibt genau ein Polynom p(x) = n−1 i i i ur i=0 i = 1, . . . , n. Hinweis: Schreibe p(ai ) = bi , i = 1, . . . , n, als lineares Gleichungssystem in p0 , . . . , pn−1 und zeige, dass dieses eindeutig l¨ osbar ist. Aufgabe 7.4. Zeige: Das Gauß-Verfahren zu (A, b) kommt genau dann ohne Zeilenund Spaltenvertauschungen aus, wenn a11 · · · a1i .. = i f¨ rang ... ur i = 1, . . . , rang(A) . . ai1 · · · aii
¨ 8. Ubungsblatt 8 Aufgabe 8.1. Sei f : U → V Homomorphismus von (endlich dimensionalen) Vektorr¨ aumen und U, V zwei K-Vektorr¨ aume. Zeige: a) dim ker f + dim bild f = dim U ,
¨ B. Ubungsaufgaben
224
b) Ein surjektives f ist genau dann ein Isomorphismus, wenn dim ker f = 0. Aufgabe 8.2. Seien U, V zwei K-Vektorr¨ aume und f : U → V ein VektorraumHomomorphismus. f werde bez¨ uglich der Basen a1 , . . . , am vonPU und b1 , . . . , bn von V dargestellt durch die Matrix (fij )T ∈ Mn,m (K) mit f (ai ) = nj=1 fij bj . Zeige: rang(fij ) = dim f (U ). Dies rechtfertigt folgende Definition: dim f (U ) heißt der Rang von f . Aufgabe 8.3. Sei A ∈ Mk,m (K), B ∈ Mm,n (K). Zeige: rang(AB) ≤ min(rang(A), rang(B)). Aufgabe 8.4. Seien A, B ∈ Mm,n (K). Zeige: |rang(A + B) − rang(A)| ≤ rang(B) Hinweis: Reduziere auf den Fall, dass B eine Diagonalmatrix ist.
¨ 9. Ubungsblatt 9 Aufgabe 9.1. Die Kodeworte (0, 0, 1, 1, 1, 1, 0), (0, 1, 1, 0, 0, 1, 1), (1, 0, 0, 0, 1, 1, 1) erzeugen einen Code C ⊂ F72 . Konstruiere zu C und C ⊥ eine Generator- und eine PCH-Matrix in kanonischer Form. Zusatz (2 Punkte): Bestimme d(C), d(C ⊥ ). Aufgabe 9.2. Der [n, k]-Code C ⊂ Kn habe die Generatormatrix G ∈ Mk,n (K) und die PCH-Matrix H ∈ Mn−k,n (K). Zeige: a) Ist G von der Form G = [Ik , A] mit A ∈ Mk,n−k (K), dann ist [−AT , In−k ] eine PCH-Matrix zu C. b) Ist H von der Form [B, In−k ] mit B ∈ Mn−k,k (K), dann ist [Ik , −B T ] eine Generator-Matrix von C. Es sei K endlicher K¨ orper, |K| = q, Kn sei die Nachrichtenmenge. Wir identifizieren n P mi xi−1 ∈ K[x]. die Nachricht m = (m1 , . . . , mn ) ∈ Kn mit dem Polynom m(x) = i=1
Sei K = {α1 , ..., αq }. Es gelte n ≤ t ≤ q. Aufgabe 9.3. Betrachte den linearen Code C = (m(α1 ), . . . , m(αt )) ∈ Kt m ∈ Kn .
Zeige: C hat die Distanz d(C) = t − n + 1. Hinweis: Benutze Aufgabe 7.3. Warum nennt man C Interpolationscode?
Aufgabe 9.4. Eine Nachricht m = (m1 , . . . , mn ) ∈ Kn ist derart in m0i ∈ K2 f¨ ur i = 1, . . . , t aufzuteilen mit n ≤ t ≤ q, dass man m aus beliebigen n Teilen m0i ur i = 1, . . . , t. Gib ein rekonstruieren kann. Setze hierzu m0i := (αi , m(αi )) ∈ K2 f¨ Verfahren zur Rekonstruktion von m aus m0i1 , . . . , m0in an. (Benutze Aufgabe 3, Blatt 7.)
¨ 11. Ubungsblatt 11
225
¨ 10. Ubungsblatt 10 Aufgabe 10.1. Sei C ⊂ Kn ein [n, k]-Code mit PCH-Matrix H ∈ Mn−k,n (K). Zeige: d(C) ≥ t + 1
⇐⇒
je t Spalten von H sind linear unabh¨ angig u ¨ber K.
Aufgabe 10.2. Sei C ⊂ Kn ein linearer [n, k]-Code u orper K. Zeige die ¨ber dem K¨ Singleton-Schranke: d(C) ≤ 1 + n − k. Wenn d(C) = 1+n−k ist, heißt C separabler Maximum-Distanz-Code (MDS-Code). Hinweis: Benutze Aufgabe 10.1. Aufgabe 10.3. Die PCH-Matrix des bin¨ aren 1-fehlerkorrigierenden Hamming-Codes C3 ⊂ F72 sei 0 0 0 1 1 1 1 H3 = 0 1 1 0 0 1 1 . 1 0 1 0 1 0 1 Gib ein Dekodierverfahren an, das einen Fehler korrigiert, d.h. beschreibe einen Algorithmus zu einer Abbildung dec : F72 → C3 , so dass nach M¨ oglichkeit d(dec(˜ c), c˜) ≤ 1 gilt. Hinweis: Fasse die Spalten von H3 als Bin¨ arzahlen auf. Aufgabe 10.4. Sei K ein K¨ orper, U1 , . . . , Un und ⊕ni=1 Ui := {(u1 , ..., ut ) | ui ∈ Ui , i = 1, ..., n } P K-Vektorr¨ aume endlicher Dimension. Zeige: dim (⊕ni=1 Ui ) = ni=1 dim Ui . Es wird nicht vorausgesetzt, dass die Ui Untervektorr¨ aume eines gemeinsamen Vektorraums sind.
¨ 11. Ubungsblatt 11 Aufgabe 11.1. Sei K K¨ orper und a1 , . . . , an ∈ K. Beweise f¨ ur die VandermondeMatrix: 1 1 ··· 1 a1 a2 an Y det Vn (a1 , . . . , an ) = det .. (ai − aj ) . .. .. = . . . i>j · · · ann−1 an−1 an−1 2 1 Hinweis: Beweis durch Induktion u ¨ber n. Subtrahiere a1 · Zeilei−1 von Zeilei . Aufgabe 11.2. Sei LA : Rn → Rn , LA (x) = Ax, die lineare Abbildung zu A ∈ Mn,n (R). Ferner sei P = P (b1 , . . . , bn ) ⊂ Rn ein Parallelflach. Zeige: vol LA (P ) = |det A| · vol P. Hinweis: Benutze die Multiplikativit¨ at der Determinante. t
Aufgabe 11.3. Es seien U1 , ..., Ut und ⊕ Ui := {(u1 , ..., ut ) | ui ∈ Ui } K-Vektorr¨ aui=1 t me. Zeige: Genau dann ist U ∼ ur = ⊕ Ui , wenn es Monomorphismen hi : Ui → U f¨ i=1
¨ B. Ubungsaufgaben
226
P i = 1, . . . , t gibt, so dass jedes u ∈ U eindeutig zerlegbar ist als u = ti=1 hi (ui ) mit ui ∈ Ui . ¨ Zusatz (2 Punkte): Zeige die Aquivalenz f¨ ur Ringe und additive Gruppen anstelle von Vektorr¨ aumen. Aufgabe 11.4 (2 zus¨atzliche Punkte). Sei n Zahlen q1 , q2 . Ferner seien α1 , α2 ∈ Zn gegeben ( 1 αi mod qj = 0
= q1 q2 Produkt zweier teilerfremder mit i=j i 6= j.
Zeige: Zn ∼ = Zq1 × Zq2 . ¨ Hinweis: Benutze die Aquivalenz von Aufgabe 11.3 f¨ ur Ringe und gib entsprechende Monomorphismen hi : Zqi → Zn , i = 1, 2 an. Zu zeigen ist die eindeutige Zerlegbarkeit u = h1 (u1 ) + h2 (u2 ) von u ∈ Zn .
¨ 12. Ubungsblatt 12 Aufgabe 12.1 (2 Punkte). Vergleiche die Eigenschaften (D1), (D2) einer Determinantenfunktion und (D3’) : rang(A) < n =⇒ det A = 0, (D5) : Linearit¨ at in jeder Zeile. Zeige: (D2), (D3’), (D5) =⇒ (D1). Aufgabe 12.2. Es seien b1 , b2 , . . . , bn ∈ Rn linear unabh¨ angig. Zeige, dass man das alt: Orthogonalsystem b∗1 , b∗2 , . . . , b∗n ∈ Rn wie folgt erh¨ P (b∗j )T bi ∗ b∗1 := b1 und rekursiv f¨ ur i = 2, ..., n: b∗i := bi − i−1 j=1 µi,j bj mit µi,j := kb∗ k2 . j
Zu zeigen:
b∗i
∈ span(b1 , . . . , bi−1
)⊥
und bi −
b∗i
∈ span(b1 , ..., bi ).
Aufgabe 12.3. Zeige mit den Bezeichnungen von Aufgabe 2: a) [b1 , ..., bn ] = [b∗1 , ..., b∗n ] [µi,j ]T . b) µi,j = 0 f¨ ur i < j und µi,i = 1 f¨ ur i = 1, . . . , n. c) b∗i ⊥ b∗j f¨ ur i 6= j. Aufgabe 12.4. Sei σ ∈ Sn und τ eine Nachbartransposition. Zeige, dass f¨ ur die Anzahl der Fehlst¨ ande f (τ σ) = f (σ) ± 1 gilt. Aufgabe 12.5. Zeige, dass f¨ ur σ ∈ Sn folgende Aussagen ¨ aquivalent sind: a) f (σ) ist gerade. b) Sind τ1 , τ2 , . . . , τn Nachbartranspositionen mit σ = τ1 τ2 · · · τn , so ist n gerade. c) σ ist das Produkt einer geraden Anzahl von Nachbartranspositionen. ¨ Hinweis: Benutze Aufgabe 12.4. Zusatz (2 Punkte): Zeige, dass die Aquivalenzen auch gelten, wenn man in b) beliebige Transpositionen τ1 , ..., τn zul¨ aßt.
¨ 15. Ubungsblatt 15
227
¨ 13. Ubungsblatt 13 Aufgabe 13.1. Sei Z = {x ∈ Rn | Ax ≥ b } mit A ∈ Rm×n und b ∈ Rm . Zeige: Zu y ∈ Z sind folgende Aussagen ¨ aquivalent: a) A enth¨ alt n linear unabh¨ angige Zeilen Ai mit Ai y = bi , b) y ist eine Ecke von Z. Aufgabe 13.2. Beweise Satz 12.16 und Satz 12.17 aus der Vorlesung: a) Jedes Polyeder P ⊂ Rn ist disjunkte Vereinigung von endlich vielen Simplizes. b) Jedes Polyeder im Rn ist Durchschnitt von endlich vielen Halbr¨ aumen. Aufgabe 13.3. Zeige: a) F¨ ur beliebige Mengen C1 , . . . , Cm ⊆ Rn gilt: ! ! m m [ [ kon kon(Ci ) = kon Ci . i=1
i=1
Rn
b) Sei K ⊆ konvexe H¨ ulle endlich vieler Punkte. Jeder Punkt p ∈ K ist Konvexkombination von n + 1 der gegebenen Punkte.
¨ 14. Ubungsblatt 14 aff
Aufgabe 14.1. Sei K = K 0 mit der affinen Bijektion φ. Zeige: a) K konvex
⇒
K 0 konvex.
b) φ(E(K)) = E(φ(K)). Aufgabe 14.2. Transformiere das allgemeine LP-Problem mit x, c, ai , ai ∈ Rn min cT x
mit
aTi x = bi f¨ ur i ∈ M ai x ≥ bi f¨ ur i ∈ M xj ≥ 0 f¨ ur j ∈ N
(xj mit j ∈ N sind freie Variable) in die kanonische Form. Zeige, dass die Zul¨ assigkeitsbereiche bei der Transformation affin isomorph bleiben. Gib entsprechende affine Bijektionen an. Aufgabe 14.3. Transformiere das allgemeine LP-Problem von Aufgabe 14.2 in die Standardform. Zeige, dass die Zul¨ assigkeitsbereiche bei der Transformation affin isomorph bleiben. Gib entsprechende affine Bijektionen an.
¨ 15. Ubungsblatt 15 Aufgabe 15.1. Sei M ⊂ Rn ,M 6= ∅. Zeige: k ∈ N, λi ∈ R, Pk Pk a) aff(M ) = . i=1 λi pi pi ∈ M, i=1 λi = 1 o nP k b) cone(M ) = λ p k ∈ N, λ ∈ R , p ∈ M . i i i ≥0 i i=1
¨ B. Ubungsaufgaben
228
Aufgabe 15.2. Sei P ⊆ Rn ein Polyhedron mit E(P ) 6= ∅ und f : Rn → R linear mit inf x∈P f (x) > −∞. Zeige: p ∈ E(P ) ist Minimalstelle von f gdw. es keine Nachbarecke q zu p gibt mit f (q) < f (p) (q ist Nachbarecke zu p, wenn [p, q] Kante von P ist). Beachte auch Sonderf¨ alle, wie E(P ) = {p}. Aufgabe 15.3. Zeige: a) Sind Ci f¨ ur i ∈ I endlich viele, endlich erzeugte Kegel, dann auch
T
Ci .
i∈I
b) Zu A ∈ Rm×n ist {x ∈ Rn | Ax ≤ 0 } ein endlich erzeugter Kegel.
¨ 16. Ubungsblatt 16 Aufgabe 16.1. Zeige: Jedes Polyhedron P = {x ∈ Rn | Ax ≤ b } mit A ∈ Rm×n und b ∈ Rm ist Summe P = Q + C eines Polyeders Q und eines polyhedralen Kegels C. Hinweis: Zeige, es gibt endlich viele λxii ∈ Rn+1 , λi ∈ {0, 1} f¨ ur i = 1, . . . , k, mit x a) λ ∈ Rn+1 Ax − λb ≤ 0, λ ≥ 0 = cone λx11 , . . . , λxkk b) P = kon(xi | λi = 1) + cone(xi | λi = 0).
Aufgabe 16.2. Sei Q ⊆ Rn ein Polyeder und C ⊆ Rn ein endlich erzeugter Kegel. Zeige: Q+C ist Polyhedron. Hinweis: Sei Q := kon(x1 , ..., xk ), C :=cone(y1 , .. . , ym ). Zeige und benutze: x0 ∈ Q + C gdw. x10 ∈ cone x11 , . . . , x1k , y01 , . . . , y0m . Aufgabe 16.3. Beweise den Dualit¨ atssatz f¨ ur die Standardform (Korollar 13.20) LPstd
minimiere cT x,
so dass Ax = b x ≥0
und das zugeh¨ orige duale Programm: LP* std
maximiere bT y,
so dass AT y + s = c s ≥ 0.
¨ 17. Ubungsblatt 17 Aufgabe 17.1. Beweise Satz 13.14 aus der Vorlesung. F¨ ur den Zul¨ assigkeitsbereich Zstd gilt: a) Zwei Ecken p, p0 ∈ E(Zstd ), p 6= p0 , sind genau dann benachbart, d.h. [p, p0 ] ist eine Kante von Zstd , wenn zul¨ assige, benachbarte Basis-Nichtbasis-Partitionen (B, N ), (B 0 , N 0 ) mit p = Φ(B, N ) und p0 = Φ(B 0 , N 0 ) existieren. b) Falls f¨ ur zwei zul¨ assige, benachbarte Basis-Nichtbasis-Partitionen (B, N ) und 0 0 (B , N ) die Basisl¨ osungen Φ(B, N ) und Φ(B 0 , N 0 ) nicht benachbart sind, gilt 0 Φ(B, N ) = Φ(B , N 0 ) und die Ecke ist degeneriert. Aufgabe 17.2. L¨ ose folgendes lineares Programm per Hand mit Hilfe des SimplexTableaus: Minimiere −x1 − 2x2 , so dass −2x1 + x2 −x1 + x2 x1 x1 , x2
≤ 2 ≤ 3 ≤ 3 ≥ 0.
¨ 19. Ubungsblatt 19
229
Zeichne den L¨ osungspolyhedron und markiere die jeweils zum Simplex-Tableau geh¨ orende Basisl¨ osung bzw. Ecke. Aufgabe 17.3. Beweise folgende Variante des Farkas Lemmas (Korollar 12.44). F¨ ur m×n n A∈R , b ∈ R sind folgende Aussagen ¨ aquivalent: a) ∃x : Ax ≤ b. b) ∀y ≥ 0 mit y T A = 0 gilt y T b ≥ 0. Hinweis: Wende Variante I von Farkas’ Lemma (Korollar 12.43 aud Seite 149) an auf A0 := (Im , A, −A).
¨ 18. Ubungsblatt 18 Aufgabe 18.1. Zeige das Trennungslemma f¨ ur Kegel: Zu a1 , . . . , am , b ∈ Rn mit rang(a1 , . . . , am , b) = t sind folgende Aussagen ¨ aquivalent: a) b 6∈ KH(a1 , . . . , am ), b) Es gibt ein c ∈ Rn mit cT b < 0, cT a1 ≥ 0, . . . , cT am ≥ 0 und cT ai = 0 f¨ ur t − 1 linear unabh¨ angige ai . Aufgabe 18.2. Ein Kegel mit Spitze ist ein Kegel mit Ecke 0 und Dimension ≥ 1. Sei fi die Anzahl der Seiten der Dimension i. Zeige: ( d X 1 f¨ ur Polyeder und Kegel ohne Spitze der Dimension ≤ d (−1)i fi = 0 f¨ ur Kegel mit Spitze der Dimension ≤ d. i=0 Benutze die eulersche Polyederformel f¨ ur beliebige Polyeder. P Aufgabe 18.3. Beweise die eulersche Polyederformel di=0 (−1)i fi = 1 f¨ ur beliebige d-Polyeder durch Induktion u ¨ber die Anzahl # E(P ) der Ecken mit Verankerung bei # E(P ) = 1. Hinweis: Seien e1 , e2 benachbarte Ecken und das Polyeder P 0 entstehe P aus P durch Verschmelzen von e1 , e2 . Zeige: di=0 (−1)i (fi − fi0 ) = 0.
¨ 19. Ubungsblatt 19 Aufgabe 19.1. Sei Cn der C-Vektorraum mit dem kanonischen Skalarprodukt h·, ·i. Beweise die Cauchy-Schwarz’sche Ungleichung: | hv, wi | ≤ kvk · kwk Reduziere auf den Fall v, w ∈ C2 mit v ∈ C(1, 0)T . Aufgabe 19.2. Sei C([0, 2π], R) der R-Vektorraum der 2π-periodischen, stetigen Funktionen, √ B := { 21 2} ∪ {cos kx | k ∈ Z \ {0} } ∪ {sin kx | k ∈ Z \ {0} } R 2π und hf, gi := π1 0 f (x)g(x)dx. Zeige: a) B ist eine Orthonormalbasis. n √ P b) F¨ ur f (x) = a20 2 + (ak cos kx + bk sin kx) gilt ak = hf, cos kxi und bk = k=1
hf, sin kxi. Die ak und bk heißen Fourierkoeffizienten von f .
¨ B. Ubungsaufgaben
230
Aufgabe 19.3. Sei f ∈ C([0, 2π], R) mit Fourierkoeffizienten ak , bk wie in Aufgabe 19.2. Zeige die Bessel’sche Ungleichung: ∞
kf k2 ≥
a20 X 2 + (ak + b2k ). 2 k=1
¨ 20. Ubungsblatt 20 Aufgabe 20.1. Zeige das Determinanten-Multiplikation-Theorem (Fakt 14.23) f¨ ur den Fall, dass A = [ei1 , . . . , ein ]>
mit 1 ≤ i1 , . . . , in ≤ m.
Dabei sei ej ∈ Km der j-te Einheitsvektor. Hinweis: [Fischer97, 3.3.7]. Aufgabe 20.2. Sei A ∈ O2 (R) eine orthogonale Matrix. Zeige, dass cos α − sin α cos α sin α A= oder A= sin α cos α sin α − cos α f¨ ur genau ein α ∈ [0, 2π[ und genau einen der beiden F¨ alle. Interpretiere A im ersten Fall als Drehung und im zweiten Fall als Spiegelung an einer Geraden. Aufgabe 20.3. Sei A = (In , a) ∈ Kn×(n×1) mit a ∈ Kn . Zeige det AAT = 1 + aT a. Beweise auch das Determinanten-Multiplikations-Theorem f¨ ur diesen Spezialfall.
¨ 21. Ubungsblatt 21 Aufgabe 21.1. Sei K ein K¨ orper der Charakteristik ungleich 2, d.h. 1 + 1 6= 0. Sei A ∈ Mn,n (K) symmetrisch mit A 6= 0. Zeige: Es gibt ein T ∈ Mn,n (K) mit det T 6= 0, so dass f¨ ur A0 = T T AT gilt a011 6= 0. Vorschlag: (1) Falls a1,1 = 0, vertausche die Zeilen/Spalten von A, so dass a1,2 = a2,1 6= 0. (2) L¨ ose das Problem f¨ ur A0 = (ai,j )1≤i,j≤2 . Aufgabe 21.2. Sei 0 0 A= 1 0
0 1 1 2
1 1 0 0
0 2 ∈ Z4×4 . 3 0 2
Konstruiere T ∈ M4,4 (Z3 ) mit T T AT = D Diagonalmatrix. Aufgabe 21.3 (6 Punkte). Beweise Satz 14.38 auf Seite 185. Zeige: Zu A ∈ On (R) gibt es S ∈ On (R), so dass S T AS Diagonalkastenmatrix ist mit K¨ asten ±1 ∈ R1×1 , cos α − sin α cos α sin α , ∈ R2×2 . sin α cos α sin α − cos α Hinweis: Als Nullstellen von χA kommen in Frage: ±1 und Paare konjugiert komplexer Zahlen λ, λ mit |λ| = 1. Sind z, z ∈ Cn Eigenvektoren zu λ, λ mit z = x + iy, z = x − iy, dann ist hx, yi = 0 und x, y 6= 0. Siehe [Fischer97, 5.5.6].
¨ 22. Ubungsblatt 22
231
¨ 22. Ubungsblatt 22 Aufgabe 22.1. Sei A ∈ Mn,n (C) hermitesch. Zeige: A ist positiv definit gdw. alle Hauptminoren von A positiv sind. Die Hauptminoren von A = (ai,j )i≤i,j≤n sind det(ai,j )1≤i,j≤m f¨ ur m = 1, . . . , n. Hinweis: Wie ver¨ andern sich die Hauptminoren bei der Hauptachsentransformation von Satz 14.24? Aufgabe 22.2. Zeige f¨ ur A ∈ Mn,n (C): Pn P i a) χA = i=0 ci λ gdw. χA = ni=0 ci λi .
b) Ist A hermitesch, dann ist χA ∈ R[λ].
Aufgabe 22.3. A ∈ Cn×n heißt anti-hermitesch, wenn AT = −A. Zeige: a) Ist A anti-hermitesch, dann auch T T AT . b) Ist A anti-hermitesch, dann gibt es ein T ∈ GLn (C), so dass in T T AT h¨ ochstens zwei Nebendiagonalen ungleich null sind.
Literaturverzeichnis
[AC78]
´tal: Notes on Bland’s Pivoting Rule, Mathematical ProgramD. Avis und V. Chva ming Study, Band 8, Seiten 23–34, 1978.
[Beu98]
A. Beutelspacher: Lineare Algebra, Vieweg, Braunschweig/Wiesbaden, dritte Auflage, 1998.
[Bland77]
R.G. Bland: New finite Pivoting Rules for the Simplex Method, Mathematics Operation Research, Band 2, Seiten 103–107,1977.
[Cassels71]
J.W.S. Cassels: An Introduction to the Geometry of Numbers, Springer-Verlag, Berlin/Heidelberg, 1971.
[CS93]
J.H. Conway und N.J.A. Sloane: Sphere Packings, Lattices and Groups, Springer, New York, zweite Auflage, 1993.
[CJLOSS92]
M.J. Coster, A. Joux, B.A. LaMacchina, A.M. Odlyzko, C.P. Schnorr und J. Stern: An improved low-density Subset Sum Algorithm, Computational Complexity, Band 2, Seiten 111–128, 1982.
[Dantzig51]
G.B. Dantzig: Maximization of a Linear Function of Variables Subject to Linear Inequalities, in T. Koopmans (Hrsg): Activity Analysis of Production and Allocation, Seiten 339–347, John-Wiley & Sons, New York, 1951.
[Dantzig66]
G.B. Dantzig: Lineare Programmierung und Erweiterungen, Springer-Verlag, Berlin/Heidelberg, 1966.
[Dantzig83]
G.B. Dantzig: Reminiscences About the Origins of Linear Programming, in A. Bachem, M. Gr¨ otschel und B. Korte (Hrsg.): Mathematical Programming: The State of of Art, Springer-Verlag, Berlin/Heidelberg, 1983.
[Fischer92]
G. Fischer: Analytische Geometrie, Vieweg Studium — Grundkurs Mathematik, Vieweg Verlag, Wiesbaden, 1992.
[Fischer97]
G. Fischer: Lineare Algebra, Vieweg, Braunschweig/Wiesbaden, 11.te Auflage, 1997.
[Forster92]
O. Forster: Analysis 1, Vieweg, Braunschweig/Wiesbaden, vierte Auflage, 1992.
[FS78]
G. Fischer und R. Sacher: Einf¨ uhrung in die Algebra, Teubner, Stuttgart, zweite Auflage, 1978.
[G86]
F.R. Gantmacher: Matrizentheorie, Springer, Berlin/Heidelberg, , 1986.
[GL96]
G. H. Golub und C. F. van Loan: Matrix Computations, John Hopkins University Press, Baltimore und London, dritte Auflage, 1996.
[J¨ anrich96]
K. J¨ anich: Lineare Algebra, Springer, Berlin/Heidelberg, sechste Auflage, 1996.
[Karloff91]
H. Karloff: Linear Programming, Progress in Theoretical Computer Science, Birkh¨ auser, Boston, 1991.
233
234
Literaturverzeichnis
[Ka84]
N.K. Karmakar: A new Polynomial-Time Algorithm for Linear Programming, Combinatorica, Band 4, Seiten 373-395, 1984.
[Kh79]
L.G. Khachiyan: A Polynomial-Time Algorithm for Linear Programming, Doklady ¨ Akademiia Nauk USSR, Band 244, Seiten 1093–1096, 1979. Englische Ubersetzung in Soviet Mathematics Doklady, Band 20, Seiten 191–194, 1980.
[KM72]
V. Klee und G.J. Minty: How good is the Simplex Algorithms?, in O. Sisha (Hrsg.): Inequalities, Band III, Academic Press, New York, Seiten 159–175, 1972.
[Koe83]
M. Koecher: Lineare lin/Heidelberg, 1983.
[LaOd85]
J.C. Lagarias und A.M. Odlyzko : Solving low-density Subset Sum Problems, Journal of ACM, Band 32, Nr. 1, Seiten 229–246, 1985. ´sz: Factoring Polynomials with Rational A.K. Lenstra, H.W. Lenstra und L. Lova Coefficients, Springer Mathematische Annalen, Band 261, Seiten 515–534, 1982.
[LLL82]
Algebra
und
analytische
Geometrie,
Springer,
Ber-
[Lint98]
J.H. van Lint: Introduction to Coding Theory, Springer, New York, dritte Auflage, 1998.
[MS86]
F. J. MacWilliams und N.J.A. Sloane: The Theory of Error Correcting Codes. North-Holland, Amsterdam, f¨ unfte Auflage, 1986.
[PS82]
C.H. Papadimitriou und K. Steiglitz: Combinatorical Optimization: Algorithms and Complexity, Prentice-Hall, Eaglewood Cliffs, New Jersey, 1982.
[S86]
A. Schrijver: Theory of Linear and Integer Programming, Wiley-Interscience Series in discrete Mathematics and Optimization, John Wiley & Son, New York, 1986.
[V97]
R.J. Vanderbei: Linear Programming: Foundations and Extensions, Kluwer Academic Press, Bosten, 1997.
[W96]
J. Wolfart: Einf¨ uhrung in die Zahlentheorie und Algebra. Vieweg, Braunschweig/Wiesbaden, 1996.
Index
Abbildung Homomorphismus, 23 lineare, 63 Abel, Niels Hendrik, 21 Abstand, 118 Adjunkte, 101 affin -er Halbraum, 135 -e H¨ ulle, 135 isomorph, 140 unabh¨ angig, 135 -er Untervektorraum, 31 Dimension, 135 Gerade, 31 parallel, 31 alternierende Gruppe, 97 Annulator, 175 ¨ Aquivalenzrelation, 28 Codes, 79 Matrizen, 105 Assoziativit¨ at, 13 Ausartungsraum, siehe Nullraum Austauschsatz von Steinitz, 38 Automorphismus, 24 komplexe Zahlen, 25 Basis, 34 Darstellung, 35 -erg¨ anzungssatz, 38 Gitter-, 76, 201 Isomorphismus, 35 -l¨ osung, 157 benachbarte Ecke, 161 -matrix, 77, 202 Orthogonal-, 125 Orthonormal-, 125 Standard-, 34 -variable, 157 -wechsel, 68 Basis-Nichtbasis-Partition, 157
zul¨ assige, 157 Begleitmatrix, 114 benachbarte Ecke, 161 Bessel’sche Ungleichung, 230 Betragsnorm, 117 Big-M-Simplex-Algorithmus, 163 Bild, 64 Bilinearform, 176 degeneriert, 183 indefinit, 183 negativ definit, 183 Nullraum, 183 positiv definit, 176 Rang, 177 Zerlegung Vektorraum, 190 Binomialkoeffizient, 151 BNP, siehe Basis-Nichtbasis-Partition C, siehe komplexe Zahlen Cardano, Geronimo, 16 Cauchy-Schwarz-Ungleichung, 118, 123, 179 Charakteristik, 191 charakteristisches Polynom, 110, 111 Chinesischer Restsatz, 88 Cone, siehe Kegel Cosinussatz, 125 Cramer’sche Regel, 102 Cycling, 162 Dantzig, Georg, 154 Darstellungsmatrix, 68 Transformationsformel, 68, 177 Definitheit, positive, 117, 176, 177 Degeneration, 158 Bilinearform, 183 Simplex-Tableau, 168 ´, 4 Descartes, Rene Determinante, 95 Berechnung, 95 Diagonalmatrix, 95 Eindeutigkeit, 94
236
Entwicklungssatz von Laplace, 100 -nfunktion, 92 Gitter-, 202 Leibnizformel, 97 Multilinearitat, 93 Multiplikationstheorem, 180 Multiplikativit¨ at, 103 transponierte Matrix, 99 diagonalisierbare Matrix, 106 Dimension -sformel lineare Abbildung, 64 -ssatz, 39 Vektorraum, 37 Diophantische Approximation, 207 direkte Summe externe, 85 innere, 85 direktes Produkt, 85, 88 diskret, 201 Distanz, 118 Division mit Rest, 26, 48 Divisionsring, siehe Schiefk¨ orper Dreiecksmatrix, 11 Dreiecksungleichung, 117 dual -e Basis, 174 -er Code, 78 -er Kegel, 146 -es Programm, 169 -er Vektorraum, 173, 174 Dualit¨ at schwache, 170 starke, 170, 171 Vektorraum, 173 Ecke benachbarte, 161 degeneriert, 158 Polyhedron, 139 Eigenraum, 108 Eigenvektor, 106 Eigenwert, 106 Vielfachheit, 112 Eindeutigkeit Einselement, 14, 22 Inverses, 14, 22 Nullelement, 14 Einheit, siehe Einselement Einheitengruppe, 22 Einheits -matrix, 10 -vektor, 33 Einselement, 13 Einsetzungshomomorphismus, 47 Elementarmatrix, 10
Index
Eliminationsverfahren, siehe Gauß-Algo. Endomorphismus, 24 Hauptachsentheorem, 186 orthogonaler, 184 selbstadjungiert, 186 unit¨ arer, 184 Epimorphismus, 24 Erzeugendensystem, 33 minimales, 34 erzeugendes Element, siehe Generator Erzeugnis, siehe lineare H¨ ulle Euklid, 18 euklidische L¨ ange, 89 Norm, 117 -r Vektorraum, 122, 179 Euler, Leonhard, 17 Extremalpunkt, 136 Faktorring, 26, 50 Faltung, 44 Fehlstand, 96 Fl¨ ache Polyhedron, 139 Fourierkoeffizient, 229 Fq , 16 freie Variable, 153 Frobenius-Homomorphismus, 192 Frobenius-Norm, 119 Fundamentalsatz der Algebra, 52 Funktion konkave, 143 konvexe, 142 Galois, Evariste, 16 Galoisfeld, 16 Gauß, Carl Friedrich, 4, 18, 52 Gauß-Algorithmus, 3 Gauß’sche Zahlenebene, 17 Generator Gruppe, 198 -matrix, 77 Generatormatrix kanonische, 79 Gerade, 31 Halb-, 141 Gitter, 76, 201 -basis, 76, 201 Basismatrix, 202 -determinante, 202 Grundmasche, 203 Rang, 201 gitterartige Kugelpackung, 76 GLn , 22, 128 Grad Polynom, 42
Index
Gram-Matrix, 202 Gram-Schmidt-Koeffizient, 126 Grundmasche, 203 Gruppe, 21 abelsche, 21 alternierende, 97 Generator, 198 Homomorphismus, 23 kommutative, 21 Ordnung eines Elementes, 198 orthogonale Matrizen, 128 primitives Element, 198 symmetrische, 96 Unter-, 23 zyklisch, 198 Halbgerade, 141 Halbgruppe, 21 Homomorphismus, 24 Halbraum, 135 Hamilton, William Rowan, 20 Hamming -Code, 80 -Distanz, 72 -Gewicht, 72 -Radius, 73 Hamming, Richard W., 72, 80 Hauptachsentheorem, 186 Hauptachsentrandformation symmetrische Matrizen, 181 Hauptminor, 231 hermitesch -Form positiv definit, 178 -e Form, 178 -e Matrix, 178 hermitesche anti-, 231 H¨ older’sche Ungleichung, 118 Homogenit¨ at positive, 117 Homomorphieprinzip, 24 Homomorphismus, 23 Bild, 24 Frobenius-, 192 Gruppen-, 23 Halbgruppen-, 24 Kern, 24 K¨ orper, 24 Monoid-, 24 Ring-, 24 Hyperebene, 31 imagin¨ are Einheit, 17 Imagin¨ arteil, 17 indefinit
237
Bilinearform, 183 Injektion, 86 Integrit¨ atsbereich, siehe Intergrit¨ atsring Intergrit¨ atsring, 19 Interpolationspolynom, 55 Lagrange’sche Form, 56 Interpolationsproblem, 55 Inverses, 13 irreduzibles Polynom, 195 Isometrie, siehe orthog. Endomorhismus isometrische Abbildung, 127, 184 isomorph, 25 affin, 140 Isomorphismus, 24 affiner, 140 Iwasawa-Zerlegung, 129 Jordan-K¨ astchen, 106, 113 Jordan-Normalform, 116 kanonische Form, 154 duales Programm, 169 Kante Polyhedron, 139 Kantorvicz, L.V., 154 kartesisch -e Koordinaten, 4 -es Produkt, 85 K¨ astchensatz, 104 Kegel, 145 dualer, 146 endlich erzeugter, 146 Kepler, Johannes, 77 Kern, 64 Kodierungstheorie, 71 Koeffizient, 3 Kommutativit¨ at, 13 komplement¨ are Matrix, 101 komplement¨ are Slackness, 171 komplexe Konjugation, 25 komplexe Zahlen, 16 im¨ aginare Einheit, 17 Imagin¨ arteil, 17 Polarkoordinaten, 17 Realteil, 17 komplexer Vektorraum, 178 Skalarprodukt, 178 Komposition, 22 kongruent, 28 konjugiert komplexe Zahl, 25 konkave Funktion, 143 Kontrollmatrix, siehe PCH-Matrix Konvergenz quadratische, 121 konvexe Funktion, 142
238
H¨ ulle, 133 Menge, 133 Extremalpunkt, 136 Konvexkombination, 133 Konvolution, 44 Koopmans, T.C., 154 Koordinaten -funktion, 68 Koordinatenvektor, 35 K¨ orper, 13, 22 angeordnet, 15 Charakteristik, 191 endlicher, 16 -Homomorphismus, 24 komplexe Zahlen, 16 Prim-, 193 Unter-, 19 Zerf¨ allungs-, 196 Kostenfunktion, siehe Zielfunktion Kreisen, 162 Kronecker-Symbol, 10 Kugel, 73, 119 Lagarias, J.C., 209 Lagrange-Koeffizient, 57 Laplace’scher Entwicklungssatz, 100 Laplace, Pierre Simon, 100 Leibniz, Gottfried Wilhelm, 97 LGS, siehe lineares Gleichungssystem Dimension homogener, 62 linear abh¨ angig, 33 linear unabh¨ angig, 33 lineare Abbildung, 63 Basiswechsel, 68 charakteristisches Polynom, 111 Darstellungsmatrix, 68 Dimensionsformel, 64 Eigenvektor, 106 Eigenwert, 106 isometrische, 127, 184 orthogonale, 127, 184 Projektion, 84 Rang, 65 Vektorraum, 63 lineare Gleichung, 3 lineare H¨ ulle, 32 linearer Code, 71, 72 aquivalenter, 79 ¨ Basismatrix, 77 bin¨ arer, 72 Dekodierung, 72 dualer Code, 78 t-fehlererkennend, 73 t-fehlerkorrigierend, 73 Generatormatrix, 77 guter, 74
Index
Hamming-Code, 80 Hamming-Distanz, 72 Hamming-Gewicht, 72 Informationsbits, 74 Informationsrate, 74 Korrekturbits, 74 Korrekturrate, 74 Minimalabstand, 72 Minimalgewicht, 73 Parit¨ atscode, 75 PCH-Matrix, 79 Singleton-Schranke, 225 t-perfekter, 76 linearer Raum, siehe Vektorraum lineares Gleichungssystem L¨ osungsmenge, 4 lineares Gleichungssystem, 3 Cramer’sche Regel, 102 Gauß-Algorithmus, 3 homogenes, 8 Treppenform, 5 Vektorraum, 32 lineares Programm duales, 169 kanonische Form, 154 Optimalit¨ atskriterium, 160 Standardform, 155 widerspr¨ uchliches, 155 zul¨ assiges, 155 Linearform, 174 Linearkombination, 32 LosungsmengeL¨ osungsmenge lineares Gleichungssystem, 4 lineares Programm, 155 Manigfaltigkeit, 175 Matrix, 3 Adjunkte, 101 ahnliche, 105 ¨ anti-hermitesch, 231 ¨ Aquivalenzrelation, 105, 189 Begleit-, 114 blockdiagonale, 114 charakteristisches Polynom, 110 Darstellungsmatrix, 68 Determinante, 95 diagonalisierbar, 106 Dreiecks-, 11 Eigenvektor, 106 Eigenwert, 106 Einheits-, 10 Elementar-, 10 erweiterte, 4 Gruppen, 128 hermitesche, 178 invertieren, 38, 95, 101
Index
Iwasawa-Zerlegung, 129 Jordan-Normalform, 116 komplement¨ are Matrix, 101 kongruente, 189 Minor, 101 -norm, 119 Submultiplikativit¨ at, 120 Normalform, 114 orthogonale, 127, 184 Permutations-, 12 positiv definit, 177, 178 Produkt, 9 Rang, 60 Spaltenrang, 59 Spaltenraum, 59 Streichungs-, 100 symmetrische Hauptachsentransformation, 181 Tr¨ agheitsindex, 189 transponierte, 220 Treppenform, 5 unit¨ are, 184 Vandermonde-Matrix, 56, 101 Zeilenrang, 59 Zeilenraum, 59 Maximum-Likelihood-Dekodierung, 72 Maximumsnorm, 117 Mehrdeutigkeit Simplex-Tableau, 168 Metrik, 118 Minimal -abstand, 72 -Distanz-Dekodierung, 72 -gewicht, 73 Minimalestelle lokale, 142 Minkowski, Hermann, 137 Minor, 101 modulo, 26 Monoid, 21 Homomorphismus, 24 Monom, 41 Monomorphismus, 24 multilineare Funktion, 93 Nachbartransposition, 96 negativ definit Bilinearform, 183 von Neumann, John, 169 Nichtbasisvariable, 157 Nichtnegativit¨ atsbedingung, 153 Norm, 117 ¨ Aquivalenz, 118 Betrags-, 117 Euklidische, 117 Frobenius-, 119
239
Matrix-, 119 Maximums-, 117 Normalform, 114 Jordan-, 116 selbstadjungierter Endomorphismus, 186 Nullelement, 13 Nullpolynom, 41 Nullraum Bilinearform, 183 Nullstelle, 51 Nullstellenmenge, 175 Nullteiler, 14 Odlyzko, A.M., 209 Orthogonal -basis, 125 -es Komplement, 125 -raum, 78, 83 -vektoren, 90 orthogonal -e Abbildung, 127, 184 -er Endomorhismus, 184 -e Gruppe, 128 -es Komplement, 83 -e Matrix, 127, 184 -e Projektion, 84 Orthogonalisierung Gram-Schmidt-Koeffizient, 126 Schmidt’sches Verfahren, 126 Orthogonalit¨ at, 78, 125 Orthonormal -basis, 125 -system, 125 Packungsdichte, 76 parallel, 31 Parallelepiped, 90 Parallelflach, siehe Parallelepiped Parallelogrammgleichung, 125 Parallelotop, siehe Parallelepiped PCH-Matrix, 79 kanonische, 79 Permutation, 95, 96 alternierende Gruppe, 97 Fehlstand, 96 gerade, 97 -smatrix, 12 Nachbartransposition, 96 Signum, 97 symmetrische Gruppe, 96 Transposition, 96 ungerade, 97 Pivot-Regel, 161 Best-Improvement-Regel, 161 Blands, 162 Nonbasic-Gradient-Methode, 161
240
Pivot-Wahl, 161 Pivotelement, 7 Polarkoordinaten, 17 Polyeder -formel, 150 konvexer, 135 Polygon, 135 Polyhedral, 145 Polyhedron, 135 Dimension, 135 Ecke, 136, 139 Fl¨ ache, 139 Kante, 139 Seite, 138 Polynom, 41 Begleitmatrix, 114 charakteristisches, 110 Division mit Rest, 48 Einsetzungshomomorphismus, 47 Faktorring, 50 f¨ uhrender Koeffizient, 42 Gleichheit, 42 Gradformel, 45 -ideal, 175 Interpolations-, 55 irreduzibles, 195 Koeffizientenvektor, 43 konstantes, 42 Lagrange-Koeffizient, 57 Linearfaktor, 51 normiertes, 42, 114 Null-, 41 Nullstelle, 51 Produkt, 44 -Ring, 46 Skalarmultiplikation, 43 Summe, 43 -vektorraum, 44 Wurzel, 51 Zerfall in Linearfaktoren, 52 Polytope, 135 positiv definit Bilinearform, 176 hermitesche Form, 178 Matrix, 177, 178 Primk¨ orper, 193 Projektion, 84 Pr¨ ufmatrix, siehe PCH-Matrix quadratische Form, 179 Quaternionen-Schiefk¨ orper, 20 Radikalideal, 175 Rang, 60 Bilinearform, 177 Gitter, 201
Index
linearen Abbildung, 65 Realteil, 17 Repr¨ asentant Restklasse, 26 Rest, 26, 48 Restklasse, 26 Repr¨ asentant, 26 Richtungsraum, 31, 135 Ring, 19, 23 -Homomorphismus, 24 Intergrit¨ ats-, 19 kommutativer, 19 mit Eins, 19 nullteilerfrei, 19 Polynom-, 46 Unter-, 20 Rucksack-Problem, 208 Ruffini, 51 Satz Cayley-Hamilton, 116 Fundamentalsatz der Algebra, 52 Ruffini, 51 Tr¨ agheits-, 189 Schattenpreis, 160 Schiefk¨ orper, 20 Quaternionen-, 20 Schlupfvariable, 155 Schmidt-Orthogonalisierungsverfahren, 126 Seite Polyhedron, 138 selbstadjungierter Endomorphismus, 186 Hauptachsentheorem, 186 Sesquilinearform, 178 Signum, 97 Simplex, 135 Simplex-Algorithmus Big-M-, 163 Tableau, 164 Simplex-Tableau Kurzform, 168 Singleton-Schranke, 225 Skalarprodukt, 122, 176 kanonisches, 122, 178 komplexer Vektorraum, 178 Slack-Variable, 155 Spann, siehe lineare H¨ ulle Standardform, 155 Streichungsmatrix, 100 St¨ utzebene, 138, 145 Submultiplikativit¨ at Matrixnorm, 120 Subsetsum-Problem, siehe Rucksack-Problem Sylvester Tr¨ agheitssatz, 189 symmetrische Gruppe, 96
Index
Tr¨ agheitsindex, 189 Tr¨ agheitssatz, 189 Transformationsformel Darstellungsmatrizen, 68, 177 transponierte Matrix, 220 Transposition, 96 Trennungslemma, 144 Treppenform, 5 Unbestimmte, 3, 41 Ungleichung Bessel’sche, 230 Cauchy-Schwarzsche, 118, 123, 179 Dreiecks-, 117 H¨ older’sche, 118 unit¨ ar -e Abbildung, 184 -e Endomorhismus, 184 -e Matrix, 184 -er Vektorraum, 179 Unter -k¨ orper, 19 -vektorraum, 31 affiner, 31, 135 Vandermonde-Matrix, 56, 101 Variable freie, 6 gebundene, 6 Variablen-Splitting, 153 Vektor, 4 Einheitsvektor, 33 L¨ ange, 89 -norm, 117 orthogonal, 125 Spalten-, 4 Zeilen, 4 Vektorraum, 29 Basis, 34 Dimension, 37 dualer, 173 Erzeugendensystem, 33 euklidischer, 122, 179 komplexer, 178 lineare Abbildung, 63 Metrik, 118 Norm, 117 Orthogonalbasis, 125 Orthogonalraum, 78, 83 Orthonormalbasis, 125 Polynom-, 44 Skalarprodukt, 122 unit¨ arer, 179 Unter-, 31 Verbindungsstrecke, 133 Vielfachheit
241
Eigenwert, 112 Nullstelle, 51 Volumen, 91 widerspr¨ uchliches lineares Programm, 155 Winkel, 124 wohldefiniert, 27 Zerf¨ allungsk¨ orper, 196 Zielfunktion, 153 relative, 159 Zn , 26 zul¨ assiges lineares Programm, 155 Zwei-Phasen-Simplex-Algorithmus, 162 zyklische Gruppe, 198