Simone Secchi
Elementi di algebra lineare con applicazioni alle equazioni differenziali lineari 18 marzo 2010
Universi...
71 downloads
1152 Views
481KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Simone Secchi
Elementi di algebra lineare con applicazioni alle equazioni differenziali lineari 18 marzo 2010
Universit`a degli Studi di Milano–Bicocca
Prefazione
Nell’anno 2009-2010, l’Universit`a degli studi di Milano–Bicocca ha attivato un nuovo insegnamento di Matematica Applicata per la laurea magistrale in bioinformatica. L’esigenza nasce da un dato sperimentale: il primo e unico corso di matematica (basato sul calcolo differenziale ed integrale) non sembra sufficiente a fornire gli strumenti per la comprensione e l’uso dei modelli delle biotecnologie e della bioinformatica. In particolare, gli studenti erano privi delle pi`u elementari nozioni di calcolo vettoriale e matriciale, cio`e proprio di quelle tecniche che appaiono in tutte le approssimazioni discrete dei modelli (teorici) continui. Nessuno scienziato applicato pu`o ignorare che cosa sia un vettore (si pensi al concetto di velocit`a in Fisica) o una matrice (la risoluzione di un sistema di equazioni lineari e` fondamentale per interpretare i dati sperimentali e fare delle previsioni sensate). La prima parte del nuovo corso consiste allora in una presentazione relativamente concreta della teoria degli spazi vettoriali e degli operatori lineari, ovviamente in dimensione finita, poich´e la teoria in dimensione infinita pertiene piuttosto all’Analisi Funzionale. Le dispense che state per leggere e/o studiare sono un tentativo — senz’altro perfettibile — di descrivere le principali propriet`a degli spazi di vettori e del calcolo con le matrici. Ho cercato di presentare tutte le dimostrazioni (tranne quelle estremamente intricate oppure basate sull’assioma della scelta, ad esempio l’esistenza di una base per ogni spazio vettoriale), consapevole che la maggioranza degli studenti avr`a bisogno di apprendere alcune tecniche di calcolo, piuttosto che di imparare una miriade di teoremi e proposizioni astratte. L’Algebra Lineare e` una materia a doppia faccia: da una parte si pu`o insegnarla (ed impararla) senza troppa sofferenza, come se fosse un ricettario di metodi per fare opportuni calcoli. Dall’altra, si presta ad una presentazione estremamente astratta, che piace molto ai matematici; costoro ritengono spesso che una matrice sia solo un collegamento fra il mondo reale e l’iperspazio degli operatori lineari fra spazi vettoriali (o addirittura fra moduli), e che il calcolo matriciale andrebbe relegato ad un’appendice “per spiriti semplici”. Basta fare una passeggiata in una biblioteca universitaria per constatare che i manuali di puro e semplice calcolo con le matrici risalgono a parecchi decenni orsono. Abbondano, al contrario, i moderni testi di algebra lineare, che spesso sono
v
vi
Prefazione
presentati come capitoli scelti dell’algebra astratta. Il punto e` , a mio avviso, che uno studente di matematica pu`o tradurre nel linguaggio delle matrici tutto ci`o che ha studiato in modo astratto, mentre uno studente di discipline scientifiche applicate non ne e` capace. Speriamo che lo studente riesca ad utilizzare con profitto queste brevi note, che sono completate da un capitolo di applicazioni alle equazioni differenziali lineari. Anche qui sono poche le nozioni rigorose di teoria, che lasciano spazio all’interpretazione elegante nel linguaggio del calcolo vettoriale. Lo studente vedr`a che molte delle tecniche apprese “di corsa” alla fine del primo corso di matematica sui metodi risolutivi per le equazioni differenziali lineari possono essere ricavate agevolmente dalla riscrittura di queste equazioni in termini di vettori e matrici. In particolare, il metodo di variazione delle costanti arbitrarie, sempre un po’ misterioso in una prima lettura, dovrebbe ricevere una nuova luce ed un’interpretazione finalmente unitaria. E` difficile segnalare un testo di riferimento preciso per il corso.1 Chi scrive ha studiato l’algebra lineare su [3], un libro pensato per gli studenti di Matematica e Fisica, ormai quasi introvabile. Per anni l’ho considerato una delle fonti migliori per l’apprendimento ragionato e conciso della teoria degli spazi vettoriali. Quando mi sono trovato di fronte a studenti meno “stoici” dei matematici, ho notato che l’eleganza di quell’espposizione stringata pu`o risultare ostica. Il testo di Serge Lang [6] e` un classico della matematica contemporanea, e contiene abbondantemente tutto ci`o che occorre sapere di vettori e matrici. Molte parti di queste dispense sono pi`u o meno direttamente ispirate a [6]. Un altro gioiello della letteratura specializzata e` [5]. Sfortunatamente non e` mai stato tradotto in italiano, e anch’esso e` di difficile reperibilit`a. Si potrebbe dire, un po’ scherzosamente, che quello di Halmos e` il “Rudin”2 dell’algebra lineare: essenziale, completo e riservato agli studenti pi`u intraprendenti. Ad un livello ancora superiore si colloca [4], un classico mai del tutto amato. Lo stile di questo libro e` terribilmente astratto, e molti studenti faticherebbero a capire che sempre di algebra lineare si sta parlando. L’ho citato solo per dar modo allo studente di gettare uno sguardo sul livello di astrazione che anche la disciplina matematica pi`u intuitiva e diffusa pu`o raggiungere. Infine, molti dei libri di matematica generale per la laurea 3+2 contengono uno o pi`u capitoli di calcolo vettoriale e matriciale. Trattandosi di testi di ampio respiro, i contenuti sono ridotti all’osso e infarciti di esempi ed esercizi. Molti studenti potrebbero preferire questo approccio “hands on”, e mi piace segnalare [1]. I due capitoli dedicati all’algebra lineare sembrano pensati per uno studio veloce, ma contengono in realt`a una miriade di informazioni teoriche. Infine, un testo molto universitario, ritagliato sulle esigenze dei corsi di ingegneria e scienza, e` [2]. Oltre all’algebra lineare, sono contenuti dei capitoli di analisi matematica avanzata (funzioni di due variabili, calcolo differenziale ed integrale in pi`u dimensioni, analisi vettoriale) e di teoria delle equazioni differenziali. Avvertiamo che, in alcuni punti, la notazione di [2] differisce sensibilmente da quella adottata nelle nostre note. Ad esempio, 1 2
Se esistesse, avrei fatto la fatica di scrivere queste note? Mi riferisco a W. Rudin, Analisi matematica, McGraw–Hill.
Prefazione
vii
accade frequentemente che i vettori siano pensati come righe invece che come colonne, e questa convenzione va seguita scupolosamente per evitare malintesi in molti teoremi. Noi scriveremo sempre (o quasi) i vettori in colonna. Queste lezioni sono state scritte dall’autore con il programma di scrittura LATEX su piattaforma Apple Mac OS 10.5. Simone Secchi Ottobre 2009
Indice dei contenuti
1
Algebra lineare: terapia d’urto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Prologo: la dimostrazione per induzione . . . . . . . . . . . . . . . . . . . . . . . . 1.2 I numeri complessi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Gli spazi vettoriali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Combinazioni lineari, generatori e basi . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Somme dirette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Applicazioni lineari fra spazi vettoriali . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Lo spazio duale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.8 Principio di sovrapposizione per i sistemi lineari di equazioni . . . . . . 1.9 Realizzazione concreta di uno spazio vettoriale di dimensione finita 1.10 Spazi con prodotto scalare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.11 Basi ortonormali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 1 2 6 9 14 15 17 20 21 22 25
2
Matrici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Applicazioni lineari e loro matrici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Il determinante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Approfondimento: il determinante come funzione delle colonne . . . . 2.4 La regola di Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 La formula di Binet e l’invertibilit`a delle matrici . . . . . . . . . . . . . . . . . 2.6 Operazioni elementari sulle matrici . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29 32 36 40 42 44 45
3
Autovalori ed autovettori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Spazi vettoriali complessi, senza troppa sofferenza . . . . . . . . . . . . . . . 3.2 Autovalori ed autovettori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Riduzione in forma triangolare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Applicazioni lineari autoaggiunte e matrici simmetriche . . . . . . . . . .
53 53 55 60 62
4
Forme bilineari e quadratiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.1 Diagonalizzazione delle forme bilineari simmetriche . . . . . . . . . . . . . 67 4.2 Diagonalizzazione mediante operazioni elementari . . . . . . . . . . . . . . . 69
ix
x
5
Indice dei contenuti
Equazioni differenziali ordinarie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Equazioni del primo ordine a variabili separabili . . . . . . . . . . . . . . . . . 5.2 Equazioni differenziali lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Il metodo di variazione delle costanti . . . . . . . . . . . . . . . . . . . . . . . . . . Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71 73 75 85 89
Capitolo 1
Algebra lineare: terapia d’urto
La prima parte del nostro corso consiste in una rapida e succinta introduzione a quel ramo della matematica che studia i vettori e le matrici: l’algebra lineare. Ovviamente non presenteremo una teoria matematica del tutto rigorosa, dato il carattere applicato del corso. Ci sforzeremo, tuttavia, di raccogliere i fatti principali in una forma concettualmente onesta, senza imbrogliare. Qualunque buon testo di Algebra Lineare espone gli argomenti di questo primo capitolo.
1.1 Prologo: la dimostrazione per induzione L’algebra lineare e` una disciplina in cui la tecnica della dimostrazione per induzione e` particolarmente efficace. Supponiamo di avere una successione P(1), P(2), . . . , P(n), . . . di proposizioni logiche, dipendenti da una variabile naturale n ∈ N. Allora vale il seguente teorema.
Teorema 1.1 (Principio di induzione). Se le due condizioni seguenti sono soddisfatte, 1. P(1) e` vera; 2. se P(n − 1) e` vera, allora anche P(n) e` vera, allora P(n) e` vera per qualunque n ≥ 1.
A volte capita di applicare l’induzione in una forma leggermente pi`u generale.
Teorema 1.2 (Principio di induzione, seconda forma). Se le due condizioni seguenti sono soddisfatte,
1
2
1 Algebra lineare: terapia d’urto
1. P(1) e` vera; 2. se P(m) e` vera per ogni m < n, allora anche P(n) e` vera, allora P(n) e` vera per qualunque n ≥ 1.
Avremo svariate occasioni di utilizzare il metodo di dimostrazione per induzione. Osservazione 1.1. La dimostrazione per induzione e` spesso mascherata sotto la dicitura di dimostrazione per ricorrenza. Quando fatta bene, una dimostrazione per ricorrenza e` assolutamente equivalente ad una dimostrazione formale per induzione. Purtroppo, molte dimostrazioni per ricorrenza si limitano a fare i primi due o tre casi, per poi sostenere che il caso generale si ottiene per ricorrenza! Chiaramente questo comportamento e` sospetto...
1.2 I numeri complessi Che c’entrano i numeri complessi con l’algebra lineare? C’entrano, eccome! Quando parleremo di autovalori e di polinomi caratteristici, l’uso dei numeri complessi sar`a inevitabile. Comunque, la faremo breve. Definizione 1.1. I numeri complessi sono un insieme C di oggetti che possono essere sommati e moltiplicati; somme e prodotti di numeri complessi sono ancora numeri complessi, e inoltre sono soddisfatte le seguenti condizioni: • ogni numero reale e` un numero complesso, e se α, β sono numeri reali, la loro somma e il loro prodotto come numeri reali coincidono, rispettivamente, con la somma e il prodotto come numeri complessi. • Esiste un numero complesso i tale che i2 = −1.1 Questo numero si chiama unit`a immaginaria. • Ogni numero complesso pu`o essere scritto, in modo unico, come a + bi, a e b essendo numeri reali. • Le usuali propriet`a aritmetiche dell’addizione e della moltiplicazione continuano a valere. Ne diamo l’elenco qui di seguito. 1. Se α, β e γ sono numeri complessi, allora (αβ )γ = α(β γ),
(α + β ) + γ = α + (β + γ).
2. Si ha α(β + γ) = αβ + αγ e (β + γ)α = β α + γα. 3. Si ha αβ = β α e α + β = β + α. 4. Se 1 e` il numero reale “uno”, allora 1α = α. 5. Se 0 e` il numero reale “zero”, allora 0α = 0. 1
Capita, raramente, di trovare la lettera j al posto di i, per denotare l’unit`a immaginaria.
1.2 I numeri complessi
3
6. Si ha infine α + (−1)α = 0. Ad ogni numero complesso a + bi possiamo associare il punto del piano cartesiano di coordinate (a, b). La somma di due numero complessi z1 = a1 + b1 i e z2 = a2 + b2 i si effettua “componente per componente”, cio`e z1 + z2 = a1 + a2 + (b1 + b2 )i. La moltiplicazione si effettua utilizzando la propriet`a distributiva e il fatto che i2 = −1: z1 z2 = (a1 + b1 i)(a2 + b2 i) = a1 a2 + a1 b2 i + a2 b1 i + b1 b2 i2 = a1 a2 − b1 b2 + (a1 b2 + a2 b1 )i. Osservazione 1.2. Nei testi didattici, un numero complesso e` definito come a + bi, dove a e b sono due numeri reali. Poich´e i non e` un numero reale,2 il segno + non pu`o essere inteso come la solita operazione di addizione in R. Quindi, la scrittura a + bi e` puramente formale, e l’operazione di somma fra numeri complessi e` una estensione dell’ordinaria somma di numeri reali. La Definizione 1.1 appare in [6], ed e` una via di mezzo fra una trattazione puramente algebrica del campo dei numeri complessi e quella “ingenua” che permette di operare formalmente con i numeri complessi. Osservazione 1.3. Il numero complesso 0 ∈ C e` 0 + 0i. Questo numero e` caratterizzato dalla propriet`a che 0 + z = z + 0 = z per ogni z ∈ C. L’uso dello stesso simbolo per denotare sia lo zero reale che lo zero complesso e` un comodo abuso di notazione che non crea mai confusione. Definizione 1.2. Sia z = a + bi un numero complesso. Il numero a e` la parte reale di z, mentre il numero b ne e` la parte immaginaria. Si usano spesso le notazioni a = ℜz e b = ℑz. Denotiamo con z¯ il numero complesso√a − bi,√chiamato il complesso coniugato di z. Il numero reale non negativo |z| = z¯z = a2 + b2 prende il nome di modulo di z. Lemma 1.1. Se z e w sono numeri complessi, allora |zw| = |z||w| e |z + w| ≤ |z| + |w|. Come si calcola il reciproco di un numero complesso? Innanzitutto, il numero complesso deve essere diverso da zero, dal momento che gi`a per i numeri reali non e` definita la divisione per zero. Sia dunque z 6= 0 un numero complesso assegnato. Cerchiamo un numero complesso z−1 tale che zz−1 = z−1 z = 1. Lemma 1.2. Ogni numero complesso z 6= 0 possiede un reciproco, dato da 2
Infatti, se i fosse reale, allora i2 = i · i dovrebbe essere un numero non negativo, per la regola dei segni. Ma i2 = −1 < 0.
4
1 Algebra lineare: terapia d’urto
z−1 =
1 z¯. |z|2
Dimostrazione. Basta calcolare: z·
1 1 1 z¯ = 2 z¯z = 2 |z|2 = 1. 2 |z| |z| |z|
Qualche studente potrebbe ricordare che i numeri complessi possiedono una forma polare. Raccogliamo nella prossima proposizione tutti i principali fatti relativi alla forma polare dei numeri complessi. La dimostrazione, piuttosto semplice, e` lasciata per esercizio. Proposizione 1.1. Ad ogni numero complesso z possono essere associati un numero reale ρ ≥ 0 ed un numero reale θ ∈ [0, 2π), in modo tale che z = ρ(cos θ + i sin θ ). Ovviamente, ρ = |z|. Il numero θ deve essere “pensato” come un angolo, che rappresenta l’angolo misurato a partire dall’asse delle ascisse in senso antiorario, che viene sotteso dal segmento di estremi (0, 0) e (a, b), dove a e b sono rispettivamente la parte reale e la parte immaginaria del numero complesso z.
Definizione 1.3. Per ogni θ ∈ [0, 2π), definiamo il numero complesso eiθ = cos θ + i sin θ .
Usando la notazione dell’ultima definizione, possiamo scrivere brevemente z = reiθ . Come detto, ρ e` il ben noto modulo di z, mentre θ e` la cosiddetta “fase” di z. Usando le regole per il prodotto di numeri complessi, si verifica facilmente la seguente formula per il prodotto di due numeri complessi espressi in forma polare: se z1 = ρ1 eiθ1 e z2 = ρ2 eiθ2 , allora z1 z2 = ρ1 ρ2 ei(θ1 +θ2 ) .
(1.1)
In particolare, moltiplicando un numero complesso z per se stesso n volte, questa formula dimosta che zn = ρ n einθ . (1.2) In effetti, i numeri complessi sono tutti raccolti in queste due paginette. Nella prima parte del corso li dimenticheremo, dal momento che lo studio degli spazi vettoriali sul campo complesso presenta ben pochi vantaggi rispetto al pi`u familiare caso reale. Come anticipato, arriver`a per`o un momento in cui i numeri reali non basteranno pi`u per coprire situazioni anche molto elementari della teoria delle matrici. Esempio 1.1. Approfittiamo della forma polare di un numero complesso per calcolare le cosiddette radici n–esime. Prendiamo un numero z ∈ C, e cerchiamo tutti
1.2 I numeri complessi
5
i numeri complessi w tali che wn = z, essendo n un numero naturale assegnato. Per esempio, questo e` il problema della radice quadrata di un numero complesso, nel caso n = 2. Cominciamo con qualche riflessione. Se z ∈ R, sappiamo discutere completamente questo problema, cercando soltanto le soluzioni reali w. La discussione dovrebbe essere ben nota, e distingue i casi z positivo da z negativo, e n pari da n dispari. Vedremo subito che, in ambito complesso, il problema ha una struttura simultaneamente pi`u “uniforme” ma anche pi`u ricca. Togliamo di torno il caso banale z = 0, in cui e` evidente che l’unica soluzione di wn = 0 e` w = 0. Possiamo dunque scrivere z = ρeiθ , dove ρ > 0 (perch´e z 6= 0) e 0 ≤ θ < 2π. Cerchiamo w in forma polare, del tipo w = reiω . Usando n volte la formule (1.1), vediamo che wn = rn einω . Pertanto, dobbiamo imporre che rn einω sia uguale a ρeiθ . Ora, due numeri complessi in forma polare coincidono se e solo se i loro moduli coincidono e i loro “angoli” differiscono per un multiplo intero di 2π. Nel nostro caso, dobbiamo imporre rn = ρ nω = θ + 2kπ, dove k e` un numero intero. Esplicitamente, √ n ρ θ 2kπ ω= + . n n r=
Ovviamente, la prima equazione e` completamente risolta; la seconda presenta qualche sovrabbondanza. Per capirlo, fissiamo un caso numerico: n = 3. L’angolo incognito ω prenderebbe gli infiniti valori θ θ 2 θ 4 θ 6 θ 8 , + π, + π, + π, + π, . . . 3 3 3 3 3 3 3 3 3 Tuttavia, (6/3)π = 2π, (8/3)π = (2/3)π + 2π, ecc. Pertanto, di questi infiniti valori, sono i primi 3 rappresentano angoli distinti geometricamente. In modo completamente equivalente, se l’angolo ω deve essere compreso fra 0 e 2π, occorre richiedere che k = 0, 1, . . . , n − 1. La soluzione del nostro problema delle radici n–esime di z possiede dunque le n soluzioni complesse √ n ρ θ 2kπ ω= + , n n r=
k = 0, 1, . . . , n − 1.
Per capire quanto sia diverso l’ambiente complesso da quello reale, possiamo prendere z = 1 e n = 3. In ambito reale, l’equazione w3 = 1 e` risolta solo da w = 1. Non per altro, la funzione w ∈ R 7→ w3 e` invertibile. In ambito complesso, abbiamo invece ben 3 radici distinte: 1, e(2/3)π , e(4/3)π . Usando la formule eiθ = cos θ + i sin θ ,
6
1 Algebra lineare: terapia d’urto
lo studente verificher` a che queste soluzioni coincidono con i numeri complessi 1, √ √ − 12 + 23 i, − 21 − 23 i. Osservazione 1.4. Dalle considerazioni contenute nell’ultimo esempio, emerge che in ambito complesso non e` possibile definire naturalmente una funzione “radice quadrata”, o “radice cubica”. Se in ambito reale l’unica ambiguit`a e` eventualmente legata al segno,3 in ambito complesso non sembra esserci nessuna convenzione canonica per definire la radice quinta come funzione. Delle cinque soluzioni, quale dovremmo scegliere? E perch´e? Infine, per quanto riguarda la notazione, dobbiamo confessare che la matematica non e` mai molto originale. Per indicare la radice n– √ esima del numero complesso z, si usa universalmente il simbolo n z, esattamente lo stesso del mondo reale. Capita anche di leggere z1/n , che comunque e` ampiamente √ diffuso anche nell’ambito reale. In pratica, solo il contesto chiarisce se 4 1 denota (a) il valore della funzione “radice cubica” nel punto 1, oppure (b) i due numeri reali ±1 che elevati alla quarta potenza valgono 1, o ancora (c) i quattro numeri complessi 1, i, −1, −i che risolvono in C l’equazione w4 = 1. Ma la matematica non era la scienza precisa ed esatta per eccellenza?
1.3 Gli spazi vettoriali Molti studenti hanno sentito parlare di vettori nei precedenti corsi di Fisica. In quella sede, un vettore e` quasi sempre introdotto come un oggetto quasi palpabile, visuallizzato come una freccia orientata spiccata da un punto dello spazio tridimensionale in cui viviamo. Questi vettori4 rappresentano adeguatamente alcune quantit`a della fisica classica: la velocit`a, l’accelerazione, la forza, ecc. Con qualche acrobazia grafica, si impara a sommare due vettori, a sottrarli, e a moltiplicarli per un numero. Continuando la lettura, lo studente imparer`a che questi vettori sono soltanto un caso speciale di una teoria molto pulita e generale.
Definizione 1.4. Un insieme non vuoto V si chiama spazio vettoriale (sul campo R) se sono definite due operazioni + : V × V → V e · : R × V → V che godono delle seguenti propriet`a: 1. v + (w + u) = (v + w) + u per ogni v, w, u ∈ V ; 2. v + w = w + v per ogni v, w ∈ V ; 3. esiste un elemento 0 ∈ V tale che v + 0 = v per ogni v ∈ V ;
3
Poich´e per ogni numero reale x ≥ 0 esistono esattamente due soluzioni reali di w2 = x, che differiscono fra loro per il segno, e` sufficiente concordare che la funzione “radice quadrata” e` quella che ad ogni x ≥ 0 associa l’unica soluzione non negativa di w2 = x. 4 Che sarebbe pi` u corretto chiamare vettori applicati in un punto, e che sono fondamentalmente l’oggetto di studio di un’altra disciplina, l’algebra lineare affine.
1.3 Gli spazi vettoriali
4. 5. 6. 7. 8.
7
ogni v ∈ V possiede un inverso −v ∈ V , tale che v + (−v) = 0; α · (v + w) = α · v + α · w; (α + β ) · v = α · v + β · v; α · (β · v) = (αβ ) · v 1·v = v
per ogni v, w ∈ V e ogni α, β ∈ R. La prima operazione si chiama somma vettoriale, e la seconda prodotto per uno scalare.5 L’elemento −v si chiama l’opposto di v, e l’elemento 0 si chiama elemento neutro rispetto alla somma di vettori, o anche lo zero di V .
Osservazione 1.5. D’ora in poi, non scriveremo pi`u il puntino · nella seconda operazione: quindi useremo notazioni come αv al posto di α · v. Osservazione 1.6. Molti testi utilizzano la notazione in grassetto v per indicare un vettore. Nei testi matematici pi`u moderni, e` invalso l’uso di non distinguere affatto fra vettori e scalari, dal punto di vista tipografico. Se questa pu`o sembrare inizialmente una pessima abitudine, ci si rende conto molto in fretta che il contesto permette sempre di capire se v sia un vettore oppure uno scalare. D’altronde, nella scrittura a mano e` estremamente difficile tracciare lettere in grassetto, e i docenti del tempo che fu usano l’escamotage di scrivere v per far capire che la lettera v dovrebbe essere in grassetto. C’`e chi osserva che Av = b e` una notazione pi`u elegante di Av = b per un sistema lineare di equazioni. Ognuno ha i suoi gusti. Esempio 1.2. L’insieme R dei numeri naturali e` uno spazio vettoriale rispetto alle operazioni usuali di somma e moltiplicazione. Esempio 1.3. Introduciamo ora il pi`u importante esempio di spazio vettoriale con il quale avremo modo di operare nel resto del corso: lo spazio Rn . Sia dunque n ≥ 1 un numero naturale. L’insieme Rn e` costituito dalle sequenze ordinate di n numeri reali, della forma (x1 , x2 , . . . , xn ). L’espressione “sequenza ordinata” di numeri significa semplicemente che due sequenze sono uguali se e soltanto se i loro termini sono ordinatamente uguali. In pratica (x1 , x2 , . . . , xn ) = (x10 , x20 , . . . , xn0 ) se e solo se x1 = x10 , x2 = x20 , . . . , xn = xn0 . Possiamo rendere Rn uno spazio vettoriale definendo le due operazioni richieste dalla definizione nel modo seguente. Presi due vettori x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ), la loro somma e` per definizione x + y = (x1 + y1 , . . . , xn + yn ). Preso un vettore x = (x1 , . . . , xn ) ed un numero reale α, il prodotto αx e` per definizione
8
1 Algebra lineare: terapia d’urto
αx = (αx1 , . . . , αxn ). A parole, due vettori si sommano componente per componente, ed un vettore si moltiplica per uno scalare semplicemente moltiplicandone tutte le componenti per quello scalare. L’elemento 0 della definizione e` il vettore 0 = (0, 0, . . . , 0) le cui componenti sono tutte nulle, e per ogni x = (x1 , . . . , xn ) ∈ Rn l’elemento −x e` dato da −x = (−x1 , . . . , −xn ) ottenuto cambiando segno a ciascuna componente di x. Osservazione 1.7. Consideriamo il caso n = 2, pi`u semplice da immaginare geometricamente. Nel piano cartesiano, ogni elemento di (x1 , x2 ) ∈ R2 si visualizza come un punto le cui coordinate sono rispettivamente x1 sull’asse delle ascisse, e x2 sull’asse delle ordinate. Ma possiamo anche immaginare questo elemento come una freccia orientata che esce dall’origine degli assi e raggiunge il punto (x1 , x2 ). In altre parole, possiamo pensare che R2 sia esattamente l’insieme dei vettori spiccati dall’origine degli assi cartesiani, pi`u o meno come viene insegnato nei corsi di fisica. E` un esercizio forse impegnativo, ma molto istruttivo, quello di sincerarsi che la somma di due vettori del piano coincide esattamente con la somma “ingenua” ottenuta mediante la diagonale del parallelogramma. Ovviamente, se lo studente non sa nemmeno che cosa sia la somma mediante la diagonale del parallelogramma, pu`o proseguire nella lettura senza troppe recriminazioni. Ma ritorniamo alla teoria astratta. Uno spazio vettoriale e` dunque un insieme sul quale abbiamo definito due operazioni. Ora, pu`o accadere che un sottoinsieme (insiemistico, appunto) di uno spazio vettoriale sia anch’esso uno spazio vettoriale rispetto alle stesse due operazioni. Questo non e` sempre vero, ma quando lo e` vale la pena di occuparsene. Preferiamo una definizione equivalente ma pi`u facile da verificare in concreto.
Definizione 1.5. Sia V uno spazio vettoriale. Un sottospazio vettoriale di V e` un sottoinsieme W ⊂ V tale che αw1 + β w2 ∈ W per ogni w1 , w2 ∈ W e per ogni α, β ∈ R.
Esempio 1.4. In R2 , consideriamo W = {(x, 0) | x ∈ R}. Geometricamente, si tratta dell’asse delle ascisse. Verifichiamo che W e` un sottospazio vettoriale di R2 . Prendiamo w1 = (x1 , 0), w2 = (x10 , 0) in W , e due numeri reali arbitrari α e β . In base alle definizioni delle operazioni di somma e prodotto per uno scalare, αw1 + β w2 = (αx1 + β x10 , 0).
1.4 Combinazioni lineari, generatori e basi
9
Ma quest’ultimo e` chiaramente un elemento di W , poich´e e` una coppia formata in cui la seconda componente e` nulla. Quindi W e` effettivamente un sottospazio vettoriale di R2 . Analogamente, si dimostra che W 0 = {(0, y) | y ∈ R} e` un sottospazio vettoriale, che rappresenta geometricamente l’asse delle ordinate. Sebbene molti lo ritengano ovvio, occorrerebbe dimostrare alcune regole di calcolo. Ci limitiamo a riassumerle in un picoclo lemma senza dimostrazione. Lemma 1.3. Se V e` uno spazio vettoriale, allora 1. 2. 3. 4.
α0 = 0 per ogni scalare α; 0v = 0 per ogni vettore v ∈ V ; (−α)v = −αv per ogni scalare α ed ogni vettore v ∈ V ; se v 6= 0, allora αv = 0 implica α = 0.
Osservazione 1.8. Abbiamo volutamente lasciato per ultima questa osservazione, nella speranza che le notazioni rendessero naturali alcune piccolo questioni delicate. Nell’ultimo lemma, qualche studente avr`a forse notato che i simbolo 0 appare con due significati diversi: in 1. appare come vettore zero, e in 2. come il numero reale (scalare) zero. Dovremmo perci`o usare due simboli distinti, e in molti testi si usa 0 per il vettore nullo e 0 per lo scalare zero. Ma in matematica conviene qualche volta essere un po’ ambigui, dal momento che il contesto chiarisce quasi sempre se 0 e` un vettore o uno scalare.
1.4 Combinazioni lineari, generatori e basi Se i vettori di uno spazio vettoriale V si possono sommare e moltiplicare per gli scalari, ha senso considerare espressioni quali α1 v1 + α2 v2 + . . . + αn vn , al variare di αi ∈ R e vi ∈ V , per i = 1, 2, . . . , n. Il risultato e` un elemento di V .
Definizione 1.6. Sia V uno spazio vettoriale, e siano v1 , . . . , vn ∈ V . Un elemento della forma α1 v1 + α2 v2 + . . . + αn vn dove tutti i numeri αi sono reali, si chiama combinazione lineare dei vettori v1 , . . . , vn . Pi`u in generale, se S e` un sottoinsieme non vuoto di V , si chiama spazio generato da S (o anche “span” di S) l’insieme costituito da tutte le possibili combinazioni lineari di elementi di S, e si denota con il simbolo span S.
Lemma 1.4. L’insieme span S e` un sottospazio vettoriale di V .
10
1 Algebra lineare: terapia d’urto
Dimostrazione. Due elementi qualsiasi w1 e w2 di span S di scrivono per definizione come w1 = λ1 s1 + . . . + λn sn w2 = µ1t1 + . . . + µmtm , dove λi e µi sono tutti scalari, si e ti sono elementi di S, e in generale m ed n sono numeri naturali diversi fra loro. Per α e β scalari qualunque, αw1 + β w2 = α(λ1 s1 + . . . + λn sn ) + β (µ1t1 + . . . + µmtm ) = (αλ1 )s1 + . . . + (αλn )sn + (β µ1 )t1 + . . . + (β µm )tm . Quindi αw1 +β w2 e` una combinazione lineare di elementi di S, e dunque appartiene a span S. La dimostrazione e` dunque conclusa.
Definizione 1.7. Uno spazio vettoriale V e` generato da S ⊂ V se V = span S. In questo caso, si dice che S e` un sistema di generatori per V .
Esempio 1.5. Ritorniamo al nostro spazio vettoriale per eccellenza Rn . Sia S l’insieme formato dagli n vettori e1 = (1, 0, . . . , 0), e2 = (0, 1, 0, . . . , 0), . . . , en = (0, 0, . . . , 1). Mostriamo che Rn = span S. Dobbiamo dimostrare che ogni vettore di Rn si scrive come combinazione lineare di e1 , . . . , en . Sia allora (x1 , . . . , xn ) un generico vettore, e osserviamo che (x1 , . . . , xn ) = x1 (1, 0, . . . , 0) + x2 (0, 1, 0, . . . , 0) + . . . + xn (0, 0, . . . , 1). Ma il secondo membro di questa uguaglianza e` una combinazione lineare di e1 , e2 , . . . , en , come volevasi dimostrare. In particolare, Rn e` finitamente generato da un insieme S composto esattamente da n vettori. Vedremo pi`u avanti che non e` casuale che il numero di elementi di S sia proprio n.
Definizione 1.8. Se V e` uno spazio vettoriale, e v1 , . . . , vn sono vettori di V , diremo che essi sono linearmente dipendenti se esistono n scalari λ1 , . . . , λn , non tutti uguali a zero, tali che λ1 v1 + . . . + λn vn = 0. In caso contrario, diremo che i vettori v1 , . . . , vn sono linearmente indipendenti.
Osservazione 1.9. Pi`u esplicitamente, i vettori v1 , . . . , vn sono linearmente indipendenti se e solo se la condizione λ1 v1 + . . . + λn vn = 0 implica necessariamente
1.4 Combinazioni lineari, generatori e basi
11
λ1 = λ2 = . . . = λn . Pertanto, verificare l’indipendenza lineare di un insieme di n vettori significa operativamente risolvere un sistema di n equazioni in n incognite λ1 , . . . , λn , e verificare che l’unica soluzione e` quella in cui tutte le incognite valgono zero. Esempio 1.6. Ci chiediamo se i vettori e1 , . . . , en introdotti sopra sono linearmente indipendenti. Applicando l’osservazione qui sopra, impostiamo il sistema λ1 e1 + . . . + λn en = 0. Esplicitamente, λ1 e1 + . . . + λn en = 0 significa (λ1 , λ2 , . . . , λn ) = (0, 0, . . . , 0), e quindi ogni λi = 0. Dunque i vettori e1 , . . . , en sono linearmente indipendenti. Definizione 1.9. Sia V uno spazio vettoriale. Una base B per V e` un sistema di generatori per V , linearmente indipendenti. Corollario 1.1. I vettori e1 , . . . , en sono una base di Rn . D’ora in avanti, ci occuperemo esclusivamente di spazi vettoriali di dimensione finita. La definizione seguente chiarisce il significato di questa terminologia.
Definizione 1.10. Uno spazio vettoriale V ha dimensione finita se possiede un sistema di generatori formato da un numero finito di vettori.
Per amore di precisione, non tutti gli spazi vettoriali sono di dimensione finita. Tuttavia, il loro studio richiede strumenti molto pi`u avanzati di quelli dell’algebra lineare. Proposizione 1.2. Sia B una base per lo spazio vettoriale di dimensione finita V . Allora ogni vettore v ∈ V si rappresenta in modo unico come combinazione lineare di elementi della base B. Dimostrazione. E` chiaro che la parte non ovvia di questa proposizione e` l’unicit`a della rappresentazione. Supponiamo dunque che B = {b1 , . . . , bn }, e che v ∈ V . Poch´e B e` una base, esistono scalari α1 , . . . , αn tali che v = α1 b1 + . . . + αn bn .
(1.3)
Dobbiamo dimostrare che i coefficienti α1 , . . . , αn sono univocamente determinati. Supponiamo che esista un’altra rappresentazione v = α10 b1 + . . . + αn0 bn . Da (1.3) e (1.4) segue che (α1 − α10 )b1 + . . . + (αn − αn0 )bn = 0;
(1.4)
12
1 Algebra lineare: terapia d’urto
Poich´e i vettori b1 , . . . , bn sono in particolare linearmente indipendenti, deve risultare necessariamente α1 = α10 , . . . , αn = αn0 . Abbiamo cos`ı dimostrato che ogni vettore di V possiede esattamente una scrittura come combinazione lineare degli elementi della base B. Lemma 1.5. Se v1 , . . . , vn sono vettori di V , allora o sono linearmente indipendenti, oppure almeno uno di loro e` scrivibile come combinazione lineare degli altri. Dimostrazione. Se i nostri vettori sono linearmente indipendenti, abbiamo finito. Supponiamo dunque che essi siano linearmente dipendenti, e dimostriamo che uno di essi si scrive come combinazione lineare dei rimanenti. Per ipotesi, esistono degli scalari λ1 , . . . , λn , non tutti nulli, tali che λ1 v1 + . . . + λn vn = 0. Possiamo supporre che λ1 6= 0: se no, possiamo rinumerare i vettori e gli scalari acendo in modo che proprio il primo abbia un coefficiente non nullo. Quindi λ2 λn 1 v1 + . . . + − vn , v1 = − (λ2 v2 + . . . + λn vn ) = − λ1 λ1 λ1 e dunque v1 e` una combinazione lineare dei rimanenti vettori.
Lemma 1.6 (Completamento ad una base). Siano v1 , . . . , vn dei vettori che generano un sottospazio W . Se v1 , . . . , vk sono linearmente indipendenti, allora e` possibile scegliere una base di W della forma v1 , . . . , vk , vi1 , . . . , vir .
Dimostrazione. Ovviamente, se v1 , . . . , vn sono linearmente indipendenti, siamo a posto. Altrimenti, almeno uno di essi si scrive come combinazione lineare degli altri. Sia v j il primo vettore che si scrive come combinazione lineare dei rimanenti. Deve essere j > k: infatti i primi k vettori sono linearmente indipendenti, e nessuno di essi pu`o dunque scriversi come combinazione lineare degli altri. Affermiamo che W = span{v1 , . . . , vk , . . . , v j−1 , v j+1 , . . . , vn }. Infatti ogni elemento w di W e` combinazione lineare di tutti i vettori v1 , . . . , vn . Ma v j e` combinazione lineare dei rimanenti, e quindi anche w e` combinazione lineare dei soli v1 , . . . , vk , . . . , v j−1 , v j+1 , . . . , vn . Ora, se questi ultimi sono linearmente indipendenti, abbiamo finito. Altrimenti ripetiamo il ragionamento, fino ad arrivare ad un insieme di generatori linearmente indipendenti (cio`e una base) v1 , . . . , vk , vi1 , . . . , vir . Osservazione 1.10. Il lemma di completamento ad una base non risulta mai del tutto trasparente ad una prima lettura. Il suo contenuto e` il seguente: prendiamo dei generatori v1 , . . . , vn di W , in modo che i primi k siano linearmente indipendenti. O questi k vettori sono una base, oppure possiamo aggiungere altri vettori, scelti opportunamente fra i restanti n − k, e costruire cos`ı una base di W . Ma perch´e tutti questi discorsi? Il nostro vero obiettivo e` definire la dimensione di uno spazio vettoriale. Finora sappiamo dire quando uno spazio vettoriale ha dimensione finita, ma non sappiamo ancora quale sia la sua dimensione.
1.4 Combinazioni lineari, generatori e basi
13
Proposizione 1.3. Se B = {b1 , . . . , bn } e` una base di V , e se v1 , . . . , vm sono vettori linearmente indipendenti, allora m ≤ n. Dimostrazione. Ogni vettore di V , e dunque in particolare v1 , e` una combinazione lineare di b1 , . . . , bn . Consideriamo v1 , b1 , . . . , bn . Questi vettori generano V , e sono linearmente dipendenti: a meno di rinumerare i vettori, possiamo supporre che b1 sia una combinazione lineare di v1 , b2 , . . . , bn . Ora, v2 e` scrivibile come combinazione lineare di v1 , b2 , . . . , bn (perch´e abbiamo appena visto che questi vettori generano V ), e dunque v1 , v2 , b2 , . . . , bn sono linearmente dipendenti. Ancora una volta, possiamo supporre che b2 si scriva come combinazione lineare di v1 , v2 , b3 , . . . , bn . Se i vettori v1 , . . . , vm sono pi`u dei vettori della base (cio`e se m > n), con questo procedimento arriviamo a sostituire tutti i vettori bi con vettori vi , e in particolare concludiamo che v1 , . . . , vn sono generatori di V . Pertanto vn+1 e` un combinazione lineare di v1 , . . . , vn , ma questo e` impossibile, perch´e v1 , . . . , vm sono per ipotesi linearmente indipendenti. Quindi m ≤ n.
Teorema 1.3 (Cardinalit`a delle basi). In uno spazio vettoriale di dimensione finita, tutte le basi sono costituite dallo stesso numero di vettori.
Dimostrazione. Siano B = {b1 , . . . , bn } e B 0 = {b01 , . . . , b0m } due basi dello spazio vettoriale V di dimensione finita. Applicando la proposizione precedente a B = {b1 , . . . , bn } e v1 = b01 ,. . . , vm = b0m , otteniamo che m ≤ n. Applicando la stessa proposizione a B 0 e v1 = b1 ,. . . , vn = bn , otteniamo che n ≤ m. Quindi n = m. Siccome ormai sappiamo che tutte le basi di uno spazio vettoriale (di dimensione finita) hanno la stessa cardinalit`a, possiamo definire la dimensione senza correre il rischio di essere inconsistenti.
Definizione 1.11. Sia V uno spazio vettoriale di dimensione finita. La dimensione dimV e` il numero di vettori di una qualunque base.
Corollario 1.2. Lo spazio vettoriale Rn ha dimensione n. Prima di concludere questa sezione, non abbiamo affrontato una questione di importanza invero capitale: chi garantisce che ogni spazio vettoriale abbia una base? La domanda e` delicata, perch´e se esistessero spazi vettoriali privi di basi, essi sarebbero — per la nostra definizione — anche privi di dimensione. Per fortuna, tutti gli spzi vettoriali (anche quelli di dimension infinita) possiedono una base. Ma la dimostrazione richiede l’uso dell’induzione transfinita, o del celebre Lemma di Zorn. Ci limitiamo pertanto ad un enunciato di esistenza. Teorema 1.4 (Esistenza delle basi). Qualunque spazio vettoriale ha una base.
14
1 Algebra lineare: terapia d’urto
1.5 Somme dirette Consideriamo il solito spazio euclideo R2 a due dimensioni. Prese due rette distinte, passanti per l’origine, e` facile verificare che ogni vettore di R2 si scrive, in modo unico, come somma di un vettore giacente sulla prima retta e di un vettore giacente sulla seconda retta. Il nostro scopo e` precisamente quello di generalizzare questa osservazione. Definizione 1.12. Sia V uno spazio vettoriale, e siano W1 e W2 due suoi sottospazi. Diremo che V e` somma diretta di W1 e di W2 , e scriveremo V = W1 ⊕W2 , ogni v ∈ V possiede una decomposizione v = w1 + w2 , per opportuni w1 ∈ W1 e w2 ∈ W2 , e se inoltre W1 ∩W2 = {0}. Proposizione 1.4. V = W1 ⊕W2 se e solo se ogni v ∈ V possiede una decomposizione v = w1 + w2 , per opportuni w1 ∈ W1 e w2 ∈ W2 , e w1 e w2 sono univocamente determinati. Dimostrazione. Supponiamo che V = W1 ⊕ W2 , e dimostriamo che la rappresentazione di ogni vettore e` unica. Siano v = w1 + w2 e v = w01 + w02 due rappresentazioni di un generico v ∈ V , dove w1 , w02 ∈ W1 e w1 , w02 ∈ W2 . Allora w1 − w01 = w02 − w2 , e il primo membro di questa uguaglianza appartiene a W1 , il secondo a W2 . Poich´e l’unico vettore che appartiene simultaneamente a W1 e a W2 e` il vettore nullo, dev’essere w1 = w01 e w2 = w02 . Quindi ogni vettore si rappresenta in maniera unica come somma di un vettore di W1 e di un vettore di W2 . Viceversa, supponiamo che valga l’unicit`a della decomposizione, e dimostriamo che V = W1 ⊕W2 . Dobbiamo dimostrare solo che W1 ∩W2 = {0}. Sia θ ∈ W1 ∩W2 . Poich´e, in particolare, θ ∈ W2 , possiamo scriverlo in modo unico come θ = 0 + w2 , dove 0 e` pensato come il vettore nullo in W1 e w2 ∈ W2 . Similmente, possiamo scrivere θ = w1 + 0, dove w1 ∈ W1 e 0 ∈ W2 . Ma la rappresentazione di θ e` unica, e dunque w1 = w2 = 0. Quindi θ e` il vettore nullo. In generale, la somma W1 +W2 = {w1 + w2 | w1 ∈ W1 , w2 ∈ W2 } di due sottospazi di V e` ancora un sottospazio di V . E` lecito chiedersi quale dimensione abbia questa somma. Vale in proposito il teorema di Grassmann, che ci limitiamo ad enunciare. Proposizione 1.5 (Grassmann). Se dimV = n e W1 , W2 sono sottospazi di V , allora dim(W1 +W2 ) = dimW1 + dimW2 − dim(W1 ∩W2 ).
(1.5)
Corollario 1.3. Se V = W1 ⊕W2 , allora dimV = dimW1 + dimW2 . Concludiamo con le cosiddette proiezioni associate ad una decomposizione in somma diretta. Supponiamo che V = W1 ⊕ W2 , e definiamo le due applicazioni lineari P1 : V → W1 e P2 : V → W2 ponendo, per i = 1, 2,
1.6 Applicazioni lineari fra spazi vettoriali
Pi x = wi ,
se x = w1 + w2 e` la decomposizione (unica) di x ∈ V .
15
(1.6)
Proposizione 1.6. Le due proiezioni P1 e P2 sono ben definite. Dimostrazione. Qual e` il problema? Perch´e un’applicazione non dovrebbe essere ben definita? Il fatto e` , nel nostro caso, che prescriviamo il vaolore delle proiezione sfruttando la decomposizione del generico vettore di V . In qualche senso, le proiezioni sono funzioni della decomposizione, pi`u che del vettore di V stesso. Dobbiamo dimostrare che il valore delle proiezioni e` indipendente dalla scelta della decomposizione. Ma questo e` ovvio, poich´e ogni vettore di V si scrive in modo unico come somma di un elemento di W1 e di un elemento di W2 . Non esistono due decomposizioni diverse di uno stesso elemento di V , e quindi siao pienamente autorizzati a definire le due proiezioni come abbiamo fatto. Esempio 1.7. In R2 , consideriamo W1 = {te1 | t ∈ R} (l’asse orizzontale) e W2 = {te2 | t ∈ R} (l’asse verticale). Chiaramente R2 = W1 ⊕ W2 . Se x = λ1 e1 + λ2 e2 , allora P1 x = λ1 e1 e P2 x = λ2 e2 sono le proiezioni di x su W1 e W2 , rispettivamente.
1.6 Applicazioni lineari fra spazi vettoriali
Definizione 1.13. Siano V e W due spazi vettoriali (senza restrizioni sulla dimensione). Una funzione T : V → W e` detta un’applicazione lineare (di V in W ) se T (αv1 + β v2 ) = αT (v1 ) + β T (v2 ) per ogni v1 , v2 ∈ V ed ogni α, β ∈ R.
Osservazione 1.11. Per le applicazioni lineari (dette anche omomorfismi), si usa la notazione T v al posto di T (v). Ci adegueremo anche noi a questa notazione semplificata.
Definizione 1.14. Il nucleo di un’applicazione lineare T : V → W e` l’insieme ker T = {v ∈ V | T v = 0}.
Lemma 1.7. Il nucleo di un’applicazione lineare T : V → W e` un sottospazio vettoriale di V . Dimostrazione. Siano v1 , v2 ∈ ker T e α1 , α2 ∈ R. Dobbiamo far vedere che T (α1 v1 + α2 v2 ) = 0. Ora, per la linearit`a di T ,
16
1 Algebra lineare: terapia d’urto
T (α1 v1 + α2 v2 ) = α1 T v1 + α2 T v2 = α1 0 + α2 0 = 0. Definizione 1.15. L’immagine di un’applicazione lineare T : V → W e` l’insieme Im T = {w ∈ W | esiste v ∈ V tale che w = T v.}. Lemma 1.8. L’immagine di un’applicazione lineare T : V → W e` un sottospazio vettoriale di W . Dimostrazione. Lasciata per esercizio. Definizione 1.16. Sia T : V → W un’applicazione lineare fra i due spazi vettoriali V e W . Il rango di T , indicato con il simbolo rank T , e` la dimensione del sottospazio vettoriale Im T . In simboli: rank T = dim Im T . Senza ipotesi ulteriori, il rango di un’applicazione lineare potrebbe essere anche infinito. Tuttavia, vale il seguente risultato che lega la dimensione del nucleo, il rango e la dimensione di V .
Teorema 1.5 (Nullit`a + rango). Sia V uno spazio vettoriale di dimensione n < ∞. Se T : V → W e` un’applicazione lineare, allora dim ker T + rank T = n.
Dimostrazione. Sia B(ker T ) = {n1 , . . . , nk } una base di ker T . Completiamo tale base ad una base di V , aggiungendo i vettori v1 , . . . , vr . Ovviamente k + r = n. Dobbiamo dimostrare che i vettori T v1 , . . . , T vr sono una base di Im T . Innanzitutto, mostriamo che essi sono linearmente indipendenti. Se λ1 T v1 + . . . + λr T vr = 0, allora T (λ1 v1 + . . . + λr vr ) = 0, cio`e λ1 v1 + . . . + λr vr ∈ ker T . Quindi esistono µ1 ,. . . , µk ∈ R tali che λ1 v1 + . . . + λr vr = µ1 n1 + . . . + µk nk . Ma allora µ1 n1 + . . . + µk nk − λ1 v1 − . . . − λr vr = 0. Poich´e {n1 , . . . , nk , v1 , . . . , vr } e` una base di V , i coefficienti di questa combinazione lineare devono essere tutti nulli, e in particolare λ1 = . . . = λr = 0. Resta da dimostrare che T v1 , . . . , T vr generano Im T . Sia dunque w ∈ Im T u elemento arbitrario dell’immagine di T . Allora esiste v ∈ V tale che w = T v. Quindi possiamo scrivere v come una conbinazione lineare, unicamente determinata, dei vettori della base di V : v = λ1 n1 + . . . + λk nk + µ1 v1 + . . . + µr vr . Deduciamo che w = T v = µ1 T v1 +. . .+ µr T vr , poich´e T n j = 0 per ogni j = 1, . . . , k. Il vettore arbitrario w e` una combinazione lineare di T v1 , . . . , T vr , e questo completa la dimostrazione. Corollario 1.4. Un’applicazione lineare fra due spazi vettoriali di uguale dimensione finita e` iniettiva se e solo se e` suriettiva. Dimostrazione. Innanzitutto, dire che un’applicazione lineare T : V → W e` iniettiva significa dire che ker T = {0}. Infatti, se ker T = {0}, allora da T v1 = T v2 discende
1.7 Lo spazio duale
17
T (v1 −v2 ) = 0, cio`e v1 −v2 ∈ ker T , e dunque v1 −v2 = 0. Viceversa, se T e` iniettiva, e se v ∈ ker T , allora T v = 0 = T 0. Quindi v = 0 per l’iniettivit`a. Similmente, dire che T e` suriettiva significa dire che Im T = W . Dal teorema della nullit`a + rango deduciamo che rank T = n se e solo se dim ker T = 0. In altri termini, la dimensione del sottospazio vettoriale Im T e` n se e solo se T e` iniettiva. Poich´e l’unico sottospazio vettoriale di W la cui dimensione coincide con quella di W e` W stesso, il corollario e` dimostrato. Corollario 1.5. Il rango di un’applicazione lineare definita su uno spazio vettoriale di dimensione finita non pu`o essere infinito. Dimostrazione. Per prima cosa, notiamo che ker T e` un sottospazio vettoriale di V , e pertanto dim ker T ≤ n. Il teorema precedente implica allora che rank T = n − dim ker T < ∞. Osservazione 1.12. Attenzione! Il corollario appena dimostrato ovviamente non esclude che dimW = ∞. Consideriamo infatti un qualunque spazio vettoriale W di dimensione infinita, e fissiamo un suo elemento ω 6= 0. Definiamo V = span{ω} = {tω | t ∈ R}. L’applicazione lineare T : V → W , definita da T (tω) = t T ω e` chiaramente lineare (verificarlo per esercizio). Ovviamente Im T = span{T ω}. Quindi rank T = 1. Ma dimW = ∞ per ipotesi. Corollario 1.6. Un’applicazione lineare T fra due spazi vettoriali V e W (che supporremo di dimensione finita) e` univocamente determinata dai valori {T b1 , . . . , T bn } di una base {b1 , . . . , bn } di V . Dimostrazione. Sia T un’applicazione lineare fra V e W . Ogni vettore v ∈ V si scrive in modo unico come v = λ1 b1 + . . . + λn bn . Per la linearit`a di T , T v = λ1 T b1 + . . . + λn T bn . Poich´e v e` arbitrario, abbiamo dimostrato che la conoscenza dei valori {T b1 , . . . , T bn } implica la conoscenza del valore di T v, per ogni v ∈ V . Quest’ultimo corollario e` il primo passo verso la rappresentazione matriciale delle applicazioni lineari. Torneremo su questo aspetto a tempo debito.
1.7 Lo spazio duale In questo paragrafo, considereremo esclusivamente spazi vettoriali di dimensione finita. Il caso della dimensione infinita e` il vero punto di partenza di quel ramo dell’analisi matematica che va sotto il nome di Analisi Funzionale (lineare).
Definizione 1.17. Un funzionale lineare Λ su uno spazio vettoriale V e` un’operatore lineare Λ : V → R.
18
1 Algebra lineare: terapia d’urto
Osservazione 1.13. Per denotare i funzionali lineari su uno spazio vettoriale, useremo spesso lettere greche maiuscole. Altrettanto diffusa in letteratura e` l’abitudine di utilizzare lettere latine minuscole con un asterisco, ad esempio x∗ . Definizione 1.18. Lo spazio duale (algebrico) di uno spazio vettoriale V e` l’insieme V 0 di tutti i funzionali lineari definiti su V . Questo insieme e` uno spazio vettoriale rispetto alle usuali operazioni di somma e di moltiplicazione puntuali per scalari. Ricordiamo che, se Λ1 e Λ2 ∈ V 0 , possiamo definire la loro somma Λ1 + Λ2 mediante la regola Λ1 + Λ2 : v ∈ V 7→ Λ1 v + Λ2 v ∈ R. Similmente, se Λ ∈ V 0 e α e` uno scalare, possiamo definire αΛ : V → R mediante la regola αΛ : v 7→ α Λ v. Lasciamo allo studente la verifica che, rispetto a queste due operazioni, V 0 risulta davvero uno spazio vettoriale. Definizione 1.19. Sia W ⊂ V un sottospazio. L’annichilatore di W e` l’insieme W 0 = {Λ ∈ V 0 | Λ w = 0 per ogni w ∈ W }. Osserviamo che l’annichilatore di un sottospazio di V e` un sottospazio del duale V 0 . Supponiamo che B = {v1 , . . . , vn } sia una base di V . Consideriamo, per ogni indice i = 1, 2, . . . , n, l’elemento v∗i ∈ V 0 definito ponendo ( 1 se i = j v∗i (v j ) = 0 se i 6= j, ed estendendo queta definizione per linearit`a a tutto V .6 Per definizione, ogni v∗i e` un elemento del duale di V . Vale per`o molto di pi`u: l’insieme B ∗ = {v∗1 , . . . , v∗n } e` una base di V 0 . Per dimostrarlo, cominciamo a dimostrare che questi n funzionali lineari sono linearmente indipendenti. Supponiamo che λ1 v∗i + · · · + λn v∗n = 0 in V 0 , nel senso che λ1 v∗i (x) + · · · + λn v∗n (x) = 0 ∈ V
per ogni x ∈ V .
Allora, scegliendo prima x = v1 , poi x = v2 , fino a x = vn , troviamo che λ1 = 0, λ2 = 0, e cos`ı via fino a λn = 0. L’indipendenza lineare e` dimostrata. Resta da dimostrare che ogni Λ ∈ V 0 si scrive come cobinazione lienare dei funzionali di B ∗ . Ma anche questo e` molto semplice: poich´e B e` una base di V , ogni elemento x ∈ V si scrive in modo unico come x = α1 v1 + · · · + αn vn . Quindi Λ x = α1Λ v1 + · · · + αnΛ vn . Basta allora osservare che Con questo intendiamo dire che, se x = λ1 v1 + · · · + λn vn , allora v∗i (x) = λ1 v∗i (v1 ) + · · · + λn v∗i (vn ) = λi . 6
1.7 Lo spazio duale
19
Λ x = (Λ v1 )v∗1 (x) + · · · + (Λ vn )v∗n (x) e` una combinazione lineare degli elementi di B ∗ , i cui coefficienti sono indipendenti da x. Quindi Λ = (Λ v1 )v∗1 + · · · + (Λ vn )v∗n esprime il generico elemento Λ ∈ V 0 come combinazione lineare degli elementi di B∗. Definizione 1.20. La base di V 0 costruita sopra si chiama base duale della base B. In particolare, abbiamo dimostrato un’importante relazione fra V e V 0 .7 Corollario 1.7. Uno spazio vettoriale V ed il suo duale V 0 hanno sempre la stessa dimensione. Ora, il duale di V e` uno spazio vettoriale di dimensione finita. Quindi anch’esso possiede uno spazio duale, che ovviamente denoteremo con V 00 = (V 0 )0 . Applicando a V 0 e a V 00 il precedente Corollario, possiamo concludere che dimV 00 = dimV . Tuttavia, esiste un’elegante identificazione fra V e V 00 . Proposizione 1.7. Esiste unisomorfismo, che non dipende dalla scelta di una base, fra V e V 00 . Dimostrazione. Ad ogni v ∈ V associamo il funzionale v∗∗ ∈ V 00 definito dalla formula v∗∗ (Λ ) = Λ v per ogni Λ ∈ V 0 . Ovviamente V ∗∗ e` un’applicazione lineare definita su V 0 , e dunque appartiene a V 00 . In altre parole, possiamo costruire l’applicazione lineare Φ : V → V 00 ponendo Φ(v) = v∗∗ . Per definizione, Φ e` iniettiva: se Φ(v) = 0 ∈ V 00 , allora Λ v = 0 per ogni Λ ∈ V 0 . Ma l’unico vettore che viene mandato nel vettore nullo da ogni elemento Λ ∈ V 0 e` v = 0. Infatti, se v 6= 0 allora possiamo supporre che v = α1 v1 + · · · + αn vn , dove {v1 , . . . , vn } e` una base di V e almeno uno scalare λi 6= 0. Ma allora v∗i ∈ V 0 soddisfa v∗i (v) = λi 6= 0. Resta da verificare che Φ sia anche suriettiva. Questo fatto per`o discende immediatamente dal confronto fra le dimensioni di V e di V 00 . Infatti Im Φ e` un sottospazio di V 00 , e per iniettivit`a risulta che dim Im Φ = dimV . Poich´e dimV 00 = dimV , concludiamo che Im Φ = V 00 . Osservazione 1.14. Perch´e abbiamo sottolineato che l’isomorfismo della Proposizione precedente non dipende dalla scelta di una base (in V )? A questo stadio di conoscenze, per noi e` poco pi`u di una curiosit`a. Ma invitiamo lo studente a riflettere su un fatto: e` vero (lo abbiamo dimostrato implicitamente) che V e V 0 sono isomorfi, un isomorfismo essendo ottenuto mandando una base di V nella base duale di V 0 . Ma questo isomorfismo dipende, pesantemente, dalla scelta di una base di V : cambiando base, cambia in generale anche l’isomorfismo. Invece l’isomorfismo fra V e V 00 non dipende dalla scelta particolare di una base in V : e` quello che si chiama un isomorfismo canonico. In dimensione infinita, come forse la tecnica dimostrativa 7
Questo corollario sarebbe falso, se permettessimo a V di avere dimensione infinita.
20
1 Algebra lineare: terapia d’urto
seguita ci pu`o far sospettare, la suriettivit`a di Φ pu`o essere falsa. In generale, tutto quello che si pu`o dire e` che Φ(V ) e` un sottospazio di V 00 . Qualora Φ(V ) = V 00 , si dice che V e` uno spazio riflessivo. Se Φ dipendesse dalla scelta di una base di V , tutti questi discorsi perderebbero buona parte del loro interesse. Come conseguenza della Proposizione appena dimostrata, siamo autorizzati ad identificare ogni spazio vettoriale (di dimensione finita) con il suo biduale V 00 . Lo spazio duale permette di definire, canonicamente, gli operatori aggiunti (o duali) di operatori fra spazi vettoriali. Anche in questo caso, si tratta di un concetto che pu`o essere esteso al caso infinito–dimensionale, dando luogo alla teoria degli operatori (auto)aggiunti. Definizione 1.21. Siano X e Y due spazi vettoriali, e sia T : X → Y un operatore lineare di X in Y . L’operatore aggiunto di T (o pi`u semplicemente l’aggiunto di T ) e` l’operatore T 0 : Y 0 → X 0 che agisce secondo la regola T 0 y∗ : x ∈ X 7→ y∗ (T x) per ogni y∗ ∈ Y 0 . Cerchiamo di chiarire la definizione di T 0 . Per definizione, T 0 opera sul duale di Y . Dunque, per ogni funzionale y∗ ∈ Y 0 dobbiamo definire un funzionale lineare T 0 y∗ ∈ X 0 . Come facciamo? Dobbiamo dire come opera T 0 y∗ su ogni x ∈ X. Schematicamente, x ∈ X 7→ T x ∈ Y 7→ y∗ (T x) ∈ R. Da questa formula vediamo che T 0 y∗ e` semplicemente y∗ ◦ T . Osservazione 1.15. La definizione dell’operatore aggiunto diventa particolarmente elegante se utilizziamo il crochet di dualit`a per indicare l’azione di un funzionale: per ogni Λ ∈ X 0 , scriviamo hΛ , xiX 0 ,X al posto di Λ x. Allora la definizione di T 0 diventa hT 0 y∗ , xiX 0 ,X = hy∗ , T xiY 0 ,Y
1.8 Principio di sovrapposizione per i sistemi lineari di equazioni Consideriamo un’equazione del tipo T x = y,
(1.7)
dove T : V → W , V e W sono due spazi vettoriali, y ∈ W e` il cosiddetto “termine noto”, e x ∈ V e` l’incognita. Raccogliamo nel prossimo teorema una serie di considerazioni relative al problema (1.7).
Teorema 1.6. Consideriamo il problema (1.7). Valgono le seguenti affermazioni:
1.9 Realizzazione concreta di uno spazio vettoriale di dimensione finita
21
1. se y = 0, allora l’insieme delle soluzioni di (1.7) e` un sottospazio vettoriale di V ; 2. data una soluzione x∗ di (1.7), tutte le altre soluzioni hanno la forma x∗ + x0 , dove x0 ∈ ker T .
Dimostrazione. Sia y = 0. Ovviamente l’equazione T x = 0 e` risolta esattamente dai vettori x ∈ ker T , per definizione stessa del nucleo di un’applicazione lineare. Poich´e ker T e` un sottospazio vettoriale di V , il punto 1. e` dimostrato. Sia ora x∗ ∈ V tale che T x∗ = y. Supponiamo che x ∈ V sia anch’essa una soluzione di T x = y. Allora T x = y = tx∗ , e quindi T (x − x∗ ) = 0. Per definizione. x − x∗ ∈ ker T . Quindi n = x − x∗ e` tale che n ∈ ker T e x = x∗ + n. Osservazione 1.16. Il precedente teorema ricorder`a a qualche studente il principio di sovrapposizione per le equazioni differenziali del secondo ordine a coefficienti costanti. In quella sede, si risolveva innanzitutto il problema omogeneo (che corrisponde a y = 0 in (1.7)), e poi si cerca disperatamente una soluzione dell’equazione completa. A questo punto, tute le soluzioni si ottengono sommando la soluzione generale del problema omogeneo a quella particolare del problema completo. In termini pi`u formali, il punto 2. del teorema appena dimostrato ci dice esattamente che questo procedimento e` corretto. Per quanto riguarda la risolubilit`a di un’equazione lineare del tipo T x = y, per adesso non abbiamo molti strumenti a disposizione. Per definizione, questa equazione, nell’incognita x, avr`a almeno una soluzione se e solo se y ∈ Im T . Impareremo pi`u avanti ad utilizzare il calcolo matriciale per risolvere esplicitamente (ove possibile) questo tipo di problemi.
1.9 Realizzazione concreta di uno spazio vettoriale di dimensione finita Lo spazio Rn non e` solo il pi`u semplice esempio di spazio vettoriale di dimensione n. Esso e` in effetti “l’unico” spazio vettoriale di dimensione n. Teorema 1.7. Sia V uno spazio vettoriale di dimensione finita n. Allora esiste un’applicazione lineare, iniettiva e suriettiva, E : V → Rn . Dimostrazione. Sia B = {b1 , . . . , bn } una base di V , e sia {e1 , . . . , en } la base canonica di Rn . Definiamo E : V → Rn ponendo E bi = e1 per ogni i = 1, . . . , n. Se v = λ1 b1 + . . . + λn bn ∈ V , allora E v = λ1 E b1 + . . . + λn E bn = λ1 e1 + . . . + λn en . L’applicazione E e` dunque definita per ogni v ∈ V , ed e` lineare per costruzione. Resta da dimostrare che e` iniettiva e suriettiva. Per un corollario al teorema della nullit`a + rango, basta verificare che E e` iniettiva. Sia dunque v ∈ ker E . Quin-
22
1 Algebra lineare: terapia d’urto
di E v = 0, cio`e λ1 e1 + . . . + λn en = 0, dove λ1 ,. . . , λn sono gli unici scalari tali che v = λ1 b1 + . . . + λn bn . Poich´e {e1 , . . . , en } e` una base di Rn , deve essere λ1 = . . . = λn = 0. Pertanto, v = 0.
Definizione 1.22. Un isomorfismo di due spazi vettoriali V e W e` un’applicazione lineare di V in W , iniettiva e suriettiva.
In altre parole, abbiamo dimostrato che tutti gli spazi vettoriali di dimensione n < ∞ sono isomorfi a Rn . D’altronde, un isomorfismo fra V e W e` un passepartout per lavorare contemporaneamente in V e W , senza notare la differenza. Ogni propriet`a dello spazio vettoriale V si rilegge come un propriet`a di W , e viceversa. Osservazione 1.17. A questo punto, tutti gli studenti di algebra lineare si sentono autorizzati a chiedere perch´e mai, se le cose stanno cos`ı, non si studia esclusivamente Rn . La ragione e` che gli isomorfismi preservano le propriet`a della struttura di spazio vettoriale, ma non “vedono” altre propriet`a interessanti. Ad esempio, l’insieme dei polinomi (in una variabile) di grado minore o uguale a 3 e` uno spazio vettoriale (esercizio!) di dimensione 3. Quindi e` in particolare isomorfo a R3 . La struttura di spazio vettoriale e` quindi la stessa, ma i polinomi sono funzioni, non (terne di) numeri! Potremmo dire che un isomorfismo preserva la struttura ma non la natura degli spazi vettoriali. Per esempio, e` ben noto che ogni polinomio pu`o essere derivato, mentre un vettore di R3 non e` nemmeno una funzione.
1.10 Spazi con prodotto scalare Finora abbiamo parlato di vettori, evitando accuratamente di parlare della loro lunghezza. Eppure, in Fisica la lunghezza di un vettore rappresenta ad esempio l’intensit`a di una forza, oppure la misura della velocit`a di un’automobile in corsa. In ogni Rn esiste un modo standard di misurare la lunghezza di un vettore. In questa sezione, vedremo che la lunghezza di un vettore e` una propriet`a che pu`o essere derivata da un concetto pi`u specifico: quello di prodotto scalare.
Definizione 1.23. Uno spazio con prodotto scalare e` uno spazio vettoriale V sul quale sia definita una funzione V ×V → R, la cui azione sui generici vettori v, w ∈ V denoteremo con hv, wi, e che goda delle seguenti proprit`a: 1. hλ v1 + µv2 , wi = λ hv1 , wi + µhv2 , wi per ogni v1 , v2 e w ∈ V ed ogni λ , µ ∈ Rn ;
1.10 Spazi con prodotto scalare
23
2. hv, λ w1 + µw2 i = λ hv, w1 i + µhv, w2 i per ogni v1 , v2 e w ∈ V ed ogni λ , µ ∈ Rn ; 3. hv, wi = hw, vi per ogni v, w ∈ V ; 4. hv, vi ≥ 0 per ogni v ∈ V , e hv, vi = 0 se e solo se v = 0. La funzione h−, −i prende il nome di prodotto scalare (o prodotto interno). Esempio 1.8. In Rn , possiamo definire un prodotto scalare come segue: per ogni v = (v1 , . . . , vn ) e w = (w1 , . . . , wn ), poniamo hv, wi = v1 w1 + . . . + vn wn . Le solite proprit`a aritmetiche dei numeri reali garantiscono che le propriet`a del prodotto scalare sono effettivamente soddisfatte. In particolare, osserviamo che hv, vi = v21 + . . . + v2n ≥ 0. Questo prodotto scalare, a volte denotato anche con il simbolo v • w, e` spesso detto prodotto scalare euclideo di Rn . Lo studente potr`a verificare che, per n = 2, hv, vi rappresenta la lunghezza del vettore geometrico v, ottenuta applicando il teorema di Pitagora alle sue componenti v1 e v2 . Osservazione 1.18. Le notazioni per i prodotti interni non sono mai completamente uniformi. Avvertiamo lo studente che alcuni testi utilizzano la notazione v • w per denotare qualunque prodotto scalare (non necessariamente quello in Rn ), altri ancora utilizzano la notazione (v | w) o (v, w). Quest’ultima appare la pi`u ambigua, dato che pu`o essere confusa facilmente con la coppia ordinata (v, w). Osservazione 1.19. E` importante sottolineare che alcuni Autori (ad esempio Lang in [6]) non richiedono che un prodotto scalare soddisfi necessariamente la condizione 4 di positivit`a. Ad esempio, in R2 , questi autori chiamano prodotto scalare anche hx, yi = x1 y1 − x2 y2 . Ora, per questo prodotto risulta hx, xi = x12 − x22 , che potrebbe anche essere una quantit`a negativa. Quando vale la condizione 4, il prodotto scalare viene chiamato prodotto scalare definito positivo. Poich´e, nell’economia del nostro corso, non avremo mai bisogno di prodotti scalari che assumano valori negativi, pretenderemo sempre che la condizione 4 sia soddisfatta. Essa risulta indispensabile per poter associare una distanza ad un prodotto scalare. Definizione 1.24. Sia V uno spazio con prodotto scalare. La norma del generico vettore v ∈ V e` il numero non negativo p kvk = hv, vi. Ovviamente, la radice quadrata ha senso grazie alla propriet`a 4. del prodotto scalare. Lemma 1.9 (Identit`a del parallelogramma). In ogni spazio vettoriale V con prodotto scalare, vale l’identi`a kv − wk2 + kv + wk2 = 2kvk2 + 2kwk2 .
(1.8)
24
1 Algebra lineare: terapia d’urto
Dimostrazione. Basta sviluppare il primo membro: kv − wk2 = hv − w, v − wi = hv, vi − 2hv, wi + hw, wi = kvk2 − 2hv, wi + kwk2 kv + wk2 = hv + w, v + wi = hv, vi + 2hv, wi + hw, wi = kvk2 + 2hv, wi + kwk2 . Sommando membro a membro questa due uguaglianze, si trova esattamente (1.8). Definizione 1.25. Sia V uno spazio con prodotto scalare. Due vettori v e w di V sono detti ortogonali (o perpendicolari) se hv, wi = 0. Si usa il simbolo v ⊥ w. Esempio 1.9. Siano ei ed e j due vettori distinti della base standard di Rn . Allora ei ⊥ e j . Vedremo in seguito che le basi formate di vettori a due a due ortogonali meritano un nome speciale.
Proposizione 1.8 (Cauchy–Schwartz). Sia V uno spazio vettoriale con prodotto scalare. Per ogni v, w ∈ V , vale la disuguaglianza |hv, wi| ≤ kvk kwk.
(1.9)
Dimostrazione. Per ogni t ∈ R, consideriamo hv + tw, v + twi = kv + twk2 . Ma hv + tw, v + twi = kvk2 + 2thv, wi + t 2 kwk2 . In altri termini, il polinomio kwkt 2 +whv, wit = kvk2 assume sempre valori maggiori o uguali a zero. Pertanto il suo discriminante ∆ = 4hv, wi2 − 4kvk2 kwk2 deve essere negativo, cio`e hv, wi2 − kvk2 kwk2 ≤ 0. La tesi segue prendendo la radice quadrata di questa disuguaglianza. Corollario 1.8 (Disuguaglianza triangolare). Per ogni v, w, z appartenenti ad uno spazio vettoriale con prodotto scalare V , vale la disuguaglianza kv + wk ≤ kvk + kwk. Dimostrazione. Infatti, la disuguaglianza e` equivalente a kv + wk2 ≤ (kvk + kwk)2 . Ma kv + wk2 = hv + w, v + wi = kvk2 + 2hv, wi + kwk2 , e
(1.10)
1.11 Basi ortonormali
25
(kvk + kwk)2 = kvk2 + 2kvkkwk + kwk2 , e quindi la tesi e` vera se e solo se 2hv, wi ≤ 2kvkkwk, che e` semplicemente la disuguaglianza di Cauchy–Schwartz. Negli spazi con prodotto scalare, esiste una rappresentazione canonica dei funzionali lineari. Si ricordi che in ogni spazio di dimensione finita e` possibile identificare, per mezzo della base duale, un funzionale lineare con un elemento dello spazio stesso. Quello che affermiamo qui e` che, in presenza di un prodotto scalare, l’identificazione pu`o essere fatta in modo intrinseco, senza alcun riferimeno alle basi.
Teorema 1.8 (Teorema di rappresentazione di Riesz). Sia V uno spazio vettoriale di dimensione finita con prodotto scalare. Ad ogni funzionale lineare Λ ∈ V 0 e` possibile associare uno ed un solo vettore z ∈ V , dipendente da Λ , tale che Λ x = hz, xi per ogni x ∈ V .
Dimostrazione. Cominciamo a dimostrare che l’elemento z e` univocamente determinato. Se Λ ∈ V 0 fosse rappresentato da due elementi z1 e z2 , allora hz1 , xi = Λ x = hz2 , xi per ogni x ∈ V . Quindi hz1 − z2 , xi = 0 per ogni x ∈ V . Ora, se z1 − z2 6= 0, allora potremmo scegliere x = z1 − z2 e ottenere kz1 − z2 k2 = hz1 − z2 , z1 , z2 i = 0, assurdo. Quindi z1 = z2 . Per costruire z, supponiamo che Λ non sia il funzionale identicamente nullo: in questo caso basterebbe prendere z = 0. Allora dim ImΛ = 1 (`e un sottospazio non banale di R, che ha dimensione uno), e W = kerΛ ha dimensione n − 1, dove n = dimV . Allora esiste x0 ⊥ W tale che kx0 k = 1, ed ogni x ∈ V si decompone come x = λ x0 + x, ˜ dove λ = hx0 , xi e x˜ ∈ W . Di conseguenza, Λ x = λΛ x0 + λ x˜ = h(Λ x0 )x0 , xi. La tesi segue prendendo allora z = (Λ x0 )x0 .
1.11 Basi ortonormali Una delle peculiarit`a degli spazi vettoriali con prodotto scalare e` che su di essi e` possibile costruire basi speciali, formate da vettori a due a due perpendicolari. Nel resto della sezione, V denoter`a un qualsiasi spazio vettoriale con prodotto scalare. Definizione 1.26. Sia S un sottoinsieme di V . Diremo che S e` un sistema di vettori ortogonali se, presi comunque s1 ed s2 ∈ S, con s1 6= s2 , accade che s1 ⊥ s2 . Diremo infine che S e` un sistema ortonormale se e` ortogonale e ogni suo elemento ha norma uguale ad 1.
26
1 Algebra lineare: terapia d’urto
Definizione 1.27. Una base ortonormale di V e` una base di V che risulti anche un sistema ortonormale. Esempio 1.10. Come gi`a visto, la base standard di Rn e` una base ortonormale. In generale, non e` detto che una base sia ortonormale, nemmeno nel familiare spazio vettoriale R2 . Si consideri ad esempio la base {(1, 1), (1, −2)}. Lo studente verificher`a per esercizio che si tratta effettivamente di una base, e che tuttavia non e` ortonormale. E` invece vero che a partire da una qualunque base possiamo costruire una base ortonormale. Il procedimento costruttivo e` facile, ed e` spesso chiamato ortonormalizzazione di Gram–Schmidt.
Teorema 1.9 (Gram–Schmidt). Sia {b1 , . . . , bn } una base di V . Allora esiste una base ortonormale {o1 , . . . , on } di V .
Dimostrazione. La costruzione e` per ricorrenza: poniamo o1 = b1 /kb1 k. La scelta e` abbastanza obbligata, dato che vogliamo che ogni vettore della nuova base sia di norma 1. Ora costruiamo o2 in modo che o1 ⊥ o2 . Come fare? Possiamo provare a porre o2 = b2 −ko1 , dove k e` un numero reale da scegliere opportunamente. Dobbiamo imporre b2 − ko1 ⊥ o1 , cio`e hb2 , o1 i − kho1 , o1 i = 0. Poich´e ho1 , o1 i = ko1 k2 = 1, dobbiamo scegliere k = hb2 , o1 i. Siamo soddisfatti? Ancora no, perch´e non sappiamo se b2 − hb2 , o1 io1 abbia norma 1. Poco male, ci basta definire o2 =
b2 − hb2 , o1 io1 . kb2 − hb2 , o1 io1 k
Ora che abbiamo o1 e o2 , dobbiamo costruire o3 , che deve soddisfare le due richieste di ortogonalit`a o3 ⊥ o1 e o3 ⊥ o2 . Il trucco e` quello di porre o3 =
b3 − hb3 , o2 io2 − hb3 , o1 io1 . kb3 − hb3 , o2 io2 − hb3 , o1 io1 k
In generale, ok =
bk − ∑k−1 i=1 hbk , oi ioi kbk − ∑k−1 i=1 hbk , oi ioi k
,
per ogni k = 1, . . . , n. Osservazione 1.20. Come forse si intruisce dalla dimostrazione, la parte interessante e` l’ortogonalit`a. Il fatto che i vettori abbiano norma uguale ad 1 pu`o essere sempre imposto, dividendo ogni vettore per la propria norma. Proposizione 1.9. Sia {o1 , . . . , on } una base ortonormale di uno spazio vettoriale V di dimensione n. Allora ogni v ∈ V possiede la rappresentazione unica v = hv, o1 io1 + . . . + hv, on ion .
1.11 Basi ortonormali
27
Dimostrazione. E` gi`a noto che ogni v ∈ V si scrive in modo unico nella forma v = λ1 o1 + . . . + λn on , dal momento che {o1 , . . . , on } e` una base di V . Ora, hv, o1 i = λ1 ho1 , o1 i + . . . + λn ho1 , on i = λ1 in virt`u dell’ortonormalit`a della base. Similmente λ2 = hv, o2 i,. . . , λn = hv, on i. Definizione 1.28. Sia V uno spazio vettoriale con prodotto scalare, di dimensione finita. Sia poi W un suo sottospazio vettoriale. Lo spazio ortogonale a W e` W ⊥ = {v ∈ V | v ⊥ w per ogni w ∈ W }. Si dimostra (esercizio!) che W ⊥ e` un sottospazio vettoriale di W . Teorema 1.10 (Decomposizione ortogonale dei sottospazi). Sia V uno spazio vettoriale con prodotto scalare, di dimensione finita n. Sia poi W un suo sottospazio vettoriale non ridotto al solo {0}. Allora ogni v ∈ V si scrive in maniera unica come v = w + w⊥ , per qualche w ∈ W e w⊥ ∈ W ⊥ . Dimostrazione. Sia {w1 , . . . , wd } una base ortonormale di W , che completiamo ad una base di V . Adesso applichiamo il procedimento di Gram–Schmidt ed otteniamo una base ortonormale di V {w1 , . . . , wd , zd+1 , . . . , zn } i cui primi d vettori sono una base ortonormale di W . Quindi ogni v ∈ V si scrive in maniera unica come v = λ1 w1 + . . . + λd wd + µd+1 zd+1 + . . . + µn zn . Ora, v − (λ1 w1 + . . . + λd wd ) ⊥ W : infatti, per ogni elemento wi della base (i = 1, . . . , d) risulta hv − (λ1 w1 + . . . + λd wd ), wi i = hv, wi i − λi = 0 grazie alla Proposizione precedente. Poich´e v − (λ1 w1 + . . . + λd wd ) e` ortogonale a tutti gli elementi della base di W , esso e` ortogonale a tutto lo spazio W . Quindi ⊥ v = w⊥ a di w , dove w = λ1 w1 + . . . + λd wd e w = v − (λ1 w1 + . . . + λd wd ). L’unicit` questa rappresentazione segue immediatamente dal fatto che i coefficienti λi e µi sono unici. Osservazione 1.21. Il teorema precedente continua a valere in un ambito molto pi`u generale, quello degli spazi di Hilbert di dimensione arbitraria. La dimostrazione proposta non si estende per`o a questo caso molto pi`u complesso. Sarebbe stato possibile invece adattare la dimostrazione del caso “difficile” al nostro caso pi`u semplice, ma in ogni caso servirebbero nozioni di calcolo differenziale per funzioni di pi`u variabili, e di topologia elementare.
Capitolo 2
Matrici
Definizione 2.1. Una matrice e` una tabella rettangolare formata da un numero n di righe ed un numero m di colonne, al cui interno appaiono dei numeri reali: a11 a12 . . . a1m a21 a22 . . . a2m .. .. . . .. . . . . an1 an2 . . . anm Per brevit`a e per ovvie ragioni tipografiche, si scrive spesso una matrice come [ai j ]i=1,...,n, j=1,...,m , o addirittura [ai j ] quando sia chiaro dal contesto il numero di righe e di colonne. Si dice che una matrice e` di tipo n × m se e` composta da n righe ed m colonne.
Le matrici possiedono una struttura alebrica abbastanza intuibile. Se A = [ai j ] e B = [bi j ] sono due matrici n × m, e se λ e` uno scalare. possiamo sommare A e B e moltiplicarle per λ secondo le regole seguenti: A + B = [ai j + bi j ],
λ A = [λ ai j ].
In breve, le matrici si sommano termine a termine, e si moltiplicano termine a termine per gli scalari. Ribadiamo con forza che non e` possibile sommare due matrici di tipo diverso: esse devono avere lo stesso numero di righe e lo stesso numero di colonne. Mai commettere l’errore di operare algebricamente con matrici di tipo diverso! Molto diverso e` il caso del prodotto di due matrici. Definizione 2.2. Sia A = [ai j ] una matrice n × m, e sia B = [bi j ] una matrice m × k. Allora il prodotto C = AB e` la matrice C = [ci j ] di tipo n × k, i cui termini sono descritti dalla formula 29
30
2 Matrici m
ci j =
∑ ai` b` j ,
per ogni i = 1, . . . , n e j = 1, . . . , k.
`=1
Osservazione 2.1. Occorre prestare un’attenzione particolare alle dimensioni delle due matrici da moltiplicare: il numero di colonne della prima matrice deve coincidere con il numero di righe della seconda. Quindi e` possibile moltiplicare una matrice 2 × 3 per una matrice 3 × 5 (e il risultato sar`a una matrice 2 × 5), ma non e` possibile moltiplicare una matrice 3 × 5 per una matrice 2 × 3! Invece, e` sempre possibile moltiplicare fra loro matrici quadrate di uguale dimensione. Osservazione 2.2. Anche nell’ambito delle matrici quadrate, il prodotto non e` commutativo. Pi`u dettagliatamente, e` falso in generale che AB = BA, anche per matrici quadrate della stessa dimensione. Vediamo un esempio. Siano 12 −1 2 A= B= 34 3 4 Allora AB = mentre
5 10 9 22
5 6 BA = 15 22
La ragione profonda alla base di questa mancanza di commutativit`a sar`a pi`u chiara quando impareremo che una matrice e` semplicemente la rappresentazione di un’applicazione lineare, e che il prodotto di due matrici corrisponde esattamente alla composizione delle rispettive applicazioni lineari. Siccome la composizione di funzioni non e` commutativa, non lo pu`o essere nemmeno il prodotto di matrici. Definizione 2.3. Una matrice A = [ai j ] n × n e` diagonale se ai j = 0 per ogni i 6= j, cio`e se tutti i suoi elementi fuori dalla diagonale discendente sono nulli. Poich´e gli unici elementi di interesse in una matrice diagonale sono i termini della diagonale discendente, e` conveniente alleggerire la notazione e scrivere ad esempio a00 diag[a, b, c] = 0 b 0 00c Definizione 2.4. La matrice quadrata I = [ai j ] (a volte denotata anche con In per indicarne la dimensione n × n) e` la matrice, detta matrice identica n × n, 1 0 0 ... 0 1 0 . . . .. .. .. .. . . . . 0 0 ... 1
2 Matrici
31
in cui aii = 1 per ogni i, e ai j = 0 per ogni i 6= j. Brevemente, In = diag[1, 1, . . . , 1]. Osservazione 2.3. La matrice In e` il cosiddetto elemento neutro per la moltiplicazione matriciale, e gioca lo stesso ruolo del numero reale 1 per la moltiplicazione fra numeri. Infatti, si verifica immediatamente che AIn = In A = A per ogni matrice A di tipo n × n. Osservazione 2.4. Le matrici diagonali (che, lo ricordiamo, sono sempre quadrate) sono di facile uso nel calcolo algebrico. Ad esempio, se A = diag[a1 , . . . , an ] e B = diag[b1 , . . . , bn ] sono due matrici diagonali, allora A + B = diag[a1 + b1 , . . . , an + bn ] AB = diag[a1 b1 , . . . , an bn ]. In particolare, il prodotto di due matrici diagonali e` sempre commutativo, a differenza del prodotto di due matrici qualunque. Inoltre, una matrice diagonale e` invertibile se, e solo se, tutti i suoi termini sono diversi da zero, ed in tal caso la matrice inversa e` la matrice diagonale i cui termini sono i reciproci dei termini della matrice di partenza. Si veda pi`u sotto la definizione di matrice inversa. Definizione 2.5. Sia A = [ai j ] una matrice n × m. La matrice traposta di A, indicata con il simbolo At , e` la matrice m × n (attenzione allo scambio di n con m) il cui termine di posto (i, j) e` a ji . In poche parole, la matrice colonne. Ad esempio a11 a21 a31
trasposta si calcola scambiando le righe con le t a12 a11 a21 a31 a22 = a12 a22 a32 a32
Osservazione 2.5. In particolare, e` sempre possibile calcolare i prodotti AAt e At A, indipendentemente dalla forma della matrice A. Lemma 2.1. Siano A e B due matrici tali che AB sia calcolabile. Allora (AB)t = Bt At . Dimostrazione. Supponiamo che A si adi tipo n × k, e B sia di tipo k × m. Quindi AB e` una matric n × m. L’elemento di posizione (i, j) di AB e` ∑k`=1 ai` b` j . L’elemento di posizione ( j, i) di Bt At e` ∑k`=1 b` j ai` . Quindi la tesi e` dimostrata. Definizione 2.6. Sia A una matrice quadrata n × n. Si dice che essa e` invertibile se esiste una matrice, denotata A−1 , tale che AA−1 = A−1 A = In Osservazione 2.6. E` chiaro che anche A−1 , se esiste, deve essere una matrice quadrata n×n. Meno chiaro e` che di matrice inversa ne pu`o esistere al pi`u una. In effetti, e` fondamentale sapere che la matrice inversa, se esiste, e` unica; se non fosse cos`ı, tuta la teoria dei sistemi di equazioni lineari sarebbe quasi priva di utilit`a.
32
2 Matrici
Lemma 2.2. Se una matrice A possiede un’inversa, allora tale inversa e` unica. Dimostrazione. Sia A−1 la matrice inversa, e supponiamo che anche S sia una matrice inversa, cio`e AS = SA = I. Allora S = SI = SAA−1 = (SA)A−1 = IA−1 = A−1 . Purtroppo, l’invertibilit`a di una generica matrice quadrata non e` soltanto definita in modo non computazionale, ma addirittura potrebbe essere falsa! Ad esempio, la matrice 10 00 non possiede un’inversa. Rimandiamo la discussione di questo fatto alla sezione sul determinante.
2.1 Applicazioni lineari e loro matrici Consideriamo una applicazione lineare T : V → W fra due spazi vettoriali di dimensione (finita) n ed m, rispettivamente. Possiamo supporre che V abbia una base B(V ) = {b1 , . . . , bn }, e W abbia una base B(W ) = {b01 , . . . , b0m }. Consideriamo l’immagine T b1 ∈ W di b1 . Come tutti i vettori di W , esso possiede una rappresentazione come combinazione lineare dei vettori b01 , . . . , b0m della base di W . Ad esempio, T b1 = a11 b01 + a21 b02 + . . . + am1 b0m . Similmente, T b2 = a12 b01 + a22 b02 + . . . + am2 b0m , e cos`ı via. Definizione 2.7. La matrice associata a T a11 a12 a21 a22 .. .. . .
e` ... ... .. .
a1n a2n .. .
am1 am2 . . . amn Osservazione 2.7. Attenti all’ordine degli indici. La prima colonna della matrice e` la sequenza degli scalari che rappresentano T b1 . La seconda colonna della matrice e` la sequenza degli scalari che rappresentano T b2 , e cos`ı via. Esempio 2.1. Per capire meglio, consideriamo n = dimV = 2 e m = dimW = 3. Siano {b1 , b2 } e {b01 , b02 , b03 } le rispettive basi. Il generico v ∈ V si pu`o scrivere v = λ1 b1 + λ2 b2 . Per linearit`a,
2.1 Applicazioni lineari e loro matrici
33
T v = λ1 T b1 + λ2 T b2 = λ1 (a11 b01 + a21 b02 + a31 b03 ) + λ2 (a12 b01 + a22 b02 + a32 b0 3). = = (λ1 a11 + λ2 a12 )b01 + (λ1 a21 + λ2 a22 )b02 + (λ1 a31 + λ2 a32 )b03 . E qui capiamo che i coefficienti di T v rispetto alla base {b01 , b02 , b03 } sono esattamente le componenti del prodotto fra la matrice che rappresenta T e la matrice λ1 λ2 Riassumendo, se v ∈ V e` rappresentato dal vettore colonna v1 v2 .. . vn rispetto ad una base fissata (cio`e v = v1 b1 + . . . + vn bn ), allora T v e` il vettore rappresentato dal prodotto a11 a12 . . . a1n v1 a21 a22 . . . a2n v2 .. .. . . .. .. . . . . . am1 am2 . . . amn
vn
dove [ai j ] e` la matrice associata all’applicazione T . Per questo motivo, d’ora in avanti, i vettori saranno scritti in colonna. Osservazione 2.8. Molti si domandano perch´e il numero di righe della matrice associata a T sia la dimensione dello spazio di arrivo, e non di quello di partenza. In simboli, T : V → W , dove n = dimV e m = dimW , e` rappresentata da una matrice m × n, le cui colonne sono i coefficienti di sviluppo lungo la base di W dei singoli vettori della base di V . Ecco: perch´e le colonne e non le righe? La risposta e` che si tratta di una mera convenzione. Avremmo potuto costruire la matrice mettendo in riga i coefficienti di sviluppo lungo la base di W dei singoli vettori della base di V . Allora T sarebbe stata rappresentata dalla matrice trasposta di quella della Definizione (2.7). Probabilmente, questo approccio ha avuto minore fortuna1 a causa della relativa innaturalit`a del calcolo dei valori di T . Infatti, il vettore T v ∈ W dovrebbe essere espresso mediante il prodotto
1
Ma esistono libri che l’hanno seguita, ad esempio il celeberrimo testo di algebra di Herstein, Algebra, Editori Riuniti. In questo libro, il valore di un operatore lineare T nel punto x e` scritto xT .
34
2 Matrici
a11 a21 a 12 a22 v1 v2 . . . vn . .. .. . a1m a2m
... ... .. .
an1 an2 .. .
. . . anm
Morale della favola: se ci si ostina a scrivere i vettori in riga, allora occorre premoltiplicare la matrice rappresentativa. Per usare la notazione pi`u familiare in cui il vettore e` a destra della matrice, occorre concordare di scrivere sempre i vettori come colonne. Tutto sommato, una notazione come Av ricorda pi`u da vicino la simbologia T v, e ci sembra preferibile adeguarci alla convenzione di maggioranza. Se ogni applicazione lineare e` individuata da una matrice, la somma di matrici rappresenta evidentemente la somma di operatori. Non e` per`o altrettanto scontato dare un senso funzionale al prodotto di matrici. Nella prossima proposizione, impareremo che il prodotto di matrici non rappresenta un’operazione algebrica, ma un’operazione di composizione fra funzioni. Definizione 2.8. Siano V , U e W tre spazi vettoriali, e siano T : V → U, S : U → W due applicazioni lineari. La composizione S ◦ T : V → W e` l’applicazione lineare che opera come S ◦ T (v) = S(T v) per ogni v ∈ V . Proposizione 2.1. Siano V , U e W tre spazi vettoriali, e siano T : V → U, S : U → W due applicazioni lineari. Se A e` la matrice rappresentativa di S, e T la matrice rappresentativa di T , allora C = AB e` la matrice rappresentativa di S ◦ T . Dimostrazione. Infatti, per ogni v ∈ V , T v e` il vettore Bv. Inoltre, S(T v) e` il vettore A(Bv). Ma si verifica immediatamente che A(Bv) = (AB)v. Pertanto S ◦ T (v) e` rappresentato dal vettore (AB)v. Poich´e v e` arbitrario, la dimostrazione e` completa. Osservazione 2.9. Una volta di pi`u, ci convinciamo che il prodotto di matrici non pu`o godere della propriet`a commutativa. E` infatti ben noto che la composizione di funzioni (anche lineari) non e` commutativa. Ricordiamo che un’applicazione T : V → W e` invertibile (nel senso delle funzioni) se esiste un’applicazione (necessariamente lineare) T −1 : W → V tale che T ◦ T −1 : W → W e` l’applicazione identica di W , e T −1 ◦ T : V → W e` l’applicazione identica di V . Con il termine di applicazione identica su uno spazio V intendiamo l’applicazione IV : V → V definita da IV v = v per ogni v ∈ V . Proposizione 2.2. Siano V e W due spazi vettoriali di dimensione n < ∞. Un’applicazione lineare T : V → V e` invertibile (in senso funzionale) se e solo se la sua matrice associata possiede un’inversa. Dimostrazione. L’esistenza di un operatore T −1 tale che T ◦ T −1 = IW e T −1 ◦ T = IV significa, passando alle matrici rappresentative rispetto a due basi fissate di V e di W , l’esistenza di una matrice A−1 tale che AA−1 = A−1 A = I, dove A indica la matrice rappresentativa di T .
2.1 Applicazioni lineari e loro matrici
35
Osservazione 2.10. La richiesta che dimV = dimW e` una condizione necessaria afficnch´e un’applicazione lineare di V in W possieda un’inversa. Infatti, un’applicazione lineare e` invertibile se e solo se e` inieittiva e suriettiva. Questo significa che manda una base di V in una base di W , e pertanto ogni base di V deve avere lo stesso numero di elementi di ogni base di W . L’ultima Proposizione ci fornisce uno strumento estremamente versative per dire se una data applicazione lineare (fra spazi di uguale dimensione) sia invertibile: basta invertire la matrice rappresentativa, rispetto al prodotto matriciale. Gi`a, ma come si calcola l’inversa (moltiplicativa) di una matrice quadrata? Lo impareremo presto, quando avremo a disposizione il concetto di determinante. Completiamo questa sezione mostrando come cambia la matrice rappresentativa al variare delle basi scelte in V e in W . Infatti, sebbene abbiamo preferito non appesantire la notazione, la matrice rappresentativa di una data applicazione lineare T : V → W dipende in maniera essenziale dalle due basi fissate in V e in W . E` d’altronde chiaro che di basi ne esistono a volont`a, e quindi dobbiamo domandarci che cosa succeda alla matrice rappresentativa se la calcoliamo rispetto a due diverse coppie di basi. Schematizziamo la situazione. Consideriamo due basi B(V ) = {b1 , . . . , bn } e B(V ) = {b1 , . . . , bn } di V , e similmente B(W ) = 0 0 {b01 , . . . , b0m } e B(W ) = {b1 , . . . , bm } di W . Sono ben definite due applicazioni, dette di cambiamento di base E : V → V e E 0 : W → W definite rispettivamente da E bi = bi 0
E 0 b0j = b j per i = 1, 2, . . . , n e j = 1, 2, . . . , m. Siano E ed E 0 le due rispettive matrici rappresentative: E sar`a n × n ed E 0 sar`a m × m. Poich´e E e E 0 mandano basi in basi, sono due applicazioni lineari invertibili. Prendiamo ora un generico vettore v ∈ V , “pensato” rispetto alla base B(V ). Mediante E −1 lo “pensiamo” rispetto alla base B(V ): a questo punto, l’applicazione T manda questo vettore in T v, “pensato” rispetto alla base B(W ). Per finire, “pensiamo” questo vettore T v rispetto alla base B(W ), e facciamo questo semplicemente applicando ad esso E 0 . Dal punto di vista funzionale, abbiamo detto che l’applicazione T “pensata” fra le basi B(V ) e B(W ) e` esattamente E 0 ◦ T ◦ E −1 . Passando alle matrici rappresentative, abbiamo dimostrato il seguente teorema.
Teorema 2.1. Siano V e W due spazi vettoriali di dimensione finita n ed m, rispettivamente, e sia T : V → W un’applicazione lineare. Consideriamo due basi B(V ) = {b1 , . . . , bn } e B(V ) = {b1 , . . . , bn } di V , e similmente 0 0 B(W ) B(W ) = {b01 , . . . , b0m } e B(W ) = {b1 , . . . , bm } di W . Indichiamo con AB(V ) la B(W )
matrice rappresentativa di T rispetto alla prima coppia di basi, e con AB(V ) la matrice rappresentativa di T rispetto alla seconda coppia di basi. Allora vale la relazione
36
2 Matrici
B(W )
B(W )
AB(V ) = E 0 AB(V ) E −1 , dove E e` la matrice rappresentativa del cambiamento di base E : V → V , e E 0 e` la matrice rappresentativa del cambiamento di base E 0 : W → W .
Corollario 2.1. Sia V uno spazio vettoriale di dimensione finita n, e sia T : V → V un’applicazione lineare. Consideriamo due basi B(V ) = {b1 , . . . , bn } e B(V ) = {b1 , . . . , bn } di V , e indichiamo con AB(V ) la matrice rappresentativa di T rispetto alla base B(V ), e con AB(V ) la matrice rappresentativa di T rispetto alla base B(V ). Allora vale la relazione
AB(V ) = EAB(V ) E −1 , dove E e` la matrice rappresentativa del cambiamento di base E : V → V che manda la prima base nella seconda. Definizione 2.9. Due matrici quadrate A e B si dicono coniugate se esiste una matrice invertibile S tale che B = SAS−1 . Notiamo che la condizione di coniugio e` sempre simmetrica rispetto alle due matrici. Infatti da B = SAS−1 deriva, moltiplicando a sinistra per S−1 e a destra per S che A = S−1 AS. Pertanto, non esiste una “direzione privilegiata” di coniugio. Con questa terminologia, il Corollario 2.1 si esprime dicendo che due matrici rappresentano la stessa applicazione lineare rispetto a due basi diverse se e solo se queste matrici sono coniugate. In tal caso, la matrice di coniugio e` quella che rappresenta l’applicazione di cambiamento di base. Lasciamo come esercizio la dimostrazione della seguente affermazione. Proposizione 2.3. Siano X e Y due spazi vettoriali di dimensione finita, e sia A la matrice rappresentativa di T rispetto a due basi B(X) e B(Y ) di X e Y , rispettivamente. Allora la matrice rappresentativa dell’operatore aggiunto T 0 : Y 0 → X 0 , rispetto alle basi duali B 0 (Y 0 ) e B 0 (X 0 ) e` At , la trasposta di A.
2.2 Il determinante Questa sezione e` forse la pi`u problematica dell’intera teoria del calcolo matriciale. Ci accingiamo infatti ad introdurre uno strumento prezioso ma tecnicamente piuttosto difficile da realizzare. Esistono due diversi approcci alla teoria dei determinanti: il primo, forse il pi`u diffuso nei testi di algebra lineare, e` basato sulla teoria delle permutazioni di un numero finito di oggetti. Questo approccio e` decisamente conciso ed elegante, almeno per chi conosce gi`a la teoria delle permutazioni. In questo
2.2 Il determinante
37
breve corso non abbiamo il tempo per studiare questo ramo dell’algebra combinatorica, e preferiamo seguire la seconda strada, che fra l’altro presenta l’indubbio vantaggio di essere molto pratica dal punto di vista computazionale. Prima di entrare nei dettagli, diciamo che il determinante e` un ente matematico che permette di risolvere i sistemi lineari di equazioni, di calcolare i cosidetti autovalori di una matrice, e di trovare una rappresentazione concreta e calcolabile della matrice inversa. Molto del materiale di questa sezione e` ispirato a [6]. Definizione 2.10. Sia A=
a11 a12 a21 a22
una matrice 2 × 2. Definiamo il suo determinante come il numero reale det A = a11 a22 − a21 a12 .
(2.1)
Per memomorizzare questa definizione, osserviamo che il determinante si calcola facendo il prodotto degli elementi della diagonale “discendente” meno il prodotto degli elementi della diagonale “ascendente”. Osservazione 2.11. Avremmo anche potuto definire il determinante di una generica matrice 1 × 1 [a11 ] come a11 . E` chiaro che non si tratta di una gran definizione, ma si trova spesso nei libri per ragioni di completezza. Infatti, una matrice 1 × 1 rappresenta un’applicazione lineare di uno spazio di dimensione 1 in se stesso. Ora si pone il problema di definire il determinante per matrici 3 × 3. Se per`o vogliamo essere pragmatici, faremmo meglio a definire il determinante di una matrice quadrata di ordine n ≥ 3 qualsiasi, riducendone il calcolo a quello di opportuni determinanti di matrici 2 × 2. Per fare questo, ci serve una definizione ausiliaria. Definizione 2.11. Sia A = [ai j ] una matrice n × m (eventualmente n 6= m). Fissati due indici 1 ≤ j ≤ n e 1 ≤ j ≤ m, chiamiamo matrice complementare di posto (i, j) la matrice Aij di tipo (n − 1) × (m − 1) ottenuta cancellando la i–esima riga e la j–esima colonna di A. Quindi, una matrice n × m possiede nm matrici complementari, una per ogni suo elemento. In pratica, si mette la punta della matita sull’elemento ai j di posto (i, j), e si cancellano la riga e la colonna che si incrociano in ai j . Cos`ı facendo, la matrice A perde una riga ed una colonna, e ci ritroviamo con una matrice Aij di n − 1 righe e m − 1 colonne. Esempio 2.2. Scriviamo esplicitamente tutte le matrici complementari di a11 a12 A= a21 a22 Ognuna di esse sar`a una matrice 1 × 1: A11 = [a22 ], A21 = [a21 ], A12 = [a12 ], e A22 = [a11 ]. Cominciamo ad osservare che det A = a11 det A11 − a21 det A12 .
38
2 Matrici
Definizione 2.12. Il determinante di una matrice quadrata A = [ai j ] di dimensione n × n e` il numero reale n
det A = ∑ (−1)i+ j det Aij ,
(2.2)
i=1
dove j e` un indice fissato di colonna.
Perch´e questa e` una buona definizione? Per il momento, non lo e` . Dovremmo innanzitutto dimostrare che il numero det A e` indipendente dalla colonna j fissata per il calcolo. Per`o siamo fiduciosi: il calcolo di un determinante 3 × 3 e` ridotto al calcolo di tre determinanti 2 × 2, che sappiamo sempre calcolare. Quindi sappiamo calcolare ogni determinante 3 × 3, e alla stessa maniera sappiamo calcolare tutti i determinanti 4 × 4 riducendoli a determinanti 3 × 3. Osservazione 2.12. Ogni matrice pu`o essere immaginata come l’accostamento delle sue colonne: in altri termini, una matrice e’ una “riga di colonne”. Dalla Definizione segue che il determinante e` proprio concepito come una funzione delle colonne della matrice. In questo corso non presenteremo una teoria completa del determinante. In effetti, si potrebbe dimostrare che esiste un’unica funzione determinante, che soddisfi tre propriet`a.
Teorema 2.2 (Unicit`a del determinante). Per ogni n ≥ 1, esiste un’unica funzione det, a valori reali, che ad ogni matrice n × n associa un numero det A con le propriet`a 1. Il determinante e` lineare nelle colonne di A. 2. Il determinante cambia segno se si scambiano due colonne. 3. Il determinante della matrice identica vale sempre 1.
Se accettiamo questo risultato, possiamo definire il determinante a nostro piacere, a patto che le propriet`a 1 2 e 3 siano soddisfatte. In particolare, valgono le seguenti affermazioni. Proposizione 2.4. Il valore del determinante non dipende dalla colonna scelta per lo sviluppo. Inoltre, il determinante pu`o essere calcolato equivalentemente sviluppando per righe: n
det A =
∑ (−1)i+ j ai j det Aij ,
j=1
2.2 Il determinante
39
dove i e` l’indice di una qualsiasi riga di A. Dimostrazione. E` immediato verificare che il determinante rispetto ad una colonna soddisfa le propriet`a 1, 2 e 3, e quindi coincide con l’unica funzione determinante. Similmente, lo sviluppo secondo una qualunque delle righe di A produce una funzione che soddisfa 1, 2 e 3. Quindi tutte queste quantit`e devono coincidere con il determinante. Proposizione 2.5. Per ogni matrice A di tipo n × n, risulta det A = det At . Dimostrazione. Nel caso n = 2, la dimostrazione segue direttamente dalla formula esplicita (2.1). Nel caso n = 3, dobbiamo dimostrare che scambiano fra loro le righe e le colonne della matrice A, il determinante non cambia. Ora, per definizione, det A = a11 det A11 − a21 det A12 + a31 det A13 e` lo sviluppo secondo la prima colonna del determinante di A. Facciamo la stessa cosa per il determinante di At : det At = a11 det(At )11 − a21 det(At )12 + a31 det(At )13 . Ma questo e` lo sviluppo del determinante di A secondo la prima riga! Infatti, ogni matrice complementare di At ha determinante uguale a quello della corrispondente matrice complementare trasposta di A, perch´e e` di tipo 2 × 2. Ma abbiamo gi`a imparato che il determinante pu`o essere calcolato indifferentemente sviluppando secondo le righe o secondo le colonne, e dunque det At = det A per ogni matrice 3 × 3. Nel caso generale n ≥ 3, e` sufficiente osservare che il determinante si riduce, passo dopo passo, al determinante 3 × 3, e quindi la proposizione e` completamente dimostrata. Osservazione 2.13. Tutta la teoria del determinante potrebbe naturalmente essere sviluppata senza far ricorso al teorema di unicit`a. Il prezzo da pagare sarebbe per`o quello di dimostrare a mano tutte le propriet`a, a partire da una definizione particolare di determinante. Nella maggioranza dei testi di algebra lineare, ed in particolar modo in quelli dove il determinante e` introdotto a partire dalle permutazioni, occorre dimostrare che il determinante per righe coincide con quello per colonne usando solo le propriet`a delle permutazioni. Esempio 2.3. Il determinante di una matrice diagonale e` il prodotto dei numeri della diagonale: det diag[a1 , . . . , an ] = a1 a2 · · · an . La verifica di questa affermazione presenta una simpatica caratteristica di autosimilarit`a. Infatti, calcoliamo il determinante sviluppando secondo la prima colonna. Ora, l’unico elemento non nullo e` a1 , e quindi det diag[a1 , . . . , an ] = a1 det A11 . Ma A11 e` la matrice diagonale diag[a2 , . . . , an ], e quindi det A11 = a2 det A22 . Dunque det diag[a1 , . . . , an ] = a1 a2 det A22 . Ripetendo questo ragionamento, det diag[a1 , . . . , an ] = a1 a2 · · · an .
40
2 Matrici
Esempio 2.4. Per il determinante delle matrici 3 × 3, e` popolare la cosiddetta formula di Sarrus, che descriviamo in modo quasi grafico. Consideriamo una matrice A = [ai j ], 1 ≤ i ≤ 3, 1 ≤ j ≤ 3. Affianchiamo, a destra, le prime due colonne di A: a11 a12 a13 a11 a12 a21 a22 a23 a21 a22 a31 a32 a33 a31 a32 Ora, partendo da a11 , moltiplichiamo gli elementi delle diagonali discendenti, e sommiamo questi prodotti: a11 a22 a33 + a12 a23 a31 + a13 a21 a32 . Partendo invece da a31 in basso a sinistra, moltiplichiamo gli elementi delle diagonali ascendenti, e sommiamo questi prodotti: a31 a22 a13 + a32 a23 a11 + a33 a21 a12 . Il determinante vale allora det A = a11 a22 a33 + a12 a23 a31 + a13 a21 a32 − (a31 a22 a13 + a32 a23 a11 + a33 a21 a12 ) . Spesso si memorizza questa regola di calcolo dicendo che “il determinante e` il prodotto delle diagonali discentendi meno il prodotto delle diagonali ascendenti”. Naturalmente non c’`e niente di misterioso o magico in questa formula, ed anzi invitiamo lo studente a riordinare i termini della formula di Sarrus per convincersi che si tratta effettivamente del determinante.
2.3 Approfondimento: il determinante come funzione delle colonne Il determinante non e` solo genericamente una funzione delle matrici, ma pi`u precisamente delle colonne (o delle righe) delle matrici. Rendiamo precisa questa affermazione in un teorema che e` ancora una completa caratterizzazione del determinante.
Teorema 2.3. ad ogni matrice n × n A, possiamo associare un numero reale det A, denotato anche con det(A1 , . . . , An ), dove A1 , . . . , An sono le colonne di A, in modo che le seguenti propriet`a risultino soddisfatte: 1. il determinante, come funzione di ogni vettore colonna, e` lineare, cio`e, se la j–esima colonna A j e` la somma di due vettori colonne, per esempio A j = C +C0 , allora
2.3 Approfondimento: il determinante come funzione delle colonne
41
det(A1 , . . . ,C +C0 , . . . An ) = = det(A1 , . . . ,C, . . . An ) + det(A1 , . . . ,C0 , . . . An ). Inoltre, se t ∈ R, allora det(A1 , . . . ,tA j , . . . , An ) = t det(A1 , . . . , An ). 2. Se due colonne contingue sono uguali, cio`e se A j = A j+1 per qualche valore di j fra 1 e n − 1, allora det A = 0. 3. Se In e` la matrice identica n × n, allora det In = 1. In pi`u, esiste un’unica applicazione soddisfacente 1, 2 e 3.
Questo teorema, che caratterizza univocamente la funzione determinante, porta con s´e alcune propriet`a utili. Corollario 2.2. 1. Sia j un intero positivo e minore di n. Se le colonne j–esima e ( j + 1)–esima sono scambiate, allora il determinante cambia di segno. 2. Se due colonne Ai e A j , i 6= j, sono uguali, allora det A = 0. 3. Se si addiziona ad una colonna un multiplo scalare di un’altra, il valore del determinante non cambia. Dimostrazione. Nella matrice A, sostituiamo alle colonne j–esima e ( j + 1)–esima il vettore colonna A j + A j+1 . Otteniamo una matrice con due colonne contigue uguali, e dunque con determinante nullo. Ma 0 = det(A1 , . . . , A j + A j+1 , A j + A j+1 , . . . , An ) = det(A1 , . . . , A j , A j , . . .) + det(A1 , . . . , A j+1 , A j , . . .) + + det(A1 , . . . , A j , A j+1 , . . .) + det(A1 , . . . , A j+1 , A j+1 , . . .). Poich´e det(A1 , . . . , A j , A j , . . .) = det(A1 , . . . , A j+1 , A j+1 , . . .) = 0, abbiamo dimostrato la propriet`a 1. Per dimostrare la propriet`a 2, osserviamo che se due colonne di A sono uguali, possiamo scambiare successivamente le colonne finch´e non otteniamo una matrice con due colonne adiacenti uguali. Ognuno di questi scambi cambia il segno del determinante, ma questo non interferisce con il fatto che il determinante sia nullo oppure no. Siccome una matrice con due colonne adiacenti uguali ha determinante nullo (propriet`a 1), anche il punto 2 risulta dimostrato. La dimostrazione dell’ultimo punto richiede un po’ di attenzione. Prendiamo due colonne diverse, diciamo A j e Ak , j 6= k. Alla colonna Ak aggiungiamo il vettore colonna tA j . Per la linearit`a rispetto alle colonne, det(A1 , . . . , Ak + tA j , . . . , An ) = det(A1 , . . . , Ak , . . . , An ) + t det(A1 , . . . , A j , . . . , An ),
42
2 Matrici
e osserviamo che (A1 , . . . , A j , . . . , An ) denota qui la matrice in cui la riga k–esima e` rimpiazzata dalla riga j–esima. Quindi det(A1 , . . . , A j , . . . , An ) = 0. Per concludere, basta osservare che (A1 , . . . , Ak , . . . , An ) = A.
2.4 La regola di Cramer
Teorema 2.4. Sia A una matrice tale che det A 6= 0, e indichiamo con A1 , . . . , An le sue colonne. Sia b ∈ Rn un vettore colonna. Se x1 , . . . , xn sono numeri reali tali che x1 A1 + x2 A2 + . . . + xn An = b, allora, per ogni j = 1, . . . , n, abbiamo: xj =
det(A1 , . . . , A j−1 , b, A j+1 , . . . , An ) , det A
dove b occupa la j–esima colonna invece di A j .
Dimostrazione. Per ogni indice i, dalle propriet`a del determinante segue che a11 . . . a1i xi . . . a1n xi det A = det ... ... ... ... ... an1 . . . ani xi . . . ann Ma sappiamo che se sommiamo ad una colonna un multiplo di una differente colonna, il determinante non cambia valore. Sommiamo sunque alla i–esima colonna dell’ultima matrice scritta sopra x1 moltiplicato per la prima colonna, poi x2 moltiplicato per la seconda colonna, e cos`ı via. Otteniamo infine che xi det A vale a11 . . . a1 i−1 (a11 x1 + a12 x2 + . . . + a1n xn ) a1 i+1 . . . a1n .. .. .. .. .. det ... ... . . . . . an1 . . . an i−1 (an1 x1 + an2 x2 + . . . + ann xn an i+1 . . . ann Ma la i–esima colonna coincide ora per ipotesi con il vettore colonna b. Quindi xi det A = det(A1 , . . . , A j−1 , b, A j+1 , . . . , An ), e la dimostrazione e` completa. Questo teorema permette di risolvere, almeno in linea di principio, tutti i sistemi di equazioni lineari del tipo
2.4 La regola di Cramer
43
Ax = b, sotto l’ipotesi che det A 6= 0. In effetti, per un sistema quadrato di n equazioni lineari in n incognite, questa condizione sul determinante non e` soltanto suficiente per la risolubilit`a del sistema, ma anche necessaria. Proposizione 2.6. Una matrice quadrata A e` invertibile se e solo se det A 6= 0. Dimostrazione. Se A e` invertibile, sappiamo gi`a che det A 6= 0. Dimostriamo allora il viceversa, supponendo cio`e che det A 6= 0. Per il teorema di Cramer, il sistema di equazioni a11 x1 + . . . + a1n xn = b1 a12 x1 + . . . + a2n xn = b2 ... ... ... a1n x1 + . . . + ann xn = bn pu`o essere risolto rispetto alle incognite x1 , . . . , xn per ogni scelta di b1 , . . . , bn . Pensata come applicazione lineare fra Rn e Rn , A e` dunque suriettiva, e poich´e lo spazio di partenza e quello di arrivo hanno la stessa dimensione (finita), e` anche iniettiva. Dunque, come applicazione lineare A possiede un’inversa, la cui matrice rappresentativa e` necesariamente la matrice inversa di A. Riassumendo, se dobbiamo risolvere un sistema del tipo a11 x1 + . . . + a1n xn = b1 a12 x1 + . . . + a2n xn = b2 ... ... ... a1n x1 + . . . + ann xn = bn , ci basta controllare il valore del determinante della matrice associata A. Il sistema possiede una ed una soluzione, calcolabile utilizzando la regola di Cramer, se e solo se questo determinante e` diverso da zero. Osservazione 2.14. Se il numero di equazione e` diverso dal numero delle incognite, il panorame e` decisamente pi`u complesso. Un sistema Ax = b, dove A e` n × m, x e` un vettore colonna di m righe e b un vettore di n righe assegnato, innanzitutto pu`o essere risolto per alcuni b ma non per altri. Questo fenomeno e` sconosciuto per i sistemi quadrati. Nei fatti, un sistema e` sempre interpretabile come la ricerca di una controimmagine x del vettore b, rispetto all’applicazione lineare (associata ad) A. Quindi un tale sistema e` risolvibile se e solo se b ∈ Im A. Ma nulla garantisce pi`u che la soluzione sia unica (se esiste), e nemmeno che qualche soluzione esista. Tipicamente, se ho tante equazioni ma poche incognite, il sistema non sar`a risolvibile (in generale). Ad esempio, non e` possibile risolvere il sistema di due equazioni in una sola incognita
44
2 Matrici
x=1 x = 2. Se il sistema ha invece tante incognite ma poche equazioni, capiter`a spesso (nel senso che capiter`a per la maggior parte delle scelte di b) che il sistema abbia infinite soluzioni. Ad esempio, il sistema formato dall’unica equazione x1 − x2 = 0 possiede le infinite soluzioni a a per ogni a ∈ R.
2.5 La formula di Binet e l’invertibilit`a delle matrici Un primo fatto della vita, cui non e` possibile porre rimedio, e` che non esiste una formula per calcolare il determinante della somma di due matrici. E` spudoratamente falso che il determinante della somma di due matrici coincida con la somma dei rispettivi determinanti: ad esempio diag[1, 1] + diag[−1, −1] = diag[0, 0], sicch´e il determinante di questa somma vale zero. Ma det diag[1, 1] = det diag[−1, −1] = +1, dunque la somma dei due determinanti vale 2. Siamo, forse sorprendentemente, pi`u fortunati con il prodotto matriciale. E` vero che il prodotto di due matrici quadrate ha come determinante il prodotto dei determinanti dei due fattori. Teorema 2.5 (Binet). Se A e B sono due matrici n×n, allora det(AB) = (det A)(det B). Omettiamo la dimostrazione, che richiede parecchi accorgimenti tecnici, qualunque sia la definizione di determinante che preferiamo. Corollario 2.3. Se una matrice quadrata A e` invertibile, allora det A−1 =
1 . det A
Dimostrazione. Infatti, per il teorema di Binet, da AA−1 = I discende che (det A)(det A−1 ) = det I = 1. Corollario 2.4. Condizione necessaria affinch´e una matrice quadrata sia invertibile e` che il suo determinante sia diverso da zero. Per fortuna, l’ultimo Corollario pu`o essere logicamente invertito.
Proposizione 2.7. Una matrice quadrata e` invertibile se e solo se il suo determinante e` diverso da zero.
2.6 Operazioni elementari sulle matrici
45
Dimostrazione. Gi`a fatta, si veda la Proposizione 2.6. Resta comunque aperto il problema di calcolare la matrice inversa di una matrice data, se esiste. Se dal punto di vista teorico la matrice inversa esiste se e solo se la matrice data ha determinante diverso da zero, dal punto di vista computazionale non ci e` chiaro come scrivere esplicitamente questa inversa. Ad esempio, supponendo che a11 a22 − a21 a12 6= 0, qual e` l’inversa di a11 a12 ? a21 a22 Definizione 2.13. Sia A una matrice n × n. Chiamiamo matrice aggiunta di A la matrice n × n il cui termine di posto (i, j) vale (−1)i+ j det Aij , dove Aij e` la matrice complementare associata alla riga i e alla colonna j. Osservazione 2.15. Invitiamo lo studente a leggere due volte la definizione di adj A. C’`e uno scambio di righe e colonne, rispetto al buon senso. Il termine all’incrocio fra la prima riga e la seconda colonna e` − det A12 , e non − det A21 . L’indice di riga nella notazione delle matrici complementari va in basso, e quello di colonna in alto.
Teorema 2.6. Sia A una matrice invertibile n × n. Allora A−1 =
1 adj A. det A
Non dimostreremo questo teorema, perch´e non ci sembra che dalla dimostrazione si possa imparare molto. Ci limitiamo ad osservare che la condizione det A 6= 0 (che sappiamo essere necessaria e sufficiente per l’esistenza di A−1 ) si presenta spontaneamente nella formula dell’inversa: un denominatore deve sempre essere diverso da zero.
2.6 Operazioni elementari sulle matrici In questo paragrafo, introduciamo uno strumento di grandissima utilit`a pratica (ma, volendo, anche teorica) nel calcolo matriciale. Per introdurre l’argomento, consideriamo un semplice sistema lineare di equazioni: ( x+y = 1 x − y = −1. Invece di risolverlo per sostituzione, qualche studente ricorder`a che e` possibile, ad esempio, sommare mebmro a membro le due equazioni, ottenendo
46
2 Matrici
2x = 0. Quindi x = 0, e y = 1 − x = 1 dalla prima equazione. A parole, abbiamo sostituito al sistema iniziale il sistema ottenuto accoppiando la prima equazione all’equazione ottenuta sommando le due equazioni di partenza. Interpretiamo il sistema nell’algebra delle matrici: 1 1 x 1 = 1 −1 y −1 Detta A la matrice 2 × 2 che descrive il primo membro di questo sistema, abbiamo rimpiazzato A con la matrice 11 A0 = 20 ottenuta conservando la prima riga, e sostituendo la seconda riga di A con la somma delle due righe di A. Questo e` un esempio di operazione elementare sulle righe di A. Il sistema associato alla nuova matrice A0 e` del tutto equivalente a quello di partenza.
Definizione 2.14. Sia A una data matrice. Diremo che A e` equivalente per righe ad una matrice B se B pu`o essere ottenuta effettuando una o pi`u delle seguenti operazioni elementari sulle righe di A: 1. si scambia la riga i–esima con la j–esima: Ri → R j ; 2. si moltiplica la riga i–esima per uno scalare k 6= 0; Ri → kR j ; 3. si sostituisce alla riga i–esima la riga j–esima sommata ad un multiplo non nullo della riga i–esima: Ri → R j + kRi , con k 6= 0. Similmente, A e` equivalente per colonne ad una matrice B se B pu`o essere ottenuta effettuando una o pi`u delle seguenti operazioni elementari sulle colonne di A: 1. si scambia la colonna i–esima con la j–esima: Ci → C j ; 2. si moltiplica la colonna i–esima per uno scalare k 6= 0; Ci → kC j ; 3. si sostituisce alla colonna i–esima la colonna j–esima sommata ad un multiplo non nullo della colonna i–esima: Ci → C j + kCi , con k 6= 0.
Osservazione 2.16. Nella precedente, e lunga, definizione, non abbiamo messo l’accento sulla forma della matrice A. Ispezionando la definizione, si nota subito che non c’`e bisogno di alcuna restrizione sulla forma di A, che pu`o essere una qualunque matrice di tipo n × m. Nei casi “estremi” n = 1 oppure m = 1, e` altres`ı chiaro che una delle due equivalenze diventa un po’ banale, sebbe teoricamente valida. Mostriamo ora che, operando in maniera intelligente sulle righe di una matrice, e` possibile ridurre una matrice A ad una forma molto particolare. Impariamo questa tecnica su un esempio numerico. Sia
2.6 Operazioni elementari sulle matrici
47
1 2 −3 0 A = 2 4 −2 2 3 6 −4 3 Facciamo l’operazione R2 → −2R1 + R2 : 1 2 −3 A → 0 0 4 3 6 −4
0 2 3
Poi operiamo con R3 → −3R1 + R3 : 1 2 −3 0 A → 0 0 4 2 00 0 2
(2.3)
In pratica, abbiamo trasformato (per righe) la matrice A in una matrice “a scala”, in cui il numero di elementi non nulli di ogni riga e` minore o uguale al numero di elementi non nulli della riga superiore. In effetti, questa non e` una vera definizione delle matrici a scala: la peculiarit`a di queste matrici e` che, partendo da sinistra e scendendo dalla prima riga verso il basso, i primi numeri diventano zeri, con “velocit`a” crescente. Ma perch´e questa riduzione e` interessante? Si pensi al sistema associato alla nostra matrice A: x 1 2 −3 0 1 b1 2 4 −2 2 x2 = b2 x3 3 6 −4 3 b3 x4 dove b = (b1 , b2 , b3 )t e` il vettore dei cosiddetti termini noti. Se la matrice A fosse a scala, sarebbe indiscutibilmente facile risolvere questo sistema: ricaveremmo x4 dall’ultima equazione, poi x3 dalla penultima, e cos`ı via, risalendo fino alla prima riga. Possiamo dunque usare l’ultima matrice (2.3) per risolvere il sistema? S`ı e no: la matrice va bene, ma il vettore dei termini noti non pu`o restare invariato. Si rifletta sull’esempio all’inizio del paragrafo, dove anche i termini noti subivano modifiche, al pari del primo membro delle equazioni. Per fortuna, non e` difficile intruire quale sia la via d’uscita: se operiamo sulle righe, occorre effettuare la medesima operazione elementare tanto sulla matrice A, quanto sul vettore colonna dei termini noti. Un modo sbrigativo per tenere conto di tutto e` quello di affiancare alla matrice A il vettore colonna dei termini noti: 1 2 −3 0 b1 2 4 −2 2 b2 3 6 −4 3 b3
48
2 Matrici
Si faccia attenzione: non e` il prodotto di una matrice per un vettore, e` solamente l’affiancamento di due matrici, in generale nemmeno moltiplicabili fra loro! Effettuiamo alla le operazioni elementari di prima, questa volta operando simultaneamente sulla matrice e sul vettore colonna: con R2 → −2R1 + R2 giungiamo a 1 2 −3 0 b1 0 0 4 2 −2b1 + b2 3 6 −4 3 b3 e con R3 → −3R1 + R3 a 1 2 −3 0 b1 0 0 4 2 −2b1 + b2 00 0 2 −3b1 + b3 Siamo soddisfatti, perch´e ci siamo ricondotti al sistema x 1 2 −3 0 1 b1 0 0 4 2 x2 = −2b1 + b2 x3 00 0 2 −3b1 + b3 x4 che risolviamo in un batter d’occhio a ritroso: dall’ultima equazione ricaviamo x4 =
−3b1 + b3 , 2
dalla penultima x3 =
−2b1 + b2 − 2x4 = ... 4
e infine dalla prima x1 + x2 = b1 − 3x3 = . . . . Lasciamo allo studente l’onere di riempire i puntini: naturalmente, il nostro sistema non e` unicamente risolubile, avendo troppe incognite e poche equazioni che le legano. Precisamente, le soluzioni sono parametrizzate da una delle due incognite x1 oppure x2 . Infatti, x3 e x4 sono univocamente determinate dai termini noti, mentre x1 e x2 sono legate fra di loro da una relazione del tipo x1 + x2 = qualcosa. Dunque le soluzioni si scrivono assegnando un valore arbitrario ad una delle due incognite x1 e x2 , e ricavando l’altra da quest’ultima equazione. In pratica, le soluzioni sono vettori del tipo qualcosa − x2 x2 ∗ ∗
2.6 Operazioni elementari sulle matrici
49
dove gli asterischi denotano numeri dipendenti solo dai termini noti e x2 e` libero di assumere tutti i valori reali. Osservazione 2.17. E` chiaro che, se il nostro scopo e` quello di risolvere un sistema lineare di equaioni, la riduzione per righe risulter`a sempre privilegiata rispetto alla riduzione per colonne. La ragione e` naturalmente che il termine noto e` un vettore colonna, e dunque appare poco efficace l’idea di scambiare ripetutamente una colonna con se stessa. Lo studente magari si sentir`a ormai padrone della tecnica di riduzione per righe/colonne di una matrice. Tuttavia, resta qualche caso ambiguo. Per rendercene conto, rileggiamo le operazioni elementari effettuate nel nostro esempio. La prima operazione era concepita per annullare l’elemento di posto (2, 1) della matrice. Fatto questo, l’altra operazione voleva annullare il termine di posto (3, 1). Una volta messi a zero tutti i termini della prima colonna, fuorch´e il primo, si ripeteva il ragionamento per mettere a zero tutti i termini della seconda colonna, fuorch´e il primo ed il secondo. E cos`ı via, fino ad arrivare alla matrice a scala. Tuttavia, questa tecnica richiede, quasi per definizione, che il termine di posto (1, 1) sia diverso da zero. Altrimenti, gi`a la prima operazione elementare avrebbe lasciato immutato l’elemento di posto (2, 1). Quindi, che accede se a11 = 0? Se dovesse capitare questa evenienza, potremmo pensare di scambiare fra loro due righe, in modo da portare al primo posto una riga che inizia con un numero diverso da zero. Gi`a, ma se nemmeno questo fosse possibile? In altre parole, se tutte le righe iniziassero per zero? Chiaramente, la riduzione per righe sarebbe destinata a fallire miserevolmente, per manifesta impossibilit`a di fare il primo passo. Ma, a pensarci bene, non si tratterebbe di un dramma: la nostra matrice avrebbe la prima colonna identicamente uguale a zero, e questo e` gi`a una circostanza ricca di conseguenze. Pensando ad esempio ad un sistema lineare di equazioni, vorrebbe dire che l’incognita x1 non compare mai nelle varie equazioni. Se un’incognita non compare mai nel sistema di equazioni da risolvere, significa che ad essa pu`o essere attribuito un valore del tutto arbitrario, senza intaccare il resto del sistema. Ad esempio, la singola equazione x2 = 1 pu`o essere interpretata come il sistema 01 x1 1 = 00 x2 0 la cui matrice rappresentativa presenta la prima colonna interamente nulla. Se il nostro scopo e` quello di risolvere un sistema di equazioni lineare, in cui una delle incognite non compare mai, ci basta risolvere il sistema lineare “fingendo” che questa incognita sia un parametro arbitrario fissato. Quello che abbiamo descritto e` il celeberrimo metodo di eliminazione di Gauss per la risoluzione dei sistemi lineari di equazioni. Nel caso “quadrato” n × n, il metodo di eliminazione conduce sempre ad una forma molto particolare, quella triangolare. Una matrice triangolare e` una matrice quadrata A = [ai j ] dove ai j = 0 ogni
50
2 Matrici
volta che i > j. Insomma, tutti i termini sotto la diagonale discendente sono nulli.2 Per sistemi con matrice triangolare, e` molto facile determinare la soluzione: infatti le incognite vengono determinate a ritroso a partire dall’ultima, e ad ogni passo l’unica discriminante e` l’elemento sulla diagonale. Per capirci: l’ultima riga propone l’equazione ann xn = bn , e xn pu`o essere ricavata se e solo se ann 6= 0. Se ann = 0, tutto dipende da bn Se bn = 0, l’equazione e` 0xn = 0, e xn e` indeterminata. Se bn 6= 0, allora l’equazione e` 0xn = bn , e il sistema non e` risolvibile. Sistema ta l’ultima riga, passiamo alla riga sopra. Avremo un’equazione del tipo an−1 n−1 xn−1 + an−1 n xn = bn−1 , dove xn e` gi`a nota (eventualmente indeterminata) dal passo precedente. Quindi possiamo ripetere il ragionamento con an−1 n−1 al posto di ann . E cos`ı via. Concludiamo con un famoso teorema, spesso invocato quando si voglia dare una condizione necessaria e sofficiente affinch´e un dato sistema lineare di equazioni sia risolvibile. Introduciamo una terminologia che ci e` gi`a familiare. Definizione 2.15. Sia A una matrice n × m. Si chiama rango di A, e lo si denota con rank A, la dimensione del sottospazio Im A, identificando A con l’operatore lineare A : Rm → Rn definito da x 7→ Ax. In pratica, il rango di una matrice e` la dimensione del sottospazio immagine dell’applicazione lineare che ha A per matrice rappresentativa. Il prossimo risultato propone un’interpretazione pi`u concreta del rango di una matrice. Proposizione 2.8. Il rango di una matrice A coincide con il numero massimo di colonne di A, linearmente indipendenti. Dimostrazione. Le colonne C1 , . . . ,Cm di A sono m vettori colonna di n termini ciascuno. Ogni C j e` il vettore composto dai coefficienti dello sviluppo di Ae j rispetto alla base {e1 , . . . , em } di Rm . Questi m vettori colonna generano un sottospazio vettoriale di Rn . Buttiamone via uno alla volta, finch´e non restino solo vettori linearmente indipendenti. Lo spazio generato da questi vettori indipendenti coincide con lo spazio generato da tutte le colonne di A, poich´e abbiamo scartato vettori che potevano essi stessi essere ottenuti mediante combinazione lineare degli altri. In conclusione, abbiamo un certo numero (massimale) r ≤ m di vettori linearmente indipendenti che generano il sottospazio span{C1 , . . . ,Cm }. Ma segue direttamente dalla definizione che questo sottospazio altro non e` che l’immagine di A, cio`e Im A. Quindi r = dim Im A. E` possibile dimostrare, ma non lo faremo per esteso, che il rango di una matrice coincide anche con il massimo numero di righe linearmente indipendenti di A. Riprendiamo allora il problema di risolvere, se possibile, il sistema lineare Ax = b, 2
(2.4)
Anche altri termini possono essere nulli, chiaramente. Al limite, la matrice fatta di soli zeri e` triangolare.
2.6 Operazioni elementari sulle matrici
51
dove A e` una matrice n × m, x ∈ Rm e b ∈ Rn . Indichiamo con [A | b] la matrice ottenuta affiancando (per esempio a destra, ma poco importa) il vettore b ad A: a11 . . . . . . a1m b1 . . a21 .. .. a2m b2 . . . . . .. .. . . .. .. an1 . . . . . . anm bn Teorema 2.7 (Rouch´e–Capelli). Il sistema (2.4) possiede almeno una soluzione se, e solo se, rank A = rank[A | b]. Dimostrazione. La dimostrazione e` quasi scontata: il sistema (2.4) e` risolvibile se e solo se b ∈ Im A, cio`e se e solo se il vettore colonna b e` una combinazione lineare delle colonne di A. Ma questo significa precisamente che, aggiungendo il vettore colonna a lato della matrice A, il numero di colonne linearmente indipendenti non cambia. Dunque rank A = rank[A | b]. La popolarit`a di questo teorema non e` , forse, del tutto meritata. Al di l`a dell’eleganza formale, il calcolo dei due ranghi coinvolti nell’enunciato risulta di difficolt`a equivalente alla risoluzione esplicita del sistema. Anzi, utilizzando il metodo di riduzione di Gauss, il calcolo del rango di una matrice si effettua esattamente con la stessa strategia della risoluzione del sistema associato. Operando ad esempio per righe, si spinge la riduzione finch´e non appaiano quante pi`u righe identicamente nulle possibile. Se, ad esempio, abbiamo sette righe, e solo le ultime due possono essere messe a zero con la riduzione, allora il rango vale 7 − 2 = 5. Molto bene, ma gi`a che tavamo effettuando questa riduzione, avremmo potuto affiancare il vettore dei termini noti e risolvere esplicitamente il sistema! Nei casi concreti, l’uso del teorema di Rouch´e–Capelli non e` di straordinaria utilit`a, e conviene impostare direttamente la riduzione di Gauss operando contemporaneamente sul termine noto.
Capitolo 3
Autovalori ed autovettori
Ci siamo gi`a accorti nel capitolo precedente che le matrici diagonali sono particolari matrici con le quali e` particolarmente facile operare. Ma sappiamo anche che una matrice e` solo il “fantasma” di un’applicazione lineare fra due spazi vettoriali, nel senso che rappresenta tale applicazione rispetto a due basi prefissate. Ha dunque perfettamente senso domandarsi se una data matrice (quadrata) possa essere messa in forma diagonale, scegliendo una diversa coppia di basi per rappresentare l’applicazione lineare associata. Procediamo a ritroso, e cerchiamo di capire che cosa richiedere ad una base affinch´e una data matrice sia diagonale rispetto ad essa. Supponiamo che T : V → V sia un’applicazione lineare fra lo spazio V e se stesso, e supporremo sempre che dimV = n < ∞. Sia {e1 , . . . , en } una base1 di V tale che T abbia per matrice rappresentativa diag[λ1 , . . . , λn ]. Per definizione, questo significa che Te1 = λ1 e1 , Te2 = λ2 e2 , e cos`ı via. A parole, l’immagine di ogni vettore della base “diagonalizzante” e` un multiplo del vettore stesso. Si osservi che, generalmente, questo e` falso: l’immagine di un vettore della base di V sar`a solo combinazione lineare di tutti i vettori della base.
3.1 Spazi vettoriali complessi, senza troppa sofferenza Finora, uno spazio vettoriale era una struttura formata dai cosiddetti vettori. Questi vettori postevano essere moltiplicati per numeri reali, rispettando tutte le propriet`a che ogni persona sana di mente si aspetterebbe. Purtroppo (!) abbiamo bisogno di un’ulteriore estensione: vogliamo essere liberi di moltiplicare un vettore per un numero complesso.
1
Usiamo qui la simbologia che avevamo riservato alla cosiddetta base canonica di Rn .
53
54
3 Autovalori ed autovettori
Definizione 3.1. Uno spazio vettoriale complesso e` un insieme che soddisfa formalmente tutte le propriet`a della Definizione 1.4, pensando per`o ogni scalare come un numero complesso invece che reale. In particolare, nelle propriet`a 5, 6, 7 e 8 i numeri α e β sono complessi, e nella propriet`a 8 il numero 1 e` il familiare numero reale “uno”. Ovviamente, in questo quadro esteso, tutte le volte che abbiamo a che fare con uno scalare, dovremo lasciare aperta la possibilit`a che si tratti di un numero complesso: ad esempio le combinazioni lineari di vettori sono scritture in cui i coefficienti davanti ai vettori sono numeri complessi. Anche le matrici hanno ora elementi complessi, e il determinante di una matrice quadrata complessa e` in generale un numero complesso. Esempio 3.1. Quasi per costruzione, C e` uno spazio vettoriale reale: infatti, ogni numero complesso pu`o essere moltiplicato per uno scalare reale, rispettando tutte le condizioni che definiscono uno spazio vettoriale. Qual e` la dimensione di C? La risposta e` intuitivamente evidente gi`a dalla scrittura stessa del generico numero complesso: a + bi. In altre parole, i due “vettori” 1 e i generano tutto lo spzio vettoriale C. Che siano linearmente indipendenti (rispetto a combinazioni lineari a coefficienti reali) e` una verifica semplicissima. Dunque dim C = 2, come spazio vettoriale reale. Ma i bello e` che C e` anche uno spazio vettoriale complesso: il prodotto di uno scalare complesso per un vettore di C e` semplicemente il prodotto dei due numeri complessi. E qual e` la dimensione di C come spazio vettoriale complesso? Fissiamo ad esempio il numero 1, e osserviamo che ogni numero complesso z si scrive ovviamente come z · 1. Pertanto il numero 1 e` , da solo, un generatore di tutto lo spazio C complesso. Poich´e ogni singolo vettore e` linearmente indipendente, la dimensione di C come spazio vettoriale complesso e` 1. Leggermente pi`u articolato e` il discorso che riguarda i prodotti scalari. In ambito complesso, la definizione va leggermente modificata. Definizione 3.2. Sia V uno spazio vettoriale complesso. Un prodotto hermitiano su V e` un’applicazione che ad ogni coppia (u, v) ∈ V ×V associa un numero complesso hu, vi, in modo tale che 1. 2. 3. 4.
hu, vi = hv, ui hαu + β v, wi = αhu, wi + β hv, wi hu, αv + β wi = αhu, vi + β hv, wi hv, vi ≥ 0 e hv, vi = 0 se e solo se v = 0.
In pratica, invece di poter scambiare i due argomenti impunemente, un prodotto hermitiano passa al complesso coniugato. Inoltre, un prodotto hermitiano “fa uscire” i complessi coniugati delle combinazioni lineari nel secondo argomento. Convenzione: in questo capitolo, tutti gli spazi vettoriali potranno essere indifferentemente reali oppure complessi. Con il termine scalare ci riferiremo sempre ad un numero che sar`a reale oppure complesso, a seconda che sia reale oppure complesso lo spazio vettoriale.
3.2 Autovalori ed autovettori
55
3.2 Autovalori ed autovettori
Definizione 3.3. Sia T : V → V un’applicazione lineare di uno spazio vettoriale V in se stesso. Uno scalare λ e` un autovalore di T se esiste v 6= 0 in V tale che T v = λ v. Ogni vettore siffatto e` un autovettore corrispondente all’autovalore λ . Se λ e` un autovalore, allora Vλ = {v ∈ V | T v = λ v} e` un sottospazio vettoriale di V , detto autospazio associato a λ .
Osservazione 3.1. Coerentemente con la Convenzione alla fine della sezione iniziale, se V e` uno spazio vettoriale reale, gli autovalori devono essere per princiio reali. Se V e` invece uno spazio vettoriale complesso, allora gli autovalori devono essere per principio complessi. In pratica, gli autovalori vanno cercati fra i numeri dello stesso tipo di quelli per cui si possono moltiplicare i vettori. Per familiarizzarci con il concetto di autovalore, dimostriamo per esteso che gli autospazi sono effettivamente sottospazi vettoriali. Sia λ un autovalore, e siano v1 , v2 ∈ Vλ due autovettori. Per ogni combinazione lineare αv1 + β v2 , risulta T (αv1 + β v2 ) = αT v1 + β T v2 = αλ v1 + β λ v2 = λ (αv1 + β v2 ), e dunque αv1 + β v2 ∈ Vλ . Osservazione 3.2. Nella definizione di autovettore, la richiesta che v 6= 0 e` essenziale per non cadere in un discorso banale. Infatti T 0 = 0 = λ 0 per ogni scalare λ . Tuttavia sarebbe inutile dire che ogni numero reale e` un autovalore di T . Ad ogni buon conto, gli autospazi (come tutti i sottospazi) devono contenere il vettore nullo. Riassumendo queste considerazioni, un numero λ e` un autovalore se e solo se Vλ 6= {0}. Ora che sappiamo che le basi “diagonalizzanti” devono per forza essere costituite da autovettori, dobbiamo capire se tutte le applicazioni lineari possiedono autovalori. Nel caso banale n = 1, ogni applicazione lineare e` automaticamente diagonale. Ma gi`a in dimensione n = 2, la situazione si fa pi`u complicata.
Definizione 3.4. Sia T : V → V un’applicazione lineare di V in se stesso. Sia A la matrice rappresentativa di T rispetto ad una qualunque base fissata di V . Il polinomio pT (λ ) = det(A − λ In ) si chiama polinomio caratteristico di T .
Ovviamente, questa definzione richiede qualche commento. Perch´e non abbiamo esplicitato la scelta della base, nella notazione del polinomio caratteristico? La risposta e` che la scelta della base non influenza il polinomio caratteristico.
56
3 Autovalori ed autovettori
Lemma 3.1. Siano A e B due matrici che rappresentano la stessa applicazione lineare T rispetto a due diverse basi. Allora det(A − λ In ) = det(B − λ In ) per ogni λ ∈ R. Dimostrazione. Infatti, sappiamo che A e B sono simili, cio`e esiste una matrice invertibile E tale che B = EAE −1 . Allora det(B − λ In ) = det(EAE −1 − λ I) = det(E(A − λ In )E −1 ) = det(A − λ In ) per ogni λ ∈ R. Un’altra precisazione, importante ma teoricamente pi`u “leggera” e` che il polinomio caratteristico e` davvero un polinomio. Di questo fatto non diamo una dimostrazione rigorosa, ma ci limitiamo a calcolare il polinomio caratteristico di una generica matrice quadrata a11 a12 a21 a22 Per definizione, dobbiamo calcolare a11 − λ a12 det = (a11 − λ )(a22 − λ ) − a21 a12 a21 a22 − λ = λ 2 − (a11 + a22 )λ + a11 a22 − a21 a12 . Quindi il polinomio caratteristico di una matrice 2 × 2 e` sempre un polinomio di secondo grado. Similmente, usando magari la regola di Sarrus, ci si accorge che il polinomio caratteristico di una matrice 3 × 3 e` sempreun polinomio di terzo grado nella variabile λ . Proposizione 3.1. Uno scalare λ e` un autovalore di un’applicazione lineare se e solo se λ e` una soluzione dell’equazione p(λ ) = 0, dove p e` il poliniomio caratteristico dell’applicazione. Dimostrazione. La dimostrazione e` molto semplice: se A e` la matrice che rappresenta l’applicazione lineare in oggetto, sappiamo che λ e` un autovalore se e solo se il sistema Av = λ v possiede una soluzione diversa da zero. Ma questo accade se e solo se (A − λ In )v = 0 possiede una soluzione diversa da zero, e sappiamo che ci`o accade se e solo se la matrice A − λ In non e` invertibile. Per la Proposizione 2.6, quest’ultima condizione e` equivalente a det(A − λ In ) = 0. Osservazione 3.3. In uno spazio vettoriale reale, l’esistenza di autovalori per una data matrice/applicazione lineare non e` garantita. Poich´e gli autovalori sono soluzioni di un’equazione polinomiale p(λ ) = 0, non possiamo aspettarci che in ambito reale questa equazione possieda soluzioni. Ad esempio, per la matrice 2 × 2
3.2 Autovalori ed autovettori
57
0 −1 1 0
il polinomio caratteristico vale p(λ ) = λ 2 + 1, che non possiede alcuna radice reale. Ancora una volta, in ambito complesso la situazione e` pi`u ragionevole.
Teorema 3.1 (Teorema fondamentale dell’algebra). Ogni polinomio (a coefficienti reali o complessi), di qualunque grado, possiede almeno una radice complessa.
Questo teorema, molto profondo e dalle “pesanti” conseguenze, ammette una formulazione leggermente pi`u generale, in cui si afferma che ogni polinomio di grado n possiede esattamente n radici, contate con la rispettiva molteplicit`a. Ad ogni buon conto, a noi interessa soprattutto mettere in evidenza che in uno spazio vettoriale complesso tutte le matrici/applicazioni lineari possiedono almeno un autovalore (e dunque un corrispondente autovettore). Corollario 3.1. Sia V uno spazio vettoriale complesso (di dimensione finita). Ogni applicazione lineare T : V → V possiede almeno un autovalore. Dimostrazione. Basta applicare il Teorema fondamentale dell’algebra al polinomio caratteristico di T . Esempio 3.2. Tornando all’esempio della matrice 0 −1 1 0 pensando questa matrice a termini complessi possiamo trovare i suoi due autovalori: λ 2 + 1 = 0 e` risolto in C da λ1 = −i e λ2 = i. Determiniamo l’autospazio associato al λ2 . Dobbiamo trovare i vettori z1 z2 tali che z1 , z2 ∈ C e
0 −1 1 0
z1 z2
=i
z1 z2
Svolgendo il prodotto righe per colonne, arriviamo al sistema di equazioni lineari −z2 = iz1 z1 = iz2 Questo sistema e` , per definizione di autovalore, indeterminato: le sue soluzioni sono iα α
58
3 Autovalori ed autovettori
al variare comunque di α ∈ C. Da questa formula emerge chiaramente che, anche scegliendo α reale, gli autovettori hanno necessariamente coordinate complesse. Ma lo sapevamo gi`a che la nostra matrice non possiede autovalori/autovettori in ambito reale. La determinazione degli autovettori associati a λ1 e` lasciata per esercizio. Torniamo dunque al problema iniziale di “diagonalizzare” una matrice.
Definizione 3.5. Sia T : V → V un’applicazione lineare. Una base B = {e1 , . . . , en } e` una base diagonalizzante se, rispetto a tale base, T si rappresenta con una matrice diagonale.
Proposizione 3.2. Una base e` diagonalizzante se, e solo se, e` formata da autovettori di T . Dimostrazione. La semplice dimostrazione e` contenuta nel paragrafo iniziale di questo capitolo. Questa semplice Proposizione e` la “pietra tombale” sul problema della diagonalizzazione. Abbiamo una condizione necessaria e sufficiente affinch´e una data applicazione/matrice possa essere diagonalizzata: de esistere una base composta da autovettori. Tuttavia, e` chiaro che potrebbe essere utile avere anche un criterio2 che gaantisca la diagonalizzabilit`a di un’applicazione/matrice senza dover determinare tutti gli autospazi. Sfortunatamente, non esistono criteri generali e al contempo potenti. Ne enunciamo uno, avvertendo che non si tratta di una condizione necessaria per la diagonalizzabilit`a. Proposizione 3.3. Autovettori corrispondenti ad autovalori distinti sono sempre linearmente indipendenti. Dimostrazione. Consideriamo inizialmente il caso di tre autovettori. Siano v1 , v2 , v3 autovettori associati rispettivamente agli autovalori λ1 , λ2 , λ3 . Per ipotesi, questi autovalori sono tutti diversi fra loro. Supponiamo che α1 v1 + α2 v2 + α3 v3 = 0.
(3.1)
0 = α1 λ1 v1 + α2 λ2 v2 + α3 λ3 v3 .
(3.2)
Applicando T , troviamo
Moltiplichiamo (3.1) per λ2 , e sottraiamo l’equazione risultante da (3.2): α1 (λ1 − λ2 )v1 + α3 (λ3 − λ2 )v3 = 0. 2
Ricordiamo che un criterio, in matematica, e` una condizione sufficiente.
3.2 Autovalori ed autovettori
59
Se α1 = α3 = 0, abbiamo finito, perch´e da (3.1) segue che α2 = 0. Se invece α1 6= 0, allora v1 e` un multiplo di v3 , e pertanto e` un autovettore di T corrispondente sia all’autovalore λ1 , sia all’autovalore λ3 . Quindi T v1 = λ1 v1 = λ3 v1 , e ne deduciamo che (λ1 − λ3 )v3 = 0. Poich´e λ1 6= λ3 (per ipotesi), abbiamo trovato che v3 = 0: assurdo, gli autovettori non sono mai nulli. Quindi α1 non pu`o essere uguale a zero. Allo stesso modo, nemmeno α3 pu`o essere nullo, e dunque ricadiamo nel caso gi`a discusso α1 = α2 = 0. Se gli autovettori sono pi`u di tre, possiamo ripetere questo ragionamento, ed arrivare ancora alla conclusione che gli autovettori sono linearmente indipendenti. Osservazione 3.4. Una dimostrazione pi`u elegante, ma anche molto pi`u astratta, e` la seguente. In (3.1) esiste un numero minimo j di coefficienti non uguali a zero. Riordinando i vettori, possiamo supporre che α1 , α2 , . . . , α j siano tutti diversi da zero. Applicazndo ancora T alla relazione α1 v1 + . . . + α j v j = 0 otteniamo α1 λ1 v1 + . . . + α j λ j v j = 0. Moltiplicando la pria uguaglianza per λ2 e sottraendo la seconda, arriviamo a (λ2 − λ1 )α2 v2 + . . . + (λ j − λ1 )α j v j = 0. Poich´e tutti i coefficienti dei vettori v2 ,. . . , v j a primo membro sono diversi da zero, abbiamo trovato una relazione di dipendenza lineare con un numero di autovettori inferiore a j. Questo contraddice la minimalit`a di j. Corollario 3.2 (Criterio di diagonalizzabilit`a). Se un’applicazione lineare di uno spazio vettoriale V di dimensione finita n possiede n autovalori distinti, allora e` diagonalizzabile. Dimostrazione. Ad ogni autovalore associamo un autovettore: ne abbiamo n, e questi sono linearmente indipendenti grazie alla precedente Proposizione. Quindi formano una base diagonalizzante di V . Osservazione 3.5. Cerchiamo di spiegare perch´e sbagliato aspettarsi che il criterio di diagonalizzabilit`a appena dimostrato possa essere invertito. Consideriamo la matrice I3 = diag[1, 1, 1]. Quali sono gli autovalori di questa matrice? La risposta e` semplice: l’unico autovalore e` λ − 1. Infatti, il polinomio caratteristico della matrice identica e` p(λ ) = (λ − 1)3 . In particolare, questa matrice 3 × 3 ha un solo autovalore; tuttavia e` diagonalizzabile, ed anzi e` gi`a diagonale! Dov’`e il problema? Basta cercare di determinare gli autovettori associati a λ = 1 per capirlo: cerchiamo i vettori (v1 , v2 , v3 )t tali che 100 v1 v1 0 1 0 v2 = v2 v3 v3 001 Ovviamente, questo sistema e` risolto da tutti i vettori v1 v2 v3
60
3 Autovalori ed autovettori
in cui v1 , v2 e v3 sono liberi di variare indipendentemente in R. Ad esempio, la base canonica di R3 e` un insieme di tre autovettori linearmente indipendenti, ed e` dunque una base diagonalizzante. Per onest`a, occorre dire che il criterio degli autovalori distinti e` applicabile solo raramente, e quasi mai negli esercizi! Supponiamo che una data matrice A sia diagonalizzabile. Abbiamo imparato che questa affermazione nasconde semplicemente il fatto che e` possibile trovare una base in cui l’applicazione linaere associata alla matrice A e` formata da autovettori. Se indichiamo con λ1 ,. . . , λn questi autovalori, esiste una matrice invertibile S, associata al cambiamento di base, tale che λ1 0 . . . 0 0 λ2 . . . 0 SAS−1 = . . . . .. .. . . .. 0 0 . . . λn D’accordo, ma... chi e` S? In teoria sappiamo anche scriverla: ci procuriamo la base di autovettori, scriviamo la matrice associata al cambiamento di base, e questa matrice e` per definizione S.3 Per nostra fortuna, la matrice S e` caratterizzata da una propriet`a molto pi`u immediata. Proposizione 3.4. Se A e` una matrice simile ad una matrice diagonale, allora la matrice di similitudine S pu`o essere scelta come la matrice le cui colonne sono gli autovettori della base diagonalizzante. Non dimostreremo questa Proposizione, ma invitiamo lo studente ad utilizzarla quando ce ne sia bisogno.
3.3 Riduzione in forma triangolare Se la diagonalizzabilit`a non dipende soltanto dall’esistenza di autovalori, esiste una forma canonica molto flessibile per rappresentare gli operatori lineari di uno spazio vettoriale in s´e. Sebbene esistano dimostrazioni molto pi`u concise ed eleganti (ad esempio quella di [5]) seguiremo l’esposizione di [6], contenuta nel capitolo 10. Definizione 3.6. Sia V uno spazio vettoriale di dimensione finita, e si supponga che la dimensione di V non sia zero. Sia A : V → V un operatore lineare di V in s´e. Si chiama ventaglio per A una successione di sottospazi {V1 , . . . ,Vn } tale che Vi ⊂ Vi+1 per ogni i = 1, 2, . . . , n − 1, dimVi = i e infine A(Vi ) ⊂ Vi . Definizione 3.7. Nelle ipotesi della Definizione precedente, una base a ventaglio e` una base {v1 , . . . , vn } di V tale che {v1 , . . . , vi } sia una base per Vi 3
O S−1 , a seconda della base che si sceglie nel dominio.
3.3 Riduzione in forma triangolare
61
Lemma 3.2. Rispetto ad una base a ventaglio, la matrice rappresentativa di A : V → V e` triangolare (superiore). Dimostrazione. Sia {v1 , . . . , vn } la base a ventaglio. Poich´e A(Vi ) ⊂ Vi , risulta Av1 = a11 v1 Av2 .. .
= a12 v1 + a22 v2 .. .. . .
Avn = a1n v1 + . . . + ann vn . Quindi, rispetto a questa base, l’applicazione A e` rappresentata dalla matrice triangolare a11 a12 . . . a1n 0 a22 . . . a2n .. .. . . .. . . . . 0
0 . . . ann
Lo scopo ultimo di questo paragrafo e` dimostrare che, se lo spazio vettoriale V e` complesso, allora qualunque applicazione lineare di V in s´e possiede una base in cui la matrice rappresentativa e` triangolare. Leggendo la dimostrazione, capiremo perch´e si richiede che gli scalari siano complessi.
Teorema 3.2. Sia V uno spazio vettoriale complesso, e sia A : V → V un’applicazione lineare. Allora V possiede una base in cui A si rappresenta con una matrice triangolare.
Dimostrazione. Procediamo per induzione sulla dimensione n di V . Se n = 1, non c’`e niente da dimostrare, perch´e una matrice 1 × 1 e` automaticamente triangolare. Supponiamo che l’asserto sia vero per n − 1, e dimostriamo che deve essere vero anche per n. Poich´e ogni polinomio a coefficienti complessi possiede almeno una radice (complessa), esiste un autovettore v1 di A, associato ad un autovalore λ1 . Sia V1 lo spazio vettoriale generato da v1 . Esiste allora un sottospazio W tale che dimW = n − 1 e ogni vettore v di V si scrive in modo unico come v = αv1 + w, con α scalare e w ∈ W . Saremmo tentati di applicare l’ipotesi induttiva al sottospazio W . L’inconveniente e` che A non manda W in W , in generale. Per superare queto ostacolo, introduciamo la proiezione P2 , che manda il generico v = αv1 + w in w. Si tratta di un’applicazione lineare di V in W . Allora P2 ◦ A manda W in W , e per ipotesi induttiva esiste un ventaglio per P2 ◦ A. Chiamiamo {W1 , . . . ,Wn−1 } questo ventaglio, e poniamo Vi = V1 +Wi−1
per i = 2, 3, . . . , n.
62
3 Autovalori ed autovettori
Allora Vi ⊂ Vi+1 e si verifica agevolmente che dimVi = i. Vogliamo dimostrare che {V1 , . . . ,Vn } e` un ventaglio per A. E` sufficiente dimostrare che A(Vi ) e` contenuto in Vi . Sia v ∈ Vi : possiamo allora scrivere v = cv1 + wi , dove c e` uno scalare e wi ∈ Wi . Quindi Av − P2 Av e` contenuto in V1 e a maggior ragione in Vi . Inoltre P2 Av = P2 A(cv1 ) + P2 Awi . Poich´e P2 A(cv1 ) = cP2 Av1 e poich´e v1 e` un autovettore di A troviamo che P2 A(cv1 ) = P2 (cλ1 v1 ) = 0. Per l’ipotesi di induzione, P2 ◦ A applica Wi in Wi e quindi P2 Awi appartiene a Wi . Perci`o P2 Av appartiene a V1 +Wi = Vi Osserviamo, per concludere, che PAv = Av − P2 Av + P2 Av appartiene a Vi , provando cos`ı il teorema. La necessit`a di avere un ambiente complesso si riduce, nella dimostrazione, all’esistenza dell’autovettore v1 con cui si inizia. D’altronde, in una base a ventaglio, e` chiaro che il primo elemento della base deve essere un autovettore: se l’applicazione lineare non possiede alcun autovalore, la riduzione in forma triangolare e` destinata a fallire. Per il Teorema fondamentale dell’algebra, il polinomio caratteristico di un’applicazione lineare definita su uno spazio vettoriale complesso possiede sempre una radice, cio`e un autovalore. Volendo ridurre “all’osso” la dimostrazione precedente, possiamo affermare che la riduzione in forma triangolare funziona anche in spazi vettoriali reali, a patto che l’applicazione possieda almeno un autovalore. Osservazione 3.6. La forma triangolare e` in qualche modo il punto di partenza per la riduzione in forma canonica di Jordan. Rinunciamo a presentare questa teoria, che si basa su propriet`a piuttosto sottili dei polinomi. Lo studente interessato trover`a tutto nel principali testi di algebra lineare.
3.4 Applicazioni lineari autoaggiunte e matrici simmetriche
Definizione 3.8. Sia V uno spazio vettoriale di dimensione finita con prodotto scalare, e sia T : V → V un’applicazione lineare di V in s´e. Diremo che T e` autoaggiunta se hT v, wi = hv, Twi per ogni v, w ∈ V .
(3.3)
Osservazione 3.7. Molti testi preferiscono parlare di applicazione simmetrica. In effetti, in dimensione infinita e` opportuno tenere distinti i due concetti di simmetria e autoaggiunzione. Siccome noi lavoreremo solo in dimensione finita, le due terminologie possono essere scambiate senza problemi. In termini di matrici associate, le applicazioni autoaggiunte sono facilmente identificabili.
3.4 Applicazioni lineari autoaggiunte e matrici simmetriche
63
Proposizione 3.5. Un’applicazione lineare e` autoaggiunta se, e solo se, la sua matrice associata (rispetto ad una base fissata) e` simmetrica. Lasciamo allo studente il piacere di scoprire la dimostrazione di questa affermazione. E` abbastanza semplice, ripensando alla definizione di matrice associata ad un’applicazione lineare. Come suggerimento per una dimostrazione molto sintetica, notiamo che (3.3) significa solo che, se A e` la matrice associata, wt Av = vt Aw per ogni scelta di v = (v1 , . . . , vn )t e w = (w1 , . . . , wn )t . Scegliendo v = ei e w = e j , dove ei ed e j sono due vettori diversi della base canonica, troviamo che ai j = a ji . In ambito complesso, un’applicazione lineare avr`a autovalori complessi. In ambito reale, nessuno garantisce che una generica applicazione lineare abbia autovalori reali. Per le applicazioni autoaggiunte, vale un risultato pi`u confortante. Lemma 3.3. Tutti gli autovalori di un’applicazione autoaggiunta sono reali. Autovettori associati ad autovalori distinti sono fra di loro ortogonali. Dimostrazione. Sia T la suddetta applicazione autoaggiunta, e supponiamo che λ ∈ C sia un autovettore. Se v e` un autovettore associato a λ , possiamo usare la simmetria per dire che hTu, ui = λ hu, ui = hu, Tui = λ hu, ui. Quindi λ kuk2 = λ kuk2 , e dunque λ = λ . Questo implica che λ e` un numero reale. Siano λ 6= µ due autovalori, e siano v e w due autovettori associati ad essi. Allora λ hv, wi = hT v, wi = hv, Twi = µhv, wi. Dunque (λ − µ)hv, wi = 0. Poich´e λ − µ 6= 0 per ipotesi, dev’essere hv, wi = 0, cio`e v ⊥ w. Corollario 3.3. Ogni applicazione lineare autoaggiunta possiede almeno un autovalore. Dimostrazione. Infatti, il polinomio caratteristico possiede, per il Teorema fondamentale dell’algebra, almeno una radice complessa. Ma tale radice, che e` un autovalore di T , deve essere reale per il Lemma precedente. E` forse sorprendente, ma per le applicazioni autoaggiunte vale n risultato molto pi`u forte: e` sempre possibile diagonalizzarle.
Teorema 3.3 (Teorema spettrale per operatori autoaggiunti). Sia V uno spazio vettoriale di dimensione finita, e sia T : V → V un’applicazione lineare autoaggiunta. Allora esiste una base di autovettori di T .
Dimostrazione. La dimostrazione procede per induzione sulla dimensione n di V . Per n = 1, ovviamente ogni applicazione autoaggiunta e` diagonalizzabile (anche in ambito reale, poich´e tutto gli autovalori sono necessariamente reali). Supponiamo
64
3 Autovalori ed autovettori
che la tesi valga per n − 1, e dimostriamola per n. Esiste un autovalore λ (reale), e sia v un autovettore associato. Consideriamo il sottospazio hvi⊥ = (span{v})⊥ = {u ∈ V | hu, vi = 0}. Per il teorema di decomposizione ortogonale dei sottospazi, ogni vettore di V si scrive, in maniera unica, come somma di un multiplo di v e di un vettore perpendicolare a v stesso. In altre parole, poich´e v genera un sottospazio di dimensione uno, risulta che dimhvi⊥ = n − 1. Per applicare l’ipotesi induttiva a hvi⊥ , dobbiamo verificare che T applica hvi⊥ in se stesso. Esplicitamente, dobbiamo dimostrare che, se u ⊥ v, allora Tu ⊥ v. In effetti, la dimostrazione di questo fatto e` quasi scontata: hTu, vi = hu, T vi = λ hu, vi = 0. Pertanto possiamo applicare l’ipotesi induttiva a T : hvi⊥ → hvi⊥ , e concludere che hvi⊥ possiede una base di autovettori di T . Aggiungendo v a questa base, completiamo la dimostrazione del nostro teorema.
Capitolo 4
Forme bilineari e quadratiche
Il prodotto scalare (e quello hermitiano in ambito complesso) e` un esempio di applicazione di due variabili (vettoriali), che risulta separatamente lineare in esse. Cerchiamo di estendere questa propriet`a.
Definizione 4.1. Siano V e W due spazi vettoriali. Una forma bilineare e` un’applicazione f : V ×W → R tale che 1. per ogni v ∈ V , l’applicazione w ∈ W 7→ f (v, w) e` lineare; 2. per ogni w ∈ W , l’applicazione v ∈ V 7→ f (v, w) e` lineare. Se V = W , l’applicazione q f : V → R definita da q f (v) = f (v, v) e` detta la forma quadratica definita da f .
Esempio 4.1. Il prodotto scalare (v, w) ∈ V ×V 7→ hv, wi ∈ R e` una forma bilineare su V . La forma quadratica associata opera come q(v) = hv, vi = kvk2 . Quindi e` il quadrato della norma. Nel caso complesso, si parla di forma sesquilineare se f : V × W → C e` lineare nella prima variabile e f (v, αw1 + β w2 ) = α f (v, w1 ) + β f (v, w2 ) per ogni v ∈ V , w1 , w2 ∈ W , α, β ∈ C. Poich´e il principale interesse per noi saranno le forme bilineari (e quadratiche) reali, accantoniamo il caso complesso per il resto del capitolo. Definizione 4.2. Una forma bilineare e` simmetrica se V = W e f (v1 , v2 ) = f (v2 , v1 ) per ogni v1 , v2 ∈ V . Proposizione 4.1 (Equivalenza delle forme bilineari e delle forme quadratiche). Sia V uno spazio vettoriale di dimensione finita. Ogni forma bilineare simmetrica f : V ×V → R individua una ed una sola forma quadratica q f , che la rappresenta completamente.
65
66
4 Forme bilineari e quadratiche
Dimostrazione. Per definizione, ogni forma bilineare individua una forma quadratica, definita ponendo q f (v) = f (v, v). Osserviamo che f (v1 + v2 , v1 + v2 ) = f (v1 , v1 ) + 2 f (v1 , v2 ) + f (v2 , v2 ) f (v1 − v2 , v1 − v2 ) = f (v1 , v2 ) − 2 f (v1 , v2 ) + f (v2 , v2 ). Sottraendo membro a membro, troviamo f (v1 , v2 ) =
f (v1 + v2 , v1 + v2 ) − f (v1 − v2 , v1 − v2 ) . 4
Quindi esiste una corrispondenza biunivoca fra f e q, descritta dalla formula f (v1 , v2 ) =
q f (v1 + v2 ) − q f (v1 − v2 ) . 4
(4.1)
Pi`u esplicitamente, se e` nota f , allora e` nota q f . Viceversa, se e` data q f , possiamo ricostruire la forma bilineare f mediante quest’ultima uguaglianza. In dimensione finita, possiamo sfruttare appieno l’esistenza di basi di V e W per scrivere una forma bilineare come una matrice. Supponiamo che n = dimV e m = dimW . Siano {e1 , . . . , en } e {e01 , . . . , e0m } le basi di V e di W , rispettivamente. Se poniamo ai j = f (ei , e0j ), i = 1, . . . , n, j = 1, . . . , m, otteniamo nm numeri reali, che possiamo disporre in una matrice n × m. Questa matrice si chiama matrice rappresentativa della forma bilineare f rispetto alle due basi considerate. Se poi V = W , allora la forma bilineare f individua una matrice qudrata n × n. Esplicitamente, se v = v1 e1 + . . . + vn en e w = w1 e1 + . . . + wn en sono due generici vettori di V , espressi mediante la base {e1 , . . . , en }, per bilinearit`a risulta n
n
f (v, w) = ∑ ∑ ai j vi v j . i=1 j=1
E` facile convincersi che questa espressione coincide con a11 . . . a1n w1 .. . . .. .. t v Aw = v1 . . . vn . . . . an1 . . . ann wn Lemma 4.1. Una matrice n × n A rappresenta una forma bilineare simmetrica se, e solo se, essa e` una matrice simmetrica. Dimostrazione. SUpponiamo che A sia simmetrica, cio`e A = At . Allora, per ogni coppia di vettori v e w, risulta vt Aw = (vt Aw)t = wt At v = wt Av.
4.1 Diagonalizzazione delle forme bilineari simmetriche
67
Poich´e v e w sono arbitrari, la forma bilineare individuata da A e` simmetrica. Viceversa, supponiamo che A rappresenti una forma bilineare simmetrica. Questo significa che vt Aw = wt Av per ogni coppia di vettori v e w. Essendo wt Av = (wt Av)t = vt At w, possiamo concludere che vt Aw = vt At w per ogni coppia di vettori v e w. Ma allora A = At . Proposizione 4.2. Sia f : V ×V → R una forma bilineare in dimensione finita, e sia A la matrice associata rispetto ad una base di V . Se N e` la matrice associata ad un cambiamento di base in V , allora la matrice asssociata a f rispetto alla nuova base e` N t AN. Dimostrazione. Infatti, nella prima base possiamo scrivere f (v, w) = vt Aw. Se v0 = Nv e w0 = Nw rappresentano i vettori v e w nella nuova base, allora f (v0 , w0 ) = (Nv0 )t A(Nw) = v0t N t ANw. La tesi segue dall’arbitrariet`a di v e w. Definizione 4.3. Due matrici A e B di tipo n × n sono congruenti se esiste una matrice invertibile N tale che B = N t AN.
4.1 Diagonalizzazione delle forme bilineari simmetriche In questo paragrafo, considereremo sempre forme bilineari f : V × V → R simmetriche. Ricordiamo che questo significa che f (v, w) = f (w, v) per ogni v, w ∈ V . Vogliamo dimostrare che tutte le forme bilineari simmetriche di questo tipo possiedono una base rispetto a cui la matrice rappresentativa sia diagonale. Definizione 4.4. Sia f una forma bilineare simmetrica. Lo spazio nullo di f e` ker f = {v ∈ V | f (v, w) = 0 per ogni w ∈ V }. La forma f e` definita positiva se f (v, v) > 0 per ogni v 6= 0. Similmente, f e` definita negativa se f (v, v) < 0 per ogni v 6= 0. Si dice che f e` indefinita se esistono almeno due vettori v e w tali che f (v, v) > 0 e f (w, w) < 0. Infine, la forma bilineare f e` non degenere se q f (v) = f (v, v) = 0 implica v = 0. Si ricordi che ogni forma quadratica simmetrica f verifica la disuguaglianza di Cauchy–Schwarz | f (v, w)| ≤ f (v, v) f (w, w). La dimostrazione e` identica a quella negli spazi con prodotto scalare, sostituendo a tale prodotto scalare la forma quadratica q f (v) = f (v, v). Il fatto che q f possa assumere valori negativi e` ininfluente per la dimostrazione. Definizione 4.5. Sia f una forma bilineare simmetrica. Chiamiamo
68
4 Forme bilineari e quadratiche
V + = {v ∈ V | f (v, v) > 0} ∪ {0} V − = {v ∈ V | f (v, v) < 0} ∪ {0} rispettivamente il sottospazio positivo e il sottospazio negativo di V rispetto ad f .1
Teorema 4.1. Sia f una forma bilineare simmetrica su uno spazio vettoriale V di dimensione finita. Allora esiste una base in cui f e` rappresentata da una matrice diagonale.
Dimostrazione. Se dimV = 1 oppure se f e` la forma bilineare identicamente nulla, allora il teorema e` evidente. Procediamo per induzione sul n. Supponiamo allora dimV > 1 e f non identicamente nulla. Se q f (v) = f (v, v) = 0 per ogni v, allora f (v, w) = 0 per ogni v e w, come discende da (4.1). Quindi f = 0, contro l’ipotesi. Pertanto esiste v1 6= 0 tale che f (v1 , v1 ) 6= 0. Sia U = span{v1 } e sia W il sottospazio dei vettori v ∈ V tali che f (v, v1 ) = 0. Iniziamo a dimostrare che U ∩ W = {0}. Infatti, se w ∈ U ∩ W , allora w = αv1 per qualche α ∈ R. Inoltre, f (w, v1 ) = 0, e quindi 0 = f (w, v1 ) = α f (v1 , v1 ), il che implica α = 0. Quindi u = 0. Dimostriamo che ogni vettore di V si scrive come somma di un vettore di U e di un vettore di W . Sia v ∈ V , e poniamo f (v1 , v) v1 . w = v− f (v1 , v1 ) Allora f (w, v1 ) = f (v1 , v1 ) − f (v1 , v1 ) = 0. Questo prova che w ∈ W . Abbiamo dimostrato che f (v1 , v) v= v1 + w. f (v1 , v1 ) Per concludere, restringiamo f a W ×W : poich´e dimW = n − 1, possiamo applicare l’ipotesi di induzione e costruire una base diagonalizzante in W . Aggiungiamo il vettore v1 a questa base, e otteniamo una base diagonalizzante di V . Osservazione 4.1. Se {e1 , . . . , en } e` una base che rende diagonale la matrice associata alla forma f , possiamo costruire immediatamente un’altra base {e˜1 , . . . , e˜n } come segue: 1. se f (ei , ei ) = 0, allora e˜i = ei ; 2. se f (ei , ei ) = aii 6= 0, allora e˜i =
ei |aii | .
Rispetto alla nuova base {e˜1 , . . . , e˜n }, la forma f e` rappresentata da una matrice diagonale, i cui termini valgono 0, 1 oppure −1. Riordinando i vettori della base, possiamo sempre supporre che tale matrice sia del tipo A = diag[1, . . . , 1, −1, . . . , −1, 0, . . . , 0]. L’aggiunta, un po’ innaturale, del vettore nullo e` legata alla pretesa che V − e V + siano due sottospazi. Si ricordi, infatti, che ogni sottospazio deve contenere il vettore nullo, per definizione.
1
4.2 Diagonalizzazione mediante operazioni elementari
69
Definizione 4.6. Sia f una forma bilineare simmetrica su V . Sia n+ il numero di valori 1 nella matrice diagonale costruita sopra, e sia n− il numero di valori −1 nella stessa matrice. La coppia (n+ , n− ) si chiama segnatura di f . Osservazione 4.2. Sebbene non sia evidente che la segnatura della forma risulti indipendente dalla scelta della base diagonalizzante, e` possibile dimostrare che e` davvero cos`ı. Ovviamente, per sottrazione, il numero di termini uguali a zero deve essere n − n+ − n− . Si dimostra anche, ma dovrebbe essere abbastanza intuitivo, che n+ e` la dimensione del sottospazio dove f e` definita positiva, e n− quella del sottospazio dove f e` definita negativa. Il numero di zeri e` la dimensione dello spazio nullo di f .
4.2 Diagonalizzazione mediante operazioni elementari Se da una parte abbiamo imparato che tutte le forme bilineari simmetriche possono essere diagonalizzate (per congruenza), non abbiamo ancora visto uno strumento computazione efficiente per scoprire, ad esempio, quale sia la segnatura di una data forma bilineare simmetrica. Ancora una volta, lo strumento per eccellenza e` quello delle operazioni elementari. Supponiamo di avere una matrice simmetrica A, rappresentativa di una certa forma bilineare simmetrica in una base fissata. Vorremmo diagonalizzarla, per scoprire in particolare la sua segnatura. Ripensiamo al metodo di riduzione di Gauss. Facendo opportune trasformazioni elementari sulle righe, abbiamo imparato a ridurre una generica matrice quadrata alla forma triangolare. Nel caso in questione, la matrice A e` simmetrica, e le uniche matrici triangolari simmetriche sono quelle diagonali. Questa considerazione ci suggerisce di effettuare “simmetricamente” le varie operazioni elementari: ogni operazione su una riga, deve essere fatto immediatamente anche sulle colonne. Vediamo un esempio. Esempio 4.2. Supponiamo che la forma f sia rappresentata dalla matrice 1 −1 3 A = −1 0 2 3 2 −1 Prima operazione: R3 → 3R1 − R3 :
1 −1 3 −1 0 2 0 −5 10
Ora per`o dobbiamo preservare la simmetria, e dunque dobbiamo agire esattamente in analogia sulle colonne di quest’ultima matrice: C3 → 3C1 −C3 :
70
4 Forme bilineari e quadratiche
1 −1 0 −1 0 −5 0 −5 −10 Ora concentriamoci sulla seconda riga (e sulla seconda colonna): R2 → R1 + R2 e C2 → C1 +C2 : 1 0 0 0 −1 −5 0 −5 −10 Avendo ormai ridotto la prima riga e la prima colonna, dobbiamo concentrarci sulla matrice 2 × 2 pi`u interna. Il primo passo e` R3 → 5R2 − R3 e C3 → 5C2 −C3: 1 0 0 0 −1 0 0 0 15 Abbiamo finito: in particolare n+ = 2 e n− = 1.
Capitolo 5
Applicazioni alle equazioni differenziali ordinarie
Probabilmente alcuni studenti hanno gi`a incontrato qualche equazione differenziale durante il loro corso di studi. In questo capitolo, intendiamo richiamare brevemente il concetto di equazione differenziale (ordinaria, e sottintenderemo spesso questo aggettivo, dal momento che non ci occuperemo mai di equazioni differenziali di tipo diverso) e mostrare come il linguaggio dell’algebra lineare possa essere impiegato per trattare da un punto di vista universale vari tipi di equazioni differenziali. Poich´e non ci interessa scrivere un trattato sulle equazioni differenziali, eviteremo spesso di dare pesanti definizioni. Sovente le nostre saranno pseudo–definizioni, in cui utilizzeremo un linguaggio consapevolmente impreciso.
Definizione 5.1. Un’equazione differenziale di ordine n, dove n ≥ 1 e` un numero naturale, e` un’equazione della forma F(x, y(x), y0 (x), y00 (x), . . . , y(n) (x)) = 0,
(5.1)
dove F e` una funzione di n + 1 variabili (reali, per noi), x e` una variabile indipendente, e y = y(x) e` una funzione, incognita dell’equazione. Si dice che una funzione y : (a, b) → R e` una soluzione di (5.1) se y e` derivabile (almeno) n volte nell’intervallo I = (a, b) e se (5.1) e` verificata per ogni x ∈ (a, b).
Esempio 5.1. L’equazione y0 (x) − 2x = 0 e` un’equazione differenziale del primo ordine, e y : R → R, definita da y(x) = x2 , e` una soluzione. Osservazione 5.1. E` uso comune alleggerire la notazione per le equazioni differenziali, sopprimendo la scrittura della variabile indipendente dove appare l’incognita. Ad esempio, si scrive y0 − 2x = 0 al posto di y0 (x) − 2x = 0. Questo piccolo abuso di notazione non crea praticamente mai problemi ed incomprensioni.
71
72
5 Equazioni differenziali ordinarie
Osserviamo che risolvere un’equazione differenziale richiede di trovare una funzione che verifichi un’uguaglianza che coinvolge se stessa e le sue derivate fino ad un certo ordine. Il dominio di definizione e` parte dell’incognita: questa circostanza pu`o essere fonte di considerazioni anche piuttosto sottili. Esempio 5.2. L’equazione differenziale y0 = y possiede la soluzione y(x) = ex , definita per ogni x reale. Ma, naturalmente, anche la funzione y(x) = ex , definita solo per x > 0, e` una soluzione. Se vogliamo portare avanti questa pignoleria, una singola soluzione genera infinite soluzioni, ottenute restringendo a piacere il dominio di definizione. Nei corsi “seri” di equazioni differenziali si introduce il concetto di soluzione massimale di una data equazione, intendendo una soluzione il cui dominio di definizione non possa essere “allargato” ulteriormente. Questa idea, apparentemente semplice, porta con s´e parecchie sottigliezze matematiche, non per ultima l’esistenza stessa di una soluzione massimale. Noi voleremo pi`u bassi, e ci accorgeremo che la determinazione di una soluzione massimale e` pressoch´e automatica per le equazioni che riusciremo a risolvere. Definizione 5.2. Un’equazione differenziale di ordine n si dice posta in forma normale se si pu`o scrivere nella forma y(n) (x) = f (x, y(x), y0 (x), . . . , y(n−1) (x)),
(5.2)
esplicitando cio`e la derivata di ordine pi`u alto. Nel seguito, studieremo esclusivamente equazioni in forma normale. Osservazione 5.2. C’`e un po’ di ironia amara nelle definizioni di equazione differenziale che abbiamo introdotto. Molto probabilmente, lo studente medio non conosce bene il concetto di funzioni di due o pi`u variabili, e le equazioni differenziali sono inevitabilmente descritte da funzioni di molte variabili. Per fortuna, ma anche per scelta oculata degli argomenti, l’idea intuitiva di funzione di molte variabili baster`a ampiamente a comprendere di che cosa stiamo parlando. Ben diverso sarebbe se volessimo dimostrare dei teoremi di esistenza e/o unicit`a per le equazioni differenziali. Per questo, occorrono almeno i concetti di continuit`a e di lipschitzianit`a per le funzioni di almeno due variabili indipendenti. Se la pi`uRsemplice equazione differenziale, y0 = f (x), possiede le infinite soluzioni y = f (x) dx, a maggior ragione ci dobbiamo aspettare che le equazioni differenziali possiedano genericamente un’infiniti`a di soluzioni. In molti casi due soluzioni di una stessa equazione sono legate in maniera semplice,1 ma e` conveniente aggiungere ad una equazione differenziale qualche vincolo aggiuntivo che selezioni (al pi`u) una sola soluzione. Ci sono vari modi per ottenere questo scopo, ma il pi`u importante e ricco di applicazioni alle scienze esatte e` quello di utilizzare una condizione iniziale. 1
Non si creda che due soluzioni di una stessa equazione differenziale debbano differire per una costante additiva. Ad esempio, y1 = ex e y2 = 2ex sono soluzioni di y0 = y.
5.1 Equazioni del primo ordine a variabili separabili
73
Definizione 5.3. Un problema di Cauchy (per equazioni del primo ordine) e` un sistema del tipo ( y0 = f (x, y) (5.3) y(x0 ) = y0 , ottenuto accoppiando un’equazione differenziale (del primo ordine) ad una condizione di uguaglianza in un punto (x0 , y0 ) fissato. Esempio 5.3. Vedremo presto che la soluzione pi`u generale dell’equazione y0 = y si scrive y = Cex , dove C e` una qualunque costante reale. Se imponiamo la condizione y(x0 ) = y0 , dobbiamo avere che y0 = Cex0 , e dunque C = y0 e−x0 . Dunque il problema di Cauchy ( y0 = y y(x0 ) = y0 possiede l’unica soluzione y = y0 e−x0 ex = y0 ex−x0 . Si potrebbe dimostrare, ma non lo faremo in queste dispense, che i problemi di Cauchy (per equazioni del primo ordine) sono univocamente risolvibili (almeno localmente, nel senso che in un intorno di x0 e` definita esattamente una soluzione del problema) sotto ipotesi abbastanza ragionevoli sul secondo membro di (5.3).
5.1 Equazioni del primo ordine a variabili separabili Consideriamo un’equazione differenziale della forma y0 = f (x)g(y),
(5.4)
in cui il secondo membro e` il prodotto di una espressione contenente solo la variabile x e di un’espressione contenente solo l’incognita y. Si pensi, per esempio, all’equazione y0 = xy. Queste equazioni possono essere risolte con il seguente espediente. Riscriviamo l’equazione nella forma equivalente — almeno finch´e g(y) 6= 0, y0 = f (x), g(y) e integriamo ambo i membri considerando y ed x come variabili slegate: Z
dy = g(y)
Z
f (x) dx.
(5.5)
Dopo questa integrazione, possiamo pensare di ricavare y dal primo membro. Ad esempio, mostriamo che cosa accade al nostro esempio y0 = xy. Dobbiamo fare gli integrali Z Z dy = x dx, y
74
5 Equazioni differenziali ordinarie
che conduce a
x2 +C, 2 uguaglianza dalla quale possiamo esplicitare y: log |y| =
x2
y = ±e 2 +C . Usando le propriet`a delle potenze, possiamo scrivere y = ±eC ex
2 /2
.
Osserviamo che, mentre C varia fra tutti i numeri reali, il numero ±eC descrive tutti i numeri reali, positivi e negativi, eccetto lo zero. Quindi possiamo scrivere tutte le soluzioni non nulle nella forma cumulativa y = Kex
2 /2
K 6= 0.
,
Ora, per`o, dobbiamo considerare il caso che il nostro espediente non tratta adeguatamente, che e` quello in cui abbiamo iniziato dividendo per zero l’equazione. Si verifica facilmente2 che la funzione nulla y = 0 risolve l’equazione y0 = xy. Quindi3 possiamo concludere che la soluzione pi`u generale dell’equazione y0 = xy e` y = Kex , con K costante reale qualunque, anche nulla. Nella pratica, per risolvere un’equazione a variabili separabili come y0 = f (x)g(y), per prima cosa si determinano le soluzioni costanti. Poich´e la derivata di una funzione costante e` sempre nulla, una soluzione costante y = k deve risolvere g(k) = 0. Dunque occorre per prima cosa trovare gli zeri della funzione g. Ora che abbiamo escluso le soluzioni costanti, possiamo dividere per g(y) l’equazione, e utilizzare (5.5) per calcolare y. Osservazione 5.3. Molti studenti alle prime armi, se non tutti, prendono la brutta abitudine di maneggiare le costanti arbitrarie di integrazione con troppa disinvoltura. Per fare un esempio, capita spesso che da Z
Z
y dy =
x dx
si passi a 1 2 1 y +C = x2 +C, 2 2 e da qui a y2 = x2 . Niente di pi`u falso! Le due costanti di integrazione non possono essere semplificate, perch´e non e` detto che siano uguali. Basta pensarci un 2
Per testimonianza oculare, diceva un mio professore. E` un “quindi” da prendere con un po’ di indulgenza, perch´e non abbiamo a disposizione un teorema di unicit`a a disposizione. 3
5.2 Equazioni differenziali lineari
75
attimo: abbiamo un’uguaglianza fra due collezioni di primitive, e non siamo autorizzati a scegliere solo le primitive che differiscono per la stessa costante. Quindi, il procedimento corretto e` che da Z
Z
y dy =
x dx
si passa a 1 1 2 y +C1 = x2 +C2 , 2 2 dove C1 e C2 sono due costanti non necessariamente uguali. Quindi tutto ci`o che possiamo affermare e` che 1 2 1 2 y = x +C2 −C1 . 2 2 Naturalmente, se C1 e C2 sono costanti qualunque, anche la quantit`a C2 −C1 risulta assolutamente arbitraria, e possiamo chiamarla C. In conclusione, 1 2 1 2 y = x +C, 2 2 e questo significa di fatto che possiamo fin dall’inizio mettere una sola costante arbitraria di integrazione. Ma non possiamo semplificarle nei due membri dell’equazione.
5.2 Equazioni differenziali lineari Alcuni studenti hanno gi`a incontrato le equazioni differenziali lineari del primo ordine e quelle del secondo ordine a coefficienti costanti. Ora che abbiamo a nostra disposizione il linguaggio del calcolo vettoriale e matriciale, possiamo interpretare queste particolari equazioni come esempi di una classe molto generale di equazioni differenziali ordinarie.
Definizione 5.4. Un’equazione differenziale lineare e` un’equazione della forma (5.6) y0 (x) = A(x)y(x) + b(x), dove A(x) = [ai j (x)] e` una matrice n × n di funzioni di x, e b(x) = (b1 (x), . . . , bn (x))t e` un vettore di n funzioni di x. La soluzione e` una funzione y a valori in Rn . L’equazione si chiama omogenea se b = 0.
Esempio 5.4. Per n = 2, consideriamo l’equazione
76
5 Equazioni differenziali ordinarie
0 y1 cos x sin x y1 x = + y02 − sin x cos x y2 2x Se svolgiamo il prodotto righe per colonne, arriviamo al sistema di due equazioni differenziali ( y01 = y1 cos x + y2 sin x + x y02 = −y1 sin x + y2 cos x + 2x. Naturalmente, e` sempre vero che un’equazione differenziale lineare descritta da una matrice n × n corrisponde esattamente ad un sistema di n equazioni nelle n incognite y1 , . . . , yn . Esempio 5.5. Consideriamo invece l’equazione lineare del secondo ordine u00 + a1 (x)u0 + a0 (x)u = f (x). Se poniamo v = u0 , possiamo scrivere il sistema ( u0 = v v0 = −a1 (x)v − a0 (x)u + f (x). Ma questo sistema si scrive in forma matriciale come 0 u 0 1 u 0 = + , v0 −a0 (x) −a1 (x) v f (x) e funque le equazioni lineari del secondo ordine (anche quelle a coefficienti variabili) sono equivalenti ad un sistema lineare 2 × 2, e di forma molto speciale. Con tecniche che non possiamo spiegare qui, si dimostra il seguente risultato fondamentale di esistenza e unicit`a.
Teorema 5.1 (Esistenza ed unicit`a in grande). Supponiamo che, per ogni x ∈ R, A(x) = [ai j (x)] sia una matrice n × n di funzioni almeno continue. Supponiamo inoltre che, per ogni x ∈ R, b(x) = (b1 (x), . . . , bn (x))t sia un vettore di n funzioni continue. Allora, per ogni x0 ∈ R ed ogni y0 ∈ Rn , esiste una ed una sola soluzione y : R → Rn del problema di Cauchy ( y0 = A(x)y + b(x) (5.7) y(x0 ) = y0 , e questa soluzione e` infinitamente derivabile.
Osservazione 5.4. Questo teorema spiega il determinismo delle equazioni differenziali lineari. Una soluzioni e` individuata in modo unico ed inequivocabile dal suo
5.2 Equazioni differenziali lineari
77
valore nel punto di partenza. In altri termini, se imponiamo che y(x0 ) = y0 , siamo sicuri che il valore della soluzioni in un generico punto x e` individuato senza possibilit`a di errore dal valore y(x0 ). Queste equazioni differenziali, e tutte quelle che possiedono lo stesso fenomeno di esistenza ed unicit`a, descrivono ad esempio sistemi fisici piuttosto rigidi. Se scoccassimo una freccia in un ambiente privo di qualunque perturbazione ed attrito, la traiettoria della freccia sarebbe individuata completamente dal modo (velocit`a, angolazione di tiro) in cui essa e` stata scoccata. Nella realt`a, i fenomeni deterministici sono considerati per lo pi`u dei modelli approssimati dei fenomeni reali. E` pressoch´e impossibile considerare tutti i possibili imprevisti e accidenti che possono influenzare un esperimento (si pensi al celebre battito d’ala di una farfalla che scatena un uragano dall’altra parte del mondo). Abbiamo imparato che le equazioni diffferenziali lineari sono un modello che contiene e riassume equazioni di tipo apparentemente diverso. Il Teorema 1.6 permette di dimostrare le seguenti affermazioni. Teorema 5.2. Le soluzioni di un’equazione differenziale lineare omogenea formano uno spazio vettoriale, la cui dimensione e` il numero di equazioni del sistema stesso. Inoltre, due soluzioni di un’equazione differenziale lineare non omogenea differiscono per una soluzione della corrispondente equazione omogenea. Dimostrazione (Dim.). L’unica affermazione che non discenda immediatamente dal Teorema 1.6 e` quella relativa alla dimensione. Supponiamo che la nostra equazione lineare omogenea sia descritta da una matrice A = A(x) di dimensione n × n. In forma esplicita, l’equazione si legge 0 y y1 1 a11 (x) . . . . . . a1n (x) .. .. . a21 (x) . . . . . . a2n (x) . = . .. . . .. . . . . . . . . . . . . an1 (x) . . . . . . ann (x) yn y0n Definiamo n funzioni ζi , i = 1, . . . , n, come le soluzioni dei problemi di Cauchy ( y0 = A(x)y (5.8) y(x0 ) = ei , ei essendo l’i–esimo vettore della base canonica di Rn . Si dimostra abbastanza agevolmente che queste n funzioni sono linearmente indipendenti (perch´e nel punto x0 assumono valori linearmente indipendenti), e che ogni soluzione dell’equazione omogenea pu`o essere scritta come combinazione lineare di ζ1 , . . . , ζn (perch´e {e1 , . . . , en } e` una base di Rn ). Per il Teorema di esistenza ed unicit`a in grande, ogni soluzione e` univocamente determinata dal suo dato iniziale, e dunque {ζ1 , . . . , ζn } e` una base dello spazio delle soluzioni. La seconda parte di questo teorema riassume la “ricetta” che qualche studente potrebbe (e dovrebbe) ricordare: per risolvere un’equazione differenziale completa,
78
5 Equazioni differenziali ordinarie
bisogna trovare la soluzione pi`u generale dell’omogenea associata, e una soluzioni particolare dell’equazione completa. Esempio 5.6. Applichiamo queste considerazioni alla singola equazione lineare y0 = a(x)y + b(x).
(5.9)
Supporremo che a e b siano funzioni continue. L’equazione omogenea associata e` y0 = a(x)y,
(5.10)
che e` dunque a variabili separabili. Oltre alla soluzione nulla y = 0, essa possiede la soluzione y0 = CeA(x) , dove A e` una qualunque primitiva di a e C e` una costante arbitraria. Permettendo a C di assumere anche il valore C = 0, possiamo concludere che questa e` la pi`u generale soluzione dell’equazione (5.10). Cerchiamo ora una soluzione particolare di (5.9). Come trovarla? La cerchiamo della forma speciale y(x) = y0 (x)v(x), dove v e` la nuova funzione incognita. Derivando, y0 (x) = y00 (x)v(x) + y0 (x)v0 (x) = a(x)y0 (x)v(x) + y0 (x)v0 (x) = (a(x)v(x) + v0 (x)) y0 (x). Inserendo questa uguaglianza in (5.9), vediamo che v deve soddisfare a(x)v(x) + v0 (x) y0 (x) = a(x)y0 (x)v(x) + b(x), e semplificando: y0 (x)v0 (x) = b(x). Questa equazione si integra immediatamente: v0 (x) = e−A(x) b(x), e dunque Z
v(x) =
e−A(x) b(x) dx.
Pertanto la soluzione particolare di (5.9) e` y(x) = eA(x)
Z
e−A(x) b(x) dx.
(5.11)
Per il Teorema precedente, la soluzione pi`u generale di (5.9) si ottiene sommando y0 e (5.11): Z y(x) = CeA(x) + eA(x) e−A(x) b(x) dx. (5.12) In particolare, si conferma il fatto che esiste un’infinit`a di soluzioni, descritte dalla costante arbitraria C. Esempio 5.7. Risolviamo l’equazione omogenea del secondo ordine a coefficienti costanti
5.2 Equazioni differenziali lineari
79
y00 + by0 + cy = 0.
(5.13)
Sappiamo che si pu`o interpretare come un sistema di due equazioni lineari del primo ordine, ma in questa sede ci risulta pi`u comodo usare la teoria dell’indipendenza lineare. Consideriamo lo spazio vettoriale X delle funzioni derivabili due volte.4 X e` uno spazio vettoriale rispetto alla somma di funzioni punto per punto, e al prodotto puntuale di una funzione per uno scalare. Vogliamo dimostrare che l’insieme delle soluzioni di (5.13) e` un sottospazio di X, di dimensione 2. Per amore di verit`a, anticipiamo che la nostra non sar`a una dimostrazione del tutto completa, poich´e non abbiamo gli strumenti per dimostrare un fondamentale teorema di esistenza ed unicit`a. Ci accontenteremo di fornire uno spunto soddisfacente e convincente. Consideriamo i due problemi di Cauchy 00 0 y + by + cy = 0 y(0) = 1 0 y (0) = 0 e
00 0 y + by + cy = 0 y(0) = 0 0 y (0) = 1.
Per il Teorema 5.1, tutti i problemi di Cauchy associati ad un’equazione lineare possiedono, ciascuno, una soluzione unica: siano y1 e y2 , rispettivamente. Dimostriamo che ogni soluzione di (5.13) si scrive come combinazione lineare di y1 e y2 . Sia y questa soluzione, e tutto quello che ci resta da fare e` scegliere C1 e C2 reali in modo che C1 y1 +C2 y2 soddisfi le due condizioni C1 y1 (0) +C2 y2 (0) = y(0),
C1 y01 (0) +C2 y02 (0) = y0 (0).
Ma questo e` facile, poich´e conosciamo i valori di y1 (0), y2 (0), y01 (0) e y02 (0). Infatti dobbiamo risolvere il semplicissimo sistema ( C1 = y(0) C2 = y0 (0). Poich´e, come abbiamo detto sopra, y e` l’unica soluzione dell’equazione u00 + bu0 + cu = 0 che soddisfa u(0) = y(0) e u0 (0) = y0 (0), necessariamente la funzione y(0)y1 + y0 (0)y2 coincide con y stessa. Dunque abbiamo espresso y come combinazione lineare di y1 e y2 , e osserviamo che e` stata possibile un’unica scelta di C1 e C2 . Quando due vettori generano un sottospazio, e ogni elemento del sottospazio e` individuato da un’unica possibile scelta dei coefficienti di combinazione lineare, tali vettori sono una base del sottospazio. 4
Non precisiamo in quale insieme vogliamo definire queste funzioni. In realt`a, si dimostra che le soluzioni di (5.13) sono sempre definite su R. Pertanto possiamo pensare che le funzioni dello spazio X siano definite ovunque.
80
5 Equazioni differenziali ordinarie
Riassumendo, y1 e y2 sono una base del sottospazio di X, formato dalle soluzioni di (5.13). Per avere uno strumento veramente utile, dobbiamo scrivere esplicitamente, in termini dei soli numeri b e c, le funzioni y1 e y2 . E proprio a questo punto entra in gioco il polinomio associato all’equazione. Lo spunto, che si riveler`a vincente, e` quello di osservare che le funzioni esponenziali del tipo x 7→ eαx sono quasi invarianti per derivazione: ad ogni derivazione appare un fattore moltiplicativo α davanti alla funzione esponenziale stessa. C’`e allora la speranza che, giocando con il parametro α, sia possibile risolvere l’equazione y00 + by0 + cy = 0. Sappiamo che ci basta trovare due soluzioni linearmente indipendenti di questa equazione, poich´e lo spazio delle soluzioni ha dimensione 2. Cerchiamo dunque dei numeri α tali che x 7→ eαx sia soluzione. Poich´e Deαx = αeαx ,
D2 eαx = α 2 eαx ,
dobbiamo imporre che α 2 eαx + bαeαx + ceαx = 0, e semplificando il fattore comune (mai nullo) eαx , scopriamo che stiamo in effetti cercando le soluzioni α dell’equazione algebrica di secondo grado α 2 + bα + c = 0.
(5.14)
Ora, tutto dipende dall’effettiva possibilit`a di risolvere (5.14). Il discriminante ∆ di questa equazione di secondo grado vale ∆ = b2 − 4c. Radici reali e distinte. E` il caso ∆ > 0. Dalle scuole medie superiori sappiamo (dobbiamo sapere) che (5.14) possiede due radici reali e distinte α1 , α2 , date dalla formula √ √ −b + ∆ −b − ∆ , α2 = . α1 = 2 2 Quindi le due funzioni y1 (x) = eα1 x ,
y2 (x) = eα2 x
risolvono l’equazione differenziale del secondo ordine. Ma sono linearmente indipendenti? Vediamo: supponiamo che λ1 y1 (x) + λ2 y2 (x) = 0
per ogni x,
cio`e λ1 eα1 x + λ2 eα2 x = 0
per ogni x.
Se λ2 = 0, allora per forza λ1 = 0. Se λ2 6= 0, possiamo dire che questa relazione equivale a λ1 = −e(α2 −α1 )x per ogni x. λ2
5.2 Equazioni differenziali lineari
81
Il primo membro e` una costante, il secondo e` una funzione della variabile x. L’unica possibilit`a e` che la funzione a secondo membro sia la funzione costante, e questo accade se e solo se α1 = α2 . Ci`o e` contraddittorio, poich´e le due radici α1 e α2 sono distinte. Quindi λ1 = λ2 = 0. Abbiamo dimostrato che y1 e y2 sono due soluzioni linearmente indipendenti, e per quanto visto in precedenza formano una base del sottospazio di tutte le soluzioni. Radici reali coincidenti. E` questo il caso ∆ = 0. L’equazione algebrica (5.14) ha due radici reali e coincidenti,5 , di valore b α =− . 2 b
Quindi y1 (x) = e− 2 x e` una soluzione, ma ce ne serve una seconda, linearmente indipendente da questa. Come trovarla? In questa sede preferiamo proporla d’ufficio: b y2 (x) = xe− 2 x . Lasciamo allo studente la verifica che y2 sia effettivamente una soluzione; sul fatto che y1 e y2 siano linearmente indipendenti, non c’`e molto da dire. Se b b λ1 e− 2 x + λ2 xe− 2 x = 0 per ogni x, esattamente come sopra possiamo dire che o λ2 = 0, e in questo caso λ1 = 0 per verifica diretta, oppure λ2 6= 0 e possiamo ricondurci a λ1 = −x λ2
per ogni x,
relazione palesemente assurda. Ancora una volta, λ1 = λ2 = 0 e dunque abbiamo costruito una base del sottospazio delle soluzioni. Radici complesse coniugate. Per ∆ < 0, la situazione si fa delicata. L’impossibilit`a di risolvere, in campo reale, l’equazione algebrica (5.14) ci obbliga qualche acrobazia. Ormai, tuttavia, siamo padroni dell’aritmetica dei numeri complessi, e sappiamo che (5.14) possiede le due soluzioni complesse coniugate √ √ b −∆ −∆ b , α2 = − + i . α1 = − − i 2 2 2 2 Per alleggerire la notazione, poniamo b κ =− , 2
ω=
√ −∆ , 2
in modo che le due funzioni (complesse, attenzione!) y1 (x) = e(κ−ωi)x ,
5
y2 (x) = e(κ+ωi)x
Ci atteniamo alla terminologia in voga nelle scuole medie superiori. Potremmo dire che esiste un’unica soluzione, o, pi`u precisamente, che esiste una soluzioni di molteplicit`a algebrica uguale a due.
82
5 Equazioni differenziali ordinarie
siano soluzioni, almeno formalmente. Ma non ci sentiamo soddisfatti, perch´e ci sembra poco elegante risolvere un’equazione differenziale in campo reale con due funzioni a valori complessi. Come ci procuriamo due soluzioni linearmente indipendenti, a valori reali? Una buona idea e` quella di utilizzare l’identit`a di Eulero (che poi e` la nostra Definizione 1.3) eit = cost + i sint,
per ogni t ∈ R.
Infatti, y1 (x) = e(κ−ωi)x = eκx (cos(ωx) − i sin(ωx)) y2 (x) = e(κ+ωi)x = eκx (cos(ωx) + i sin(ωx)) . Siccome le soluzioni formano un sottospazio vettoriale, possiamo dire che anche y1 + y2 e` una soluzione. Ma y1 (x) + y2 (x) = 2eκx cos(ωx), e siamo riusciti a far scomparire ogni traccia dei numeri complessi. Similmente, anche y2 − y1 e` una soluzione, e y2 (x) − y1 (x) = 2ieκx sin(ωx). Qui siamo un po’ meno felici, perch´e e` sopravvissuta quella i a secondo membro. Ma in uno spazio vettoriale possiamo dividere per gli scalari, e concludere che anche y1 + y2 , 2
y2 − y1 2i
sono soluzioni. Abbiamo allora i candidati eκx cos(ωx),
eκx sin(ωx)
ad essere una base del sottospazio delle soluzioni. Stavolta lasciamo allo studente la verifica dell’indipendenza lineare.6 Segno di ∆ Radici di (5.14) Base di soluzioni ∆ >0 α1 , α2 eα1 x , eα2 x b ∆ =0 α =− eαx , xeαx 2 ∆ <0 κ ± ωi eκx cos(ωx), eκx sin(ωx) Nell’esempio appena visto, abbiamo mostrato come risolvere un’equazione differenziale lineare omogenea del secondo ordine a coefficienti costanti. Restano aperti due problemi: 6
Tutte queste verifiche sono molto semplici: due funzioni sono linearmente dipendenti se e solo se sono ovunque uguali a meno di un fattore moltiplicativo. E` abbastanza evidente che le funzioni seno e coseno non sono l’una il multiplo dell’altra.
5.2 Equazioni differenziali lineari
83
1. il caso dei coefficienti variabili (cio`e b e c sono funzioni della variabile indipendente); 2. il caso non omogeneo y00 + by0 + cy = f (x). Il caso dei coefficienti variabili e` destinato a lasciarci con l’amaro in bocca: non esistono formule risolutive di portata generale, ed anzi molte funzioni “speciali” della matematica e della fisica sono definite proprio come soluzioni di equazioni del secondo ordine a coefficienti variabili. Pertanto, mettiamo immediatamente da parte questo problema, e passiamo al caso delle equazioni non omogenee a coefficienti costanti. In questo caso, se solo f e` una funzione continua, e` possibile sviluppare strategie che permettono l’individuazione di una soluzione particolare dell’equazione non omogenea. Osservazione 5.5. Riprendiamo l’equazione omogenea u00 + bu0 + cu = 0. Come visto, possiamo riscrivere questa equazione del secondo ordine come un sistema di due equazioni (lineari) del primo ordine: 0 u 0 1 u = . −c −b v v0 Chiamiamo
0 1 A= . −c −b
Supponiamo che esista un cambiamento di base U u =P . V v tale che, rispetto alle nuove variabili (U,V ) la matrice del sistema risulti diagonale: 0 U λ1 0 U = . V0 0 λ2 V Allora il sistema diagonale si integra subito: U(x) = C1 eλ1 x ,
V (x) = C2 eλ2 x ,
dove C1 e C2 sono costanti arbitrarie. Possiamo ricavare l’incognita originaria u da λ x u U Ce 1 = P−1 1 λ2 x . = P−1 v V C2 e Poich´e la matrice P e` una matrice numerica (i suoi elementi non sono funzioni di x, perch´e e` la matrice che diagonalizza la matrice a coefficienti numeri del sistema: qui si vede l’importanza di avere un’equazione a coefficienti costanti), il risultato e` che u si scrive come combinazione lineare di eλ1 x e di eλ2 x : u(x) = C˜1 eλ1 x + C˜2 eλ2 x .
84
5 Equazioni differenziali ordinarie
Che cosa abbiamo dimostrato? Abbiamo dimostrato che, se la matrice del sistema e` diagonalizzabile, allora la soluzione pi`u generale dell’equazione del secondo ordine a coefficienti costanti u00 + bu0 + cu = 0 si scrive u(x) = C˜1 eλ1 x + C˜2 eλ2 x . Resta da capire se la matrice sia effettivamente diagonalizzabile, e se questa soluzione sia coerente con la soluzione trovata nell’esempio precedente. In altre parole, e` vero che λ1 e λ2 sono gli stessi numeri che comparivano in quell’esempio? Per capirlo, ricordiamo che una matrice 2 × 2 e` diagonalizzabile quando possieda due autovalori distinti. Gli autovalori della matrice 0 1 −c −b si calcolano facendo −λ 1 det = λ (b + λ ) + c = λ 2 + bλ + c = 0. −c −b − λ Ma vediamo che questa equazione e` esattamente l’equazione (5.14) dell’esempio precedente. Insomma, se ∆ 6= 0, tutto si sistema: due radici distinte (eventualmente complesse coniugate, ma sappiamo come ricondurci a soluzioni reali utilizzando l’identit`a di Eulero), matrice diagonalizzabile, e gli esponenti sono quelli giusti. Resta escluso, apparentemente, il caso ∆ = 0. In questo caso l’equazione caratteristica della matrice del sistema possiede due soluzioni reali e coincidenti, e la diagonalizzabilit`a non e` cos`ı automatica. Se b2 = 4c, l’unica radice del polinomio caratteristico e` λ = −b/2, e gli autovettori sono le soluzioni del sistema lineare b v1 b/2 1 v1 , =− −c −b/2 v2 2 v2 cio`e
(
b b 2 v1 + v2 = − 2 v1 2 − b4 v1 − b2 v2 = − b2 v2 .
Questo sistema ha le infinite soluzioni (v1 , v2 )t in cui bv1 + v2 = 0, cio`e (α, −bα)t , al variare di α. Purtroppo, la dimensione dell’autospazio associato all’autovalore −b/2 e` 1, e la matrice del sistema non e` diagonalizzabile. Effettivamante, per ∆ = 0, non riusciamo ad arrivare alla conclusione. Osservazione 5.6. A completamenteo dell’Osservazione precedente, nel caso ∆ = 0 e` possibile dimostrare che la matrice del sistema e` simile alla matrice λ 1 . 0λ Si tratta di un caso particolare della famosa forma canonica di Jordan. Nelle nuove coordinate, il sistema diventa
5.3 Il metodo di variazione delle costanti
85
( V 0 = λV U 0 = λU +V, dal quale ricaviamo subito V (x) = C1 eλ x , e dunque U deve risolvere la singola equazione lineare non omogenea U 0 = λU + C1 eλ x . Si verifica facilmente che U(x) = C2 xeλ x e` una soluzione, e dunque la pi`u generale soluzione dell’equazione u00 + bu0 + cu = 0 si pu`o esprimere come combinazione lienare di eλ x e xeλ x . In un certo senso, la riduzione della matrice a forma triangolare o di Jordan “spiega” perch´e sia opportuno considerare xeλ x come seconda soluzione linearmente indipendente per l’equazione omogenea del secondo ordine.
5.3 Il metodo di variazione delle costanti Torniamo al sistema di n equazioni lineari y0 (x) = A(x)y(x) + b(x),
(5.15)
dove A(x) = [ai j (x)] e` una matrice n × n di funzioni (almeno continue) e b(x) = (b1 , . . . , bn (x))t e` un vettore di funzioni (almeno continue). La soluzione y sar`a pertanto un vettore y(x) = (y1 , . . . , yn (x))t di funzioni, che soddisfino (5.15) punto per punto nel dominio di definizione. Come accennato precedentemente, le soluzioni degli n problemi di Cauchy 0 y (x) = A(x)y(x) (5.16) y(x0 ) = ei , dove ei e` l’i–esimo vettore della base canonica di Rn , formano una base per lo spazio vettoriale delle soluzioni di (5.15). Sia dunque {w1 , . . . , wn } una base di soluzioni. Per ogni x, possiamo costruire la matrice W (x) = [w1 (x)| . . . |wn (x)]
(5.17)
ottenuta affiancando i vettori colonna w1 (x), . . . , wn (x). Si tratta allora di una matrice n × n, le cui componenti sono funzioni della variabile indipendente x. La sua propriet`a fondamentale e` che “risolve” lo stesso problema omogeneo risolto da ogni wi , nel senso che W 0 (x) = A(x)W (x). (5.18) Chiameremo W la matrice fondamentale del sistema y0 = A(x)y. Inoltre, ogni soluzione y di questo sistema si scrive nella forma y(x) = ∑ni=1 ci wi (x) per opportune costanti c1 , . . . , cn . Con la notazione vettoriale, y(x) = W (x)c,
86
5 Equazioni differenziali ordinarie
dove
c1 c = ... . cn
In altri termini, la soluzione del generico problema di Cauchy 0 y = A(x)y y(x0 ) = y0 si ottiene risolvendo (rispetto al vettore c) il sistema lineare W (x0 )c = y0 . Almeno a livello formale7 possiamo concludere che y(x) = W (x)W (x0 )−1 y0 . Sfruttiamo queste informazioni per risolvere finalmente (5.15). Una volta costruita la matrice W del sistema omogeneo associato, cerchiamo una soluzione particolare della forma yb (x) = W (x)c(x), dove il vettore c = c(x) e` una n–upla di funzioni incognite da determinare in modo che yb sia effettivamente soluzione di (5.15). Questa richiesta significa che W 0 (x)c(x) +W (x)c0 (x) = A(x)W (x)c(x) + b(x), che si riduce a W (x)c0 (x) = b(x)
(5.19)
ricordando (5.18). Ma allora c0 (x) = W (x)−1 b(x), e infine
Z
c(x) =
W (t)−1 b(t) dt,
dove il simbolo di integrale denota il calcolo delle primitive di ciascuna componente del vettore W (t)−1 b(t). Concludiamo che una soluzione particolare di (5.15) e` data dalla formula Z yb (x) = W (x) W (t)−1 b(t) dt. (5.20) Qualora si voglia risolvere il problema di Cauchy 0 y = A(x)y(x) + b(x) y(x0 ) = y0 , 7
Ma tutto pu`o essere reso rigoroso.
(5.21)
5.3 Il metodo di variazione delle costanti
87
e` pi`u conveniente inserire subito la condizione di Cauchy, scrivendo Z x
c(x) = c0 +
W (t)−1 b(t) dt,
x0
con c0 ∈ Rn vettore (costante) arbitrario. Allora la soluzione pi`u generale di (5.21) si scrive Z x y(x) = W (x)c0 + W (x)W (t)−1 b(t) dt. (5.22) x0
Osservazione 5.7. Quando la matrice A e` indipendente da x, cio`e e` una matrice fatta da costanti, alcune formule si semplificano. Premettiamo una considerazione. Supponiamo che W denoti la matrice fondamentale del problema di Cauchy 0 y = Ay y(0) = y0 in cui abbiamo posto, per semplicit`a di notazione, x0 = 0. Quindi, W (x)y0 rappresenta il valore, nel punto x, della soluzione di questo sistema di equazioni. Consideriamo ora due valori x1 , x2 : il vettore W (x1 )W (x2 )y0 rappresenta, per definizione, il valore al “tempo” x1 della soluzione dell’equazione y0 = Ay con dato iniziale y(0) = W (x2 )y0 . Per l’unicit`a della soluzione dei problemi di Cauchy associati a y0 = Ay, questo vettore deve coincidere con il vettore ottenuto partendo da y(0) = y0 e seguento la soluzione fino a x = x2 , e proseguendo poi fino a x = x1 . In simboli, W (x1 + x2 ) = W (x1 )W (x2 ). Scegliendo x1 = x e x2 = −x, otteniamo l’uguglianza W (x)W (−x) = W (0). Ma W (0) e` la matrice identica I, poich´e rappresenta il valore della soluzione nel punto iniziale. Dunque W (−x) = W (x)−1 . Quindi, inserendo questa relazione in (5.22), abbiamo dimostrato la cosiddetta formula di Duhamel Z x
y(x) = W (x)c +
W (x − t)b(t) dt
(5.23)
x0
per il calcolo della soluzione pi`u generale dell’equazione non omogenea. Ripetiamo ancora una volta che questa formula sussiste solo se A e` una matrice costante. Esempio 5.8. Riprendiamo l’equazione u00 + bu0 + cu = f , dove b e c sono numeri reali, e f e` una funzione data (almeno continua). Vediamo a quale formula ci conduce il metodo di Duhamel. Sappiamo che la singola equazione e` equivalente al sistema 0 u 0 1 u 0 = + . v0 −c −b v f (x) La matrice del sistema e` costante, e la matrice fondamentale del problema omogeneo associato e`
88
5 Equazioni differenziali ordinarie
W (x) =
u1 (x) u2 (x) . u01 (x) u02 (x)
dove u1 e u2 sono due soluzioni linearmente indipendenti dell’equazione omogenea (quelle ricavate ad nauseam in tutti i modi possibili), con le costanti scelte in modo che u1 (0) = 1, u01 (0) = 0, e u2 (0) = 0, u02 (0) = 1. Una soluzione particolare dell’equazione non omogenea si trova calcolando Z x
y f (x) =
0
u2 (x − t) f (t) dt,
come si ricava immediatamente dalla formula di Duhamel. Resta il fatto che questo integrale, in cui la x compare sia nell’integranda che in uno degli estremi di integrazione, e` spesso di difficile risoluzione. Sono frequenti i casi in cui sia pi`u maneggevole risolvere “a mano” il sistema derivato dalla variazione delle costanti, oppure ancora sia preferibile approfittare della forma specifica della forzante f per tentare una soluzione particolare anch’essa di forma particolare. Si osservi, per concludere, che nel metodo di variazione delle costanti, si perviene alla relazione vettoriale 0 c1 0 W (x) 0 = , c2 f (x) del tutto equivalente al ben noto sistema u1 (x)c01 (x) + u2 (x)c02 (x) = 0 u01 (x)c01 (x) + u02 (x)c02 (x) = f (x). Vediamo che la condizione u1 (x)c01 (x) + u2 (x)c02 (x) = 0 non e` affatto una richiesta artificiosa o ausiliaria, come spesso si legge nelle trattazioni elementari delle equazioni differenziali. E` invece una richiesta intrinseca al metodo di variazione delle costanti, applicato alle equazioni di ordine due.
Bibliografia
89
Bibliografia 1. V. Barutello, M. Conti, D. L. Ferrario, S. Terracini, G. Verzini. Analisi matematica, volume due. Apogeo. 2. R. Betti, Geometria e complementi di matematica. Progetto Esculapio, Bologna. 3. L. De Michele, M. Palleschi. Algebra lineare. Masson. 4. W. Greub. Linear algebra. Springer–Verlag. 5. P. Halmos. Finite–dimensional vector spaces. Springer. 6. S. Lang. Algebra lineare. Bollati Boringhieri. 7. C. Pagani, S. Salsa. Analisi matematica 2. Zanichelli.