Aanvullingen bij Hoofdstuk 8
8.5 Definities voor matrices De begrippen eigenwaarde, eigenvector, eigenruimte, karakteristieke veelterm en diagonaliseerbaar worden ook gebruikt voor vierkante matrices, los van de context van lineaire afbeeldingen. We kunnen anderzijds een vierkante matrix altijd beschouwen als de matrix van een lineaire afbeelding ten opzichte van een basis, en dan moeten deze begrippen natuurlijk overeenkomen. Definitie 8.4. Zij B een (p × p)-matrix. (1) De karakteristieke veelterm van B is fB (t) := det(tIp − B). (2) Een eigenwaarde van B is een wortel van fB (t). (3) Een eigenvector van B met eigenwaarde λ is een vector (v1 , . . . , vp ) ∈ Rp zodat (v1 , . . . , vp ) 6= (0, . . . , 0) en v1 v1 . . B · .. = λ .. . vp vp Anders gezegd, als B : Rp → Rp de lineaire afbeelding is met matrix B ten opzichte van de standaardbasis van Rp , dan is een eigenwaarde of eigenvector van B precies een eigenwaarde of eigenvector van B. Stelling 8.3. Zij B een (p × p)-matrix en P een inverteerbare (p × p)-matrix. Dan is fB = fP −1 BP , en hebben B en P −1 BP dus dezelfde eigenwaarden. Bewijs. Oefening. Stelling 8.4. De eigenwaarden van een boven- of benedendriehoeksmatrix zijn de elementen op de hoofddiagonaal. Bewijs. Zij A een (p × p)-boven- of benedendriehoeksmatrix. We noteren met a11 , a22 , . . . , app de elementen op de hoofddiagonaal van A. Wegens Stelling 5.3 is fA (t) = det(tIp − A) =
p Y i=1
1
(t − aii ) .
¤
Definitie 8.5. Een (p × p)-matrix B is diagonaliseerbaar als (1) Rp een basis heeft, bestaande uit eigenvectoren van B, of, equivalent hiermee, als (2) er een inverteerbare (p × p)-matrix P bestaat zodat P −1 BP een diagonaalmatrix is. Het bewijs van de equivalentie is eenvoudig. (Als je dit niet inziet, kijk dan naar Stelling 8.2 en het bewijs hiervan.)
8.6 Criteria voor diagonaliseerbaarheid
Omdat diagonaalmatrices de meest eenvoudige matrices zijn, zowel om theoretisch mee te werken als praktisch (‘met de hand’ of met de computer), loont het zeker de moeite om te onderzoeken wanneer precies een lineaire afbeelding diagonaliseerbaar is. Hiervoor gaan we eerst eigenvectoren en eigenwaarden wat van naderbij bestuderen. Belangrijke opmerking. We hebben de begrippen karakteristieke veelterm, eigenwaarde, eigenvector, eigenruimte en diagonaliseerbaarheid intussen ook ingevoerd voor vierkante matrices. De resultaten en definities in dit deeltje gelden ook als je in de formuleringen de lineaire transformatie A vervangt door een vierkante matrix A. Stelling 8.5. Zij A een lineaire transformatie van een eindigdimensionale vectorruimte V. Zij λ1 , . . . , λr verschillende eigenwaarden van A. (1) Zij vi een eigenvector van A met eigenwaarde λi voor i = 1, . . . , r. Dan zijn v1 , v2 , . . . , vr lineair onafhankelijk. Pr (2) De som i=1 Eλi is een directe inwendige som. Bewijs. (1) Dit tonen we aan per inductie op r; het geval r = 1 is alvast in orde. We veronderstellen nu dat r > 1. Wegens de inductiehypothese mogen we aannemen dat v1 , v2 , . . . , vr−1 lineair onafhankelijk zijn. Stel dat v1 , v2 , . . . , vr lineair afhankelijk zouden zijn. Dan geldt voor zekere αi ∈ R dat vr = α1 v1 + α2 v2 + · · · + αr−1 vr−1 . Inderdaad, bij een afhankelijkheidsrelatie tussen v1 , v2 , . . . , vr moet vr expliciet voorkomen omdat de anderen lineair onafhankelijk zijn. Enerzijds is nu A(vr ) = A(α1 v1 + α2 v2 + · · · + αr−1 vr−1 ) = α1 A(v1 ) + α2 A(v2 ) + · · · + αr−1 A(vr−1 ) = α1 λ1 v1 + α2 λ2 v2 + · · · + αr−1 λr−1 vr−1 , 2
en anderzijds is ook A(vr ) = λr vr = α1 λr v1 + α2 λr v2 + · · · + αr−1 λr vr−1 . Hieruit volgt dat α1 (λ1 − λr )v1 + α2 (λ2 − λr )v2 + · · · + αr−1 (λr−1 − λr )vr−1 = 0 . Omdat v1 , v2 , . . . , vr−1 lineair onafhankelijk zijn, zijn dan alle λi − λr waarvoor αi 6= 0 gelijk aan nul. Dus is er zeker ´e´en λi = λr . Dit levert een contradictie. (2) We gebruiken Stelling 4 12 .4. We schrijven de nulvector als 0=
r X
wi
i=1
waarbij elke wi ∈ Eλi , en moeten dan aantonen dat elke wi = 0. Stel dat minstens ´e´en van deze wj 6= 0. Dan zegt bovenstaande gelijkheid dat een aantal eigenvectoren, horende bij verschillende eigenwaarden, lineair afhankelijk zijn. En dit kan niet wegens (1). ¤ Hieruit kunnen we reeds het volgende speciale geval halen in verband met diagonaliseerbaarheid. Stelling 8.6. Als een lineaire transformatie A van een p-dimensionale vectorruimte p verschillende eigenwaarden heeft, dan is A diagonaliseerbaar. Bewijs. Kies bij elke eigenwaarde een eigenvector. Deze p eigenvectoren zijn lineair onafhankelijk en vormen dus een basis van de gegeven p-dimensionale vectorruimte. ¤ Opmerking. In dit geval is elke eigenruimte dus ´e´endimensionaal. Nu gaan we op zoek naar een nodige en voldoende voorwaarde voor diagonaliseerbaarheid. Hierbij zullen we de multipliciteit van een eigenwaarde nodig hebben. Definitie 8.6. Zij A een lineaire transformatie van een eindigdimensionale vectorruimte en λ een eigenwaarde van A. De (algebra¨ısche) multipliciteit van λ, genoteerd multA λ of kortweg mult λ, is het aantal keer dat λ een wortel is van de karakteristieke veelterm van A; anders gezegd : mult λ = m als fA (t) = (t − λ)m g(t) met λ geen wortel van g. 3
Stelling 8.7. Zij A een lineaire transformatie van een eindigdimensionale vectorruimte. Voor elke eigenwaarde λ van A geldt : dim Eλ 6 mult λ. Bewijs. Zij p de dimensie van de vectorruimte en k = dim Eλ . Neem een basis v1 , . . . , vk van Eλ en breid deze basis uit tot een basis van V met p − k vectoren vk+1 , . . . , vp . De matrix van A ten opzichte van de basis v1 , . . . , vp is van de vorm µ ¶ λIk B A= O C waarbij O de (p−k)×k-nulmatrix is, B een k×(p−k)-deelmatrix en C een (p−k)×(p−k)deelmatrix. De karakteristieke veelterm van A is dus ¯ ¯ ¯ ¯ ¯ ¯ tIk − λIk ¯ ¯ (t − λ)Ik −B −B ¯=¯ ¯. fA (t) = |tIp − A| = ¯¯ O tIp−k − C ¯ O tIp−k − C ¯ ¯ Ontwikkelen naar de eerste k kolommen levert fA (t) = (t − λ)k |tIp−k − C| . Dit zegt dat λ minstens multipliciteit k heeft als wortel van fA , en dus inderdaad dat de multipliciteit van λ minstens even groot is als dim Eλ . ¤ Opmerking. De dimensie van Eλ heet ook de meetkundige multipliciteit van λ. Dan zegt de vorige stelling : (meetkundige multipliciteit van λ) 6 (algebra¨ısche multipliciteit van λ).
In Voorbeeld 8.10 bleek voor de enige eigenwaarde λ = 1 dat dim Eλ < mult λ; in Stelling 8.7 kan de ongelijkheid dus strikt zijn. Dit was ook de reden waarom de transformatie in Voorbeeld 8.10 niet diagonaliseerbaar was. Zij nu A : V → V een lineaire transformatie van een p-dimensionale Pr vectorruimte en λ1 , . . . , λr alle verschillende eigenwaarden van A. Dan is altijd i=1 mult λi 6 p, waarbij gelijkheid optreedt precies wanneer fA volledig splitst in lineaire factoren over R. Uit Stelling 8.7 volgt alvast dat steeds (∗)
r X i=1
dim Eλi 6
r X
mult λi 6 p.
i=1
Deze ongelijkheden zijn belangrijk bij het bewijs van de volgende criteria voor diagonaliseerbaarheid. 4
Stelling 8.8. Zij A : V → V een lineaire transformatie van een eindigdimensionale vectorruimte V. Zij λ1 , . . . , λr alle verschillende eigenwaarden van A. Dan zijn volgende uitspraken equivalent : (1) A is diagonaliseerbaar, Pr (2) V = i=1 Eλi , (3) V = ⊕ri=1 Eλi , (4) fA splitst volledig in lineaire factoren over R en dim Eλi = mult λi voor elke i = 1, . . . , r. Bewijs. Noteer p := dim V . ”(1) ⇒ (2)” Per definitiePvan diagonaliseerbaar heeft V dan een basis van eigenvecr toren, en is dus zeker V = i=1 Eλi . ”(2) ⇒ (3)” Dit volgt uit Stelling 8.5(2). ”(3) ⇒ (4)” Uit het gegeven en (∗) volgt dat p = dim V =
r X
dim Eλi 6
i=1
r X
mult λi 6 p.
i=1
Pr Dit kan enkel als alle ongelijkheden gelijkheden zijn. Dan is i=1 mult Pr λi = p, wat betekent dat f volledig splitst in lineaire factoren over R, en A i=1 dim Eλi = Pr i=1 mult λi , wat (wegens Stelling 8.7) impliceert dat dim Eλi = mult λi voor elke i = 1, . . . , r. ”(4) ⇒ (1)” Kies in elke Eλi eenP basis Bi (van eigenvectoren dus). Het aantal vectoren Pr r r in ∪i=1 Bi is volgens het gegeven i=1 dim Eλi = i=1 mult λi = p. Wegens stelling 8.5 zijn deze vectoren lineair onafhankelijk en vormen dus een basis van V . ¤ Gevolg. Als A diagonaliseerbaar is vormt de (disjuncte) unie van basissen van de Eλi een basis van V .
8.7 Trianguleren Zelfs als de karakteristieke veelterm van een lineaire transformatie A volledig splitst in lineaire factoren over R hoeft A niet diagonaliseerbaar te zijn; zie Voorbeeld 8.10. De tweede voorwaarde in Stelling 8.8(4) is dus echt nodig. Maar dan kunnen we wel steeds een ‘nog redelijk eenvoudige’ matrixvoorstelling van A vinden; ten opzichte van een geschikte basis wordt de matrix van A namelijk een bovendriehoeksmatrix. Men zegt dan dat A trianguleerbaar is. In het bewijs komt de notie van invariante deelruimte te voorschijn. 5
Definitie 8.7. Zij A : V → V een lineaire transformatie van een vectorruimte V . Een A-invariante deelruimte van V is een deelruimte W van V waarvoor A(W ) ⊂ W . Merk op dat de beperking van A tot W dan een lineaire transformatie is van W . Stelling 8.9. Zij A : V → V een lineaire transformatie van een eindigdimensionale vectorruimte V . Als fA volledig splitst in lineaire factoren over R, dan bestaat er een basis E van V zodat de matrix van A ten opzichte van E een bovendriehoeksmatrix is. Bewijs. We argumenteren per inductie op de dimensie p van V . Het geval p = 1 is evident. We nemen nu p > 1. • Zij λ1 een eigenwaarde van A en v1 een eigenvector met eigenwaarde λ1 . Dan is W1 :=
een A-invariante deelruimte van V . • Breid nu v1 uit tot een basis v1 , v2 , . . . , vp van V . Dan is W2 := een supplementaire deelruimte van W1 , met andere woorden V = W1 ⊕ W2 , maar W2 is niet noodzakelijk A-invariant. De matrix van A ten opzichte van v1 , v2 , . . . , vp is dus van de vorm µ ¶ λ1 ∗ , A= O R waarbij O een kolom is van p − 1 nullen, R een (p − 1) × (p − 1)-deelmatrix en ∗ een rij van p − 1 getallen. (Indien W2 ook A-invariant zou zijn wordt dit een nulrij.) • Zij AR de lineaire transformatie van W2 met matrix R ten opzichte van de basis v2 , . . . , vp van W2 . Een belangrijke opmerking voor het vervolg is dat voor elke w ∈ W2 de verschilvector A(w) − AR (w) tot W1 behoort. • Door de determinant van tIp − A te ontwikkelen naar de eerste kolom verkrijgen we fA (t) = (t − λ1 )fAR (t). Bijgevolg splitst ook fAR volledig in lineaire factoren over R. • Nu levert de inductiehypothese, toegepast op de (p − 1)-dimensionale vectorruimte W2 en de lineaire transformatie AR , een basis v20 , . . . , vp0 van W2 zodat de matrix R0 van AR ten opzichte van deze nieuwe basis een bovendriehoeksmatrix is. De vectoren v1 , v20 , . . . , vp0 vormen ook een basis van V , en de matrix van A ten opzichte van deze basis is van de vorm µ ¶ λ1 ∗0 0 A = . O R0 Verifieer dit ! Omdat R0 een bovendriehoeksmatrix is, is A0 dit natuurlijk ook. ¤ Gevolg. Zij A een lineaire transformatie van een eindigdimensionale vectorruimte. Als fA volledig splitst in lineaire factoren over R, dan : 6
(1) det(A) is het product van alle eigenwaarden van A, (2) Sp(A) is de som van alle eigenwaarden van A. Hierbij moeten de eigenwaarden wel geteld worden met hun multipliciteit.
8.8 En nu met complexe getallen
Hiermee wordt alles niet complexer maar eenvoudiger ! Voorbeeld 8.9bis. De matrix µ A=
cos α sin α
− sin α cos α
¶
had als karakteristieke veelterm fA (t) = t2 − 2(cos α)t + 1. Als cos α 6= ±1 heeft A geen re¨ele wortels en dus geen eigenwaarden en geen eigenvectoren. Over C heeft fA wel twee wortels, namelijk λ1 = cos α + i sin α (= eiα )
en
λ2 = cos α − i sin α (= e−iα ).
We zeggen dat λ1 en λ2 complexe eigenwaarden zijn van A. We kunnen de matrix A eigenlijk ook beschouwen als een matrix over C en hieraan de afbeelding µ 2
2
C →C :
z1 z2
¶
µ 7→ A
z1 z2
¶
associ¨eren. Analoog als in Definities 8.1 en 8.2 kunnen we complexe eigenvectoren enµeigenruimtes Bijvoorbeeld voor λ1 zijn dit de oplossingen in C2 van ¶ µ invoeren. ¶ z1 z1 A = λ1 , dus van het homogene stelsel met co¨effici¨entenmatrix z2 z2 µ λ1 I 2 − A =
i sin α − sin α
sin α i sin α
¶ .
De oplossingen hiervan zijn alle complexe veelvouden van (1, −i). Analoog vormen alle complexe veelvouden van (1, i) de complexe eigenruimte van λ2 . We voeren deze begrippen nu in het algemeen in. (A) Alles wat we tot nu toe gezien hebben blijft geldig met C in plaats van R. Hiermee bedoelen we het volgende : 7
Stel dat voor de verzameling V in Definitie 2.1 als tevoren een vectoroptelling gedefinieerd is, maar nu een scalaire vermenigvuldiging met complexe in plaats van re¨ele getallen. Vervang in de axioma’s overal R door C. Men noemt V dan een complexe vectorruimte of vectorruimte over C. Alle ingevoerde begrippen kunnen we nu ook beschouwen voor complexe vectorruimten, en alle geziene resultaten blijven geldig (waarbij we telkens ‘re¨eel getal’ moeten vervangen door ‘complex getal’) ! Opmerking. Wat we tot nu toe steeds gewoon ‘vectorruimte’ genoemd hebben, wordt ook re¨ele vectorruimte of vectorruimte over R genoemd. Dit is nuttig voor de gevallen waarin er keuze is om over R of over C te werken; zie (C) hieronder. (B) We bekijken nu in het bijzonder de complexe versie van Definities 8.1 en 8.2. Aan lineaire transformaties van complexe vectorruimten, respectievelijk aan complexe vierkante matrices, associ¨eren we eigenwaarden in C en eigenvectoren met complexe co¨ ordinaten (ten opzichte van een basis), respectievelijk eigenvectoren in Cn . Zij A een lineaire transformatie van een eindigdimensionale complexe vectorruimte. De karakteristieke veelterm fA van A splitst volledig in lineaire factoren over C; dit betekent dat de eigenwaarden van A samenvallen met alle wortels van fA . (Over R waren de complexe niet-re¨ele wortels van de karakteristieke veelterm geen eigenwaarden.) Hieruit volgt ook dat er over C steeds een eigenwaarde (en dus eigenvector) is. De formuleringen van de Stellingen 8.8 en 8.9 zijn over C dan iets eenvoudiger. Voor de duidelijkheid geven we deze formuleringen expliciet. Stelling 8.8’. Zij A : V → V een lineaire transformatie van een eindigdimensionale complexe vectorruimte V en λ1 , . . . , λr alle verschillende eigenwaarden van A. Dan zijn volgende uitspraken equivalent : (1) A is diagonaliseerbaar, Pr (2) V = i=1 Eλi , (3) V = ⊕ri=1 Eλi , (4) dim Eλi = mult λi voor elke i = 1, . . . , r. Stelling 8.9’. Zij A : V → V een lineaire transformatie van een eindigdimensionale complexe vectorruimte V . Dan bestaat er een basis E van V zodat de matrix van A ten opzichte van E een bovendriehoeksmatrix is. Gevolg. Zij A een lineaire transformatie van een eindigdimensionale complexe vectorruimte. Dan : (1) det(A) is het product van alle eigenwaarden van A, 8
(2) Sp(A) is de som van alle eigenwaarden van A, waarbij de eigenwaarden geteld moeten worden met hun multipliciteit. We vermelden tenslotte expliciet als gevolg van de complexe versie van Stelling 6.4 : Een complexe (p×p)-matrix A is diagonaliseerbaar als en slechts als er een inverteerbare complexe (p × p)-matrix B bestaat zodat B −1 AB een (complexe) diagonaalmatrix is. (C) Zij A een re¨ele (p×p)-matrix. Naargelang we A beschouwen als re¨ele of als complexe matrix geldt er een andere notie van diagonaliseerbaarheid. Voor de duidelijkheid is het hier beter om altijd expliciet diagonaliseerbaar over R of diagonaliseerbaar over C te zeggen. Even herhalen : A is diagonaliseerbaar over R ⇔ Rp heeft een basis van (re¨ele) eigenvectoren van A ⇔ fA splitst volledig in lineaire factoren over R en voor elke (re¨ele) eigenwaarde λ van A is dim Eλ = mult λ, A is diagonaliseerbaar over C ⇔ Cp heeft een basis van (complexe) eigenvectoren van A ⇔ voor elke complexe eigenwaarde λ van A is dim Eλ = mult λ. Merk op dat in het eerste geval Eλ een re¨ele vectorruimte is, en in het tweede geval een complexe vectorruimte. Bijvoorbeeld is de matrix in Voorbeeld 8.9 diagonaliseerbaar over C maar niet over R. Opgave 8.9. Zij λ een complexe niet-re¨ele eigenwaarde van een re¨ele vierkante matrix. Dan heeft λ geen re¨ele eigenvectoren. Opmerking. Zelfs als we enkel ge¨ınteresseerd zijn in ‘re¨ele’ eigenschappen van een re¨ele vierkante matrix kan het nuttig zijn om complexe eigenwaarden en eigenvectoren te kennen en te gebruiken. We zullen hiervan voorbeelden zien bij een toepassing van lineaire algebra en bij de hoofdstelling over symmetrische matrices in Hoofdstuk 9. Een eenvoudig voorbeeldje van dit principe zagen we al bij de berekening van de determinant en het spoor van een re¨ele vierkante matrix A. Deze zijn natuurlijk beide re¨eel, maar kunnen berekend worden als respectievelijk het product en de som van alle complexe eigenwaarden van A. Merk op dat, wanneer de karakteristieke veelterm van A niet volledig in lineaire factoren splitst over R, det(A) en Sp(A) in het algemeen niet gelijk zijn aan respectievelijk product en som van alle re¨ele eigenwaarden van A.
9