天天看点

线性代数笔记15:SVD分解谱分解奇异值分解思考

本节在共轭转置的基础上介绍奇异值和奇异值分解。

谱分解

共轭转置

矩阵 A A 的共轭转置AHAH(又称Hermite共轭、Hermite转置)定义为:

AH=(A¯)T=AT¯ A H = ( A ¯ ) T = A T ¯

酉矩阵

设 U∈Cn×n U ∈ C n × n 阶复方阵,若 UHU=I U H U = I ,则称 U U 是酉矩阵。

Hermite矩阵

设A∈Cn×nA∈Cn×n,如果 AH=A A H = A ,那么 A A 为Hermite矩阵;

如果AH=−AAH=−A,则 A A 为反Hermite矩阵。

Schur定理

任何一个nn阶复矩阵都酉相似于一个上三角矩阵,则存在一个 n n 阶酉矩阵UU和一个 n n 阶上三角矩阵RR使得:

UHAU=R U H A U = R

其中 R R 的对角元是AA的特征值。

正规矩阵

设 A∈Cn×n A ∈ C n × n ,如果:

AAH=AHA A A H = A H A

则称 A A 为正规矩阵。

可以证明,对角矩阵,Hermite矩阵,反Hermite矩阵,酉矩阵都是正规矩阵。

酉相似条件

nn阶矩阵 A A 酉相似于一个对角矩阵的充分必要条件为AA是正规矩阵。

因此,若 A A 是nn阶Hermite矩阵,则 A A 必酉相似与实对角矩阵,即存在nn阶酉矩阵 U U 使得:

UHAU=ΛUHAU=Λ

因为 AH=A A H = A ,则 ΛH=Λ Λ H = Λ ,因此 Λ Λ 是实对角矩阵。

谱分解

Hermite的谱分解式

由上文可知,若 A A 为Hermite矩阵,则:

UHAU=ΛUHAU=Λ

奇异值分解

奇异值定义

设 A∈Cn×n A ∈ C n × n ,如果存在非负实数 σ σ 和非零向量 u∈Cn,v∈Cm u ∈ C n , v ∈ C m ,使得:

Au=σv,AHv=σu A u = σ v , A H v = σ u

则称 σ σ 为 A A 的奇异值,uu和 v v 分别称为AA对应于奇异值 σ σ 的右奇异向量和左奇异向量。

AHAu=σAHv=σ2u A H A u = σ A H v = σ 2 u

因此 σ2 σ 2 是 AHA A H A 的特征值,也是 AAH A A H 的特征值,而 u u 和vv分别是 AHA A H A 和 AAH A A H 对应于 σ2 σ 2 的特征向量。

引理

  1. 设 A∈Cm×n A ∈ C m × n ,则

    rank(AHA)=rank(AAH)=rank(A) r a n k ( A H A ) = r a n k ( A A H ) = r a n k ( A )

  2. 设 A∈Cm×n A ∈ C m × n ,则
    • AHA A H A 与 AAH A A H 的特征值均为非负实数
    • AHA A H A 与 AAH A A H 的非零特征值相同,并且非零特征值个数等于 rank(A) r a n k ( A )

定理

  1. 设 A A 是正规矩阵,则AA的奇异值为 A A 的特征值的模。
  2. 设AA是 m×n m × n 矩阵,且 rank(A)=r r a n k ( A ) = r ,则存在 m m 阶酉矩阵UU和 n n 阶酉矩阵VV使得:

    UHAV=(∑000) U H A V = ( ∑ 0 0 0 )

    ∑=diag(σ1,...,σr) ∑ = d i a g ( σ 1 , . . . , σ r ) ,且 σ1≥...≥σr>0 σ 1 ≥ . . . ≥ σ r > 0 为矩阵 A A 的奇异值

    这个式子就被称为奇异值分解。

证明

易得AHAAHA为Hermite矩阵, AHA A H A 的特征值 λ2≥λ2≥...>0 λ 2 ≥ λ 2 ≥ . . . > 0

由Schur定理可得,存在 n n 阶酉矩阵,使得:

UH(AHA)V=(∑2000)UH(AHA)V=(∑2000)

将 V V 分解为V=(V1,V2),V1=Cn×r,V2=Cn×(n−r)V=(V1,V2),V1=Cn×r,V2=Cn×(n−r)

重写上式为:

AHA(V1,V2)=(V1,V2)(∑2000) A H A ( V 1 , V 2 ) = ( V 1 , V 2 ) ( ∑ 2 0 0 0 )

{AHAV1=V1∑2⇒VH1AHAV1=∑2⇒(AV1∑−1)H(AV1∑−1)=IAHAV2=0⇒VH2AHAV2=0⇒(AV2)H(AV2)=0 { A H A V 1 = V 1 ∑ 2 ⇒ V 1 H A H A V 1 = ∑ 2 ⇒ ( A V 1 ∑ − 1 ) H ( A V 1 ∑ − 1 ) = I A H A V 2 = 0 ⇒ V 2 H A H A V 2 = 0 ⇒ ( A V 2 ) H ( A V 2 ) = 0

因此, AV2=0,U1=AV1∑−1, A V 2 = 0 , U 1 = A V 1 ∑ − 1 , 则 U1 U 1 是酉矩阵: UH1U1=I U 1 H U 1 = I 。

因此 U1 U 1 的前 r r 列两两正交且为单位向量,将其扩充为CmCm的标准正交基, U2=(ur+1,...,um) U 2 = ( u r + 1 , . . . , u m )

则 U=(U1,U2) U = ( U 1 , U 2 ) 是 m m 阶酉矩阵,UH1U1=I,UH2U1=0U1HU1=I,U2HU1=0

UH(AHA)V=UH(AV1,AV2)=(UH1UH2)(U1∑,0)=(∑2000) U H ( A H A ) V = U H ( A V 1 , A V 2 ) = ( U 1 H U 2 H ) ( U 1 ∑ , 0 ) = ( ∑ 2 0 0 0 )

因此:

A=U(∑2000)VH A = U ( ∑ 2 0 0 0 ) V H

V V 为AHAAHA的r个非零特征值对应的特征向量并单位化

U U 为AAHAAH的r个非零特征值对应的特征向量并单位化

思考

  1. 对于正定对称矩阵而言,奇异值分解和对角化相同
  2. 特征值分解必须要求 A A 为方阵,而奇异值分解不需要
  3. AHAAHA或 AAH A A H 的特征值为 A A 的奇异值的平方。
  4. 我们可以根据对AHAAHA和 AAH A A H 求特征值和特征向量,从而得到 V V 、UU、 ∑ ∑ 。

继续阅读