Skip to main content
  1. CheatSheet/
  2. Course/

Matrix

Course

矩阵的基本概念
#

矩阵的基本运算
#

若向量$a,b$,则它的内积、外积定义如下:

inner product $\sum a_ib_i$ $a\odot b$
Outer product $ab^T$ $a\otimes b$

Hardmard积、Kronnecker积和矩阵乘法
#

若矩阵$A\in R^{m\times n},B\in R^{m\times n}$,则它的哈达玛积、克罗内亚积如下:

Hardmard Product 逐元素相乘 $A\circ B \in R^{m\times n}$
Kronnecker Product 矩阵A每个元素乘以矩阵B $A\otimes B \in R^{m^2\times n^2}$
Matrix Product 矩阵乘法 $A\cdot B$ or $AB$

矩阵乘法一般情况下不满足交换律,但也有例外:

  • A、B中任一是单位阵、数量阵、零矩阵,或者A、B均为对角阵时,满足$AB=BA$​
  • A、B互为逆矩阵、正交矩阵、酉矩阵时,满足交换律$AB=BA$
  • 当$AB=BA$时
    • $(A+B)(A-B)$满足交换律
    • $(A+B)^m$可使用二项式定理展开

直和
#

矩阵的直和定义如下:

$$A\oplus B=\begin{bmatrix}A\quad O\newline O\quad B\end{bmatrix}$$

逆矩阵
#

  • 求解思路:
    1. 直接求逆,推导出逆矩阵
    2. 构造$AA^{-1}=I$(一般移项后对A作因式分解)
  • 特殊构造
    1. 当A、B可逆时,注意构造$AA^{-1}$和$BB^{-1}$​
    2. 当A正交时,注意$A^{-1}=A^T$​

广义逆
#

左逆和右逆 左逆矩阵满足$LA=I$;右逆矩阵满足$AR=I$
左伪逆和右伪逆 列满秩矩阵的左伪逆矩阵$L=(A^HA)^{-1}A^H$;行满秩矩阵的右伪逆矩阵$R=A^H(AA^H)^{-1}$ 列满秩则有$A^HA$可逆;行满秩则有$AA^H$可逆
M-P广义逆 若矩阵G满足$AGA=A或GAG=G或(AG)^T=AG或(GA)^T=GA$,则称矩阵G是加号逆或M-P广义逆
特别地,若$AA^-A=A$,则称$A^-$是$A$的广义逆矩阵
$A^{-1},L,R$都是A的广义逆矩阵

秩、行列式、迹
#

#

线性映射定义

考虑线性映射$f_A:F^n\rightarrow F^m$在某一组基下的表示$x\rightarrow Ax$,则$A$的秩定义为$f_A$的象空间的维度,而核空间的维度则定义为$n-r(A)$​

性质 证明/推论
$r(AB)\le\min(r(A),r(B))$ 考虑矩阵的线性映射,一方面,$ABx$将$Bx$投射到$A$的象空间,因此$r(AB)\le r(A)$;另一方面,$ABx$是$Bx$基向量的线性组合,因此$r(AB)\le r(B)$
若A满秩,则$r(AB)=r(B)$
$r(A)+r(B)-n\le r(AB)$ Frobeinus不等式$r(AB)+r(BC)\le r(B)+r(ABC)$
$r(A+B)\le r(A)+r(B)$ 秩为k的矩阵可以分解为k个秩1矩阵的和
$r(A^TA)=r(AA^T)=r(A)=r(A^T)$ 转置不变性

含参矩阵:根据矩阵的秩,确定参数的范围

  • 秩为1,则每一行线性相关,即系数成比例(可据此推导出系数关系)

  • 矩阵满秩/秩的分类讨论($\alpha,\beta$)

    将向量组排列成矩阵,用每一行消去一个维度(注意消去不含参的维度),保证剩下的两行线性无关/相关

行列式
#

拉普拉斯展开:行列式可以按某一行或列展开为元素与其代数余子式的乘积和,即$|B|=\sum_j b_{ij}C_{ij}$,其中代数余子式$C_{ij} = (−1)^{i + j}M_{ij}$​

$$ 考虑矩阵B= \begin{bmatrix} 1\quad2\quad3\newline 4\quad5\quad6\newline 7\quad8\quad9\newline \end{bmatrix} \newline 它的行列式|B|= 1\cdot \begin{vmatrix} 5\quad6\newline 8\quad9\newline \end{vmatrix} -2\cdot \begin{vmatrix} 4\quad6\newline 7\quad9\newline \end{vmatrix} +3\cdot \begin{vmatrix} 4\quad5\newline 7\quad8\newline \end{vmatrix} $$

#

性质 推论
线性性质 $tr(A+B)=tr(A)+tr(B)$
$tr(r\cdot A)=r\cdot tr(A)$
$tr(A)=tr(A^T)$
矩阵乘积 若交换后乘积仍然存在,则有$tr(AB)=tr(BA)$ $tr(ABC)=tr(BCA)=tr(CAB)\ne tr(ACB)$
$tr(AB)=\sum_{ij}a_{ij}b_{ji}$ $tr(A^TB)=\sum_{i,j}a_{ij}b_{ij}=vec^T(A)\cdot vec(B)$
相似不变性 $tr(B)=tr(PAP^{-1})=tr(A)$
  • $tr(XX^T)=\sum |x_{ij}|^2$,多天线发射信号矩阵的功率

范数
#

向量范数
#

向量的p范数$||x||_p=(\sum_i |x_i|^p)^{1/p}$​

特别地,当$p\rightarrow\infty$时,称为无穷范数,返回向量的最大元素$max(x_i)$

矩阵范数
#

矩阵范数 - 维基百科,自由的百科全书 (wikipedia.org)

矩阵的元素范数和诱导范数都可以记为也记为$A||_p$

矩阵的元素范数
#

矩阵的元素范数也称为$L_p$范数,$||A||_p = ( \sum |aij|^p )^{1/p}$

特别地,$L_2$范数也被称为Frobenius范数,记为$||A||_F$

当$p\rightarrow\infty$时,称为极大值范数,返回矩阵的最大元素$max(a_{ij})$

范数的性质
#

矩阵范数 向量范数
三角不等式 $||A+B||\le||A||+||B||$ $||u+v||\le||u||+||v||$
Cauchy不等式 $||AB||\le||A||\cdot||B||$ $||uv||\le||u||\cdot||v||$

矩阵的诱导范数
#

向量$x$的p范数的缩放倍率的最大值,有$||A||_p=\max{\frac{||Ax||_p}{||x||_p}}$

特别地,诱导2范数是矩阵A的最大奇异值。

随机向量
#

自相关矩阵 $R_x=E[(x(\xi)x^H(\xi))]$
互相关矩阵 $R_{xy}=E[(x(\xi)y^H(\xi))]$
自协方差矩阵 $C_x=E([x(\xi)-\mu][x(\xi)-\mu]^T)$ $C_x=R_x-\mu_x\mu_x^T$
互协方差矩阵 $C_x=E([x(\xi)-\mu_x][y(\xi)-\mu_y]^T)$

高斯随机向量
#

设高斯随机向量$x(t)=[x_1(t),\dots,x_N(t)]^T$服从多维正态分布$N(\mu,C_x)$,均值向量$\mu=[\mu_1,\dots,\mu_N]^T$若各个维度独立,则有协方差矩阵$C_x=diag{\sigma_1^2,\dots,\sigma_N^2}$,概率密度函数$f(x)=\frac{1}{(2\pi)^{N/2}det(C_x)^{1/2}}exp(-\frac{1}{2}(x-\mu)^TC_x^{-1}(x-\mu))$​

随机误差向量
#

误差向量的每个维度期望为0,但功率不为0(因为正负相互抵消,平方后累积)

特殊矩阵
#

基本矩阵
#

推广
基本矩阵 $E_{mn}=e_me_n^T$是第m行第n列的元素为1的矩阵,
其中$e_n$是第n个元素为1的单位向量
I型基本矩阵 $E_{(p,q)}$ 互换矩阵
选择矩阵
置换矩阵
II型基本矩阵 $E_{\alpha(p)}$
III型基本矩阵 $E_{(p)+\alpha(q)}$

三角阵、对角阵
#

逆矩阵 行列式
上/下三角阵 上/下三角阵 $det(A)=\prod_i^Na_{ii}$
对角阵 对角阵 $det(A)=\prod_i^Na_{ii}$
  • 若矩阵是三角阵,又是酉矩阵,则矩阵是对角阵,且对角线元素的范数(绝对值)为1
  • 若矩阵是上三角分块酉矩阵,$A=\begin{bmatrix}P\quad B\newline 0\quad Q\end{bmatrix}$,那么P、Q都是酉矩阵,且B=0

上/下三角阵的和、积仍然是上/下三角阵。

对称、正定、正交、正规
#

实空间 复空间 常见举例 性质
对称矩阵 $A^T=A$ $A^H=A$
(Hermitian阵)
正定矩阵 $x^TAx>0$ $x^HAx>0$
(前提先是对称阵)
各阶顺序主子式>0(左上角行列式>0) 特征值是正数
正交矩阵 $QQ^T=Q^TQ=I$ $UU^H=U^HU=I$
(酉矩阵)
正规矩阵 $A^TA=AA^T$ $A^HA=AA^H$ 必可以酉对角化

正规矩阵

  • 实空间的对称矩阵、斜对称矩阵、正交矩阵是正规的;复空间的Hermitian阵、斜Hermitian阵、酉矩阵是正规矩阵

  • 正规矩阵必可以酉对角化

  • 若$A$是反对称矩阵,则$I+A,I-A,A-I$​​是非奇异的

正定矩阵

  • 正定矩阵可以酉对角化,进而分解成n个正定的秩1矩阵的和,也可以开平方根,$B=B^{\frac{1}{2}}(B^{\frac{1}{2}})^H$,且$I=B^{\frac{1}{2}}B^{-\frac{1}{2}}$
  • 若$A,B$为正定矩阵,则哈达玛积$AB$正定,若$A,B$为半正定矩阵,则哈达玛积$AB$半正定
  • 若$A$是半正定矩阵,且非奇异,则$A$是正定矩阵

相似与相合
#

定义 性质
相似矩阵 $B=S^{-1}AS$ 特征值相同
相合矩阵 $B=C^HAC$ 二次型函数相吻合

中心化矩阵
#

求和矩阵$J_N=\begin{bmatrix}1\quad\dots\quad1\newline\dots\newline1\quad\dots\quad1\newline\end{bmatrix}$,$J_NX$表示将矩阵$X$的每个向量表示为N个向量的和

中心化矩阵$C_N = I_N - \frac{1}{N}J_N$,$C_NX$​表示矩阵X的每个向量减去这N个向量的均值

  • 信号直流功率、交流功率的计算

Vandermonde矩阵
#

$$ A= \begin{bmatrix} a_1^0\ a_2^0\ \dots\ a_N^0\newline a_1\ a_2\ \dots\ a_N\newline \vdots \newline a_1^{N-1}\ a_2^{N-1}\ \dots\ a_N^{N-1}\newline \end{bmatrix} $$

行列式$det(A)=\prod_{i,j}^N(a_i-a_j)$

  • 多项式插值中,线性方程组的系数矩阵是Vandermonde矩阵;易知,当$a_i\ne a_j$时,范德蒙矩阵是满秩的,存在唯一解

  • P个入射信号、N个阵元的信号响应矩阵是N*P维Vandermonde矩阵,其中阵元的响应强度随距离成指数级上升(0到N-1),而不同的入射信号对应不同的夹角($a_i$)。

  • Fourier矩阵也是一种特殊的vandermonde矩阵,指数在频率和时间两个方向都递增。DFT可以写成复空间上的内积$y(k)=\sum_{n=0}^{N-1} x(n)e^{-j\frac{2\pi kn}{N}}= <x,f_k> = f_k^H x$,其中$f_k=[1,e^{-j\frac{2\pi k}{N}},\dots,e^{-j\frac{2\pi k(N-1)}{N}}]$

矩阵函数与优化
#

矩阵函数
#

矩阵函数是通过矩阵的加法和乘法来定义的,而对于指数函数和三角函数,则是通过推广标量函数的幂级数展开来定义。

方法1:当矩阵是幂等矩阵时,可以将幂级数中的累加项合并,并利用指数函数的展开式来化解一系列系数的求和。

$A=\begin{bmatrix}1\quad 1\newline0\quad 0\end{bmatrix},B=\begin{bmatrix} 1\quad 1\newline0\quad 0\end{bmatrix}$,求$e^A,e^B,e^{A+B}$

A是幂等阵,$A^2=A$,进而$A^n=A$

由幂级数展开知$e^A=I+(\frac{1}{1!}+\frac{1}{2!}+\dots)A$ ,再根据$e=(1+\frac{1}{1!}+\frac{1}{2!}+\dots)$进一步化简,得$e^A=I+(e-1)A$

同理可得$e^B=I+(e-1)B$

根据幂级数展开$e^{A+B}=I+\sum_i\frac{1}{i!}(A+B)^i$ 因为$A+B= \begin{bmatrix} 2\quad 0\newline 0\quad 0 \end{bmatrix}$,所以$(A+B)^k=2^k(A+B)$ ,继而$e^{A+B}=I+\sum_{k=1}\frac{2^k}{k!}(A+B)$ ,根据$e^2=\sum_{k=0}\frac{2^k}{k!}$,化简得$e^{A+B}=I+(e^2-1)(A+B)$

  • 当矩阵乘法可交换时,指数函数和三角函数才满足一些交换的性质,故$e^{A+B}$不能直接使用幂的乘法

方法2:将矩阵对角化,矩阵的幂级数,即,将对角线上的各个元素代入幂级数的原函数。

如果矩阵可对角化为$P^{-1}AP=\Lambda$​,则有:

$e^A=Pdiag(e^{\lambda_1},\dots,e^{\lambda_n})P^{-1}$​

$e^{tA}=Pdiag(e^{\lambda_1t},\dots,e^{\lambda_nt})P^{-1}$​​

$sinA=Pdiag(sin\lambda_1,\dots,sin{\lambda_n})P^{-1}$​​

矩阵的求导与微分
#

实值函数的自变量和因变量都可以是标量、向量、矩阵。

函数(因变量) 向量变元$\mathbf{x}\in R^m$ 矩阵变元$X\in R^{m\times n}$
标量函数$f\in R$ $f:R^m\rightarrow R^{m\times n}$ $f:R^{m\times n}\rightarrow R$
向量函数$f\in R^p$ $f(\mathbf{x})\newline f:R^m\rightarrow R^p$ $f(X)\newline f:R^{m\times n}\rightarrow R^p$
矩阵函数$f\in R^{p\times q}$ $F(\mathbf{x})\newline f:R^m\rightarrow R^{p\times q}$ $F(X)\newline f:R^{m\times n}\rightarrow R^{p\times q}$

偏导
#

标量函数的偏导
#

偏导 对变元的操作 符号
行向量偏导 将矩阵X行向量化(先列向量化,再转置) $D_{vec^T(X)}f(X)=\frac{\partial f(X)}{\partial vec^T(X)}$
Jacobian矩阵 将矩阵X转置 $D_Xf(X)=\frac{\partial f(X)}{\partial X^T}$
列向量偏导 将矩阵X列向量化 $\nabla_{vec(X)}f(X)=\frac{\partial f(X)}{\partial vec(X)}$
梯度矩阵 矩阵X不变 $\nabla_Xf(X)=\frac{\partial f(X)}{\partial X}$

行向量偏导与Jacobian矩阵的关系
#

行向量偏导$vec^T(X)=[vec(X)]^T$和Jacobian矩阵$X^T$是不同的,行向量偏导实际上并没有对$X$作转置,如果需要将jacobian矩阵转化为行向量偏导的形式,则需要$rvec(X)=vec^T(X^T)$

矩阵/向量函数的Jacobin矩阵和梯度矩阵
#

首先向量/矩阵函数列向量化,再转置为行向量,然后求偏导,即为矩阵变元函数的Jacobian矩阵,记为$D_XF(X)$​

如果是列向量偏导,则认为不做转置,称为梯度矩阵。

二阶偏导
#

标量函数的二阶梯度矩阵称为Hessian矩阵,先对标量函数求一阶梯度矩阵,然后求解Jacobian矩阵

梯度流
#

梯度的负方向称为梯度流,即梯度下降的方向。

矩阵微分的计算
#

将标量矩阵函数转化为迹的形式,然后同时利用迹的性质和微分的性质。

性质 推论
$d(UV)=d(U)V+udV$ $d(UVW)=d(U)VW+Ud(V)W+UVdW$
$d(AXB)=Ad(X)B$
$d(X^TAX)=d(X)^TAX+X^TAdX$
$d(tr(F(X)))=tr(d(F(X)))$ $d(tr(X))=tr(d(X))$
$d(tr(X^TX))=2tr(X^TdX)$
$d X

若矩阵微分$df(X)=tr(AdX)$,则雅可比矩阵$D_Xf(X)=\frac{f(X)}{\partial X^T}=A$,转置可得梯度矩阵$\nabla f(X)=\frac{f(X)}{\partial X}=A^T$,

常见函数的微分和梯度矩阵

函数 微分矩阵$df(X)=tr[\frac{\partial f(X)}{\partial dX}^TdX]$ 梯度矩阵$\partial f(X)/\partial X$
$X$ $I$
$AX$ $A^T$ 注意迹可交换,因此$AX$和$XA$的梯度相同;
若$A$和$X$其一取转置,则梯度矩阵相应转置
$X^2$ $2X^T$
$X^TX$ $2X$
$X^TAX$ $(A+A^T)X$
$XAX^T$ $X(A+A^T)$
$XAX$ $X^TA^T+A^TX^T$
$X^{-1}$ $(X^{-2})^T$
$AX^{-1}$ $-(X^{-1}AX^{-1})^{T}$

共轭梯度
#

关于复变函数f(z),下列叙述等价

  • f(z)是全纯/复解析函数
  • f’(z)存在且连续
  • f(z)满足Cauchy-Riemann方程
  • f(z)的所有导数存在且拥有一个收敛的幂级数

虽然幂函数、指数函数、对数函数都是复解析函数,但存在一些常用函数不是全纯函数,例如$f(z)=z^*$和$f(z)=Re(z)$。

如果一个给定的复变函数可以写成$f(z)=f(z,z^)$的形式, 则可以直接求取其关于$z和z^$的偏导 。

无约束/带约束的优化问题
#

无约束优化
#

局部极小点的求解可以转化为 $$ f’(x)=0\newline f’’(x)>0 $$ 对于矩阵函数,即Jacobin矩阵为0且Hessian矩阵正定。

  • 判断驻点是否为极大值,则判断$-f(x)$的驻点是否为极小值
  • 既不是极大值、也不是极小值的驻点,称为鞍点

凸优化
#

线性规划 目标函数等高线是平行线 image-20240601203739659
线性分式规划
二次规划 目标函数等高线是椭球面 image-20240601203752027

等式不等式约束的优化:拉格朗日乘子法
#

寻找“最好”(4)——不等约束和KKT条件 - 我是8位的 - 博客园 (cnblogs.com)

考虑某个带约束优化问题,含有等式约束和不等式约束 $$ \min_x f(x)\newline s.t.\quad h_i(x)=0\newline \quad g_i(x)\le0 $$ 联立模板函数和约束条件,有拉格朗日函数 $$ L(x,\lambda,\mu)=f(x)+\lambda h(x)+\mu g(x) $$

带约束优化问题的最优解必然满足KKT条件,即 $$ \begin{cases} \nabla_x L=0\newline h(x)=0\newline \lambda\ne0\newline \mu g(x)=0\quad互补松弛条件,不等式约束的极值,边界or无约束\newline g(x)\le0\quad原始不等式约束\newline \mu\ge0\quad对偶约束\newline \end{cases} $$ 满足KKT条件的解需要进一步检验,是否为最优

对KKT条件的理解 - 骚动的白米饭的文章 - 知乎

梯度下降法
#

矩阵分解
#

特征值和特征向量
#

若$Ax=\lambda x$,则称A存在特征值为$\lambda$的特征向量$x$

  • 阶数为n的矩阵A有n个特征值,特征多项式的次数称为代数重数,特征值对应的特征向量空间的维度称为几何重数。

  • $A-\lambda I$的零空间维度,即$\lambda$对应的特征向量的维度

    • 若$rank(A-\lambda I)\le n-1$,则$\lambda$​为矩阵A的特征值
    • $det(A-\lambda I)=0$是特征方程,可据此解得特征值$\lambda$
  • 若矩阵$A$满足$\sum_{j}|a_{ij}<1|$,即每一行的和小于1,则$A$​的每一个特征值的绝对值$|\lambda|<1$

考察矩阵A对向量x左乘变行,即每一行的线性组合,矩阵A的每一行是组合系数,而对于最大的元素,其它元素系数和为1的线性组合必然小于该元素,因此特征值必然小于1(不等式放缩)

若矩阵$A$的特征值为$\lambda$,则它的不同运算结果的特征值如下:

矩阵 特征值
$A^T,P^{-1}AP$ ${\lambda}$ 转置和相似不改变$A-\lambda I$的秩
$A^k$ ${\lambda}^k$
$A^{-1}$ $1/\lambda$
$A+\sigma^2I$ $\lambda+\sigma^2$
  • $AA^H$的特征值可通过在$Ax=\lambda x$方程两边同乘以$A$的方式,构造出$AA^H$对特征向量$Ax$的特征值。

某些特殊矩阵的特征值如下:

矩阵 特征值
幂等矩阵 0或1
实正交矩阵 1或-1
单位阵 1
全1阵 对全1向量的特征值为N,其他特征值全为0

特征值与迹、行列式、秩的关系
#

推论
特征值之和
行列式 特征值之积
非零特征值的个数 若矩阵A存在一个单重特征值0,则秩为n-1

广义特征值
#

若$Ax=\lambda Bx$则称$\lambda,x$是矩阵束$A,B$的广义特征值和特征向量

矩阵束左乘/右乘非奇异矩阵,不会改变广义特征值和特征向量

特征值分解(EVD)
#

若$A$有**$n$个线性无关的特征向量**,则有$AU=U\Sigma$,其中$U$是特征向量构成的矩阵,因为$U$满秩,所以$U$可逆,有特征值分解$A=U\Sigma U^{-1}$​​

特别地,矩阵$A$可酉对角化的充要条件是$A$是正规矩阵,即$A^HA=A^HA$​,有$A=U\Lambda U^H$

  • 对称阵(实对称阵、Hermitian阵)、正定阵可以酉对角化
  • 正定阵的特征值>0

奇异值分解(SVD)
#

任意矩阵$A$可以奇异值分解为$A=U\Sigma V^H$,其中$U$的列向量是$AA^H$的特征向量,$V$的列向量是$A^HA$的特征向量,对角线上是矩阵$A$的奇异值,是$AA^H$和$A^HA$​的特征值的非负平方根,通常由大到小排列

  • 由$AV=U\Sigma$可知$A\overrightarrow{v_i}=\sigma_i\overrightarrow{u_i}$​,奇异值的个数取决于其中维数小的矩阵
  • 由矩阵乘法的秩1分解视角,$A=\sum_i \lambda_iu_iv_i^H$,其中$\lambda_i$​是非零奇异值
  • 若矩阵可EVD,则奇异值和特征值等价
  • SVD生动动画演示:旋转-拉伸-升降维度-旋转

SVD vs EVD
#

SVD EVD
适用于任何$m\times n$矩阵 只适用于$n\times n$方阵
奇异值与奇异向量的关系
$u_i^HAv_i=\sigma_i$
特征值与特征向量的关系
$Av_i=\lambda_iv_i$

A的非零奇异值是$A^HA$或$AA^H$的非零特征值的正平方根;

A的左奇异向量是$AA^H$的特征向量;A的右奇异向量是$A^HA$​的特征向量;

Jordan标准形
#

任一方阵可块对角化为Jordan标准型,即$J=P^{-1}AP$

其中$J=\begin{bmatrix} J_1(\lambda_1)\quad \quad \newline \quad J_2(\lambda_2) \quad \newline \quad \quad J_3(\lambda_3)\end{bmatrix}$,而$J_i(\lambda_i)=\begin{bmatrix} \lambda_i\quad1\quad0\newline 0\quad \lambda_i \quad1\newline 0\quad 0\quad \lambda_i\end{bmatrix}$

特征分析
#

Cayley–Hamilton定理
#

将矩阵$A$代入其特征多项式$f(\lambda)=0$,即为矩阵$A$​的零化多项式

  • 根据多项式除法,任意矩阵幂可以由矩阵的零次幂到N-1次幂线性组合得到,线性系数可以通过n个特征值的线性方程组联立得到

  • 逆矩阵的计算

  • 矩阵微分方程的求解

Rayleigh商
#

瑞利商和广义瑞利商 - Void的文章 - 知乎

瑞利商$R(A,x)=\frac{x^TAx}{x^Tx}$

为了简化问题令$X^xx=1$,求$x^TAx$的条件极值

构造拉格朗日乘子函数$L(x,\lambda)=x^tAx+\lambda(x^Tx-1)$,对$x$求梯度,令梯度为0,解得极值点$Ax=\lambda x$

显然,在最大的特征值对应的特征向量处,瑞利商有最大值;在最小的特征值对应的特征向量处,瑞利商有最小值

根据瑞利商的性质,结合放缩,可推导出以下结论:

取等
$\lambda_1(A+B)\ge\lambda_1(A)+\lambda_N(B)$ $A$的最大特征向量是$B$的最小特征向量
$\lambda_N(A+B)\ge\lambda_N(A)+\lambda_N(B)$ $A,B$最小特征向量相同
$\lambda_1(A+B)\le\lambda_1(A)+\lambda_1(B)$ $A,B$最大特征向量相同

广义瑞利商
#

考虑广义特征值$Ax=\lambda Bx$,则有广义瑞利商$R(A,B,x)=\frac{x^TAx}{x^TBx}$,可以进一步转化为$B^{-1}A$的瑞利商

线性方程
#

线性方程组$AX=b$​​的解
#

假设线性方程组$AX=b$有m个方程、n个未知数,即系数矩阵$A\in C^{m\times n}$,则解的情况为:

独立方程个数 增广矩阵和系数矩阵的关系 系数矩阵 线性空间
有唯一解 适定方程 $r(A|b)=r(A)$ $r(A)=m=n$ $b\in Col(A)$
有无穷多解 欠定方程 $r(A|b)=r(A)$ $b\in Col(A)$
无解 超定方程 $r(A|b)>r(A)$ $b\notin Col(A)$

最小二乘
#

对于超定方程,可使用最小二乘法求取近似解

代价函数 优化视角 投影视角
普通最小二乘 $(Ax-b)^T(Ax-b)$ 认为观测量$b$含噪,最小化$e$ 考察方程$Ax=b$的近似解,即$b$在$A$的列空间的投影$p=Pb=A\hat{x}$,投影$p$是$A$的列向量的线性组合$b$去除投影分量后与$A$的列空间垂直,即$A^T(A\hat{x}-b)=0$,解得$A\hat{x}=A(A^TA)^{-1}A^Tb$投影矩阵$P=A(A^TA)^{-1}A^T$满足最小二乘的近似解$\hat{x}=(A^TA)^{-1}A^Tb$
数据最小二乘 $\frac{(Ax-b)^T(Ax-b)}{x^Tx}$ 认为原始数据$A$含噪,最小化$E$
总体最小二乘 $\frac{\begin{bmatrix}x\newline-1\end{bmatrix}^T[A,b]^T[A,b]\begin{bmatrix}x\newline-1\end{bmatrix}}{1+x^Tx}$ 认为总体含噪,即$(A+E)x=b+e$,最小化$[E,e]$的二范数
设增广数据矩阵为$A$,则总体最小二乘的解向量是$A$最小的奇异值对应的右奇异向量,或者$A^TA$的最小特征值对应的特征向量

线性空间
#

在集合$V$和数域$K$上定义加法和数乘运算,若满足8条基本性质,则称集合$V$是$K$上的线性空间

  • 如果没有定义新的加法和数乘,则只需满足对加法和数乘封闭
  • 线性变换:满足线性性质,即齐次性和可加性

维数
#

线性空间中向量构成的极大无关组的向量个数是该空间的维数

维数公式:$dim(S_1+S_2)=dim(S_1)+dim(S_2)-dim(S_1 \cap S_2)$

  • 和空间的维数可以求解矩阵的秩,基向量可以消去任意若干直至等于秩
  • 交空间的维数可以用维数公式,基向量的求解方式为:将交空间的向量用两个空间的向量分别表示,得到线性方程组,将交空间的向量用某一个空间的系数和基向量表示出来,再合并系数即可。

子空间
#

线性空间的子集,若封闭,则称为子空间,即$\forall v_1,v_2 \in V, \exists \lambda_1,\lambda_2, \lambda_1v_1+\lambda_2v_2 \in V$

列空间、行空间、零空间
#

设矩阵$A\in R^{M\times N}$,则相应地有下列子空间:

子空间 维度 原空间 等价
列空间 $Col(A)$ $R^m$ $R^M$ $Row(A^H)$
行空间 $Row(A)$ $R^n$ $R^N$ $Col(A^H)$
零空间 $Null(A)$ $R^n$ $AX=0$的解空间
$Null(A^H)$ $R^m$
  • 若矩阵是非奇异的,则说明$Ax=0$的解空间是零向量空间(只有零解)

  • N维实数空间$R^N$可以分解为矩阵的列空间和零空间的直和,即$R^N=Col(A)\oplus Null(A)$

  • 直和:无交子空间的和

证明两个子空间的和是直和(无交)

首先计算两个子空间的和,计算极大无关组的秩,得到和空间的维数,然后根据维数公式计算交空间的维数(为0),证明无交,即为直和

不变子空间
#

若$Ax=\lambda x$的特征向量张成的子空间称为矩阵$A$​​​的不变子空间,即对A封闭

投影矩阵
#

投影矩阵必定是幂等矩阵,有$A^2=A$​,特征值为0和1,相当于只保留若干个方向的分量,其余方向的分量置零

但是,投影矩阵未必一定是正交投影,特征值为1的特征向量实际上有无穷多个,然而只有一个和投影方向是正交的

投影矩阵是正交投影矩阵,当且仅当它是对称幂等矩阵