基向量

沿着坐标轴方程的单位向量叫做基向量,比如在平面内,有两个基向量i,j:

i在x轴方向上长度为1,在y轴方向上程度为0:
i = \begin{bmatrix} 1 \newline 0 \end{bmatrix}

j在x轴方向上长度为0,在y轴方向上程度为1:
j = \begin{bmatrix} 0 \newline 1 \end{bmatrix}

向量

一个普通的向量,可以理解为基向量的组合,例如:
v = \begin{bmatrix} -5 \newline 2 \end{bmatrix} = -5i + 2j

线性变换与矩阵

对一个向量进行线性变换的意思是:改变原来向量的基向量.

例如下面这个向量:

现在把原来的i,改为i_{transformd},并且j,改为j_{transformd}

会的到如下新的向量:

改变后的基向量为:
i_{transformd} = \begin{bmatrix} 1 \newline -2 \end{bmatrix}
j_{transformd} = \begin{bmatrix} 3 \newline 0 \end{bmatrix}

新向量相当于:

\begin{equation}
\begin{split}
v_{transformd} &= -5i_{transformd} + 2j_{transformd} \\
&= -5 \begin{bmatrix} 1 \newline -2 \end{bmatrix} + 2 \begin{bmatrix} 3 \newline 0 \end{bmatrix}
\end{split}
\end{equation}

我们可以用矩阵来描述这个变换:

\begin{bmatrix} -5\newline 2 \end{bmatrix}\begin{bmatrix} 1&3 \newline -2&0 \end{bmatrix} = -5 \begin{bmatrix} 1 \newline -2 \end{bmatrix} + 2 \begin{bmatrix} 3 \newline 0 \end{bmatrix}

我们注意,用来描述变换的矩阵都是方阵,也就是说n维空间中的变化矩阵是nxn的方阵.

矩阵乘法

我们对向量v连续做两次线性变换:
v\begin{bmatrix} 1&1 \newline 0&1 \end{bmatrix}\begin{bmatrix} 0&-1 \newline 1&0 \end{bmatrix}

此时基向量为:
i = \begin{bmatrix} 1 \newline 1 \end{bmatrix}
j = \begin{bmatrix} -1 \newline 0 \end{bmatrix}

这个结果只做一次变换是一样的:
v\begin{bmatrix} 1&-1 \newline 1&0 \end{bmatrix}

所以得出结论:
\begin{bmatrix} 1&1 \newline 0&1 \end{bmatrix}\begin{bmatrix} 0&-1 \newline 1&0 \end{bmatrix} = \begin{bmatrix} 1&-1 \newline 1&0 \end{bmatrix}

可以看出矩阵相乘在几何意义上为对向量做多个线性变换.

降维

如果经过变换后两个基向量落到同一条直线上了会有什么现象?

同样,我们写出描述线性变换的矩阵:
\begin{bmatrix} 2&1 \newline 0&0 \end{bmatrix} = \begin{bmatrix} 2&1 \end{bmatrix}

我们试着对向量进行变换:
\begin{bmatrix} 5\newline 2 \end{bmatrix}\begin{bmatrix} 2&1 \end{bmatrix} = 12

我们发现,原理在平面内的向量经过变换后变成了直线上的点,所以数据被降维

行列式

线性变换之前,平面内有一块区域的面积为S,那么经过线性变换A后,面积变为S_{transformd},此时变换前后的面积有如下关系:
S_{transformd} = det(A)S

如果一个矩阵的行列式为0:
det(A) = 0
说明变换后,面积没有了,这说明变换将向量压缩到更低的纬度.

方阵A满足条件|A|\neq 0,则称A非奇异方阵,否则称为奇异方阵

行列式是允许出现负数的,那么负的行列式代表什么?
如果线性变换将原来的面积反转了,那么行列式为负.

逆矩阵

下面我们通过一个线性变换将向量v,变成向量w
v\begin{bmatrix} 1&-1 \newline 1&0 \end{bmatrix} = w

下面来想一个问题,我们现在能不能再将w,变换成v呢?当然可以,只需要逆变换就可以了.
我们用逆矩阵来描述一个线性变换的逆变换:

w\begin{bmatrix} 1&-1 \newline 1&0 \end{bmatrix} ^{-1}= v

对一个向量做变换,再做逆变换,相当于什么都没有做,所以有:
AA^{-1} = A^{-1}A = I

矩阵的逆有几个条件:

  • 必须是变换才有逆变换,所以只有方阵才有逆矩阵
  • 行列式不为0.当行列式为0时,相当于对向量进行降维,无法逆变换.

矩阵的秩

当一个多维向量v,使用矩阵A进行线性变换后,维度降低了,那么说明A的行列式为0,也就是说对角线上有0.

这时我们说变换后的纬度就是矩阵A的秩,也就是矩阵A对角线不为0的个数.

点积与投影

根据内积的公式有:
a \cdot b =|a||b|cos\theta

\theta为两向量夹角
|b|cos\theta为向量b在向量a上的投影长度
|a|cos\theta为向量a在向量b上的投影长度

转置与内积的关系

两个向量 a = [a_1, a_2,…, a_n]b = [b_1, b_2,…, b_n]的点积定义为:

{\displaystyle a\cdot b=\sum _{i=1}^{n}a_{i}b_{i}=a_{1}b_{1}+a_{2}b_{2}+\cdots +a_{n}b_{n}}

这个定义正好等于矩阵转置相乘即:

a\cdot b=a^Tb

特征向量与特征值

一个空间经过一个线性变换,原空间的向量都会有些旋转,比如图中粉色向量.

但是有些向量不会旋转,只有长度的变化.比如图中黄色方向上的向量,与绿色方向上的向量.

这些经过线性变换后不会旋转的向量称作矩阵的特征向量.对应特征向量经过相信变换后变换的倍数称为特征值.

根据这个特点我们可以得到特征向量的定义:

Av = \lambda v

其中v为特征向量,\lambda为特征值.

让我们看一下如何求解这个方程,上面的方程可以变成

Av = (\lambda I) v

再做一下变形

(A - \lambda I)v = 0

这相当对v向量做了一个线性变换,并且结果为0.向量经过线性变换后一般还是一个向量,只有降维后才会是0,所以(A - \lambda I)是一个非满秩矩阵.即:

det(A - \lambda I) = 0

对角矩阵的特征值

思考一下如果基向量就是矩阵的特征值会是什么情况?

这时矩阵会是对角矩阵,而对角线上的值都是矩阵的特征向量.

特征值分解

若A是一个方阵,可如下特征值分解:

\mathbf{A}=\mathbf{Q}\mathbf{\Lambda}\mathbf{Q}^{-1}

其中Q为特征向量组成的矩阵,且其第i列为A的特征向量q_i.\Lambda是对角矩阵,其对角线上的元素为对应的特征值

任意的 N×N 实对称矩阵都有 N 个线性无关的特征向量。并且这些特征向量都可以正交单位化而得到一组正交且模为 1 的向量。故实对称矩阵 A 可被分解成

\mathbf{A}=\mathbf{Q}\mathbf{\Lambda}\mathbf{Q}^{T}

其中Q为 正交矩阵,\Lambda为实对角矩阵。

协方差矩阵的特征值

因为协方差矩阵是实对称矩阵,对其特征值分解:
\mathbf{A}=\mathbf{Q}\mathbf{\Lambda}\mathbf{Q}^{T}

其中Q为 正交矩阵,\Lambda为实对角矩阵。其对角线上的元素为对应的特征值.

最大的特征值为最大的方差,因为可以把协方差矩阵理解为对空间的线性变换,特征值最大的方向线性变换最大,被拉伸的最大,所以该方向的方差也是最大的.


参考:
https://www.bilibili.com/video/av6731067

posted @ 2018-09-13 16:55:27
评论加载中...

发表评论