3 解析几何(Analytic Geometry)

1.png

3.1 范数(Norms)

定义3.1 范数(Norm)

向量空间 V 上的范数是一个函数:

$$ \begin{aligned}\|\cdot\| : V & \rightarrow \mathbb{R} \\ \boldsymbol{x} & \mapsto\|\boldsymbol{x}\| \end{aligned} $$

它将每个向量 $\boldsymbol{x}$ 映射为其模长 $\|\boldsymbol{x}\| \in \mathbb{R}$,使得对任意 $\lambda \in \mathbb{R}$ 和 $\boldsymbol{x}, \boldsymbol{y} \in V$ 满足:

  • 正齐次性(Absulotely homogeneous):$\|\lambda \boldsymbol{x}\|=| \lambda|\|\boldsymbol{x}\|$
  • 三角不等式(Triangle inequality):$\|\boldsymbol{x}+\boldsymbol{y}\| \leqslant\|\boldsymbol{x}\|+\|\boldsymbol{y}\|$
  • 正定性(Positive definite):$\|\boldsymbol{x}\| \geqslant 0 \text { and }\|\boldsymbol{x}\|=0 \Longleftrightarrow \boldsymbol{x}=\mathbf{0}$

$\ell_{1}$ 范数(曼哈顿范数,Manhattan Norm):

$$ \|\boldsymbol{x}\|_{1} :=\sum_{i=1}^{n}\left|x_{i}\right|, \boldsymbol{x} \in \mathbb{R}^{n} $$

$\ell_{2}$ 范数(欧几里得范数,Euclidean Norm):

$$ \|\boldsymbol{x}\|_{2} :=\sqrt{\sum_{i=1}^{n} x_{i}^{2}}=\sqrt{\boldsymbol{x}^{\top} \boldsymbol{x}} $$

3.2 内积(Inner Products)

3.2.1 点积(Dot Product)

我们可能对一种特殊类型的内积——点积比较熟悉,其在 $\mathbb{R}^{n}$ 上定义为:

$$ \boldsymbol{x}^{\top} \boldsymbol{y}=\sum_{i=1}^{n} x_{i} y_{i} $$

3.2.2 广义内积(General Inner Products)

双线性映射(bilinear mapping)是一个含有两个参数的映射,并且对任意一个参数都是线性的,即对向量空间 $V$,$\boldsymbol{x}, \boldsymbol{y}, \boldsymbol{z} \in V, \lambda, \psi \in \mathbb{R}$,有:

$$ \begin{aligned} \Omega(\lambda \boldsymbol{x}+\psi \boldsymbol{y}, \boldsymbol{z}) &=\lambda \Omega(\boldsymbol{x}, \boldsymbol{z})+\psi \Omega(\boldsymbol{y}, \boldsymbol{z}) \\ \Omega(\boldsymbol{x}, \lambda \boldsymbol{y}+\psi \boldsymbol{z}) &=\lambda \Omega(\boldsymbol{x}, \boldsymbol{y})+\psi \Omega(\boldsymbol{x}, \boldsymbol{z}) \end{aligned} $$

定义3.2

设 $V$ 是向量空间,$\Omega : V \times V \rightarrow \mathbb{R}$ 是一个将两个向量映射为一个实值的双线性映射,则:

  • $\Omega$ 是对称的,如果对于 $\forall \boldsymbol{x}, \boldsymbol{y} \in V$,$\Omega(\boldsymbol{x}, \boldsymbol{y})=\Omega(\boldsymbol{y}, \boldsymbol{x})$ 成立;
  • $\Omega$ 是正定的,如果对于 $\forall \boldsymbol{x} \in V \backslash\{\mathbf{0}\} : \Omega(\boldsymbol{x}, \boldsymbol{x})>0, \Omega(\mathbf{0}, \mathbf{0})=0$

定义3.3

设 V 是向量空间,$\Omega : V \times V \rightarrow \mathbb{R}$ 是一个将两个向量映射为一个实值的双线性映射,则:

  • 一个正定的、对称的双线性映射 $\Omega : V \times V \rightarrow \mathbb{R}$ 被称为 $V$ 上的一个内积,写作 $\langle\boldsymbol{x}, \boldsymbol{y}\rangle$。
  • $(V,\langle\cdot, \cdot\rangle)$ 被称为一个内积空间(inner product space)或者带有内积的向量空间(vector space with inner product)。如果使用上节中定义的点积,则 $(V,\langle\cdot, \cdot\rangle)$ 称为欧几里得向量空间。

3.2.3 正定矩阵(Positive Definite Matrices)

考虑带有内积 $\langle\cdot, \cdot\rangle : V \times V \rightarrow \mathbb{R}$ 的 $n$ 维向量空间 $V$ 及其有序基 $B=\left(b_{1}, \dots, b_{n}\right)$,任意向量 $\boldsymbol{x}, \boldsymbol{y} \in V$ 可以写作基向量的线性组合,因此 $\boldsymbol{x}=\sum_{i=1}^{n} \psi_{i} \boldsymbol{b}_{i} \in V,\boldsymbol{y}=\sum_{j=1}^{n} \lambda_{j} \boldsymbol{b}_{j} \in V,\psi_{i}, \lambda_{j} \in \mathbb{R}$。根据内积的双线性性质,有:

$$ \langle\boldsymbol{x}, \boldsymbol{y}\rangle=\left\langle\sum_{i=1}^{n} \psi_{i} \boldsymbol{b}_{i}, \sum_{j=1}^{n} \lambda_{j} \boldsymbol{b}_{j}\right\rangle=\sum_{i=1}^{n} \sum_{j=1}^{n} \psi_{i}\left\langle\boldsymbol{b}_{i}, \boldsymbol{b}_{j}\right\rangle \lambda_{j}=\hat{\boldsymbol{x}}^{\top} \boldsymbol{A} \hat{\boldsymbol{y}} $$

其中 $A_{i j} :=\left\langle\boldsymbol{b}_{i}, \boldsymbol{b}_{j}\right\rangle$,$\hat{\boldsymbol{x}}, \hat{\boldsymbol{y}}$ 是 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 关于 $B$ 的坐标。内积的对称性也意味着 $\boldsymbol{A}$ 是对称的,内积的正定性也意味着:

$$ \forall \boldsymbol{x} \in V \backslash\{\mathbf{0}\} : \boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}>0 $$

定义3.4 正定矩阵

一个对称矩阵 $\boldsymbol{A} \in \mathbb{R}^{n \times n}$ 如果满足:

$$ \forall \boldsymbol{x} \in V \backslash\{\mathbf{0}\} : \boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}>0 $$

则称该矩阵是正定的。如果只有 $\geqslant$ 成立则称 $\boldsymbol{A}$ 是半正定的(positive semi-definite)。

如果 $\boldsymbol{A} \in \mathbb{R}^{n \times n}$ 是正定的,则

$$ \langle\boldsymbol{x}, \boldsymbol{y}\rangle=\hat{\boldsymbol{x}}^{\top} \boldsymbol{A} \hat{\boldsymbol{y}} $$

定义了关于有序基 $B$ 的一个内积,其中$\hat{\boldsymbol{x}}, \hat{\boldsymbol{y}}$ 是 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 关于 $B$ 的坐标表示。

定理3.5

对于实值有限维向量空间 $V$ 和 $V$ 的一组有序基 $B$,$\langle\cdot, \cdot\rangle : V \times V \rightarrow \mathbb{R}$ 是一个内积当且仅当存在一个正定矩阵 $\boldsymbol{A} \in \mathbb{R}^{n \times n}$ 使得

$$ \langle\boldsymbol{x}, \boldsymbol{y}\rangle=\hat{\boldsymbol{x}}^{\top} \boldsymbol{A} \hat{\boldsymbol{y}} $$

正定矩阵 $A \in \mathbb{R}^{n \times n}$ 具有如下性质:

  • $\boldsymbol{A}$ 的零空间(核)只包含 $\boldsymbol{0}$,因为对任意 $\boldsymbol{x} \neq 0$ 有 $\boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}>0$,故 $\boldsymbol{A x} \neq \boldsymbol{0}$;
  • $\boldsymbol{A}$ 的对角线元素 $a_{i i}$ 是正数,因为 $a_{i i}=e_{i}^{\top} \boldsymbol{A} e_{i}>0$。

3.3 长度和距离(Lengths and Distances)

范数可以用来计算向量的长度。内积和范数紧密相关,因为任意内积都能自然地产生一个范数

$$ \|\boldsymbol{x}\| :=\sqrt{\langle\boldsymbol{x}, \boldsymbol{x}\rangle} $$

因此我们可以使用内积来计算向量的长度。

对于内积向量空间 $(V,\langle\cdot, \cdot\rangle)$ ,内积产生的范数 $\|\cdot\|$ 满足柯西不等式(Cauchy-Schwarz Inequality):

$$ |\langle\boldsymbol{x}, \boldsymbol{y}\rangle| \leqslant\|\boldsymbol{x}\|\|\boldsymbol{y}\| $$

定义3.6 距离和度量

考虑内积空间 $(V,\langle\cdot, \cdot\rangle)$,则

$$ d(\boldsymbol{x}, \boldsymbol{y}) :=\|\boldsymbol{x}-\boldsymbol{y}\|=\sqrt{\langle\boldsymbol{x}-\boldsymbol{y}, \boldsymbol{x}-\boldsymbol{y}\rangle} $$

被称为向量 $\boldsymbol{x}$ 和向量 $\boldsymbol{y}$ 之间的距离。如果使用点积作为内积,则该距离被称为欧氏距离(Euclidean distance)。

映射

$$ \begin{aligned} d : V \times V & \rightarrow \mathbb{R} \\(\boldsymbol{x}, \boldsymbol{y}) & \mapsto d(\boldsymbol{x}, \boldsymbol{y}) \end{aligned} $$

被称为一个度量(metric)。

度量 $d$ 满足:

  • 正定性。$\forall \boldsymbol{x, y} \in V,d(\boldsymbol{x}, \boldsymbol{y}) \geqslant 0$;$d(\boldsymbol{x}, \boldsymbol{y})=0 \Longleftrightarrow x=y$
  • 对称性。$\forall \boldsymbol{x, y} \in V,d(\boldsymbol{x}, \boldsymbol{y})=d(\boldsymbol{y}, \boldsymbol{x})$
  • 三角不等式。$\forall \boldsymbol{x, y} \in V,d(\boldsymbol{x}, \boldsymbol{z}) \leqslant d(\boldsymbol{x}, \boldsymbol{y})+d(\boldsymbol{y}, \boldsymbol{z})$

3.4 角度和正交(Angles and Orthogonality)

假设$\boldsymbol{x} \neq \mathbf{0}, \boldsymbol{y} \neq \mathbf{0}$,由柯西不等式可得

$$ -1 \leqslant \frac{\langle\boldsymbol{x}, \boldsymbol{y}\rangle}{\|\boldsymbol{x}\|\|\boldsymbol{y}\|} \leqslant 1 $$

因此存在 $\omega \in[0, \pi)$,使得

$$ \cos \omega=\frac{\langle\boldsymbol{x}, \boldsymbol{y}\rangle}{\|\boldsymbol{x}\|\|\boldsymbol{y}\|} $$

$\omega$ 被称为向量 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 之间的角度(angle)。

定义3.7 正交(Orthogonality)

两个向量 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 是正交的当且仅当 $\langle\boldsymbol{x}, \boldsymbol{y}\rangle= 0$,写作 $\boldsymbol{x} \perp \boldsymbol{y}$。如果 $\|\boldsymbol{x}\|=1=\|\boldsymbol{y}\|$,则称 $\boldsymbol{x}$ 与 $\boldsymbol{y}$ 标准正交(orthonormal)。

定义3.8 正交矩阵(Orthogonal Matrix)

方阵 $\boldsymbol{A} \in \mathbb{R}^{n \times n}$ 是正交矩阵当且仅当它的列是标准正交的,即

$$ \boldsymbol{A} \boldsymbol{A}^{\top}=\boldsymbol{I}=\boldsymbol{A}^{\top} \boldsymbol{A} $$

这意味着

$$ \boldsymbol{A}^{-1}=\boldsymbol{A}^{\top} $$

使用正交矩阵对向量 $\boldsymbol{x}$ 进行变换后长度不变:

$$ \|\boldsymbol{A} \boldsymbol{x}\|^{2}=(\boldsymbol{A} \boldsymbol{x})^{\top}(\boldsymbol{A} \boldsymbol{x})=\boldsymbol{x}^{\top} \boldsymbol{A}^{\top} \boldsymbol{A} \boldsymbol{x}=\boldsymbol{x}^{\top} \boldsymbol{I} \boldsymbol{x}=\boldsymbol{x}^{\top} \boldsymbol{x}=\|\boldsymbol{x}\|^{2} $$

使用正交矩阵对向量 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 进行变换后角度不变:

$$ \cos \omega=\frac{(\boldsymbol{A} \boldsymbol{x})^{\top}(\boldsymbol{A} \boldsymbol{y})}{\|\boldsymbol{A} \boldsymbol{x}\|\|\boldsymbol{A} \boldsymbol{y}\|}=\frac{\boldsymbol{x}^{\top} \boldsymbol{A}^{\top} \boldsymbol{A} \boldsymbol{y}}{\sqrt{\boldsymbol{x}^{\top} \boldsymbol{A}^{\top} \boldsymbol{A} \boldsymbol{x} \boldsymbol{y}^{\top} \boldsymbol{A}^{\top} \boldsymbol{A} \boldsymbol{y}}}=\frac{\boldsymbol{x}^{\top} \boldsymbol{y}}{\|\boldsymbol{x}\|\|\boldsymbol{y}\|} $$

因此,正交矩阵定义了旋转变换(也可能是翻转)。

3.5 标准正交基(Orthonormal Basis)

定义3.9 标准正交基

考虑 $n$ 维向量空间 $V$ 和 $V$ 的一组基 $\left\{\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{n}\right\}$,如果对于 $\forall i, j=1, \dots, n$ 有

$$ \begin{aligned}\left\langle\boldsymbol{b}_{i}, \boldsymbol{b}_{j}\right\rangle &= 0 \quad \text { for } i \neq j \\\left\langle\boldsymbol{b}_{i}, \boldsymbol{b}_{i}\right\rangle &= 1 \end{aligned} $$

则这组基被称为标准正交基(ONB)。如果只满足第一个式子则称为正交基(orthogonal basis)。

给定一组非正交且未归一化的基 $\left\{\tilde{\boldsymbol{b}}_{1}, \ldots, \tilde{\boldsymbol{b}}_{n}\right\}$ 以及矩阵 $\tilde{\boldsymbol{B}}=\left[\tilde{\boldsymbol{b}}_{1}, \ldots, \tilde{\boldsymbol{b}}_{n}\right]$,可以通过对增广矩阵 $\left[\tilde{\boldsymbol{B}} \tilde{\boldsymbol{B}}^{\top} | \tilde{\boldsymbol{B}}\right]$ 进行高斯消元来获得标准正交基,该过程称为施密特正交化过程(Gram-Schmidt process)。

3.6 正交补(Orthogonal Complement)

考虑一个 $D$ 维向量空间 $V$ 和一个 $M$ 维向量子空间 $U \subseteq V$,则 $U$ 的正交补 $U^{\perp}$ 是 $V$ 的一个 $(D-M)$ 维向量子空间,且包含 $V$ 中所有与 $U$ 中的所有向量正交的向量。

除此之外,$U \cap U^{\perp}=\{\mathbf{0}\}$,因此任意向量 $\boldsymbol{x} \in V$ 可以被分解为

$$ \boldsymbol{x}=\sum_{m=1}^{M} \lambda_{m} \boldsymbol{b}_{m}+\sum_{j=1}^{D-M} \psi_{j} \boldsymbol{b}_{j}^{\perp}, \quad \lambda_{m}, \psi_{j} \in \mathbb{R} $$

其中 $\left(\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{M}\right)$ 是 $U$ 的一组基,$\left(\boldsymbol{b}_{1}^{\perp}, \ldots, \boldsymbol{b}_{D-M}^{\perp}\right)$ 是 $U^{\perp}$ 的一组基。

正交补的概念可以被用来描述三维向量空间中的一个平面(二维子空间),即法向量。

3.7 函数的内积(Inner Product of Functions)

两个函数 $u : \mathbb{R} \rightarrow \mathbb{R}$ 和 $v : \mathbb{R} \rightarrow \mathbb{R}$ 之间的内积可以被定义为 $[a, b]$ 上的定积分:

$$ \langle u, v\rangle :=\int_{a}^{b} u(x) v(x) d x \quad a,b \lt \infty $$

与通常的内积一样,我们可以定义范数和正交。如果该积分的值为0,则称函数 $u,v$ 是正交的。

$\sin(x)$ 与 $\cos(x)$ 是正交函数。

函数集 $\{1, \cos (x), \cos (2 x), \cos (3 x), \ldots\}$ 也是正交的。

3.8 正交投影(Orthogonal Projections)

投影是一种重要的线性变换(与旋转和对称一起)。在机器学习领域,常常通过将高维数据投影到低维空间中来进行数据压缩。

2.png

定义3.10 投影(Projection)

设 $V$ 是向量空间,$U \subseteq V$ 是向量子空间,线性映射 $\pi : V \rightarrow U$ 如果满足 $\pi^{2}=\pi \circ \pi=\pi$,则被称为投影。

投影变换是由满足 $\boldsymbol{P}_{\pi}^{2}=\boldsymbol{P}_{\pi}$ 的投影矩阵 $\boldsymbol{P}_{\pi}$ 定义的。

3.8.1 向一维子空间(直线)投影

3.png

向量 $\boldsymbol{x}$ 向基向量为 $\boldsymbol{b}$ 的一维子空间 $U$ 投影,设投影向量为 $\pi_{U}(\boldsymbol{x})$,显然有:

$$ \left\langle\pi_{U}(\boldsymbol{x})-\boldsymbol{x}, \boldsymbol{b}\right\rangle= 0 \\ \pi_{U}(\boldsymbol{x})=\lambda \boldsymbol{b} $$

  • 求系数 $\lambda$

$$ \left\langle\boldsymbol{x}-\pi_{U}(\boldsymbol{x}), \boldsymbol{b}\right\rangle= 0 \stackrel{\pi v(\underline{x})=\lambda b}{\Longleftrightarrow}\langle\boldsymbol{x}-\lambda \boldsymbol{b}, \boldsymbol{b}\rangle= 0 $$

利用内积的双线性性质,可得:

$$ \langle\boldsymbol{x}, \boldsymbol{b}\rangle-\lambda\langle\boldsymbol{b}, \boldsymbol{b}\rangle= 0 \Longleftrightarrow \lambda=\frac{\langle\boldsymbol{x}, \boldsymbol{b}\rangle}{\langle\boldsymbol{b}, \boldsymbol{b}\rangle}=\frac{\langle\boldsymbol{b}, \boldsymbol{x}\rangle}{\|\boldsymbol{b}\|^{2}} \\ \lambda=\frac{\boldsymbol{b}^{\top} \boldsymbol{x}}{\boldsymbol{b}^{\top} \boldsymbol{b}}=\frac{\boldsymbol{b}^{\top} \boldsymbol{x}}{\|\boldsymbol{b}\|^{2}} $$

  • 求投影点 $\pi_{U}(\boldsymbol{x}) \in U$

$$ \pi_{U}(\boldsymbol{x})=\lambda \boldsymbol{b}=\frac{\langle\boldsymbol{x}, \boldsymbol{b}\rangle}{\|\boldsymbol{b}\|^{2}} \boldsymbol{b}=\frac{\boldsymbol{b}^{\top} \boldsymbol{x}}{\|\boldsymbol{b}\|^{2}} \boldsymbol{b} =\boldsymbol{b} \lambda=\boldsymbol{b} \frac{\boldsymbol{b}^{\top} \boldsymbol{x}}{\|\boldsymbol{b}\|^{2}}=\frac{\boldsymbol{b} \boldsymbol{b}^{\top}}{\|\boldsymbol{b}\|^{2}} \boldsymbol{x} $$

  • 求投影矩阵 $\boldsymbol{P}_{\pi}$

$$ \pi_{U}(\boldsymbol{x})=\frac{\boldsymbol{b} \boldsymbol{b}^{\top}}{\|\boldsymbol{b}\|^{2}} \boldsymbol{x} \\ \boldsymbol{P}_{\pi}=\frac{\boldsymbol{b} \boldsymbol{b}^{\top}}{\|\boldsymbol{b}\|^{2}}=\frac{\boldsymbol{b} \boldsymbol{b}^{\top}}{\boldsymbol{b}^{\top} \boldsymbol{b}} $$

3.8.2 向广义子空间投影

向量 $\boldsymbol{x}$ 向基向量为 $\left(\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{m}\right)$ 的 $m$ 维子空间 $U$ 投影,设投影向量为 $\pi_{U}(\boldsymbol{x})$,显然有:

$$ \pi_{U}(\boldsymbol{x})=\sum_{i=1}^{m} \lambda_{i} \boldsymbol{b}_{i}=\boldsymbol{B} \boldsymbol{\lambda} \quad \boldsymbol{B}=\left[\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{m}\right] \in \mathbb{R}^{n \times m}, \boldsymbol{\lambda}=\left[\lambda_{1}, \ldots, \lambda_{m}\right]^{\top} \in \mathbb{R}^{m} $$

$$ \begin{aligned}\left\langle\boldsymbol{b}_{1}, \boldsymbol{x}-\pi_{U}(\boldsymbol{x})\right\rangle &=\boldsymbol{b}_{1}^{\top}\left(\boldsymbol{x}-\pi_{U}(\boldsymbol{x})\right)=0 \\ & \vdots \\\left\langle\boldsymbol{b}_{m}, \boldsymbol{x}-\pi_{U}(\boldsymbol{x})\right\rangle &=\boldsymbol{b}_{m}^{\top}\left(\boldsymbol{x}-\pi_{U}(\boldsymbol{x})\right)=0 \end{aligned} $$

  • 求系数 $\lambda_{1}, \ldots, \lambda_{m}$

由 $\pi_{U}(\boldsymbol{x})=\boldsymbol{B} \boldsymbol{\lambda}$ 可得:

$$ \begin{array}{c}{\boldsymbol{b}_{1}^{\top}(\boldsymbol{x}-\boldsymbol{B} \boldsymbol{\lambda})=0} \\ {\vdots} \\ {\boldsymbol{b}_{m}^{\top}(\boldsymbol{x}-\boldsymbol{B} \boldsymbol{\lambda})=0}\end{array} $$

因此得到齐次线性方程组:

$$ \begin{aligned}\left[\begin{array}{c}{\boldsymbol{b}_{1}^{\top}} \\ {\vdots} \\ {\boldsymbol{b}_{m}^{\top}}\end{array}\right][\boldsymbol{x}-\boldsymbol{B} \boldsymbol{\lambda}]=0 & \Longleftrightarrow \boldsymbol{B}^{\top}(\boldsymbol{x}-\boldsymbol{B} \boldsymbol{\lambda})=0 \\ &\Longleftrightarrow \boldsymbol{B}^{\top} \boldsymbol{B} \boldsymbol{\lambda}=\boldsymbol{B}^{\top} \boldsymbol{x} \end{aligned} $$

因此

$$ \boldsymbol{\lambda}=\left(\boldsymbol{B}^{\top} \boldsymbol{B}\right)^{-1} \boldsymbol{B}^{\top} \boldsymbol{x} $$

  • 求投影点 $\pi_{U}(\boldsymbol{x}) \in U$

$$ \pi_{U}(\boldsymbol{x})=\boldsymbol{B \lambda}=\boldsymbol{B}\left(\boldsymbol{B}^{\top} \boldsymbol{B}\right)^{-1} \boldsymbol{B}^{\top} \boldsymbol{x} $$

  • 求投影矩阵 $\boldsymbol{P}_{\pi}$

$$ \boldsymbol{P}_{\pi}=\boldsymbol{B}\left(\boldsymbol{B}^{\top} \boldsymbol{B}\right)^{-1} \boldsymbol{B}^{\top} $$

投影可以使我们更好地理解方程组 $\boldsymbol{A} \boldsymbol{x}=\boldsymbol{b}$ 无解的情况。方程组无解意味着向量 $\boldsymbol{b}$ 不在 $A$ 的列向量的生成空间之内。这种情况下我们可以找到一个方程组的近似解,原理是求出向量 $\boldsymbol{b}$ 在 $A$ 的列向量的生成子空间上的正交投影。使用这种方法求出的解被称为超定方程组(overdetermined system)的最小平方解(least-squares solution)。

如果投影子空间 $U$ 的基 $\left\{\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{k}\right\}$ 是标准正交基(ONB),则

$$ \pi_{U}(\boldsymbol{x})=\boldsymbol{B}\left(\boldsymbol{B}^{\top} \boldsymbol{B}\right)^{-1} \boldsymbol{B}^{\top} \boldsymbol{x}=\boldsymbol{B}\boldsymbol{I}^{-1} \boldsymbol{B}^{\top} \boldsymbol{x}=\boldsymbol{B B}^{\top} \boldsymbol{x} $$

这意味着无需计算矩阵的逆,节省计算时间。

3.8.3 施密特正交化(Gram-Schmidt Orthogonalization)

4.png

施密特正交化通过以下过程将向量空间 $V$ 的任意一组基 $\left(\boldsymbol{b}_{1}, \dots, \boldsymbol{b}_{n}\right)$ 转化为正交基 $\left(\boldsymbol{u}_{1}, \ldots, \boldsymbol{u}_{n}\right)$:

$$ \begin{array}{l}{\boldsymbol{u}_{1} :=\boldsymbol{b}_{1}} \\ {\boldsymbol{u}_{k} :=\boldsymbol{b}_{k}-\pi_{\mathrm{span}\left[\boldsymbol{u}_{1}, \ldots, \boldsymbol{u}_{k-1}\right]}\left(\boldsymbol{b}_{k}\right), \quad k=1, \ldots, n}\end{array} $$

如果再进行归一化则得到标准正交基。

3.8.4 向仿射子空间投影

5.png

给定仿射子空间 $L=\boldsymbol{x}_{0}+U$,$\boldsymbol{b}_{1}, \boldsymbol{b}_{2}$ 是 $U$ 的基向量,求向量 $\boldsymbol{x}$ 在 $L$ 上的投影 $\pi_{L}(\boldsymbol{x})$。

由上图容易得到

$$ \pi_{L}(\boldsymbol{x})=\boldsymbol{x}_{0}+\pi_{U}\left(\boldsymbol{x}-\boldsymbol{x}_{0}\right) $$

$\boldsymbol{x}$ 与 $L$ 之间的距离等于 $\boldsymbol{x}-\boldsymbol{x}_{0}$ 与 $U$ 之间的距离:

$$ \begin{aligned} d(\boldsymbol{x}, L) &=\left\|\boldsymbol{x}-\pi_{L}(\boldsymbol{x})\right\|=\left\|\boldsymbol{x}-\left(\boldsymbol{x}_{0}+\pi_{U}\left(\boldsymbol{x}-\boldsymbol{x}_{0}\right)\right)\right\| \\ &=d\left(\boldsymbol{x}-\boldsymbol{x}_{0}, \pi_{U}\left(\boldsymbol{x}-\boldsymbol{x}_{0}\right)\right) \end{aligned} $$

3.9 旋转(Rotations)

3.9.1 $\mathbb{R}^{2}$ 中的旋转

习惯上,旋转角度 $\theta>0$ 表示逆时针旋转。

6.png

旋转 $\Phi$ 是一个线性变换,因此可以用旋转矩阵 $\boldsymbol{R}(\theta)$ 来表示。旋转实际上进行的是基变换。

$$ \Phi\left(\boldsymbol{e}_{1}\right)=\left[\begin{array}{c}{\cos \theta} \\ {\sin \theta}\end{array}\right], \quad \Phi\left(\boldsymbol{e}_{2}\right)=\left[\begin{array}{c}{-\sin \theta} \\ {\cos \theta}\end{array}\right] $$

因此

$$ \boldsymbol{R}(\theta)=\left[\Phi\left(\boldsymbol{e}_{1}\right) \quad \Phi\left(\boldsymbol{e}_{2}\right)\right]=\left[\begin{array}{cc}{\cos \theta} & {-\sin \theta} \\ {\sin \theta} & {\cos \theta}\end{array}\right] $$

3.9.2 $\mathbb{R}^{3}$ 中的旋转

与 $\mathbb{R}^{2}$ 中类似,我们通过旋转标准基来获得旋转矩阵。

  • 绕 $\boldsymbol{e}_1$ 轴旋转:

$$ \boldsymbol{R}_{1}(\theta)=\left[\Phi\left(\boldsymbol{e}_{1}\right) \quad \Phi\left(\boldsymbol{e}_{2}\right) \quad \Phi\left(\boldsymbol{e}_{3}\right)\right]=\left[\begin{array}{ccc}{1} & {0} & {0} \\ {0} & {\cos \theta} & {-\sin \theta} \\ {0} & {\sin \theta} & {\cos \theta}\end{array}\right] $$

  • 绕 $\boldsymbol{e}_2$ 轴旋转:

$$ \boldsymbol{R}_{2}(\theta)=\left[\Phi\left(\boldsymbol{e}_{1}\right) \quad \Phi\left(\boldsymbol{e}_{2}\right) \quad \Phi\left(\boldsymbol{e}_{3}\right)\right]=\left[\begin{array}{ccc}{\cos \theta} & {0} & {\sin \theta} \\ {0} & {1} & {0} \\ {-\sin \theta} & {0} & {\cos \theta}\end{array}\right] $$

  • 绕 $\boldsymbol{e}_3$ 轴旋转:

$$ \boldsymbol{R}_{3}(\theta)=\left[\Phi\left(\boldsymbol{e}_{1}\right) \quad \Phi\left(\boldsymbol{e}_{2}\right) \quad \Phi\left(\boldsymbol{e}_{3}\right)\right]=\left[\begin{array}{ccc}{\cos \theta} & {-\sin \theta} & {0} \\ {\sin \theta} & {\cos \theta} & {0} \\ {0} & {0} & {1}\end{array}\right] $$

3.9.3 $n$ 维旋转

通过固定 $n-2$ 个维度并将旋转限制在一个二维平面中,可以很容易将旋转推广到 $n$ 维欧氏向量空间中。

定义3.11 吉文斯旋转(Givens Rotation)

设 $V$ 是 $n$ 维向量空间,$\Phi : V \rightarrow V$ 是自同构,变换矩阵为

$$ \boldsymbol{R}_{i j}(\theta) :=\left[\begin{array}{ccccc}{\boldsymbol{I}_{i-1}} & {\mathbf{0}} & {\cdots} & {\cdots} & {\mathbf{0}} \\ {\mathbf{0}} & {\cos \theta} & {\mathbf{0}} & {-\sin \theta} & {\mathbf{0}} \\ {\mathbf{0}} & {\mathbf{0}} & {\boldsymbol{I}_{j-i-1}} & {\mathbf{0}} & {\mathbf{0}} \\ {\mathbf{0}} & {\sin \theta} & {\mathbf{0}} & {\cos \theta} & {\mathbf{0}} \\ {\mathbf{0}} & {\cdots} & {\cdots} & {\mathbf{0}} & {\boldsymbol{I}_{n-j}}\end{array}\right] \in \mathbb{R}^{n \times n},1 \leqslant i<j \leqslant n,\theta \in \mathbb{R} $$

则 $\boldsymbol{R}_{i j}(\theta)$ 称为吉文斯旋转。即对单位矩阵 $\boldsymbol{I}_{n}$ 的元素进行如下替换:

$$ r_{i i}=\cos \theta, \quad r_{i j}=-\sin \theta, \quad r_{j i}=\sin \theta, \quad r_{j j}=\cos \theta $$

吉文斯旋转对第 $i$ 个和第 $j$ 个维度确定的平面进行旋转,前两节中的旋转矩阵是它的特例。

3.9.4 旋转的性质

将旋转视为正交矩阵,可以得到一些有用的性质:

  • 旋转会保持距离,即 $\|\boldsymbol{x}-\boldsymbol{y}\|=\left\|\boldsymbol{R}_{\theta}(\boldsymbol{x})-\boldsymbol{R}_{\theta}(\boldsymbol{y})\right\|$;
  • 旋转会保持角度,即 $\boldsymbol{x},\boldsymbol{y}$ 之间的角度和 $\boldsymbol{R}_{\theta}(\boldsymbol{x}),\boldsymbol{R}_{\theta}(\boldsymbol{y})$ 之间的角度相等;
  • 三维或以上的旋转是不可交换的,因此应用旋转的顺序很重要。
Last modification:September 15th, 2019 at 03:59 pm
如果觉得我的文章对你有用,请随意赞赏