跳转至

赋范线性空间与巴拿赫空间

注:本讲中有关范数的部分内容是与凸优化合并而来的,因此有很多应用性较强的内容并不在泛函分析的要求之内。

赋范线性空间与巴拿赫空间

定义

赋范线性空间

\(X\) 是一个线性空间,如果在 \(X\) 上定义了一个范数 \(\|\cdot\|\),则使得 \(X\) 成为一个赋范线性空间(normed linear space)。而所谓范数,是一个从 \(X\)\(\mathbb{R}\) 的映射,满足以下性质:

  1. 正定性:\(\|x\| \geqslant 0\),且 \(\|x\| = 0\) 当且仅当 \(x = 0\)
  2. 齐次性:\(\|\alpha x\| = |\alpha| \|x\|\)
  3. 三角不等式:\(\|x + y\| \leqslant \|x\| + \|y\|\)

其中 \(x, y \in X\)\(\alpha\) 为任意标量。不难验证,赋范线性空间是一个度量空间,因为范数直接诱导了一个度量 \(d(x, y) = \|x - y\|\)。上述定义的赋范线性空间 \((X, \|\cdot\|)\) 也可简记为 \(X\)

巴拿赫空间

\(X\) 是一个赋范线性空间,如果 \(X\) 是完备的,则称 \(X\)巴拿赫空间(Banach space)。其中完备性是对范数诱导的度量而言的。

我们定义范数小于等于 \(1\) 的所有向量的集合

\[ \mathcal{B} = \{ x \in \mathbb{R}^n \mid \|x\| \leqslant 1 \} \]

为范数 \(\|\cdot\|\) 的单位球,则单位球具有如下性质:

  • \(\mathcal{B}\) 关于原点对称,即 \(x \in \mathcal{B} \iff -x \in \mathcal{B}\)
  • \(\mathcal{B}\) 是凸集
  • \(\mathcal{B}\) 是有界闭集,内部非空

反之,如果 \(\mathcal{C} \subseteq \mathbb{R}^n\) 是满足上述三个条件的任何集合,它就是一种范数的单位球,该范数由下式给出(根据范数的齐次性不难证明):

\[ \|x\| = (\sup\{t \geqslant 0 \mid tx \in \mathcal{C}\})^{-1} \]

例子

最常用的范数即各位在中学阶段就已经熟知的欧几里得范数,或称 \(l_2\)-范数。对于 \(n\) 维向量 \(x = (x_1, x_2, \ldots, x_n)\),其 \(l_2\)-范数定义为:

\[ \|x\|_2 = \sqrt{x_1^2 + x_2^2 + \cdots + x_n^2} \]

因此欧几里得范数诱导的欧氏空间也是最常见的赋范线性空间。此外,还有 \(l_1\)-范数\(l_\infty\)-范数(或称切比雪夫范数),定义如下:

\[\begin{gather*} \|x\|_1 = |x_1| + |x_2| + \cdots + |x_n| \\ \|x\|_\infty = \max\{|x_1|, |x_2|, \ldots, |x_n|\} \end{gather*}\]

事实上这些范数可以用 \(l_p\)-范数的形式统一表示:

\[ \|x\|_p = \left( |x_1|^p + |x_2|^p + \cdots + |x_n|^p \right)^{1/p} \]

其中 \(p \geqslant 1\)\(l_p\)-范数满足三角不等式的证明已经在上一讲中给出,其诱导的度量在 \(n\)\(+\infty\) 时构成了 \(l_p\)-空间,这里不再赘述。

另一类重要的范数称之为二次范数。对 \(n\) 阶实对称正定矩阵 \(P\),定义 \(P\)-二次范数为:

\[ \|x\|_P = (x^T P x)^{1/2} = \|P^{1/2} x\|_2 \]

其中 \(P^{1/2}\)\(P\) 的平方根,因此也是一个实对称正定矩阵,故第二个等号来源于 \(\|P^{1/2} x\|_2 = (x^\mathrm{T} (P^{1/2})^\mathrm{T} P^{1/2} x)^{1/2} = (x^T P x)^{1/2}\)。根据惯性定理的几何意义(特征值为椭球的半轴长)可知,\(P\)-二次范数诱导的单位球为椭球。事实上这个结果反之也成立:如果一个范数诱导的单位球是椭球,则这个范数必然是二次范数(因为将圆变换为椭圆需要一个线性映射)。

除此之外,矩阵范数也是常用的范数。矩阵范数在定义时还需要满足一个额外的性质,即对于任意矩阵 \(A, B\)\(\| AB \| \leqslant \|A\| \|B\|\)。一个常见的矩阵范数是 Frobenius 范数,对于 \(n \times m\) 矩阵 \(A\),定义 \(A\)Frobenius 范数为:

\[ \|A\|_F = \left( \text{tr}(A^T A) \right)^{1/2} = \left( \sum_{i=1}^n \sum_{j=1}^m a_{ij}^2 \right)^{1/2} \]

此外注意到\(n \times m\) 矩阵全体构成的线性空间 \(\mathbf{R}^{n \times m}\) 同构于向量空间 \(\mathbf{R}^{nm}\),因此我们可以将矩阵看作一个向量,从而定义类似于向量 \(l_p\)-范数的矩阵范数(但这并不是矩阵的 \(l_p\)-范数,后面会介绍矩阵的 \(l_2\)-范数),具体形式略去。

熟知矩阵是有限维线性空间之间的线性映射(或称线性算子)在基下的表示,因此上述矩阵范数也可以表示为算子的范数。表示为算子的一个更大的好处是,我们可以将其推广到无限维空间中,我们将在本讲后面线性算子一节中定义算子范数。

性质

有限维赋范线性空间

等价范数

\(X\) 是一个赋范线性空间,如果存在常数 \(c_1, c_2 > 0\) 使得对于任意 \(x \in X\),有 \(c_1 \|x\|_1 \leqslant \|x\|_2 \leqslant c_2 \|x\|_1\),则称 \(\|\cdot\|_1\)\(\|\cdot\|_2\) 是等价的。

不难理解,等价范数在 \(X\) 上定义了相同的拓扑,\((X, \|\cdot\|_1)\)\((X, \|\cdot\|_2)\) 中的柯西列是相同的。下面这一定理非常重要,它说明了有限维赋范线性空间中的所有范数都是等价的,因此在有限维线性空间中,序列的收敛性与范数的选取无关

有限维空间范数等价

有限维赋范线性空间中的所有范数是等价的,即存在常数 \(c_1, c_2 > 0\) 使得对于任意 \(x \in X\),有 \(c_1 \|x\|_1 \leqslant \|x\|_2 \leqslant c_2 \|x\|_1\)

有限维空间范数等价的证明

不难发现我们证明任意范数 \(\|\cdot\|\) 都与 \(l_2\)-范数 \(\|\cdot\|_2\) 等价即可。设 \(X\) 是一个 \(n\) 维赋范线性空间,取一组单位正交基 \(\{e_1, e_2, \ldots, e_n\}\),对于任意 \(x \in X\),有 \(x = \sum\limits_{i=1}^n x_i e_i\),其 \(l_2\)-范数 \(\|x\|_2 = \left( \sum\limits_{i=1}^n x_i^2 \right)^{1/2}\)。根据范数的三角不等式、齐次性以及 Hölder 不等式,我们有:

\[ \|x\| = \| \sum_{i=1}^n x_i e_i \| \leqslant \sum_{i=1}^n |x_i| \|e_i\| = \left( \sum_{i=1}^n x_i^2 \right)^{1/2} \left( \sum_{i=1}^n \|e_i\|^2 \right)^{1/2} = C\|x\|_2\]

其中 \(C = \left( \sum\limits_{i=1}^n \|e_i\|^2 \right)^{1/2}\) 是一个常数。因此,对于任意的 \(x,y \in X\),有:

\[|\|x\| - \|y\|| \leqslant \|x - y\| \leqslant C\|x - y\|_2\]

因为范数本质上是一个函数,由上式可以看出 \(\|\cdot\|\) 是 Lipschitz 连续的。考虑欧氏空间中的单位球面 \(S = \{x \in X \mid \|x\|_2 = 1\}\),它是一个紧集,\(\|\cdot\|\)\(S\) 上连续,则 \(\|\cdot\|\)\(S\) 上取到最大值 \(M\) 和最小值 \(m\)。而 \(\|\cdot\|\) 只在原点处取到 \(0\),因此 \(m > 0\)

对于任意的 \(x \in X\),显然 \(\dfrac{x}{\|x\|_2} \in S\),因此有 \(m \leqslant \left\|\dfrac{x}{\|x\|_2}\right\| \leqslant M\),根据范数的齐次性有 \(m\|x\|_2 \leqslant \|x\| \leqslant M\|x\|_2\)。因此 \(\|\cdot\|\)\(\|\cdot\|_2\) 等价。

线性算子

我们称赋范线性空间之间的映射为算子(operator)。设 \(X\)\(Y\) 是两个赋范线性空间,\(T: X \to Y\) 是一个映射,如果对于任意 \(x, y \in X\) 和任意标量 \(\alpha\),有:

  1. \(T(x + y) = T(x) + T(y)\)
  2. \(T(\alpha x) = \alpha T(x)\)

则称 \(T\) 是一个线性算子(linear operator)

算子范数

一般定义

有界线性算子

\(X\)\(Y\) 是两个赋范线性空间,\(T: X \to Y\) 是一个线性算子。如果存在常数 \(c\) 使得对于任意 \(x \in X\),有 \(\|Tx\|_Y \leqslant c\|x\|_X\),则称 \(T\) 是一个有界线性算子

在不引起歧义的情况下,我们通常省略 \(X\)\(Y\) 的下标,直接写 \(\|x\|\)\(\|Tx\|\),即 \(\|Tx\| \leqslant c\|x\|\)。我们下面的问题是,这样的 \(c\) 最小是多少?事实上,\(\|x\| = 0\) 时我们有 \(\|Tx\| = 0\),不影响 \(c\) 的取值,因此我们考虑 \(x \neq 0\) 的情况,此时我们可以将上式改写为:

\[ \dfrac{\|Tx\|}{\|x\|} \leqslant c,\ \forall x \neq 0 \]

于是,问题的回答就是\(c = \sup\limits_{x \neq 0} \dfrac{\|Tx\|}{\|x\|}\)。这个 \(c\) 称为算子 \(T\)算子范数

算子范数

\(T: X \to Y\) 是一个有界线性算子,其算子范数定义为:

\[ \|T\| = \sup_{x \neq 0} \dfrac{\|Tx\|}{\|x\|} \]

其中 \(\|x\|\)\(\|Tx\|\) 分别是 \(X\)\(Y\) 上的范数。

根据线性算子的性质,不难证明上述定义可以改写为 \(\|T\| = \sup\limits_{\|x\| = 1} \|Tx\|\),并且不难证明算子范数的确满足范数的三个性质。

有限维的情况

我们回到有限维的情况,在定义了算子范数后,我们进一步讨论算子对应的矩阵的范数。事实上,当我们考虑有限维空间时,线性算子 \(T: \mathbb{R}^n \to \mathbb{R}^m\) 可以表示为一个 \(m \times n\) 的矩阵 \(A\),因此算子范数对应的矩阵范数也可以写为

\[ \|A\| = \sup\limits_{x \neq 0} \dfrac{\|Ax\|}{\|x\|} = \sup\limits_{\|x\| = 1} \|Ax\| \]

\(\|x\|\)\(\|Ax\|\) 分别是 \(\mathbb{R}^n\)\(\mathbb{R}^m\) 上的 \(l_2\)-范数,那么 \(A\) 的范数实际上是其最大奇异值(这一点在凸优化数学基础中有解释),用 \(\|A\|_2\) 表示:

\[ \|A\|_2 = \sigma_{\max}(A) = (\lambda_{\max}(A^\mathrm{T} A))^{1/2} \]

事实上这一记号不会与向量的 \(l_2\)-范数混淆,当矩阵 \(A\) 是一个 \(m \times 1\) 的向量时,最大奇异值就是向量的 \(l_2\)-范数值。因此我们就将这一范数称为矩阵的 \(l_2\)-范数(或谱范数)。除了 \(l_2\) 之外,我们也可以考虑 \(\|x\|\)\(\|Ax\|\) 分别是 \(\mathbb{R}^n\)\(\mathbb{R}^m\) 上的 \(l_\infty\)-范数 的情况,不难验证此时 \(A\) 的范数是其最大行和范数,用 \(\|A\|_\infty\) 表示:

\[ \|A\|_\infty = \sup\limits_{\|x\|_\infty = 1} \|Ax\|_\infty = \max_{i=1,2,\ldots,m} \sum_{j=1}^n |a_{ij}| \]

实际上就是对应矩阵某行正值的位置取 \(1\),负值取 \(-1\) 即可。除此之外,我们还可以考虑 \(\|x\|\)\(\|Ax\|\) 分别是 \(\mathbb{R}^n\)\(\mathbb{R}^m\) 上的 \(l_1\)-范数 的情况,此时 \(A\) 的范数是其最大列和范数,用 \(\|A\|_1\) 表示:

\[ \|A\|_1 = \sup\limits_{\|x\|_1 = 1} \|Ax\|_1 = \max_{j=1,2,\ldots,n} \sum_{i=1}^m |a_{ij}| \]

这也是不难理解的,我们可以将 \(Ax\) 写成分块形式

\[ Ax = \begin{pmatrix} a_1 & a_2 & \cdots & a_n \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{pmatrix} = a_1 x_1 + a_2 x_2 + \cdots + a_n x_n \]

所以我们直接取绝对值之和最大的列的系数为 \(1\) 即可最大化 \(Ax\)\(l_1\)-范数。

对偶范数

\(\|\cdot\|\) 为赋范线性空间 \(X\) 上的范数,为了便于讨论,我们研究 \(X = \mathbb{R}^n\) 的情况。其对应的对偶范数 \(\|\cdot\|_*\) 定义为:

\[ \|y\|_* = \sup\limits_{\|x\| \leqslant 1} y^\mathrm{T} x \]

事实上这可以理解为 \(y^\mathrm{T}\) 的矩阵范数,因此满足范数的基本性质。从对偶范数的定义可以得到:

\[y^\mathrm{T} x \leqslant \|y\|_* \|x\| \leqslant \|y\|_*,\ \forall \|x\| \leqslant 1\]

事实上有限维空间中的对偶范数有一个很好的性质,即对偶范数的对偶范数等于原范数,即 \(\|\cdot\|_{**} = \|\cdot\|\)。这一性质在无限维空间中不一定成立,有限维空间的证明我们在凸优化对偶中会给出。下面我们来证明一个对偶范数的性质:

\(l_p\)-范数的对偶

对于 \(l_p\)-范数,其对偶范数是 \(l_q\)-范数,其中 \(p\)\(q\) 满足 \(\dfrac{1}{p} + \dfrac{1}{q} = 1\)

\(l_p\)-范数的对偶的证明

注意定义 \(\|y\|_{p^*} = \sup\limits_{\|x\|_p \leqslant 1} y^\mathrm{T} x\),根据 Hölder 不等式有:

\[ y^\mathrm{T} x = \sum_{i=1}^n y_i x_i \leqslant \left( \sum_{i=1}^n |y_i|^q \right)^{1/q} \left( \sum_{i=1}^n |x_i|^p \right)^{1/p} = \|y\|_q \|x\|_p \leqslant \|y\|_q \]

其中 \(q\) 满足 \(\dfrac{1}{p} + \dfrac{1}{q} = 1\)。注意 Hölder 不等式的取等条件是可以实现的,因此 \(\|y\|_q = \sup\limits_{\|x\|_p \leqslant 1} y^\mathrm{T} x\),即 \(\|y\|_q = \|y\|_{p^*}\)

根据这一结论,\(l_2\)-范数的对偶是 \(l_2\)-范数,\(l_1\)-范数的对偶是 \(l_\infty\)-范数,\(l_\infty\)-范数的对偶是 \(l_1\)-范数。作为另外一个例子,考虑 \(m \times n\) 矩阵的 \(l_2\)-范数,其对偶范数定义为:

\[ \|A\|_{2^*} = \sup\limits_{\|X\|_2 \leqslant 1} \text{tr}(A^\mathrm{T} X) = \text{tr}(A^\mathrm{T} A)^{1/2} = \sigma_1(A) + \cdots + \sigma_r(A) \]

即为全体奇异值之和,其中 \(r\)\(A\) 的秩。这一范数称为核范数(nuclear norm)