赋范线性空间与巴拿赫空间¶

注：本讲中有关范数的部分内容是与凸优化合并而来的，因此有很多应用性较强的内容并不在泛函分析的要求之内。

赋范线性空间与巴拿赫空间¶

定义¶

赋范线性空间

设 \(X\) 是一个线性空间，如果在 \(X\) 上定义了一个范数 \(\|\cdot\|\)，则使得 \(X\) 成为一个赋范线性空间（normed linear space）。而所谓范数，是一个从 \(X\) 到 \(\mathbb{R}\) 的映射，满足以下性质：

正定性：\(\|x\| \geqslant 0\)，且 \(\|x\| = 0\) 当且仅当 \(x = 0\)；
齐次性：\(\|\alpha x\| = |\alpha| \|x\|\)；
三角不等式：\(\|x + y\| \leqslant \|x\| + \|y\|\)。

其中 \(x, y \in X\)，\(\alpha\) 为任意标量。不难验证，赋范线性空间是一个度量空间，因为范数直接诱导了一个度量 \(d(x, y) = \|x - y\|\)。上述定义的赋范线性空间 \((X, \|\cdot\|)\) 也可简记为 \(X\)。

巴拿赫空间

设 \(X\) 是一个赋范线性空间，如果 \(X\) 是完备的，则称 \(X\) 为巴拿赫空间（Banach space）。其中完备性是对范数诱导的度量而言的。

我们定义范数小于等于 \(1\) 的所有向量的集合

\[ \mathcal{B} = \{ x \in \mathbb{R}^n \mid \|x\| \leqslant 1 \} \]

为范数 \(\|\cdot\|\) 的单位球，则单位球具有如下性质：

\(\mathcal{B}\) 关于原点对称，即 \(x \in \mathcal{B} \iff -x \in \mathcal{B}\)；
\(\mathcal{B}\) 是凸集
\(\mathcal{B}\) 是有界闭集，内部非空

反之，如果 \(\mathcal{C} \subseteq \mathbb{R}^n\) 是满足上述三个条件的任何集合，它就是一种范数的单位球，该范数由下式给出（根据范数的齐次性不难证明）：

\[ \|x\| = (\sup\{t \geqslant 0 \mid tx \in \mathcal{C}\})^{-1} \]

例子¶

最常用的范数即各位在中学阶段就已经熟知的欧几里得范数，或称 \(l_2\)-范数。对于 \(n\) 维向量 \(x = (x_1, x_2, \ldots, x_n)\)，其 \(l_2\)-范数定义为：

\[ \|x\|_2 = \sqrt{x_1^2 + x_2^2 + \cdots + x_n^2} \]

因此欧几里得范数诱导的欧氏空间也是最常见的赋范线性空间。此外，还有 \(l_1\)-范数、\(l_\infty\)-范数（或称切比雪夫范数），定义如下：

\[\begin{gather*} \|x\|_1 = |x_1| + |x_2| + \cdots + |x_n| \\ \|x\|_\infty = \max\{|x_1|, |x_2|, \ldots, |x_n|\} \end{gather*}\]

事实上这些范数可以用 \(l_p\)-范数的形式统一表示：

\[ \|x\|_p = \left( |x_1|^p + |x_2|^p + \cdots + |x_n|^p \right)^{1/p} \]

其中 \(p \geqslant 1\)。\(l_p\)-范数满足三角不等式的证明已经在上一讲中给出，其诱导的度量在 \(n\) 取 \(+\infty\) 时构成了 \(l_p\)-空间，这里不再赘述。

另一类重要的范数称之为二次范数。对 \(n\) 阶实对称正定矩阵 \(P\)，定义 \(P\)-二次范数为：

\[ \|x\|_P = (x^T P x)^{1/2} = \|P^{1/2} x\|_2 \]

其中 \(P^{1/2}\) 是 \(P\) 的平方根，因此也是一个实对称正定矩阵，故第二个等号来源于 \(\|P^{1/2} x\|_2 = (x^\mathrm{T} (P^{1/2})^\mathrm{T} P^{1/2} x)^{1/2} = (x^T P x)^{1/2}\)。根据惯性定理的几何意义（特征值为椭球的半轴长）可知，\(P\)-二次范数诱导的单位球为椭球。事实上这个结果反之也成立：如果一个范数诱导的单位球是椭球，则这个范数必然是二次范数（因为将圆变换为椭圆需要一个线性映射）。

除此之外，矩阵范数也是常用的范数。矩阵范数在定义时还需要满足一个额外的性质，即对于任意矩阵 \(A, B\) 有 \(\| AB \| \leqslant \|A\| \|B\|\)。一个常见的矩阵范数是 Frobenius 范数，对于 \(n \times m\) 矩阵 \(A\)，定义 \(A\) 的 Frobenius 范数为：

\[ \|A\|_F = \left( \text{tr}(A^T A) \right)^{1/2} = \left( \sum_{i=1}^n \sum_{j=1}^m a_{ij}^2 \right)^{1/2} \]

此外注意到\(n \times m\) 矩阵全体构成的线性空间 \(\mathbf{R}^{n \times m}\) 同构于向量空间 \(\mathbf{R}^{nm}\)，因此我们可以将矩阵看作一个向量，从而定义类似于向量 \(l_p\)-范数的矩阵范数（但这并不是矩阵的 \(l_p\)-范数，后面会介绍矩阵的 \(l_2\)-范数），具体形式略去。

熟知矩阵是有限维线性空间之间的线性映射（或称线性算子）在基下的表示，因此上述矩阵范数也可以表示为算子的范数。表示为算子的一个更大的好处是，我们可以将其推广到无限维空间中，我们将在本讲后面线性算子一节中定义算子范数。

性质¶

有限维赋范线性空间¶

等价范数

设 \(X\) 是一个赋范线性空间，如果存在常数 \(c_1, c_2 > 0\) 使得对于任意 \(x \in X\)，有 \(c_1 \|x\|_1 \leqslant \|x\|_2 \leqslant c_2 \|x\|_1\)，则称 \(\|\cdot\|_1\) 和 \(\|\cdot\|_2\) 是等价的。

不难理解，等价范数在 \(X\) 上定义了相同的拓扑，\((X, \|\cdot\|_1)\) 和 \((X, \|\cdot\|_2)\) 中的柯西列是相同的。下面这一定理非常重要，它说明了有限维赋范线性空间中的所有范数都是等价的，因此在有限维线性空间中，序列的收敛性与范数的选取无关。

有限维空间范数等价

有限维赋范线性空间中的所有范数是等价的，即存在常数 \(c_1, c_2 > 0\) 使得对于任意 \(x \in X\)，有 \(c_1 \|x\|_1 \leqslant \|x\|_2 \leqslant c_2 \|x\|_1\)。

有限维空间范数等价的证明

不难发现我们证明任意范数 \(\|\cdot\|\) 都与 \(l_2\)-范数 \(\|\cdot\|_2\) 等价即可。设 \(X\) 是一个 \(n\) 维赋范线性空间，取一组单位正交基 \(\{e_1, e_2, \ldots, e_n\}\)，对于任意 \(x \in X\)，有 \(x = \sum\limits_{i=1}^n x_i e_i\)，其 \(l_2\)-范数 \(\|x\|_2 = \left( \sum\limits_{i=1}^n x_i^2 \right)^{1/2}\)。根据范数的三角不等式、齐次性以及 Hölder 不等式，我们有：

\[ \|x\| = \| \sum_{i=1}^n x_i e_i \| \leqslant \sum_{i=1}^n |x_i| \|e_i\| = \left( \sum_{i=1}^n x_i^2 \right)^{1/2} \left( \sum_{i=1}^n \|e_i\|^2 \right)^{1/2} = C\|x\|_2\]

其中 \(C = \left( \sum\limits_{i=1}^n \|e_i\|^2 \right)^{1/2}\) 是一个常数。因此，对于任意的 \(x,y \in X\)，有：

\[|\|x\| - \|y\|| \leqslant \|x - y\| \leqslant C\|x - y\|_2\]

因为范数本质上是一个函数，由上式可以看出 \(\|\cdot\|\) 是 Lipschitz 连续的。考虑欧氏空间中的单位球面 \(S = \{x \in X \mid \|x\|_2 = 1\}\)，它是一个紧集，\(\|\cdot\|\) 在 \(S\) 上连续，则 \(\|\cdot\|\) 在 \(S\) 上取到最大值 \(M\) 和最小值 \(m\)。而 \(\|\cdot\|\) 只在原点处取到 \(0\)，因此 \(m > 0\)。

对于任意的 \(x \in X\)，显然 \(\dfrac{x}{\|x\|_2} \in S\)，因此有 \(m \leqslant \left\|\dfrac{x}{\|x\|_2}\right\| \leqslant M\)，根据范数的齐次性有 \(m\|x\|_2 \leqslant \|x\| \leqslant M\|x\|_2\)。因此 \(\|\cdot\|\) 与 \(\|\cdot\|_2\) 等价。

线性算子¶

我们称赋范线性空间之间的映射为算子（operator）。设 \(X\) 和 \(Y\) 是两个赋范线性空间，\(T: X \to Y\) 是一个映射，如果对于任意 \(x, y \in X\) 和任意标量 \(\alpha\)，有：

\(T(x + y) = T(x) + T(y)\)；
\(T(\alpha x) = \alpha T(x)\)；

则称 \(T\) 是一个线性算子（linear operator）。

算子范数¶

一般定义¶

有界线性算子

设 \(X\) 和 \(Y\) 是两个赋范线性空间，\(T: X \to Y\) 是一个线性算子。如果存在常数 \(c\) 使得对于任意 \(x \in X\)，有 \(\|Tx\|_Y \leqslant c\|x\|_X\)，则称 \(T\) 是一个有界线性算子

在不引起歧义的情况下，我们通常省略 \(X\) 和 \(Y\) 的下标，直接写 \(\|x\|\) 和 \(\|Tx\|\)，即 \(\|Tx\| \leqslant c\|x\|\)。我们下面的问题是，这样的 \(c\) 最小是多少？事实上，\(\|x\| = 0\) 时我们有 \(\|Tx\| = 0\)，不影响 \(c\) 的取值，因此我们考虑 \(x \neq 0\) 的情况，此时我们可以将上式改写为：

\[ \dfrac{\|Tx\|}{\|x\|} \leqslant c,\ \forall x \neq 0 \]

于是，问题的回答就是\(c = \sup\limits_{x \neq 0} \dfrac{\|Tx\|}{\|x\|}\)。这个 \(c\) 称为算子 \(T\) 的算子范数。

算子范数

设 \(T: X \to Y\) 是一个有界线性算子，其算子范数定义为：

\[ \|T\| = \sup_{x \neq 0} \dfrac{\|Tx\|}{\|x\|} \]

其中 \(\|x\|\) 和 \(\|Tx\|\) 分别是 \(X\) 和 \(Y\) 上的范数。

根据线性算子的性质，不难证明上述定义可以改写为 \(\|T\| = \sup\limits_{\|x\| = 1} \|Tx\|\)，并且不难证明算子范数的确满足范数的三个性质。

有限维的情况¶

我们回到有限维的情况，在定义了算子范数后，我们进一步讨论算子对应的矩阵的范数。事实上，当我们考虑有限维空间时，线性算子 \(T: \mathbb{R}^n \to \mathbb{R}^m\) 可以表示为一个 \(m \times n\) 的矩阵 \(A\)，因此算子范数对应的矩阵范数也可以写为

\[ \|A\| = \sup\limits_{x \neq 0} \dfrac{\|Ax\|}{\|x\|} = \sup\limits_{\|x\| = 1} \|Ax\| \]

若 \(\|x\|\) 和 \(\|Ax\|\) 分别是 \(\mathbb{R}^n\) 和 \(\mathbb{R}^m\) 上的 \(l_2\)-范数，那么 \(A\) 的范数实际上是其最大奇异值（这一点在凸优化数学基础中有解释），用 \(\|A\|_2\) 表示：

\[ \|A\|_2 = \sigma_{\max}(A) = (\lambda_{\max}(A^\mathrm{T} A))^{1/2} \]

事实上这一记号不会与向量的 \(l_2\)-范数混淆，当矩阵 \(A\) 是一个 \(m \times 1\) 的向量时，最大奇异值就是向量的 \(l_2\)-范数值。因此我们就将这一范数称为矩阵的 \(l_2\)-范数（或谱范数）。除了 \(l_2\) 之外，我们也可以考虑 \(\|x\|\) 和 \(\|Ax\|\) 分别是 \(\mathbb{R}^n\) 和 \(\mathbb{R}^m\) 上的 \(l_\infty\)-范数的情况，不难验证此时 \(A\) 的范数是其最大行和范数，用 \(\|A\|_\infty\) 表示：

\[ \|A\|_\infty = \sup\limits_{\|x\|_\infty = 1} \|Ax\|_\infty = \max_{i=1,2,\ldots,m} \sum_{j=1}^n |a_{ij}| \]

实际上就是对应矩阵某行正值的位置取 \(1\)，负值取 \(-1\) 即可。除此之外，我们还可以考虑 \(\|x\|\) 和 \(\|Ax\|\) 分别是 \(\mathbb{R}^n\) 和 \(\mathbb{R}^m\) 上的 \(l_1\)-范数的情况，此时 \(A\) 的范数是其最大列和范数，用 \(\|A\|_1\) 表示：

\[ \|A\|_1 = \sup\limits_{\|x\|_1 = 1} \|Ax\|_1 = \max_{j=1,2,\ldots,n} \sum_{i=1}^m |a_{ij}| \]

这也是不难理解的，我们可以将 \(Ax\) 写成分块形式

\[ Ax = \begin{pmatrix} a_1 & a_2 & \cdots & a_n \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{pmatrix} = a_1 x_1 + a_2 x_2 + \cdots + a_n x_n \]

所以我们直接取绝对值之和最大的列的系数为 \(1\) 即可最大化 \(Ax\) 的 \(l_1\)-范数。

对偶范数¶

令 \(\|\cdot\|\) 为赋范线性空间 \(X\) 上的范数，为了便于讨论，我们研究 \(X = \mathbb{R}^n\) 的情况。其对应的对偶范数 \(\|\cdot\|_*\) 定义为：

\[ \|y\|_* = \sup\limits_{\|x\| \leqslant 1} y^\mathrm{T} x \]

事实上这可以理解为 \(y^\mathrm{T}\) 的矩阵范数，因此满足范数的基本性质。从对偶范数的定义可以得到：

\[y^\mathrm{T} x \leqslant \|y\|_* \|x\| \leqslant \|y\|_*,\ \forall \|x\| \leqslant 1\]

事实上有限维空间中的对偶范数有一个很好的性质，即对偶范数的对偶范数等于原范数，即 \(\|\cdot\|_{**} = \|\cdot\|\)。这一性质在无限维空间中不一定成立，有限维空间的证明我们在凸优化对偶中会给出。下面我们来证明一个对偶范数的性质：

\(l_p\)-范数的对偶

对于 \(l_p\)-范数，其对偶范数是 \(l_q\)-范数，其中 \(p\) 和 \(q\) 满足 \(\dfrac{1}{p} + \dfrac{1}{q} = 1\)。

\(l_p\)-范数的对偶的证明

注意定义 \(\|y\|_{p^*} = \sup\limits_{\|x\|_p \leqslant 1} y^\mathrm{T} x\)，根据 Hölder 不等式有：

\[ y^\mathrm{T} x = \sum_{i=1}^n y_i x_i \leqslant \left( \sum_{i=1}^n |y_i|^q \right)^{1/q} \left( \sum_{i=1}^n |x_i|^p \right)^{1/p} = \|y\|_q \|x\|_p \leqslant \|y\|_q \]

其中 \(q\) 满足 \(\dfrac{1}{p} + \dfrac{1}{q} = 1\)。注意 Hölder 不等式的取等条件是可以实现的，因此 \(\|y\|_q = \sup\limits_{\|x\|_p \leqslant 1} y^\mathrm{T} x\)，即 \(\|y\|_q = \|y\|_{p^*}\)。

根据这一结论，\(l_2\)-范数的对偶是 \(l_2\)-范数，\(l_1\)-范数的对偶是 \(l_\infty\)-范数，\(l_\infty\)-范数的对偶是 \(l_1\)-范数。作为另外一个例子，考虑 \(m \times n\) 矩阵的 \(l_2\)-范数，其对偶范数定义为：

\[ \|A\|_{2^*} = \sup\limits_{\|X\|_2 \leqslant 1} \text{tr}(A^\mathrm{T} X) = \text{tr}(A^\mathrm{T} A)^{1/2} = \sigma_1(A) + \cdots + \sigma_r(A) \]

即为全体奇异值之和，其中 \(r\) 为 \(A\) 的秩。这一范数称为核范数（nuclear norm）。