赋范线性空间与巴拿赫空间¶
注:本讲中有关范数的部分内容是与凸优化合并而来的,因此有很多应用性较强的内容并不在泛函分析的要求之内。
赋范线性空间与巴拿赫空间¶
定义¶
赋范线性空间
设 \(X\) 是一个线性空间,如果在 \(X\) 上定义了一个范数 \(\|\cdot\|\),则使得 \(X\) 成为一个赋范线性空间(normed linear space)。而所谓范数,是一个从 \(X\) 到 \(\mathbb{R}\) 的映射,满足以下性质:
- 正定性:\(\|x\| \geqslant 0\),且 \(\|x\| = 0\) 当且仅当 \(x = 0\);
- 齐次性:\(\|\alpha x\| = |\alpha| \|x\|\);
- 三角不等式:\(\|x + y\| \leqslant \|x\| + \|y\|\)。
其中 \(x, y \in X\),\(\alpha\) 为任意标量。不难验证,赋范线性空间是一个度量空间,因为范数直接诱导了一个度量 \(d(x, y) = \|x - y\|\)。上述定义的赋范线性空间 \((X, \|\cdot\|)\) 也可简记为 \(X\)。
巴拿赫空间
设 \(X\) 是一个赋范线性空间,如果 \(X\) 是完备的,则称 \(X\) 为巴拿赫空间(Banach space)。其中完备性是对范数诱导的度量而言的。
我们定义范数小于等于 \(1\) 的所有向量的集合
为范数 \(\|\cdot\|\) 的单位球,则单位球具有如下性质:
- \(\mathcal{B}\) 关于原点对称,即 \(x \in \mathcal{B} \iff -x \in \mathcal{B}\);
- \(\mathcal{B}\) 是凸集
- \(\mathcal{B}\) 是有界闭集,内部非空
反之,如果 \(\mathcal{C} \subseteq \mathbb{R}^n\) 是满足上述三个条件的任何集合,它就是一种范数的单位球,该范数由下式给出(根据范数的齐次性不难证明):
例子¶
最常用的范数即各位在中学阶段就已经熟知的欧几里得范数,或称 \(l_2\)-范数。对于 \(n\) 维向量 \(x = (x_1, x_2, \ldots, x_n)\),其 \(l_2\)-范数定义为:
因此欧几里得范数诱导的欧氏空间也是最常见的赋范线性空间。此外,还有 \(l_1\)-范数、\(l_\infty\)-范数(或称切比雪夫范数),定义如下:
事实上这些范数可以用 \(l_p\)-范数的形式统一表示:
其中 \(p \geqslant 1\)。\(l_p\)-范数满足三角不等式的证明已经在上一讲中给出,其诱导的度量在 \(n\) 取 \(+\infty\) 时构成了 \(l_p\)-空间,这里不再赘述。
另一类重要的范数称之为二次范数。对 \(n\) 阶实对称正定矩阵 \(P\),定义 \(P\)-二次范数为:
其中 \(P^{1/2}\) 是 \(P\) 的平方根,因此也是一个实对称正定矩阵,故第二个等号来源于 \(\|P^{1/2} x\|_2 = (x^\mathrm{T} (P^{1/2})^\mathrm{T} P^{1/2} x)^{1/2} = (x^T P x)^{1/2}\)。根据惯性定理的几何意义(特征值为椭球的半轴长)可知,\(P\)-二次范数诱导的单位球为椭球。事实上这个结果反之也成立:如果一个范数诱导的单位球是椭球,则这个范数必然是二次范数(因为将圆变换为椭圆需要一个线性映射)。
除此之外,矩阵范数也是常用的范数。矩阵范数在定义时还需要满足一个额外的性质,即对于任意矩阵 \(A, B\) 有 \(\| AB \| \leqslant \|A\| \|B\|\)。一个常见的矩阵范数是 Frobenius 范数,对于 \(n \times m\) 矩阵 \(A\),定义 \(A\) 的 Frobenius 范数为:
此外注意到\(n \times m\) 矩阵全体构成的线性空间 \(\mathbf{R}^{n \times m}\) 同构于向量空间 \(\mathbf{R}^{nm}\),因此我们可以将矩阵看作一个向量,从而定义类似于向量 \(l_p\)-范数的矩阵范数(但这并不是矩阵的 \(l_p\)-范数,后面会介绍矩阵的 \(l_2\)-范数),具体形式略去。
熟知矩阵是有限维线性空间之间的线性映射(或称线性算子)在基下的表示,因此上述矩阵范数也可以表示为算子的范数。表示为算子的一个更大的好处是,我们可以将其推广到无限维空间中,我们将在本讲后面线性算子一节中定义算子范数。
性质¶
有限维赋范线性空间¶
等价范数
设 \(X\) 是一个赋范线性空间,如果存在常数 \(c_1, c_2 > 0\) 使得对于任意 \(x \in X\),有 \(c_1 \|x\|_1 \leqslant \|x\|_2 \leqslant c_2 \|x\|_1\),则称 \(\|\cdot\|_1\) 和 \(\|\cdot\|_2\) 是等价的。
不难理解,等价范数在 \(X\) 上定义了相同的拓扑,\((X, \|\cdot\|_1)\) 和 \((X, \|\cdot\|_2)\) 中的柯西列是相同的。下面这一定理非常重要,它说明了有限维赋范线性空间中的所有范数都是等价的,因此在有限维线性空间中,序列的收敛性与范数的选取无关。
有限维空间范数等价
有限维赋范线性空间中的所有范数是等价的,即存在常数 \(c_1, c_2 > 0\) 使得对于任意 \(x \in X\),有 \(c_1 \|x\|_1 \leqslant \|x\|_2 \leqslant c_2 \|x\|_1\)。
有限维空间范数等价的证明
不难发现我们证明任意范数 \(\|\cdot\|\) 都与 \(l_2\)-范数 \(\|\cdot\|_2\) 等价即可。设 \(X\) 是一个 \(n\) 维赋范线性空间,取一组单位正交基 \(\{e_1, e_2, \ldots, e_n\}\),对于任意 \(x \in X\),有 \(x = \sum\limits_{i=1}^n x_i e_i\),其 \(l_2\)-范数 \(\|x\|_2 = \left( \sum\limits_{i=1}^n x_i^2 \right)^{1/2}\)。根据范数的三角不等式、齐次性以及 Hölder 不等式,我们有:
其中 \(C = \left( \sum\limits_{i=1}^n \|e_i\|^2 \right)^{1/2}\) 是一个常数。因此,对于任意的 \(x,y \in X\),有:
因为范数本质上是一个函数,由上式可以看出 \(\|\cdot\|\) 是 Lipschitz 连续的。考虑欧氏空间中的单位球面 \(S = \{x \in X \mid \|x\|_2 = 1\}\),它是一个紧集,\(\|\cdot\|\) 在 \(S\) 上连续,则 \(\|\cdot\|\) 在 \(S\) 上取到最大值 \(M\) 和最小值 \(m\)。而 \(\|\cdot\|\) 只在原点处取到 \(0\),因此 \(m > 0\)。
对于任意的 \(x \in X\),显然 \(\dfrac{x}{\|x\|_2} \in S\),因此有 \(m \leqslant \left\|\dfrac{x}{\|x\|_2}\right\| \leqslant M\),根据范数的齐次性有 \(m\|x\|_2 \leqslant \|x\| \leqslant M\|x\|_2\)。因此 \(\|\cdot\|\) 与 \(\|\cdot\|_2\) 等价。
线性算子¶
我们称赋范线性空间之间的映射为算子(operator)。设 \(X\) 和 \(Y\) 是两个赋范线性空间,\(T: X \to Y\) 是一个映射,如果对于任意 \(x, y \in X\) 和任意标量 \(\alpha\),有:
- \(T(x + y) = T(x) + T(y)\);
- \(T(\alpha x) = \alpha T(x)\);
则称 \(T\) 是一个线性算子(linear operator)。
算子范数¶
一般定义¶
有界线性算子
设 \(X\) 和 \(Y\) 是两个赋范线性空间,\(T: X \to Y\) 是一个线性算子。如果存在常数 \(c\) 使得对于任意 \(x \in X\),有 \(\|Tx\|_Y \leqslant c\|x\|_X\),则称 \(T\) 是一个有界线性算子
在不引起歧义的情况下,我们通常省略 \(X\) 和 \(Y\) 的下标,直接写 \(\|x\|\) 和 \(\|Tx\|\),即 \(\|Tx\| \leqslant c\|x\|\)。我们下面的问题是,这样的 \(c\) 最小是多少?事实上,\(\|x\| = 0\) 时我们有 \(\|Tx\| = 0\),不影响 \(c\) 的取值,因此我们考虑 \(x \neq 0\) 的情况,此时我们可以将上式改写为:
于是,问题的回答就是\(c = \sup\limits_{x \neq 0} \dfrac{\|Tx\|}{\|x\|}\)。这个 \(c\) 称为算子 \(T\) 的算子范数。
算子范数
设 \(T: X \to Y\) 是一个有界线性算子,其算子范数定义为:
其中 \(\|x\|\) 和 \(\|Tx\|\) 分别是 \(X\) 和 \(Y\) 上的范数。
根据线性算子的性质,不难证明上述定义可以改写为 \(\|T\| = \sup\limits_{\|x\| = 1} \|Tx\|\),并且不难证明算子范数的确满足范数的三个性质。
有限维的情况¶
我们回到有限维的情况,在定义了算子范数后,我们进一步讨论算子对应的矩阵的范数。事实上,当我们考虑有限维空间时,线性算子 \(T: \mathbb{R}^n \to \mathbb{R}^m\) 可以表示为一个 \(m \times n\) 的矩阵 \(A\),因此算子范数对应的矩阵范数也可以写为
若 \(\|x\|\) 和 \(\|Ax\|\) 分别是 \(\mathbb{R}^n\) 和 \(\mathbb{R}^m\) 上的 \(l_2\)-范数,那么 \(A\) 的范数实际上是其最大奇异值(这一点在凸优化数学基础中有解释),用 \(\|A\|_2\) 表示:
事实上这一记号不会与向量的 \(l_2\)-范数混淆,当矩阵 \(A\) 是一个 \(m \times 1\) 的向量时,最大奇异值就是向量的 \(l_2\)-范数值。因此我们就将这一范数称为矩阵的 \(l_2\)-范数(或谱范数)。除了 \(l_2\) 之外,我们也可以考虑 \(\|x\|\) 和 \(\|Ax\|\) 分别是 \(\mathbb{R}^n\) 和 \(\mathbb{R}^m\) 上的 \(l_\infty\)-范数 的情况,不难验证此时 \(A\) 的范数是其最大行和范数,用 \(\|A\|_\infty\) 表示:
实际上就是对应矩阵某行正值的位置取 \(1\),负值取 \(-1\) 即可。除此之外,我们还可以考虑 \(\|x\|\) 和 \(\|Ax\|\) 分别是 \(\mathbb{R}^n\) 和 \(\mathbb{R}^m\) 上的 \(l_1\)-范数 的情况,此时 \(A\) 的范数是其最大列和范数,用 \(\|A\|_1\) 表示:
这也是不难理解的,我们可以将 \(Ax\) 写成分块形式
所以我们直接取绝对值之和最大的列的系数为 \(1\) 即可最大化 \(Ax\) 的 \(l_1\)-范数。
对偶范数¶
令 \(\|\cdot\|\) 为赋范线性空间 \(X\) 上的范数,为了便于讨论,我们研究 \(X = \mathbb{R}^n\) 的情况。其对应的对偶范数 \(\|\cdot\|_*\) 定义为:
事实上这可以理解为 \(y^\mathrm{T}\) 的矩阵范数,因此满足范数的基本性质。从对偶范数的定义可以得到:
事实上有限维空间中的对偶范数有一个很好的性质,即对偶范数的对偶范数等于原范数,即 \(\|\cdot\|_{**} = \|\cdot\|\)。这一性质在无限维空间中不一定成立,有限维空间的证明我们在凸优化对偶中会给出。下面我们来证明一个对偶范数的性质:
\(l_p\)-范数的对偶
对于 \(l_p\)-范数,其对偶范数是 \(l_q\)-范数,其中 \(p\) 和 \(q\) 满足 \(\dfrac{1}{p} + \dfrac{1}{q} = 1\)。
\(l_p\)-范数的对偶的证明
注意定义 \(\|y\|_{p^*} = \sup\limits_{\|x\|_p \leqslant 1} y^\mathrm{T} x\),根据 Hölder 不等式有:
其中 \(q\) 满足 \(\dfrac{1}{p} + \dfrac{1}{q} = 1\)。注意 Hölder 不等式的取等条件是可以实现的,因此 \(\|y\|_q = \sup\limits_{\|x\|_p \leqslant 1} y^\mathrm{T} x\),即 \(\|y\|_q = \|y\|_{p^*}\)。
根据这一结论,\(l_2\)-范数的对偶是 \(l_2\)-范数,\(l_1\)-范数的对偶是 \(l_\infty\)-范数,\(l_\infty\)-范数的对偶是 \(l_1\)-范数。作为另外一个例子,考虑 \(m \times n\) 矩阵的 \(l_2\)-范数,其对偶范数定义为:
即为全体奇异值之和,其中 \(r\) 为 \(A\) 的秩。这一范数称为核范数(nuclear norm)。