Lecture 16 - 2025 / 4 / 14
Johnson & Lindenstrauss Lemma
Theorem (JL Lemma). 对于任何 R d \R^d R d 上 n n n 个点的集合 X X X ,任何 ε ∈ ( 0 , 1 ) \varepsilon \in (0, 1) ε ∈ ( 0 , 1 ) ,存在一个 R d → R k \R^d \to \R^k R d → R k 的映射 φ \varphi φ ,其中
k = ⌈ 4 ln n ε 2 / 2 − ε 3 / 3 ⌉ ≤ ⌈ 24 ln n ε 2 ⌉ k = \left \lceil \frac{4 \ln n}{\varepsilon^2 / 2- \varepsilon^3 / 3} \right \rceil \le \left \lceil \frac{24 \ln n}{\varepsilon^2} \right \rceil k = ⌈ ε 2 /2 − ε 3 /3 4 ln n ⌉ ≤ ⌈ ε 2 24 ln n ⌉
使得 ∀ u , v ∈ X \forall u, v \in X ∀ u , v ∈ X ,
( 1 − ε ) ∥ u − v ∥ 2 2 ≤ ∥ φ ( u ) − φ ( v ) ∥ 2 2 ≤ ( 1 + ε ) ∥ u − v ∥ 2 2 (1 - \varepsilon) \| u - v \|_2^2 \le \| \varphi(u) - \varphi(v) \|_2^2 \le (1 + \varepsilon) \| u - v \|_2^2 ( 1 − ε ) ∥ u − v ∥ 2 2 ≤ ∥ φ ( u ) − φ ( v ) ∥ 2 2 ≤ ( 1 + ε ) ∥ u − v ∥ 2 2
考虑随机选择一个坐标系,并保留 u u u 在其中的前 k k k 个坐标(的一个倍数)作为 φ ( u ) \varphi(u) φ ( u ) 。为了分析这个过程,我们可以对称的看作,对于个固定的标准正交坐标系,u u u 在 S d − 1 \mathbb S^{d-1} S d − 1 上均匀随机采样。
于是我们生成一个随机向量 X = ( X 1 , ⋯ , X d ) X = (X_1, \cdots, X_d) X = ( X 1 , ⋯ , X d ) ,其中 X i ∼ N ( 0 , 1 ) X_i \sim \mathcal N(0, 1) X i ∼ N ( 0 , 1 ) ,可以将 u u u 表示为 Z = 1 ∥ X ∥ 2 ( X 1 , ⋯ , X d ) Z = \frac{1}{\|X\|_2}(X_1, \cdots, X_d) Z = ∥ X ∥ 2 1 ( X 1 , ⋯ , X d ) ,降维后的向量定义为 Y = φ ( X ) = k d ⋅ 1 ∥ X ∥ 2 ( X 1 , ⋯ , X k ) Y =\varphi(X)= \sqrt{\frac{k}{d}} \cdot \frac{1}{\|X\|_2}(X_1, \cdots, X_k) Y = φ ( X ) = d k ⋅ ∥ X ∥ 2 1 ( X 1 , ⋯ , X k ) 。
需要分析 L = X 1 2 + ⋯ + X k 2 X 1 2 + ⋯ + X d 2 L = \dfrac{X_1^2 + \cdots + X_k^2}{X_1^2 + \cdots + X_d^2} L = X 1 2 + ⋯ + X d 2 X 1 2 + ⋯ + X k 2 的分布。根据对称性,显然有 E [ L ] = k / d \mathbb E[L] = k / d E [ L ] = k / d ,于是 E [ ∥ Y ∥ 2 2 ] = 1 \mathbb E[\|Y\|_2^2] = 1 E [ ∥ Y ∥ 2 2 ] = 1 。
根据 Chernoff bound 可以得到
Pr [ ∥ φ ( u ) ∥ 2 2 ≥ ( 1 + ε ) ] ≤ exp ( − k 2 ( ε 2 2 − ε 3 3 ) ) \Pr[\|\varphi(u)\|_2^2 \ge (1 + \varepsilon)] \le \exp(-\frac{k}{2}(\frac{\varepsilon^2}{2} - \frac{\varepsilon^3}{3})) Pr [ ∥ φ ( u ) ∥ 2 2 ≥ ( 1 + ε )] ≤ exp ( − 2 k ( 2 ε 2 − 3 ε 3 ))
Pr [ ∥ φ ( u ) ∥ 2 2 ≤ ( 1 − ε ) ] ≤ exp ( − k 4 ε 2 ) \Pr[\|\varphi(u)\|_2^2 \le (1 - \varepsilon)] \le \exp(-\frac{k}{4}\varepsilon^2) Pr [ ∥ φ ( u ) ∥ 2 2 ≤ ( 1 − ε )] ≤ exp ( − 4 k ε 2 )
证明过程主要利用了 ln ( 1 − ε ) < ( − ε − ε 2 2 ) \ln(1 - \varepsilon) < (-\varepsilon - \frac{\varepsilon^2}{2}) ln ( 1 − ε ) < ( − ε − 2 ε 2 ) 和 ln ( 1 + ε ) < ( ε − ε 2 2 + ε 3 3 ) \ln(1 + \varepsilon) < (\varepsilon - \frac{\varepsilon^2}{2} + \frac{\varepsilon^3}{3}) ln ( 1 + ε ) < ( ε − 2 ε 2 + 3 ε 3 ) 。
于是,当 k k k 满足条件时,Pr [ ∣ ∥ φ ( u ) ∥ 2 2 − 1 ∣ > ε ] ≤ 2 exp ( − 2 ln n ) = 2 / n 2 \Pr[|\|\varphi(u)\|_2^2 - 1| > \varepsilon] \le 2 \exp(-2 \ln n) = 2/n^2 Pr [ ∣∥ φ ( u ) ∥ 2 2 − 1∣ > ε ] ≤ 2 exp ( − 2 ln n ) = 2/ n 2 。从而根据 union bound,对于所有 ( n 2 ) \binom n 2 ( 2 n ) 个点对 ( u , v ) (u, v) ( u , v ) ,都保距的概率 ≥ 1 n \ge \frac{1}{n} ≥ n 1 。根据 probabilistic method,可以得到 JL 引理。
Embedding into ℓ p \ell_p ℓ p metrics
Theorem. 设 ( X , d ) (X, d) ( X , d ) 是一个度量空间,∣ X ∣ = n |X| = n ∣ X ∣ = n ,则 ( X , d ) (X, d) ( X , d ) 可以被嵌入一个 ℓ 1 \ell_1 ℓ 1 空间,保距比为 O ( log n ) O(\log n) O ( log n ) ,维度 k = O ( log 2 n ) k = O(\log^2 n) k = O ( log 2 n ) 。
我们通过构造 m = O ( log 2 n ) m = O(\log^2 n) m = O ( log 2 n ) 个随机的 A i ⊆ X A_i \sube X A i ⊆ X ,并定义
φ ( x ) = 1 m ( d ( x , A 1 ) , d ( x , A 2 ) , ⋯ , d ( x , A m ) ) \varphi(x) = \frac{1}{m} (d(x, A_1), d(x, A_2), \cdots, d(x, A_m)) φ ( x ) = m 1 ( d ( x , A 1 ) , d ( x , A 2 ) , ⋯ , d ( x , A m ))
其中 d ( x , A i ) = min y ∈ A i d ( x , y ) d(x, A_i) = \min_{y \in A_i} d(x, y) d ( x , A i ) = min y ∈ A i d ( x , y ) 。我们从两个方向分别证明这个构造的合理性。
Claim. ∀ x , y ∈ X , ∥ φ ( x ) − φ ( y ) ∥ 1 ≤ d ( x , y ) \forall x, y \in X, \|\varphi(x) - \varphi(y)\|_1 \le d(x, y) ∀ x , y ∈ X , ∥ φ ( x ) − φ ( y ) ∥ 1 ≤ d ( x , y )
∥ φ ( x ) − φ ( y ) ∣ 1 = 1 m ∑ i = 1 m ∣ d ( x , A i ) − d ( y , A i ) ∣ ≤ 1 m ∑ i = 1 m d ( x , y ) = d ( x , y ) \begin{aligned} \|\varphi(x) - \varphi(y)|_1 & = \frac{1}{m} \sum_{i=1}^m |d(x, A_i) - d(y, A_i)| \\ & \le \frac{1}{m} \sum_{i=1}^m d(x, y) = d(x, y) \end{aligned} ∥ φ ( x ) − φ ( y ) ∣ 1 = m 1 i = 1 ∑ m ∣ d ( x , A i ) − d ( y , A i ) ∣ ≤ m 1 i = 1 ∑ m d ( x , y ) = d ( x , y )
上式中,第二个不等式是因为,不妨设 d ( x , A i ) ≥ d ( y , A i ) d(x, A_i) \ge d(y, A_i) d ( x , A i ) ≥ d ( y , A i ) ,设 d ( y , A i ) = d ( y , z ) d(y, A_i) = d(y, z) d ( y , A i ) = d ( y , z ) ,其中 z ∈ A i z \in A_i z ∈ A i ,则有 d ( x , A i ) − d ( y , A i ) ≤ d ( x , z ) − d ( y , z ) ≤ d ( x , y ) d(x, A_i) - d(y, A_i) \le d(x, z) - d(y, z) \le d(x, y) d ( x , A i ) − d ( y , A i ) ≤ d ( x , z ) − d ( y , z ) ≤ d ( x , y ) 。
我们构造 { A i } \{A_i\} { A i } 的方法是,对于每个 t ∈ { 1 , 2 , ⋯ , log n } t \in \{1, 2, \cdots, \log n\} t ∈ { 1 , 2 , ⋯ , log n } ,构造 r log n r \log n r log n 个随机集合 { A i ( t ) } i = 1 r log n \{A_i^{(t)}\}_{i=1}^{r \log n} { A i ( t ) } i = 1 r l o g n ,其中每个 x ∈ X x \in X x ∈ X 都独立均匀的以 2 − t 2^{-t} 2 − t 的概率包含在 A i ( t ) A_i^{(t)} A i ( t ) 中。因此 A i ( t ) A_i^{(t)} A i ( t ) 的期望大小为 n 2 t \dfrac{n}{2^t} 2 t n ,总共有 r log 2 n r \log^2 n r log 2 n 个集合。
Claim. ∃ c , ∀ x , y ∈ X , ∥ φ ( x ) − φ ( y ) ∥ 1 ≥ 1 c log n d ( x , y ) \exists c, \forall x, y \in X, \|\varphi(x) - \varphi(y)\|_1 \ge \dfrac{1}{c \log n} d(x, y) ∃ c , ∀ x , y ∈ X , ∥ φ ( x ) − φ ( y ) ∥ 1 ≥ c log n 1 d ( x , y )
为了证明这个 claim,我们首先定义“球”:
B ( x , ρ ) = { z ∈ X ∣ d ( x , z ) ≤ ρ } B ∘ ( x , ρ ) = { z ∈ X ∣ d ( x , z ) < ρ } B(x, \rho) = \{z \in X \mid d(x, z) \le \rho\}\\
B^\circ(x, \rho) = \{z \in X \mid d(x, z) < \rho\} B ( x , ρ ) = { z ∈ X ∣ d ( x , z ) ≤ ρ } B ∘ ( x , ρ ) = { z ∈ X ∣ d ( x , z ) < ρ }
定义一列半径 0 = ρ 0 < ρ 1 < ⋯ 0 = \rho_0 < \rho_1 < \cdots 0 = ρ 0 < ρ 1 < ⋯ ,其中 ρ t \rho_t ρ t 定义为
ρ t = min { ρ ∣ B ( x , ρ ) , B ( y , ρ ) both contain ≥ 2 t points of X } \rho_t = \min\{ \rho \mid B(x, \rho), B(y, \rho) \text{ both contain} \ge 2^t \text{ points of }X\} ρ t = min { ρ ∣ B ( x , ρ ) , B ( y , ρ ) both contain ≥ 2 t points of X }
持续定义这样的 ρ t \rho_t ρ t ,直到某一项 ρ t ∗ ≥ 1 4 d ( x , y ) \rho_{t^*} \ge \dfrac{1}{4} d(x, y) ρ t ∗ ≥ 4 1 d ( x , y ) 时,修改定义这一项为 ρ t ∗ = 1 4 d ( x , y ) \rho_{t^*} = \dfrac{1}{4} d(x, y) ρ t ∗ = 4 1 d ( x , y ) ,定义结束。可以看出 B ( x , ρ t ) , B ( y , ρ t ) B(x, \rho_t), B(y, \rho_t) B ( x , ρ t ) , B ( y , ρ t ) 永远是不交的。
我们称 A i ( t ) A_i^{(t)} A i ( t ) 是 good 的当且仅当(两者之一):
ρ t \rho_t ρ t 对于 B ( x , ρ t ) B(x, \rho_t) B ( x , ρ t ) 是紧的,而 A i ( t ) A_i^{(t)} A i ( t ) 与 B ( y , ρ t − 1 ) B(y, \rho_{t - 1}) B ( y , ρ t − 1 ) 相交但与 B ∘ ( x , ρ t ) B^\circ(x, \rho_{t}) B ∘ ( x , ρ t ) 不交。
ρ t \rho_t ρ t 对于 B ( y , ρ t ) B(y, \rho_t) B ( y , ρ t ) 是紧的,而 A i ( t ) A_i^{(t)} A i ( t ) 与 B ( x , ρ t − 1 ) B(x, \rho_{t - 1}) B ( x , ρ t − 1 ) 相交但与 B ∘ ( y , ρ t ) B^\circ(y, \rho_{t}) B ∘ ( y , ρ t ) 不交。
注意,一个 good 的集合将为 ∥ φ ( x ) − φ ( y ) ∥ 1 \| \varphi(x) - \varphi(y)\|_1 ∥ φ ( x ) − φ ( y ) ∥ 1 贡献 1 m ( ρ t − ρ t − 1 ) \dfrac{1}{m} (\rho_t - \rho_{t-1}) m 1 ( ρ t − ρ t − 1 ) 。
对于任何集合 A i ( t ) A_i^{(t)} A i ( t ) ,它 good 的概率有
Pr [ A i ( t ) is good for x , y ] = Pr [ A i ( t ) ∩ B ∘ ( x , ρ t ) = ∅ ∧ A i ( t ) ∩ B ( y , ρ t − 1 ) ≠ ∅ ] ≥ Pr [ A i ( t ) ∩ B ∘ ( x , ρ t ) = ∅ ] ⋅ Pr [ A i ( t ) ∩ B ( y , ρ t − 1 ) ≠ ∅ ] ≥ ( 1 − 2 − t ) 2 t ⋅ ( 1 − ( 1 − 2 − t ) 2 t − 1 ) ≥ 1 4 ⋅ ( 1 − 1 e ) \begin{aligned}
\Pr[A_i^{(t)} \text{ is good for } x, y] & = \Pr[A_i^{(t)} \cap B^\circ(x, \rho_t) = \emptyset \land A_i^{(t)} \cap B(y, \rho_{t-1}) \neq \emptyset] \\
& \ge \Pr[A_i^{(t)} \cap B^\circ(x, \rho_t) = \emptyset] \cdot \Pr[A_i^{(t)} \cap B(y, \rho_{t-1}) \neq \emptyset]\\
& \ge \left(1 - 2^{-t} \right)^{2^t} \cdot \left(1 - (1 - 2^{-t})^{2^{t-1}} \right) \\
& \ge \frac{1}{4} \cdot \left(1 - \frac{1}{\sqrt{e}} \right) \\
\end{aligned} Pr [ A i ( t ) is good for x , y ] = Pr [ A i ( t ) ∩ B ∘ ( x , ρ t ) = ∅ ∧ A i ( t ) ∩ B ( y , ρ t − 1 ) = ∅ ] ≥ Pr [ A i ( t ) ∩ B ∘ ( x , ρ t ) = ∅ ] ⋅ Pr [ A i ( t ) ∩ B ( y , ρ t − 1 ) = ∅ ] ≥ ( 1 − 2 − t ) 2 t ⋅ ( 1 − ( 1 − 2 − t ) 2 t − 1 ) ≥ 4 1 ⋅ ( 1 − e 1 )
第一个不等号是因为两个事件是正相关的,最后一个不等号是因为前者单调递增,后者单调递减。
因此 A i ( t ) A_i^{(t)} A i ( t ) 以常数概率是 good 的,对于每个固定的 t t t ,E [ # good sets ] ≥ r log n 12 = μ \mathbb E[\# \text{good sets}] \ge \dfrac{r \log n}{12} = \mu E [ # good sets ] ≥ 12 r log n = μ ,根据 Chernoff bound,Pr [ # good sets ≤ μ / 2 ] ≤ exp ( − μ / 8 ) = exp ( − r log n / 96 ) ≤ n − 3 \Pr[\# \text{good sets} \le \mu / 2] \le \exp(-\mu / 8) = \exp(-r \log n / 96) \le n^{-3} Pr [ # good sets ≤ μ /2 ] ≤ exp ( − μ /8 ) = exp ( − r log n /96 ) ≤ n − 3 ,这里取 r = 288 r = 288 r = 288 。从而根据 union bound,对于所有的 x , y , t x, y, t x , y , t 都成立的概率 ≥ 1 − log n / n \ge 1 - \log n / n ≥ 1 − log n / n 。
因此,当上述事件发生时,
∥ φ ( x ) − φ ( y ) ∥ 1 = 1 m ∑ t = 1 log n ∑ i = 1 r log n ∣ d ( x , A i ( t ) ) − d ( y , A i ( t ) ) ∣ ≥ 1 m r log n 24 ∑ t = 1 log n ( ρ t − ρ t − 1 ) = 1 m r log n 24 ( ρ t ∗ − ρ 0 ) = 1 96 log n d ( x , y ) \begin{aligned}
\|\varphi(x) - \varphi(y)\|_1 & = \frac{1}{m} \sum_{t=1}^{\log n} \sum_{i=1}^{r \log n} | d(x, A_i^{(t)}) - d(y, A_i^{(t)}) | \\
& \ge \frac{1}{m} \frac{r \log n}{24} \sum_{t=1}^{\log n} (\rho_t - \rho_{t-1}) \\
& = \frac{1}{m} \frac{r \log n}{24} (\rho_{t^*} - \rho_0) \\
& = \frac{1}{96 \log n} d(x, y)
\end{aligned} ∥ φ ( x ) − φ ( y ) ∥ 1 = m 1 t = 1 ∑ l o g n i = 1 ∑ r l o g n ∣ d ( x , A i ( t ) ) − d ( y , A i ( t ) ) ∣ ≥ m 1 24 r log n t = 1 ∑ l o g n ( ρ t − ρ t − 1 ) = m 1 24 r log n ( ρ t ∗ − ρ 0 ) = 96 log n 1 d ( x , y )