Lecture 16 - 2025 / 4 / 14

Johnson & Lindenstrauss Lemma

Theorem (JL Lemma). 对于任何 Rd\R^dnn 个点的集合 XX,任何 ε(0,1)\varepsilon \in (0, 1),存在一个 RdRk\R^d \to \R^k 的映射 φ\varphi,其中
k=4lnnε2/2ε3/324lnnε2k = \left \lceil \frac{4 \ln n}{\varepsilon^2 / 2- \varepsilon^3 / 3} \right \rceil \le \left \lceil \frac{24 \ln n}{\varepsilon^2} \right \rceil

使得 u,vX\forall u, v \in X
(1ε)uv22φ(u)φ(v)22(1+ε)uv22(1 - \varepsilon) \| u - v \|_2^2 \le \| \varphi(u) - \varphi(v) \|_2^2 \le (1 + \varepsilon) \| u - v \|_2^2

考虑随机选择一个坐标系,并保留 uu 在其中的前 kk 个坐标(的一个倍数)作为 φ(u)\varphi(u)。为了分析这个过程,我们可以对称的看作,对于个固定的标准正交坐标系,uuSd1\mathbb S^{d-1} 上均匀随机采样。

于是我们生成一个随机向量 X=(X1,,Xd)X = (X_1, \cdots, X_d),其中 XiN(0,1)X_i \sim \mathcal N(0, 1),可以将 uu 表示为 Z=1X2(X1,,Xd)Z = \frac{1}{\|X\|_2}(X_1, \cdots, X_d),降维后的向量定义为 Y=φ(X)=kd1X2(X1,,Xk)Y =\varphi(X)= \sqrt{\frac{k}{d}} \cdot \frac{1}{\|X\|_2}(X_1, \cdots, X_k)

需要分析 L=X12++Xk2X12++Xd2L = \dfrac{X_1^2 + \cdots + X_k^2}{X_1^2 + \cdots + X_d^2} 的分布。根据对称性,显然有 E[L]=k/d\mathbb E[L] = k / d,于是 E[Y22]=1\mathbb E[\|Y\|_2^2] = 1

根据 Chernoff bound 可以得到

证明过程主要利用了 ln(1ε)<(εε22)\ln(1 - \varepsilon) < (-\varepsilon - \frac{\varepsilon^2}{2})ln(1+ε)<(εε22+ε33)\ln(1 + \varepsilon) < (\varepsilon - \frac{\varepsilon^2}{2} + \frac{\varepsilon^3}{3})

于是,当 kk 满足条件时,Pr[φ(u)221>ε]2exp(2lnn)=2/n2\Pr[|\|\varphi(u)\|_2^2 - 1| > \varepsilon] \le 2 \exp(-2 \ln n) = 2/n^2。从而根据 union bound,对于所有 (n2)\binom n 2 个点对 (u,v)(u, v),都保距的概率 1n\ge \frac{1}{n}。根据 probabilistic method,可以得到 JL 引理。

Embedding into p\ell_p metrics

Theorem.(X,d)(X, d) 是一个度量空间,X=n|X| = n,则 (X,d)(X, d) 可以被嵌入一个 1\ell_1 空间,保距比为 O(logn)O(\log n),维度 k=O(log2n)k = O(\log^2 n)

我们通过构造 m=O(log2n)m = O(\log^2 n) 个随机的 AiXA_i \sube X,并定义
φ(x)=1m(d(x,A1),d(x,A2),,d(x,Am))\varphi(x) = \frac{1}{m} (d(x, A_1), d(x, A_2), \cdots, d(x, A_m))

其中 d(x,Ai)=minyAid(x,y)d(x, A_i) = \min_{y \in A_i} d(x, y)。我们从两个方向分别证明这个构造的合理性。

Claim. x,yX,φ(x)φ(y)1d(x,y)\forall x, y \in X, \|\varphi(x) - \varphi(y)\|_1 \le d(x, y)

φ(x)φ(y)1=1mi=1md(x,Ai)d(y,Ai)1mi=1md(x,y)=d(x,y)\begin{aligned} \|\varphi(x) - \varphi(y)|_1 & = \frac{1}{m} \sum_{i=1}^m |d(x, A_i) - d(y, A_i)| \\ & \le \frac{1}{m} \sum_{i=1}^m d(x, y) = d(x, y) \end{aligned}

上式中,第二个不等式是因为,不妨设 d(x,Ai)d(y,Ai)d(x, A_i) \ge d(y, A_i),设 d(y,Ai)=d(y,z)d(y, A_i) = d(y, z),其中 zAiz \in A_i,则有 d(x,Ai)d(y,Ai)d(x,z)d(y,z)d(x,y)d(x, A_i) - d(y, A_i) \le d(x, z) - d(y, z) \le d(x, y)

我们构造 {Ai}\{A_i\} 的方法是,对于每个 t{1,2,,logn}t \in \{1, 2, \cdots, \log n\},构造 rlognr \log n 个随机集合 {Ai(t)}i=1rlogn\{A_i^{(t)}\}_{i=1}^{r \log n},其中每个 xXx \in X 都独立均匀的以 2t2^{-t} 的概率包含在 Ai(t)A_i^{(t)} 中。因此 Ai(t)A_i^{(t)} 的期望大小为 n2t\dfrac{n}{2^t},总共有 rlog2nr \log^2 n 个集合。

Claim. c,x,yX,φ(x)φ(y)11clognd(x,y)\exists c, \forall x, y \in X, \|\varphi(x) - \varphi(y)\|_1 \ge \dfrac{1}{c \log n} d(x, y)

为了证明这个 claim,我们首先定义“球”:
B(x,ρ)={zXd(x,z)ρ}B(x,ρ)={zXd(x,z)<ρ}B(x, \rho) = \{z \in X \mid d(x, z) \le \rho\}\\ B^\circ(x, \rho) = \{z \in X \mid d(x, z) < \rho\}

定义一列半径 0=ρ0<ρ1<0 = \rho_0 < \rho_1 < \cdots,其中 ρt\rho_t 定义为
ρt=min{ρB(x,ρ),B(y,ρ) both contain2t points of X}\rho_t = \min\{ \rho \mid B(x, \rho), B(y, \rho) \text{ both contain} \ge 2^t \text{ points of }X\}

持续定义这样的 ρt\rho_t,直到某一项 ρt14d(x,y)\rho_{t^*} \ge \dfrac{1}{4} d(x, y) 时,修改定义这一项为 ρt=14d(x,y)\rho_{t^*} = \dfrac{1}{4} d(x, y),定义结束。可以看出 B(x,ρt),B(y,ρt)B(x, \rho_t), B(y, \rho_t) 永远是不交的。

我们称 Ai(t)A_i^{(t)}good 的当且仅当(两者之一):

注意,一个 good 的集合将为 φ(x)φ(y)1\| \varphi(x) - \varphi(y)\|_1 贡献 1m(ρtρt1)\dfrac{1}{m} (\rho_t - \rho_{t-1})

对于任何集合 Ai(t)A_i^{(t)},它 good 的概率有
Pr[Ai(t) is good for x,y]=Pr[Ai(t)B(x,ρt)=Ai(t)B(y,ρt1)]Pr[Ai(t)B(x,ρt)=]Pr[Ai(t)B(y,ρt1)](12t)2t(1(12t)2t1)14(11e)\begin{aligned} \Pr[A_i^{(t)} \text{ is good for } x, y] & = \Pr[A_i^{(t)} \cap B^\circ(x, \rho_t) = \emptyset \land A_i^{(t)} \cap B(y, \rho_{t-1}) \neq \emptyset] \\ & \ge \Pr[A_i^{(t)} \cap B^\circ(x, \rho_t) = \emptyset] \cdot \Pr[A_i^{(t)} \cap B(y, \rho_{t-1}) \neq \emptyset]\\ & \ge \left(1 - 2^{-t} \right)^{2^t} \cdot \left(1 - (1 - 2^{-t})^{2^{t-1}} \right) \\ & \ge \frac{1}{4} \cdot \left(1 - \frac{1}{\sqrt{e}} \right) \\ \end{aligned}

第一个不等号是因为两个事件是正相关的,最后一个不等号是因为前者单调递增,后者单调递减。

因此 Ai(t)A_i^{(t)} 以常数概率是 good 的,对于每个固定的 ttE[#good sets]rlogn12=μ\mathbb E[\# \text{good sets}] \ge \dfrac{r \log n}{12} = \mu,根据 Chernoff bound,Pr[#good setsμ/2]exp(μ/8)=exp(rlogn/96)n3\Pr[\# \text{good sets} \le \mu / 2] \le \exp(-\mu / 8) = \exp(-r \log n / 96) \le n^{-3},这里取 r=288r = 288。从而根据 union bound,对于所有的 x,y,tx, y, t 都成立的概率 1logn/n\ge 1 - \log n / n

因此,当上述事件发生时,
φ(x)φ(y)1=1mt=1logni=1rlognd(x,Ai(t))d(y,Ai(t))1mrlogn24t=1logn(ρtρt1)=1mrlogn24(ρtρ0)=196lognd(x,y)\begin{aligned} \|\varphi(x) - \varphi(y)\|_1 & = \frac{1}{m} \sum_{t=1}^{\log n} \sum_{i=1}^{r \log n} | d(x, A_i^{(t)}) - d(y, A_i^{(t)}) | \\ & \ge \frac{1}{m} \frac{r \log n}{24} \sum_{t=1}^{\log n} (\rho_t - \rho_{t-1}) \\ & = \frac{1}{m} \frac{r \log n}{24} (\rho_{t^*} - \rho_0) \\ & = \frac{1}{96 \log n} d(x, y) \end{aligned}