Lecture 23 - 2025 / 5 / 15

Markov Chains

Definition: 一个 Markov 链是一列随机变量 (Xt)t=0(X_t)_{t=0}^{\infty},满足
Pr[Xt=yXt1=x,Xt2,,X0]=Pr[Xt=yXt1=x]=P(x,y)\Pr[X_t = y \mid X_{t-1} = x, X_{t-2}, \cdots, X_0] = \Pr[X_t = y \mid X_{t-1}= x] = P(x, y)

其中 P(x,y)P(x, y) 是一个转移概率,PP 是行和为 11 的矩阵。

我们有 px(t)=px(0)Ptp_x^{(t)} = p_x^{(0)} P^t,其中 px(0)p_x^{(0)} 是从 xx 出发的 one-hot 初始分布。

Definition (irreducible): x,y\forall x, y, t\exists t s.t. px(t)(y)>0p_x^{(t)}(y) > 0

Definition (aperiodic): x,y\forall x, y, gcd{tpx(t)(y)>0}=1\gcd\{t \mid p_x^{(t)}(y) > 0\} = 1

Stationary Distribution

Theorem (Fundamental Theorem): 如果 PP 是不可约且非周期的,则存在唯一的平稳分布 π\pi,满足 πP=π\pi P = \pi,且 px(t)(y)tπ(y)x,yp_x^{(t)}(y) \xrightarrow{t \to \infty} \pi(y) \quad \forall x, y。这里 π\pi 实际上是 PP 特征值为 11 的唯一左特征向量。

Observation 1: 如果 PP 是对称的,则 π\pi 是均匀分布。

Observation 2: 如果 PP 列和也为 11,则 π\pi 是均匀分布。

Observation 3: 如果 PP 关于某个分布 π\pi 可反的,即 π(x)P(x,y)=π(y)P(y,x)\pi(x) P(x, y) = \pi(y) P(y, x),则 π\pi 是平稳分布。

Metropolis Process

给定一个大集合 Ω\Omega 和权重 w:ΩR+w : \Omega \to \R^+,希望设计一个稳态分布为 π(x)=w(x)/Z\pi(x) = w(x) / Z 的 Markov 链,其中 Z=xΩw(x)Z = \sum_{x \in \Omega} w(x),并且我们假定 ZZ 是不知道的,或者正是我们想求的。

大空间采样过程给定将 Ω\Omega 连接起来的无向图,以及位于 xx 时抽取邻居的分布 κ(x,y)>0\kappa(x, y) > 0,并且有 κ(x,y)=κ(y,x)\kappa(x, y) = \kappa(y, x),我们构造 Markov 链如下:

Claim: 由大空间采样构造出的 Markov 链的平稳分布为 π(x)=w(x)/Z\pi(x) = w(x) / Z

不妨设 w(x)w(y)w(x) \ge w(y)。当 x,yx, y 不是邻居时,π(x)P(x,y)=π(y)P(y,x)=0\pi(x) P(x, y) = \pi(y) P(y, x) = 0。当 x,yx, y 是邻居时,
π(x)P(x,y)=w(x)Zκ(x,y)w(y)w(x)=w(y)Zκ(x,y)=π(y)P(y,x)\pi(x) P(x, y) = \frac{w(x)}{Z} \cdot \kappa(x, y) \frac{w(y)}{w(x)} = \frac{w(y)}{Z}\kappa(x, y) = \pi(y) P(y, x)

最后一个等号是因为 κ(x,y)=κ(y,x)\kappa(x, y) = \kappa(y, x)

事实上,如果不满足 κ(x,y)=κ(y,x)\kappa(x, y) = \kappa(y, x),我们只需将接受概率修改为 min{1,(w(y)κ(y,x))/(w(x)κ(x,y))}\min \{1, (w(y) \kappa(y, x)) / (w(x)\kappa(x, y)) \}