Lecture 23 - 2025 / 5 / 15
Markov Chains
Definition: 一个 Markov 链是一列随机变量 (Xt)t=0∞,满足
Pr[Xt=y∣Xt−1=x,Xt−2,⋯,X0]=Pr[Xt=y∣Xt−1=x]=P(x,y)
其中 P(x,y) 是一个转移概率,P 是行和为 1 的矩阵。
我们有 px(t)=px(0)Pt,其中 px(0) 是从 x 出发的 one-hot 初始分布。
Definition (irreducible): ∀x,y, ∃t s.t. px(t)(y)>0
Definition (aperiodic): ∀x,y, gcd{t∣px(t)(y)>0}=1
Stationary Distribution
Theorem (Fundamental Theorem): 如果 P 是不可约且非周期的,则存在唯一的平稳分布 π,满足 πP=π,且 px(t)(y)t→∞π(y)∀x,y。这里 π 实际上是 P 特征值为 1 的唯一左特征向量。
Observation 1: 如果 P 是对称的,则 π 是均匀分布。
Observation 2: 如果 P 列和也为 1,则 π 是均匀分布。
Observation 3: 如果 P 关于某个分布 π 可反的,即 π(x)P(x,y)=π(y)P(y,x),则 π 是平稳分布。
Metropolis Process
给定一个大集合 Ω 和权重 w:Ω→R+,希望设计一个稳态分布为 π(x)=w(x)/Z 的 Markov 链,其中 Z=∑x∈Ωw(x),并且我们假定 Z 是不知道的,或者正是我们想求的。
大空间采样过程给定将 Ω 连接起来的无向图,以及位于 x 时抽取邻居的分布 κ(x,y)>0,并且有 κ(x,y)=κ(y,x),我们构造 Markov 链如下:
- 在 x 时,抽取一个邻居 y,概率为 κ(x,y)。
- 以概率 min{1,w(y)/w(x)} 接受 y,否则停留在 x。
Claim: 由大空间采样构造出的 Markov 链的平稳分布为 π(x)=w(x)/Z。
不妨设 w(x)≥w(y)。当 x,y 不是邻居时,π(x)P(x,y)=π(y)P(y,x)=0。当 x,y 是邻居时,
π(x)P(x,y)=Zw(x)⋅κ(x,y)w(x)w(y)=Zw(y)κ(x,y)=π(y)P(y,x)
最后一个等号是因为 κ(x,y)=κ(y,x)。
事实上,如果不满足 κ(x,y)=κ(y,x),我们只需将接受概率修改为 min{1,(w(y)κ(y,x))/(w(x)κ(x,y))}。