MATH & ML

Information geometry & KL divergence 본문

카테고리 없음

Information geometry & KL divergence

BlogYong 2022. 7. 3. 10:24

아이디어) KL 메져가 제일 좋고 유일하다 : KL은 bregdivergence에도 포함되어있고, f-divergence에도 포함되어있다.

1) Bregman divergence

prob model p(x;θ)=exp(θx)z (exponential family)

θ : natural parameter

z=xexp(θx) : constant for sum=1

ψ(θ)=logz(θ) 가 cumulant generating ftn(free energy)이 된다 (미분하면 expectation ψθiE[xi]:=μi이 나오고, 두번미분하면 ^2의 expectation이되고)

이제 우리가 데이터로부터 알수있는건 θi들이 아니고 mui들이다.

ψ(θ)ϕ(μ)로 바꾸고 싶다. (Legendre transformation)

=> ψ(θ)+ϕ(μ)=θμ

θ에 대한 공간 : primary space / μ에 대한 공간 : dual space

 

이제 우리는 두 모델 p(X;θ)p(X;θ) 사이의 거리(메져)를 정의해야하는데 이 대신

\psi(\theta)가 오목함수이기때문에 D[ψ(θ),ψ(θ)]를 bregman divergence로 정의한다.

(bregman divergence는 θ에서 테일러전개를1차까지해서 그 직선과 \psi(\theta)사이의 거리를 의미한다)

그러면 그 divergence가 Dbreg[ψ(θ),ψ(θ)]=DKL[p||p] 가된다!

또한 Dbreg[ϕ(μ),ϕ(μ)]=DKL[p||p]

Example)

gaussian model

p(x;μ,σ)=exp(θ1xθ2xψ(θ1,θ2))=exp(θx)z

with θ=(θ1,θ2)=(μσ2,12σ2)

여기서

 

공간1) \theta_1, \theta_2 (natural parameter 공간)

공간2) \mu,\sigma^2

공간3) \mu_1=\mu, \mu_2=\sigma^2+\mu^2 (dual공간)

 

공간2에서 수직인 직선2개를 보면 공간1이나 공간3에서는 직교하지 않는다. (dually flat)

 

이때 피타고라스성질을 만족하는 measure가 바로 KL divergence가 된다.

 

2) f-divergence

sufficient statistics에서 transformation이 있다.(기존 데이터 x1,...xn의 정보를 잃지않는 transform)

T:xy

이때 f-divergence는 D[q(x),p(x)]=D[˜q(y),˜p(y)] 를 만족한다.

이때 D[q(x),p(x)]=xp(x)f(q(x)p(x))

이때 f0, f(1)=0, f가 convex ftn을 만족해야한다.

 

(참고문헌 책 : Information Geometry and its application)

3. mirror descent

(추후 추가)

Comments