일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- map
- anomalydetection
- Deep Neural Network
- 기계학습
- Machine Learning
- Snn
- 논문 해석
- autoencoder
- Wavelet Transform
- rnn
- ae
- 이상 탐지
- 머신러닝
- 뉴럴네트워크
- Deep Learning
- MLE
- Generative Model
- Fast Fourer Transform
- MNIST
- 머신러닝 논문리뷰
- 인공신경망
- ML
- Bagging
- Spiking Neural Network
- 딥러닝
- 레이텍
- 이상 현상 탐지
- 논문 리뷰
- Python
- 논문리뷰
- Today
- Total
MATH & ML
Information geometry & KL divergence 본문
아이디어) KL 메져가 제일 좋고 유일하다 : KL은 bregdivergence에도 포함되어있고, f-divergence에도 포함되어있다.
1) Bregman divergence
prob model p(x;θ)=exp(−θ⋅x)z (exponential family)
θ : natural parameter
z=∑xexp(−θ⋅x) : constant for sum=1
ψ(θ)=logz(θ) 가 cumulant generating ftn(free energy)이 된다 (미분하면 expectation −ψ∂θiE[xi]:=μi이 나오고, 두번미분하면 ^2의 expectation이되고)
이제 우리가 데이터로부터 알수있는건 θi들이 아니고 mui들이다.
ψ(θ)를 ϕ(μ)로 바꾸고 싶다. (Legendre transformation)
=> ψ(θ)+ϕ(μ)=−θ⋅μ
θ에 대한 공간 : primary space / μ에 대한 공간 : dual space
이제 우리는 두 모델 p(X;θ)와 p(X;θ′) 사이의 거리(메져)를 정의해야하는데 이 대신
\psi(\theta)가 오목함수이기때문에 D[ψ(θ),ψ(θ′)]를 bregman divergence로 정의한다.
(bregman divergence는 θ′에서 테일러전개를1차까지해서 그 직선과 \psi(\theta)사이의 거리를 의미한다)
그러면 그 divergence가 Dbreg[ψ(θ),ψ(θ′)]=DKL[p′||p] 가된다!
또한 Dbreg[ϕ(μ),ϕ(μ′)]=DKL[p||p′]
Example)
gaussian model
p(x;μ,σ)=exp(−θ1x−θ2x−ψ(θ1,θ2))=exp(−θ⋅x)z
with θ=(θ1,θ2)=(−μσ2,12σ2)
여기서
공간1) \theta_1, \theta_2 (natural parameter 공간)
공간2) \mu,\sigma^2
공간3) \mu_1=\mu, \mu_2=\sigma^2+\mu^2 (dual공간)
공간2에서 수직인 직선2개를 보면 공간1이나 공간3에서는 직교하지 않는다. (dually flat)
이때 피타고라스성질을 만족하는 measure가 바로 KL divergence가 된다.
2) f-divergence
sufficient statistics에서 transformation이 있다.(기존 데이터 x1,...xn의 정보를 잃지않는 transform)
T:x→y
이때 f-divergence는 D[q(x),p(x)]=D[˜q(y),˜p(y)] 를 만족한다.
이때 D[q(x),p(x)]=∑xp(x)f(q(x)p(x))
이때 f≥0, f(1)=0, f가 convex ftn을 만족해야한다.
(참고문헌 책 : Information Geometry and its application)
3. mirror descent
(추후 추가)