섀넌의 정보이론 복습
(1) 랜덤변수
가 가질 수 있는 값이 너무 많아 정확히 일 확률 대신 근처의 값을 가질 확률 를 생각하고 를 의 확률밀도함수 또는 확률분포라고 한다.- 확률분포는 랜덤변수의 값이 어떻게 결정되는지를 표현하는 규칙이다. 예를 들어
이 매우 높으면 랜덤변수가 근처의 값을 가질 확률이 높을 것이다. 가 라는 규칙에 의해 값이 결정된다는 것을 로 나타낸다. 간단히 가 를 따른다고 표현한다.
(2) 섀넌 정보량
- 확률이 낮은 사건일 수록 많은 정보 (놀라움)를 갖는다. 예를 들어 동전을 던졌는데 앞면이 나오면 그다지 놀랍지 않지만, 복권을 샀는데 당첨되면 매우 놀랍다. 따라서 확률밀도함수와 정보량이 반대 관계를 가져야 한다는 것이 마이너스 부호로 표현되었다.
- 로그는 서로 독립인 정보량의 덧셈을 가능하게 한다. 서로 독립인
를 동시에 고려한 결합확률분포는 와 같이 곱으로 표현되므로, 로그를 사용할 때 와 같이 덧셈으로 바뀐다.
(3) 정보 엔트로피
- (정의) 특정 확률분포
가 가진 정보의 기대치 - (의미 1)
의 인코딩에 필요한 (최소) 비용 (비트 수) - (의미 2) 확률분포
의 불확실성 (불확실할 수록 가진 정보가 많다고 본다.)
(4) 교차 엔트로피
(관점 1)
(관점 2)
- (정의) 특정 확률분포
가 가진 정보의 기대치를 확률분포 로 근사한 것. - (의미)
의 참 확률분포가 인데 를 사용했을 때의 비용 (불확실성)
(5) KL 발산
(관점 1)
(관점 2)
- (의미 1)
의 참 확률분포가 인데 를 사용했을 때의 추가적인 비용 (불확실성) - (의미 2) 임의로 설정한
는 참 확률분포 와 얼마나 차이나는가? - (관점 1)
- (관점 2)
- 두 관점 모두 등호는
, 즉 일 때 성립 ( 가 를 잘 근사할 수록 ).
베이지안 추론 복습
파라미터
- 베이즈 정리:
- 가능도 (데이터 재구성도, 데이터 적합도)
는 가 근처의 값을 가질 때 가 근처라는 증거 (데이터)를 얻을 확률분포 - 증거 (데이터)의 확률 값은
는 적분으로 구한다. - 사후 확률분포가 사전 확률분포와 같은 형태를 유지하며 쉽게 구해지는 경우가 있고 (가능도와 사전 확률분포의 켤레 관계), 그렇지 않은 경우가 있다.
변분추론
변분추론은 무엇을 하는가?
변분추론 (Variational Inference)은 베이지안 추론을 근사적으로 수행한다.
왜 근사가 필요한가? 켤레 관계가 없을 시, 사후 확률분포
정확한
적당한 변분분포
증거하한 (ELBO)의 개념
그리고
항상
변분추론의 최적화 문제와 손실함수 유도
그러면
여기서 변분분포
즉, 변분추론에서 손실함수
구체적인 최적화를 위해 손실함수를 다시 정리할 필요가 있다. 먼저
따라서 변분추론의 손실함수는
첫번째 항
두번째 항
손실함수를 최소화하는 과정에서
'Mathematics' 카테고리의 다른 글
단순 선형회귀모델 (3): 상관계수, 결정계수 (0) | 2025.03.18 |
---|---|
단순 선형회귀모델 (2): 회귀계수, 회귀함수, 신뢰구간, 예측구간 (0) | 2025.03.16 |
단순 선형회귀모델 (1): SSE 최소화 추정량과 모멘트 (0) | 2025.03.11 |
와이블 분포 (0) | 2025.03.09 |
생존함수와 위험함수 (0) | 2025.03.08 |