일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- pandas
- 그래프이론
- 서울
- 서울데이터
- 도시인공지능
- 네이버
- 그래프색상
- platformurbanism
- naver
- 베이지안뉴럴네트워크
- postgres
- 도시공간분석
- 베이지안
- 도시설계
- digital geography
- 파이썬
- 핫플레이스
- multinomiallogitregression
- SQL
- 도시계획
- 스마트시티
- graphtheory
- Python
- 공간데이터
- QGIS
- 공간분석
- 웹크롤링
- connectivity
- spacesyntax
- digitalgeography
- Today
- Total
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- pandas
- 그래프이론
- 서울
- 서울데이터
- 도시인공지능
- 네이버
- 그래프색상
- platformurbanism
- naver
- 베이지안뉴럴네트워크
- postgres
- 도시공간분석
- 베이지안
- 도시설계
- digital geography
- 파이썬
- 핫플레이스
- multinomiallogitregression
- SQL
- 도시계획
- 스마트시티
- graphtheory
- Python
- 공간데이터
- QGIS
- 공간분석
- 웹크롤링
- connectivity
- spacesyntax
- digitalgeography
- Today
- Total
이언배 연구노트
사전분포의 선택 본문
베이지안 모수추정, 즉 기본 세팅 $\theta$ 의 정보를 알아내는 것은,
우리가 알고 있는 정보인 관측치$y$가 있다고 치고, 원래 세팅은 무엇인지 그 확률 분포를 알아내는
사후분포($P(\theta | y)$)의 추정 과정이라고 할 수 있다.
이를 위해서 기본 세팅 $\theta$ 가 무엇인지에 따라 관측치가 나올 경향성 (우도함수 $P(y | \theta)$) 을 바탕으로
사후분포($P(\theta | y)$) 가 무엇이 나올 것인지 원래 세팅이라고 믿었던 분포를 업데이트 시켜나가면 되는 것인데,
문제는 원래 세팅($P(\theta)$) 를 모른다는 것이다.
그래서 적절히 세팅($P(\theta)$)을 찍는 과정이 필요하다.
1. 세팅에 대한 정보가 있음 -> 공액사전분포
conjugate prior 로 사전분포($p(\theta)$) 와 사후분포(우도함수 $p(y | \theta)$ 를 계산하면 용이하게 계산할 수 있다.
그럼 $p(\theta | y) = \frac{p(y|\theta) p(\theta)}{p(y)}$ 를 통해 우리가 얻고자 하는 모수의 사후분포를 추정할 수 있다.
이 때, 어차피 결과물에 별 영향도 안주고 이미 정해져있는 $p(y)$ 를 생략하고,
$p(\theta | y) \propto p(y|\theta) p(\theta)$ 로 쓰기도 한다.
굳이 왜 Conjugated 한 쌍을 써야 하느냐?
우리가 잘 모르겠는, 그래서 알고싶은 세팅 $\theta$ 가 있다고 쳤을 때 나오는 관측치의 경향성은
우도 함수 $p(y | \theta)$로 표현된다.
그리고 우리가 알고싶으니 가정해야 하는 세팅은 $\pi(\theta)$ 로 뒀을 때,
일단 뭐가 되었건 둘이 곱해야 하고, $p(y | \theta) * \pi(\theta) $
둘이 곱한 형태에서 평균, 분산 다 뽑아먹을 수 있는 아름다운 형태가 나오면 좋겠다는 심산이다.
예를 들어,
1. $p(y|\theta)$ 가 이항분포$\theta^{y}(1-\theta)^{(n-y)}$일 때
- 사전분포를 베타분포($\pi(\theta) \propto \theta^{(\alpha -1)}(1-theta)^{(\beta -1)}$) 로 지정하면
- 사후분포 $p(\theta | y) \propto \theta^{(y+\alpha-1)} (1-\theta)^{(n-y+\beta -1)}$
로 나오면서, 아름다운 베타족 함수를 바탕으로 기대 평균과 분산을 쉽게 구할 수 있다.
2. 정규자료에서 분산을 아는 경우.
$y_1, ... y_n$ 을 분산 $\sigma^2$ 이 알려진 $N(\theta, \sigma^2)$ 분포로부터의 관측값이라고 하면,
- 우도함수 $p(y_1, ..., y_n | \theta)$ 가 정규분포$\propto exp[-\frac{1}{2\sigma^2}\sum^{n}_{i=1}(y_i - \theta)^2]$일 때
- 사전분포를 정규분포($exp[-\frac{1}{2\tau_0^2(\theta - \mu_0)^2}]$) 로 지정하면
- 사후분포는 두 정규분포의 곱으로 나오면서 평균이 $(n-\sigma^{-2}+\tau_0^{-2})^{-1}(n\sigma^{-2}\bar{y} + \tau_0^{-2}\mu_0) = \mu_1$ 이고 분산이 $(n\sigma^{-2} + \tau_0^{-2})^{-1} = \tau_1^2$ 인 정규분포가 된다. 과정까지 다 쓸 자신은 없다.
3. 정규자료에서 평균을 아는 경우
$y_1, ... y_n$ 을 평균 $\theta$ 가 알려진 정규분포 $N(\theta, \sigma^2)$ 로부터의 관측값이라고 하면,
- 사전분포를 역감마분포 IG(a/2, b/2), 즉 ($\pi(\sigma^2) \propto (\sigma^2)^{-a/2-1}exp\left{ -\frac{b}{2\sigma^2} \right}$) 로 지정하면
- 사후분포 $p(\sigma^2 | y_1, ..., y_n)$ 은 $IG\left( (n+a)/2, (\SUM^n_{i=1} (y_i - \theta)^2 + b)/2 \right)$ 이다. 이 때 사후 평균은 n+a-2>0 일 때 $E(\sigma^2 | y_1, ..., y_n) = \frac{\SUM^n_{i=1}(y_i-\theta)^2 +b)}{n+a-2}$ 이다.
4. 푸아송.
- 사전분포를 감마분포 Gamma(a, b) 라고 하면 $\theta^{a-1}exp(-b\theta)$ 가 나옴
- 사후분포$p(\theta | y_1, ..., y_n) \propto \theta^{\SUM^{n}_{i=1}y_i +a -1}exp\left{-(n+b)\theta \right}$ 가 나오고, 이는 $Gamma\left(\sum^{n}_{i=1} y_i + a, n+b \right)$ 에 해당됨.
2. 세팅에 대한 정보가 없음 -> 무정보적 사전분포(noninformative prior)
사전 정보에 대한 확신이 없다 싶을 때에는 아예 사전분포를 평평하게(flat) 만들어버린다.
이러면 우도함수(경향성) 이 사전분포를 지배(dominate) 하는 상황이 온다.
즉, $\int \pi(\theta)d\theta = + infty$ (부적절 사전분포)면, 그러니까 아예 확 퍼져버려서 flat 한 함수를 사용하면
관측을 통해 얻은 경향성 (우도함수) 에 더 큰 비중을 두고 사후분포를 추정하게 됨.
다만, 부적절 사전분포로 얻은 부적절 사후분포는 확률분포가 아니므로 통계적 추론이 의미없게 된다.
3. 세팅에 대한 정보가 없음 -> 제프리 사전분포
특히 무정보적 사전분포 $\pi(\theta) \propto 1$ (라플라스 사전분포) 일 때에는 불변성의 문제가 발생하는데 (이게 뭔지는 잘 모른다), 이걸 극복하는 게 제프리 사전분포.
$\pi(\theta) \propto I^{1/2}(\theta)$
이고, $\frac{d^2}{d(\theta)^2}log[(y | \theta)$ 를 구해서 피셔정보수를 구하고 루트를 씌워서 사전분포를 만드는 방식.
우도함수 >> 구하고 싶은 모수로 두번 미분 (피셔정보수 획득) >> 루트 씌워서 사전분포 획득 의 순서인 것 같다.
4. 다모수모형
현실에서는 맞춰야 할 모수가 하나인 경우가 드물다.
여러 숫자에 대한 사후 분포를 추정해야 할 경우,
다수의 모수의 사후분포를 추정한 뒤, 관심없는 녀석은 적분으로 제거해주는 방식을 취한다.
$p(\theta_1 , \theta_2 | y)$ \propto p(y | \theta_1, \theta_2)\pi(\theta_1, \theta_2)
가 있다고 치면, 우리가 구하고 싶은 $\theta_1$ 만 남기기 위해 $\theta_2$ 를 적분해주는,
$p(\theta_1 | y) = \int p(\theta_1, \theta_2 | y) d\theta_2 = \int p(\theta_1 | \theta_2, y) p(\theta_2 | y) d\theta_2)
를 이용한다.
책에서는 무정보적 사전분포를 사용한 정규모형 (평균과 분산을 모두 모르는 정규분포로부터 $\mu$ 와 $\sigma$ 를 모수로 두고 각각 적분해서 구함); 공액사전분포를 사용한 정규모형(감마분포를 활용); 반공액사전분포를 사용한 정규모형($mu$의 조건부 사후분포와 사전분포는 동일하나, $\sigma$의 사후분포와 사전분포는 동일하지 않아 "반공액(semi-conjugate)" 라는 표현을 씀); 등을 소개했지만 솔직히 별로 무슨 말인지 모르겠고,
○ 다항모형
$p(\y_1, ..., y_k | \theta_1, ..., \theta_k) = \frac{n!}{\prod _{i=1}^{k+1} y_i !}\prod_{i=1}^{k+1}\theta_i^{y_i}$ 를 생각하자.
사실 겁나 복잡하게 써져있긴 한데, 사실
$\theta_1 + \theta_2 + ... + theta_k = 1$ 이고, $y_1 + y_2 + ... + y_k = n$ 인,
y를 싹 더하면 n이 나오고 $\theta$를 싹 더하면 1이 나오는, 마치 대통령선거 같은 분포를 말한다.
이런 다항분포의 공액분포는 디리슈레(Dirichlet) 분포. $D(\alpha_1, ..., \alpha_k+1)$로 표현되는 분포에서
$\alpha$ 는 분포의 형태를 결정하는, 값이 클수록 해당 카테고리의 사전 확률이 높아지는, 절대값이 클수록 분산이 작아지는 변수이다.
사후분포(=사전분포 * 우도함수) 를 구하면 결국 $D(y_1 + \alpha_1, ... y_k + \alpha_k, y_{k+1} + \alpha_{k+1})$ 꼴이 나오는데,
예를 들어 학식 입점 업체 고르기에서
중국집 들어왔으면 좋겠다고 손든 사람 $y_1$ = 135명
한식집 들어왔으면 좋겠다고 손든 사람 $y_2$ = 332명
기타 등등이라고 손든 사람 $y_3$ = 35명이였다고 할 떄,
관측치 $(y_1, y_2, y_3_$는 $(\theta_1, \theta_2, \theta_3)$ 를 가지는 다항분포를 따른다. (여기서 $\theta_3 = 1- \theta_1 - \theta_2)$).
무정보적 사전분포를 고려한다면, 즉 기존에 아무런 사전 지식이 없는 상태라면 중국집이건 한식집이건 기타등등이건 같은 비율로 손 들 것을 가정하므로 $\alpha_1 = \alpha2 = \alpha3 = 1$ 인, 모든 케이스가 평등한 디리슈레 사전분포를 사용하고 이러면 결합사후분포는 $D(135 + 1, 332 + 1, 35 + 1)$ 이 된다.
R프로그래밍을 통해 결합사후분포에서 샘플을 겁나게 뽑아서 그 샘플의 분포로 우리가 원하는 데이터의 갯수 (가령 한식집이 좋다고 할 비율이 중국집이 좋다고 할 비율보다 높을 확률 (디리슈레 분포에서 1000개의 샘플을 뽑고 $\theta_2 - \theta_1 > 0$의 샘플 갯수를 세서 확률을 구해) 을 구하는 등의 응용이 가능하다.
○ 다변량정규모형
$y_1, ..., y_n$ 이 $N_p(\boldsymbol{\mu}, \boldsymbol{\Sigma})$ 를 따르는,
즉 각 결과치들이 여러개의 정규분포에서 나온 것으로 가정하는 경우에는 사후분포 결과물이 역위샤트분포 형태로 나오게 된다.
'Bayesian Analysis' 카테고리의 다른 글
베이지안 계산 (1) | 2024.05.22 |
---|---|
계층적 모형 (1) | 2024.05.21 |
베이지안 추론 (0) | 2024.05.21 |
우도함수(Likelihood) 와 베이지안 패러다임 (0) | 2024.05.20 |
조건부 확률 기초 정리 (0) | 2024.05.20 |