카테고리 분포
정의1
$k (\ge 2)$개의 범주가 있는 샘플공간 $\Omega = \left\{ 1, 2, \dots, k \right\}$과 확률벡터 $\mathbf{p} = (p_{1}, \dots, p_{k})$가 주어졌을 때, 다음과 같은 확률질량함수를 가지는 이산확률분포를 카테고리 분포Categorical distribution라고 한다.
$$ p(x = i) = p_{i}, \qquad x \in \left\{ 1, 2, \dots, k \right\} $$
설명
$k$개의 각 범주가 발생할 확률을 $\mathbf{p} = (p_{1}, \dots, p_{k})$로 표현한다. 따라서, $\mathbf{p}$는 다음 조건을 만족해야 한다.
$$ \sum_{i=1}^{k} p_{i} = 1, \qquad p_{i} \ge 0 $$
베르누이 분포를 "동전 한 번 던지기"로 비유하면, 카테고리 분포는 "주사위 한 번 던지기"로 비유할 수 있다.
$\Omega = \Big\{$ $ \includegraphics[height=2em]{https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FrbQJE%2FbtsMXyblpbo%2FZMTO1PeHbafLH3g97P0q41%2Fimg.png}, \includegraphics[height=2em]{https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FxAbA3%2FbtsMW8KMCtK%2FodmS8gakkTAp7dP2Lk6JO0%2Fimg.png}, \includegraphics[height=2em]{https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcgXAjB%2FbtsMYNLR5E3%2FIED729aUwdNa093xix0sz1%2Fimg.png}, \includegraphics[height=2em]{https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FdITnZE%2FbtsMX1qB6Eo%2FLh1bDQ0SkBl4k0PVHtjZDK%2Fimg.png}, \includegraphics[height=2em]{https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FnR6Ka%2FbtsMW7kMTqC%2FM4VQF9U2wgbCfcRKfE1KdK%2Fimg.png}, \includegraphics[height=2em]{https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fcsx5aP%2FbtsMXPKIgHh%2FbnXAmN8iHjFOwzhyjtcdTK%2Fimg.png} $ $\Big\}$
$$ \mathbf{p} = \left( \dfrac{1}{6}, \dfrac{1}{6}, \dfrac{1}{6}, \dfrac{1}{6}, \dfrac{1}{6}, \dfrac{1}{6} \right) $$
다음과 같은 표기법이 쓰인다.
$$ \operatorname{Cat}(k; p_{1}, \dots, p_{k}) = \operatorname{Cat}(k; \mathbf{p}) $$
베르누이 분포에서 범주를 $k$로 일반화한 것으로 볼 수 있다. 여기서 시행횟수까지 $n$번으로 일반화하면 다항분포가 된다.
범주
시행횟수 | $1$번 | $n$번 |
$2$개 | 베르누이 분포 | 이항 분포 |
$k$개 | 카테고리 분포 | 다항 분포 |
확률질량함수는 다음과 같이 쓸 수도 있다.
$$ p(j) = \prod\limits_{i=1}^{k} p_{i}^{\delta_{ji}} = \sum\limits_{i=1}^{k} \delta_{ji} p_{i}, \qquad j \in \left\{ 1, 2, \dots, k \right\} $$
$\delta_{ji}$는 크로네커 델타이다.
한편 샘플 공간은 유클리드 공간의 표준기저로 볼 수 있고, 그러면 실현은 각각 원-핫 벡터로 볼 수 있다. 이 경우에는 다음을 만족하는 랜덤벡터 $\mathbf{x} = (x_{1}, \dots, x_{k})$와 확률질량함수에 대해 카테고리 분포를 $\operatorname{Cat}(\mathbf{x}; \mathbf{p})$와 같이 표기할 수 있다.
$$ x_{i} \in \left\{ 0, 1 \right\}, \qquad \sum_{i=1}^{k} x_{i} = 1 $$
$$ p(\mathbf{x}) = p(x_{1}, \dots, x_{k}) = \prod\limits_{i=1}^{k} p_{i}^{x_{i}} $$