2025451021
인공지능학과
김영수
Entropy란 어떤 확률 변수에 대해 정보의 양을 측정하는 개념이다.
여기에서 정보는 불확실성을 의미하고 해당 확률 변수의 불확실성의 정도를 의미한다.
$H(X)$ - 확률 변수 $X$ 에 대한 Entropy
$$H(X)=\sum_{x \in \mathcal{X}}{p(x)log{\frac{1}{p(x)}}}=\mathbb{E}_p[log \frac{1}{p(x)}]$$
$X$ : 확률변수
$\mathcal{X}$ : alphabet, $x$ 가 가질 수 있는 모든 outcome의 집합
$p(x) \triangleq p(X = x)$ : 확률변수 $X$ 가 x일 확률
Entropy는 균등 분포에서 가장 값이 크고, X가 단 하나의 값만으로 구성된 분포(결정론적)에서 가장 값이 작다.
$$0 \leq H(X) \leq log|\mathcal{X}|$$
$|\mathcal{X}|$ : $\mathcal{X}$ 의 사이즈
lower bound = 0
upper bound = $log|\mathcal{X}|$
2.1.1. Lower Bound는 음수가 되지 못한다
$H(X) = \sum_{x \in \mathcal{X}}{p(x)log{\frac{1}{p(x)}}}\quad \text{subject to} \quad 0 \leq p(x) \leq 1$
위 조건에서 $p(x) \leq 1$ 이므로, $log{\frac{1}{p(x)}}$ 위 최소값은 $0 \leq log{\frac{1}{p(x)}} $ 이다.
따라서 $p(x)$ 와 $log{\frac{1}{p(x)}}$ 의 합인 $H(X)$ 의 최소값 역시 $0 \leq H(X)$ 이다.
2.1.2. Lower Bound가 0 이 되는 경우
$p(X=x) = 1$ 이 되는 경우,
$H(X) = \sum_{x \in \mathcal{X}}{p(x)log{\frac{1}{p(x)}}} = 1 \times log{\frac{1}{1}} = 0$
$X$ 가 단 하나의 값만으로 구성된 분포(결정론적)일 때 $H(X)$ 의 값은 0이 되었다.
따라서 결과에 대한 불확실성이 없을때 정보량(엔트로피)역시 0이 됨을 알 수 있다.
2.2. $H(X) \leq log|\mathcal{X}|$ 증명
2.2.1. Jensen's Inequality
아래 부등식이 성립하면 함수 $f$ 는 Convex이다.
$$f(\lambda x_1 + (1 - \lambda) x_2) \leq \lambda \cdot f(x_1) + (1-\lambda)f(x_2) \ \forall x_1, x_2 \in X \ \forall \lambda \in [0, 1]$$
[Convex 삽화]
$f$ 함수가 convex하다면, $x_1$ 과 $x_2$ 사이의 모든 파란점은 빨간선 아래 있어야 한다.
$g$ is concave if and only if $-f$
$$g(\lambda x_1 + (1 - \lambda) x_2) \geq \lambda \cdot g(x_1) + (1-\lambda)g(x_2) \ \forall x_1, x_2 \in X \ \forall \lambda \in [0, 1]$$
[Concave 삽화]
$g$ 함수가 concave하다면, $x_1$ 과 $x_2$ 사이의 모든 파란점은 빨간선 위에 있어야 한다.
2.2.1.3 확률변수 $X$ 에 대해서 일반화
$g$ 함수가 Concave하다면,
$$\mathbb{E}[g(x)] \leq g(\mathbb{E}[x])$$
For a given concave funtion $g$ , and a given random variable $X$
2.2.2. Upper Bound는 $log|\mathcal{X}|$ 를 넘지 못한다
2.2.2.1. $H(X)$ 는 Concave 함수
$$H(X) = \mathbb{E}[log{\frac{1}{p(x)}}]$$
<log 함수 삽화>
$log$ 함수는 Convace함수이기 때문에 $H(X)$ 는 Concave 함수이다.
$$\mathbb{E}[log\frac{1}{p(x)}] \leq log(\mathbb{E}[\frac{1}{p(x)}]) $$
Jensen's Inequality에 따라서 위 부등식이 성립한다.
$$ log(\mathbb{E}[\frac{1}{p(x)}]) = log(\sum p(x)\cdot \frac{1}{p(x)}) = log(\sum 1) = log(|\mathcal{X}|)$$
$$\therefore H(X) \leq log(|\mathcal{X}|)$$
2.2.3. Upper Bound 가 $log|\mathcal{X}|$ 가 되는 경우
$X$ 가 균등한 분포를 가진다고 할 때, ( 각 $p(x)$ 은 확률 $1/|\mathcal{X}|$ 을 가진다.)
$$ H(x) = \sum p(x) \cdot log(1/p(x)) \= \sum (1/|\mathcal{X}|) log(|\mathcal{X}|) \= log|\mathcal{X}|$$
확률 변수 $X$ 가 균등 분포를 가질때 $H(X)$ 의 값은 최대가 된다.
따라서 균등분포를 가지는 불확실성이 가장 클 때, 정보의 양(엔트로피) 또한 최대값이 됨을 알 수 있다.
$H(x) = 1*log1 = 0$
균등분포 - 6면 각 눈이 나올 확률이 동일한 경우.
1
2
3
4
5
6
$\frac{1}{6}$
$\frac{1}{6}$
$\frac{1}{6}$
$\frac{1}{6}$
$\frac{1}{6}$
$\frac{1}{6}$
$H(x) = \sum_{i = 1}^{6}{\frac{1}{6}*log{6}}=log6$
3.1. $H(X)$ - Marginal Entropy
Entropy of $X$
$\mathbb{E}[log(1/p(x))]$
3.2. $H(X, Y)$ - Joint Entropy
"Joint" Entropy of $X$ & $Y$
$\mathbb{E}[log(1/p(x, y))]$
$\sum_x\sum_y p(x, y)log(1/p(x, y))$
3.3. $H(Y|X)$ - Conditonal Entropy
"Conditonal" Entropy of $X$ & $Y$
$\mathbb{E}_{p(x, y)}[log(1/p(y|x))]$
3.3.1 $H(X, Y)$ = $H(X)$ + $H(Y|X)$ 증명
3.3.2 Entropy에서 chain rule
$I(X; Y)$ 는 상호정보량이라고 부르며 X와 Y사이에 공유되고 있는 정보의 양을 의미한다.
$$I(X; Y) \triangleq H(X) - H(X|Y) = H(Y) - H(Y|X)$$
<벤다이어그램 삽화>
3.4.1 $H(X) - H(X|Y) = H(Y) - H(Y|X)$ 증명
entropy에 대해서 한 문단으로 설명해줘
델타 함수
균등 분포의 반댓말
latex 표기에서 X (alphabet)은 어떻게 표기해
아니 X가 가질수 있는 모든 outcome의 집합 X를 표기하고싶어
latex에서 분수는 어떻게 표기해?
latex에서 기대값은 어떻게 표기해?
latex에서 정의하다 수식으로 표현
<script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
<script type="text/x-mathjax-config">
MathJax. Hub. Config({
tex2jax: {inlineMath: [['$', '$']]},
messageStyle: "none",
"HTML-CSS": { availableFonts: "TeX", preferredFont: "TeX" },
});
</script>