Skip to content

Instantly share code, notes, and snippets.

@znxkznxk1030
Last active April 21, 2025 06:13
Show Gist options
  • Save znxkznxk1030/e42986f288a04d92880963826dacd8b1 to your computer and use it in GitHub Desktop.
Save znxkznxk1030/e42986f288a04d92880963826dacd8b1 to your computer and use it in GitHub Desktop.

강의 내용 요약 과제

2025451021
인공지능학과
김영수

1. Entropy 정의

Entropy란 어떤 확률 변수에 대해 정보의 양을 측정하는 개념이다. 여기에서 정보는 불확실성을 의미하고 해당 확률 변수의 불확실성의 정도를 의미한다.

1.1 표기법

$H(X)$ - 확률 변수 $X$에 대한 Entropy

1.2. 수학적 정의

$$H(X)=\sum_{x \in \mathcal{X}}{p(x)log{\frac{1}{p(x)}}}=\mathbb{E}_p[log \frac{1}{p(x)}]$$

  • $X$ : 확률변수
  • $\mathcal{X}$ : alphabet, $x$가 가질 수 있는 모든 outcome의 집합
  • $p(x) \triangleq p(X = x)$ : 확률변수 $X$가 x일 확률

2. Entropy 특징

Entropy는 균등 분포에서 가장 값이 크고, X가 단 하나의 값만으로 구성된 분포(결정론적)에서 가장 값이 작다.

$$0 \leq H(X) \leq log|\mathcal{X}|$$

  • $|\mathcal{X}|$ : $\mathcal{X}$의 사이즈
  • lower bound = 0
  • upper bound = $log|\mathcal{X}|$

2.1. $0 \leq H(X)$ 증명

2.1.1. Lower Bound는 음수가 되지 못한다

$H(X) = \sum_{x \in \mathcal{X}}{p(x)log{\frac{1}{p(x)}}}\quad \text{subject to} \quad 0 \leq p(x) \leq 1$

위 조건에서 $p(x) \leq 1$이므로, $log{\frac{1}{p(x)}}$ 위 최소값은 $0 \leq log{\frac{1}{p(x)}} $이다. 따라서 $p(x)$$log{\frac{1}{p(x)}}$의 합인 $H(X)$ 의 최소값 역시 $0 \leq H(X)$이다.

2.1.2. Lower Bound가 0 이 되는 경우

$p(X=x) = 1$ 이 되는 경우, $H(X) = \sum_{x \in \mathcal{X}}{p(x)log{\frac{1}{p(x)}}} = 1 \times log{\frac{1}{1}} = 0$

$X$가 단 하나의 값만으로 구성된 분포(결정론적)일 때 $H(X)$의 값은 0이 되었다. 따라서 결과에 대한 불확실성이 없을때 정보량(엔트로피)역시 0이 됨을 알 수 있다.

2.2. $H(X) \leq log|\mathcal{X}|$ 증명

2.2.1. Jensen's Inequality

2.2.1.1 Convex function

아래 부등식이 성립하면 함수 $f$는 Convex이다.

$$f(\lambda x_1 + (1 - \lambda) x_2) \leq \lambda \cdot f(x_1) + (1-\lambda)f(x_2) \ \forall x_1, x_2 \in X \ \forall \lambda \in [0, 1]$$

[Convex 삽화]

  • $f$함수가 convex하다면, $x_1$$x_2$ 사이의 모든 파란점은 빨간선 아래 있어야 한다.
2.2.1.2 Concave function

$g$ is concave if and only if $-f$

$$g(\lambda x_1 + (1 - \lambda) x_2) \geq \lambda \cdot g(x_1) + (1-\lambda)g(x_2) \ \forall x_1, x_2 \in X \ \forall \lambda \in [0, 1]$$

[Concave 삽화]

  • $g$함수가 concave하다면, $x_1$$x_2$ 사이의 모든 파란점은 빨간선 위에 있어야 한다.
2.2.1.3 확률변수 $X$에 대해서 일반화

$g$함수가 Concave하다면,

$$\mathbb{E}[g(x)] \leq g(\mathbb{E}[x])$$

For a given concave funtion $g$, and a given random variable $X$

2.2.2. Upper Bound는 $log|\mathcal{X}|$를 넘지 못한다

2.2.2.1. $H(X)$ 는 Concave 함수

$$H(X) = \mathbb{E}[log{\frac{1}{p(x)}}]$$

<log 함수 삽화>

$log$ 함수는 Convace함수이기 때문에 $H(X)$는 Concave 함수이다.

$$\mathbb{E}[log\frac{1}{p(x)}] \leq log(\mathbb{E}[\frac{1}{p(x)}]) $$

Jensen's Inequality에 따라서 위 부등식이 성립한다.

$$ log(\mathbb{E}[\frac{1}{p(x)}]) = log(\sum p(x)\cdot \frac{1}{p(x)}) = log(\sum 1) = log(|\mathcal{X}|)$$ $$\therefore H(X) \leq log(|\mathcal{X}|)$$

2.2.3. Upper Bound 가 $log|\mathcal{X}|$ 가 되는 경우

$X$가 균등한 분포를 가진다고 할 때, ( 각 $p(x)$은 확률 $1/|\mathcal{X}|$을 가진다.)

$$ H(x) = \sum p(x) \cdot log(1/p(x)) \= \sum (1/|\mathcal{X}|) log(|\mathcal{X}|) \= log|\mathcal{X}|$$

확률 변수 $X$가 균등 분포를 가질때 $H(X)$의 값은 최대가 된다. 따라서 균등분포를 가지는 불확실성이 가장 클 때, 정보의 양(엔트로피) 또한 최대값이 됨을 알 수 있다.

2.3. 예시 - 주사위

  • 델타분포 - 6면 중 1면만 나오는 경우.
1 2 3 4 5 6
1 0 0 0 0 0

$H(x) = 1*log1 = 0$

  • 균등분포 - 6면 각 눈이 나올 확률이 동일한 경우.
1 2 3 4 5 6
$\frac{1}{6}$ $\frac{1}{6}$ $\frac{1}{6}$ $\frac{1}{6}$ $\frac{1}{6}$ $\frac{1}{6}$

$H(x) = \sum_{i = 1}^{6}{\frac{1}{6}*log{6}}=log6$

3. 두 개의 확률변수에서 엔트로피 관계

3.1. $H(X)$ - Marginal Entropy

  • Entropy of $X$
  • $\mathbb{E}[log(1/p(x))]$

3.2. $H(X, Y)$ - Joint Entropy

  • "Joint" Entropy of $X$ & $Y$
  • $\mathbb{E}[log(1/p(x, y))]$
  • $\sum_x\sum_y p(x, y)log(1/p(x, y))$

3.3. $H(Y|X)$ - Conditonal Entropy

  • "Conditonal" Entropy of $X$ & $Y$
  • $\mathbb{E}_{p(x, y)}[log(1/p(y|x))]$

3.3.1 $H(X, Y)$ = $H(X)$ + $H(Y|X)$ 증명

3.3.2 Entropy에서 chain rule

3.4. Mutual Infomation

  • $I(X; Y)$는 상호정보량이라고 부르며 X와 Y사이에 공유되고 있는 정보의 양을 의미한다. $$I(X; Y) \triangleq H(X) - H(X|Y) = H(Y) - H(Y|X)$$

<벤다이어그램 삽화>

3.4.1 $H(X) - H(X|Y) = H(Y) - H(Y|X)$ 증명

4. LLM 사용 프롬프트

4.1. 불확실한 용어 질의

  • entropy에 대해서 한 문단으로 설명해줘
  • 델타 함수
  • 균등 분포의 반댓말

4.2. Latex 사용법

  • latex 표기에서 X (alphabet)은 어떻게 표기해
  • 아니 X가 가질수 있는 모든 outcome의 집합 X를 표기하고싶어
  • latex에서 분수는 어떻게 표기해?
  • latex에서 기대값은 어떻게 표기해?
  • latex에서 정의하다 수식으로 표현
<script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script> <script type="text/x-mathjax-config"> MathJax. Hub. Config({ tex2jax: {inlineMath: [['$', '$']]}, messageStyle: "none", "HTML-CSS": { availableFonts: "TeX", preferredFont: "TeX" }, }); </script>
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment