Skip to content

Instantly share code, notes, and snippets.

@znxkznxk1030
Last active November 14, 2024 06:37
Show Gist options
  • Save znxkznxk1030/34da1cb27c4fea1464a007ce9534d7c5 to your computer and use it in GitHub Desktop.
Save znxkznxk1030/34da1cb27c4fea1464a007ce9534d7c5 to your computer and use it in GitHub Desktop.

Statistic & Probability

Statistic & Probability Terminology

단어 원어 설명 표기
확률 변수 Random Variable, Stochastic Variable 측정 값이 변할 수 있는 확률이 주어진 변수 X
확률 분포 Probability Distribution 확률 변수가 특정한 값을 가질 학률을 나다내는 함수
기대값 Expected Value 어떤 확률을 가진 사건을 무한히 반복했을 경우 얻을 수 있는 값의 평균으로서 기대할 수 있는 값. 이산 확률 분포에서는 확률 질량 함수(PMF, Probability Mass Function), 연속 확률 분포에서는 확률 밀도 함수(PDF, Probability Density Function) 이다. $E = \sum_x x f(x) \ E = \int_{-\infty}^{\infty} x f(x)$
평균값 Mean 확률/통계에서 기댓값을 (모)평균 (Population Mean)이라고도 부른다. 기대값 $\simeq$ 평균값 $E(X)$ 또는 $\mu$
분산 Variance 확률분포함수에서 확률이 모여있는지 퍼져있는지를 나타내는 값. $\sigma^2 = Var[X] = E|(X - \mu)^2|$
표준편차 Standard Deviation 분산의 제곱근. 어떤 확률 변수에 대한 확률이 평균과 얼마만큼의 차이가 있는지 평균적으로 알고 싶을 때 기준이 되는 값(편차의 평균). $\sigma$
결합 확률 Joint Probability 두 개의 사건이 동시에 일어날 확률 이산형: $P(X=x, Y=y)$ 또는 $P(X \cap Y)$, 연속형: $f_{x, y}(x, y)$
주변 확률 Marginal Probability 개별 사건의 확률이지만, 결합 사건들의 합으로 표시될 수 있는 확률 이산형: $P(X=x), P(Y=y)$, 연속형: $f_x(x), f_y(y)$
조건부 확률 Conditional Probability 특정한 주어진 조건 하에서 어떤 사건이 발생할 확률 $P(Y|X) = \frac{P(X \cap Y)}{P(X)}$
모집단 Population 연구자가 알고 싶어 하는 대상 또는 효과의 전체(집단)
모수 Population Parameter 모집단을 조사하여 얻을 수 있는 통계적인 특성치 (모평균, 모분산, 모표준편차, ... 등)
표본 Sample 모집단의 부분집합
샘플링 Sampling 일반적으로 전수검사를 하기 어려워 모집단에서 무작위로 추출하여 검사
통계적 추론 Statistical Inference 모집단에서 추출한 표본특성을 분석하여, 모수에 대해 추축/추론을 하는 과정

Variance

확률분포함수에서 확률이 모여있는지 퍼져있는지를 나타내는 값.

  • 이산 확률 분포에서

$$ \sigma^2 = \sum_{x_i \in \Omega} (x_i - \mu)^2p(x_i )$$

  • 연속 확률 분포에서

$$ \sigma^2 = \int_{-\infty}^{\infty} (x_i - \mu)^2p(x_i ) dx$$

성질

  • 분산은 항상 0 또는 양수.

$$Var[X] \geq 0$$

  • 확률 변수가 아닌 상수 값 $c$에 대해 다음 식이 성립.

$$Var[c] = 0 \ Var[cX] = c^2Var[X]$$

  • 기대값과의 관계

$$Var[X] = E[X^2] - (E[X])^2 = E[X^2] - \mu^2$$

  • 표본평균의 분산 ( c.f. 중앙 극한 정리)

$$Var[\tilde{X}] = \frac{1}{N}Var[X]$$

Distribution

분포의 종류

Gaussian Distribution ( Normal Distribution )

평균값 $\mu$주변에서 그 분포의 정점을 이루는 모이는 경향이 있고, 평균에서 멀어질 수록 대칭적으로 줄어든다.

$$N(x|\mu \sigma^2) \equiv \frac{1}{\sigma \sqrt{2\pi}} exp \begin{bmatrix} -\frac{(x - \mu)^2}{2\sigma^2} \end{bmatrix}$$

  • 중앙값 극한 정리의 배경이 된다.
표준 정규 분포(z-분포, standard normal distribution)
  • 정규 분포 중에서 평균이 0이고, 표준편차가 1인것

$$ N(0, 1) \sim \frac{1}{\sqrt{2 \pi}} exp \begin{bmatrix} \frac{z^2}{2} \end{bmatrix}$$

Continuous Uniform Distribution ( 균등 분포 )

특정 범위 내에서 균등하게 나타나 있는 분포

$$ X \sim U(a, b) \ f_X(x) = \frac{1_{[a, b]}(x)}{b - a}$$

  • X: 구간 [a, b]에서만 관측값을 가지며, 그 구간내의 모든 점의 근처의 값을 가질 확률이 동일한 변수.
  • a: 구간의 시작점
  • b: 구간의 끝점

Binomial Distribution ( 이항 분포 )

연속된 n번의 독립적인 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포.

Poisson Distribution ( 푸아송 분포 )

일정한 시간/공간 내에서 발생하는 사건 횟수에 따른 확률분포

  • 어떤 공장에서 하루에 4.5개의 불량품이 난다면, 7개의 불량품이 날 확률은 8.24%이다.

이산 분포 vs 연속 분포

  • 이산확률분포: 확률변수가 가질 수 있는 값이 명확하고 셀수 있는 경우의 분포
  • 연속확률분포: 확률변수가 가질 수 있는 값이 연속적인 실수여서 셀 수 없는 경우의 분포

Probability Mass Function (PMF)

$$ 0 \leq f_X(x) = P_X(x) \leq 1, x \in D \ \sum_{x \in D}P_X(x) = 1$$

Probability Density Funtion (PDF)

$$ f_X(x) \geq 0, \forall x \ \int_{-\infty}^{\infty}f_X(t)dt = 1$$

Central Limit Theorm

  • 무작위로 추출된 표본의 크기가 커질수록 표본 평균의 분호는 모집단의 분포 모양과는 관계없이 정규분포에 가까워진다는 정리.

  • 표본이 일정량 이상이 될 때, 표본평균 ($\bar{X}$)의 분포는 $N(\mu, \frac{\sigma^2}{n})$에 근사하는 정규분포가 된다.

  • 평균 - $\mu$ ( 모집단의 평균 )

  • 분포 = $\frac{\sigma^2}{n}$

  • 표준화

$$N(0, 1) \to Z = \frac{\bar{X} -\mu}{\sqrt{\frac{\sigma^2}{n}}}$$

상대적 확률의 종류

Joint Probability (결합 확률)

두 개 이상의 사건이 동시에 발생할 가능성( Likelihood ).

$$ P(A \cap B)$$

  • $P(A \cap B) = P(A)P(B)$ 가 되기 위한 제약조건
    1. 두 사건은 동시에 일어나야 한다.
    2. 두 사건은 서로 독립적이다.

Marginal Probability(주변 확률, 한계 확률)

개별 사건의 확률이지만 결합사건들의 합으로 표시될 수 있는 확률

  • 이산 확률 변수에서

$$ P_r(X=x) = \sum_y P_r(X=x, Y=y) \ P_r(Y=y) = \sum_x P_r(Y=y, X = x)$$

  • 연속 확률 변수에서

$$ f_x(x) = \int_{-\infty}^{\infty} f_{x, y}(x, y)dy\ f_y(y) = \int_{-\infty}^{\infty} f_{x, y}(x, y)dx$$

Conditional Probability(조건부 확률)

사건 $A$가 먼저 발생했을 때, 사건 $B$가 발생할 확률

$$ P(B|A) = \frac{P(A \cap B)}{P(A)}$$

  • 사건 A, B가 동시에 발생할 확률 (결합 확률)에 대해서 A만 발생할 확률을 빼면, 사건 A가 발생했을 때 사건 B가 발생할 확률을 구할수 있다.

Likelihood 특징

  • 특정 확률을 빼려면 나눈다.
  • Likelihood에서 계속 나누는 경우가 있다면 컴퓨터에서는 Underflow가 발생하므로, 최적화 할때 양변에 log를 취해서 Loglikelihood를 사용한다. $$ f(x) > f(y) \to log(f(x)) > log(f(y))$$

Bayes's Rule

Proof

  • 결합확률과 조건부 확률의 관계로 구할 수 있다.

$$ P(A \cap B) = P(A|B)P(B) = P(B|A)P(A)$$

$$\to P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$

Definition

사후 확률 (posterior) 를 사전 확률(prior) 과 조건부 확률(Likelihood)로 분해하는 정리이다.

$$ P(C|X) = \frac{P(X|C) P(C)}{P(X)}$$

명칭 설명 예시
$P(C | X)$ 사후 확률 데이터 X에서 클래스 C의 사후 확률 $P(스팸 | "무료", "돈", "기회")$
$P(X|C)$ 조건부 확률 어떤 사건이 발생했을때, 다른 사건이 발생할 확률 $P("무료" | 스팸)$
$P(C)$ 사전 확률 데이터 없이도 알고 있는 확률 $P(스팸) = 0.4$
$P(X)$ 전체 확률 데이터 X의 전체 확률 보통 전체니깐 1

제약조건 ( i.i.d )

모수가 주어져 있을때, 서로 독립이고 동일한 분포를 따르는 자료(data)이다. ( Independent and Identically Distributed; i.i.d )

  1. 모수가 주어졌다 - 평균, 표준편차들이 정해졌다. 즉 주사위를 던진다고하면 1에서 6까지고, 각 확률은 모두 동일하다는 모수가 주어짐.
  2. 독립적이다 - 각 사건이 서로 영향을 끼치지 않는다. 주사위를 던질때 행위는 숫자들이 서로 영향을 끼치지 않는다.
  3. 동일한 분포를 따른다 - 주사위를 굴리고 동전을 던지지 않고, 주사위만 던진다.

Statstical Inference

  • 통계적 추론.
  • 데이터가 있을때, 이 데이터가 따르는 근원이 되는 확률 분포의 특성을 추록하는 것.
  • 추론적인 통계 분석은 모집단의 특성을 추론한다고도 볼 수 있다.

빈도적 추론

  • 데이터로 부터 모수를 계산하거나 구간 추정으로 신뢰구간을 계산.
  • 모수(Parameter| 평균, 분산, ...등)은 고정된 상수라고 생각.
  • 대수의 법칙에 의해 그 표본이 커지면 실제 모수에 충분히 가까워짐.

장점

  • 대용량 데이터를 처리 할 수 있다면, 계산이 비교적 복잡하지 않다.

단점

  • 데이터 부족으로 결과가 적으면 실험 결과의 신뢰가 떨어진다.
  • 데이터가 불확실하거나 부족하면 결과가 부확실해진다.

베이즈 추론

  • 데이터의 관점에서 모수에 대한 신뢰성을 분석
  • 모수는 확률적으로 변하는 수, 확률변수라고 생각한다.

장점

  • 확률 모델이 명확히 설정되어 있다면 가설의 타당성이 높아진다.

단점

  • 사전지식에 대한 모델링이 어렵다.
  • 사전지식 모델링에 따른 사후 확률결과가 크게 달라질 수 있다.

사전 분포( Prior Distribution )

$$ P(\theta) $$

  • 모수에 대한 기존의 지식을 담고 있는 분포.

가능도, 우도 ( Likelihood )

$$ P(x|\theta) $$

  • 주어진 관측값이 특정 확률 분포로부터 나왔을 확률

사후 분포 ( Posterior Distribution )

$$ P(\theta|x) $$

  • 모수에 대한 모든 정보를 담고 있는 분포.
  • 모수에 대한 기존의 지식에 관측치로부터의 정보를 반영.

Maximum A Posterior ( MAP )

$$ \hat{\theta} = arg\max_{\theta} f(\theta | x ) = arg\max_{\theta}{ f(\theta | x_1), f(\theta | x_2), \dotsm, f(\theta | x_n)}$$

  • 최대사후분포
  • 여러가지 사후분포 중에서 가장 큰 값을 고르는 것.

Maximum Likelihood Estimation ( MLE )

$$ \hat{\theta} = arg \max_{\theta} f(x | \theta) \= arg \max_{\theta} { f(x | \theta_1) \cdot f(x | \theta_2) \dotsm f(x | \theta_n)}\=arg \max_{\theta} \prod_{i = 1}^n f(x|\theta_i) \= arg \max_{\theta} \prod_{i = 1}^n L_i$$

  • 최대우도추정
Log-likelihood

$$log\prod_{i = 1}^n f(x|\theta_i) = \sum_{i = 1}^n logf(x|\theta)$$

  • 곱셈연산을 덧셈연산으로 바꾸어줄 수 있다.
  • 로그함수는 단조증가이기 때문에 특성이 그대로 유지된다. (로그를 취한다고 해서 대소관계가 바뀌지 않음.)

$$ f(x) > f(y) \to log(f(x)) > log(f(y))$$

빈도주의과 베이지안 관점 차이

  1. 검진결과에서 암일 확률이 90%이다.
    • 빈도주의 : 이런 검진 결과를 가진 환자는 100명중 90명은 암에 걸려있다.
    • 베이지안 : 내가 암에 걸렸다는 의사의 주장의 신뢰도는 90%이다.

Entropy

불확실성이나 무질서를 수치적으로 표현한 개념.
가능한 모든 사건이 균일한 확률로 일어날 때 최대값을 갖음. ( 불확실성이 높음 )
정보이론에서 많이 쓰이는 개념.

  • 이산확률분포에서 Entropy

$$ H = \sum (사건발생확률)log_2(\frac{1}{사전발생확률}) \ = \sum_i p_i log_2(\frac{1}{p_i}) \ = -\sum_i p_i log_2(p_i)$$

불확실성이 높은 예시

  1. $H_1$ - 균일한 분포 ( 불확실성이 높음. )
  • A(0.25) B(0.25) C(0.25) D(0.25)

$$ H_1 = p_a log(\frac{1}{p_a}) + p_b log(\frac{1}{p_b}) + p_c log(\frac{1}{p_c}) + p_d log(\frac{1}{p_d}) \ = \frac{1}{4}log(4) * 4 \ = 2 $$

  1. $H_2$ - 불확실성이 낮음.
  • A(0.5) B(0.125) C(0.125) D(0.25)

$$ H_2 = p_a log_2(\frac{1}{p_a}) + p_b log_2(\frac{1}{p_b}) + p_c log_2(\frac{1}{p_c}) + p_d log_2(\frac{1}{p_d})$$ $$ = \frac{1}{2}log_2(2) + \frac{1}{8}log_2(8) + \frac{1}{8}log_2(8) + \frac{1}{4}log_2(4)$$ $$ = 1.75 $$

$H_1$$H_2$보다 값이 높음.

가장 균일한게 Entropy가 가장 높음

Cross-Entropy

어떤 문제에 대해 특정 전략을 쓸 때 예상되는 기댓값.

확률 분포 $p$를 정답이라고 하고 확률분포 $q$를 학습모델이라고 했을 때
전략 $q$의 확률분포가 $p$와 같을때 Cross Entropy의 값은 최소가 된다.
이러한 성질을 이용해서 학습데이터 ($q_i$, $p_i$) 쌍을 이용해서 최적화 문제에 적용 할 수 있다.

  • 이산확률분포에서

$$ H(p, q) = \sum_i p_i log_2 \frac{1}{q_i} $$ $$ = - \sum_i p_i log_2 q_i$$

  • 연속확률분포에서

$$ H(p, q) = -\int p(x) log q(x)dx$$

  • Binary Classification에서 $$ y \in {0, 1}$$ $$ H(y, \hat{y}) = -ylog\hat{y} - (1 - y)log(1 - \hat{y})$$

$q$$p$ 와 다를때 기댓값이 다른 예시

참 확률( 목표 확률 ) : $p = [0.5, 0.125, 0.125, 0.25]$

$H_1$ - $q$$p$와 같을 때

전략 (학습 확률) : $q = [0.5, 0.125, 0.125, 0.25]$

$$ H_1 = p_1 log_2(\frac{1}{q_1}) + p_2 log_2(\frac{1}{q_2}) + p_3 log_2(\frac{1}{q_3}) + p_4 log_2(\frac{1}{q_4})$$ $$ = \frac{1}{2}log_2(2) + \frac{1}{8}log_2(8) + \frac{1}{8}log_2(8) + \frac{1}{4}log_2(4)$$ $$ = 1.75 $$

$H_2$ - $q$$p$와 다를 때

전략 (학습 확률) : $q = [0.25, 0.25, 0.25, 0.25]$

$$ H_2 = p_1 log_2(\frac{1}{q_1}) + p_2 log_2(\frac{1}{q_2}) + p_3 log_2(\frac{1}{q_3}) + p_4 log_2(\frac{1}{q_4})$$ $$ = \frac{1}{2}log_2(4) + \frac{1}{8}log_2(4) + \frac{1}{8}log_2(4) + \frac{1}{4}log_2(4)$$ $$ = 2 $$

$q$$p$가 같을 때, Cross-Entropy는 최솟값을 갖는다

$$ H_1 > H_2 $$

KL divergence (Kullback-Leibler divergence)

  • 쿨백-라이블러 발산(Kullback–Leibler divergence, KLD)은 두 확률분포의 차이를 계산하는 데에 사용하는 함수.
  • 어떤 이상적인 분포에 대해, 그 분포를 근사하는 다른 분포를 사용해 샘플링을 한다면 발생할 수 있는 정보 엔트로피 차이를 계산한다.
  • 상대 엔트로피(relative entropy), 정보 획득량(information gain), 인포메이션 다이버전스(information divergence)라고도 한다.

VAE( Variational AutoEncoder)에서 실제 사용

$q_{\theta}(z|x_i)$(Encoder의 분포)가 $P(z)$(정규분포)와 다를수록 큰 패널티를 주기 위한 정규화항 으로 사용.

$$l_i = -E_{z\sim q_{\theta}(z|x_i)}[log p_{\phi}(x_i|z)] + KL(q_{\theta}(z|x_i) || P(z))$$

  • $l_i$ : i번째 노드에서의 손실함수 (복원오차 + 정규화)
  • $z$ : 입력값
  • $q_{\theta}(z|x_i)$ : Encoder의 출력 분포
  • $p_{\phi}(x_i|z)$ : Decoder의 출력 분포
  • $P(z)$ : 입력값 $z$에대한 표준 정규 분포 $N(0, 1)$

기타

확률과 통계 차이

  • 확률은 알려진 모델로 Data를 예측하는 것이고, 통계는 Data가 주어져 있고 모델을 예측하는 것.

큰 수의 법칙

  • 표본집단의 크기가 커지면 그 표본평균이 모평균에 가까워 진다.

Reference

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment