단어 | 원어 | 설명 | 표기 |
---|---|---|---|
확률 변수 | Random Variable, Stochastic Variable | 측정 값이 변할 수 있는 확률이 주어진 변수 | X |
확률 분포 | Probability Distribution | 확률 변수가 특정한 값을 가질 학률을 나다내는 함수 | |
기대값 | Expected Value | 어떤 확률을 가진 사건을 무한히 반복했을 경우 얻을 수 있는 값의 평균으로서 기대할 수 있는 값. 이산 확률 분포에서는 확률 질량 함수(PMF, Probability Mass Function), 연속 확률 분포에서는 확률 밀도 함수(PDF, Probability Density Function) 이다. | |
평균값 | Mean | 확률/통계에서 기댓값을 (모)평균 (Population Mean)이라고도 부른다. 기대값 |
|
분산 | Variance | 확률분포함수에서 확률이 모여있는지 퍼져있는지를 나타내는 값. | |
표준편차 | Standard Deviation | 분산의 제곱근. 어떤 확률 변수에 대한 확률이 평균과 얼마만큼의 차이가 있는지 평균적으로 알고 싶을 때 기준이 되는 값(편차의 평균). | |
결합 확률 | Joint Probability | 두 개의 사건이 동시에 일어날 확률 | 이산형: |
주변 확률 | Marginal Probability | 개별 사건의 확률이지만, 결합 사건들의 합으로 표시될 수 있는 확률 | 이산형: |
조건부 확률 | Conditional Probability | 특정한 주어진 조건 하에서 어떤 사건이 발생할 확률 | |
모집단 | Population | 연구자가 알고 싶어 하는 대상 또는 효과의 전체(집단) | |
모수 | Population Parameter | 모집단을 조사하여 얻을 수 있는 통계적인 특성치 (모평균, 모분산, 모표준편차, ... 등) | |
표본 | Sample | 모집단의 부분집합 | |
샘플링 | Sampling | 일반적으로 전수검사를 하기 어려워 모집단에서 무작위로 추출하여 검사 | |
통계적 추론 | Statistical Inference | 모집단에서 추출한 표본특성을 분석하여, 모수에 대해 추축/추론을 하는 과정 |
확률분포함수에서 확률이 모여있는지 퍼져있는지를 나타내는 값.
- 이산 확률 분포에서
- 연속 확률 분포에서
- 분산은 항상 0 또는 양수.
- 확률 변수가 아닌 상수 값
$c$ 에 대해 다음 식이 성립.
- 기대값과의 관계
- 표본평균의 분산 ( c.f. 중앙 극한 정리)
평균값
$\mu$ 주변에서 그 분포의 정점을 이루는 모이는 경향이 있고, 평균에서 멀어질 수록 대칭적으로 줄어든다.
- 중앙값 극한 정리의 배경이 된다.
- 정규 분포 중에서 평균이 0이고, 표준편차가 1인것
특정 범위 내에서 균등하게 나타나 있는 분포
- X: 구간 [a, b]에서만 관측값을 가지며, 그 구간내의 모든 점의 근처의 값을 가질 확률이 동일한 변수.
- a: 구간의 시작점
- b: 구간의 끝점
연속된 n번의 독립적인 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포.
일정한 시간/공간 내에서 발생하는 사건 횟수에 따른 확률분포
- 어떤 공장에서 하루에 4.5개의 불량품이 난다면, 7개의 불량품이 날 확률은 8.24%이다.
- 이산확률분포: 확률변수가 가질 수 있는 값이 명확하고 셀수 있는 경우의 분포
- 연속확률분포: 확률변수가 가질 수 있는 값이 연속적인 실수여서 셀 수 없는 경우의 분포
-
무작위로 추출된 표본의 크기가 커질수록 표본 평균의 분호는 모집단의 분포 모양과는 관계없이 정규분포에 가까워진다는 정리.
-
표본이 일정량 이상이 될 때, 표본평균 (
$\bar{X}$ )의 분포는$N(\mu, \frac{\sigma^2}{n})$ 에 근사하는 정규분포가 된다. -
평균 -
$\mu$ ( 모집단의 평균 ) -
분포 =
$\frac{\sigma^2}{n}$ -
표준화
두 개 이상의 사건이 동시에 발생할 가능성( Likelihood ).
-
$P(A \cap B) = P(A)P(B)$ 가 되기 위한 제약조건- 두 사건은 동시에 일어나야 한다.
- 두 사건은 서로 독립적이다.
개별 사건의 확률이지만 결합사건들의 합으로 표시될 수 있는 확률
- 이산 확률 변수에서
- 연속 확률 변수에서
사건
$A$ 가 먼저 발생했을 때, 사건$B$ 가 발생할 확률
- 사건 A, B가 동시에 발생할 확률 (결합 확률)에 대해서 A만 발생할 확률을 빼면, 사건 A가 발생했을 때 사건 B가 발생할 확률을 구할수 있다.
- 특정 확률을 빼려면 나눈다.
- Likelihood에서 계속 나누는 경우가 있다면 컴퓨터에서는 Underflow가 발생하므로, 최적화 할때 양변에 log를 취해서 Loglikelihood를 사용한다. $$ f(x) > f(y) \to log(f(x)) > log(f(y))$$
- 결합확률과 조건부 확률의 관계로 구할 수 있다.
사후 확률 (posterior) 를 사전 확률(prior) 과 조건부 확률(Likelihood)로 분해하는 정리이다.
식 | 명칭 | 설명 | 예시 |
---|---|---|---|
사후 확률 | 데이터 X에서 클래스 C의 사후 확률 | ||
조건부 확률 | 어떤 사건이 발생했을때, 다른 사건이 발생할 확률 | ||
사전 확률 | 데이터 없이도 알고 있는 확률 | ||
전체 확률 | 데이터 X의 전체 확률 | 보통 전체니깐 1 |
모수가 주어져 있을때, 서로 독립이고 동일한 분포를 따르는 자료(data)이다. ( Independent and Identically Distributed; i.i.d )
- 모수가 주어졌다 - 평균, 표준편차들이 정해졌다. 즉 주사위를 던진다고하면 1에서 6까지고, 각 확률은 모두 동일하다는 모수가 주어짐.
- 독립적이다 - 각 사건이 서로 영향을 끼치지 않는다. 주사위를 던질때 행위는 숫자들이 서로 영향을 끼치지 않는다.
- 동일한 분포를 따른다 - 주사위를 굴리고 동전을 던지지 않고, 주사위만 던진다.
- 통계적 추론.
- 데이터가 있을때, 이 데이터가 따르는 근원이 되는 확률 분포의 특성을 추록하는 것.
- 추론적인 통계 분석은 모집단의 특성을 추론한다고도 볼 수 있다.
- 데이터로 부터 모수를 계산하거나 구간 추정으로 신뢰구간을 계산.
- 모수(Parameter| 평균, 분산, ...등)은 고정된 상수라고 생각.
- 대수의 법칙에 의해 그 표본이 커지면 실제 모수에 충분히 가까워짐.
- 대용량 데이터를 처리 할 수 있다면, 계산이 비교적 복잡하지 않다.
- 데이터 부족으로 결과가 적으면 실험 결과의 신뢰가 떨어진다.
- 데이터가 불확실하거나 부족하면 결과가 부확실해진다.
- 데이터의 관점에서 모수에 대한 신뢰성을 분석
- 모수는 확률적으로 변하는 수, 확률변수라고 생각한다.
- 확률 모델이 명확히 설정되어 있다면 가설의 타당성이 높아진다.
- 사전지식에 대한 모델링이 어렵다.
- 사전지식 모델링에 따른 사후 확률결과가 크게 달라질 수 있다.
- 모수에 대한 기존의 지식을 담고 있는 분포.
- 주어진 관측값이 특정 확률 분포로부터 나왔을 확률
- 모수에 대한 모든 정보를 담고 있는 분포.
- 모수에 대한 기존의 지식에 관측치로부터의 정보를 반영.
- 최대사후분포
- 여러가지 사후분포 중에서 가장 큰 값을 고르는 것.
- 최대우도추정
- 곱셈연산을 덧셈연산으로 바꾸어줄 수 있다.
- 로그함수는 단조증가이기 때문에 특성이 그대로 유지된다. (로그를 취한다고 해서 대소관계가 바뀌지 않음.)
- 검진결과에서 암일 확률이 90%이다.
- 빈도주의 : 이런 검진 결과를 가진 환자는 100명중 90명은 암에 걸려있다.
- 베이지안 : 내가 암에 걸렸다는 의사의 주장의 신뢰도는 90%이다.
불확실성이나 무질서를 수치적으로 표현한 개념.
가능한 모든 사건이 균일한 확률로 일어날 때 최대값을 갖음. ( 불확실성이 높음 )
정보이론에서 많이 쓰이는 개념.
- 이산확률분포에서 Entropy
-
$H_1$ - 균일한 분포 ( 불확실성이 높음. )
- A(0.25) B(0.25) C(0.25) D(0.25)
-
$H_2$ - 불확실성이 낮음.
- A(0.5) B(0.125) C(0.125) D(0.25)
가장 균일한게 Entropy가 가장 높음
어떤 문제에 대해 특정 전략을 쓸 때 예상되는 기댓값.
확률 분포
전략
이러한 성질을 이용해서 학습데이터 (
- 이산확률분포에서
- 연속확률분포에서
- Binary Classification에서 $$ y \in {0, 1}$$ $$ H(y, \hat{y}) = -ylog\hat{y} - (1 - y)log(1 - \hat{y})$$
참 확률( 목표 확률 ) :
전략 (학습 확률) :
전략 (학습 확률) :
- 쿨백-라이블러 발산(Kullback–Leibler divergence, KLD)은 두 확률분포의 차이를 계산하는 데에 사용하는 함수.
- 어떤 이상적인 분포에 대해, 그 분포를 근사하는 다른 분포를 사용해 샘플링을 한다면 발생할 수 있는 정보 엔트로피 차이를 계산한다.
- 상대 엔트로피(relative entropy), 정보 획득량(information gain), 인포메이션 다이버전스(information divergence)라고도 한다.
$q_{\theta}(z|x_i)$ (Encoder의 분포)가$P(z)$ (정규분포)와 다를수록 큰 패널티를 주기 위한 정규화항 으로 사용.
-
$l_i$ : i번째 노드에서의 손실함수 (복원오차 + 정규화) -
$z$ : 입력값 -
$q_{\theta}(z|x_i)$ : Encoder의 출력 분포 -
$p_{\phi}(x_i|z)$ : Decoder의 출력 분포 -
$P(z)$ : 입력값$z$ 에대한 표준 정규 분포$N(0, 1)$
- 확률은 알려진 모델로 Data를 예측하는 것이고, 통계는 Data가 주어져 있고 모델을 예측하는 것.
- 표본집단의 크기가 커지면 그 표본평균이 모평균에 가까워 진다.
- AI를 위한 필수 수학 ( Hala Nelson )
- https://datascienceschool.net/02%20mathematics/07.03%20%EB%B6%84%EC%82%B0%EA%B3%BC%20%ED%91%9C%EC%A4%80%ED%8E%B8%EC%B0%A8.html
- https://namu.wiki/w/%ED%99%95%EB%A5%A0%20%EB%B3%80%EC%88%98#s-2
- https://blog.naver.com/mykepzzang/220837877074
- https://hyunw.kim/blog/2017/10/14/Entropy.html
- https://shawnbaek.tistory.com