티스토리 뷰
# 참고: 6 Common Probability Distributions every data science professional should know
Q.
50명 학생의 성적을 입력하는 과정에서 학생의 이름없이 성적만 있고, 몇 항목이 누락되었다.
그러나 누구의 성적이 누락되었는지는 모르는 상황일 때 이를 해결하는 방법은?
A.
성적을 시각화하고 데이터에서 추세를 찾을 수 있는지 확인해 본다.
이 그림은 데이터의 빈도를 그린 빈도 분포임. 여기에서 잘린 부분이 누락된 점수라고 이해할 수 있을 것.
따라서 분포를 이해하는 것이 가장 기본이고 선행되어야 하는 일이라고 할 수 있음.
확률이 수학적 이해로써 중요하다면,
분포는 실제로 일어난 현상을 시각화해 준다는 점에서 중요함.
일반적인 데이터 유형은 연속형과 범주형임.
분포 유형
베르누이 분포 (Bernoulli Distribution)
- 두 가지 가능한 결과, 즉 성공(1) 아니면 실패(0)으로 이루어진 분포.
- 확률 질량 함수 (PMF, probability mass function)
px (1-p) 1-x 여기서 x € (0, 1)
또는 아래와 같음
성공과 실패는 동시에 일어날 수 없음.
따라서 기대값은 E (X) = 1 * p + 0 * (1-p) = p과 같으며
분산은 V (X) = E (X²) – [E (X)] ² = p – p² = p (1-p)
- 베르누이 분포의 적용:
성공과 실패 2개로 나눌 수 있는 것. 가령, 내일 날씨는 맑음이냐 흐림이냐와 같은 경우.
균등 분포 (Uniform distribution)
- 주사위 던지기
- 베르누이 분포는 1 아니면 0이지만 균등 분포는 n개의 가짓수가 균일한 확률로 분포하는 것.
- 확률 밀도 함수 (PDF, probability density function)
이항 분포 (Binomial distribution)
- 성공 실패, 이득 손실, 승리 패배와 같이 두 가지 결과만 가능하고 모든 시행에서 성공과 실패 확률이 동일한 분포.
- 각 시행은 독립적이며 2가지 경우의 수를 가진 시험이 n번 반복되는 것
n, p는 모수, n은 총 시행 횟수, p는 각 시행의 성공 확률
평균 µ = n * p
분산 Var (X) = n * p * q
정규 분포 (Normal distribution)
- 우주, 자연, 사회에서 일어나는 대부분의 상황에 적용
- 정규 분포의 특징
평균 = 중앙값 = 최빈값
분포의 곡선은 종 모양이며 선 x = μ에 대해 대칭
곡선 아래의 총 면적은 1
정확히 절반의 값은 중앙의 왼쪽, 다른 절반은 오른쪽
시행 횟수가 무한대에 가까워지면 이항 분포의 모양과 매우 비슷함
- 정규 분포에 따른 랜덤 변수 x의 PDF
평균 E (X) = µ
분산 Var (X) = σ ^ 2
- 표준 정규 분포: 평균이 0이고 표준 편차가 1 인 분포
포아송 분포 (Poisson distribution)
- 하루에 콜센터에서 하루에 받는 전화 수, 하루에 병원에 기록되는 긴급 전화 수, 하루에 한 지역에서 보고되는 도난 횟수,
특정 도시에서 보고되는 자살 건수, 책의 각 페이지에서 발견되는 오타 수 등
해당 시점과 공간에서 관심있는 이벤트가 발생하는 횟수에 적용할 수 있음
- 포아송 분포의 조건
1. 성공 이벤트가 다른 성공 이벤트의 결과에 영향을 주지 않아야 함
2. 짧은 간격의 성공 확률이 긴 간격의 성공 확률과 같아야 함
3. 구간이 작을수록 구간 내 성공 확률은 0에 가까움
- 확률 변수 x의 PMF
평균 E (X) = µ
분산 Var (X) = µ
지수 분포 (Exponential distribution)
- 콜센터에 전화가 왔을 때 통화 간의 간격, 지하철 도착 시간의 길이, 주유소 도착 사이의 시간, 에어컨의 수명 등
- 기계의 예상 수명뿐 아니라 인간의 예상 수명에 대한 분포
- 지수 분포의 랜덤 변수 x의 PDF
f (x) = {λe-λx}, x ≥ 0 여기서 속도(반감기 등) λ > 0
평균 E (X) = 1 / λ
분산 Var (X) = (1 / λ) ²
- 속도(λ)가 클수록 곡선이 더 빨리 떨어지고 속도가 낮아질수록 곡선이 평평해짐
분포 사이의 관계
Bernoulli와 이항 분포의 관계
1. 베르누이 분포는 단일 시도로 이항 분포의 특별한 경우
2. 베르누이 분포와 이항 분포의 결과는 성공과 실패 두 가지뿐
3. 베르누이 분포와 이항 분포는 독립적
포아송과 이항 분포의 관계
포아송 분포는 다음 조건에서 이항 분포의 제한적인 경우라고 할 수 있음
- 조건:
시행 횟수는 무한정 (n → ∞)
각 시행의 성공 확률은 동일함. 즉, 무한정 작거나 p → 0
np = λ
정규 분포와 이항 분포, 정규 분포와 포아송 분포의 관계
정규 분포는 다음 조건에서 제한적인 이항 분포라고 할 수 있음
- 조건:
시행 횟수는 무한정 (n → ∞)
p와 q는 무한정으로 작지 않음
정규 분포는 매개 변수 λ → ∞를 갖는 포아송 분포의 제한적인 경우임
지수와 포아송 분포의 관계
랜덤 이벤트 사이의 시간이 속도 λ의 지수 분포를 따르면,
길이 t의 기간에있는 총 이벤트 수는 매개 변수 λt의 포아송 분포를 따름
'데이터 분석 > 확률 통계' 카테고리의 다른 글
생존 분석 2 (Kaplan-Meier estimation) (0) | 2023.01.05 |
---|---|
생존 분석 1 (생존 함수 추정) (0) | 2023.01.04 |
다중회귀에서 상관 관계와 억제 효과 (0) | 2023.01.04 |
PCA in a nutshell (0) | 2023.01.04 |
최대 우도 추정 소개 (in R) (1) | 2023.01.03 |
- Total
- Today
- Yesterday
- fasta
- 실험통계
- psychopy
- r
- 평균분석
- 생존함수
- plink
- featuremap
- 생존곡선
- SNP
- missing_value
- sounddevice
- sequenced data
- pmm
- pre-train
- vcf
- ECG
- cnn
- GradCam
- 딥러닝
- HRV
- rgb2gray
- gray2rgb
- Bioinfo
- 생존분석
- 그룹비교
- PTB
- NGS
- 인공지능
- GPU설치
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |