티스토리 뷰

728x90

# 참고: 6 Common Probability Distributions every data science professional should know 

 

 

Q. 

50명 학생의 성적을 입력하는 과정에서 학생의 이름없이 성적만 있고, 몇 항목이 누락되었다.

그러나 누구의 성적이 누락되었는지는 모르는 상황일 때 이를 해결하는 방법은?

 

 

A. 

성적을 시각화하고 데이터에서 추세를 찾을 수 있는지 확인해 본다.

 

이 그림은 데이터의 빈도를 그린 빈도 분포임. 여기에서 잘린 부분이 누락된 점수라고 이해할 수 있을 것.

따라서 분포를 이해하는 것이 가장 기본이고 선행되어야 하는 일이라고 할 수 있음.

확률이 수학적 이해로써 중요하다면, 

분포는 실제로 일어난 현상을 시각화해 준다는 점에서 중요함.

 

일반적인 데이터 유형은 연속형과 범주형임.

 

분포 유형

베르누이 분포 (Bernoulli Distribution)

 

- 두 가지 가능한 결과, 즉 성공(1) 아니면 실패(0)으로 이루어진 분포.

- 확률 질량 함수 (PMF, probability mass function)

   px (1-p) 1-x 여기서 x € (0, 1)

   또는 아래와 같음

   성공과 실패는 동시에 일어날 수 없음. 

   따라서 기대값은  E (X) = 1 * p + 0 * (1-p) = p과 같으며

   분산은  V (X) = E (X²) – [E (X)] ² = p – p² = p (1-p)

 

- 베르누이 분포의 적용:

  성공과 실패 2개로 나눌 수 있는 것. 가령, 내일 날씨는 맑음이냐 흐림이냐와 같은 경우.

 

 

균등 분포 (Uniform distribution)

- 주사위 던지기

- 베르누이 분포는 1 아니면 0이지만 균등 분포는 n개의 가짓수가 균일한 확률로 분포하는 것. 

- 확률 밀도 함수 (PDF, probability density function)  

 

 

이항 분포 (Binomial distribution)

- 성공 실패, 이득 손실, 승리 패배와 같이 두 가지 결과만 가능하고 모든 시행에서 성공과 실패 확률이 동일한 분포.

- 각 시행은 독립적이며 2가지 경우의 수를 가진 시험이 n번 반복되는 것

   n, p는 모수, n은 총 시행 횟수, p는 각 시행의 성공 확률

   평균 µ = n * p 

   분산 Var (X) = n * p * q

 

성공 확률  =  실패 확률일 때 이항 분포

 

정규 분포 (Normal distribution)

 - 우주, 자연, 사회에서 일어나는 대부분의 상황에 적용

 - 정규 분포의 특징

      평균 = 중앙값 = 최빈값

      분포의 곡선은 종 모양이며 선 x = μ에 대해 대칭

      곡선 아래의 총 면적은 1

      정확히 절반의 값은 중앙의 왼쪽, 다른 절반은 오른쪽

      시행 횟수가 무한대에 가까워지면 이항 분포의 모양과 매우 비슷함

 

- 정규 분포에 따른 랜덤 변수 x의 PDF

   평균   E (X) = µ

   분산   Var (X) = σ ^ 2

   - 표준 정규 분포: 평균이 0이고 표준 편차가 1  분포

 

 

 

포아송 분포 (Poisson distribution)

- 하루에 콜센터에서 하루에 받는 전화 수, 하루에 병원에 기록되는 긴급 전화 수, 하루에 한 지역에서 보고되는 도난 횟수, 

  특정 도시에서 보고되는 자살 건수, 책의 각 페이지에서 발견되는 오타 수 등

  해당 시점과 공간에서 관심있는 이벤트가 발생하는 횟수에 적용할 수 있음

 

- 포아송 분포의 조건

   1. 성공 이벤트가 다른 성공 이벤트의 결과에 영향을 주지 않아야 함

   2. 짧은 간격의 성공 확률이 긴 간격의 성공 확률과 같아야 함

   3. 구간이 작을수록 구간 내 성공 확률은 0에 가까움

 

- 확률 변수 x의 PMF

평균 증가로 인한 곡선의 이동

  평균   E (X) = µ

  분산   Var (X) = µ

 

 

지수 분포 (Exponential distribution)

- 콜센터에 전화가 왔을 때 통화 간의 간격, 지하철 도착 시간의 길이, 주유소 도착 사이의 시간, 에어컨의 수명 등

- 기계의 예상 수명뿐 아니라 인간의 예상 수명에 대한 분포

 

- 지수 분포의 랜덤 변수 x의 PDF

   f (x) = {λe-λx}, x ≥ 0 여기서 속도(반감기 등) λ > 0

 

   평균    E (X) = 1 / λ

   분산    Var (X) = (1 / λ) ²

 

- 속도(λ)가 클수록 곡선이 더 빨리 떨어지고 속도가 낮아질수록 곡선이 평평해짐

 

분포 사이의 관계

Bernoulli와 이항 분포의 관계

1. 베르누이 분포는 단일 시도로 이항 분포의 특별한 경우

2. 베르누이 분포와 이항 분포의 결과는 성공과 실패 두 가지뿐

3. 베르누이 분포와 이항 분포는 독립적

 

 

포아송과 이항 분포의 관계

포아송 분포는 다음 조건에서 이항 분포의 제한적인 경우라고 할 수 있음

- 조건: 

         시행 횟수는 무한정 (n → ∞)

         각 시행의 성공 확률은 동일함. 즉, 무한정 작거나 p → 0

         np = λ

 

 

정규 분포와 이항 분포, 정규 분포와 포아송 분포의 관계

정규 분포는 다음 조건에서 제한적인 이항 분포라고 할 수 있음

- 조건:

         시행 횟수는 무한정 (n → ∞)

         p와 q는 무한정으로 작지 않음

   

정규 분포는 매개 변수 λ → ∞를 갖는 포아송 분포의 제한적인 경우임

 

 

지수와 포아송 분포의 관계 

랜덤 이벤트 사이의 시간이 속도 λ의 지수 분포를 따르면,

길이 t의 기간에있는 총 이벤트 수는 매개 변수 λt의 포아송 분포를 따름

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/07   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
글 보관함