티스토리 뷰

728x90
  • Kaplan Meier Estimation

- 생존 분석 1에서와 같이 구간 별로 생존 확률을 구할 경우,

  구간을 어떻게 설정하느냐에 따라 생존 확률이 달라지고, 특히 샘플이 적으면 그 차이가 심해지는 문제 발생

- 이를 해결하기 위해, 매 시간마다 event를 측정해서 누적 확률을 계산하는 Kaplan Meier 추정법을 이용

  즉, 기간 유효 인원 수를 구하지 않고, 매 시점의 전체 인원으로 사망률을 계산함.

  사망률 = 사망자수 / 해당 시점 전체 인원 수

- 개개인의 시간은 서로 독립적이며 중도 절단은 생존 시간과 독립이라고 가정

 

[기존 생존 함수 테이블]

기간 위험그룹 인원 수 유효인원 사망자 수 중도 절단 수 사망률 생존율 생존확률
(0-1] 100 100 20 0 0.2 0.8 0.8
(1-2] 80 71 10 18 0.141 0.859 0.687
(2-3] 52 49 10 6 0.204 0.796 0.547
(3-4] 36 34 10 4 0.294 0.705 0.386
(4-5] 22 13.5 5 17 0.370 0.630 0.243

 

[Kaplan-Meier 추정 테이블]

기간 위험그룹 인원 수 사망자 수 중도 절단 수 사망률 생존율 생존확률
0 100         1
1 100 20 0 0.2 0.8 0.8
2 80 10 18 0.125 0.875 0.7
3 52 10 6 0.192 0.808 0.566
4 36 10 4 0.278 0.722 0.408
5 22 5 17 0.227 0.773 0.315

 

# 생존 함수 추정

# R코드
library(survival)

# 임의 데이터 생성
status <- c(rep(1,55), rep(0, 45))  
Time <- c(rep(1,20), rep(2,10),rep(3,10),rep(4,10),rep(5,5),rep(2,18),rep(3,6),rep(4,4),rep(5,17)) 
sample.data1 <- data.frame(status,Time)

# 추정
fit1 <- survfit(Surv(Time,status)~1, data = sample.data1)
summary(fit1)
plot(fit1, xlab='Time', ylab='Survival Function')

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/11   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30
글 보관함