이번 포스팅에서는 통계에 익숙하지 않은 배경에서 실험에 어떤 통계적 방법을 이용할 수 있는지에 대해 개괄적으로 설명하고자 한다. 가장 흔하게 쓰이는 방법을 소개할 것이며, 이는 어디까지나 시작에 대한 한 가지 단순 접근법이기 때문에 통계학 수업을 들으면서 이론 및 실습에 대한 공부와 이해가 반드시 뒤따라야 한다. 1. 분포에 대한 이해 내가 수집한 데이터가 어떤 분포를 따르는지 먼저 검정해야 한다. 일반적으로는 정규분포를 따르는 경우가 많기 때문에, 데이터가 수집되었다면 1) 정규성 검정(shapiro test, Q-Q plot) 2) 등분산성 검정(Levene's test, residual plot) 3) 독립성 검정(Durbin - Watson test, residual plot)을 실시한다. 회귀 ..
재현 예제 논문: 1. Association of BRCA1 and BRCA2 mutations with survival, chemotherapy sensitivity, and gene mutator phenotype in patients with ovarian cancer (JAMA, 2012 doi: 10.1001/jama.2011.1456) 2. Integrated Genomic Analyses of Ovarian Carcinoma (Nature, 2011 doi: 10.1038/nature10166) 예제 데이터: CGDS-R package in cBioPortal, R 1. CGDS-R을 설치하고 CGDS 오브젝트 만들기 install.packages('cgdsr') library(cgdsr) ..
- 사건 발생과 관련한 인자가 1개일 때는 log rank test로 충분하지만, 실제 데이터에서는 2개 이상인 경우가 많음 - 치료 방법에 따른 생존의 차이를 보고자 할 때, 치료 방법뿐 아니라 나이, 성별, 환자의 다른 질환, 다른 위험 요소 등 직간접적으로 생존에 영향을 미치는 변수(potential confounders)들을 보정(통제)해야 할 필요가 있음 - 로지스틱 회귀분석은 사건 발생 여부에 초점을 두고, odds ratio를 종속변수로 하여 여러 독립 변수를 보정할 수 있음 - 생존 분석은 odds ratio와 유사한 hazard ratio를 다루므로 로지스틱 회귀분석의 알고리즘을 이용할 수 있으며, 이러한 분석 방법을 cox regression이라고 함 - cox regression은 시..
생존 함수 비교 두 그룹의 생존 함수의 동일성 여부를 검정하기 위한 방법 - 귀무 가설 H0: S1(t) = S2(t) - 대립 가설은 두 가지 1) H1: S1(t) > S2(t) 또는 H1: S2(t) a 일 때, H1:S1(t) > S2(t)이고, t ≤ a 일 때, H1: S1(t) ≤ S2(t) (a라는 특정 시점을 기준으로 두 그룹의 생존 함수가 교차되는 경우) 로그 순위 검정 (Log-Rank Test) 두 그룹의 생존 함수의 동질성 검정 각 사건 발생 시점 t(i)에서 그룹 1에 대해 귀무가설과 대립 가설 하에서 구한 위험률의 추정량 사용 t(i) 시점에서 관찰된 위험률은 O(1t) / N(1..
Kaplan Meier Estimation - 생존 분석 1에서와 같이 구간 별로 생존 확률을 구할 경우, 구간을 어떻게 설정하느냐에 따라 생존 확률이 달라지고, 특히 샘플이 적으면 그 차이가 심해지는 문제 발생 - 이를 해결하기 위해, 매 시간마다 event를 측정해서 누적 확률을 계산하는 Kaplan Meier 추정법을 이용 즉, 기간 유효 인원 수를 구하지 않고, 매 시점의 전체 인원으로 사망률을 계산함. 사망률 = 사망자수 / 해당 시점 전체 인원 수 - 개개인의 시간은 서로 독립적이며 중도 절단은 생존 시간과 독립이라고 가정 [기존 생존 함수 테이블] 기간 위험그룹 인원 수 유효인원 사망자 수 중도 절단 수 사망률 생존율 생존확률 (0-1] 100 100 20 0 0.2 0.8 0.8 (1-2]..
- 생존분석: 시간에 따른 사망이나 발병, 재발 등의 변화를 관찰하는 분석 - 사건(event): 생존 분석에서 연구자가 관심을 가진 변화 (사망 등) - kaplan-meier 분석: 특정 집단의 생존률 추정 - log-rank test: 두 집단의 생존율이 같은지를 비교 - cox hazard ratio model: 생존율에 영향을 미치는 위험 인자 분석 1. 자료 - censored vs. uncensored(complete) - censored: 관찰 기간 동안 사건이 발생하지 않아 정확한 생존 기간을 알 수 없는 자료 (연구 도중 추적이 안되거나 탈락, 다른 이유로 사망, 사건없이 연구 종료) - uncensored: 연구 종료 시점 전에 사망하는 환자들의 생존 기간 자료 출처: https://..
1. zero-order correlation 아무런 통제 조치 없는 상관관계 2. partial correlation 독립 변수 및 종속 변수 모두에게 영향을 끼치는 다른 변수를 통제한 상관 관계 3. part correlation (=semi partial correlation) 독립 변수에만 통제 처리를 한 상관 관계 # 예시 df.SS df.PI df.BI 1 109 21 6 2 113 24 12 3 112 31 15 4 109 10 5 5 99 14 8 6 103 13 0 # 이들의 상관관계 cor(df) df.SS df.PI df.BI df.SS 1.00000000 -0.08877022 -0.05224621 df.PI -0.08877022 1.00000000 0.63434060 df.BI -0..
# 본 내용은 "피쳐 엔지니어링 제대로 시작하기" 및 "공돌이의 수학 노트"를 참고하여 작성되었습니다 6장 차원 축소: PCA로 데이터 팬케이크 납작하게 만들기 6장 내용: 모델 기반 피처 엔지니어링 직관: 데이터 행렬의 열 - 모든 피처 벡터의 생성 범위 (열 공간이 전체 피처 수보다 작다면, 몇 피처는 다른 피처의 선형 조합이 됨) 선형 종속 피처의 연산/저장 공간 낭비를 막기 위해 주성분 분석은 데이터를 저차원화 함 피처 중 일부가 다른 피처와 중복값을 가지면, 즉 선형 조합이면 (b)의 모양처럼 보일 것 모델에 전달할 피처의 수를 줄이길 원하면 피처 1과 피처 2 사이에 대각선을 놓아 새로운 피처 1.5를 만들 수 있음 핵심 아이디어는 원시 피처 공간에 포함된 정보를 적절하게 요약해 중복된 피처를..
# 참고: 6 Common Probability Distributions every data science professional should know Q. 50명 학생의 성적을 입력하는 과정에서 학생의 이름없이 성적만 있고, 몇 항목이 누락되었다. 그러나 누구의 성적이 누락되었는지는 모르는 상황일 때 이를 해결하는 방법은? A. 성적을 시각화하고 데이터에서 추세를 찾을 수 있는지 확인해 본다. 이 그림은 데이터의 빈도를 그린 빈도 분포임. 여기에서 잘린 부분이 누락된 점수라고 이해할 수 있을 것. 따라서 분포를 이해하는 것이 가장 기본이고 선행되어야 하는 일이라고 할 수 있음. 확률이 수학적 이해로써 중요하다면, 분포는 실제로 일어난 현상을 시각화해 준다는 점에서 중요함. 일반적인 데이터 유형은 연속형..
# 본 포스팅은 Analytics Vidhya의 An Introductory Guide to Maximum Likelihood Estimation (with a case study in R)을 번역한 것입니다. 최대 우도 추정 (Maximum Likelihood Expectation) 예를 들어 회사의 주가를 예측하는 모델을 구축했다고 가정 해 보자. 밤새 주가가 급격히 상승한 것을 관찰했다면, 그 뒤에는 여러 가지 이유가 있을 수 있다. 가장 가능성이 높은 이유의 가능성을 찾는 것이 Maximum Likelihood Estimation의 전부이다. 이 게시물에서는 최대 우도 추정(이하 MLE)이 작동하는 방식과 분포를 사용하여 모델의 계수를 결정하는 데 사용할 수있는 방법을 살펴 본다. 참고 : 이 내..
- Total
- Today
- Yesterday
- 인공지능
- psychopy
- featuremap
- sequenced data
- fasta
- GPU설치
- 생존곡선
- r
- pre-train
- HRV
- 그룹비교
- vcf
- 실험통계
- PTB
- Bioinfo
- rgb2gray
- pmm
- cnn
- ECG
- plink
- 딥러닝
- NGS
- sounddevice
- missing_value
- 생존분석
- SNP
- GradCam
- gray2rgb
- 평균분석
- 생존함수
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |