데이터 분석/생물 및 의료 데이터
[유전체] genotype 별 SNP sample 추출
yessen
2023. 1. 4. 13:33
728x90
개인적으로 이거 알아내는 데 굉장히 어려웠다. (ㅜㅜ)
extract 옵션 위주로 찾아보다보니, SNP별 추출이나 individual 추출 위주로 나와 있고,
특정 SNP에 대한 sample의 genotype 추출을 위해서 온-오프로 고군분투 하였으나,
결국 plink document에서 찾긴 했다.
해답은 --list 옵션과 --snp 옵션을 이용하는 것
1. 우선 관심 snp의 목록을 list로 만들어 두고
2. 커맨드 창에서 for문을 이용하여 해당 snp에 해당하는 genotype 별 sample 을 추출한다
for snp in rs1 rs2 rs3 rs4 rs5 rs6 rs7; \
do ./plink --noweb --bfile data/case_sub --snps ${snp} --list \
--out data/case/case_snp_${snp}; done
이런식으로 SNP 별 파일을 만든 후 python에서 불러 확인하면 다음과 같이 4x1 데이터에
genotype 별 샘플이 얼마나 되는 지를 알 수 있다. (00은 missing type)
(그림의 식별 정보를 가렸습니다)