데이터 분석/생물 및 의료 데이터

[유전체] plink에서 sample 그룹 추출

yessen 2023. 1. 4. 13:31
728x90

내가 가지고 있는 데이터에서, 특정 sample로 이루어진 하위 그룹을 만들어야 하는 경우가 있다. 

가령 case 샘플 집합과 control 샘플 집합을 나누어 분석하고자 할 때, 

plink에서는 전체 데이터에서 이를 각각 --extract 옵션을 사용하여 추출한다. 

./plink --bfile mydata --keep ind_list.txt --make-bed --out new_file

mydata: 내가 가지고 있는 데이터

ind_list.txt: sample id로 이루어진 리스트 데이터

new_file: 생성되는 파일 이름 지정 

 

plink document에 따르면, 이때 ind_list.txt는 

family_id    individual_id

이렇게 두 칼럼으로 이루어진 파일이다.

pedigree 정보가 없다면 individual id를 두 번 써서 생성하는데, 

이는 리눅스 상에서 

paste ind_list.txt ind_list.txt > ind_list_new.txt

로 두 컬럼 파일을 생성하여 사용하면 된다. 

 

파이썬 등의 데이터 프레임에서 두 열을 파일로 만들면, 

헤더와 인덱스를 False로 지정하는데, 

이때 열이 ,로 연결되어 오류가 나므로

sep을 지정하여 저장하거나, 

리눅스에서 붙여 사용하는 것이 간편하다.