데이터 분석/생물 및 의료 데이터
[유전체] plink에서 sample 그룹 추출
yessen
2023. 1. 4. 13:31
728x90
내가 가지고 있는 데이터에서, 특정 sample로 이루어진 하위 그룹을 만들어야 하는 경우가 있다.
가령 case 샘플 집합과 control 샘플 집합을 나누어 분석하고자 할 때,
plink에서는 전체 데이터에서 이를 각각 --extract 옵션을 사용하여 추출한다.
./plink --bfile mydata --keep ind_list.txt --make-bed --out new_file
mydata: 내가 가지고 있는 데이터
ind_list.txt: sample id로 이루어진 리스트 데이터
new_file: 생성되는 파일 이름 지정
plink document에 따르면, 이때 ind_list.txt는
family_id individual_id
이렇게 두 칼럼으로 이루어진 파일이다.
pedigree 정보가 없다면 individual id를 두 번 써서 생성하는데,
이는 리눅스 상에서
paste ind_list.txt ind_list.txt > ind_list_new.txt
로 두 컬럼 파일을 생성하여 사용하면 된다.
파이썬 등의 데이터 프레임에서 두 열을 파일로 만들면,
헤더와 인덱스를 False로 지정하는데,
이때 열이 ,로 연결되어 오류가 나므로
sep을 지정하여 저장하거나,
리눅스에서 붙여 사용하는 것이 간편하다.