[유전체] plink에서 sample 그룹 추출

yessen 2023. 1. 4. 13:31

728x90

내가 가지고 있는 데이터에서, 특정 sample로 이루어진 하위 그룹을 만들어야 하는 경우가 있다.

가령 case 샘플 집합과 control 샘플 집합을 나누어 분석하고자 할 때,

plink에서는 전체 데이터에서 이를 각각 --extract 옵션을 사용하여 추출한다.

./plink --bfile mydata --keep ind_list.txt --make-bed --out new_file

mydata: 내가 가지고 있는 데이터

ind_list.txt: sample id로 이루어진 리스트 데이터

new_file: 생성되는 파일 이름 지정

plink document에 따르면, 이때 ind_list.txt는

family_id individual_id

이렇게 두 칼럼으로 이루어진 파일이다.

pedigree 정보가 없다면 individual id를 두 번 써서 생성하는데,

이는 리눅스 상에서

paste ind_list.txt ind_list.txt > ind_list_new.txt

로 두 컬럼 파일을 생성하여 사용하면 된다.

파이썬 등의 데이터 프레임에서 두 열을 파일로 만들면,

헤더와 인덱스를 False로 지정하는데,

이때 열이 ,로 연결되어 오류가 나므로

sep을 지정하여 저장하거나,

리눅스에서 붙여 사용하는 것이 간편하다.