티스토리 뷰
728x90
내가 가지고 있는 데이터에서, 특정 sample로 이루어진 하위 그룹을 만들어야 하는 경우가 있다.
가령 case 샘플 집합과 control 샘플 집합을 나누어 분석하고자 할 때,
plink에서는 전체 데이터에서 이를 각각 --extract 옵션을 사용하여 추출한다.
./plink --bfile mydata --keep ind_list.txt --make-bed --out new_file
mydata: 내가 가지고 있는 데이터
ind_list.txt: sample id로 이루어진 리스트 데이터
new_file: 생성되는 파일 이름 지정
plink document에 따르면, 이때 ind_list.txt는
family_id individual_id
이렇게 두 칼럼으로 이루어진 파일이다.
pedigree 정보가 없다면 individual id를 두 번 써서 생성하는데,
이는 리눅스 상에서
paste ind_list.txt ind_list.txt > ind_list_new.txt
로 두 컬럼 파일을 생성하여 사용하면 된다.
파이썬 등의 데이터 프레임에서 두 열을 파일로 만들면,
헤더와 인덱스를 False로 지정하는데,
이때 열이 ,로 연결되어 오류가 나므로
sep을 지정하여 저장하거나,
리눅스에서 붙여 사용하는 것이 간편하다.
'데이터 분석 > 생물 및 의료 데이터' 카테고리의 다른 글
| 시계열 데이터 (0) | 2023.01.04 |
|---|---|
| [유전체] genotype 별 SNP sample 추출 (0) | 2023.01.04 |
| [유전체] Imputation (0) | 2023.01.04 |
| [유전체] prob ID를 RS ID로 바꾸기 (0) | 2023.01.04 |
| 단백질 구조 (0) | 2023.01.04 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 평균분석
- plink
- NGS
- cnn
- psychopy
- 그룹비교
- 생존곡선
- featuremap
- sounddevice
- SNP
- GradCam
- fasta
- GPU설치
- r
- 생존분석
- missing_value
- gray2rgb
- ECG
- 실험통계
- vcf
- Bioinfo
- 딥러닝
- sequenced data
- rgb2gray
- 인공지능
- 생존함수
- pre-train
- HRV
- PTB
- pmm
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
글 보관함