개인적으로 이거 알아내는 데 굉장히 어려웠다. (ㅜㅜ) extract 옵션 위주로 찾아보다보니, SNP별 추출이나 individual 추출 위주로 나와 있고, 특정 SNP에 대한 sample의 genotype 추출을 위해서 온-오프로 고군분투 하였으나, 결국 plink document에서 찾긴 했다. 해답은 --list 옵션과 --snp 옵션을 이용하는 것 1. 우선 관심 snp의 목록을 list로 만들어 두고 2. 커맨드 창에서 for문을 이용하여 해당 snp에 해당하는 genotype 별 sample 을 추출한다 for snp in rs1 rs2 rs3 rs4 rs5 rs6 rs7; \ do ./plink --noweb --bfile data/case_sub --snps ${snp} --list \ ..
내가 가지고 있는 데이터에서, 특정 sample로 이루어진 하위 그룹을 만들어야 하는 경우가 있다. 가령 case 샘플 집합과 control 샘플 집합을 나누어 분석하고자 할 때, plink에서는 전체 데이터에서 이를 각각 --extract 옵션을 사용하여 추출한다. ./plink --bfile mydata --keep ind_list.txt --make-bed --out new_file mydata: 내가 가지고 있는 데이터 ind_list.txt: sample id로 이루어진 리스트 데이터 new_file: 생성되는 파일 이름 지정 plink document에 따르면, 이때 ind_list.txt는 family_id individual_id 이렇게 두 칼럼으로 이루어진 파일이다. pedigree 정보..
Affymetrics Array로 만들어진 유전형 자료는 rs id가 아닌 SNP id로 생성되어 있다. 대부분의 논문이나 참조 패널이 rs id로 되어 있기 때문에, 분석이나 참고를 위해서는 SNP id를 rs id로 변경하는 것이 좋다. 이를 위해서 Affymetrics 사에서 제공하는 주석 파일을 분석하여 id를 변경하는 과정이 필요하며, 주석 파일에는 버전 정보 및 SNP ID, rs ID, physical position, strand 등의 정보가 있다. 가장 최신 버전은 GenomeWideSNP_5 Annotations, CSV format, Release 35 (151 MB, 4/30/15)이며 SNP 5, 6 모두 다운로드하여 파이썬으로 처리하였다. 어레이에 대한 정보 등이 기술된 윗부분은..
PLink는 Whole genome association analysis toolset으로 http://zzz.bwh.harvard.edu/plink/download.shtml에서 다운받을 수 있으며, tutorial도 볼 수 있다. 참고: https://ubuntu.pkgs.org/16.04/ubuntu-universe-amd64/plink_1.07-6_amd64.deb.html 설치 방법 sudo apt-get update sudo apt-get install plink 설치할 폴더를 지정해주면, bin 폴더가 생긴다. 그리고 나서 plink 사이트에서 plink-1.07-x86_64.zip 파일 다운받고 unzip plink-1.07-x86_64.zip cd plink-1.07-x86_64 ./pl..
1. Exome Sequencing 엑솜은 전체 유전체 중 2만 여 개를 차지하는 엑손(exon, 유전자의 단백질 코딩)을 분석하는 것 분석 영역의 총 크기는 30 mega base pair(Mb)인데, 이것은 전체 유전체의 1~2% 정도 질환과 연관성이 알려진 변이의 대부분이 엑손 부위에 있기 때문에 WGS와 비교했을 때 시간 및 비용에서 효율적 엑솜 시퀀싱은 타겟유전자패널에 비해 진단율이 높고 질환과의 연관성이 잘 알려지지 않았던 유전자의 발굴 가능 2. Whole Genome Sequencing 엑솜 시퀀싱은 엑손에서 멀리 떨어진 인트론이나 조절 부위(regulatory region)에 존재하는 변이는 검출 불가능 -> WGS 타겟 유전자 패널과 비교하여 시퀸싱 깊이가 낮아져 정확도가 떨어질 수 있..
(다음은 코네티컷 대학의 computational biology 페이지에 있는 파일 포맷 튜토리얼을 한국어로 정리한 것입니다. 출처: https://bioinformatics.uconn.edu/resources-and-events/tutorials-2/file-formats-tutorial/#) File Formats Tutorial 생물정보학에서 일반적으로 많이 쓰이는 다음의 파일에 대한 설명 FASTA FASTQ SAM BAM VCF GFF GTF 1. FASTA File format : FASTA File extensions : file.fa, file.fasta, file.fsa Example : XR_002086427.1 Candida albicans SC5314 uncharacterized n..
- Total
- Today
- Yesterday
- 그룹비교
- SNP
- NGS
- GradCam
- Bioinfo
- PTB
- pmm
- gray2rgb
- sequenced data
- 생존곡선
- featuremap
- sounddevice
- 인공지능
- vcf
- fasta
- GPU설치
- 실험통계
- r
- 평균분석
- missing_value
- 생존함수
- 생존분석
- ECG
- 딥러닝
- pre-train
- cnn
- psychopy
- plink
- HRV
- rgb2gray
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |