'데이터 분석/생물 및 의료 데이터' 카테고리의 글 목록

- Genetic Risk Score (GRS)는 특정 질병과 강한 연관이 있다고 알려진 유전자 변이형을 바탕으로 유전적 위험도(Genetic Risk Score)를 계산한 척도 - GRS를 활용하여 심혈관질환에서 statin의 사용이 발병을 억제하거나 예방하는지의 효과를 생존분석을 통해 알 수 있음 (reference 논문에서 활용한 바와 같음) - 본 포스팅의 목적은 위와 같은 연구에서 사용된 Genetic Risk Score의 계산 방법을 정리 GRS method Igo et.al에서 소개하고 있는 GRS의 계산식은 다음과 같음 k: 이전 연구에서 알려진 강한 연관 관계의 변이 개수 β: additive genetic effect의 logistic regression에서 얻어진 log odds ra..

데이터 분석/생물 및 의료 데이터 2023. 1. 5. 10:13

[유전체] Alignment Variant Calling (Fasta -> VCF)

일반적으로 환자의 혈액 등 샘플을 채취하여 기계에 넣고 sequence를 읽어내는 과정을 Sequencing Base Calling이라고 함. 긴 서열을 쪼개서 반복하여 읽은 각 정보를 read라고 하고, 이를 조합하여 원 서열 정보를 알아냄 Base Calling이 끝난 데이터를 reference sequence와 비교하여 어느 위치에 변이가 있나를 알아내는 과정이 variant calling임 variant calling 정보를 통계적으로 처리하여 최종 변이 정보를 저장한 파일이 vcf 파일 - Alignment Variant Calling Base calling을 완료하면 FASTA 혹은 FASTAQ 파일이 만들어짐. 이 데이터를 SAM -> BAM -> VCF 파일로 처..

데이터 분석/생물 및 의료 데이터 2023. 1. 5. 10:11

시계열 데이터

시간에 따른 값들의 집합을 시계열 데이터라고 할 수 있다. 이러한 시계열 데이터는 크게 정상성(statioinary) 데이터와 비정상성(non-stationary) 데이터로 나눌 수 있다. I. 데이터의 구분 1. 정상성(stationary) 데이터 - 뚜렷한 추세가 나타나지 않고 변동이 시간에 따라 일정한 데이터 - 데이터의 성질이 일정함 2. 비정상성(non-stationary) 데이터 - 정상적이지 않은 시계열 데이터 - 추세 변동이나 계절 변동이 포함됨 II. 시계열 패턴 1. 추세(trend) - 데이터가 장기적으로 증가하거나 감소하는 패턴 - 선형, 비선형 존재 2. 계절성(seasonality) - 특정 주기마다 반복되는 경향의 패턴 - 일정한 빈도의 형태로 나타남 (ex. 크리스마스의 케익..

데이터 분석/생물 및 의료 데이터 2023. 1. 4. 13:41

[유전체] genotype 별 SNP sample 추출

개인적으로 이거 알아내는 데 굉장히 어려웠다. (ㅜㅜ) extract 옵션 위주로 찾아보다보니, SNP별 추출이나 individual 추출 위주로 나와 있고, 특정 SNP에 대한 sample의 genotype 추출을 위해서 온-오프로 고군분투 하였으나, 결국 plink document에서 찾긴 했다. 해답은 --list 옵션과 --snp 옵션을 이용하는 것 1. 우선 관심 snp의 목록을 list로 만들어 두고 2. 커맨드 창에서 for문을 이용하여 해당 snp에 해당하는 genotype 별 sample 을 추출한다 for snp in rs1 rs2 rs3 rs4 rs5 rs6 rs7; \ do ./plink --noweb --bfile data/case_sub --snps ${snp} --list \ ..

데이터 분석/생물 및 의료 데이터 2023. 1. 4. 13:33

[유전체] plink에서 sample 그룹 추출

내가 가지고 있는 데이터에서, 특정 sample로 이루어진 하위 그룹을 만들어야 하는 경우가 있다. 가령 case 샘플 집합과 control 샘플 집합을 나누어 분석하고자 할 때, plink에서는 전체 데이터에서 이를 각각 --extract 옵션을 사용하여 추출한다. ./plink --bfile mydata --keep ind_list.txt --make-bed --out new_file mydata: 내가 가지고 있는 데이터 ind_list.txt: sample id로 이루어진 리스트 데이터 new_file: 생성되는 파일 이름 지정 plink document에 따르면, 이때 ind_list.txt는 family_id individual_id 이렇게 두 칼럼으로 이루어진 파일이다. pedigree 정보..

데이터 분석/생물 및 의료 데이터 2023. 1. 4. 13:31

[유전체] Imputation

마이크로 어레이를 이용한 genotyped 데이터는 기술적 한계나 depth 등으로 SNP의 결측치가 발생한다. 이러한 데이터를 보완하기 위해 결측치를 보정하는 것을 imputation이라고 하고, impute2, shapeit, minimac, MaCH, beagle 등 많은 보정 프로그램이 있다. 결측치를 확인하고 보완하는 과정은 계산의 반복을 줄이고 효율적으로 진행하기 위해 보통 pre-phase와 phase 단계로 나누어 진행하는 것을 추천하고 있다. Imputation을 하기 위해, 우선 해당 array data의 QC를 하고, AffyMetrix chip인 경우에는 RS ID를 바꾸는 과정이 필요했다. 이후 염색체나 위치 정보를 바꿔주는데, affymetrix 사에서 제공하는 annotatio..

데이터 분석/생물 및 의료 데이터 2023. 1. 4. 13:29

[유전체] prob ID를 RS ID로 바꾸기

Affymetrics Array로 만들어진 유전형 자료는 rs id가 아닌 SNP id로 생성되어 있다. 대부분의 논문이나 참조 패널이 rs id로 되어 있기 때문에, 분석이나 참고를 위해서는 SNP id를 rs id로 변경하는 것이 좋다. 이를 위해서 Affymetrics 사에서 제공하는 주석 파일을 분석하여 id를 변경하는 과정이 필요하며, 주석 파일에는 버전 정보 및 SNP ID, rs ID, physical position, strand 등의 정보가 있다. 가장 최신 버전은 GenomeWideSNP_5 Annotations, CSV format, Release 35 (151 MB, 4/30/15)이며 SNP 5, 6 모두 다운로드하여 파이썬으로 처리하였다. 어레이에 대한 정보 등이 기술된 윗부분은..

데이터 분석/생물 및 의료 데이터 2023. 1. 4. 13:28

단백질 구조

단백질의 구조 단백질: 아미노산의 염기 서열에서 형성된 생체고분자(polypeptide), 아미노산 -> 축합반응 -> 단백질 (보통 아미노산 30개 이상이 단백질) 단백질은 다수의 비공유적 상호작용(수소/이온/반데르발스/소수성 결합 등)에 의해 구동되는 1 이상의 특정한 공간적 형태(folding) 단백질 기능의 이해는 이의 3차원 구조를 결정하는 것이 중요함 단백질 구조: 아미노산 사슬에 있는 원자와 분자의 3차원 배열 수만 ~ 수천 개의 아미노산 크기(1~100 nm) - 단백질의 4가지 구조 - 1차 구조 폴리펩타이드 사슬에서 아미노산 서열 (펩타이드 결합) 단백질에 해당하는 유전자에 의해 결정 단백질 서열은 그 단백질에 고유하며, 단백질의 구조 및 기능 정의 질량 분석법이나 유전 부호를 사용하여..

데이터 분석/생물 및 의료 데이터 2023. 1. 4. 13:26

우분투에 PLINK 설치하기

PLink는 Whole genome association analysis toolset으로 http://zzz.bwh.harvard.edu/plink/download.shtml에서 다운받을 수 있으며, tutorial도 볼 수 있다. 참고: https://ubuntu.pkgs.org/16.04/ubuntu-universe-amd64/plink_1.07-6_amd64.deb.html 설치 방법 sudo apt-get update sudo apt-get install plink 설치할 폴더를 지정해주면, bin 폴더가 생긴다. 그리고 나서 plink 사이트에서 plink-1.07-x86_64.zip 파일 다운받고 unzip plink-1.07-x86_64.zip cd plink-1.07-x86_64 ./pl..

데이터 분석/생물 및 의료 데이터 2023. 1. 4. 13:24

코로나 바이러스 유전자와 단백질 구조

다음은 뉴욕 타임즈의 "Bad News Wrapped in Protein: Inside the Coronavirus Genome" 기사를 한국어로 번역한 것입니다. (By Jonathan Corum and Carl ZimmerApril 3, 2020) 출처: https://www.nytimes.com/interactive/2020/04/03/science/coronavirus-genome-bad-news-wrapped-in-protein.html?smid=tw-nytimesscience&smtyp=cur 바이러스는 “단순히 단백질에 싸인 나쁜 소식”이라고 1977년 생물학자 Jean과 Peter Medawar는 말했다. 2020년 1월, 과학자들은 아주 나쁜 소식 -Covid-19를 일으키는 바이러스인 ..

데이터 분석/생물 및 의료 데이터 2023. 1. 4. 13:22

이전 1 2 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

Connecting dots via Data

티스토리툴바