1. NAN 값 처리(제거, 변경, 평균값 대체) SQL> SELECT * table WHERE weight is not NULL COALESCE(weight, 1) AS weight, x FROM table COALSCE(weight, SELECT AVG(weight) FRM table)) AS weight R> table %>% drop_na(weight) 또는 na.omit(table) table %>% replace_na(list(weight=1)) 2. PMM(predictive mean matching) 방법 - 값이 있는 데이터에서 회귀 모델 구성 -> 계수, 오차의 분포 계산 -> 계수와 오차의 분포에서 새로운 계수와 오차 분산 생성 -> 생성한 계수와 오차 분산에 따른 회귀모델로 예측값 ..

정규화의 두 가지 방법 1. z-score: 입력값-평균값/표준편차 2. min-max: 입력값-최소값/(최대값-최소값) table %>% mutate(a_normalized = scale(a, center=TRUE, scale=TRUE) # TURE: center 및 scale에 지정한 값이 평균과 분산값으로 지정됨(0, 1) from sklearn.preprocessing import StandardScaler table['x'] = table['x'].astype(float) s = StandardScaler() result = s.fit_transform(table[['x']]) table['normed'] = [x[0] for x in result]
1. 데이터 열추출 SQL> SELECT id AS new_id (id를 추출하여 new_id로) FROM table R> library(dplyr) select(x_id, y_id, z_id) %>% as.data.frame() 2. 조건에 따른 행추출 SQL> SELECT * FROM table WHERE date BETWEEN '2023-12-1' AND '2023-12-31' R> table[intersect(which(table$date >= '2023-12-1'), which(table$date % filter(between(as.Date(date), as.Date('2023-12-1'), as.Date('2023-12-31'))) 3. 샘플링 SQL> SELECT * FROM table WH..

ResNet이나 ViT와 같은 대용량의 데이터로 pre-train된 모델을 적용하는 경우가 있다. CNN 기반의 이 모델들은 칼라 이미지를 사용했기 때문에 data shape은 (m, n, 3)이 된다. 그런데 내가 가진 데이터가 흑백이라면 이 모델에 어떻게 넣어야 할까? skimage에 있는 gray2rgb를 이용하면 3채널이 된다. pip install scikit-image from skimage.color import gray2rgb

import numpy as np matrix = np.array([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9,10,11], [12,13,14,15]]) numpy에서 행렬을 쪼깰 때는 split을 사용한다. 예제 matrix를 행 중심으로 나눠, a 변수에는 1행 ~ 3행의 행렬이, b 변수에는 4행의 행렬이 들어가도록 하려면, 행 지정과 axis=0을 이용한다. c 변수에는 1열 ~ 3열, d 변수에는 4열의 행렬이 들어가도록 하려면, 열 지정과 axis=1을 이용한다.

◆ Wide Format: 사람이 읽기에 좋은 포맷 행(row)에 한 명의 정보를 담음 열(column)에 모든 요인(factor)의 level을 담음 sample ID sex age condition A condition B 1 female 38 9 b 2 male 29 8 b 3 male 41 9 a - 3 개의 factor (sex, age, condition)를 가지는 디자인 - 각 factor는 sex, age, condition이며, condition은 A, B의 level을 가짐 (cell의 숫자는 각 항목의 값) ◆ 위 디자인의 회귀식을 R에서 구하면 다음과 같다 aov(score ~ sex + age + condition) Wide 형식에서는 condition이 2 개의 열이므로 하나의 ..

- wide format ---> long format 형태로 바꾸기 (reshape, 반대는 spread) - fixed effect: 독립 변수와 종속 변수의 관계에 대한 모수 추정치 (glm에서의 회귀계수 개념) - random effect: 군집형 데이터에서 나타나는 집간에 따른 분산, 시계열 데이터에서 나타나는 개체에 따른 분산 집단의 차이가 개인 수준에서의 모수추정치에 미치는 효과. 분산의 크기 = 랜던 효과 크기 서로 다른 집단은 각기 다른 절편 값을 갖지만, 기울기는 거의 비슷 (glm의 R^2) 전체 분산을 집단 수준에서 나타난 분산(램덤 효과)과 개인 수준에서 나타난 분산 (glm의 오차항)으로 구분 - 랜덤 효과의 해석 1-1. 시계열 데이터에서 변수의 차이(랜덤) 때문인지, 시간의 ..
- Total
- Today
- Yesterday
- r
- ECG
- 생존곡선
- NGS
- 실험통계
- sequenced data
- PTB
- 인공지능
- fasta
- 생존함수
- sounddevice
- plink
- Bioinfo
- 딥러닝
- psychopy
- rgb2gray
- pre-train
- 평균분석
- 그룹비교
- missing_value
- vcf
- cnn
- pmm
- 생존분석
- SNP
- HRV
- GradCam
- GPU설치
- gray2rgb
- featuremap
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |