'데이터 분석/전처리' 카테고리의 글 목록

결손값 처리

1. NAN 값 처리(제거, 변경, 평균값 대체) SQL> SELECT * table WHERE weight is not NULL COALESCE(weight, 1) AS weight, x FROM table COALSCE(weight, SELECT AVG(weight) FRM table)) AS weight R> table %>% drop_na(weight) 또는 na.omit(table) table %>% replace_na(list(weight=1)) 2. PMM(predictive mean matching) 방법 - 값이 있는 데이터에서 회귀 모델 구성 -> 계수, 오차의 분포 계산 -> 계수와 오차의 분포에서 새로운 계수와 오차 분산 생성 -> 생성한 계수와 오차 분산에 따른 회귀모델로 예측값 ..

데이터 분석/전처리 2023. 12. 22. 16:52

정규화

정규화의 두 가지 방법 1. z-score: 입력값-평균값/표준편차 2. min-max: 입력값-최소값/(최대값-최소값) table %>% mutate(a_normalized = scale(a, center=TRUE, scale=TRUE) # TURE: center 및 scale에 지정한 값이 평균과 분산값으로 지정됨(0, 1) from sklearn.preprocessing import StandardScaler table['x'] = table['x'].astype(float) s = StandardScaler() result = s.fit_transform(table[['x']]) table['normed'] = [x[0] for x in result]

데이터 분석/전처리 2023. 12. 22. 16:30

오버샘플링 기법

k값을 설정하여 1~k 정수값(균일분포)에서 랜덤하게 n을 설정한 후, n에서 가까운 데이터를 새롭게 선택하여 생성하는 방식으로 지정한 데이터에 도달할 때 까지 반복 library(unbalanced) library(tidyverse) x % filter(x==T) %>% summarise(x=n()) f % filter(x==F) %>% summarise(y=n()) pv % select(length, weight, x)

데이터 분석/전처리 2023. 12. 22. 16:09

SQL, R 전처리 함수 모음

1. 데이터 열추출 SQL> SELECT id AS new_id (id를 추출하여 new_id로) FROM table R> library(dplyr) select(x_id, y_id, z_id) %>% as.data.frame() 2. 조건에 따른 행추출 SQL> SELECT * FROM table WHERE date BETWEEN '2023-12-1' AND '2023-12-31' R> table[intersect(which(table$date >= '2023-12-1'), which(table$date % filter(between(as.Date(date), as.Date('2023-12-1'), as.Date('2023-12-31'))) 3. 샘플링 SQL> SELECT * FROM table WH..

데이터 분석/전처리 2023. 12. 22. 15:56

Grayscale images to 3 channels for CNN

ResNet이나 ViT와 같은 대용량의 데이터로 pre-train된 모델을 적용하는 경우가 있다. CNN 기반의 이 모델들은 칼라 이미지를 사용했기 때문에 data shape은 (m, n, 3)이 된다. 그런데 내가 가진 데이터가 흑백이라면 이 모델에 어떻게 넣어야 할까? skimage에 있는 gray2rgb를 이용하면 3채널이 된다. pip install scikit-image from skimage.color import gray2rgb

데이터 분석/전처리 2023. 2. 8. 16:26

numpy 행렬 나누기

import numpy as np matrix = np.array([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9,10,11], [12,13,14,15]]) numpy에서 행렬을 쪼깰 때는 split을 사용한다. 예제 matrix를 행 중심으로 나눠, a 변수에는 1행 ~ 3행의 행렬이, b 변수에는 4행의 행렬이 들어가도록 하려면, 행 지정과 axis=0을 이용한다. c 변수에는 1열 ~ 3열, d 변수에는 4열의 행렬이 들어가도록 하려면, 열 지정과 axis=1을 이용한다.

데이터 분석/전처리 2023. 1. 5. 10:08

데이터 구조 - Wide format vs. Long format

◆ Wide Format: 사람이 읽기에 좋은 포맷 행(row)에 한 명의 정보를 담음 열(column)에 모든 요인(factor)의 level을 담음 sample ID sex age condition A condition B 1 female 38 9 b 2 male 29 8 b 3 male 41 9 a - 3 개의 factor (sex, age, condition)를 가지는 디자인 - 각 factor는 sex, age, condition이며, condition은 A, B의 level을 가짐 (cell의 숫자는 각 항목의 값) ◆ 위 디자인의 회귀식을 R에서 구하면 다음과 같다 aov(score ~ sex + age + condition) Wide 형식에서는 condition이 2 개의 열이므로 하나의 ..

데이터 분석/전처리 2023. 1. 5. 10:06

다층 모형을 위한 전처리

- wide format ---> long format 형태로 바꾸기 (reshape, 반대는 spread) - fixed effect: 독립 변수와 종속 변수의 관계에 대한 모수 추정치 (glm에서의 회귀계수 개념) - random effect: 군집형 데이터에서 나타나는 집간에 따른 분산, 시계열 데이터에서 나타나는 개체에 따른 분산 집단의 차이가 개인 수준에서의 모수추정치에 미치는 효과. 분산의 크기 = 랜던 효과 크기 서로 다른 집단은 각기 다른 절편 값을 갖지만, 기울기는 거의 비슷 (glm의 R^2) 전체 분산을 집단 수준에서 나타난 분산(램덤 효과)과 개인 수준에서 나타난 분산 (glm의 오차항)으로 구분 - 랜덤 효과의 해석 1-1. 시계열 데이터에서 변수의 차이(랜덤) 때문인지, 시간의 ..

데이터 분석/전처리 2023. 1. 4. 13:35

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

글 보관함

Connecting dots via Data

티스토리툴바