'분류 전체보기' 카테고리의 글 목록

결손값 처리

1. NAN 값 처리(제거, 변경, 평균값 대체) SQL> SELECT * table WHERE weight is not NULL COALESCE(weight, 1) AS weight, x FROM table COALSCE(weight, SELECT AVG(weight) FRM table)) AS weight R> table %>% drop_na(weight) 또는 na.omit(table) table %>% replace_na(list(weight=1)) 2. PMM(predictive mean matching) 방법 - 값이 있는 데이터에서 회귀 모델 구성 -> 계수, 오차의 분포 계산 -> 계수와 오차의 분포에서 새로운 계수와 오차 분산 생성 -> 생성한 계수와 오차 분산에 따른 회귀모델로 예측값 ..

데이터 분석/전처리 2023. 12. 22. 16:52

정규화

정규화의 두 가지 방법 1. z-score: 입력값-평균값/표준편차 2. min-max: 입력값-최소값/(최대값-최소값) table %>% mutate(a_normalized = scale(a, center=TRUE, scale=TRUE) # TURE: center 및 scale에 지정한 값이 평균과 분산값으로 지정됨(0, 1) from sklearn.preprocessing import StandardScaler table['x'] = table['x'].astype(float) s = StandardScaler() result = s.fit_transform(table[['x']]) table['normed'] = [x[0] for x in result]

데이터 분석/전처리 2023. 12. 22. 16:30

오버샘플링 기법

k값을 설정하여 1~k 정수값(균일분포)에서 랜덤하게 n을 설정한 후, n에서 가까운 데이터를 새롭게 선택하여 생성하는 방식으로 지정한 데이터에 도달할 때 까지 반복 library(unbalanced) library(tidyverse) x % filter(x==T) %>% summarise(x=n()) f % filter(x==F) %>% summarise(y=n()) pv % select(length, weight, x)

데이터 분석/전처리 2023. 12. 22. 16:09

SQL, R 전처리 함수 모음

1. 데이터 열추출 SQL> SELECT id AS new_id (id를 추출하여 new_id로) FROM table R> library(dplyr) select(x_id, y_id, z_id) %>% as.data.frame() 2. 조건에 따른 행추출 SQL> SELECT * FROM table WHERE date BETWEEN '2023-12-1' AND '2023-12-31' R> table[intersect(which(table$date >= '2023-12-1'), which(table$date % filter(between(as.Date(date), as.Date('2023-12-1'), as.Date('2023-12-31'))) 3. 샘플링 SQL> SELECT * FROM table WH..

데이터 분석/전처리 2023. 12. 22. 15:56

psychopy PTB-ERROR 해결

실험을 위한 자극 제시에 매우 유용한 프로그램인 psychopy. 최근에 실험을 하나 하게 되어서 매우 오래간만에 psychopy를 사용했다. 그런데 내 컴퓨터와 노트북으로는 잘 돌아가던 프로그램이 실험실에 설치한 PC에서는 에러가 나는 것. 사운드 드라이버의 sampling rate와 psychopy의 sampling rate가 안맞아서 나는 현상. 이게 좀 옛날 PC라 그런건지 모니터 사운드라 그런건지, 일단 사운드 드라이버를 Relatek High Definition Audio로 다시 받고, psychopy 설정 > audio > pygame으로 바꿔주었다. preferences에서 hardware > Audio Device를 바꿔보려 하였으나, reset되는 현상때문에 Builder에서는 실패하고..

프로그래밍/Trouble shootings 2023. 7. 18. 18:42

Windows11, Jupyter notebook + GPU 설치

주피터 노트북에서 GPU를 설치하고 확인하는 방법에 대한 설명이다. 기본적인 설치 과정은 다음과 같다. 1. 하드웨어 사양: Windows 11, GeForce GTX 1660 SUPER 2. NVIDIA 드라이버 사이트에 가서 OS와 GPU 사양을 넣으면 다운받을 수 있는 경로가 열림 3. 최신 버전으로 받았음 (Driver는 studio, Toolkit은 최신인 12로 받고, 이와 호환되게 cuDNN도 12로 다운받음) 4.드라이버와 Toolkit의 exe 파일을 실행시키고 설치함. 5. 설치가 완료되면 cuDNN의 압축을 풀고 lib, bin, include 폴더를 복사하여(전부 다임) 6. Program files > NVIDIA > GPU Computing > CUDA > 12.1 폴더에 붙여넣..

프로그래밍/Trouble shootings 2023. 5. 18. 16:45

실험 통계 기초

이번 포스팅에서는 통계에 익숙하지 않은 배경에서 실험에 어떤 통계적 방법을 이용할 수 있는지에 대해 개괄적으로 설명하고자 한다. 가장 흔하게 쓰이는 방법을 소개할 것이며, 이는 어디까지나 시작에 대한 한 가지 단순 접근법이기 때문에 통계학 수업을 들으면서 이론 및 실습에 대한 공부와 이해가 반드시 뒤따라야 한다. 1. 분포에 대한 이해 내가 수집한 데이터가 어떤 분포를 따르는지 먼저 검정해야 한다. 일반적으로는 정규분포를 따르는 경우가 많기 때문에, 데이터가 수집되었다면 1) 정규성 검정(shapiro test, Q-Q plot) 2) 등분산성 검정(Levene's test, residual plot) 3) 독립성 검정(Durbin - Watson test, residual plot)을 실시한다. 회귀 ..

데이터 분석/확률 통계 2023. 5. 15. 09:59

XAI 기법 소개

XAI eXplainable artificial Intelligence라는 의미로 개념은 1975년 등장하였으나 전문 용어로 자리잡은 것은 2004년 NPC의 인공지능을 개조하여 행동 이유를 설명하는 아키텍쳐를 만든 것이 시초 즉, 인공지능 모델이 왜 그러한 결정을 내렸는지 설명하려는 목적으로 만들어진 모델이라고 할 수 있음 XAI는 기존 머신 러닝 모델에 설명 가능한 기능을 추가하고, HCI와 접목하여 상황을 개선하려는 목적을 주로 지니는데, 현재에는 설명 가능한 기능 위주로 발달하고 있음 XAI 기법들 - 피처 중요도 (Feature Importance) - 필터 시각화 (Filter Visualization) - LRP (Layer-wise Relevance Propagation) - 부분 의존성 ..

데이터 분석/딥러닝 2023. 2. 8. 17:50

Grayscale images to 3 channels for CNN

ResNet이나 ViT와 같은 대용량의 데이터로 pre-train된 모델을 적용하는 경우가 있다. CNN 기반의 이 모델들은 칼라 이미지를 사용했기 때문에 data shape은 (m, n, 3)이 된다. 그런데 내가 가진 데이터가 흑백이라면 이 모델에 어떻게 넣어야 할까? skimage에 있는 gray2rgb를 이용하면 3채널이 된다. pip install scikit-image from skimage.color import gray2rgb

데이터 분석/전처리 2023. 2. 8. 16:26

gz 한꺼번에 풀기

이런식으로 폴더 안에 gz 파일이 여러개 있을 때 압축을 풀기 위해 아무 생각없이 for문을 돌려버림... 근데 문득 그렇게 하지 않고 한번에 gz을 푸는 방법이 있지 않을까 생각해서 검색해 봄. 결과는 역시. ###for 문을 이용하는 경우 for file in *.gz; do gzip -d ${file}; done ### 그냥 한번에 하는 경우 gzip -d *.gz 말끔히 풀려 있음. 검색을 잘 해보자.

프로그래밍/리눅스 2023. 1. 5. 10:52

이전 1 2 3 4 5 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

글 보관함

Connecting dots via Data

티스토리툴바