티스토리 뷰

728x90

- wide format ---> long format 형태로 바꾸기 (reshape, 반대는 spread)

 

- fixed effect: 독립 변수와 종속 변수의 관계에 대한 모수 추정치 (glm에서의 회귀계수 개념)

- random effect: 군집형 데이터에서 나타나는 집간에 따른 분산, 시계열 데이터에서 나타나는 개체에 따른 분산

                      집단의 차이가 개인 수준에서의 모수추정치에 미치는 효과. 분산의 크기 = 랜던 효과 크기

                      서로 다른 집단은 각기 다른 절편 값을 갖지만, 기울기는 거의 비슷 (glm의 R^2)

                전체 분산을 집단 수준에서 나타난 분산(램덤 효과)과 개인 수준에서 나타난 분산 (glm의 오차항)으로 구분

 

- 랜덤 효과의 해석 

1-1. 시계열 데이터에서 변수의 차이(랜덤) 때문인지, 시간의 흐름에 대한 차이인지 구분 가능

1-2. 개별 변수의 차이 때문인지, 상위 계층 변수에 의한 차이(랜덤)인지 구분 가능

1-3. 급내상관계수(ICC, intra-class correlation): 랜덤 효과 / 전체 분산 

 

2-1. fixed effect term (독립변수)의 투입에 따라, 랜덤 효과의 감소 여부를 보고 독립변수의 효과 크기 추정 가능

2-2. 오차감소비율(PRE, proportional reduction in error)와 관련

 

 

- 평균 중심화 변환

 1. 1수준 데이터(GLM)의 평균 준심화 변환

1-1. 회귀 모형의 추정 결과 해석이 간단해 짐.

절편은 모든 독립 변수를 0이라고 가정할 때 종속 변수의 예측값을 의미하는데, 

모든 독립 변수에 대해 평균 중심화변환을 실시할 경우, 절편은 표본의 종속변수 평균값이라는 구체적 의미를 가짐.

또한 특정 독립변수가 종속변수에 미치는 효과의 경우도

'다른 독립변수들이 표본의 평균값을 가진다고 가정할 때, x의 1단위 변화가 y에 미치는 효과'로 해석됨

 

1-2. 두 독립변수 사이의 상호작용효과를 추정할 경우, 평균 중심화변환을 실시하면 VIF가 낮아짐 

 

1-3.

- 평균 중심화: data-mean 

 

- 독립 변수의 설명력은 평균 중심화 실시 여부와 상관없이 일정 (b, R^2은 일정)

- 평균 중심화 후, 예측변수의 평균값은 0, 회귀 모형의 절편값 해석 쉬워짐 (독립변수가 평균값일 때 예측된 y값, y 평균)

 

- 원점수나 중심화 점수나 설명력(R^2)은 동일, VIF도 같음 (단지 절편값의 해석을 위한 것)

- 상호작용 효과항의 회귀계수와 표준오차는 원점수 / 중심화 점수 차이가 없음 - 주효과는 매우 다름

  (상효작용 효과항이 투입되었을 때, 주효과항의 회귀계수 해석에 신중해야 함을 의미)

- 상호작용 효과를 살펴볼 경우, 독립변수에 대해 평균 중심화 변환을 실시하는 것이 유용 -> 주효과항 해석이 용이

 

 

2. 다층 모형

2-1. 측정 수준이 2이상 (군집 데이터인 경우 개인, 집단, 시계열인 경우, 개체와 반복되는 측정)

      독립변수가 측정된 수준이 상위(집단 혹은 개체)인지 하위(개인, 반복측정)인지에 따라 다른 적용

 

2-2.

- 집단 평균 중심화: 독립 변수 - (하위 수준의 측정치가 배속된) 집단의 독립 변수 평균

- 전체 평균 중심화: 독립 변수 - 전체 표본의 독립 변수 평균 

 

2-3. 하위 수준에서의 모수추정치가 상위수준에 따라 달라질 수 있다(랜덤 효과)고 추정하기 때문에, 평균 중심화 유용 

 

2-4. 평균 중심화변환을 적용하지 않으면 모형이 수렴하지 않거나 추정 시간이 오래 걸림

 

 

 

 

출처: R을 이용한 다층모형 (백영민 저)

'데이터 분석 > 전처리' 카테고리의 다른 글

오버샘플링 기법  (0) 2023.12.22
SQL, R 전처리 함수 모음  (0) 2023.12.22
Grayscale images to 3 channels for CNN  (0) 2023.02.08
numpy 행렬 나누기  (0) 2023.01.05
데이터 구조 - Wide format vs. Long format  (0) 2023.01.05
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/07   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
글 보관함