(통계분석) SAS

21.06.14~21.06.16 통계특강 내용 정리(2)

KSY98 2021. 6. 28. 16:39

저번 포스팅에서는 통계의 기본과 Z검정, T검정, ANOVA검정에 대해 정리했고, 이번 포스트에서는 회귀분석과 GLM 관련 이론들에 대해 정리해보고자 한다.


1) 다양한 통계분석기법

  독립변수 = 범주변수 독립변수 = 연속변수
종속변수 = 범주변수 카이제곱검정 로지스틱회귀분석
종속변수 = 연속변수 분산분석&공분산분석 회귀분석&공분산분석
결과변수 회귀모형
연속변수 일반회귀분석
순위 순서 회귀분석
2개의 카테고리 로지스틱 회귀분석
3개 이상 카테고리 다중명목 회귀분석
발생횟수 포아송 회귀분석

 

2) 상관관계(Correlation)

- 두 변수 간 선형 상관관계 분석, 상관분석의 결과로 상관관계 정도를 나타내는 상관계수가 도출됨 

- 모상관계수는 p, 표본상관계수는 r 사용. 상관관계가 0<p<=1이면 양의 상관, -1<=p<0이면 음의 상관, p=0이면 무상관 (상관이 없다는 것이 아니라 선형의 상관관계가 아니라는 것. 즉, 비선형관계일 경우 상관계수는 0에 가까움)

- 상관관계는 두 변수간의 인과관계가 있다는 것을 말하는 것이 아님. 즉, X와 Y가 상관관계가 있다고해서 X가  Y의 원인이라고 해석할 수 없다.

 

3) 회귀분석(Regression)

- 반응변수와 설명변수들 간 관계를 선형함수로 표현하고자 함

- 회귀분석은 반응변수의 평균적인 값들이, 설명변수들의 조합에 따른 소그룹에 따라 어떻게 변화하는지 요약하는 방법

- 가정:
 1. 잔차항 N(0,σ^2) - 모집단의 회귀식에 의해 예측된 실제 관측 y값, 즉 x에 의해 설명되지 않는 부분. 관측값과 적합값 차이

 2. 선형성 - 예측하고자 하는 종속변수와 독립변수간 선형관계를 만족하는 특성

 3. 독립성 - 잔차항은 서로 독립적이여야함

 4. 등분산성 - 잔차항의 분산은 동일해야함

 5. 정규성 - 잔차항은 정규분포를 따라야함

 * 잔차를 최소화 하는 것이 좋은 모델. 잔차들의 합은 0, 잔차 제곱의 합을 최소화해야함

최소제곱법

- 회귀모형의 적합성 여부(유의성) 검정 = 결정계수

 * 결정계수는 총제곱합 SST 중 회귀모형에 의해 설명되는 부분인 SSR이 차지하는 비율로 정의

    R^2 = SSR/SST = 1- (SSE/SST)

 * 0 <= 결정계수 <= 1이고 결정계수가 1에 가까울수록 추정된 회귀모형의 설명력이 높음

 * 수정결정계수: 독립변수의 개수를 이용해 결정계수 조정, 독립변수의 개수 다른 모형끼리 비교하는 기준

n= 자료개수, p=독립변수 개수

- 정규확률도를 이용한 정규성 검정:
 오차가 정규분포를 따르는지 검정하기 위해, 잔차에 대한 정규확률도 이용. 각 점들이 직선에 가까운 모양을 띄면 오차가 정규분포를 따르는 것으로 판단

 

* 상관분석과 회귀분석의 차이점

- 상관분석: 두 변수의 종속관계를 고려하지 않음. 두 변수간 관련성의 크기에만 초점

- 회귀분석: 두 변수의 종속관계(인과관계)에 초점을 맞춤. 두 변수 간 상관성이 높다고 반드시 두 변수간 인과관계 존재하는 것은 아님

 

4) GLM(Generalized Linear Model)

- 가정:
 1. 독립변수와 종속변수 관계는 선형이 아닐 수 있음.

 2. 종속변수는 정규분포를 따르지 않음.

 3. 모수 추정에는 MLE 방법이 사용됨.

 4. 오차는 독립이지만 정규분포를 따르지 않을 수 있음

 

5) 로지스틱 회귀분석

- 로지스틱 회귀분석 수행 결과 도출된 값을 Odds ratio(오즈비/교차비)라고 함

- odds ratio(OR): 1을 기준으로 1보다 크면 양의 관련, 1보다 작으면 음의 관련성으로 해석.

 * 어떤 사건이 일어날 가능성 = "성공확률(p)/실패확률(1-p)"

 * 일반적으로 후향적연구인 환자대조군연구(case control study)에 주로 사용

 

6) 포아송 회귀분석

- 연속된 시간 상 매 순간 사건 발생이 가능하지만 그 확률이 매우 작은 경우, 단위면적/단위시간/단위공간에서 발생하는 특정 사건의 건수 분석

- 일반 선형회귀분석을 수행하면 종속변수가 0보다 작은 값을 가짐. > log link function 이용해 0 이상의 값만 갖도록 할 수 있음

- log변환을 통해 독립&종속변수가 선형관계로 대응되어, log-linear model이라고 부르기도 함

- 역학연구에서의 장점: relative risk(RR) 산출 가능 (1기준 1보다 작으면 음의 관련, 1보다 크면 양의 관련)

 

*RR vs OR

RR: 코호트 연구의 경우 모집단을 위험인자에 노출된 집단과 위험인자에 노출되지 않은 집단으로 구분해 추적관찰(시간적 개념 포함) -> 위험인자 노출/비노출 모집단 모두 파악 가능 -> 위험인자의 영향을 분명하게 도출

OR: 환자-대조군 연구는 환자군(이미 질환 발생)과 대조군(질환발생X) 모집 후 위험인자 노출여부(특정시점에서의 결과)를 후향적으로 조사 -> 위험인자와 질환 발생 간 연관선 추정.
즉, 위험인자에 노출된 전체 모집단과 노출되지않은 전체 모집단 파악 불가. 특정 시점에서의 집단 수만 파악

 

*전향적 연구 vs 후향적 연구

전향적 연구 후향적 연구
- 장점: 집단간 질병 발생률 바로 계산, 상대위험도를 통해 두 집단간 발생률 비교 가능

- 단점: 많은 표본 필요, 특히 발생률 낮은 희귀질병의 경우 조사를 위한 시간&비용 큼
- 장점: 비용지출 적음, 표본 상대적으로 쉽게 모집 가능

- 단점: 각 집단에서의 질병발생률 바로 계산 불가

이렇게 통계특강 이론내용 정리가 끝났다!

"보건통계학"이라는 전공이 (내 기준) 많이 부실하다고 생각했었다고 생각했는데, 특강을 들으면서 전공만으로 부족했던 부분을 채울 수 있었다. 반면, 제한된 시간때문에 수업때 진행했던 모든 코드들을 작성해볼 수 없었던 점이 아쉬웠다. 강의를 맡으신 강사님께서 완성된 코드를 공유해주셨고, 우리는 그걸 돌려보며 각각 코드가 어떤 의미를 가지고있고 어떤 분석을 하는건지? 위주로 설명을 해주셨다. 아쉬운점도 있었지만 전반적으로 좋았다^^