본문 바로가기
통계학

수리 통계학의 선형 회귀 요약

by 네잎클로버편집자 2023. 2. 20.
반응형

III. 선형 회귀

A. 단순 선형 회귀
최소 제곱법
추정자의 속성
회귀 매개변수에 대한 추론
B. 다중 선형 회귀
최소 제곱 방법
추정자의 속성
회귀 매개변수에 대한 추론
C. 진단 및 모델 선택
잔차 분석
영향력 있는 관측치
모델 선택 기준을 요약하면 다음과 같습니다.

 

선형회귀

 

 

선형 회귀는 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하는 통계적 기법입니다. 단순 선형 회귀는 하나의 독립 변수와 종속 변수 간의 선형 관계를 모델링하며, 다중 선형 회귀는 둘 이상의 독립 변수와 종속 변수 간의 선형 관계를 모델링합니다.

 

A. 단순 선형 회귀

  1. 최소 제곱법 최소 제곱법은 회귀 분석에서 가장 일반적으로 사용되는 방법 중 하나입니다. 이 방법은 종속 변수와 독립 변수 간의 선형 관계를 가정하고, 이 관계를 설명하는 최적의 직선을 찾기 위해 회귀 계수를 추정합니다. 이를 위해 잔차(실제 값과 추정 값의 차이)의 제곱합을 최소화하는 방법을 사용합니다.
  2. 추정자의 속성 회귀 분석에서 추정된 회귀 계수는 샘플 데이터에 기초하여 추정됩니다. 추정된 회귀 계수는 다음과 같은 성질을 가집니다.
  • 일관성(Consistency): 표본 크기가 무한대로 갈수록 추정된 회귀 계수는 실제 회귀 계수에 수렴합니다.
  • 편향성(Bias): 표본 크기가 증가해도 추정된 회귀 계수가 실제 회귀 계수로 수렴하지 않을 수 있습니다.
  • 효율성(Efficiency): 추정된 회귀 계수의 분산을 최소화하여 효율적으로 추정합니다.
  • 일반성(Generality): 추정된 회귀 계수는 새로운 데이터에 대해 적용될 수 있습니다.
  1. 회귀 매개변수에 대한 추론 회귀 분석에서 추정된 회귀 계수에 대한 추론을 위해 일반적으로 t-검정을 사용합니다. 이를 위해 회귀 계수의 표준 오차와 자유도를 계산하고, t-통계량을 계산하여 p-값을 산출합니다. p-값이 유의 수준보다 작으면, 해당 회귀 계수는 유의하다고 판단할 수 있습니다.

B. 다중 선형 회귀

  1. 최소 제곱 방법 다중 선형 회귀에서도 최소 제곱법을 사용하여 회귀 계수를 추정합니다. 이를 위해 잔차 제곱합을 최소화하는 회귀 계수를 추정합니다. 하지만 다중 선형 회귀에서는 회귀 모형의 복잡도가 증가하므로, 과적합 문제를 해결하기 위해 규제(regularization) 기법을 사용할 수 있습니다.
  1. 추정자의 속성 다중 선형 회귀에서도 추정된 회귀 계수는 일관성, 편향성, 효율성, 일반성과 같은 속성을 가집니다. 이에 추가적으로 다중 공선성(multicollinearity) 문제가 발생할 수 있습니다. 다중 공선성은 독립 변수 간의 상관관계가 높아, 회귀 분석에서 문제가 될 수 있는 현상입니다. 이는 회귀 계수의 분산을 증가시키고, 추정된 회귀 계수의 신뢰성을 감소시키므로 주의해야 합니다.
  2. 회귀 매개변수에 대한 추론 다중 선형 회귀에서도 회귀 계수에 대한 추론은 t-검정을 사용합니다. 단, 다중 공선성 문제가 발생할 경우, 회귀 계수의 표준 오차가 증가하므로, 추론 결과를 신뢰하기 어려울 수 있습니다.

C. 진단 및 모델 선택

  1. 잔차 분석 잔차 분석은 회귀 분석에서 추정된 모형의 적합성을 평가하기 위해 사용되는 기법입니다. 이를 위해 잔차의 분포를 검토하고, 이상치(outliers)나 이상한 패턴이 있는지 확인합니다. 이를 통해 회귀 모형의 적합성을 평가하고, 개선하는 방향을 제시할 수 있습니다.
  2. 영향력 있는 관측치 영향력 있는 관측치는 회귀 모형에 대한 추정 결과에 영향을 미치는 데이터 포인트를 말합니다. 이를 식별하기 위해 Cook's 거리나 DFFITS와 같은 지표를 사용할 수 있습니다. 영향력 있는 관측치는 모형의 정확도를 저해할 수 있으므로, 제거하거나 다른 방법으로 대체하는 것이 좋습니다.
  3. 모델 선택 기준 모델 선택 기준은 여러 모형 중에서 가장 적합한 모형을 선택하기 위한 기준을 제공합니다. 일반적으로는 정보 기준(information criterion)이나 교차 검증(cross-validation)을 사용하여 모형 선택을 수행합니다.
  • 정보 기준: 정보 기준은 모형 복잡도와 적합도를 고려하여 최적의 모형을 선택합니다. AIC(Akaike Information Criterion)나 BIC(Bayesian Information Criterion)과 같은 지표를 사용합니다. 이들 지표는 모형 복잡도에 대한 페널티를 부과하며, 작을수록 더 적합한 모형으로 간주됩니다.
  • 교차 검증: 교차 검증은 데이터를 여러 개의 부분 집합으로 나눈 후, 하나의 부분 집합을 검증 데이터로 사용하고 나머지를 학습 데이터로 사용하여 모형을 학습합니다. 이를 여러 번 반복하여 모형의 성능을 평가합니다. 이 방법을 사용하면 모형의 일반화 성능을 더 정확하게 추정할 수 있습니다.
  • 변수 선택: 변수 선택은 모형에 사용할 독립 변수를 선택하는 것을 말합니다. 이를 위해 전진 선택법(forward selection), 후진 제거법(backward elimination) 또는 단계적 선택법(stepwise selection)을 사용할 수 있습니다. 이들 방법은 각 단계에서 모형의 성능을 평가하여 가장 적합한 변수를 선택하거나 제거합니다.

 

 

요약하자면, 선형 회귀 분석에서는 회귀 모형의 적합성을 평가하고, 적합한 모형을 선택하기 위해 잔차 분석, 영향력 있는 관측치 식별, 정보 기준과 교차 검증, 변수 선택과 같은 기법을 사용할 수 있습니다. 이를 통해 선형 회귀 모형을 보다 정확하고 신뢰성 있는 방법으로 구축할 수 있습니다.

반응형

댓글