본문 바로가기
통계학

수리통계학 비모수적 방법 요약

by 네잎클로버편집자 2023. 2. 21.
반응형

IV. 비모수적 방법

A. 순위 기반 검정 윌콕슨 순위 합계 테스트 클러스칼-월리스 검정

B. 적합도 테스트 콜모고로프-스미르노프 테스트 앤더슨-달링 테스트

C. 커널 밀도 추정 정의 및 속성 대역폭 추정 애플리케이션에 대하여 요약하면 다음과 같다.

 

 

 

 

A. 순위 기반 검정

  1. 윌콕슨 순위 합계 테스트 윌콕슨 순위 합계 테스트(Wilcoxon rank-sum test)는 두 개의 독립된 표본에서 각각의 표본에서 추출한 값의 순위를 이용하여 두 집단이 같은 분포를 가지고 있는지 검정하는 비모수적인 방법입니다. 등분산 가정이 필요하지 않으며, 중앙값 차이 검정으로도 사용할 수 있습니다.
  2. 크리스칼-월리스 검정 클러스칼-월리스 검정(Kruskal-Wallis test)은 세 개 이상의 독립된 집단에서 모든 집단이 같은 분포를 가지고 있는지 비모수적으로 검정하는 방법입니다. 이 검정은 각각의 집단에서 추출한 값의 순위를 이용하여 검정합니다. 윌콕슨 순위 합계 검정과 마찬가지로 등분산 가정이 필요하지 않으며, 중앙값 차이 검정으로도 사용할 수 있습니다.

B. 적합도 테스트

  1. 콜모고로프-스미르노프 테스트 콜모고로프-스미르노프(Kolmogorov-Smirnov) 테스트는 두 분포 간 차이를 검정하는 방법 중 하나로, 적합도 테스트(fit test)라고도 불립니다. 이 테스트는 표본 데이터와 비교할 이론적인 분포(정규분포, 지수분포 등)를 지정하고, 이론적 분포와 표본 분포의 차이를 측정하여 검정합니다. 이 검정은 누적 분포 함수(cumulative distribution function)를 사용하여 검정합니다.
  2. 앤더슨-달링 테스트 앤더슨-달링(Anderson-Darling) 테스트는 콜모고로프-스미르노프 테스트와 마찬가지로 두 분포 간 차이를 검정하는 방법 중 하나입니다. 이 테스트는 콜모고로프-스미르노프 테스트와 비교하여 더 높은 검정력을 가지고 있습니다. 표본 데이터와 이론적 분포 간의 차이를 누적 분포 함수와 함께 사용하여 검정합니다.

C. 커널 밀도 추정

정의 및 속성 커널 밀도 추정(Kernel Density Estimation)은 히스토그램과 유사한 방식으로 데이터의 분포를 추정하는 비모수적 방법입니다. 커널 밀도 추정에서는 각 데이터 포인트를 중심으로 한 커널 함수를 사용하여 데이터의 밀도를 추정합니다. 이때, 커널 함수는 대칭이며, 적분 결과가 1인 함수를 사용합니다. 대표적인 커널 함수로는 가우시안 함수가 있습니다.

커널 밀도 추정의 장점은 데이터 분포의 모양을 가정하지 않기 때문에 유연하게 사용할 수 있다는 점입니다. 또한, 데이터의 크기가 작은 경우에도 적용할 수 있습니다. 그러나, 데이터가 매우 많은 경우에는 계산 복잡도가 높아질 수 있습니다.

대역폭 추정 커널 밀도 추정에서는 커널 함수의 대역폭(h)을 지정해야 합니다. 대역폭은 추정된 밀도 함수의 부드러움 정도를 조절하는 매개변수로, 작을수록 추정된 밀도 함수는 뾰족하고 불규칙해지며, 클수록 부드럽고 과도하게 평평해집니다. 대역폭은 보통 최적화 과정을 통해 추정됩니다.

 

애플리케이션 커널 밀도 추정은 데이터의 분포를 추정하는 데 유용합니다. 예를 들어, 미국 대선 선거에서 투표 결과를 예측하는 경우, 투표 결과 분포를 추정하여 예측하는 데 사용될 수 있습니다. 또한, 기상학에서는 기온, 강수량 등의 자료를 분석하는 데 사용될 수 있습니다. 또한, 데이터의 분포를 시각화하는 데에도 사용됩니다.

반응형

댓글