표본분산의 이해

교과서에서는 표본평균 와 함께 표본분산 에 대하여 다음과 같이 소개하고 있다. 이때, 표본분산을 정의할 때는 모분산을 정의할 때와 달리 편차의 제곱의 합을 로 나누는데, 그 이유는 모분산과의 오차를 줄이기 위한 것이라고 설명하고 있다. 왜 표본분산은 로 나누어 계산할까? 모든 교과서에서 설명하고 있듯이 무엇인가에 대한 정보를 얻기 위해 통계처리를 할 때는 모집단 전체에 대한 전수보다는 표본을 이용하는 경우가 대부분이다. 문제는 어떻게 해야 전수조사를 하지 않는 대신 표본을 통해 얻은 정보로부터 원래의 관심 대상인 모집단의 특성을 성공적으로 추론할 수 있느냐이다. 이를 위해 모집단의 성격을 추정하는데 사용되는 통계량, 즉 표본에서 얻은 통계량(평균, 분산 등)에 대한 기댓값이 모집단에서의 것과 같은가를 확인하는 것은 매우 타당한 방법이다. 다시 말하면 표본에서 얻은 평균, 분산, 표준편차 등의 기댓값이 모집단에서 직접 구할 평균, 분산, 표준편차와 같다는 것으로부터 표본에서 얻은 통계량으로 모집단의 특성을 추정할 정당성을 얻는다는 것이다. 아래 애플릿을 이용하여 모집단에서 임의로 추출한 표본으로부터 구한 표본분산(n-1로 나눈)과 모분산 구하는 방법(n으로 나눈)으로 얻는 통계량을 충분히 많이 얻어내어 누적한 값들의 평균을 통해 모분산과 비교하는 실험을 해보자.

정규모집단

비정규모집단