분산 계산하는 방법

분산은 데이터 세트가 얼마나 분산되어 있는지 계산한 값입니다. 낮은 분산은 데이터를 과적하고 있다는 신호일 수 있으므로, 통계 모델을 생성할 때 유용합니다. 분산 계산은 까다롭긴 하지만 일단 수식을 배우고 올바른 숫자를 대입하기만 하면 답을 찾을 수 있습니다.

방법 1

방법 1 의 2:

표본의 분산 계산

PDF 다운로드

1
표본 데이터 세트를 작성하십시오. 대부분의 경우 통계학자는 표본 또는 연구중인 모집단의 일부 자료만 다룰 수 있습니다. 예를 들어 통계학자는 "독일의 모든 자동차 가격" 자료를 분석하는 대신 몇 천대의 자동차에 대한 표본의 비용을 찾을 수 있습니다. 독일 자동차 비용 전체를 충분히 추정할 수 있지만 실제 수치와 정확히 일치하지는 않습니다.
- 예: 카페테리아에서 매일 판매되는 머핀 수를 분석하려면, 6일동안 무작위로 표본을 채집하여 다음의 결과를 얻습니다. 38, 37, 36, 28, 18, 14, 12, 11, 10.7, 9.9. 카페테리아가 개장한 후 매일 데이터를 수집한 것이 아니기 때문에 이것은 전체 자료가 아닌 표본입니다.
- 모집단의 모든 데이터가 있는 경우 아래의 방법으로 넘어가세요.
2
샘플 분산 수식을 작성합니다. 데이터 세트의 분산은 데이터 내의 자료가 얼마나 분산되어 있는지 알려줍니다. 분산이 0에 가까울수록 자료들이 더 밀접하게 모여 있습니다. 표본 데이터 세트로 작업을 할 때는 다음 공식을 사용하여 분산을 계산하세요^{[1]X출처 검색하기}
- $s^{2}$ = ^{∑[( $x_{i}$ - x̅) $^{2}$ ]}/_{(n - 1)}
- $s^{2}$ 가 분산입니다. 분산은 항상 제곱 단위로 계산됩니다.
- $x_{i}$ 은 데이터 집합의 항을 나타냅니다.
- "합"을 의미하는 ∑는 $x_{i}$ 의 각 값에 대해 다음 항을 계산한 다음 함께 더하라는 의미입니다.
- x̅는 표본의 평균입니다.
- n은 데이터 포인트의 수입니다.
3
표본의 평균을 계산합시다. 기호 x̅ 또는 "x-바"는 샘플의 평균을 나타냅니다.^{[2]X출처 검색하기} 평균을 구하는 식을 이용해 계산하십시오. 모든 데이터 포인트를 함께 더한 다음 데이터 포인트의 수로 나눕니다.
- 예: 먼저 데이터 포인트를 더합니다: 17 + 15 + 23 + 7 + 9 + 13 = 84
  다음으로 합을 데이터 포인트 의 수(이 경우 6)로 나눕니다: 84 ÷ 6 = 14.
  샘플 평균 = x̅ = 14.
- 평균을 데이터의 "중심점"으로 생각할 수 있습니다. 데이터가 평균 주위에 모였다면, 분산은 낮고, 평균에서 멀어지면 분산이 높은 것입니다.
4
각 데이터 포인트에서 평균을 뺍니다. 이제 $x_{i}$ $How.com.vn 한국어: {\displaystyle x_{i}}$ -x̅를 계산해야 합니다. 여기서 $x_{i}$ $How.com.vn 한국어: {\displaystyle x_{i}}$ 는 데이터 세트의 각 숫자입니다. 각 답변은 평균과의 편차 또는 간단히 평균에서 얼마나 멀리 떨어져 있는지 알려줍니다.^{[3]X출처 검색하기}.
- 예:
  $x_{1}$ - x̅ = 17 - 14 = 3
  $x_{2}$ - x̅ = 15 - 14 = 1
  $x_{3}$ - x̅ = 23 - 14 = 9
  $x_{4}$ - x̅ = 7 - 14 = -7
  $x_{5}$ - x̅ = 9 - 14 = -5
  $x_{6}$ - x̅ = 13 - 14 = -1
- 모든 편차의 합은 0이므로 계산을 쉽게 확인할 수 있습니다. 평균의 정의에 따라, 음수 편차(평균보다 작은 숫자까지의 거리)가 양수 편차(평균보다 큰 수까지의 거리)를 정확하게 없애기 때문입니다.
5
각 결과를 제곱합니다. 위에서 언급했듯이 현재 편차 목록( $x_{i}$ $How.com.vn 한국어: {\displaystyle x_{i}}$ -x̅)의 합계는 0입니다. 즉, "평균 편차"도 항상 0이므로 데이터가 얼마나 분산되었는지에 대해서는 아무 것도 알려주지 않습니다. 이 문제를 해결하려면 각 편차의 제곱을 찾으십시오. 이렇게 하면 모두 양수가 되므로 음수 및 양수 값은 더 이상 0으로 상쇄되지 않습니다.^{[4]X출처 검색하기}
- 예:
  ( $x_{1}$ - x̅) $^{2}=3^{2}=9$
  $(x_{2}$ - x̅) $^{2}=1^{2}=1$
  9² = 81
  (-7)² = 49
  (-5)² = 25
  (-1)² = 1
- 표본의 각 데이터 포인트에 대해 ( $x_{i}$ -x̅) $^{2}$ 를 구했습니다.
6
제곱 값의 합을 구하십시오. 이제 전체 수식의 분자를 계산할 차례입니다: ∑[( $x_{i}$ $How.com.vn 한국어: {\displaystyle x_{i}}$ - x̅) $^{2}$ $How.com.vn 한국어: {\displaystyle ^{2}}$ ]. 대문자 시그마 ∑는 $x_{i}$ $How.com.vn 한국어: {\displaystyle x_{i}}$ 의 각 값에 대해 다음 항의 값을 합산하라는 뜻입니다. 이미 표본에서 $x_{i}$ $How.com.vn 한국어: {\displaystyle x_{i}}$ 의 각 값에 대해 ( $x_{i}$ $How.com.vn 한국어: {\displaystyle x_{i}}$ -x̅) $^{2}$ $How.com.vn 한국어: {\displaystyle ^{2}}$ 을 계산했으므로 결과를 함께 합하기만 하면 됩니다.
- 예: 9 + 1 + 81 + 49 + 25 + 1 = 166.
7
n - 1로 나눕니다. 여기서 n은 데이터 포인트 개수입니다. 오래 전에 통계학자들은 표본의 분산을 계산할 때 단순히 n으로 나눴습니다. 이는 제곱 편차의 평균값을 제공하며, 해당 표본의 분산을 구하는 것입니다. 그러나 표본은 더 많은 데이터의 추정치일 뿐입니다. 다른 임의의 표본을 취하여 동일한 계산을 수행하면 다른 결과를 얻을 수 있습니다. 알려진 바에 따르면 n 대신 n-1로 나누면 더 큰 자료의 분산을 더 잘 추정할 수 있습니다. 이 특징은 아주 일반적이어서 오늘날 표본 분산의 정의가 되었습니다.^{[5]X출처 검색하기}
- 예: 표본에 데이터 포인트가 6개 있으므로, n = 6.
  표본의 분산 = $s^{2}={\frac {166}{6-1}}=$ 33.2
8
분산과 표준 편차를 이해합니다. 수식에 지수가 있으므로 분산은 원래 데이터의 제곱 단위로 측정됩니다. 이 숫자를 직관적으로 이해하기 어려울 수 있습니다. 대신 표준 편차를 사용하는 것이 종종 유용합니다. 표준 편차는 편차의 제곱근이므로, 편차를 배우느라 고생한 것을 써먹으면 됩니다. 표본의 분산이 $s^{2}$ $How.com.vn 한국어: {\displaystyle s^{2}}$ 이고 샘플의 표준 편차가 $s$ $How.com.vn 한국어: s$ 인 이유입니다.
- 예를 들어, 위의 표본 표준 편차는 = s = √33.2 = 5.76입니다.
광고

방법 2

방법 2 의 2:

총 모집단의 분산 계산

PDF 다운로드

1
모집단 데이터 세트로 시작하십시오. "모집단"이라는 용어는 전체 관련 데이터를 나타냅니다. 예를 들어, 인천 시민의 나이를 연구하는 경우, 모집단은 모든 인천 시민의 나이를 의미합니다. 일반적으로 이와 같은 큰 데이터 세트에는 스프레드시트를 사용하지만, 지금은 작은 데이터 세트를 예로 들겠습니다.
- 예: 수족관 하나에 정확히 6개의 어항이 있습니다. 여섯 개의 어항에는 각자 다음과 같은 수의 물고기가 있습니다:
  $x_{1}=5$
  $x_{2}=5$
  $x_{3}=8$
  $x_{4}=12$
  $x_{5}=15$
  $x_{6}=18$
2
모집단 분산 공식을 씁니다. 모집단에 필요한 모든 데이터가 포함되어 있으므로, 이 공식은 모집단의 정확한 분산을 계산합니다. 표본 분산(추정치)과 구별하기 위해 통계학자들은 다른 변수를 사용합니다.^{[6]X출처 검색하기}
- σ $^{2}$ = ^{(∑( $x_{i}$ - μ) $^{2}$ )}/_n
- σ $^{2}$ = 모집단 분산입니다. 이것은 소문자 시그마이며, 제곱입니다. 분산은 제곱 단위로 측정됩니다.
- $x_{i}$ 은 데이터 집합의 항을 나타냅니다.
- ∑ 안의 항은 $x_{i}$ 의 각 값에 대해 계산 한 후 합산됩니다.
- μ는 모집단 평균입니다
- n은 모집단의 데이터 포인트 수입니다.
3
모집단의 평균을 찾으십시오. 모집단을 분석할 때 기호 μ("mu")는 산술 평균을 나타냅니다. 평균을 구하려면 모든 데이터 포인트를 더한 다음 데이터 포인트의 개수로 나눕니다.
- 여기서 "평균"을 일반적 평균으로 생각할 수 있지만, 평균이라는 단어는 수학에서 여러 정의를 가지고 있으므로 주의하십시오.
- 예: 평균 = μ = ${\frac {5+5+8+12+15+18}{6}}$ = 10.5
4
각 데이터 포인트에서 평균을 뺍니다. 평균에 가까운 데이터 포인트는 0에 가까운 차이를 가집니다. 각 데이터 포인트로 빼기를 반복하면 데이터가 얼마나 분산되어 있는지 알 수 있습니다.
- 예:
  $x_{1}$ - μ = 5 - 10.5 = -5.5
  $x_{2}$ - μ = 5 - 10.5 = -5.5
  $x_{3}$ - μ = 8 - 10.5 = -2.5
  $x_{4}$ - μ = 12 - 10.5 = 1.5
  $x_{5}$ - μ = 15 - 10.5 = 4.5
  $x_{6}$ - μ = 18 - 10.5 = 7.5
5
각 결과를 제곱합니다. 현재 이전 계산 결과의 일부 숫자는 음수이고 일부는 양수입니다. 데이터를 숫자 줄에 그림으로 표시하면 이 두 범주는 평균의 왼쪽 숫자와 평균의 오른쪽 숫자를 나타냅니다. 이 두 수 그룹은 서로 상쇄되므로 분산 계산에는 적합하지 않습니다. 각 숫자를 제곱하여 모두 양수로 만듭니다.
- 예:
  ( $x_{i}$ - μ) $^{2}$ 1에서 6까지 i의 모든 값을 계산합니다:
  (-5.5) $^{2}$ = 30.25
  (-5.5) $^{2}$ = 30.25
  (-2.5) $^{2}$ = 6.25
  (1.5) $^{2}$ = 2.25
  (4.5) $^{2}$ = 20.25
  (7.5) $^{2}$ = 56.25
6
결과의 평균을 찾으십시오. 이제 데이터 포인트가 평균에서 얼마나 멀리 떨어져 있는지에 대한 값을(간접적으로) 구했습니다. 이 값을 모두 더한 다음, 데이터 개수로 나누어 평균을 구하십시오.
- 예:
  모집단의 분산 = ${\frac {30.25+30.25+6.25+2.25+20.25+56.25}{6}}={\frac {145.5}{6}}=$ 24.25
7
계산 결과를 공식에 다시 적용시킵니다. 이 방법의 처음에 있던 수식과 이 값이 어떻게 맞는지 모르겠다면, 전체 수식을 전체적으로 작성해 보십시오.
- 평균과 제곱 편차의 값을 구하고 난 후, ( $x_{1}$ - μ) $^{2}$ , ( $x_{2}$ - μ) $^{2}$ 와 같은 값이 ( $x_{n}$ - μ) $^{2}$ 까지 있을 것이며, $x_{n}$ 가 마지막 데이터입니다.
- 이 값의 평균을 구하려면 값을 합산하여 n으로 나눕니다: ( ( $x_{1}$ - μ) $^{2}$ + ( $x_{2}$ - μ) $^{2}$ + ( $x_{n}$ -μ) $^{2}$ ) / n
- 분자를 시그마 표기로 다시 적은 결과는 ^{(∑( $x_{i}$ - μ) $^{2}$ )}/_n이며, 이는 분산 공식입니다.
광고

팁

분산은 해석하기 어렵기 때문에, 이 값은 일반적으로 표준 편차를 계산하기 위한 시작점으로 계산됩니다.
샘플을 분석할 때 분모에서 "n"대신 "n-1"을 사용하는 것은 베셀 보정이라고 하는 것입니다. 표본은 전체 모집단의 추정치일 뿐이며 표본의 평균은 해당 추정치에 맞게 편향됩니다. 베셀 보정은 이 편향을 제거합니다.^{[7]X출처 검색하기} 특정 값만 분산 공식에 사용되는 표본 평균 (x̅)을 이루기 때문에, 일단 n-1 개의 데이터 포인트를 나열하면 최종 n 번째의 데이터가 이미 제한되어 있다는 사실 때문입니다.^{[8]X출처 검색하기}