아웃라이어 계산하는 방법

통계학에서 아웃라이어는 표본 중 다른 대상들과 확연히 구분되는 통계적 관측치를 뜻한다. 종종 데이터 집합의 아웃라이어는 통계학자에게 데이터 집합에서 아웃라이어의 생략을 유발할 수도 있는 실험적인 이상 징후나 측정 오류를 알려준다. 데이터 집합에서 아웃라이어를 생략 할 경우, 연구를 통해 나온 결과에서 중대한 변화가 발생할 수도 있다.^{[1]X출처 검색하기} 그렇기 때문에, 통계 데이터를 올바르게 이해하기 위해서는 아웃라이어를 계산하고 평가하는 방법을 아는 것이 중요하다.

단계

PDF 다운로드

1
잠재적인 아웃라이어를 알아보는 방법을 배워보자. 제공된 데이터 집합에서 외부 값을 생략할지 말지 결정하기 전에 먼저 확실히 데이터 집합의 잠재적인 아웃라이어를 확인해야 한다. 일반적으로 말하면 아웃라이어는 데이터 집합의 다른 값으로 표시된 트렌드와는 다른 기준점들이다. 다른 말로는, 아웃라이어는 다른 값의 범위 밖에 있다. 이것은 보통 데이터 테이블 또는 (특히)그래프에서 쉽게 탐지해낼 수 있다.^{[2]X출처 검색하기} 만약 데이터 집합이 그래프에서 시각적으로 표현되어 있다면, 외부 점들은 다른 값으로부터 "멀리" 떨어져 있을 것이다. 예를 들자면, 데이터 집합 대부분의 점들은 직선을 만들어내고, 외부 값은 그 직선에 일치되는 합리적인 해석을 하기 어려울 것이다.
- 방 안의 다양한 12가지 물체의 온도를 나타내는 데이터 집합을 검토해보자. 만약 11개의 물체가 21도 내의 온도를 유지하고 있는 반면 12번째 물체인 오븐은 150도라고 하면, 피상적 시험을 통해 오븐이 아웃라이어라는 것을 알 수 있다.
2
모든 데이터 지점을 낮은 것부터 높은 것으로 정렬한다. 데이터 집합에서 아웃라이어를 계산하는 첫 번째 단계는 데이터 집합의 중앙값을 찾는 것이다. 만약 데이터 집합의 값들이 가장 작은 것부터 큰 것 순으로 잘 정렬이 되어 있다면 이 일은 아주 간단하게 할 수 있다. 그러니 시작하기 전에 자신의 데이터 집합의 값들을 이런 식으로 정리한다.
- 위의 예시로 계속 진행해보자. 다음은 방 안의 여러 물체의 온도를 나타내는 데이터 집합이다: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. 집합체의 값을 순서대로 정렬하면, 새로운 값의 집합은 다음과 같다: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
3
데이터 집합의 중앙값을 계산한다. 데이터 집합의 중앙값은 데이터의 절반이 위치하는 것보다 높은 지점과 데이터의 절반이 위치하는 것보다 낮은 지점을 말한다. 본질적으로는 이것이 데이터 집합의 "중앙" 지점이다.^{[3]X출처 검색하기} 만약 데이터 집합의 지점 개수가 홀수라면 찾기 쉽다. 중앙값은 위와 아래의 점 개수가 같은 곳에 위치한 지점이다. 한편, 지점 개수가 짝수라면, 중앙 지점이 하나도 없으니, 중앙의 2개의 점을 평균으로 해 중앙값을 찾아야 한다. 명심하라, 아웃라이어를 계산할 때 보통 중앙값은 변경될 수 있는 Q2로 부여 받는다. 왜냐하면 그것은 Q1과 Q3, 즉 낮고 높은 쿼타일(quartile) 사이에 위치해 있기 때문인데, 나중에 찾을 것이다.
- 지점 개수가 짝수인 데이터 집합에 혼란스러워 하지 말자. 두 지점의 중앙값은 보통 데이터 집합에 나타나지 않는 숫자가 될 것이다. 이건 괜찮다. 한편, 만약 두 지점의 중앙값이 같은 숫자라면, 평균값 또한 동일한 숫자가 될 것이며, 이것도 괜찮다.
- 위에서 봤던 예시에는 12개이 지점이 있다. 중앙의 2 항은 각각 6지점과 7지점 – 70과 71이다. 따라서, 우리의 데이터 집합의 중앙값은 다음 두 지점의 평균값이다: ((70 + 71) / 2), = 70.5.
4
낮은 쿼타일을 계산한다. 변할 가능성이 있는 Q1을 부여할 이 지점은 관측치의 25 퍼센트(또는 사분의 일)이하의 데이터 점이다. 다른 말로는, 당신의 데이터 집합의 지점들 중 중간쯤 되는 중앙값 이하이다. 중앙값 아래에 개수가 짝수인 값들이 있다면, Q1을 찾기 위해 두 개의 중간 값의 평균을 다시 찾아야 하며, 중앙값을 찾기 위해 했던 것과 같이 해야 한다.
- 위의 예시에서는 6개의 지점은 중앙값 위에 있고 나머지 6개의 지점은 아래에 있다. 이 말은 낮은 쿼타일을 찾기 위해서는 아래의 6개의 점들 중 중앙 지점 두 개의 평균을 찾아야 한다는 뜻이다. 아래의 6개의 점들 중 3지점과 4지점은 동일하게 70이다. 따라서, 그들의 평균 값은 ((70 + 70) / 2), = 70. 70이 Q1의 값이 된다.
5
높은 쿼타일을 계산한다. 변할 수 있는 Q3을 부여받은 이 지점은 25 퍼센트의 데이터가 위치하는 곳 위에 있는 데이터 지점이다. Q3을 찾는 것은 Q1을 찾는 방법과 하나만 빼고 거의 유사한데, 이 경우에는 중앙값 아래가 아니라 위에 있는 점들을 사용해야 한다.
- 위의 예시로 계속 진행하는데, 중앙값 위에 있는 6개의 지점 중 두 개의 중앙 지점은 71과 72이다. 이 두 지점의 평균을 계산하면 ((71 + 72) / 2), = 71.5 가 나온다. 71.5가 Q3의 값이 된다.
6
사분위수를 찾는다. Q1과 Q3를 알아냈으니 이 두 개의 변수의 거리를 계산해야 한다. Q1과 Q3의 거리를 알아내려면 Q3에서 Q1을 빼면 된다. 사분위수에서 얻은 값은 당신의 데이터 집합에 아웃라이어 기준점으로 포함되어 있지 않은 경계를 알아내는 데 꼭 필요하다.
- 위의 예시에서 Q1과 Q3의 값은 각각 70과 71.5이다. 사분위수를 찾으려면 다음과 같이 하면 된다. Q3 - Q1: 71.5 - 70 = 1.5.
- 만약 Q1, Q3 또는 둘 다 음수라도 할 수 있다. 예를 들어, 만약 Q1의 값이 -70 이었더라도, 사분위수는 71.5 - (-70) = 141.5가 되는데, 정확한 값이다.
7
데이터 집합의 "안쪽 값"을 찾는다. 아웃라이어는 "안쪽 값"과 "바깥 값"이라고 불리는 수적 경계의 집합 내에 들어가는지를 평가하는 것으로 확인된다.^{[4]X출처 검색하기} 데이터 집합의 안쪽 값 밖으로 떨어지는 지점은 "작은 아웃라이어"로 분류되며, 바깥 값 밖으로 떨어지는 지점은 "큰 아웃라이어"로 분류된다. 데이터 집합의 안쪽 값을 찾으려면 먼저 사분위수를 1.5로 곱해야 한다. 그렇게 해서 나온 결과를 Q3에 더한 뒤 거기서 나온 값을 Q1에서 뺀다. 두 개의 결과 값이 데이터 집합의 안쪽 값의 경계다.
- 위의 예시에서 사분위수는 (71.5 - 70), 또는 1.5였다. 이 값을 1.5로 곱하면 2.25가 된다. 이 값을 Q3에 더하고 그 결과를 Q1에서 빼면 안쪽 값의 경계가 나오는데 다음과 같다:
  - 71.5 + 2.25 = 73.75
  - 70 - 2.25 = 67.75
  - 그러므로, 당신의 안쪽 값의 경계는 67.75와 73.75이다.
- 우리의 데이터 집합에서는 오븐의 온도인 300도만 범위를 벗어나며 따라서 약간의 아웃라이어가 된다고 볼 수 있다. 한편, 이 온도가 큰 아웃라이언지 알아봐야 하기 때문에 그렇게 하기 전에는 어떤 결론도 내리지 말자.
8
데이터 집합의 "바깥 값"을 찾는다. 이는 안쪽 값과 같은 방법으로 진행 되는데, 사분위수가 1.5대신 3으로 곱해진다는 것을 제외하면 그렇다. 그렇게 해서 나온 결과는 Q3에 더한 뒤 Q1에서 빼면 바깥 값의 위와 아래 경계를 찾을 수 있다.
- 위의 예시에서 사분위수를 3수율(1.5 * 3) 이상으로 곱하거나 4.5로 곱하기. 바깥 값의 경계는 전과 같은 방법으로 구하면:
  - 71.5 + 4.5 = 76
  - 70 - 4.5 = 65.5
  - 우리의 바깥 값의 경계는 65.5와 76이다.
- 바깥 값의 밖에 있는 모든 데이터 지점은 큰 아웃라이어라고 여겨진다. 이 예시에서, 오븐의 온도인 300도는 바깥 값의 밖에 있으며, 따라서 이것은 확실히 큰 아웃라이어다.
9
아웃라이어를 "버려야할지" 결정하기 위해 질적 평가를 이용한다. 위에 묘사된 절차를 사용하면 특정 지점들이 작은 아웃라이어인지, 큰 아웃라이어인지, 또는 아웃라이어 자체가 아닌지 확인하는 데 사용할 수도 있다. 한편, 실수를 하면 안 된다. 한 지점을 아웃라이어라고 확인하는 것은 데이터 집합의 탈락 후보로 표시될 뿐이지, 꼭 탈락돼야만 하는 지점이 되는 것이 아니다. 아웃라이어가 데이터 집합의 나머지 지점들과 차별화 되는 이유는 아웃라이어를 지울지 말지를 결정하는 데 꼭 필요하다. 일반적으로 어떤 종류의 오류의 원인이 될 수도 있는 아웃라이어 – 예를 들어 측량, 기록, 또는 실험 디자인의 오류 – 는 탈락돼야 한다.^{[5]X출처 검색하기} 반면에 오류의 원인이 되지 않으며, 새로운 정보나 예측하지 못 했던 트렌드를 알려주는 아웃라이어들은 탈락되지 않는다.
- 고려해봐야 할 또 다른 기준은 아웃라이어가 데이터 집합의 평균(평균 값)을 왜곡하거나 오해의 소지가 있는 방향으로 현저하게 영향을 미치는지 고려해봐야 한다. 만약 당신이 데이터 집합의 평균으로부터 결론을 낼 계획이라면 이것을 고려해보는 것은 특히 중요하다.
- 우리의 예시를 평가해보자. 우리의 예시에서는 오븐이 우연히 자연의 힘에 의해 300도까지 올라갔을 가능성은 매우 낮기 때문에, 오븐이 뜻하지 않게 켜진 채로 있었고, 비정상적으로 높은 온도가 기록됐다고 거의 확실하게 결론 지을 수 있다. 또한, 아웃라이어를 탈락시키지 않으면, 우리의 데이터 집합의 평균은 (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89.67도인데, 만약 우리가 아웃라이어를 탈락시킬 경우, 평균은 (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70.55 이다.
  - 아웃라이어는 사람에 실수에 원인이 있을 수도 있으며 이 방의 평균 온도가 거의 90도에 임박했다고 말하기 확실하지 않으므로, 우리의 아웃라이러를 탈락 시켜야 한다.
10
(종종)아웃라이어를 계속 보유하는 것의 중요성을 알아야 한다. 어떤 아웃라이어들은 데이터 집합에서 탈락돼야 하는데, 부정확하거나 오해할 수 있는 방식으로 오류나 왜곡된 결과를 불러오기 때문이다. 하지만 어떤 아웃라이어들은 계속 간직해 둬야 한다. 만약, 예를 들어, 한 아웃라이어가 정말로 관련이 있는 것 같거나(이건 오류의 결과가 아니다) 연구 중인 현상을 새로운 시각으로 바라보게 해줄 때는 즉각 빼면 안 된다. 과학 실험은 아웃라이어와 함께 다룰 때 특히 민감한 상태이다. 오류가 되는 아웃라이어를 빼는 것은 새로운 트렌드나 발견을 뜻하는 정보를 빼는 것이 될 수도 있다.
- 예를 들어, 양식장의 물고기 크기를 키우기 위한 새로운 약을 제조한다고 가정해보자. 우리는 전에 썼던 데이터 집합을 사용할 것인데 ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), 이번에는 각각의 점은 태어날 때부터 다양한 실험적인 약품으로 처리가 된 물고기의 질량을 나타낼 것이다(단위는 그램). 다른 말로는, 첫 번째 약은 물고기의 질량을 71 그램으로 만들었고, 두 번째 약은 다른 물고기의 질량을 70 그램으로 만들었으며, 나머지도 동일하다. 이 상황에서 300은 아직도 큰 아웃라이어지만, 빼지 말아야 하는데, 오류 때문이 아니라는 전제 하에, 우리의 실험에서 뜻 깊은 성공을 나타내기 때문이다. 300 그램 질량의 물고기를 만들어낸 약은 다른 약들보다 더 좋은 결과를 냈기 때문에 이 부분이 우리의 데이터 집합에서 제일 덜 중요하기보다도 가장 중요하다.
광고