평균, 중앙값, 모드는 모두 통계에서 중심 경향의 척도입니다. 각기 다른 방식으로 데이터 세트에서 어떤 값이 전형적이거나 대표적인지 알려줍니다.
평균은 데이터 세트의 평균 값과 같으며 계산을 사용하여 찾습니다. 모든 숫자를 더하고 데이터 세트의 숫자 수로 나눕니다.
중앙값은 데이터 세트의 중앙 숫자입니다. 데이터 포인트를 최소에서 최대로 정렬하고 중앙 숫자를 찾습니다. 이것이 중앙값입니다. 중간에 두 개의 숫자가 있는 경우, 중앙값은 이 두 숫자의 평균입니다.
모드는 데이터 세트에서 가장 자주 발생하는 숫자입니다. 데이터 세트에서 각 숫자가 몇 번 발생하는지 계산합니다. 가장 높은 횟수를 가진 숫자가 모드입니다. 두 개 이상의 모드가 있어도 괜찮으며, 모든 숫자가 같은 횟수로 나타난다면 모드는 없습니다.
평균은 데이터 세트의 평균 값과 같습니다.
데이터 세트 1, 1, 2, 5, 6, 6, 9에 대해 중앙값은 5입니다.
데이터 세트 1, 1, 2, 6, 6, 9에 대해 중앙값은 4입니다. 2와 6의 평균을 취하면 (2+6)/2 = 4가 됩니다.
데이터 세트 x1 ≤ x2 ≤ x3 ≤ ... ≤ xn을 최소에서 최대로 정렬할 때, 중앙값은 데이터 값의 상위 절반과 하위 절반을 분리하는 데이터 포인트입니다.
모드는 데이터 세트에서 가장 자주 나타나는 값 또는 값입니다.
데이터 세트 1, 1, 2, 5, 6, 6, 9에 대해 모드는 1과 6입니다.
평균과 중앙값은 데이터의 중심 경향을 측정합니다. 일반적으로 우리는 평균 통계를 사용합니다.
다음과 같은 경우 중앙값을 선호합니다:
1. 데이터에 이상치가 포함되어 있습니다.
2. 데이터가 매우 치우쳐 있고 샘플 크기가 크지 않습니다
이 경우 이상치 또는 드문 극단값이 평균을 극적으로 변경할 수 있습니다.
중앙값은 극단값의 영향을 받지 않습니다.
평균이라는 단어는 한국어에서 여러 다른 단어의 동음이의어이며 수학 분야에서도 마찬가지로 모호합니다. 맥락에 따라 수학적이거나 통계적인 것인지에 따라 '평균'이라는 말의 의미는 변합니다. 데이터 세트에 관한 가장 간단한 수학적 정의에서 사용되는 평균은 산술 평균이며, 수학적 기대값 또는 평균으로도 알려져 있습니다. 이 형태에서 평균은 데이터 세트의 모든 값의 합을 값의 총 수로 나눈 중간 값입니다.
통계적 개념으로서의 중앙값은 데이터 샘플, 인구 또는 확률 분포를 두 부분으로 나누는 값입니다. 중앙값을 찾는 것은 본질적으로 나머지 숫자들 사이에 물리적 위치를 가진 데이터 샘플에서 값을 찾는 것을 포함합니다. 유한 숫자 목록의 중앙값을 계산할 때 데이터 샘플의 순서가 중요합니다. 일반적으로 값은 오름차순으로 나열되지만 값이 내림차순으로 나열되어도 다른 결과가 나오는 이유는 없습니다. 데이터 샘플의 총 값 수가 홀수인 경우 중앙값은 단순히 모든 값 목록의 중간 숫자입니다. 데이터 샘플에 짝수 값이 포함된 경우 중앙값은 중간 두 값의 평균입니다. 이것이 혼란스러울 수 있지만, 중앙값이 때때로 평균의 계산을 포함한다는 것을 기억하세요. 이 경우가 발생하면, 중앙값은 중간 두 값만을 포함하는 반면 평균은 데이터 샘플의 모든 값을 포함합니다. 데이터 샘플이 두 개뿐이거나 모든 값이 같고 짝수의 샘플이 있는 경우, 평균과 중앙값은 같습니다.
평균과 중앙값과 유사하게, 모드는 랜덤 변수와 인구에 대한 정보를 표현하는 방법으로 사용됩니다. 그러나 평균과 중앙값과는 달리, 모드는 수치가 아닌 값에도 적용할 수 있는 개념입니다. 예를 들어, Tostitos, Mission, XOCHiTL 브랜드를 비교할 때, 토르티야 칩 판매에서 XOCHiTL이 모드이며 Tostitos 및 Mission 브랜드 칩과 비교하여 3:2:1의 비율로 판매된다는 것이 밝혀지면, 이 비율은 재고를 결정하는 데 사용될 수 있습니다. 주어진 기간 동안 24개의 토르티야 칩 팩이 판매된 경우, 상점은 XOCHiTL 칩 12팩, Tostitos 8팩, Mission 4팩을 재고로 보관할 것입니다. 그러나 상점이 단순히 평균을 사용하여 각 브랜드의 8팩을 판매했다면, 고객이 XOCHiTL 칩만 원하는 경우 4개의 판매를 잃을 수 있습니다. 이 예에서 볼 수 있듯이, 어떤 데이터 샘플에 대한 결론을 도출할 때 모든 종류의 통계 값을 고려하는 것이 중요합니다.