중심경향치(central tendency measures)란?
- 자료의 중심을 나타내는 숫자
- 자료 전체를 대표
- 평균, 중간값, 최빈값 등이 있다
평균
- 평균(mean): 자료의 합을 자료의 갯수로 나눈 값
다음과 같은 리스트가 있을 때:
x = [100, 100, 200, 400, 500]
numpy를 이용해 다음과 같이 평균을 구할 수 있다.
import numpy
numpy.mean(x)
260.0
평균은 극단적인 값(outliers)의 영향을 잘 받는다. 위의 x에서 500 하나를 1700으로 바꾸었을 뿐이지만 전체 평균은 크게 변한다.
y = [100, 100, 200, 400, 1700]
numpy.mean(y)
500.0
소득처럼 분포가 비대칭적인 경우에도 평균이 자료를 잘 대표하기 어렵다.
사칙연산 중 덧셈이 가능해야 하므로, 등간척도/비율척도에서 쓸 수 있다. 서열척도와 명목척도에서는 쓸 수 없다.
중간값
- 중간값(median): 자료를 크기 순으로 정렬했을 때 정 가운데에 있는 값
- 자료의 상위 50%와 하위 50%를 가르는 지점
- '중앙값' 또는 '중위수'라고도 한다.
numpy.median(x)
200.0
극단적인 값에 영향을 받지 않는다.
numpy.median(y)
200.0
데이터가 짝수 개일 경우에는 가운데 두 값의 평균
numpy.median([100, 200, 300, 400])
250.0
자료를 크기 순으로 정렬할 수만 있으면 되므로 서열척도/등간척도/비율척도에서 쓸 수 있다. 명명척도에서는 쓸 수 없다.
최빈값
- 최빈값(mode): 가장 빈번하게 관찰/측정되는 값
from scipy.stats import mode
mode(x)
ModeResult(mode=array([100]), count=array([2]))
모든 척도에 가능하나 주로 범주변수(명명척도, 서열척도)에 사용
https://mindscale.kr/course/basic-stat-python/3/
중심경향치 (평균, 최빈치, 중앙값)
mindscale.kr
'Python > Python 용어 정리' 카테고리의 다른 글
Python Basic : set.intersection (set 교집합 구하기) (0) | 2022.11.11 |
---|---|
[Python] 정규 표현식 정리 #1 - 기초 (0) | 2022.10.28 |
enumerate( ) 함수 (0) | 2022.10.12 |
리스트에 map 사용 (0) | 2022.10.07 |
flatten() 함수 (0) | 2022.07.28 |