데이터 분석을 위한 기술 통계는 데이터의 형태와 특성을 요약하고 이해하는 데 중요한 도구입니다. 여기에는 다양한 방법과 측정치가 사용되며, 각각의 개념은 데이터를 다루는 방식에 따라 다른 통찰을 제공합니다.
1. 깊이 (Depth)
데이터에서 각 점의 위치를 중심으로 한 순서를 정의하는 측정치입니다. 깊이는 데이터 내에서 특정 점이 중앙에 얼마나 가까운지를 나타내며, 이를 통해 데이터의 중앙값 또는 다른 중심 경향 측정을 평가할 수 있습니다. 예를 들어, 중앙값은 가장 깊이가 큰 값으로 간주됩니다.
2. 문자값 (Letter Value)
대규모 데이터 세트에서 백분위수와 유사한 방식으로 데이터의 분포를 요약하는 데 사용됩니다. 문자값은 데이터를 동등한 부분으로 나누는 강력한 방법으로, 각 구간의 중앙값(또는 다른 위치 측정값)을 계산하여 데이터의 분포를 나타냅니다.
3. 5숫자요약 (Five-number summary)
데이터 세트를 요약하는 데 사용되는 다섯 개의 통계 수치로, 최소값, 1사분위수(Q1), 중앙값, 3사분위수(Q3), 최대값을 포함합니다. 이 요약은 상자 그림(Boxplot)으로 시각화되어 데이터의 분포, 중심 경향, 이상치를 한눈에 파악할 수 있게 합니다.
4. 3평균과 4분위수 범위 (Three averages and four quartile ranges)
이 개념은 데이터를 더욱 세밀하게 분석하기 위해 세 개의 평균(산술, 기하, 조화)과 데이터 분포의 네 개의 분위수 범위를 사용합니다. 이를 통해 데이터의 평균값과 분포의 범위를 다양한 방법으로 평가할 수 있습니다.
5. 왜도와 첨도 (Skewness and Kurtosis)
- 왜도(Skewness): 데이터의 대칭성을 측정합니다. 왜도가 0에 가까우면 분포가 대칭이라는 의미이며, 양수나 음수의 값은 데이터가 한쪽 방향으로 치우쳐져 있음을 나타냅니다.
- 첨도(Kurtosis): 데이터 분포의 뾰족한 정도를 측정하며, 정규분포와 비교하여 더 뾰족하거나 평평한 정도를 나타냅니다. 첨도가 높을수록 이상치가 많은 것을 의미할 수 있습니다.
6. 펜스 (Fences)
이상치를 식별하기 위해 사용되는 방법으로, 상자 그림의 '내부 펜스'와 '외부 펜스'를 구분합니다. 내부 펜스는 1사분위수와 3사분위수 사이의 거리(IQR)의 1.5배를 더하거나 뺀 값으로 계산되며, 외부 펜스는 IQR의 3배를 적용합니다. 이 경계를 벗어나는 데이터 포인트는 일반적으로 이상치로 간주됩니다.
이러한 기술 통계는 데이터를 탐색하고, 초기 분석에서 데이터의 특성을 파악하는 데 매우 중요합니다. 각각의 측정치는 데이터의 다른 측면을 강조하며, 복합적으로 사용될 때 데이터 분석가에게 귀중한 통찰을 제공할 수 있습니다.
'EDA' 카테고리의 다른 글
8. 탐색적 데이터 분석(EDA)에서의 4R (0) | 2024.05.06 |
---|---|
7. 데이터 선택 (0) | 2024.05.05 |
6. 데이터 변환 (0) | 2024.05.05 |
5. 데이터 결합 기술 (0) | 2024.05.05 |
4. 데이터 전처리의 중요성과 기본 단계 (0) | 2024.05.05 |