코사장의 코딩 놀이터

EDA

3. 데이터 수집과 정제 과정

코사장_ 2024. 5. 5. 14:16
반응형

데이터 수집 오차와 편향

데이터 수집 과정에서 발생할 수 있는 오류는 크게 세 가지로 구분됩니다:

  1. 표본 오차 (Sampling Error): 모집단에서 취한 표본이 모집단을 완벽하게 대표하지 못할 때 발생하는 오차입니다. 이는 표본의 크기를 증가시키면 감소시킬 수 있습니다.
  2. 측정 오차 (Measurement Error): 데이터를 측정하는 도구의 부정확성 또는 데이터 입력 오류로 인해 발생합니다. 예를 들어, 설문 응답자가 질문을 잘못 이해하여 잘못된 정보를 제공하는 경우가 여기에 해당합니다.
  3. 선택 편향 (Selection Bias): 데이터를 선택하는 과정에서 일어나는 비무작위적인 선택으로 인해 발생합니다. 예를 들어, 특정 인구 집단만을 대상으로 조사를 하면 그 결과는 전체 인구를 대표하기 어렵습니다.

Data Munging

Data Munging은 데이터를 분석하기 전에 원하는 형태로 데이터를 정리하고 변환하는 과정을 의미합니다. 데이터 정제(Data Cleaning)와는 약간 다르며, 데이터 먼징 과정에는 누락된 값 처리, 데이터 형식 변경, 잘못된 데이터 수정 등이 포함됩니다. 예를 들어, 날짜 형식이 다른 데이터를 표준 형식으로 통일하는 작업이 이에 속합니다.

깔끔한 데이터 (Tidy Data)

깔끔한 데이터는 분석하기 쉽게 정리된 데이터를 말합니다. Hadley Wickham의 정의에 따르면, 깔끔한 데이터는 각 변수가 하나의 열을 형성하고, 각 관측치가 하나의 행을 형성하며, 각 관측 유닛의 종류가 하나의 테이블을 형성하는 형태를 가집니다. 이런 데이터 구조는 데이터 분석과 시각화에서 매우 유용합니다.

 

Data Wrangling Process

Data Wrangling Process는 데이터를 수집하고 깔끔한 형태로 정리하는 전체 과정을 말합니다. 이 과정에는 데이터 수집, 먼징, 데이터 정제 및 데이터 변형 단계가 포함됩니다. 데이터 랭글링은 데이터 과학 프로젝트에서 초기 데이터 분석을 위한 준비 단계로서 중요합니다.

1. Discovering (발견)

데이터 랭글링의 첫 단계는 발견입니다. 이 단계에서는 사용할 데이터를 파악하고 이해하는 과정이 포함됩니다. 데이터의 출처, 구조, 특성 및 포함된 변수들을 살펴보며, 데이터의 초기 탐색을 통해 문제점이나 잠재적인 정보를 발견합니다. 예를 들어, 데이터셋의 크기, 누락된 값의 양, 이상치의 존재 여부 등을 조사합니다.

2. Structuring (구조화)

구조화 단계에서는 데이터를 분석하기 용이한 형태로 조직화합니다. 데이터의 형식을 변경하거나, 데이터를 더 관리하기 쉬운 형태로 재배열합니다. 예를 들어, 비정형 데이터를 구조화된 형태로 변환하거나, 여러 출처에서 오는 데이터를 통합하여 단일 데이터 모델로 만드는 작업을 포함합니다.

3. Cleaning (정제)

데이터의 정제 과정은 불완전하거나 잘못된 데이터를 수정하거나 제거하는 과정입니다. 이 단계는 누락된 데이터를 처리하고, 중복된 정보를 제거하며, 데이터 형식을 일관되게 만들어줍니다. 예를 들어, 날짜 형식이 다르거나, 잘못된 입력으로 인한 오탈자를 수정하는 작업이 여기에 해당합니다.

4. Enriching (풍부하게 만들기)

데이터를 풍부하게 만드는 단계에서는 추가 정보를 결합하여 데이터의 가치를 높입니다. 외부 데이터 소스에서 가져온 정보를 기존 데이터에 추가하거나, 데이터 간의 관계를 분석하여 새로운 통찰력을 제공할 수 있습니다. 예를 들어, 고객 데이터에 시장 조사 데이터를 결합하여 고객 세분화를 개선할 수 있습니다.

5. Validating (검증)

검증 단계는 데이터가 특정 품질 기준이나 규칙을 충족하는지 확인하는 과정입니다. 데이터의 정확성, 일관성, 완전성을 검증하고, 데이터가 분석 목적에 적합한지 평가합니다. 데이터 모델이 기대하는 바에 부합하는지 확인하는 것이 중요합니다.

6. Publishing (발행)

마지막 단계인 발행에서는 정제하고 변형된 데이터를 저장하고, 분석가나 비즈니스 사용자가 접근할 수 있도록 공개합니다. 데이터는 보고서, 대시보드, 데이터 웨어하우스 등 다양한 형태로 발행될 수 있습니다. 데이터의 보안, 접근 권한 설정, 지속적인 유지관리도 이 단계에서 중요한 고려사항입니다.


이 포스팅은 데이터 수집에서 발생할 수 있는 오류와 편향을 이해하고, 데이터를 분석하기 좋은 형태로 정리하는 과정인 데이터 먼징, 깔끔한 데이터, 그리고 데이터 랭글링 프로세스에 대해 설명하고 있습니다. 이러한 지식은 데이터를 보다 정확하게 분석하고 활용하는 데 필수적입니다. 데이터 과학자 또는 분석가로서 데이터를 다루는 능력을 향상시키는 데 큰 도움이 될 것입니다.

반응형

'EDA' 카테고리의 다른 글

6. 데이터 변환  (0) 2024.05.05
5. 데이터 결합 기술  (0) 2024.05.05
4. 데이터 전처리의 중요성과 기본 단계  (0) 2024.05.05
2. 데이터 유형 및 관리 전략  (0) 2024.05.05
1. 데이터 과학 기초 이해  (0) 2024.05.05