반응형
정형, 반정형, 비정형 데이터
데이터는 크게 정형, 반정형, 비정형의 세 가지 유형으로 나눌 수 있습니다.
- 정형 데이터 (Structured Data): 미리 정해진 형식과 필드를 가진 데이터로, 데이터베이스 테이블에 쉽게 저장하고 SQL과 같은 쿼리 언어로 쉽게 조회할 수 있습니다. 예를 들어, 엑셀의 스프레드시트나 관계형 데이터베이스의 고객 목록이 여기에 해당합니다.
- 반정형 데이터 (Semi-structured Data): 구조는 있지만, 정형 데이터처럼 엄격하지 않습니다. XML, JSON 파일이 대표적인 예로, 데이터에 태그나 마커가 포함되어 있어 데이터를 구조화하는 데 도움을 줍니다.
- 비정형 데이터 (Unstructured Data): 특정 형식이나 모델 없이 저장된 데이터로, 텍스트, 비디오, 이미지, 소셜 미디어 포스트 등이 이에 해당합니다. 이 데이터는 정보를 추출하기 위해 복잡한 처리 과정이 필요할 수 있습니다.
데이터 수집 방법
데이터 수집은 크게 1차, 2차, 3차 데이터로 분류할 수 있습니다:
- 1차 데이터 (Primary Data): 직접 조사나 실험을 통해 처음부터 수집된 데이터입니다. 예를 들어, 설문조사, 인터뷰 등이 있으며, 특정 연구 목적에 맞춤형으로 수집됩니다.
- 2차 데이터 (Secondary Data): 이미 다른 목적으로 수집된 데이터를 재사용하는 것입니다. 예를 들어, 정부 통계, 보고서, 학술 연구 등이 있습니다.
- 3차 데이터 (Tertiary Data): 2차 데이터를 바탕으로 요약, 집계, 분석된 정보입니다. 인사이트나 결론을 제공하는 보고서나 분석 문서가 여기에 속합니다.
수집 비용과 정보의 가치 측면에서 1차 데이터는 비용이 가장 높지만 가장 정확하고 관련성 높은 정보를 제공합니다. 2차 및 3차 데이터는 비용 효율성이 높으나, 때로는 정보가 구식이거나 불완전할 수 있습니다.
데이터 관련 용어 설명
데이터 관리와 관련된 중요한 용어들을 이해하는 것은 데이터 전략을 수립하는 데 필수적입니다:
- Dark Data: 조직에서 수집되었으나 아직 분석되지 않아 가치를 발휘하지 못하는 데이터입니다.
- Data Lake: 다양한 소스에서 오는 구조화되지 않은 데이터를 그대로 저장하는 저장소입니다. 데이터 호수는 빅데이터 분석과 머신러닝을 위한 유연한 데이터 접근성을 제공합니다.
- Data Warehouse: 정형 데이터를 분석 목적으로 통합, 정리하여 저장하는 시스템입니다. 데이터 웨어하우스는 복잡한 쿼리와 보고서 작성에 최적화되어 있습니다.
- Database: 데이터를 구조화하여 효율적으로 관리, 수정, 검색할 수 있게 돕는 시스템입니다. 일반적으로 관계형 데이터베이스가 많이 사용됩니다.
- Data Mart: 특정 부서나 목적을 위해 설계된 데이터 웨어하우스의 하위 집합입니다. 데이터 마트는 특정 사용자 그룹의 요구를 충족시키는 데 초점을 맞춥니다.
이 용어들 각각은 데이터 관리 전략에서 중요한 역할을 하며, 서로 보완하면서도 명확한 차이점을 가지고 있습니다. 데이터 호수는 유연성을, 데이터 웨어하우스는 성능을, 데이터베이스는 일상적인 데이터 접근과 관리의 효율성을 강조합니다.
이 포스팅은 데이터 과학의 기초적인 개념부터 데이터 수집 및 관리 전략에 이르기까지 포괄적으로 설명하고 있습니다. 데이터와 관련된 다양한 용어와 개념을 정확하게 이해하고 이를 적절히 활용하는 것이 중요합니다.
반응형
'EDA' 카테고리의 다른 글
6. 데이터 변환 (0) | 2024.05.05 |
---|---|
5. 데이터 결합 기술 (0) | 2024.05.05 |
4. 데이터 전처리의 중요성과 기본 단계 (0) | 2024.05.05 |
3. 데이터 수집과 정제 과정 (0) | 2024.05.05 |
1. 데이터 과학 기초 이해 (0) | 2024.05.05 |