코사장의 코딩 놀이터
반응형

전체 글 75

9. 데이터 기술 통계

데이터 분석을 위한 기술 통계는 데이터의 형태와 특성을 요약하고 이해하는 데 중요한 도구입니다. 여기에는 다양한 방법과 측정치가 사용되며, 각각의 개념은 데이터를 다루는 방식에 따라 다른 통찰을 제공합니다.1. 깊이 (Depth)데이터에서 각 점의 위치를 중심으로 한 순서를 정의하는 측정치입니다. 깊이는 데이터 내에서 특정 점이 중앙에 얼마나 가까운지를 나타내며, 이를 통해 데이터의 중앙값 또는 다른 중심 경향 측정을 평가할 수 있습니다. 예를 들어, 중앙값은 가장 깊이가 큰 값으로 간주됩니다.2. 문자값 (Letter Value)대규모 데이터 세트에서 백분위수와 유사한 방식으로 데이터의 분포를 요약하는 데 사용됩니다. 문자값은 데이터를 동등한 부분으로 나누는 강력한 방법으로, 각 구간의 중앙값(또는 다..

EDA 2024.05.06

8. 탐색적 데이터 분석(EDA)에서의 4R

탐색적 데이터 분석(EDA)의 과정에서 4R은 데이터 분석을 보다 효과적으로 수행하도록 돕는 중요한 원칙들입니다. 이 4R은 Resistance, Residuals, Re-expression, Revelation을 의미하며, 각각의 개념은 데이터 분석을 깊이 있게 수행하는 데 필수적인 요소입니다.1. Resistance (저항성)Resistance은 통계적 요약이나 모델이 이상치(outliers)와 같은 극단적인 값에 얼마나 저항하는가를 의미합니다. 저항성이 높은 방법은 데이터의 비정상적인 변동이 결과에 미치는 영향을 최소화합니다. 예시:중앙값은 평균에 비해 이상치에 대한 저항성이 높습니다. 예를 들어, 집값 데이터에서 극단적으로 높거나 낮은 가격이 포함되어 있을 경우, 평균보다 중앙값이 이러한 이상치의..

EDA 2024.05.06

7. 데이터 선택

데이터 과학 및 머신러닝 프로젝트에서 데이터 선택은 중요한 전처리 단계 중 하나입니다. 데이터 선택에는 인스턴스 선택, 특성 선택, 차원 선택이 포함됩니다. 각기 다른 목적과 방법론을 가지고 있으며, 이를 통해 데이터의 효율성을 높이고, 모델의 성능을 최적화할 수 있습니다.1. 인스턴스 선택 (Instance Selection)인스턴스 선택은 데이터셋에서 유용하고 대표적인 데이터 샘플(인스턴스)을 선택하는 과정입니다. 이 과정은 특히 데이터셋이 매우 크거나, 노이즈가 많은 데이터를 포함하고 있을 때 유용합니다. 인스턴스 선택을 통해 학습 시간을 줄이고, 모델의 일반화 능력을 향상시킬 수 있습니다. 예시: 트레인-테스트 세트 분할을 예시로 들고, 다양한 임의 추출 방법에 대해 설명하겠습니다.트레인-테스트 ..

EDA 2024.05.05

6. 데이터 변환

데이터 분석에서 데이터 변환은 원본 데이터를 더 유용하거나 분석하기 쉬운 형태로 변경하는 과정을 말합니다. 데이터 변환은 선형 변환과 비선형 변환으로 나눌 수 있습니다. 각각의 변환 방법은 데이터의 특성과 분석 목적에 따라 사용됩니다. 이 글에서는 선형 변환과 비선형 변환의 개념을 소개하고, 각각에 대한 예시를 통해 이해를 돕고자 합니다.1. 선형 변환 (Linear Transformation)선형 변환은 데이터의 원래 관계를 유지하면서 모든 데이터 포인트를 일정한 비율로 확장하거나 축소하는 방법입니다. 이 변환은 주로 데이터의 스케일을 조정하거나, 다른 변수와의 비교를 용이하게 하기 위해 사용됩니다. 예시: 표준화 (Standardization)표준화는 데이터에서 평균을 빼고 표준편차로 나누어주는 선형..

EDA 2024.05.05

5. 데이터 결합 기술

데이터 분석에서 다양한 소스의 데이터를 결합하는 것은 깊은 통찰력을 얻기 위해 중요한 단계입니다. 이 글에서는 데이터 결합의 주요 방법들인 Outer Join, Inner Join, Left Join, Union, 및 Cross Join에 대해 설명하고, 구체적인 예시를 통해 각 방법을 이해해 보겠습니다.데이터셋 준비두 데이터셋 A와 B를 다음과 같이 가정합니다.  데이터셋 A: | ID | Name ||----|----------|| 1 | Alice || 2 | Bob || 4 | Charlie |  데이터셋 B: | ID | Salary ||----|----------|| 2 | 50000 || 3 | 60000 || 4 | 55000 | 1. ..

EDA 2024.05.05

4. 데이터 전처리의 중요성과 기본 단계

데이터 전처리는 데이터 분석의 성공을 좌우하는 매우 중요한 단계입니다. 데이터의 품질과 구조를 개선하여 분석 결과의 신뢰도를 높이고, 모델의 성능을 최적화합니다. 이 글에서는 데이터 전처리의 핵심 요소를 자세히 살펴보겠습니다.데이터 유형데이터 전처리를 시작하기 전에 데이터 유형을 이해하는 것이 중요합니다. 데이터는 크게 정형 데이터, 반정형 데이터, 비정형 데이터로 분류됩니다. 각 유형에 따라 적용해야 하는 전처리 기술이 다를 수 있습니다.변수의 역할변수는 데이터를 구성하는 요소로, 각 변수는 데이터 내에서 특정 역할을 수행합니다. 변수의 역할을 이해하는 것은 데이터를 올바르게 처리하고 분석하는 데 필수적입니다. 예를 들어, 목표 변수(target variable)는 예측 모델링에서 결과를 예측하는 데 ..

EDA 2024.05.05

3. 데이터 수집과 정제 과정

데이터 수집 오차와 편향데이터 수집 과정에서 발생할 수 있는 오류는 크게 세 가지로 구분됩니다:표본 오차 (Sampling Error): 모집단에서 취한 표본이 모집단을 완벽하게 대표하지 못할 때 발생하는 오차입니다. 이는 표본의 크기를 증가시키면 감소시킬 수 있습니다.측정 오차 (Measurement Error): 데이터를 측정하는 도구의 부정확성 또는 데이터 입력 오류로 인해 발생합니다. 예를 들어, 설문 응답자가 질문을 잘못 이해하여 잘못된 정보를 제공하는 경우가 여기에 해당합니다.선택 편향 (Selection Bias): 데이터를 선택하는 과정에서 일어나는 비무작위적인 선택으로 인해 발생합니다. 예를 들어, 특정 인구 집단만을 대상으로 조사를 하면 그 결과는 전체 인구를 대표하기 어렵습니다.Dat..

EDA 2024.05.05

2. 데이터 유형 및 관리 전략

정형, 반정형, 비정형 데이터데이터는 크게 정형, 반정형, 비정형의 세 가지 유형으로 나눌 수 있습니다.정형 데이터 (Structured Data): 미리 정해진 형식과 필드를 가진 데이터로, 데이터베이스 테이블에 쉽게 저장하고 SQL과 같은 쿼리 언어로 쉽게 조회할 수 있습니다. 예를 들어, 엑셀의 스프레드시트나 관계형 데이터베이스의 고객 목록이 여기에 해당합니다.반정형 데이터 (Semi-structured Data): 구조는 있지만, 정형 데이터처럼 엄격하지 않습니다. XML, JSON 파일이 대표적인 예로, 데이터에 태그나 마커가 포함되어 있어 데이터를 구조화하는 데 도움을 줍니다.비정형 데이터 (Unstructured Data): 특정 형식이나 모델 없이 저장된 데이터로, 텍스트, 비디오, 이미지..

EDA 2024.05.05

1. 데이터 과학 기초 이해

변수와 상수데이터 분석과 통계에서 '변수'와 '상수'는 데이터의 기본 구성 요소입니다. 변수(variable) 는 값이 변할 수 있는 양을 의미하며, 데이터를 수집하는 과정에서 다양한 값을 가질 수 있습니다. 예를 들어, 설문조사에서 응답자의 나이나 소득은 각 응답자마다 다를 수 있으므로 변수입니다.반면에, 상수(constant) 는 모든 경우에 걸쳐 동일하게 유지되는 값입니다. 예를 들어, 원주율 π(3.14159...)는 수학적 계산에서 상수로 사용됩니다.측정 척도: 데이터의 유형 이해데이터를 분석할 때는 적절한 측정 척도를 이해하는 것이 중요합니다. 측정 척도는 크게 네 가지로 나뉩니다:명목척도 (Nominal Scale): 데이터를 범주화하여 이름을 붙이는 척도입니다. 예를 들어, 성별(남자, 여..

EDA 2024.05.05

[Python] ValueError: invalid literal for int() with base 10: 'XYZ' 오류 이해 및 해결하기

파이썬에서 데이터 타입 변환을 시도할 때 종종 마주치는 오류 중 하나가 ValueError: invalid literal for int() with base 10: 'XYZ'입니다. 이 오류 메시지는 주로 문자열을 정수형으로 변환하려 할 때 해당 문자열이 정수로 변환될 수 없을 때 발생합니다. 이 글에서는 이 오류의 원인과 해결 방법을 자세히 알아보겠습니다. 오류 발생 원인 int() 함수는 문자열이나 다른 타입의 데이터를 정수로 변환할 때 사용됩니다. 이 함수가 제대로 작동하려면 입력 값이 숫자로만 구성된 문자열이어야 합니다. 다음 예제에서는 오류가 발생하는 상황을 보여 줍니다 number = int("XYZ") # 'XYZ'는 숫자가 아니므로 오류 발생 여기서 "XYZ"는 숫자가 아닌 문자열이기 때문..

코딩언어/python 2024.04.23
반응형