티스토리 뷰
세상의 모든 분야와 영역에서 끊임없이 데이터가 생산되고 있다.
이렇게 생산된 데이터를 잘 수집하여 분석하면 세상을 이해하는 유용한 지식과 통찰력을 얻을 수 있다.
하지만 데이터 분석자가 데이터 분석 과정에 들어가기 전에 정제되지 않은 데이터를 잘 처리해 주지 않으면 제대로 된 분석 결과를 얻을 수 없다.
특히 데이터의 이상치와 결측치는 데이터 분석을 오류에 빠뜨리는 원인이 되므로 데이터 전처리 과정에서 잘 처리해 주어야 좋은 분석 결과를 기대할 수 있다.
이상치는 정상적인 범위 밖에 있는 값으로, 단 하나라도 존재하면 분석 전체에 큰 영향을 미칠 수 있다.
가령 하나의 이상치가 데이터 평균을 크게 바꿔 놓을 수 있다.
이상치는 데이터를 수집하는 과정에서 오류가 개입되어 발생한 것으로 간주되므로 찾아서 제거해야 한다.
이상치를 이해하기 위해서는 데이터의 분포를 가늠하는 데 유용한 사분위수에 대해 알 필요가 있다.
어떤 하나의 속성에 대하여 알려진 데이터 값들을 일렬로 작은 값부터 큰 값의 순서로 나열했을 때 50% 위치에 있는 값이 중앙값이다.
크기가 같은 값이 복수일 경우에도 모두 순위를 세어 준다.
이때 자료 개수가 홀수이면 앞에서 센 순위와 뒤에서 센 순위가 같은 값이 중앙값이다.
자료 개수가 짝수이면 중앙에 있는 두 값의 평균이 중앙값이다.
중앙값을 제 2사분위수라고도 한다.
중앙값보다 작은 값들의 중앙값을 제1사분위수라고 하고 중앙값보다 큰 값들의 중앙값을 제3사분위수라고 한다.
사분위수를 활용하여 이상치를 시각적으로 살펴보기 쉽게 해 주는 것이 상자 수염 도표이다.
Q1 = 제1사분위수, Q3 = 제3사분위수
[간단 정리]
전처리 과정에서 좋은 분석 결과를 얻기 위해서 데이터의 이상치와 결측치를 잘 처리해 주어야 한다.
전처리 과정 : 데이터 분석 및 기계 학습 모델을 훈련시키기 전에 데이터를 정리하고 준비하는 단계
전처리 과정 관련 글 ↓
2023.09.21 - [꿀팁] - 단돈 이찬원 딥러닝이란 (간단 정리)
2023.09.06 - [꿀팁] - 데이터 패턴을 통해 학습하는 머신러닝이란 (간단 정리)
.
'꿀팁' 카테고리의 다른 글
광고 시장의 탄력성 (간단 정리) (31) | 2023.09.27 |
---|---|
핵분열 연쇄 반응에 이용되는 우라늄-235 (간단 정리) (37) | 2023.09.26 |
단돈 이찬원 지속 가능한 발전이란 (70) | 2023.09.22 |
단돈 이찬원 딥러닝이란 (간단 정리) (49) | 2023.09.21 |
단돈 이찬원 지구 자기장을 만드는 전류 (간단 정리) (36) | 2023.09.20 |