티스토리 뷰

728x90

세상의 모든 분야와 영역에서 끊임없이 데이터가 생산되고 있다.

이렇게 생산된 데이터를 잘 수집하여 분석하면 세상을 이해하는 유용한 지식과 통찰력을 얻을 수 있다.

하지만 데이터 분석자가 데이터 분석 과정에 들어가기 전에 정제되지 않은 데이터를 잘 처리해 주지 않으면 제대로 된 분석 결과를 얻을 수 없다.

특히 데이터의 이상치와 결측치는 데이터 분석을 오류에 빠뜨리는 원인이 되므로 데이터 전처리 과정에서 잘 처리해 주어야 좋은 분석 결과를 기대할 수 있다.

 

이상치는 정상적인 범위 밖에 있는 값으로, 단 하나라도 존재하면 분석 전체에 큰 영향을 미칠 수 있다.

가령 하나의 이상치가 데이터 평균을 크게 바꿔 놓을 수 있다.

 

이상치는 데이터를 수집하는 과정에서 오류가 개입되어 발생한 것으로 간주되므로 찾아서 제거해야 한다.

이상치를 이해하기 위해서는 데이터의 분포를 가늠하는 데 유용한 사분위수에 대해 알 필요가 있다.

어떤 하나의 속성에 대하여 알려진 데이터 값들을 일렬로 작은 값부터 큰 값의 순서로 나열했을 때 50% 위치에 있는 값이 중앙값이다.

크기가 같은 값이 복수일 경우에도 모두 순위를 세어 준다.

이때  자료 개수가 홀수이면 앞에서 센 순위와 뒤에서 센 순위가 같은 값이 중앙값이다.

자료 개수가 짝수이면 중앙에 있는 두 값의 평균이 중앙값이다.

중앙값을 제 2사분위수라고도 한다.

중앙값보다 작은 값들의 중앙값을 제1사분위수라고 하고 중앙값보다 큰 값들의 중앙값을 제3사분위수라고 한다.

 

사분위수를 활용하여 이상치를 시각적으로 살펴보기 쉽게 해 주는 것이 상자 수염 도표이다.

Q1 = 제1사분위수,  Q3 = 제3사분위수

 

[간단 정리]

전처리 과정에서 좋은 분석 결과를 얻기 위해서 데이터의 이상치와 결측치를 잘 처리해 주어야 한다.

전처리 과정 : 데이터 분석 및 기계 학습 모델을 훈련시키기 전에 데이터를 정리하고 준비하는 단계

 

 

전처리 과정 관련 글  ↓

 

2023.09.21 - [꿀팁] - 단돈 이찬원 딥러닝이란 (간단 정리)

 

단돈 이찬원 딥러닝이란 (간단 정리)

딥러닝은 컴퓨터가 데이터를 사용하여 스스로 학습하는 방법이다. 쉽게 설명하면 두 발 자전거를 탈 때 처음에는 어려웠지만 계속 타고 많은 연습을 통해 점점 능숙해지는 것과 비슷하다. 딥러

beneficialinformation.tistory.com

 

 

2023.09.06 - [꿀팁] - 데이터 패턴을 통해 학습하는 머신러닝이란 (간단 정리)

 

데이터 패턴을 통해 학습하는 머신러닝이란 (간단 정리)

머신 러닝이란 컴퓨터 시스템이 데이터에서 패턴을 학습하고 결정을 내릴 수 있는 기술이다. 이를 위해 알고리즘과 통계적 기법을 사용해 컴퓨터 모델을 훈련시킨다. ※기계학습이라고도 불리

beneficialinformation.tistory.com

 

 

 

 

.

728x90
300x250
공지사항
최근에 올라온 글
최근에 달린 댓글
링크
«   2024/07   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
글 보관함