티스토리 뷰
세상의 모든 분야와 영역에서 끊임없이 데이터가 생산되고 있다.
이렇게 생산된 데이터를 잘 수집하여 분석하면 세상을 이해하는 유용한 지식과 통찰력을 얻을 수 있다.
하지만 데이터 분석자가 데이터 분석 과정에 들어가기 전에 정제되지 않은 데이터를 잘 처리해 주지 않으면 제대로 된 분석 결과를 얻을 수 없다.
특히 데이터의 이상치와 결측치는 데이터 분석을 오류에 빠뜨리는 원인이 되므로 데이터 전처리 과정에서 잘 처리해 주어야 좋은 분석 결과를 기대할 수 있다.
이상치는 정상적인 범위 밖에 있는 값으로, 단 하나라도 존재하면 분석 전체에 큰 영향을 미칠 수 있다.
가령 하나의 이상치가 데이터 평균을 크게 바꿔 놓을 수 있다.
이상치는 데이터를 수집하는 과정에서 오류가 개입되어 발생한 것으로 간주되므로 찾아서 제거해야 한다.
이상치를 이해하기 위해서는 데이터의 분포를 가늠하는 데 유용한 사분위수에 대해 알 필요가 있다.
어떤 하나의 속성에 대하여 알려진 데이터 값들을 일렬로 작은 값부터 큰 값의 순서로 나열했을 때 50% 위치에 있는 값이 중앙값이다.
크기가 같은 값이 복수일 경우에도 모두 순위를 세어 준다.
이때 자료 개수가 홀수이면 앞에서 센 순위와 뒤에서 센 순위가 같은 값이 중앙값이다.
자료 개수가 짝수이면 중앙에 있는 두 값의 평균이 중앙값이다.
중앙값을 제 2사분위수라고도 한다.
중앙값보다 작은 값들의 중앙값을 제1사분위수라고 하고 중앙값보다 큰 값들의 중앙값을 제3사분위수라고 한다.
사분위수를 활용하여 이상치를 시각적으로 살펴보기 쉽게 해 주는 것이 상자 수염 도표이다.
Q1 = 제1사분위수, Q3 = 제3사분위수
[간단 정리]
전처리 과정에서 좋은 분석 결과를 얻기 위해서 데이터의 이상치와 결측치를 잘 처리해 주어야 한다.
전처리 과정 : 데이터 분석 및 기계 학습 모델을 훈련시키기 전에 데이터를 정리하고 준비하는 단계
전처리 과정 관련 글 ↓
2023.09.21 - [꿀팁] - 단돈 이찬원 딥러닝이란 (간단 정리)
단돈 이찬원 딥러닝이란 (간단 정리)
딥러닝은 컴퓨터가 데이터를 사용하여 스스로 학습하는 방법이다. 쉽게 설명하면 두 발 자전거를 탈 때 처음에는 어려웠지만 계속 타고 많은 연습을 통해 점점 능숙해지는 것과 비슷하다. 딥러
beneficialinformation.tistory.com
2023.09.06 - [꿀팁] - 데이터 패턴을 통해 학습하는 머신러닝이란 (간단 정리)
데이터 패턴을 통해 학습하는 머신러닝이란 (간단 정리)
머신 러닝이란 컴퓨터 시스템이 데이터에서 패턴을 학습하고 결정을 내릴 수 있는 기술이다. 이를 위해 알고리즘과 통계적 기법을 사용해 컴퓨터 모델을 훈련시킨다. ※기계학습이라고도 불리
beneficialinformation.tistory.com
.
'꿀팁' 카테고리의 다른 글
광고 시장의 탄력성 (간단 정리) (31) | 2023.09.27 |
---|---|
핵분열 연쇄 반응에 이용되는 우라늄-235 (간단 정리) (37) | 2023.09.26 |
단돈 이찬원 지속 가능한 발전이란 (70) | 2023.09.22 |
단돈 이찬원 딥러닝이란 (간단 정리) (49) | 2023.09.21 |
단돈 이찬원 지구 자기장을 만드는 전류 (간단 정리) (36) | 2023.09.20 |
- 번개
- 핵반응
- 간단정리
- 반도체
- 런던 협약
- 컴퓨터
- 수소
- 전기
- 친환경
- 데이터
- 물
- 기후 협약
- 단돈 이찬원
- 몬트리올 의정서
- 지구 온난화
- 에너지
- 람사르 협약
- 이산화탄소
- 지열 발전
- 빅데이터
- 전력
- 신재생 에너지
- 간단 정리
- 구글
- 온실 가스
- 애플
- 인공지능
- 지속 가능한 발전
- 환경
- 기술
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |