데이터 전처리 과정에 대하여 (간단 정리)
세상의 모든 분야와 영역에서 끊임없이 데이터가 생산되고 있다. 이렇게 생산된 데이터를 잘 수집하여 분석하면 세상을 이해하는 유용한 지식과 통찰력을 얻을 수 있다. 하지만 데이터 분석자가 데이터 분석 과정에 들어가기 전에 정제되지 않은 데이터를 잘 처리해 주지 않으면 제대로 된 분석 결과를 얻을 수 없다. 특히 데이터의 이상치와 결측치는 데이터 분석을 오류에 빠뜨리는 원인이 되므로 데이터 전처리 과정에서 잘 처리해 주어야 좋은 분석 결과를 기대할 수 있다. 이상치는 정상적인 범위 밖에 있는 값으로, 단 하나라도 존재하면 분석 전체에 큰 영향을 미칠 수 있다. 가령 하나의 이상치가 데이터 평균을 크게 바꿔 놓을 수 있다. 이상치는 데이터를 수집하는 과정에서 오류가 개입되어 발생한 것으로 간주되므로 찾아서 제..
꿀팁
2023. 9. 25. 06:07