세상의 모든 분야와 영역에서 끊임없이 데이터가 생산되고 있다. 이렇게 생산된 데이터를 잘 수집하여 분석하면 세상을 이해하는 유용한 지식과 통찰력을 얻을 수 있다. 하지만 데이터 분석자가 데이터 분석 과정에 들어가기 전에 정제되지 않은 데이터를 잘 처리해 주지 않으면 제대로 된 분석 결과를 얻을 수 없다. 특히 데이터의 이상치와 결측치는 데이터 분석을 오류에 빠뜨리는 원인이 되므로 데이터 전처리 과정에서 잘 처리해 주어야 좋은 분석 결과를 기대할 수 있다. 이상치는 정상적인 범위 밖에 있는 값으로, 단 하나라도 존재하면 분석 전체에 큰 영향을 미칠 수 있다. 가령 하나의 이상치가 데이터 평균을 크게 바꿔 놓을 수 있다. 이상치는 데이터를 수집하는 과정에서 오류가 개입되어 발생한 것으로 간주되므로 찾아서 제..
빅데이터란 복잡하고 다양한 대규모 데이터세트이다. 이 데이터세트로부터 정보를 추출하고 결과를 분석하여 더 큰 가치를 창출하는 기술이다. 수치데이터 등 기존의 정형화된 정보뿐 아니라 텍스트, 이미지, 오디오, 로그기록 등 여러 형태의 비정형 정보가 데이터로 활용된다. (비정형 : 규칙이나 패턴이 없거나 구조화되지 않은 것을 의미) 최근 모바일기기와 SNS 이용 보편화, 사물인터넷 확산 등으로 데이터의 양이 기하급수적으로 늘어나고 있다.하지만 저장매체의 가격 하락 등으로 데이터 관리비용이 감소하고, 클라우드 컴퓨팅 등으로 데이터 처리,분석 기술도 발전하면서 빅데이터 활용 여건은 개선되고 있다. 빅데이터 관련 기술 : ① 데이터를 수집, 저장하는 데이터 처리기술 : 대량의 데이터를 수집, 저장, 가공하고 분석..