최근 서점에 가보면 빅데이터의 붐을 느낄 수 있다. 통계에서부터 시작해 분석 툴인 R, SAS, SPSS, 그리고 Python. 빅데이터 기술서도 많고, 빅데이터 관련 인문 서적도 많다. 그 중에서 데이터 마이닝 책도 꽤 된다. 그런데 이 중에서 데이터 사이언티스트가 되려면 어떤 책을 봐야 할까?
이 책이 위의 의문사항에 해답을 제시한다고 감히 말하고 싶다. 본서는 실전을 접해보고 싶은 독자들에게 비즈니스 관점의 시각으로 분석을 경험할 수 있는 기회를 제공한다. 여기에 쓰인 데이터는 저자가 프로젝트로 실제 작업했고, 교육과정에서 워크샵을 통해 4~32시간의 과정을 거쳐 검증된 사례들이다.
본서에서는 빅데이터 이용 목적과 접근방법, 데이터 획득 및 가공, 모델링 및 검증, 결과물에 대한 커뮤니케이션을 하나하나 설명하며 제시 한다. 분량이 많기 때문에 단기간 집중적으로 따라해 보는 게 필요하다. 그리고 본서 이후에 나올 흥미로운 주제들이 계속 나올 것이므로 1달 안에 마스터 한다고 해보기를 권유한다. 빅데이터 시대의 경쟁력은 속도와 창의력이다.
전체적으로 새로운 패키지들로 작성을 했고, 특히 Visualization, Financial Analysis, Social Network Analysis, Simulation에 관한 내용을 많이 수록했다. 금융분석은 환율 및 KOSPI200 예측에도 일부 사용되었고, 소셜 네트워크 분석은 이전에는 간단한 그래프 표현을 통한 인사이트에 주력했다면 이번에는 구체적인 통계량을 갖고 해설할 수 있는 수준으로 제시했으며, 시뮬레이션은 개념 수준에서 구체적인 모델링을 할 패키지와 함께 예제를 제시했다.
요즘 스마트폰 앱을 이용해 데이터를 모으고 분석하여 사용자에게 무언가를 제안하는 것이 가장 hot하다. 이러한 분석은 데이터 마이닝의 다양한 유형과 알고리즘을 통해 패턴을 찾고 이를 응용한 것이다. 지금까지 이론적으로만 공부해 왔다면 이 책에 수록된 예제들을 익히고 분석으로 접근해 실력 있는 데이터 사이언티스트에 한 발 더 다가서게 될 것이다.
