“어려운 수식 없이, 그림과 표로 쉽게 이해하는 데이터 사이언스”
겉보기에는 유사한 숫자 배열에 불과한 데이터라도 경제 데이터와 의학 데이터에서는 작성 방법이나 취급하는 방법이 전혀 다르고, 의미와 해석도 다르다. 이처럼 데이터 성질의 차이를 중시하는, 즉, ‘데이터 중시’라는 시점을 데이터 사이언스에서는 무엇보다 중요하다고 하는 것이 이 책의 기본적인 생각이다. 따라서 정보통신기술의 활용은 어디까지나 이러한 일련의 프로세스를 효율적으로 수행하기 위한 ‘조연’에 불과하다.
이런 목적을 달성하기 위해 책에서는 다음과 같이 서술하였다.
1) ‘데이터 중시’라는 사고방식으로, 데이터 타입 및 특징에 관련된 데이터 수집 방법을 하나의 장을 할애해 자세히 설명했다.
2) 데이터 사이언스의 요점은 데이터 해석 방법에 있다. 책에서는 슈퍼마켓에 근무하는 마케팅 담당 A씨, 세미나에서 지역 연구하는 대학생 B씨, 지역 건강 문제에 관심이 많은 보건사 C씨의 사례를 들었으며, 각자의 연구를 통해 데이터 해석 방법의 목적과 결과 해석을 설명한다. 또한 수학에 대한 예비지식이 없어도 이해할 수 있도록 수학적 전개는 생략한다.
3) 데이터 해석 방법을 분류 방법과 예측 방법으로 나눠, 대표적인 양적 데이터와 질적 데이터를 다루는 방법을 각각 다룬다.
4) 사고방식과 계산 결과의 해석을 중심으로 데이터 해석 방법을 설명하지만 데이터 해석을 실제로 체험하는 일도 중요하다. 그렇기에 책에서 소개하는 방법 중에 Excel로 간단하게 계산할 수 있는 경우 대응하는 함수 및 분석 툴 사용 방법을 설명한다.
5) 데이터 사이언스는 데이터가 전부라 해도 과언이 아니다. 수학적으로 의심스러운 어떠한 데이터 해석 방법을 적용하더라도, 데이터를 개조하거나 날조하면 알 수가 없다. 이를 위해 하나의 장을 할애해 데이터 개조 사례와 윤리 규범을 설명한다.
6) 책에서는 빅데이터만이 데이터 사이언스의 대상이 아니라고 하지만, 빅데이터 역시 데이터 사이언스의 중요한 대상이다. 따라서 빅데이터 활용이라는 시점에서 봤을 때 데이터 사이언스와 AI 및 기계학습의 관계를 하나의 장을 할애해 설명한다.
데이터 사이언스라는 말은 최근 몇 년 동안 사용 빈도가 무척 늘었다. 그런 의미에서 하나의 유행어처럼 되었고, ‘데이터화 사회’에서는 데이터가 중요한 의미가 있으므로, 다양한 분야를 포함한 데이터 사이언스의 내용 및 체계를 정리하는 데 도움이 되길 바란다. 이 책을 통해 독자 여러분이 데이터에 관심을 가지고, 데이터 사이언스에 대한 이해가 깊어지길 바란다.