최근, 유망 미래기술에 대한 대부분의 조사 결과를 바탕으로, 4차 산업혁명의 한 축을 이루는 데이터 과학 분야로 범위를 좁히면 데이터 분석, 시각화 및 모델링 등을 처리하는 R 프로그래밍이 두각을 보이고 있는 것을 알 수 있다.
정보 기술의 발전과 더불어 생활 방식의 변화로 분석이 필요한 데이터의 양이 급격하게 증가하고, 데이터 유형도 매우 다양해지면서 기존의 도구만으로 데이터 분석 및 데이터 시각화를 실현하는데 어려움이 있었으나, R과 같은 해석적 프로그램 언어가 적합한 해결책이 되어 다행스럽게 생각한다. 특히, 데이터 분석가와 생물정보학자에게 매력적인 인기를 얻고 있는 R은 오픈소스 컴퓨팅 패키지이기 때문에, 쉽게 구할 수 있으며 사용하기에 매우 경제적이라는 점을 주목할 만 하다. 게다가 사용자가 더욱 쉽게 직관적으로 R 프로그래밍 언어를 코딩할 수 있는 통합개발환경(Integrated Development Environment)을 제공하는 RStudio를 활용하면, 마크다운(Markdown), 샤이니(Shiny), 콰토(Quarto), 그리고 스위브(Sweave) 등의 프로젝트를 통해 다양한 확장 기능들을 구현할 수 있는 장점이 있다.
통계적으로 데이터를 분석할 뿐 아니라 데이터 시각화를 통해 데이터로부터 의미를 도출하는 R 프로그래밍 언어의 기능을 독자들에게 소개할 목적으로 이 책의 번역을 기획하게 되었다. 다른 그래픽 시스템, 예를 들어, 데이터 시각화용 패키지로서 지금까지 최고의 인기를 누리고 있는 ggplot2 패키지보다 훌륭한 능력을 발휘하는, 2022년 개발된 lessR 그래픽 시스템을 소개하고자 하였다. ggplot2 등과 같은 다른 그래픽 시스템보다 매우 적고 단순한 코딩으로, 보다 매력적인 데이터 시각화를 구현할 뿐 아니라, 동시에 데이터를 통계적으로 분석한다는 것이 lessR 그래픽 시스템의 장점이다. 이 책 전반에 걸쳐 ggplot2 그리고 lessR 패키지 모두에서 구현된 데이터 시각화 결과를 비교하면서, 데이터 시각화의 다양한 확장성을 보여줄 것이다.
이 책은 R 언어를 처음 접하는 초보자 또는 어떠한 프로그래밍 경험이나 데이터 분석 지식을 갖지 못한 독자를 대상으로 하며, 독자가 데이터 시각화 또는 데이터 분석을 추구하는 데이터 과학자가 되고자 할 때 훌륭한 안내서가 될 것이다. 1장과 2장에서는 데이터 시각화 시스템을 정의하고, 빠르게 시각화하는 방법을 터득할 것이다. 그리고 변수의 유형에 따라 범주형 변수의 시각화(3장), 연속형 변수의 시각화(4장), 두 연속형 변수 관계 시각화(5장), 다중 범주형 변수 시각화(6장), 시간 경과에 따른 시각화(7장), 그리고 지도 및 네트워크 시각화(8장)를 배우며, 9장에서 샤이니 앱을 통한 대화형 시각화를 구현하는 방법을 다루며, 10장에서 고급스러운 데이터 시각화를 실현하기 위하여 사용자 지정 데이터 시각화를 배우게 된다.
본 책이 데이터 분석 및 데이터 시각화를 배우려는 독자들에게 조금이라도 도움이 되었으면 한다.