『R 예제로 배우는 머신 러닝』은 머신 러닝을 사용한 실제 응용 사례를 R로 작성된 예제 코드 중심으로 소개한다. 제품 추천을 위한 장바구니 분석, 금융기관에서의 리스크 관리를 위한 신용 위험도 예측, 감정 분석을 위한 소셜 미디어 분석과 같은 실생활 예제를 R 코드로 설명한다. R 언어와 머신 러닝에 대한 기본 지식을 가지고 있는 독자라면, 이 책을 통해 기존에 알고 있던 이론들을 어떻게 응용할 수 있을지 한 단계 더 나아갈 수 있을 것이다.
★ 이 책에서 다루는 내용 ★
■ R의 강력한 데이터 추출, 처리와 탐색 기법 활용
■ R을 이용한 다차원에 걸친 데이터 시각화 및 유용한 특징 추출
■ 수학적, 논리적 개념을 이용한 머신 러닝 알고리즘 탐색
■ 정확한 상황 분석을 위한 분석 분야 심층 탐구
■ 알고리즘 동작을 볼 수 있도록 처음부터 R 머신 러닝 알고리즘 구축
■ 기본부터 시작하여 재사용 가능한 코드 작성 및 완전한 머신 러닝 시스템 구축
■ 머신 러닝과 R을 사용한 흥미로운 실제 문제 해결
■ 머신 러닝 및 데이터 과학의 실제 문제 해결
★ 이 책의 대상 독자 ★
데이터로부터 의사결정을 하는 최신 기술을 사용해 데이터로부터 유용한 정보를 채굴(mining)하는 데 관심이 많은 이들을 위한 책이다. R에 관한 기본 지식은 요구되지만, 데이터 과학에 관한 선행 경험은 필요하지 않다. 머신 러닝에 관한 사전 지식은 이 책의 내용을 학습하는 데 유용하지만, 반드시 필요하지는 않다.
★ 이 책의 구성 ★
1장, ‘머신 러닝 R로 시작하기’에서는 독자에게 R과 그 기초에 대해 소개하고, 머신 러닝의 개요에 대해 설명한다.
2장, ‘기계를 학습시키자’에서는 머신 러닝의 기본을 이루는 개념에 대해 본격적으로 설명한 다. 실제 예제로 이뤄진 다양한 러닝 알고리즘을 설명한다.
3장, ‘장바구니 분석을 통한 쇼핑 트렌드 예측’에서는 첫 번째 프로젝트로서 여러 가지 머신 러닝 기법을 사용해 전자상거래상 상품 추천, 예측, 패턴 분석을 수행한다. 특히 장바구니 분석과 연관 규칙 마이닝을 통해 고객의 쇼핑 패턴 및 트렌드, 상품 제작 및 예측에 대해 다룬다. 이런 기법들은 타깃, 메이시스, 플립카트, 아마존과 같은 소매 기업, 전자상거래 상점의 상품 추천 등에 널리 사용된다.
4장, ‘제품 추천 시스템 만들기’에서는 첫 번째 실습 프로젝트인 전자상거래상 상품 추천, 예측, 패턴 분석의 두 번째 부분을 다룬다. 특히 상용화 단계의 추천 시스템에 쓰인 전자상거래의 다양한 고객 제품 리뷰와 별점 분석을 통한 협력적 사용자 필터링과 같은 알고리즘 기법을 다룬다.
5장, ‘신용 위험의 감지 및 예측: 기술적 분석’에서는 두 번째 실습 프로젝트로 신용 위험 감지 및 예측에 관한 복합 금융 시나리오에 머신 러닝 기법을 적용해 본다. 특히 주요 목표에 대해 소개하고, 은행 자금 대출을 신청한 1,000명의 자산 신용 데이터 세트를 살펴본다. 머신 러닝 기법을 통해 누가 잠재적 신용 위험이 있는지, 누가 대출 받은 자금을 갚지 못할 것인지, 미래에 대해 예측해 본다. 또한 우리가 가진 데이터 세트에 대해 좀 더 자세히 살펴볼 텐데, 데이터를 다룰 때의 주요 문제점, 데이터 세트의 주요 기능, 데이터에 대한 탐사 및 묘사적인 분석 등을 설명한다. 끝으로, 위의 문제를 해결하는 데 적합한 머신 러닝 기법을 살펴보며 마무리 짓는다.
6장, ‘신용 위험의 감지 및 예측: 예측적 분석’에서는 앞장의 묘사적 분석에서 미뤄뒀던 것을 예측적 분석을 통해 살펴본다. 특히 잠재적 신용 위험과 대출 후 상환하지 못할 것 같은 고객에 대해 감지하고 분석하는 몇 가지 머신 러닝 알고리즘을 다룬다. 이는 은행이 대출을 승인할 것인지 말 것인지 데이터를 통해 분석함으로써 결정에 도움을 준다. 또한 몇 가지 지도 학습 알고리즘들을 살펴보고 성능 분석을 해본다. 여러 가지 머신 러닝 알고리즘들의 효율 및 정확도를 측정하는 데 쓰이는 수치에 대해서도 알아본다.
7장, ‘소셜 미디어 분석: 트위터’에서는 데이터 분석 소셜 미디어 분석의 세계로 안내한다. 소셜 미디어 세계로의 안내로 시작해 트위터 API를 통해 데이터를 모으는 방식을 살펴본다. 트위터로부터 유용한 데이터를 끌어오는 방식을 설명하고 실제 예제를 통해 트위터 데이터를 시각화하고, 트윗들을 클러스터링하고, 주제를 모델링하며 문제점 및 복잡성을 이끌어낸 뒤 이 문제들을 해결할 전략에 대해 소개한다. 예제를 통해 몇 가지 강력한 측정법으로 트위터 데이터를 연산할 수 있는지 살펴본다
8장, ‘트위터 데이터의 감정 분석’에서는 트위터 API를 사용해 트윗들의 감정을 분석하는 프로젝트를 다룬다. 이 프로젝트는 감정 표현의 트윗들을 분석하기 위한 복합 머신 러닝 알고리즘에 관한 것으로, 그 결과 값들의 비교를 통해 이해를 돕고 각 알고리즘이 내는 결과의 차이점에 대해 다룬다