장바구니 담기 close

장바구니에 상품을 담았습니다.

실전 데이터 분석 with 파이썬

실전 데이터 분석 with 파이썬

  • 레널드 아펠신
  • |
  • 길벗
  • |
  • 2024-12-17 출간
  • |
  • 680페이지
  • |
  • 188 X 257 X 27mm
  • |
  • ISBN 9791140714315
판매가

44,000원

즉시할인가

39,600

배송비

무료배송

(제주/도서산간 배송 추가비용:3,000원)

수량
+ -
총주문금액
39,600

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

출판사서평

실제 데이터 분석가들이 다루는 프로젝트로 실전 능력을 키워보자!

“수많은 리뷰 데이터에서 가치 있는 정보를 얻으려면 어떤 분석 기법을 써야 할까요?”
우리가 데이터 분석 기초를 학습했다면 저마다 배운 개념을 토대로 다양한 텍스트 분석 기법을 제시할 것이다. 더 나아가 그 기법이 무엇인지, 어떻게 사용하는지 이론을 설명하는 건 어렵지 않을 것이다. 그럼 다음과 같은 요청을 받는다면 어떨까?

“광고 캠페인을 실행할 준비를 하고 있습니다. 더 많은 구매를 유도할 수 있도록 채널별 조회 수와 클릭 수를 비교하고 더욱 효과적인 채널을 선택해 주세요.”
이런 요청을 받는다면 어떨까? 어떤 클릭이 의미 있는 클릭이고 어떤 클릭이 순전히 무작위로 발생한 클릭일지 분석해 볼 계획을 바로 머리에 떠올릴 수 있을까? 다양한 분석 툴, 데이터 분석 과정(수집, 전처리, 분석, 시각화, 예측) 등 데이터 분석에 관한 이론은 어느 정도 능숙해졌지만, 막상 이런 실전 앞에서는 머리가 하얘질 수도 있다.
하나의 케이스를 두고 데이터를 분석하는 프로젝트는 코드와 알고리즘, 데이터셋, 시각화까지 조화롭게 다룰 줄 알아야 하고, 익숙해지는 데까지는 수많은 연습이 필요하다. 이 책은 실제 데이터 분석가들이 매일 다루는 문제 중에서 5가지 케이스를 가져와 문제 파악부터 솔루션까지 전 과정을 설명한다. 복잡한 데이터나 지저분한 데이터를 정제하는 법, 예측 모델에 맞지 않는 알고리즘을 해결하는 방법 등 프로젝트를 진행하면서 마주할 수 있는 어려운 상황에서 어떻게 해결해야 할지 실용적인 솔루션까지 알려준다. 지금까지 습득한 이론을 바탕으로 실질적인 데이터 분석 프로젝트를 경험해 보고 싶다면 이 책으로 넘어가 보자!

목차

1부 첫 번째 사례 탐구: 카드 게임의 승리 전략 탐색
1장 파이썬으로 확률을 계산하는 방법
1.1 표본 공간 분석: 방정식 없이 결과의 불확실성을 측정하는 접근법
__1.2.1 문제 1: 네 자녀를 둔 가족 분석하기
__1.2.2 문제 2: 다면체 주사위를 굴렸을 때 분석하기
__1.2.3 문제 3: 가중된 표본 공간으로 주사위를 굴렸을 때 확률 계산하기
1.2 사소한 확률 계산 문제
1.3 구간에 대한 확률 계산
__1.3.1 구간 분석법으로 극단 평가
1.4 요약

2장 맷플롯립으로 확률 그래프 그리기
2.1 맷플롯립으로 그래프 그리기
2.2 동전 뒤집기 확률 그래프 그리기
__2.2.1 여러 동전 뒤집기 확률 분포도 비교하기
2.3 요약

3장 넘파이로 무작위 시뮬레이션 수행하기
3.1 넘파이로 무작위 동전 뒤집기와 주사위 던지기 시뮬레이션하기
__3.1.1 편향된 동전 뒤집기 분석
3.2 히스토그램과 넘파이 배열로 계산하는 신뢰 구간
__3.2.1 히스토그램 내 유사한 점들을 묶기
__3.2.2 히스토그램에서 확률 구하기
__3.2.3 고신뢰 구간의 범위 줄이기
__3.2.4 넘파이로 히스토그램 계산하기
3.3 신뢰 구간으로 편향된 카드 덱 분석하기
3.4 순열로 카드 뒤섞기
3.5 요약

4장 첫 번째 사례 탐구의 솔루션
4.1 뒤섞은 카드 덱에서 빨간색 카드 예측하기
__4.1.1 전략의 성공 확률 추정하기
4.2 열 장으로 구성된 카드 덱 하나에 대한 표본 공간으로 전략 최적화하기
4.3 요약

2부 두 번째 사례 탐구: 온라인 광고 클릭의 유의성 평가하기
5장 사이파이를 사용한 기본 확률 및 통계 분석
5.1 사이파이로 데이터와 확률 간 관계 탐색하기
5.2 중심성의 척도로서 평균
__5.2.1 확률 분포의 평균 구하기
5.3 흩어진 정도를 측정하는 분산
__5.3.1 확률 분포의 분산 구하기

6장 사이파이와 중심 극한 정리로 예측하기
6.1 사이파이로 정규 분포 다루기
__6.1.1 샘플링된 정규 분포 곡선 두 개 비교하기
6.2 무작위 샘플링으로 모집단의 평균 및 분산 결정하기
6.3 평균과 분산을 이용하여 예측하기
__6.3.1 정규 곡선 아래 면적 계산하기
__6.3.2 계산된 확률 해석하기
6.4 요약

7장 통계적 가설 검정
7.1 표본 평균과 모집단 평균 간 차이 평가하기
7.2 데이터 드레징: 오버샘플링을 이용한 잘못된 결론 도출하기
7.3 복원 추출을 이용한 부트스트랩: 모집단 분산을 알 수 없을 때 가설 테스트하기
7.4 순열 테스트: 모집단의 매개변수를 알 수 없는 경우 표본 수단 비교하기
7.5 요약

8장 판다스를 사용한 테이블 분석하기
8.1 기본 파이썬 기능으로 테이블 저장하기
8.2 판다스로 테이블 탐색하기
8.3 테이블의 열 가져오기
8.4 테이블의 행 가져오기
8.5 테이블의 행과 열 수정하기
8.6 테이블 데이터 저장 및 불러오기
8.7 시본으로 테이블 시각화하기
8.8 요약

9장 두 번째 사례 탐구의 솔루션
9.1 판다스로 광고 클릭 테이블 처리하기
9.2 평균의 차이로 p-값 계산하기
9.3 통계적 유의성 결정하기
9.4 41가지 파란색 색조: 실제 사례로 알아보는 주의 사항
9.5 요약

3부 세 번째 사례 탐구: 뉴스 헤드라인으로 질병 발생 추적하기
10장 데이터 그룹화하기
10.1 중심성으로 클러스터 발견하기
10.2 K-평균: 중심 그룹 K개로 데이터를 그룹화하는 클러스터링 알고리즘
__10.2.1 사이킷런을 사용한 K-평균 클러스터링
__10.2.2 엘보 방법으로 최적의 K 선택하기
10.3 밀도를 사용하여 클러스터 검색하기
10.4 DBSCAN: 공간 밀도에 따라 데이터를 그룹화하는 클러스터링 알고리즘
__10.4.1 DBSCAN과 K-평균 비교하기
__10.4.2 비유클리드 거리 기반 클러스터링
10.5 판다스로 클러스터 분석하기
10.6 요약

11장 지리적 위치의 시각화 및 분석
11.1 대원 거리: 지구상 두 점 사이의 거리를 계산하는 지표
11.2 카토피로 지도 시각화하기
__11.2.1 지오스 및 카토피 수동 설치하기
__11.2.2 콘다 패키지 관리자 활용
__11.2.3 지도 시각화
11.3 GeoNamesCache를 사용한 위치 추적
__11.3.1 국가 정보 접근
__11.3.2 도시 정보 접근
__11.3.3 GeoNamesCache 라이브러리의 제약
11.4 텍스트 내 지명 찾기
11.5 요약

12장 세 번째 사례 탐구의 솔루션
12.1 헤드라인 데이터에서 위치 추출하기
12.2 추출된 위치 데이터 시각화 및 클러스터링
12.3 위치 클러스터에서 인사이트 추출하기
12.4 요약

4부 네 번째 사례 탐구: 온라인 채용 공고로 데이터 과학자의 이력서 개선하기
13장 텍스트 유사성 측정
13.1 간단한 텍스트 비교
__13.1.1 자카드 유사도 탐색
__13.1.2 단어를 숫자 값으로 바꾸기
13.2 단어 수를 사용하여 텍스트 벡터화하기
__13.2.1 정규화로 TF 벡터 유사도 개선하기
__13.2.2 단위 벡터 내적으로 관련성 지표 간 변환하기
13.3 효율적인 유사도 계산을 위한 행렬 곱셈
__13.3.1 기본 행렬 연산
__13.3.2 전체 행렬에 대한 유사도 계산하기
13.4 행렬 곱셈의 계산 한계
13.5 요약

14장 행렬 데이터의 차원 감소
14.1 2D 데이터를 단일 차원으로 그룹화하기
__14.1.1 회전으로 차원 줄이기
14.2 PCA와 사이킷런으로 차원 감소시키기
14.3 4D 데이터를 2차원으로 그룹화하기
__14.3.1 PCA의 제한 사항
14.4 회전 없이 주성분 계산하기
14.5 SVD 및 사이킷런으로 효율적인 차원 축소하기
__14.4.1 거듭제곱 반복으로 고유 벡터 추출하기
14.6 요약

15장 대용량 텍스트에 대한 자연어 처리 분석
15.1 사이킷런으로 웹 토론 포럼 데이터셋 불러오기
15.2 사이킷런으로 문서 벡터화하기
15.3 게시글 빈도 및 개수로 단어의 순위 매기기
__15.3.1 사이킷런으로 TFIDF 벡터 계산하기
15.4 대규모 문서 데이터셋의 유사성 계산하기
15.5 주제별로 텍스트 그룹화하기
__15.5.1 단일 텍스트 클러스터 탐색하기
15.6 텍스트 클러스터 시각화하기
__15.6.1 하위 그래프로 여러 워드 클라우드 표시하기
15.7 요약

16장 웹 페이지의 텍스트 추출하기
16.1 HTML 문서 구조
16.2 BeautifulSoup으로 HTML 파싱하기
16.3 웹 데이터 내려받기 및 파싱하기
16.4 요약

17장 네 번째 사례 탐구의 솔루션
17.1 채용 공고 데이터에서 기술 요구 사항 추출하기
__17.1.1 기술을 설명하는 HTML 살펴보기
17.2 관련성별로 작업 필터링하기
17.3 관련 채용 공고에서 스킬 클러스터링
__17.3.1 직무 기술을 그룹 15개로 그룹화하기
__17.3.2 기술 클러스터 조사하기
__17.3.3 소프트 스킬 클러스터 조사하기
__17.3.4 다른 K 값으로 그룹 탐색하기
__17.3.5 가장 관련성이 높은 게시물 700개 분석하기
17.4 결론
17.5 요약

5부 다섯 번째 사례 탐구: 소셜 네트워크 데이터로 미래의 친구 관계 예측
18장 그래프 이론 및 네트워크 분석
__18.1.1 NetworkX로 웹 네트워크 분석하기
18.1 기본 그래프 이론으로 인기도별 웹 사이트 순위 지정하기
18.2 비방향성 그래프로 마을 간 이동 시간 최적화하기
__18.2.1 마을과 지역에 대한 복잡한 네트워크 모델링하기
__18.2.2 노드 간 가장 빠른 이동 시간 계산하기
18.3 요약

19장 노드 순위 매기기 및 소셜 네트워크 분석을 위한 동적 그래프 이론 기법
19.1 네트워크의 예상 트래픽을 기반으로 중앙 노드 발견하기
__19.1.1 교통 시뮬레이션으로 중심도 측정하기
19.2 행렬 곱셈으로 이동 확률 계산하기
__19.2.1 확률 이론으로 페이지랭크 중심성 도출하기
__19.2.2 NetworkX로 페이지랭크 중심성 계산하기
19.3 마르코프 그룹화로 커뮤니티 감지하기
19.4 소셜 네트워크에서 친구 그룹 찾기
19.5 요약

20장 네트워크 기반 지도 학습
20.1 지도 학습의 기본 사항
20.2 예측 레이블 정확도 측정하기
__20.2.1 사이킷런의 예측 측정 기능
20.3 KNN 성능 최적화
20.4 사이킷런으로 격자 탐색 수행하기
20.5 KNN 알고리즘의 한계
20.6 요약

21장 로지스틱 회귀로 선형 분류 모델 학습
21.1 규모별로 고객을 선형적으로 분리하기
21.2 선형 분류 모델 학습시키기
__21.2.1 표준화를 이용하여 퍼셉트론 성능 향상시키기
21.3 로지스틱 회귀를 이용한 선형 분류 개선하기
__21.3.1 특징 두 개 이상에서 로지스틱 회귀 수행하기
21.4 사이킷런을 사용하여 선형 분류 모델 학습시키기
__21.4.1 다중 클래스에 대한 선형 모델 학습시키기
21.5 계수로 특징 중요도 측정하기
21.6 선형 분류 모델의 제한 사항
21.7 요약

22장 의사 결정으로 비선형 분류 모델 학습
22.1 논리 규칙 자동 학습하기
__22.1.1 두 특징으로 중첩된 if/else 모델 학습시키기
__22.1.2 분할할 특징 결정하기
__22.1.3 특징 둘 이상을 다루는 if/else 모델 학습시키기
22.2 사이킷런으로 의사 결정 분류 모델 학습시키기
__22.2.1 특징 중요도를 이용한 암세포 연구하기
22.3 의사 결정 분류 모델의 제한 사항
22.4 랜덤포레스트 분류 모델로 성능 개선하기
22.5 사이킷런으로 랜덤포레스트 분류 모델 학습시키기
22.6 요약

23장 다섯 번째 사례 탐구의 솔루션
23.1 데이터 탐색하기
__23.1.1 프로필 살펴보기
__23.1.2 실험 관찰 결과 살펴보기
__23.1.3 친구 관계 연결 테이블 살펴보기
23.2 네트워크 특징을 사용하여 예측 모델 학습시키기
23.3 모델에 프로필 관련 특징 추가하기
23.4 안정적인 특징 집합에 대한 성능 최적화
23.5 학습된 모델 해석하기
__23.5.1 일반화 가능한 모델은 왜 중요할까요?
23.6 요약
찾아보기

교환 및 환불안내

도서교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 1800-7327
교환/반품주소
  • 경기도 파주시 문발로 211 1층 / (주)북채널 / 전화 : 1800-7327
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.