장바구니 담기 close

장바구니에 상품을 담았습니다.

구글 클라우드 플랫폼상의 데이터 과학

구글 클라우드 플랫폼상의 데이터 과학

  • 발리아파락쉬마난
  • |
  • 에이콘출판
  • |
  • 2019-11-29 출간
  • |
  • 576페이지
  • |
  • 188 X 235 X 27 mm
  • |
  • ISBN 9791161753737
판매가

40,000원

즉시할인가

36,000

배송비

무료배송

(제주/도서산간 배송 추가비용:3,000원)

수량
+ -
총주문금액
36,000

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

출판사서평




★ 이 책에서 다루는 내용 ★
■ 앱 엔진 애플리케이션을 이용한 자동화되고 스케줄된 데이터 입수
■ 구글 데이터 스튜디오에서의 대시보드 생성과 구성
■ 스트리밍 분석을 수행하기 위한 실시간 분석 파이프라인 구축
■ 구글 빅쿼리를 이용한 대화형 데이터 탐색 수행
■ 클라우드 데이터프록 클러스터상에서 베이지안 모델 생성
■ 스파크를 이용한 로지스틱 회기 머신 러닝 모델 구축
■ 클라우드 데이터프록 파이프라인으로 시간-집계 피처 계산
■ 텐서플로를 이용한 고성능 예측 모델 생성
■ 배치 및 실시간 파이프라인으로부터 일반인이 접근할 수 있도록 마이크로서비스 모델 배포와 사용

★ 이 책의 대상 독자 ★
데이터 분석을 하는 독자 모두에게 적합한 책이다. 여러분은 시스템 프로그래머, 데이터 과학자, 데이터 엔지니어, 데이터베이스 관리자 또는 데이터 분석가일 것이다. 오늘날은 역할이 더 세분화될 수도 있지만(데이터 분석만 하든지, 모델 작성만 하든지, 데브옵스만 수행할 것이다), 업무 영역을 조금 늘리고 싶을 것이다. 데이터 과학 모델의 작성법뿐 아니라 상용 시스템에 대규모로 데이터 과학 모델을 구현하는 방법도 배우고 싶을 것이다.

[옮긴이의 말]
처음 이 책을 접했을 때는 참 어려웠다. 데이터 과학과 머신 러닝을 막연하게 이해하고 있는 수준에 머물러 있어서 번역하는 데 1년 이상 소요됐다. 1년 내내 이 책의 내용을 이해하고자 소스를 배포하고 애플리케이션을 실행하고 결과를 확인하는 작업을 쉬지 않고 진행했다. 그 덕분에 적어도 머신 러닝, 딥러닝의 기초 지식은 어느 정도 이해하는 수준이 됐다. 게다가 구글 클라우드라는 특별한 클라우드 플랫폼 덕분에 하둡 같은 빅데이터 시스템을 별도로 구축하지 않고도 이 책에 나오는 모든 소스를 실행해보고 결과를 쉽게 확인할 수 있었고, 좀 더 빠르게 머신 러닝의 실체에 다가갈 수 있었다. 이제는 이해의 수준을 넘어서 사내에 구축돼 있는 빅데이터를 기반으로 본격적인 머신 러닝/딥러닝을 시도하려고 준비 중이다. 그것도 구글 클라우드 플랫폼에서 추진할 예정이다. 하둡 클러스터 등을 구축할 필요도 없고 데이터를 샤딩 처리하는 등의 수고도 필요 없기 때문이다. 게다가 타사 클라우드 대비 비용이 저렴하기까지 하다.
이 책을 접하기 전에 유튜브나 다른 책을 통해 머신 러닝/딥러닝의 기초적인 사항은 파악하길 바란다. 기초 지식 없이 내용을 접하면 정말 어려울 것이기 때문이다. 최근에 이 책의 주제로 사내에서 세미나를 진행했다. 물론 다수의 청중이 머신 러닝/딥러닝에 이해도가 거의 없는 상태였다. 머신 러닝/딥러닝이 워낙 뜨거운 주제인 관계로 관심은 많았지만 내용을 이해하는 사람은 전체의 5%도 안됐다. 주로 나온 반응은 “신기하다”, “무슨 얘기인지 하나도 모르겠다”, “머신 러닝 절차는 왜 이런 식인지 잘 모르겠다” 등이었다. 따라서 이 책을 읽기 전에 머신 러닝의 기초가 없다면 꼭 사전 공부를 하기를 간곡히 당부 드린다.
끝으로 이제 머신 러닝/딥러닝은 데이터 과학자만 할 수 있는 특화된 분야가 아니라고 생각한다. 적어도 데이터에 대한 통찰력이 있다면 누구나 할 수 있는 분야다. 또한 머신 러닝을 쉽게 실행할 수 있는 클라우드 플랫폼이 계속 나오고 있어서 누구든지 배우고자 한다면 어렵지 않게 실행을 해볼 수 있는 환경이 됐다. 여러분을 이 경이롭고 흥미로운 세계로 초청한다. 꼭 동참해 소기의 성과를 이루기 바란다.


목차


1장. 데이터에 기반을 둔 의사 결정
__많은 유사한 의사 결정
__데이터 엔지니어의 역할
__클라우드는 데이터 엔지니어를 능력자로 만든다.
__클라우드는 데이터 과학을 급속도로 변화시킨다
__사례 연구로 확고한 사실을 얻을 수 있다
__확률론적 결정
__데이터와 도구
____코드로 시작
__요약

2장. 클라우드에 데이터 입수
__항공사 정시 도착 데이터
____알 수 있어야 함
____학습-제공 간 왜곡
____다운로드 절차
____데이터셋 속성
__데이터를 한곳에 저장하지 않는 이유
____수직 확장
____수평 확장
____콜로수스와 주피터에 함께하는 데이터
__데이터 입수
____웹 양식 리버스 엔지니어링
____데이터셋 다운로드
____탐색 및 정리
____구글 클라우드 스토리지에 데이터 업로드
__월주기로 다운로드 스케줄링
____파이썬으로 입수
____플라스크 웹 애플리케이션
____앱 앤진 실행
____URL 보호
____크론 작업 스케줄링
__요약
__코드 휴게소

3장. 혁신적인 대시보드 생성
__대시보드로 모델 설명
__대시보드를 먼저 만들어야 하는 이유
__정확성, 정직성 및 좋은 설계
__구글 클라우드 SQL에 데이터 탑재
__구글 클라우드 SQL 인스턴스 생성
__구글 클라우드 플랫폼과의 상호작용
__MySQL에 대한 접근 제어
__테이블 생성
__테이블 채우기
__첫 번째 모델 작성
____분할표
____임계값 최적화
____머신 러닝
__대시보드 작성
__데이터 스튜디오로 시작
____다이어그램 생성
____최종 사용자 제어 기능 추가
____파이 다이어그램으로 비율 표시
____분할표 설명
__요약

4장. 스트리밍 데이터: 송신 및 입수
__이벤트 피드 설계
__시간 보정
__아파치 빔/클라우드 데이터플로우
____공항 데이터 파싱
____시간대 정보 추가
____시간을 UTC로 변환
____시간 보정
____이벤트 생성
____클라우드에서 파이프라인 실행
__이벤트 스트림을 클라우드 pub/sub에 전송
____전송할 기록 얻기
____기록에 대한 분할
____이벤트 일괄처리 구축
____이벤트 일괄처리 전송
__실시간 스트리밍 처리
____자바 데이터플로우 기반 스트리밍
____스트리밍 처리 실행
____빅쿼리로 스트리밍 데이터 분석
____실시간 대시보드
__요약

5장. 대화형 데이터 탐색
__탐색적 데이터 분석
__빅쿼리에 항공 운항 데이터 탑재
____서비리스 칼럼 기반 데이터베이스의 이점
____클라우드 스토리지에 준비
____접근 제어
____연합 쿼리
____csv 파일 입수
__클라우드 데이터랩을 이용한 탐색적 데이터 분석
____주피터 노트북
____클라우드 데이터랩
____클라우드 데이터랩에 패키지 설치
____구글 클라우드 플랫폼의 주피터 매직
__품질 제어
____이상한 값
____이상치 제거: 빅데이터는 다르다
____발생 빈도에 대한 데이터 필터링
__출발 지연 시 도착 지연 조건
____확률적 결정 임계값 적용
____경험 확률 분포 함수
____정답은...
__모델 평가
____무작위로 뒤섞기
____날짜로 분할
____학습과 테스트
__요약

6장. 클라우드 데이터프록상의 베이즈 분류
__맵리듀스와 하둡 생태계
____맵리듀스 동작 방식
____아파치 하둡
____구글 클라우드 데이터프록
____고급 도구 필요
____클러스터가 없는 작업
____초기화 작업
__스파크 SQL을 이용한 양자화
____클라우드 데이터프록상의 구글 클라우드 데이터랩
____빅쿼리를 이용한 개별성 검사
____구글 클라우드 데이터랩의 스파크 SQL
____히스토그램 균일화
____동적으로 클러스터 크기 조절
__피그를 이용한 베이즈 분류법
____클라우드 데이터프록상에서 피그 작업 실행
____훈련일자로 제한
____의사 결정 기준
____베이지안 모델 평가
__요약

7장. 머신 러닝: 스파크에서 로지스틱 회귀 분석
__로지스틱 회귀 분석
____스파크 ML 라이브러리
____스파크 머신 러닝으로 시작
____스파크 로지스틱 회귀 분석
____학습 데이터셋 생성
____코너 케이스 다루기
____학습 예제 생성
____학습
____모델을 사용해 예측
____모델 평가
__피처 엔지니어링
____실험 프레임워크
____보류 데이터셋 생성
____피처 선택
____피처 크기 조정과 클리핑
____피처 변환
____범주형 변수
____확장 가능, 반복 가능, 실시간
__요약

8장. 시간-윈도우 집계 피처
__시간 평균의 필요성
__자바상의 데이터플로우
____개발 환경 구성
____빔으로 필터링
____파이프라인 옵션 및 문자열 I/O
____클라우드에서 실행
____객체로 파싱
__시간 평균 계산
____그룹화 및 조합
____측면 입력으로 병렬 처리
____디버깅
____BigQueryIO
____항공편 객체 변형
____일괄 모드로 슬라이딩 윈도우 계산
____클라우드에서 실행
__모니터링, 트러블 슈팅, 성능 튜닝
____파이프라인 트러블 슈팅
____측면 입력 제한 사항
____파이프라인 재설계
____중복 제거
__요약

9장. 텐서플로를 이용한 머신 러닝 분류기
__좀 더 복잡한 모델을 향해
__텐서플로에서 데이터 읽기
__Experiment 구성
____선형 분류기
____학습 및 평가 입력 함수
____서빙 입력 함수
____Experiment 작성
____학습 실행 수행
____클라우드에서의 분산 학습
__ML 모델 개선
____심층 신경망 모델
____임베딩
____와이드앤딥 모델
____하이퍼파라미터 튜닝
__모델 배포
____모델로 예측
____모델 설명
__요약

10장. 실시간 머신 러닝
__예측 서비스 호출
____요청 및 응답에 대한 자바 클래스
____요청 전송과 응답 파싱
____예측 서비스 클라이언트
__항공편 정보에 예측 추가
____일괄처리 입력 및 출력
____데이터 처리 파이프라인
____비효율성 식별
____일괄처리 요청
__스트리밍 파이프라인
____PCollection 평탄화
____스트리밍 파이프라인 실행
____지연되고 비순차적인 기록
____워터마크와 트리거
__트랜잭션, 처리량, 대기 시간
____가능한 스트리밍 싱크
____클라우드 빅테이블
____테이블 설계
____행의 키 설계
____클라우드 빅테이블로 스트리밍
____클라우드 빅테이블에서 쿼리
__모델 성능 평가
____지속적인 학습의 필요성
____파이프라인 평가
____성능 평가
____한계 분포
____모델 동작 확인
____동작 변화 식별
__요약
__책 요약

부록 A. 머신 러닝 데이터셋 내에서 민감한 데이터의 고려

교환 및 환불안내

도서교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 1800-7327
교환/반품주소
  • 경기도 파주시 문발로 211 1층 / (주)북채널 / 전화 : 1800-7327
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.