장바구니 담기 close

장바구니에 상품을 담았습니다.

데이터 파이프라인 핵심 가이드

데이터 파이프라인 핵심 가이드

  • 제임스댄스모어
  • |
  • 위키북스
  • |
  • 2022-02-18 출간
  • |
  • 236페이지
  • |
  • 175 X 235 X 12 mm
  • |
  • ISBN 9791158393045
판매가

20,000원

즉시할인가

18,000

배송비

무료배송

(제주/도서산간 배송 추가비용:3,000원)

수량
+ -
총주문금액
18,000

이 상품은 품절된 상품입니다

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

목차


▣ 01장: 데이터 파이프라인 소개
데이터 파이프라인이란?
누가 파이프라인을 구축할까?
___SQL과 데이터 웨어하우징 기초
___파이썬 그리고/또는 자바
___분산 컴퓨팅
___기본 시스템 관리
___목표 지향적 사고방식
왜 데이터 파이프라인을 구축할까?
어떻게 데이터 파이프라인을 구축할까?

▣ 02장: 최신 데이터 인프라
데이터 소스의 다양성
___소스 시스템 소유권
___수집 인터페이스 및 데이터 구조
___데이터 사이즈
___데이터 클렌징 작업과 유효성 검사
___소스 시스템의 지연 시간 및 대역폭
클라우드 데이터 웨어하우스 및 데이터 레이크
데이터 수집 도구
데이터 변환 및 모델링 도구
워크플로 오케스트레이션 플랫폼
___방향성 비순환 그래프
데이터 인프라 커스터마이징

▣ 03장: 일반적인 데이터 파이프라인 패턴
ETL과 ELT
ETL을 넘어선 ELT의 등장
EtLT 하위 패턴
데이터 분석을 위한 ELT
데이터 과학을 위한 ELT
데이터 제품 및 머신러닝을 위한 ELT
___머신러닝 파이프라인의 단계
___파이프라인에 피드백 통합
___ML 파이프라인에 대한 추가 자료

▣ 04장: 데이터 수집: 데이터 추출
파이썬 환경 설정
클라우드 파일 스토리지 설정
MySQL 데이터베이스에서 데이터 추출
___전체 또는 증분 MySQL 테이블 추출
___MySQL 데이터의 이진 로그 복제
PostgreSQL 데이터베이스에서 데이터 추출
___전체 또는 증분 Postgres 테이블 추출
___Write-Ahead 로그를 사용한 데이터 복제
MongoDB에서 데이터 추출
REST API에서 데이터 추출
카프카 및 Debezium을 통한 스트리밍 데이터 수집

▣ 05장: 데이터 수집: 데이터 로드
Amazon Redshift 웨어하우스를 대상으로 구성
Redshift 웨어하우스에 데이터 로드
___증분 및 전체 로드
___CDC 로그에서 추출한 데이터 로드
Snowflake 웨어하우스를 대상으로 구성3
Snowflake 데이터 웨어하우스에 데이터 로드
파일 스토리지를 데이터 레이크로 사용
오픈 소스 프레임워크
상업적 대안

▣ 06장: 데이터 변환하기
비문맥적 변환
___테이블에서 레코드 중복 제거
___URL 파싱
언제 변환할 것인가, 수집 중 혹은 수집 후?
데이터 모델링 기초
___주요 데이터 모델링 용어
___완전히 새로 고침 된 데이터 모델링
___완전히 새로 고침 된 데이터의 차원을 천천히 변경
___증분 수집된 데이터 모델링
___추가 전용(Append-only) 데이터 모델링
___변경 캡처 데이터 모델링

▣ 07장: 파이프라인 오케스트레이션
___방향성 비순환 그래프
아파치 에어플로우 설정 및 개요
___설치 및 구성
___에어플로우 데이터베이스
___웹 서버 및 UI
___스케줄러
___실행기(Executors)
___연산자(Operators)
에어플로우 DAG 구축
___간단한 DAG
___ELT 파이프라인 DAG
추가 파이프라인 작업
___경고 및 알림
___데이터 유효성 검사
고급 오케스트레이션 구성
___결합된 파이프라인 작업 대 결합되지 않은 파이프라인 작업
___DAG를 분할해야 하는 경우
___센서로 여러 DAG 조정
관리형 에어플로우 옵션
기타 오케스트레이션 프레임워크
일찍 그리고 자주 검증할 것

▣ 08장: 파이프라인의 데이터 검증
___소스 시스템 데이터 품질
___데이터 수집 위험
___데이터 분석가 검증 활성화
간단한 검증 프레임워크
___유효성 검사기 프레임워크 코드
___검증 테스트의 구조
___검증 테스트 실행
___에어플로우 DAG에서의 사용
___파이프라인을 중단해야 할 때와 경고하고 계속해야 할 때
___프레임워크의 확장
검증 테스트 예제
___수집 후 중복된 레코드
___수집 후의 예기치 않은 행 개수
___지표 값 변동
상용 및 오픈 소스 데이터 검증 프레임워크
소스 시스템의 변경 사항 처리

▣ 09장: 파이프라인 유지 관리 모범 사례
___추상화 도입
___데이터 계약 유지 관리
___Schema-on-Read의 고려사항
확장 복잡성
___데이터 수집 표준화
___데이터 모델링 로직의 재사용
___종속성 무결성 보장
중요 파이프라인 지표

▣ 10장: 파이프라인 성능 측정 및 모니터링
데이터 웨어하우스 준비
___데이터 인프라 스키마
성능 데이터 로깅 및 수집
___에어플로우에서 DAG 실행 기록 수집
___데이터 유효성 검사기에 로깅 추가
성능 데이터 변환
___DAG 성공률
___시간 경과에 따른 DAG 런타임 변경
___검증 테스트 볼륨 및 성공률
성능 파이프라인 조정
___DAG의 성능
성능 투명성

교환 및 환불안내

도서교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 1800-7327
교환/반품주소
  • 경기도 파주시 문발로 211 1층 / (주)북채널 / 전화 : 1800-7327
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.