장바구니 담기 close

장바구니에 상품을 담았습니다.

실무 예제로 배우는 데이터 공학

실무 예제로 배우는 데이터 공학

  • 폴크리커드
  • |
  • 제이펍
  • |
  • 2021-07-20 출간
  • |
  • 336페이지
  • |
  • 188 X 245 X 18 mm
  • |
  • ISBN 9791191600148
판매가

27,000원

즉시할인가

24,300

배송비

무료배송

(제주/도서산간 배송 추가비용:3,000원)

수량
+ -
총주문금액
24,300

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

출판사서평




실시간 데이터 파이프라인을 구축, 모니터링 및 관리하고,
Apache 프로젝트를 사용하여 효율적인 데이터 엔지니어링 인프라를 생성한다!

이 책은 데이터 공학의 기초를 소개하고, 대형 데이터 집합을 다루는 데이터 파이프라인을 구축하는 데 필요한 다양한 기술과 프레임워크를 개괄한다. 여러 예제를 통해 데이터를 정제하고 변환하는 방법과 데이터를 분석해서 데이터에서 최대한 많은 것을 얻는 방법을 배우게 될 것이다. 또한, 이 책은 복잡하고 덩치 큰 데이터를 다루는 방법과 실무 환경에 적합한 데이터 파이프라인을 구축하고 관리하는 방법도 설명한다. 현실적인 예제를 통해서는 데이터 파이프라인을 위한 기반 구조를 구축하고 실무 환경에 데이터 파이프라인을 배치하는 방법을 배우게 될 것이다.

이 책을 다 읽고 나면 파이썬과 오픈소스 프로젝트들을 이용한 데이터 공학이 어떤 것인지 확실하게 이해하게 될 것이며, 데이터를 추출하고, 그 품질을 점검하고, 용도에 맞게 적절히 변환하는 데이터 파이프라인을 구축해낼 수 있는 자신감이 생길 것이다.

이 책의 특징 및 구성
■ 데이터 과학 및 분석 작업을 지원하는 데이터 공학자의 역할과 임무
■ 파일과 데이터베이스에서 데이터를 추출하는 방법과 데이터를 정제하고, 변환하고, 증강하는 방법
■ 다양한 형식의 파일을 읽고 쓰는 방법과 SQL 및 NoSQL 데이터베이스를 다루는 방법
■ 데이터 파이프라인을 구축하고 대시보드를 이용해서 데이터 흐름을 시각화하는 방법
■ 데이터를 웨어하우스에 적재하기 전에 스테이징과 검증 단계를 이용해서 데이터를 점검하는 방법
■ 데이터를 검증하고 장애를 처리하는 스테이징 단계를 가진 실시간 데이터 파이프라인 구축 방법
■ 데이터 파이프라인을 실무 환경에 배치하는 방법과 주의 사항

이 책의 대상 독자
■ 데이터 공학자나 IT 전문가가 되고자 하는 학생
■ 데이터 공학 분야에 진입하고자 하는 현업 개발자
■ 실무에서 데이터를 추출-변환-적재해야 하는 현업 개발자
■ 파이썬을 자신의 업무에 적용하고자 하는 기존 데이터 공학자 또는 데이터 분석가


목차


PART I 데이터 파이프라인 구축: 추출, 변환, 적재 1
CHAPTER 1 데이터 공학이란? 3
1.1 데이터 공학자가 하는 일 3
1.2 데이터 공학 대 데이터 과학 7
1.3 데이터 공학 도구들 7
1.4 요약 13

CHAPTER 2 데이터 공학 기반구조 구축 15
2.1 아파치 NiFi의 설치와 설정 16
2.2 아파치 에어플로의 설치와 설정 24
2.3 일래스틱서치의 설치와 설정 30
2.4 키바나의 설치와 설정 31
2.5 PostgreSQL의 설치와 설정 36
2.6 pgAdmin 4 설치 37
2.6.1 pgAdmin 4 둘러보기 38
2.7 요약

CHAPTER 3 파일 읽고 쓰기 41
3.1 파이썬으로 파일 쓰고 읽기 41
3.2 아파치 에어플로 데이터 파이프라인 구축 51
3.3 NiFi 처리기를 이용한 파일 다루기 57
3.4 요약 68

CHAPTER 4 데이터베이스 다루기 69
4.1 파이썬을 이용한 관계형 데이터 삽입 및 추출 70
4.2 파이썬을 이용한 NoSQL 데이터베이스 데이터 삽입 및 추출 79
4.3 데이터베이스를 위한 아파치 에어플로 데이터 파이프라인 구축 87
4.4 NiFi 처리기를 이용한 데이터베이스 처리 91
4.4.1 PostgreSQL에서 데이터 추출 92 / 4.4.2 데이터 파이프라인 실행 95
4.5 요약 96

CHAPTER 5 데이터의 정제, 변환, 증강 99
5.1 파이썬을 이용한 탐색적 데이터 분석 100
5.2 pandas를 이용한 공통적인 데이터 문제점 처리 109
5.3 에어플로를 이용한 데이터 정제 119
5.4 요약 122

CHAPTER 6 실습 프로젝트: 311 데이터 파이프라인 만들기 123
6.1 데이터 파이프라인 구축 123
6.2 키바나 대시보드 만들기 132
6.3 요약 142

PART II 실무 환경 데이터 파이프라인 배치 145
CHAPTER 7 실무용 데이터 파이프라인의 특징 147
7.1 데이터의 스테이징과 검증 148
7.2 멱등적 데이터 파이프라인 구축 168
7.3 원자적 데이터 파이프라인 구축 169
7.4 요약 171

CHAPTER 8 NiFi 레지스트리를 이용한 버전 관리 173
8.1 NiFi 레지스트리의 설치과 설정 173
8.2 NiFi에서 레지스트리 사용 176
8.3 데이터 파이프라인 버전 관리 178
8.4 NiFi 레지스트리에서 git-persistence 활용 184
8.5 요약 188

CHAPTER 9 데이터 파이프라인 모니터링 189
9.1 NiFi GUI를 이용한 데이터 파이프라인 모니터링 189
9.2 NiFi 처리기를 이용한 데이터 파이프라인 모니터링 198
9.3 파이썬과 REST API를 이용한 데이터 파이프라인 모니터링 201
9.4 요약 206

CHAPTER 10 데이터 파이프라인 배치 207
10.1 실무 배치를 위한 데이터 파이프라인 마무리 작업 207
10.2 NiFi 변수 레지스트리 활용 214
10.3 데이터 파이프라인 배치 217
10.4 요약 222

CHAPTER 11 실습 프로젝트: 실무용 데이터 파이프라인 구축 223
11.1 검사 환경과 실무 환경 구축 223
11.2 실무용 데이터 파이프라인 구축 227
11.3 데이터 파이프라인을 실무 환경에 배치 238
11.4 요약 238

PART III 일괄 처리를 넘어서: 실시간 데이터 파이프라인 구축 241
CHAPTER 12 아파치 카프카 클러스터 구축 243
12.1 주키퍼 및 카프카 클러스터 생성 243
12.2 카프카 클러스터 시험 운영 248
12.3 요약 250

CHAPTER 13 카프카를 이용한 데이터 스트리밍 251
13.1 로깅의 기초 251
13.2 카프카의 로그 활용 방식 253
13.3 카프카와 NiFi를 이용한 데이터 파이프라인 구축 257
13.4 스트림 처리와 일괄 처리의 차이 264
13.5 파이썬을 이용한 메시지 생산 및 소비 266
13.6 요약 270

CHAPTER 14 아파치 스파크를 이용한 데이터 처리 271
14.1 아파치 스파크의 설치와 설정 271
14.2 PySpark의 설치와 설정 275
14.3 PySpark를 이용한 데이터 처리 277
14.4 요약 283

CHAPTER 15 MiNiFi, 카프카, 스파크를 이용한 실시간 엣지 데이터 처리 285
15.1 MiNiFi 설치 및 설정 285
15.2 MiNiFi 데이터 파이프라인 구축 및 연동 288
15.3 요약 293

APPENDIX A NiFi 클러스터 구축 295

교환 및 환불안내

도서교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 : 070-4821-5101
교환/반품주소
  • 부산광역시 부산진구 중앙대로 856 303호 / (주)스터디채널 / 전화 : 070-4821-5101
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.