현업 데이터 엔지니어들이 먼저 알아본 화제의 그 책!
데이터 파이프라인 설계와 구축의 핵심 원칙을 한 권에!
이 책은 특정 도구, 기술 또는 플랫폼을 사용하는 데이터 엔지니어링을 다루지 않는다. 이러한 관점에서 데이터 엔지니어링 관련 기술에 접근하는 도서는 많지만, 그런 책들은 수명이 짧다. 대신 이 책은 데이터 엔지니어링 이면의 기본 개념에 초점을 맞춘다.
이 책의 목표는 현재의 데이터 엔지니어링 관련 내용과 자료의 공백을 메우는 것이다. 특정 데이터 엔지니어링 도구와 기술을 다루는 기술 자원이 부족한 것은 아니지만, 사람들은 이러한 구성 요소들을 실제 세계에 적용되는 일관된 전체적 결과물로 조립하는 방법을 이해하는 데 어려움을 겪는다. 이 책은 데이터 수명 주기의 시작 단계부터 최종 단계에 이르기까지 모든 단계를 살펴본다. 특히 분석가, 데이터 과학자, 머신러닝 엔지니어와 같은 다운스트림 데이터 소비자의 요구를 충족하기 위해 다양한 기술을 결합하는 방법을 보여준다. 한편으로는 특정 기술, 플랫폼, 프로그래밍 언어의 세부 사항을 다루는 오라일리 도서들을 보완하는 역할을 한다.
이 책의 주요 내용은 데이터 생성, 저장, 수집, 변환, 서빙 등을 다루는 데이터 엔지니어링 수명 주기다. 데이터의 태동기 이후 우리는 수많은 특정 기술과 공급업체 제품의 흥망성쇠를 목격했지만, 데이터 엔지니어링 수명 주기 단계는 본질적으로 바뀌지 않았다. 이 프레임워크를 통해 독자는 기술을 실제 비즈니스 문제에 적용하는 데 필요한 올바른 이해를 얻을 수 있다.
여기서 우리의 목표는 두 가지 축을 아우르는 원칙을 세우는 것이다. 첫째, 데이터 엔지니어링을 모든 관련 기술을 포괄하는 원칙으로 정제하고자 한다. 둘째, 오랜 시간이 지나도 변함없는 원칙을 제시하고자 한다. 이러한 아이디어가 지난 20년간의 데이터 기술 격변기를 거치며 얻은 교훈을 반영하고, 우리의 내적 프레임워크가 미래에도 10년 이상 유용하게 유지되기를 바란다.
- 서문 ‘이 책에 대하여’ 중에서
대상 독자
● 데이터 엔지니어링 실무를 맡고 있는 담당자
● 데이터 엔지니어링 업무를 희망하는 중/고급 소프트웨어 엔지니어
● 기술 실무자와 연계해 작업하는 데이터 이해관계자 또는 팀 리더
● 데이터 분석 및 데이터 과학 담당자로서 데이터 엔지니어링을 이해하려는 사람
● 데이터 엔지니어링 분야의 큰 그림을 그려보고 싶은 누구나
주요 내용
● 전체 데이터 엔지니어링 환경의 간결한 개요 파악
● 모범 사례의 엔드투엔드 프레임워크로 데이터 엔지니어링 문제 평가
● 데이터 기술, 아키텍처 및 프로세스를 선택할 때 마케팅 과대광고 차단
● 데이터 엔지니어링 수명 주기로 강력한 아키텍처 설계 및 구축
● 데이터 엔지니어링 수명 주기 전반에 걸쳐 데이터 거버넌스 및 보안 통합