비전 생성 모델의 수리적 배경부터
응용 모델의 사용법과 결과 도출 원리까지
1장에서는 컴퓨터 비전 영역에 속한 생성형 AI 관련 모델인 비전 생성 모델에 대해 용어를 정의하고 수리적인 배경을 학습한 후 구현 및 실습에 필요한 도구를 설치합니다.
2장에서는 대표적인 생성 모델링 방식인 오토 인코더, 변이형 오토 인코더(VAE), 생성적 적대 신경망(GAN), 그리고 확산 모델(Diffusion Model)에 대해 이론부터 실습까지 코드를 한 줄씩 따라가며 꼼꼼하게 살펴봅니다.
3장에서는 영상 생성 모델(PGGAN, StyleGAN), 영상 변환 모델(pix2pix, CycleGAN), 스타일 변환 모델(AdalN, StarGAN), 영상 품질 개선 모델(초해상도: SRGAN, 디블러링: DeblurGAN)에 대해 수학 공식을 통한 수리적인 배경부터 소스코드를 통한 설명과 결과 이미지 확인까지 세밀하게 고찰해봅니다.
4장에서는 텍스트 입력을 처리할 수 있게 하는 트랜스포머, 이미지와 텍스트 프롬프트의 정보를 연결하는 CLIP 모델, 파이프라인 및 응용 기법 등을 지원하는 허깅페이스의 Diffuser 라이브러리에 대해 알아봅니다. 그리고 미드저니, 빙 이미지 크리에이터, 스테이블 디퓨전 등의 생성 서비스에 사용된 멀티 모달 비전 생성 모델에 대해 각 서비스를 기준으로 수리적인 배경과 결과 도출 방식을 살펴봅니다.
5장에서는 모바일 애플리케이션 스노우(SNOW), 어도비의 생성형 AI 플랫폼 젠스튜디오(GenStudio), 오픈AI의 Text-to-Video 생성 모델 소라(Sora) 등을 소개하며 비전 생성 모델의 전망과 미래 잠재력을 조망해봅니다.
이 책이 필요한 독자
- 딥러닝과 영상 변환 모델 기술에 대해 궁금한 분
- 비전 생성 모델을 처음 접하는 대학생 또는 대학원생
- 이미지 및 영상 생성 관련 인공지능 기술을 직접적인 수식과 코드로 학습하고 싶은 분
- 비주얼 분야에서의 인공지능에 대해 학습하고 싶은 분
- 디자인 및 그래픽 관련 분야에서 인공지능 모델을 활용해보고 싶은 분