장바구니 담기 close

장바구니에 상품을 담았습니다.

프로그래머를 위한 강화학습

프로그래머를 위한 강화학습

  • 멀티코어 ,김남준 ,윤철희
  • |
  • 프리렉
  • |
  • 2021-03-31 출간
  • |
  • 336페이지
  • |
  • 182 X 232 mm
  • |
  • ISBN 9788965402930
판매가

25,000원

즉시할인가

22,500

배송비

무료배송

(제주/도서산간 배송 추가비용:3,000원)

수량
+ -
총주문금액
22,500

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

출판사서평




인공지능의 최전선, 강화학습
이제 인공지능은 IT 업계를 넘어 다양한 분야와 비즈니스로 활용 폭을 넓히고 있습니다. 인공지능을 공부하다 보면 머신러닝과 딥러닝부터 시작해서 결국에는 강화학습을 마주하게 됩니다. 강화학습은 시행착오를 거쳐 해결책을 찾아나가는 기법으로, 인공지능 기술 중에서 가장 난이도가 높습니다. 그래서 원리를 이해하려면 상당한 수준의 수학과 통계 이론을 알아야 합니다.
이 책에서는 강화학습의 기초가 되는 수식을 하나하나 자세히 유도하기보다는 수식이 이어지는 흐름을 따라가면서 다양한 알고리즘의 원리를 한눈에 살펴보고, 코드로 구현해가며 활용법을 익히도록 구성했습니다. 이 책을 출발점으로 삼아, 인공지능의 최전선에 있는 강화학습을 제대로 이해하고 활용할 수 있는 발판을 마련해 봅시다.

이 책의 특징
· 강화학습 이해에 필요한 통계와 수학 이론을 기초부터 다룬다.
· 알고리즘의 기본 개념을 그림으로 표현하여 이해를 돕는다.
· 하나의 예제를 통해 일관성 있게 개념과 이론을 설명해 나간다.
· 파이썬 코드 구현과 튜닝, 최적화까지 실무에 적용할 수 있는 수준까지 다룬다.

이 책의 구성
이 책은 강화학습의 기초 개념과 인공지능 개념, 가치 기반 강화학습, 정책 기반 강화학습, 튜닝 문제, 이렇게 모두 다섯 부분으로 구성됩니다.
· 강화학습의 기초 개념: 강화학습에 필요한 통계 및 수학 이론과 MDP에 대한 설명
· 인공지능 개념: 머신러닝부터 강화학습 내부에서 사용하는 인공신경망으로 이르는 과정을 선형 회귀부터 차근차근 설명
· 가치 기반 강화학습: 상대적으로 이해하기 쉬운 DQN 알고리즘을 코드 중심으로 설명
· 정책 기반 강화학습: REINFORCE, A2C, PPO 알고리즘에 대한 설명과 실행 안내
· 튜닝 문제: 알고리즘의 파라미터 튜닝을 효율적으로 돕는 그리드 서치와 베이지안 최적화 기법


목차


시작하며
01장 강화학습 기본 개념
1.1 강화학습이란
1.2 확률과 확률 과정
1.3. 마르코프 연쇄
1.4 마르코프 보상 과정

02장 강화학습 기본 알고리즘
2.1 마르코프 결정 과정
2.2 MDP 행동 가치 함수
2.3 MDP 최적 가치 함수
2.4 강화학습에 사용되는 다양한 용어
2.5 다이내믹 프로그래밍
2.6 몬테카를로 방법
2.7 TD와 SARSA
2.8 Q 러닝

03장 인공지능의 개념
3.1 머신러닝
3.2 선형 회귀 분석
3.3 분류 분석
3.4 딥러닝
3.5 개발 환경 설치
3.6 텐서플로우

04장 함수 근사법
4.1 미분
4.2 편미분
4.3 스칼라와 벡터
4.4 그래디언트
4.5 경사하강법
4.6 확률적 경사하강법
4.7 강화학습에서 편미분과 경사하강법의 표기법
4.8 함수 근사법

05장 가치 기반 강화학습과 DQN 알고리즘
5.1 DQN 알고리즘
5.2 카트폴
5.3 탐험과 탐욕의 문제
5.4 DQN 알고리즘 기본 구조
5.5 DQN 알고리즘 전체 코드 리뷰
5.6 DQN 알고리즘 세부 구조 살펴보기
5.7 DQN 알고리즘 학습 결과 분석

06장 정책 기반 강화학습 REINFORCE 알고리즘
6.1 인공신경망 다시 보기
6.2 정책 그래디언트
6.3 REINFOFCE 알고리즘 동작 방식
6.4 REINFOFCE 알고리즘 기본 구조
6.5 REINFORCE 알고리즘 전체 코드 리뷰
6.6 REINFORCE 알고리즘 세부 구조 살펴보기
6.7 REINFORCE 알고리즘 학습 결과 분석

07장 정책 기반 A2C 알고리즘
7.1 액터 크리틱 알고리즘
7.2 어드밴티지 액터 크리틱
7.3 A2C 알고리즘 기본 구조
7.4 A2C 알고리즘 전체 코드 리뷰
7.5 A2C 알고리즘 세부 구조 살펴보기
7.6 A2C 알고리즘 학습 결과 분석

08장 정책 기반 PPO 알고리즘
8.1 중요도 샘플링
8.2 오프 폴리시 정책 그래디언트
8.3 클리핑 기법
8.4 GAE
8.5 PPO 알고리즘 기본 구조
8.6 PPO 알고리즘 전체 코드 리뷰
8.7 PPO 알고리즘 세부 구조 살펴보기
8.8 PPO 알고리즘 알고리즘 학습 결과 분석

09장 인공신경망 튜닝
9.1 인공신경망 튜닝 개요
9.2 입력 데이터 전처리
9.3 비용 함수의 선택
9.4 활성화 알고리즘
9.5 가중치 초기화
9.6 최적화 알고리즘
9.7 노드와 은닉층 개수에 대한 논의
9.8 PPO 알고리즘 인공신경망 튜닝
9.9 PPO 알고리즘 튜닝 코드 적용
9.10 PPO 알고리즘 튜닝 결과 분석

10장 그리드 서치 기반 최적화 기법
10.1 그리드 서치 개념
10.2 그리드 서치 코딩
10.3 그리드 서치 전체 코드
10.4 그리드 서치 결과 분석
10.5 그리드 서치 파라미터 튜닝 적용

11장 베이지안 최적화 기법
11.1 빈도주의 확률과 베이지안 확률
11.2 베이지안 확률 계산
11.3 베이지안 최적화 패키지 소개
11.4 베이지안 최적화 패키지 활용
11.5 베이지안 최적화 전체 코드
11.6 베이지안 최적화 결과 분석

마무리하며
찾아보기

교환 및 환불안내

도서교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 : 070-4821-5101
교환/반품주소
  • 부산광역시 부산진구 중앙대로 856 303호 / (주)스터디채널 / 전화 : 070-4821-5101
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.