장바구니 담기 close

장바구니에 상품을 담았습니다.

강화학습 기본과 PyTorch

강화학습 기본과 PyTorch

  • 추상목
  • |
  • 자유아카데미
  • |
  • 2023-11-30 출간
  • |
  • 264페이지
  • |
  • 188 X 259 X 16mm / 686g
  • |
  • ISBN 9791158085599
판매가

22,000원

즉시할인가

21,780

배송비

2,500원

(제주/도서산간 배송 추가비용:3,000원)

수량
+ -
총주문금액
21,780

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

목차

제1장 그림으로 이해하는 강화학습
PART I 강화학습 구성 요소
PART II 환경(env) 예제
PART III 에이전트(agent) 예제

제2장 벨만 방정식(Bellman equation)
PART I 보상과 평균 보상
PART II 할인율(discount rate)
PART III 정책 π
PART IV 정책 π로 행동할 때, 상태 s에서 평균 보상
PART V 정책 π로 행동할 때, 상태 가치(state value)
PART VI 정책 π로 행동을 선택할 때, 상태-행동 가치
PART VII 벨만 기대 방정식(Bellman expectation equation)
PART VIII 벨만 최적 방정식(Bellman optimality equation)

제3장 강화학습에 사용하는 기본 코드
PART I 환경 코드
PART II 정책 코드
PART III 환경-정책 상호작용 코드

제4장 동적 계획법(Dynamic programming)
PART I 벨만 기대 방정식의 해를 코딩으로 구하기
PART II 최적의 정책을 코딩으로 구하기: 정책 반복(policy iteration)
PART III 최적의 정책을 코딩으로 구하기: 가치 반복(value iteration)

제5장 몬테카를로(Monte Carlo, MC)
PART I 에피소드(episode)
PART II 처음 방문(first-visit) MC와 모든 방문(every-visit) MC
PART III 중요도 표본추출 MC(importance sampling MC)
부록 125

제6장 SARSA와 Q-learning
PART I SARSA 개요
PART II Q-learning 개요
PART III SARSA 업데이트 그림부터 코딩까지의 과정
PART IV Q-learning 업데이트 그림부터 코딩까지의 과정

제7장 깊은 Q-네트워크(Deep Q-Network, DQN)
PART I 환경 CartPole-v0 소개
PART II 학습데이터, 신경망 구조와 손실함수 소개
PART III 그림으로 이해하는 DQN(Deep Q-Network, DQN)
PART IV DQN 의사 코드
PART V DQN 코드 설명
PART VI DQN 전체 코드

제8장 Double DQN

제9장 Dueling DQN
PART I Advantage A(s,a)의 평균을 빼는 이유

제10장 Max-PER(Prioritized Experience Replay)
PART I 정책 신경망의 첫 번째 업데이트(Max-PER-DQN)
PART II 정책 신경망의 두 번째 업데이트(Max-PER-DQN)
PART III 정책 신경망의 세 번째 업데이트(Max-PER-DQN)
PART IV Max-PER-DQN 전체 코드
PART V Max-PER-DoubleDQN 전체 코드
PART VI Max-PER-DuelingDQN 전체 코드

제11장 SumTree-PER(Prioritized Experience Replay)
PART I 정책 신경망의 첫 번째 업데이트(SumTree-PER-DQN)
PART II 정책 신경망의 두 번째 업데이트(SumTree-PER-DQN)
PART III 정책 신경망의 세 번째 업데이트(SumTree-PER-DQN)
PART IV SumTree-PER-DQN 전체 코드
PART V SumTree-PER-DoubleDQN 전체 코드
PART VI SumTree-PER-DuelingDQN 전체 코드

교환 및 환불안내

도서교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 1800-7327
교환/반품주소
  • 경기도 파주시 문발로 211 1층 / (주)북채널 / 전화 : 1800-7327
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.