파이토치로 완성하는 실전 강화학습 윤성진
☆☆☆☆☆ 평점(0/5)
에이콘온 | 2025-08-28 출간
판매가
46,000
즉시할인가
41,400
배송비
무료배송
(제주/도서산간 배송 추가비용:3,000원)
상품정보
책 소개
목차
1부. 강화학습 개요
1장. 강화학습 개요
1.1 강화학습이란?
1.2 강화학습의 응용
1.3 강화학습의 도전 과제

2장. 강화학습 알고리즘
2.1 강화학습의 정의
2.2 강화학습 알고리즘의 종류
2.3 강화학습의 학습 단계
2.4 알고리즘 선택 기준

2부. 강화학습 프레임워크 소개
3장. 강화학습 프레임워크
3.1 강화학습 논리 구성
3.2 강화학습 프레임워크 클래스 구성
3.2.1 공통 클래스와 커스터마이징 클래스

4장. 강화학습 프레임워크 개발 환경
4.1 개발 환경 구성
4.2 OpenGym 소개
4.3 강화학습 프레임워크의 실행

3부. 강화학습 맛보기 정책 기반 방법
5장. 러너
5.1 러너의 구성
5.2 러너의 작동 방식
5.3 Runner 클래스 정의
5.4 Runner 클래스 구현코드

6장. 환경 루프
6.1 환경 루프의 구성
6.2 환경 루프의 작동 방식
6.3 EnvironmentLoop 클래스 정의
6.4 EnvironmentLoop 클래스 구현 코드

7장. 폴리시 그레이디언트
7.1 정책 기반 방법의 유도
7.2 분산 최소화 방안

8장. REINFORCE 알고리즘 구현
8.1 REINFORCE 알고리즘 구성
8.2 REINFORCE 클래스
8.3 REINFORCENetwork 클래스
8.4 REINFORCELearner 클래스
8.5 몬테카를로 리턴
8.6 CartPole-v1 환경
8.7 LunarLanderContinuous-v2 학습

4부. 강화학습 발담그기 정책 기반 방법 성능 개선
9장. 에이전트
9.1 에이전트 구성
9.2 에이전트
9.3 액터
9.4 학습자
9.5 네트워크

10장. 정책
10.1 정책의 종류
10.2 정책의 구성
10.3 Policy 클래스
10.4 StochasticPolicy 클래스
10.5 CategoricalPolicy 클래스
10.6 GaussianPolicy 클래스
10.7 MLP 클래스
10.8 CategoricalPolicyMLP 클래스
10.9 GaussianPolicyMLP 클래스

11장. REINFORCE 베이스라인 적용
11.1 새로운 알고리즘 추가
11.2 REINFORCE 베이스라인 버전 구성
11.3 REINFORCEB 클래스
11.4 REINFORCEBNetwork 클래스
11.5 REINFORCEBLearner 클래스
11.6 CartPole-v1 학습
11.7 LunarLanderContinuous-v2 학습
11.8 새로운 환경 학습

5부. 강화학습 즐기기 액터-크리틱 방법
12장. 액터-크리틱 방법
12.1 가치 함수
12.2 액터-크리틱 방법
12.3 A2C

13장. A2C 알고리즘 구현
13.1 A2C 알고리즘 구성
13.2 A2C 클래스
13.3 A2CNetwork 클래스
13.4 A2CLearner 클래스
13.5 n-스텝 리턴
13.6 GAE
13.7 CartPole-v1 학습
13.8 LunarLanderContinuous-v2 학습

14장. 가치 함수
14.1 가치 함수
14.2 가치 함수의 구성
14.3 ValueFunction 클래스
14.4 StateValueFunction 클래스
14.5 ActionValueFunction 클래스
14.6 ValueFunctionMLP 클래스
14.7 QFunctionMLP 클래스
14.8 QFunctionMLPDQN 클래스

15장. 데이터셋
15.1 데이터셋 구성 방식
15.2 데이터셋의 구성
15.3 버퍼와 버퍼 스키마
15.4 롤아웃 버퍼
15.5 리플레이 버퍼

16장. 환경
16.1 환경의 작동 방식
16.2 환경 구성
16.3 Environment 클래스
16.4 EnvironmentSpec 클래스
16.5 OpenGym 클래스

6부. 강화학습 완성하기 가치 기반 방법
17장. 가치 기반 방법
17.1 가치 기반 방법
17.2 DQN
17.3 더블 DQN(Double DQN)

18장. 가치 기반 방법
18.1 DQN 알고리즘 구성
18.2 DQN 클래스
18.3 DQNNetwork 클래스
18.4 유틸리티 함수
18.5 DQNLearner 클래스
18.6 CartPole-v1 학습

19장. 더블 DQN 알고리즘 구현
19.1 더블 DQN 알고리즘 구성
19.2 DDQN 클래스
19.3 DDQNNetwork 클래스
19.4 DDQNLearner 클래스
19.5 CartPole-v1 학습

7부. 강화학습 성능 개선 분산 강화학습
20장. PPO 알고리즘
20.1 PPO 알고리즘

21장. PPO 알고리즘 구현
21.1 PPO 알고리즘 구성
21.2 PPO 클래스
21.3 PPONetwork 클래스
21.4 PPOLearner 클래스
21.5 CartPole-v1 학습
21.6 LunarLanderContinuous-v2 학습
21.7 AntBulletEnv-v0 학습

22장. 다중 환경 러너
22.1 A2C와 A3C
22.2 다중 환경 러너의 구성
22.3 MultiEnvRunner 클래스
22.4 MultiEnvAsyncRunner 클래스
22.5 다중 환경 성능 확인
22.6 Ray 소개
책제원정보
ISBN 9791194409908
판형정보 764쪽 / 188 X 235 X 35mm
출판사 에이콘온
출판일 2025-08-28 출간
교환 및 환불안내
도서 교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.
        (카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 : 070-4821-5101
교환/반품주소
  • 부산광역시 부산진구 중앙대로 856 303호 / (주)스터디채널 / 전화 : 070-4821-5101
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님의 변심으로 인한 교환 또는 반품시에는 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.

선택된 상품

  • 파이토치로 완성하는 실전 강화학습
    41,400원

총 주문금액

41,400