장바구니 담기 close

장바구니에 상품을 담았습니다.

파이토치로 완성하는 실전 강화학습

파이토치로 완성하는 실전 강화학습

  • 윤성진
  • |
  • 에이콘온
  • |
  • 2025-08-28 출간
  • |
  • 764페이지
  • |
  • 188 X 235 X 35mm
  • |
  • ISBN 9791194409908
판매가

46,000원

즉시할인가

41,400

배송비

무료배송

(제주/도서산간 배송 추가비용:3,000원)

수량
+ -
총주문금액
41,400

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

출판사서평

◈ 이 책에서 다루는 내용 ◈

◆ 단계적이고 체계적으로 다루는 강화학습의 기초부터 고급 주제까지
◆ 정책 기반(REINFORCE, PPO), 액터-크리틱(A2C, A3C), 가치 기반(DQN, DDQN) 알고리즘의 이론과 실습을 균형 있게 제공
◆ 개념을 시각화하고 수식을 단계별로 풀어 설명하며 배경 지식을 이해하도록 팁을 제공
◆ 알고리즘의 핵심 코드를 직접 구현해 보고 정답을 즉시 확인해 보는 방식의 실습 구성
◆ 강화학습 프레임워크를 설계하고 이를 기반으로 강화학습 알고리즘을 구현
◆ 강화학습의 주요 구성 요소와 전체 프로세스를 체계적으로 이해할 수 있으며 독자가 알고리즘을 스스로 개선하고 확장할 수 있도록 지원
◆ 분산 학습과 같은 최신 기법을 포함해 실무 환경에 바로 적용할 수 있는 실전 지식 제공


◈ 이 책의 대상 독자 ◈

◆ 심층 강화학습을 이론부터 실습까지 체계적으로 학습하고자 하는 독자
◆ 강화학습 프레임워크의 구조를 이해하고 직접 구현해 보려는 독자
◆ 여러 알고리즘을 구현해 성능을 비교·분석해 보고 싶은 독자
◆ 강화학습을 실제 업무에 적용하고자 하는 개발자 및 연구자
◆ 이공계 학부·대학원생, AI 분야 취업 준비생, 머신러닝 개발자, AI R&D 연구원 등

목차

1부. 강화학습 개요
1장. 강화학습 개요
1.1 강화학습이란?
1.2 강화학습의 응용
1.3 강화학습의 도전 과제

2장. 강화학습 알고리즘
2.1 강화학습의 정의
2.2 강화학습 알고리즘의 종류
2.3 강화학습의 학습 단계
2.4 알고리즘 선택 기준

2부. 강화학습 프레임워크 소개
3장. 강화학습 프레임워크
3.1 강화학습 논리 구성
3.2 강화학습 프레임워크 클래스 구성
3.2.1 공통 클래스와 커스터마이징 클래스

4장. 강화학습 프레임워크 개발 환경
4.1 개발 환경 구성
4.2 OpenGym 소개
4.3 강화학습 프레임워크의 실행

3부. 강화학습 맛보기 정책 기반 방법
5장. 러너
5.1 러너의 구성
5.2 러너의 작동 방식
5.3 Runner 클래스 정의
5.4 Runner 클래스 구현코드

6장. 환경 루프
6.1 환경 루프의 구성
6.2 환경 루프의 작동 방식
6.3 EnvironmentLoop 클래스 정의
6.4 EnvironmentLoop 클래스 구현 코드

7장. 폴리시 그레이디언트
7.1 정책 기반 방법의 유도
7.2 분산 최소화 방안

8장. REINFORCE 알고리즘 구현
8.1 REINFORCE 알고리즘 구성
8.2 REINFORCE 클래스
8.3 REINFORCENetwork 클래스
8.4 REINFORCELearner 클래스
8.5 몬테카를로 리턴
8.6 CartPole-v1 환경
8.7 LunarLanderContinuous-v2 학습

4부. 강화학습 발담그기 정책 기반 방법 성능 개선
9장. 에이전트
9.1 에이전트 구성
9.2 에이전트
9.3 액터
9.4 학습자
9.5 네트워크

10장. 정책
10.1 정책의 종류
10.2 정책의 구성
10.3 Policy 클래스
10.4 StochasticPolicy 클래스
10.5 CategoricalPolicy 클래스
10.6 GaussianPolicy 클래스
10.7 MLP 클래스
10.8 CategoricalPolicyMLP 클래스
10.9 GaussianPolicyMLP 클래스

11장. REINFORCE 베이스라인 적용
11.1 새로운 알고리즘 추가
11.2 REINFORCE 베이스라인 버전 구성
11.3 REINFORCEB 클래스
11.4 REINFORCEBNetwork 클래스
11.5 REINFORCEBLearner 클래스
11.6 CartPole-v1 학습
11.7 LunarLanderContinuous-v2 학습
11.8 새로운 환경 학습

5부. 강화학습 즐기기 액터-크리틱 방법
12장. 액터-크리틱 방법
12.1 가치 함수
12.2 액터-크리틱 방법
12.3 A2C

13장. A2C 알고리즘 구현
13.1 A2C 알고리즘 구성
13.2 A2C 클래스
13.3 A2CNetwork 클래스
13.4 A2CLearner 클래스
13.5 n-스텝 리턴
13.6 GAE
13.7 CartPole-v1 학습
13.8 LunarLanderContinuous-v2 학습

14장. 가치 함수
14.1 가치 함수
14.2 가치 함수의 구성
14.3 ValueFunction 클래스
14.4 StateValueFunction 클래스
14.5 ActionValueFunction 클래스
14.6 ValueFunctionMLP 클래스
14.7 QFunctionMLP 클래스
14.8 QFunctionMLPDQN 클래스

15장. 데이터셋
15.1 데이터셋 구성 방식
15.2 데이터셋의 구성
15.3 버퍼와 버퍼 스키마
15.4 롤아웃 버퍼
15.5 리플레이 버퍼

16장. 환경
16.1 환경의 작동 방식
16.2 환경 구성
16.3 Environment 클래스
16.4 EnvironmentSpec 클래스
16.5 OpenGym 클래스

6부. 강화학습 완성하기 가치 기반 방법
17장. 가치 기반 방법
17.1 가치 기반 방법
17.2 DQN
17.3 더블 DQN(Double DQN)

18장. 가치 기반 방법
18.1 DQN 알고리즘 구성
18.2 DQN 클래스
18.3 DQNNetwork 클래스
18.4 유틸리티 함수
18.5 DQNLearner 클래스
18.6 CartPole-v1 학습

19장. 더블 DQN 알고리즘 구현
19.1 더블 DQN 알고리즘 구성
19.2 DDQN 클래스
19.3 DDQNNetwork 클래스
19.4 DDQNLearner 클래스
19.5 CartPole-v1 학습

7부. 강화학습 성능 개선 분산 강화학습
20장. PPO 알고리즘
20.1 PPO 알고리즘

21장. PPO 알고리즘 구현
21.1 PPO 알고리즘 구성
21.2 PPO 클래스
21.3 PPONetwork 클래스
21.4 PPOLearner 클래스
21.5 CartPole-v1 학습
21.6 LunarLanderContinuous-v2 학습
21.7 AntBulletEnv-v0 학습

22장. 다중 환경 러너
22.1 A2C와 A3C
22.2 다중 환경 러너의 구성
22.3 MultiEnvRunner 클래스
22.4 MultiEnvAsyncRunner 클래스
22.5 다중 환경 성능 확인
22.6 Ray 소개

교환 및 환불안내

도서교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 : 070-4821-5101
교환/반품주소
  • 부산광역시 부산진구 중앙대로 856 303호 / (주)스터디채널 / 전화 : 070-4821-5101
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.