장바구니 담기 close

장바구니에 상품을 담았습니다.

패키지 없이 R로 구현하는 심층 강화학습

패키지 없이 R로 구현하는 심층 강화학습

  • 이경택 ,박이삭 ,최영제
  • |
  • 비제이퍼블릭
  • |
  • 2021-06-29 출간
  • |
  • 332페이지
  • |
  • 188 X 245 mm
  • |
  • ISBN 9791165920746
판매가

26,000원

즉시할인가

23,400

배송비

무료배송

(제주/도서산간 배송 추가비용:3,000원)

수량
+ -
총주문금액
23,400

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

출판사서평




베타 리더 추천사
대부분의 실용성을 목적으로 한 딥러닝 책과는 현저히 다른 차별점을 보입니다. 코딩 중심으로 풀어나가야 하는 내용을 코딩만으로 풀어나가거나 이론에 대한 설명이 부족한 책이 많은 데에 비해, 이 책은 적절한 예시와 설명과 함께 제일 중요한 수리적 기반 및 매커니즘을 제시합니다. 특히 코드에서 각 부분마다 #(n)로 친절한 분석을 제공하고 있어, 코딩 자체의 구조가 헷갈리거나 처음 보는 구문이 있더라도 쉽게 이해할 수 있을 것입니다. 패키지 설치 없이 온전히 R의 기본 언어들로 구조를 만들었기 때문에 기초를 탄탄히 다질 수 있고, 근본적인 로직에 대한 이해력도 올라가는 느낌입니다.
_ 김한영 (데이터 사이언티스트)

시중에 R 과 관련된 책들은 대부분 전통적인 통계학이나 데이터 분석을 주로 다루는 반면 강화학습을 다루는 책들은 대부분 파이썬으로 코드를 제시합니다. 통계 및 시뮬레이션이 핵심인 강화학습 알고리즘을 R로 구현하는 책은 그간 없었는데, 그러한 갈증을 해소할 만한 좋은 책입니다. 책의 전반적인 서술은 흠잡을 곳이 없고 입문자도 쉽게 이해할 수 있게 잘 설명되어 있습니다. 단순히 개념 설명과 수식전개에서 그치지 않고, 실제 손으로도 계산해볼 수도 있을 만큼 간단한 예제를 제시하여 확실하게 개념을 이해할 수 있습니다. 다루기 다소 방대한 주제에도 불구하고 읽기 부담스럽지 않게 300페이지 내외로 서술되어 있으며, 패키지에 의존하지 않고 R 내장 함수로만 구현되어 있으므로 다소 응용만 한다면 다른 언어로도 손쉽게 포팅도 가능할 것 같습니다.
_ 원동식 (대학원생)

R을 이용하여 머신러닝과 딥러닝의 기초부터 충분히 설명하고 있어 초심자나 중급자 모두가 이해할 수 있습니다. 특히 R을 이용해 강화학습을 설명하는 책은 별로 없었는데 이 책은 그 점에서도 큰 가치가 있다고 생각합니다.
_ 송진영 (데이터 분석가)

R을 활용하여 밑바닥부터 강화학습을 구현하는 책입니다. R은 Python 같은 범용 언어에 비해 유연성은 부족하지만 군더더기를 걷어낸 핵심 로직에 집중할 수 있어, 강화학습과 같은 난이도 높은 알고리즘을 연구하기에 제격이라 생각합니다. 이 책은 Q-learning을 직접 손으로 풀어보고 Grid World를 활용하여 3단계 심층 강화학습 실습을 거치는 구성이 인상적이었는데, 특히 강화학습과 관련된 주요 논문들의 핵심 분석 과정이 백미입니다. 책 말미에는 TRPO, SMiRL와 같은 최신 주제도 다룹니다. 강화학습은 그 자체로도 난이도가 상당하며, 이 책에서는 수식을 정면 돌파하기 때문에 입문자보다는 딥러닝에 익숙한 분들께 추천해 드리고 싶습니다.
_ 허민 (데이터 분석가)


목차


Chapter 0. R 언어 소개
0.1 R 설치
〉 0.1.1 Windows 버전 R 다운로드 〈
〉 0.1.2 mac OS 버전 R 다운로드 〈
0.2 R 전용 통합 개발 환경(IDE) 설치


Chapter 1. 머신러닝이란 Machine Learning
1.1 머신러닝이 필요한 이유
〉 1.1.1 머신러닝 학습시키기 〈
〉 1.1.2 손실 함수 〈
〉 1.1.3 머신러닝의 구분 〈
1.2 딥러닝(Deep Learning)
〉 1.2.1 딥러닝의 사례 〈


Chapter 2. 딥러닝 Deep Learning
2.1 퍼셉트론(Perceptron)
2.2 Multi Layer Perceptron(MLP)
〉 2.2.1 Feed Forward 〈
〉 2.2.2 Back Propagation 〈
〉 2.2.3 활성 함수(Activation Function) 〈
〉 2.2.4 Gradient Descent Method 〈
〉 2.2.5 Iteration & Batch Size 〈
〉 2.2.6 딥러닝의 단점 및 극복 〈
2.3 딥러닝(Deep Learning)
〉 2.3.1 Universal Approximation Theorem 〈
〉 2.3.2 Convolutional Neural Network(CNN) 〈
〉 2.3.3 다양한 CNN 구조 〈
〉 2.3.4 Recurrent Neural Network(RNN) 〈
〉 2.3.5 다양한 RNN 구조 〈
〉 2.3.6 GAN 학습 과정 - Feed Forward 〈
〉 2.3.7 GAN 학습 과정 - Back Propagation 〈
2.4 R로 구현하는 신경망
〉 2.4.1 Feed Forward 〈
〉 2.4.2 Back Propagation 〈


Chapter 3. 강화학습 Reinforcement Learning
3.1 강화학습 정의 요소
〉 3.1.1 상태(State) 〈
〉 3.1.2 행동(Action) 〈
〉 3.1.3 정책(Policy) 〈
〉 3.1.4 보상(Reward) 〈
〉 3.1.5 감가율과 감가 누적 보상(Discount factor and Return) 〈
〉 3.1.6 상태 가치 함수(State Value Function) 〈
〉 3.1.7 행동 가치 함수(Action Value Function) 〈
〉 3.1.8 벨만 방정식(Bellman equation) 〈
〉 3.1.9 몬테 카를로 학습(Monte-Carlo Learning, MC) 〈
〉 3.1.10 시간 차 학습(Temporal Difference Learning, TD) 〈
〉 3.1.11 정책 갱신 〈
3.2 손으로 풀어보는 Q-Learning


Chapter 4. 심층 강화학습 Deep Reinforcement Learning
4.1 Deep Q-Learning with Experience Replay(DQN)
[예제 4-1] DQN으로 최적 경로 찾기
4.2 Prioritized Experience Replay (PerDQN)
[예제 4-2] PerDQN으로 최적 경로 찾기
4.3 Dueling DQN
4.4 Policy Gradient(PG)
〉 4.4.1 REINFORCE Algorithm 〈
〉 4.4.2 Actor-Critic 〈
4.5 Advantage Actor-Critic(A2C)
[예제 4-3] A2C로 최적 경로 찾기
4.6 Asynchronous Methods for Deep Reinforcement Learning(A3C)
4.7 강화학습의 발전 방향
〉 4.7.1 다수의 에이전트(Multi Agent) 〈
〉 4.7.2 희소 보상 문제(Sparse Reward Problem) 〈
4.8 Curiosity
〉 4.8.1 Exploration Bonus 〈
〉 4.8.2 Count-Based Exploration Bonus 〈
〉 4.8.3 Curiosity의 개념 〈
4.9 Self-Imitation Learning
[예제 4-4] SIL로 최적 경로 찾기(난이도 3)
4.10 Exploration by Random Network Distillation
[예제 4-5] RND로 최적 경로 찾기(난이도 3)


Chapter 5. 심층 강화학습을 이용한 프로젝트
5.1 1단계 프로젝트
〉 5.1.1 Environment 소개 〈
〉 5.1.2 State 설계 〈
〉 5.1.3 Reward 설계 〈
〉 5.1.4 1단계 프로젝트 학습 코드 〈
5.2 2단계 프로젝트
〉 5.2.1 Environment 소개 〈
〉 5.2.2 State 설계 〈
〉 5.2.3 Reward 설계 〈
〉 5.2.4 2단계 프로젝트 학습 코드 〈
5.3 3단계 프로젝트
〉 5.3.1 Environment 소개 〈
〉 5.3.2 3단계 프로젝트 학습 코드 〈


Chapter 6. 최신 강화학습 트렌드
6.1 Trust Region Policy Optimization(TRPO)
6.2 Proximal Policy Optimization(PPO)
6.3 Distributed Prioritized Experience Replay(Ape-X)
6.4 Never Give Up(NGU)
6.5 Rewarding Impact-Driven Exploration (RIDE)
6.6 BeBold
〉 6.6.1 Episodic Restriction on Intrinsic Reward(ERIR) 〈
6.7 Surprise Minimizing Reinforcement Learning(SMiRL)


그림 출처
찾아보기

교환 및 환불안내

도서교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 1800-7327
교환/반품주소
  • 경기도 파주시 문발로 211 1층 / (주)북채널 / 전화 : 1800-7327
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.