목차
제1장 N-step DQN
1. 용어 설명과 구성요소
2. 신경망 구조
3. 정책(상태가 입력되면 행동 출력) 정의
4. 학습데이터(memory) 정의
5. 손실 정의
6. 파라미터 업데이트 함수 정의
7. Main
8. 코드 설명
9. 전체 코드
10. 연습문제
11. 부록
제2장 NoisyNet
1. 용어 설명과 구성 요소
2. 신경망 구조
3. 정책(상태가 입력되면 행동 출력) 정의
4. 학습데이터(memory) 정의
5. 손실 정의
6. 파라미터 업데이트 함수
7. Main
8. 코드 설명
9. 전체 코드
10. 연습문제
11. 부록
제3장 CategoricalDQN(C51)
1. 용어 설명과 구성 요소
2. 신경망 구조
3. 정책(상태가 입력되면 행동 출력) 정의
4. 학습데이터(memory) 정의
5. 손실 정의
6. 파라미터 업데이트 함수
7. Main
8. 코드 설명
9. 전체 코드
10. 연습문제
11. 부록
제4장 Quantile Regression DQN(QRDQN)
1. 구성 요소
2. 용어 설명
3. 신경망 구조
4. 정책(상태가 입력되면 행동 출력) 정의
5. 학습데이터(memory) 정의
6. 손실 정의
7. 파라미터 업데이트 함수
8. Main
9. 코드 설명
10. 전체 코드
11. 연습문제
12. 부록
제5장 Implicit Quantile Network(IQN)
1. 구성 요소
2. 용어 설명
3. 신경망 구조
4. 정책(상태가 입력되면 행동 출력) 정의
5. 학습데이터(memory) 정의
6. 손실 정의
7. 파라미터 업데이트 함수 정의
8. Main
9. 코드 설명
10. 전체 코드
11. 부록
제6장 Fully Parameterized Quantile Function(FQF)
1. 구성 요소
2. 용어 설명
3. 신경망 구조
4. 정책(상태가 입력되면 행동 출력) 정의
5. 학습데이터(memory) 정의
6. 손실 정의
7. 파라미터 업데이트 함수 정의
8. Main
9. 코드 설명
10. 전체 코드
11. 부록
제7장 Rainbow
1. 전체 코드
2. 연습문제
부록 Backup diagram으로 가치 계산