N-Step TD Methods Prediction
MC 와 TD(0) 사이의 단계를 처리하는 방식 ( 1 < n < steps of episode )
추정치를 다음 단계만 보는 것이 아니라 n 단계까지 보고 정하는 방식
n-step return ( corrected n-step truncated return )
n 단계(step) 전까지 보상은 존재하나 이후는 추정치로 대체 되는 다음 식을
corrected n-step truncated return 이라고 한다.
위 식을 줄여서 간단히 로 표시하고,
간단히 n-step return 이라고 한다.
n-step backup
백업시 변경되는 값은 아래 식과 같다.
는 양수 step-size 이다.
on-line updating
episode 가 진행 되는 동안 갱신 방법.
아래 식으로 계산 됨
off-line updating
episode 가 완료 후 갱신,
episode 진행 중에는 따로 저장됨.
아래식으로 계산됨
이하 내용 분석 필요