N-Step TD Methods Prediction

MC 와 TD(0) 사이의 단계를 처리하는 방식 ( 1 < n < steps of episode )

추정치를 다음 단계만 보는 것이 아니라 n 단계까지 보고 정하는 방식

n-step return ( corrected n-step truncated return )

n 단계(step) 전까지 보상은 존재하나 이후는 추정치로 대체 되는 다음 식을

corrected n-step truncated return 이라고 한다.

위 식을 줄여서 간단히 로 표시하고,

간단히 n-step return 이라고 한다.

n-step backup

백업시 변경되는 값은 아래 식과 같다.

는 양수 step-size 이다.

on-line updating

episode 가 진행 되는 동안 갱신 방법.

아래 식으로 계산 됨

off-line updating

episode 가 완료 후 갱신,

episode 진행 중에는 따로 저장됨.

아래식으로 계산됨


이하 내용 분석 필요

results matching ""

    No results matching ""