TD( ) 는 Eligibility Traces 중에 유명하다.
가 Eligibilty Traces를 뜻한다.
TD 의 모든 방법들 Q-learning , Sarsa 는 eligibilty trace 와 통합되어 더 효율적일 수 있다.
Theoretical View
Eligibility Trace 는 두 가지 관점에서 볼 수 있다.
TD 와 MC 를 이어주는 다리 역할로 보는 이론적 관점이 그 중 한가지이다.
양쪽 끝에 TD 와 MC 가 있고, 중간에 one step 부터 다양한 step 이 있는 메소드들을 생각할 수 있다.
Mechanistic View
상태를 방문하거나, 행동을 취하거나 하는 이벤트를 기록하는 것으로 eligibility trace 를 생각할 수 있다.
재확인 사항
TD error 로 '적합한' 행동이나 상태가 신용(credit)을 얻거나, 그렇지 않다면 TD error 에 대해 책임을 지게 한다. (?)
즉, 학습 데이터(?) 와 이벤트 사이의 다리 역할을 한다.
TD 와 같이 eligibility trace 는 시간적 신용 할당 ( temporal credit assignment ) 에 대한 방식이다.
Forward, Backward View
이론적 관점이 forward 관점이며, 이는 계산과정에 중점을 두고 있으며,
Mechanistic 관점은 backward 관점이며, 직관적인 알고리즘 구현을 위한 관점이다.
이 두 관점에서 같은 알고리즘을 설명할 것이다.
처음에는 prediction ( gpi policy evaluation ) 을 다루고,
다음에 control (gpi policy improvement ) 을 다룬다.