The Forward View of TD ( )
이 방식은 여러개의 n-step return을 사용 하는 방식이다.
이 여러개의 n-step return 들에게 특이한 가중 평균을 적용한다.
Complex Backup
여러개의 n-step return 을 사용하여 update(?) 하는 것을 Complex Backup 이라고 한다.
간단한 Complex Backup
이해를 돕기 위해 간단한 Complex Backup 을 예를 든다면, 아래 그림과 같다.
책 예제
위 예제는 2 개의 n-step return 을 사용했고,
가장 간단한 평균 방법, 즉, n개를 더하여 n으로 나눈방법을 사용했다.
하나의 n-step return 는 TD backup-diagram 으로 표시할 수 있다.
평균의 일반화
그냥 평균은 가중 평균으로 일반화 할 수 있다.
(a+b+c) / 3 = 1/3a + 1/3b + 1/3c
위의 단순 산술 평균은 가중 평균으로 보았을 때 가중치가 1/3 인 것이다.
책의 간단한 Complex Backup 예제는 가중 평균으로 보면, 1/2 이 가중치이다.
TD() 가중 평균 가중치
TD() 가중 평균 가중치는 아래와 같다.
등비 수열 개념으로도 볼 수 있다.
초항이 이고, 공비가 이다.
TD()
위의 그림은 여러 개의 n-step return 들이 있고,
각각, 가중 평균 가중치가 밑에 나와 있다.
-Return
위의 그림을 식으로 나타내면 다음의 식으로 만들 수 있다.
첫 번째, 무수히 많은 경우
episod 가 존재할 경우
뒤에 더해진 것은 MC 의 n-step return 으로 볼 수 있다.
일반화
재미있는 것은 ,
위의 식에서 를 1으로 하면,
때문에 맨 뒤에 것 ( MC n-step return ) 만 남고 모두 0 이 된다.
즉 , MC 가 된다.
위의 식에서 를 0으로 하면,
첫 번째 것만 남고 모두 0 이 된다.
(수열의 첫 항만 빼고 모두 , 즉 0 이 곱해진다. )
첫 번째 것은 TD(0) n-step return , 즉 one-step return 이다.
즉 , TD(0) 가 된다.
-Return Alogrithm
update 방식이 아래 식과 같이 될 것 같다.
on-line, off-line 모두 사용가능하다고 한다.
이론적 관점
지금까지는 이론적 관점이다.
실제 알고리즘은 위의 말처럼 구현 되어 있지 않는 것 같다.
실제 알고리즘은 다음에 나올 Backward 관점은 즉, Mechanistic 관점으로 볼 수 있다.