Off-Policy Bootstrapping
bootstrapping, function approximation, on-policy distribution
다시, prediction 으로 돌아와 bootstrapping, 함수 추정, on-policy distribution 들의 상호 작용에 대해 알아 볼 것이다.
여기서 bootstrapping 은 다른 기존 추정치를 바탕으로 새 추정치를 갱신하는 것을 의미한다.
TD, DP 는 bootstrapping 이며, MC 는 아니다.
인 경우의 TD( ) 는 bootstrapping 이며, 이면 bootstrapping 이 아니다.
TD(1) ( ) 는 에피소드 내에서 bootstrapping 과 관련 있지만, 에피소드가 종료되는 시점의 전체적인 과정의 결과는 MC 와 같다.
Convergence Bound on Bootstrapping
bootstrapping 방법은 nonbootstraping 방법 보다 함수 추정을 적용하는 것이 어렵다.
예를 들어, nonbootstrapping 방식으로 prediction 에 선형 경사하강 함수 추정을 적용하면 최소 MSE 를 찾는다.
반면에 bootstrapping 방식에서는 on policy distribution 이 적용 된 경우만, MSE 의 근처에 수렴한다.
더욱이, TD() 는 가 1 보다 점점 더 작아질 경우 MSE 의 근처로 수렴하는 영역이 더 커진다.
off-policy bootstrapping
on-policy distribution 이 적용된 bootstrapping 방법의 제한적 수렴성은 중요한 문제이다.
sarsa 와 actor-critic 과 같은 on-policy 방법은 이런 문제가 없는데, Q-learning , DP 와 같은 off-policy 에서는 중요한 문제이다.
off-policy control 방법은 estimate policy 의 상태나 혹은 상태, 행동 짝을 백업하는 것이 아니다.
예를 들어, 많은 DP 방법들은 모든 상태를 백업한다.
Q-learning 임의의 분포(behavior policy?)의 상태를 백업 하지만, 보통, 그것(?)은 환경과 상호작용하여 생성된 분포와 greedy estimation policy 와 거의 같은 soft(? greedy ) policy 에 따라 백업한다. (?)
on-policy distribution 과 다른 backup 의 분포(?)를 사용하는 모든 bootstrapping 방법을 off-policy bootstrapping 이라고 용어를 사용한다. (?)
놀랍게도, 함수 추정이 적용된 off-policy bootstrapping 은 MSE 가 무한대로 발산할 수 있다.