Off-Policy Bootstrapping

bootstrapping, function approximation, on-policy distribution

다시, prediction 으로 돌아와 bootstrapping, 함수 추정, on-policy distribution 들의 상호 작용에 대해 알아 볼 것이다.

여기서 bootstrapping 은 다른 기존 추정치를 바탕으로 새 추정치를 갱신하는 것을 의미한다.

TD, DP 는 bootstrapping 이며, MC 는 아니다.

인 경우의 TD( ) 는 bootstrapping 이며, 이면 bootstrapping 이 아니다.

TD(1) ( ) 는 에피소드 내에서 bootstrapping 과 관련 있지만, 에피소드가 종료되는 시점의 전체적인 과정의 결과는 MC 와 같다.

Convergence Bound on Bootstrapping

bootstrapping 방법은 nonbootstraping 방법 보다 함수 추정을 적용하는 것이 어렵다.

예를 들어, nonbootstrapping 방식으로 prediction 에 선형 경사하강 함수 추정을 적용하면 최소 MSE 를 찾는다.

반면에 bootstrapping 방식에서는 on policy distribution 이 적용 된 경우만, MSE 의 근처에 수렴한다.

더욱이, TD() 는 가 1 보다 점점 더 작아질 경우 MSE 의 근처로 수렴하는 영역이 더 커진다.

off-policy bootstrapping

on-policy distribution 이 적용된 bootstrapping 방법의 제한적 수렴성은 중요한 문제이다.

sarsa 와 actor-critic 과 같은 on-policy 방법은 이런 문제가 없는데, Q-learning , DP 와 같은 off-policy 에서는 중요한 문제이다.

off-policy control 방법은 estimate policy 의 상태나 혹은 상태, 행동 짝을 백업하는 것이 아니다.

예를 들어, 많은 DP 방법들은 모든 상태를 백업한다.

Q-learning 임의의 분포(behavior policy?)의 상태를 백업 하지만, 보통, 그것(?)은 환경과 상호작용하여 생성된 분포와 greedy estimation policy 와 거의 같은 soft(? greedy ) policy 에 따라 백업한다. (?)

on-policy distribution 과 다른 backup 의 분포(?)를 사용하는 모든 bootstrapping 방법을 off-policy bootstrapping 이라고 용어를 사용한다. (?)

놀랍게도, 함수 추정이 적용된 off-policy bootstrapping 은 MSE 가 무한대로 발산할 수 있다.

results matching ""

    No results matching ""