수렴하는 보상의 합 Return

강화 학습은 MDP 에서 보상을 많이 받는 정책이 무엇인지 찾는 방법으로 생각할 수 있다.

보상을 많이 받는 가장 간단한 방법은 agent 가 모든 정책을 수행하고, 각 정책마다, 상태들에서 받은 보상을 모두 더한 합계를 구하고, 이 합계가 가장 큰 정책을 찾는 것이다.

Rt=rt+1+rt+2+...+rT

그러나 행동이 계속 이어져 보상의 합이 무한대까지 되는 경우가 많다고 한다.

받을 보상이 무한대까지 늘어나면 무한대의 합을 비교해야 된다.

무한등비급수의 수렴하는 경우를 이용하면, 보상의 합이 무한대가 되는 것을 막을 수 있다. 공비가 -1 보다 크고 1 보다 작을 경우, 무한등비급수가 수렴 한다.

Rt 에 1 보다 작은 양수인 공비를 주어 무한등비급수로 변경할 수 있다.

Rt=rt+1+γrt+2+γ2rt+3+...+γkrt+k+1+...

항상 수렴하는 Rt 를 Return 이라고 한다.

무한대의 경우까지도 일반화했다고 볼 수 있다.

책에서 아래처럼 줄여서 표시한다.

Rt=k=0γkrt+k+1

results matching ""

    No results matching ""