수렴하는 보상의 합 Return
강화 학습은 MDP 에서 보상을 많이 받는 정책이 무엇인지 찾는 방법으로 생각할 수 있다.
보상을 많이 받는 가장 간단한 방법은 agent 가 모든 정책을 수행하고, 각 정책마다, 상태들에서 받은 보상을 모두 더한 합계를 구하고, 이 합계가 가장 큰 정책을 찾는 것이다.
그러나 행동이 계속 이어져 보상의 합이 무한대까지 되는 경우가 많다고 한다.
받을 보상이 무한대까지 늘어나면 무한대의 합을 비교해야 된다.
무한등비급수의 수렴하는 경우를 이용하면, 보상의 합이 무한대가 되는 것을 막을 수 있다. 공비가 -1 보다 크고 1 보다 작을 경우, 무한등비급수가 수렴 한다.
에 1 보다 작은 양수인 공비를 주어 무한등비급수로 변경할 수 있다.
항상 수렴하는 를 Return 이라고 한다.
무한대의 경우까지도 일반화했다고 볼 수 있다.
책에서 아래처럼 줄여서 표시한다.