수렴하는 보상의 합 Return

강화 학습은 MDP 에서 보상을 많이 받는 정책이 무엇인지 찾는 방법으로 생각할 수 있다.

보상을 많이 받는 가장 간단한 방법은 agent 가 모든 정책을 수행하고, 각 정책마다, 상태들에서 받은 보상을 모두 더한 합계를 구하고, 이 합계가 가장 큰 정책을 찾는 것이다.

$R_{t} = r_{t+1} + r_{t+2} + ... + r_{T}$

그러나 행동이 계속 이어져 보상의 합이 무한대까지 되는 경우가 많다고 한다.

받을 보상이 무한대까지 늘어나면 무한대의 합을 비교해야 된다.

무한등비급수의 수렴하는 경우를 이용하면, 보상의 합이 무한대가 되는 것을 막을 수 있다. 공비가 -1 보다 크고 1 보다 작을 경우, 무한등비급수가 수렴 한다.

$R_{t}$ 에 1 보다 작은 양수인 공비를 주어 무한등비급수로 변경할 수 있다.

$R_{t} = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + ... + \gamma^k r_{t+k+1}+ ...$

항상 수렴하는 $R_{t}$ 를 Return 이라고 한다.

무한대의 경우까지도 일반화했다고 볼 수 있다.

책에서 아래처럼 줄여서 표시한다.

$R_{t} = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}$

results matching ""