앞서 본 backup diagram 을 하나의 식으로 표현 한 것이 Bellman Equation 이다.

하나의 상태 변이만 본다면, ( s->s' ) 아래 식과 같다.

 $V^{\pi}(s) = \pi(s,a_{i}) P_{ss'}^{a} R_{t} + ...$ 


확률 =  $\pi(s,a_{i}) P_{ss'}^{a}$ 
확률 변수 =  $R_{t}$

그리고 하나의 행동에서 전이 될 수 있는 상태는 여러가지이다.

$V^{\pi}(s) = \pi(s,a_{i}) \sum_{j=1} [P_{ss_{j}'}^{a} R_{t}] + ...$

또한 상태에서 실행할 행동(a)도 여러가지이다.

$V^{\pi}(s) = \sum_{i=1} \pi(s,a_{i}) \sum_{j=1} [P_{ss_{j}'}^{a} R_{t}]$

근데 여기서 $R_{t}$ 는 $s'$ 에서 받은 보상 $R_{ss'}^{a}$ 과, $s'$ 부터 받을 전체 보상의 합으로 나눌 수 있다.

$V^{\pi}(s) = \sum_{i=1}\pi(s,a_{i}) \sum_{j=1} [ P_{ss_{j}'}^{a} ( R_{ss_{j}'}^{a} + V(s_{j}') ) ]$

하지만, 보상의 합이 수렴해야 하기 때문에, 다음에 받을 보상에는 항상 discount factor 를 곱한다.

$V^{\pi}(s) = \sum_{i=1}\pi(s,a_{i}) \sum_{j=1} [ P_{ss_{j}'}^{a} ( R_{ss_{j}'}^{a} + \gamma V(s_{j}') ) ]$

마지막 식이 Bellman 식이다.

책에서는 i, j 첨자 대신 a, s' 로 아래와 같이 더 간단하게 표현했다.

$V^{\pi}(s) = \sum_{a}\pi(s,a) \sum_{s'} [ P_{ss'}^{a} ( R_{ss'}^{a} + \gamma V(s') ) ]$

Bellman Equation

results matching ""