앞서 본 backup diagram 을 하나의 식으로 표현 한 것이 Bellman Equation 이다.

하나의 상태 변이만 본다면, ( s->s' ) 아래 식과 같다.




확률 = 
확률 변수 = 

그리고 하나의 행동에서 전이 될 수 있는 상태는 여러가지이다.


또한 상태에서 실행할 행동(a)도 여러가지이다.


근데 여기서 에서 받은 보상 과, 부터 받을 전체 보상의 합으로 나눌 수 있다.

하지만, 보상의 합이 수렴해야 하기 때문에, 다음에 받을 보상에는 항상 discount factor 를 곱한다.

마지막 식이 Bellman 식이다.

책에서는 i, j 첨자 대신 a, s' 로 아래와 같이 더 간단하게 표현했다.

results matching ""

    No results matching ""