앞서 본 backup diagram 을 하나의 식으로 표현 한 것이 Bellman Equation 이다.
하나의 상태 변이만 본다면, ( s->s' ) 아래 식과 같다.
확률 = 확률 변수 =
그리고 하나의 행동에서 전이 될 수 있는 상태는 여러가지이다.
또한 상태에서 실행할 행동(a)도 여러가지이다.
근데 여기서 는 에서 받은 보상 과, 부터 받을 전체 보상의 합으로 나눌 수 있다.
하지만, 보상의 합이 수렴해야 하기 때문에, 다음에 받을 보상에는 항상 discount factor 를 곱한다.
마지막 식이 Bellman 식이다.
책에서는 i, j 첨자 대신 a, s' 로 아래와 같이 더 간단하게 표현했다.