Value Function

수렴하는 보상의 합 (Return) 을 가지고, 
특정 상태에서 받을 Return 의 기대값을 
정의하는 두 가지 방법

 * state value function
 * action value function

이 함수들을 최대값으로 만들어 주는 정책(Policy) 찾는게 목표

State Value Function

  • 는 현재 정책을 의미
  • 는 확률에서 말하는 기대값.
  • 는 앞서 언급한 수렴하는 보상의 합.
위 식을 말로 하면
주어진 상태(s) 에서
특정 정책() 대로 행동(action)을 할 경우
예상 되는 보상의 합 ( Return ) 의 기대값 이다.

Action Value Function

State Value Function 에서 행동(action) 이 조건에 추가 됐고, 이를 action value function 이라고 한다.

state value function 과 같이 강화 학습을 이해하는데 중요한 요소가 된다.

results matching ""

    No results matching ""