Value Function
수렴하는 보상의 합 (Return) 을 가지고, 특정 상태에서 받을 Return 의 기대값을 정의하는 두 가지 방법 * state value function * action value function
이 함수들을 최대값으로 만들어 주는 정책(Policy) 찾는게 목표
State Value Function
- 는 현재 정책을 의미
- 는 확률에서 말하는 기대값.
- 는 앞서 언급한 수렴하는 보상의 합.
위 식을 말로 하면 주어진 상태(s) 에서 특정 정책() 대로 행동(action)을 할 경우 예상 되는 보상의 합 ( Return ) 의 기대값 이다.
Action Value Function
State Value Function 에서 행동(action) 이 조건에 추가 됐고, 이를 action value function 이라고 한다.
state value function 과 같이 강화 학습을 이해하는데 중요한 요소가 된다.