Value Function

수렴하는 보상의 합 (Return) 을 가지고, 
특정 상태에서 받을 Return 의 기대값을 
정의하는 두 가지 방법

 * state value function
 * action value function

이 함수들을 최대값으로 만들어 주는 정책(Policy) 찾는게 목표

$V^{\pi}(s) = E_{\pi}\{R_{t} | s\}$

위 식을 말로 하면
주어진 상태(s) 에서
특정 정책( $\pi$ ) 대로 행동(action)을 할 경우
예상 되는 보상의 합 ( Return ) 의 기대값 이다.

State Value Function 에서 행동(action) 이 조건에 추가 됐고, 이를 action value function 이라고 한다.

$Q^{\pi} (s,a) = E_{\pi} \{R_{t} | s,a \}$

state value function 과 같이 강화 학습을 이해하는데 중요한 요소가 된다.

results matching ""