DP, MC, TD 를 통합적인 관점으로 사용(?) 할 수 있다.

DP, MC, TD 를 모두 사용하는 하나의 joint method 가 소개될 것 같다.

다음에 나올 eligibility traces 는 MC 와 TD 를 통합한다.

상태와 행동을 일반화(?)를 할 수 있는 함수 추정 방식이 도입된다.

DP, heuristic search 와 관련된 모델(?) 이 재소개 된다.

results matching ""

    No results matching ""