Table as Value Function
- problem
- big state, big memory
- time
- accuracy
Value Function is Approximator
- supervised learning
Generalization
- 적은 요소로 많은 것을 기록
지금까지의 알고리즘은 상태마다 가치(기대값)를 저장할 공간이 필요한 방식이었다.
알고리즘이 수행 될 때 update ( backup ) 의 결과를 배열, 테이블로 저장한 것으로 가정했다.
상태 개수가 많을 때는 저장 공간, 처리 시간, 정확도 등의 문제가 발생할 수 있다.
단순 저장 방식이 아닌 Machine Learning 의 Supersived Learning 등을 적용하면,
적은 요소로 많을 것을 기록할 수 있다