Major in CS/Reinforcement Learning(강화학습) 2

Reinforcement Learning (9) - Planning과 Learning의 통합

수업 내용을 정리한 것이므로, 작성자의 상태에 따라 잘못된 내용이 적힐 수 있습니다. 오류사항 있으면 지적부탁드립니다 헿 Model-based RL? Model-based Planning과는 다르다. 경험(experience)을 통해 Model을 직접 학습한다(즉 처음부터 Model을 알고 시작하지 않는다). Model의 Transition Probability를 하나하나 알아내는 것이 아니다. Model을 근사하는 것(approximation)이라고 볼 수 있다. 근사한 Model을 기반으로 가상 환경(environment)를 구축해볼 수 있다. 그 환경에서 Sampling을 수행하여, 이를 통해 얻은 정보를 가지고 Model-free RL을 수행한다. 실제 environment를 통한 RL 또한 병행..

Reinforcement Learning (7) - Policy Based RL

수업 들은 내용을 정리한 글입니다. 작성자의 상태에 따라 잘못되거나 이상한 부분이 있을 수 있습니다. 댓글 환영 ㅎㅎ Policy-based RL RL의 한 방법으로서, "Policy"를 학습하는 방식 Model-free RL이다. Policy를 단독으로 학습시키면, 잘 되지 않기 때문에, 실질적으로 Value Function의 도움이 필요하다. Policy-based RL의 장단점 장점 Convergence가 잘된다. 즉, 비교적 Bias가 적고, Oscillation이 없다. DQN의 경우 학습하는 동안 최근 100개에 대한 oscillation이 존재한다. Action의 수가 엄청 많거나, 연속인 경우에서도 잘 학습할 수 있다. Value-based RL의 경우 Action의 수가 너무 많으면 학습..