Policy-based Reinforcement Learning- Value function을 학습하지 않고 Policy를 학습- high-dimensional, continuous action space에서 효과적- stochastic policies 학습 가능- global optimum이 아닌 local optimum으로 가는 경우가 많음- policy 평가가 비효율적이고 높은 variance를 가짐 Policy Optimization- Goal: $\pi_\theta(a|s)$가 주어졌을 때 $J(\theta) = V^{\pi_\theta}(s_0)$가 최대인 $\theta$찾기- Policy gradient를 통해 optimization (Gradient descent, Conjugate gra..