분류 전체보기 69

[LG Aimers - 강화학습] 06. Policy Gradient

Policy-based Reinforcement Learning- Value function을 학습하지 않고 Policy를 학습- high-dimensional, continuous action space에서 효과적- stochastic policies 학습 가능- global optimum이 아닌 local optimum으로 가는 경우가 많음- policy 평가가 비효율적이고 높은 variance를 가짐 Policy Optimization- Goal: $\pi_\theta(a|s)$가 주어졌을 때 $J(\theta) = V^{\pi_\theta}(s_0)$가 최대인 $\theta$찾기- Policy gradient를 통해 optimization (Gradient descent, Conjugate gra..

AI 2025.08.04

[LG Aimers - 강화학습] 05. Deep Q-Learning

Reinforcement learning with Function Approximation- Linear value function approximation은 좋은 feature set을 요구함- feature set을 직접 디자인하는 과정이 필요- 더 좋은 function approximation class를 사용하면 feature set을 직접 디자인할 필요 없음 (Deep) Neural Networks- input이 들어오면 다중으로 쌓인 Classifier들을 통해 output을 생성- 여러 function들의 composition- feature set을 직접 디자인할 필요 없는 Universal function approximator- convolutional neural network(CNN..

AI 2025.08.04

[LG Aimers - 강화학습] 04. Function Approximation

Tabular Representation- Tabular Representation: Value function을 vector나 matrix로 나타내는 것- 그러나 실제 세계의 문제들에는 매우 많은 state와 action들이 존재- Tabular Representation은 충분하지 않음 Function Approximation- 필요한 메모리, 계산량, 경험을 줄이기 위해 모든 각각의 state-action에 대한 학습을 진행하지 않는다.- (state-action/state) value function을 parameterized function으로 표현- ex) Linear combinations of features, Neural networks, Decision trees, Nearest nei..

AI 2025.08.04

[LG Aimers - 강화학습] 02. Model-Free Policy Evaluation

Model-Free Policy Evaluation- MDP에 대한 정보가 없을 경우에 정책을 어떻게 평가할 것인가- model 학습없이 policy를 평가해야 하는 경우 Monte Carlo Policy Evaluation- $V^\pi(s) = \mathbb{E}_{\tau \sim \pi}[G_t \mid S_t = s]$- 여러번 시도한 평균값을 Value로 사용- Markov 성질을 요구하지 않는다.- Variance이 크고 episodic settings가 필요해서 잘 쓰이지 않는다. First-Visit Monte Carlo Policy Evaluation- state s가 episode에서 처음 만나는 state일 때만 return에 반영- unbiased estimator ($V^{\pi..

AI 2025.08.02

[LG Aimers - 강화학습] 01. MDP and Planning

강화학습- 순차적 의사결정(Sequential decision) 문제를 담당- 관찰(Observation)과 보상(Reward)에 따라 행동(action)을 결정- 시행착오를 통해 학습- Goal: 기대되는 미래 보상을 최대화하는 행동을 결정- immediate & long term rewards의 균형이 필요 Markov Processes1. Markov Processes = $(S, P)$- S는 상태들의 집합, P는 현재 상태가 어떻게 바뀌는지를 정의하는 transition model- Markov Property: 현재가 주어지면 미래는 과거에 독립적이다. $p(s_{t+1} \mid s_t) = p(s_{t+1} \mid s_t, s_{t-1}, \ldots, s_0)$- P를 matrix로 나..

AI 2025.08.02

[LG Aimers - 지도학습] 06. More On Supervised Learning Beyond

Naive Bayes- 가정: x들은 y와 독립적이다- $p(x_1, \ldots, x_{d} \mid y)$$= p(x_1 \mid y) p(x_2 \mid y, x_1) p(x_3 \mid y, x_1, x_2) \cdots p(x_{d} \mid y, x_1, \ldots, x_{d-1}) \\= p(x_1 \mid y) p(x_2 \mid y) p(x_3 \mid y) \cdots p(x_{d} \mid y) \\ = \prod_{j=1}^{d} p(x_j \mid y)$- $p(y = 1 \mid x) = \frac{p(x \mid y = 1) p(y = 1)}{p(x)}$$= \frac{\left(\prod_{j=1}^{d} p(x_j \mid y = 1)\right) p(y = 1)}{\le..

AI 2025.07.28

[LG Aimers - 지도학습] 05. Logistic Regression

Soft guess- 0-1 Loss를 강제하지 않고 확률을 도입- Hard guess: $g_\theta(x_{i}) = 1 \ \text{or} \ -1$- Soft guess: $g_\theta(x_{i}) = \begin{bmatrix} Pr(y_{i} = -1) \\ Pr(y_{i} = 1) \end{bmatrix}$ Cross Entropy Loss- 확률을 정답에 맞게 배치를 잘했는가로 평가- $\ell(g_{a, b}(x_{i}), y_{i}) = \log \frac{1}{\hat{y}(y_{i})}$- ex) 70%확률로 비가 온다고 예측했고 비가 왔다면, $\log(1/0.7)$의 loss- Kullback-Leibler(KL) divergence로 표현 / $D(p \parallel ..

AI 2025.07.27

[LG Aimers - 지도학습] 04. Classification

Binary Classification- 가정: Data is linearly separable- $x_i=(x_{1(i)}, x_{2(i)})$- $y_i \in$ {-1, 1}- Function class: {$g_{a,b}(x) = sign(a^Tx+b)$} / sign: 경계함수(경계 위면 1, 아래면 -1)- 0-1 Loss: 예측값이 맞으면 loss는 0, 틀리면 loss는 1 Perceptron Algorithm- 랜덤한 파라미터로 초기화한다.- 잘못 분류된 데이터를 기준으로 파라미터를 업데이트한다.- 단순하며 정답이 존재하면 수렴한다.- 정답이 존재하지 않으면 멈추지 않으며 이를 알 수 없다. Linear Programming- $y_i(ax_i+b) > 0$ for all $i$- 정답이..

AI 2025.07.27