논문 링크: 1312.5602
Abstract
본 논문에서는 고차원의 센서 입력으로부터 강화학습을 통해 제어 정책(control policy)을 성공적으로 학습한 최초의 딥러닝 모델을 제안한다.
제안된 모델은 convolutional neural network로 구성되어 있으며, 입력으로는 원시 픽셀(raw pixels)을 받고, 출력으로는 미래 보상을 추정하는 value function을 생성한다.
이 모델은 Q-learning의 변형된 형태를 사용하여 학습되며, 학습 대상은 Atari 2600 게임 환경이다.
이 모델은 아키텍처나 학습 알고리즘의 조정 없이 Arcade Learning Environment에 포함된 7가지 Atari 2600 게임에 동일하게 적용되었다.
그 결과, 6개 게임에서 기존 모든 접근법보다 우수한 성능을 보였고, 그 중 3개 게임에서는 인간 전문가의 성능을 초과하였다.
1. Introduction
강화학습(Reinforcement Learning)의 주요 도전 과제 중 하나는 시각이나 음성 등 고차원 감각 입력(high-dimensional sensory input)으로부터 직접 제어 에이전트를 학습하는 것이다.
기존의 성공적인 강화학습 사례들은 대부분 사람이 설계한 특징(feature)을 사용하고, 이를 선형 가치 함수(linear value function) 또는 정책(policy) 표현과 결합하는 방식이었다.
이러한 방식은 feature representation의 품질에 전체 성능이 크게 의존한다는 한계를 가진다.
Deep Learning Perspective
최근 딥러닝(deep learning)의 발전은 원시 센서 데이터(raw sensory data)로부터 고수준의 표현(high-level features)을 자동으로 추출할 수 있게 만들었다.
이로 인해 컴퓨터 비전과 음성 인식 분야에서 큰 성과가 나타났다.
딥러닝에서 사용되는 주요 구조는 다음과 같다:
- convolutional neural networks (CNN)
- multilayer perceptrons (MLP)
- restricted Boltzmann machines (RBM)
- recurrent neural networks (RNN)
이러한 구조들은 supervised learning과 unsupervised learning 모두에 적용되고 있다.
이로 인해 이러한 기술들이 강화학습 문제에도 유사하게 적용 가능할지에 대한 의문이 자연스럽게 제기된다.
Challenges in Deep Reinforcement Learning
강화학습은 딥러닝 관점에서 다음과 같은 세 가지 도전 과제를 포함한다.
- 보상의 희소성, 노이즈, 지연성
지도학습은 대규모의 라벨링된 데이터에 의존하지만, 강화학습은 일반적으로 스칼라 보상만 제공된다.
이 보상은 sparse하며, noisy하고, delayed되어 있으며, 행동과 수천 타임스텝 후의 결과 사이에 연결되어 있는 경우도 있다. - 데이터 샘플 간의 상관관계
딥러닝은 i.i.d. 가정을 전제로 하지만, 강화학습에서는 상태들이 시간적으로 연속되어 있어 높은 상관관계를 가진다. - 비정상적인 데이터 분포 (non-stationarity)
에이전트가 학습하면서 새로운 행동을 시도하게 되면, 데이터 분포 자체가 계속 변화하게 된다.
이는 딥러닝 모델이 가정하는 고정된 분포와 충돌할 수 있다.
Contribution
본 논문은 위와 같은 문제들을 convolutional neural network와 Q-learning의 변형을 통해 해결할 수 있음을 보인다.
학습에는 stochastic gradient descent가 사용되며, correlated data와 non-stationary distribution 문제를 완화하기 위해 experience replay 기법이 적용된다.
experience replay는 에이전트가 경험한 transition들을 메모리에 저장하고, 이를 무작위로 샘플링하여 훈련에 사용함으로써 과거 행동들로부터의 훈련 분포를 평탄하게 만든다.
Experimental Setup
제안된 방법은 Atari 2600 게임을 기반으로 한 Arcade Learning Environment (ALE)에 적용되었다.
이 환경은 210×160 해상도의 RGB 비디오(60Hz)를 입력으로 제공하며, 사람에게도 도전적인 게임들을 포함하고 있다.
논문의 목표는 하나의 단일 신경망 에이전트를 통해 가능한 많은 게임을 성공적으로 학습시키는 것이다.
이 에이전트는 다음 조건을 만족한다:
- 게임에 대한 사전 정보 없음
- 사람이 설계한 특징 없음
- 에뮬레이터의 내부 상태에 접근하지 않음
- 화면, 보상, 종료 신호, 가능한 행동만 입력으로 사용
모든 게임에서 동일한 네트워크 구조와 하이퍼파라미터가 적용되었으며, 실험 결과 6개의 게임에서 기존 알고리즘보다 높은 성능을 보였다.
그 중 3개의 게임에서는 인간 전문가를 능가하였다.
[그림1]은 학습에 사용된 5개 게임의 화면 예시를 보여준다.
2. Background
Environment Setting
본 논문에서는 에이전트(agent)가 환경 $E$와 상호작용하는 작업을 고려한다.
이 환경은 Atari 에뮬레이터이며, 에이전트는 시간 순서대로 행동(action), 관측(observation), 보상(reward)을 반복하여 경험한다.
각 시간 tt마다 에이전트는 가능한 게임 행동 집합 $A = \{1, ..., K\}$ 중 하나인 $a_t$를 선택한다.
선택된 행동은 에뮬레이터에 전달되어 내부 상태와 게임 점수를 변화시킨다.
에뮬레이터 EE는 일반적으로 확률적(stochastic)일 수 있다.
에이전트는 에뮬레이터의 내부 상태를 관찰할 수 없으며, 대신 현재 스크린의 이미지 $x_t \in \mathbb{R}^d$를 입력으로 받아들이고, 이는 raw pixel 값의 벡터이다.
또한 게임 점수의 변화량에 해당하는 보상 $r_t$를 함께 받는다.
게임 점수는 지금까지의 행동과 관측의 전체 시퀀스에 의존할 수 있으며, 어떤 행동에 대한 피드백은 수천 개의 시간 간격 이후에야 도달할 수 있다.
Partial Observability and Sequence States
에이전트는 현재 스크린 이미지 $x_t$만 관찰할 수 있기 때문에, 이 작업은 부분 관측 문제(partially observed task)에 해당한다.
많은 경우, 서로 다른 에뮬레이터 상태들이 동일한 화면 이미지를 생성하므로, perceptual aliasing이 발생한다. 즉, 현재 상태를 오직 하나의 화면만으로는 정확히 식별할 수 없다.
이러한 문제를 해결하기 위해 논문에서는 과거의 행동 및 관측 시퀀스 전체를 상태(state)로 간주한다:
$$s_t = x_1, a_1, x_2, a_2, \dots, x_t$$
모든 시퀀스는 유한한 시간 내에 종료되는 것으로 가정하며, 이러한 시퀀스 기반 상태는 큰 규모의 유한 상태공간을 가진 Markov Decision Process (MDP)를 구성하게 된다.
따라서 강화학습의 표준 방법을 MDP에 적용할 수 있으며, 이때 상태는 시퀀스 $s_t$로 표현된다.
Objective and Return
에이전트의 목표는 적절한 행동 선택을 통해 미래의 누적 보상을 극대화하는 것이다.
보상은 시간에 따라 할인율 $\gamma$를 곱해 감소하며, 종료 시점 $T$까지의 미래 누적 보상은 다음과 같이 정의된다:
$$R_t = \sum_{\tau = t}^{T} \gamma^{\tau - t} r_\tau$$
Optimal Action-Value Function
어떤 시퀀스 ss를 관측한 뒤 특정 행동 $a$를 수행할 때, 달성 가능한 최대 기대 보상은 최적 행동 가치 함수(optimal action-value function) $Q(s, a)$로 정의된다:
$$Q(s, a) = \max_{\pi} \mathbb{E}[R_t \mid s_t = s, a_t = a]$$
여기서 π\pi는 시퀀스를 행동으로 매핑하는 정책(policy)이다.
이 함수는 Bellman Equation을 만족하며, 이는 다음과 같은 직관을 기반으로 한다:
다음 시점에서의 모든 가능한 행동에 대한 $Q$ 값이 알려져 있다면, 최적의 전략은 가장 큰 기대 보상을 제공하는 행동을 선택하는 것이다.
$$Q(s, a) = \mathbb{E}_{s'} \left[ r + \gamma \max_{a'} Q(s', a') \mid s, a \right] \tag{1}$$
Value Iteration and Function Approximation
Bellman Equation을 반복적으로 적용하는 방식으로 $Q$ 함수를 추정할 수 있다. 이 방식은 다음과 같은 형태를 갖는다:
$$Q_{i+1}(s, a) = \mathbb{E}[r + \gamma \max_{a'} Q_i(s', a') \mid s, a]$$
이러한 value iteration 알고리즘은 $i \to \infty$일 때 최적 행동 가치 함수로 수렴한다.
그러나 이 방식은 모든 시퀀스마다 Q 값을 개별적으로 추정하므로 일반화가 불가능하며, 실용적이지 않다.
따라서 일반적으로는 함수 근사기(function approximator)를 사용하여 $Q(s, a)$를 근사한다.
가장 단순한 경우는 선형 함수 근사기이며, 때로는 신경망과 같은 비선형 함수 근사기도 사용된다.
논문에서는 신경망 기반 Q-function 근사기, 즉 Q-network를 사용한다. 이 네트워크는 파라미터 $\theta$를 가지며, 다음과 같은 손실 함수(loss function)를 최소화하도록 학습된다:
$$L_i(\theta_i) = \mathbb{E}_{s, a} \left[ \left( y_i - Q(s, a; \theta_i) \right)^2 \right] \tag{2}$$
여기서 타깃 값 yiy_i는 이전 네트워크 파라미터 $\theta_{i-1}$로부터 계산된다:
$$y_i = \mathbb{E}_{s'} \left[ r + \gamma \max_{a'} Q(s', a'; \theta_{i-1}) \right]$$
Optimization via Stochastic Gradient Descent
위 손실 함수에 대해 파라미터 $\theta_i$에 대한 그래디언트는 다음과 같이 주어진다:
$$\nabla_{\theta_i} L_i(\theta_i) = \mathbb{E}_{s, a} \left[ \left( r + \gamma \max_{a'} Q(s', a'; \theta_{i-1}) - Q(s, a; \theta_i) \right) \nabla_{\theta_i} Q(s, a; \theta_i) \right] \tag{3}$$
실제로는 이 기대값들을 계산하는 대신, stochastic gradient descent (SGD)를 사용하여 학습을 수행한다.
즉, 각 타임스텝마다 샘플을 통해 손실을 최소화하며 네트워크 파라미터를 업데이트한다.
Model-Free and Off-Policy Learning
본 알고리즘은 model-free이며, 환경 EE의 모델을 직접 추정하지 않고 샘플만으로 학습을 수행한다.
또한 off-policy 학습 방식으로, 실제로 따르는 행동 정책(behaviour distribution)과는 무관하게, greedy 전략 $a = \arg\max_a Q(s, a; \theta)$에 대해 학습한다.
실제로는 $\epsilon$-greedy 정책이 자주 사용되며, 이는 확률 $1 - \epsilon$로 greedy 행동을 선택하고, $\epsilon$의 확률로 임의의 행동을 선택함으로써 탐험(exploration)을 보장한다.
3. Related Work
TD-Gammon과 초기 성공
강화학습의 가장 잘 알려진 성공 사례 중 하나는 TD-Gammon이다.
이는 백개먼 게임을 학습한 프로그램으로, 강화학습과 자기 플레이(self-play)만으로 인간을 능가하는 수준(superhuman level)의 성능을 달성하였다.
TD-Gammon은 Q-learning과 유사한 model-free 강화학습 알고리즘을 사용하였으며, 은닉층 하나를 가진 multilayer perceptron으로 value function을 근사하였다.
※ 참고: TD-Gammon은 action-value function $Q(s, a)$이 아닌, state-value function $V(s)$을 학습하였다. 또한 on-policy 방식으로 자기 플레이 데이터를 기반으로 학습하였다.
TD-Gammon의 일반화 실패
TD-Gammon 이후, 동일한 접근을 체스, 바둑, 체커(checkers) 등의 게임에 적용하려는 시도가 있었으나, 대부분은 만족스러운 성과를 내지 못하였다.
이로 인해 TD-Gammon은 특수한 경우였으며, 특히 백개먼의 주사위(randomness)가 상태 공간 탐색과 value function smoothness에 기여한 것이었다는 인식이 퍼졌다.
비선형 근사기의 불안정성과 기존의 대응
이후 연구들에서는 Q-learning을 비선형 함수 근사기와 결합하거나, off-policy 방식으로 학습할 경우 학습이 발산(divergence)할 수 있다는 것이 밝혀졌다.
이로 인해 대부분의 강화학습 연구는 수렴 보장이 있는 선형 함수 근사기에 초점을 맞추게 되었다.
최근의 재조명: 딥러닝과의 결합
최근에는 다시 딥러닝과 강화학습의 결합에 대한 관심이 증가하고 있다.
- 환경 모델 EE 추정: deep neural network 활용
- value function 또는 policy 추정: restricted Boltzmann machine 활용
- gradient temporal-difference methods: 고정된 정책 하에서는 수렴이 보장됨
- 제어 정책 학습: 제한된 Q-learning 변형으로 선형 함수 근사기 하에 수렴 가능
그러나 이러한 방법들은 아직 비선형 함수 근사기를 이용한 제어 학습(control learning)까지는 확장되지 못하였다.
Neural Fitted Q-learning (NFQ)
본 논문과 가장 유사한 선행 연구는 Neural Fitted Q-learning (NFQ)이다.
NFQ는 Equation (2)의 loss function을 RPROP 알고리즘으로 최적화하여 Q-network를 학습한다.
그러나 NFQ는 배치(batch) 방식의 업데이트를 사용하며, 한 번의 반복마다 전체 데이터셋 크기에 비례하는 계산량이 요구된다.
반면, 본 논문에서는 stochastic gradient descent (SGD)를 사용하여, 학습 비용이 데이터셋 크기에 독립적이며 대규모 데이터에 확장 가능하다.
NFQ는 시각 입력만으로 구성된 간단한 제어 작업에도 성공적으로 적용되었으며, 이때는 deep autoencoder를 사용하여 저차원 표현을 먼저 학습한 뒤, 해당 표현 위에서 NFQ를 수행하였다.
→ 본 논문은 이와 달리 raw visual input으로부터 end-to-end 방식으로 직접 강화학습을 수행하며, 행동 가치를 구분하는 데 직접적으로 유의미한 feature를 스스로 학습할 수 있다.
Experience Replay와 이전 Q-learning 결합 연구
이전에도 experience replay와 간단한 신경망 구조를 이용한 Q-learning 결합 시도가 있었으나, 이들은 low-dimensional state input을 사용하였으며, raw pixel 기반의 시각 입력은 다루지 않았다.
Atari 2600을 이용한 강화학습
Atari 2600 에뮬레이터를 강화학습 플랫폼으로 처음 사용한 연구에서는, 선형 함수 근사기와 일반적인 시각적 특징을 사용하였다.
이후의 연구에서는 더 많은 특징(feature)을 사용하거나, tug-of-war hashing을 적용하여 특징들을 저차원으로 투영하는 방식으로 성능을 향상시켰다.
또한 HyperNEAT이라는 진화 기반 신경망 아키텍처를 Atari 게임에 적용한 사례도 있으며, 이 경우 게임마다 별도로 신경망을 진화시켜 전략을 구성하였다.
이 전략들은 에뮬레이터의 reset 기능을 통해 결정론적인 시퀀스에 반복적으로 노출됨으로써, 일부 게임에서 설계 결함을 악용하는 방식으로 높은 성능을 달성하였다.
4. Deep Reinforcement Learning
Motivation: 딥러닝의 성공에서 강화학습으로
최근 컴퓨터 비전과 음성 인식 분야에서의 성과는, 대규모 데이터셋에 대해 deep neural network를 효율적으로 학습시킨 결과이다.
이들 모델은 raw input으로부터 직접 표현(feature representation)을 학습하였으며, stochastic gradient descent 기반의 경량 업데이트로 효과적인 학습이 가능하였다.
이러한 성과는 수작업 특징보다 더 우수한 표현을 학습할 수 있음을 보여준다.
이러한 맥락에서, 본 논문은 강화학습 알고리즘을 RGB 이미지 기반의 deep neural network에 연결하여,
raw visual input으로부터 직접 정책을 학습하는 방식을 제안한다.
From TD-Gammon to DQN
TD-Gammon은 on-policy sample을 기반으로 value function을 추정하는 신경망을 학습하였다.
해당 신경망은 에이전트가 환경과 상호작용하여 얻은 경험 샘플 $s_t, a_t, r_t, s_{t+1}, a_{t+1}$를 기반으로 학습되었다.
TD-Gammon은 당시 최고 수준의 백개먼 플레이어를 능가했으나, 이후 하드웨어 성능 향상, 현대적 신경망 구조, 확장 가능한 강화학습 알고리즘을 접목하면 더 큰 진전을 이룰 수 있을 것이라는 동기가 생긴다.
Experience Replay 기반 DQN 학습
TD-Gammon과 같은 온라인 학습 방식과 달리, 본 논문에서는 experience replay 기법을 적용한다.
이 기법에서는 각 타임스텝의 경험 $e_t = (s_t, a_t, r_t, s_{t+1})$를 replay memory $D = \{e_1, ..., e_N\}$에 저장한다.
학습 시에는 replay memory로부터 무작위로 샘플을 선택하여 Q-learning 업데이트 또는 minibatch 업데이트를 수행한다.
학습 후에는 $\epsilon$-greedy 정책에 따라 행동을 선택하고 실행한다.
※ Q-network는 전체 시퀀스 대신, 전처리된 고정 길이 히스토리 표현 $\phi(s_t)$을 입력으로 사용한다.
알고리즘 구조 (Algorithm 1: Deep Q-Learning with Experience Replay)
- Replay memory 초기화: 크기 $N$
- Q-network 초기화: 무작위 가중치로 시작
- 각 에피소드마다:
- 초기 상태 $s_1 = x_1$, 전처리 $\phi_1 = \phi(s_1)$
- 각 타임스텝마다:
- 확률 ϵ\epsilon로 무작위 행동 선택, 그 외에는 $a_t = \arg\max_a Q(\phi(s_t), a)$
- 에뮬레이터에 행동 적용 후 $r_t$, $x_{t+1}$ 관찰
- $s_{t+1} = s_t, a_t, x_{t+1}$, 전처리 $\phi_{t+1}$
- 전이 $(\phi_t, a_t, r_t, \phi_{t+1})$ 저장
- replay memory에서 minibatch 샘플링
- 비종결 상태: $y_j = r_j + \gamma \max_a Q(\phi_{j+1}, a)$
종결 상태: $y_j = r_j$ - 손실 $(y_j - Q(\phi_j, a_j))^2$에 대해 gradient descent 수행
경험 재현의 장점
- 경험 재사용 가능성 증가
→ 하나의 샘플을 여러 번 업데이트에 사용할 수 있어 데이터 효율성 향상 - 표본 간 상관관계 제거
→ 연속된 표본은 높은 상관관계를 가지므로, 무작위 샘플링을 통해 업데이트 분산 감소 - 정책 변화에 따른 훈련 분포 왜곡 방지
→ 정책이 바뀌면 새로운 데이터는 편향될 수 있으며, 이는 피드백 루프나 발산을 유발할 수 있음
→ experience replay는 과거 상태 분포에 평균화된 학습을 가능하게 하여 이를 방지
※ experience replay는 과거 정책으로 생성된 데이터를 현재 정책으로 학습하므로 off-policy 학습이 필요하며,
따라서 Q-learning이 적절한 선택이다.
경험 저장 전략의 한계
- 최근 데이터가 이전 데이터를 덮어쓰는 현상 발생 가능 (메모리 크기 제한)
- 무작위 샘플링은 모든 전이에 동일한 중요도를 부여하므로,
중요한 전이를 선별적으로 학습하는 방식이 필요함
→ 예: prioritized sweeping과 유사한 방식 고려 가능
4.1 Preprocessing and Model Architecture
입력 전처리
Atari의 원시 프레임은 210×160 크기, 128색 RGB 이미지로 구성되며, 처리 비용이 높기 때문에 다음과 같은 전처리 과정을 거친다:
- RGB → grayscale 변환
- 크기 축소: 110×84
- 자르기(cropping): 84×84 (게임 화면 영역 유지)
최종적으로, 최근 4개의 프레임을 스택하여 입력으로 사용한다.
Q-network 구조
Q-network는 상태–행동 쌍을 받아 Q-value를 추정하는 함수이며,
본 논문에서는 행동이 입력이 아닌 출력 노드에 대응되도록 설계하여,
한 번의 forward pass로 모든 행동의 Q값을 추정할 수 있도록 하였다.
전체 네트워크 구조
- 입력: 84×84×4 이미지
- 1층: 16개의 8×8 필터, stride 4, ReLU
- 2층: 32개의 4×4 필터, stride 2, ReLU
- 3층: 256개의 fully-connected ReLU 노드
- 출력층: 가능한 행동 수만큼의 선형 출력 노드 (게임마다 4~18개)
→ 이 구조를 통해 각 상태에서 모든 행동에 대한 Q값을 효율적으로 계산할 수 있다.
→ 이 모델은 본 논문에서 Deep Q-Network (DQN)이라 명명된다.
5. Experiments
실험 환경 및 구성
총 7가지 Atari 게임(Beam Rider, Breakout, Enduro, Pong, Q*bert, Seaquest, Space Invaders)에 대해 실험을 수행하였다.
모든 게임에 대해 동일한 네트워크 구조, 학습 알고리즘, 하이퍼파라미터를 적용하여, 본 기법의 일반성(robustness)을 검증하였다.
- 학습 중에만 보상 구조를 수정하였다:
- 모든 양의 보상은 1로 고정, 음의 보상은 -1로 고정
- 보상이 0인 경우는 그대로 유지
- → 이 조치는 오차의 규모를 제한하고, 여러 게임에서 동일한 학습률을 사용하는 것을 용이하게 만들기 위함이다.
- 단점으로는 보상의 크기 차이를 구분하지 못함으로 인해 성능에 영향을 줄 수 있다.
학습 설정
- Optimizer: RMSProp
- Minibatch 크기: 32
- 행동 선택 정책: $\epsilon$-greedy
- $\epsilon$은 처음 100만 프레임 동안 선형적으로 1에서 0.1까지 감소
- 이후에는 $\epsilon = 0.1$로 고정
- 전체 학습 프레임 수: 1,000만
- Replay memory 크기: 최근 100만 프레임
Frame-skipping 기법
- 에이전트는 매 k번째 프레임마다 행동을 선택하고, 그 사이 프레임에는 마지막 행동을 반복
- 대부분 게임에서 $k = 4$ 사용
- 단, Space Invaders에서는 레이저 깜빡임 주기로 인해 $k = 4$일 때 보이지 않는 문제가 있어 $k = 3$을 사용
- → 이 변경은 유일한 하이퍼파라미터 차이이다
5.1 Training and Stability
강화학습은 지도학습과 달리 훈련 중 성능을 안정적으로 추적하기 어렵다.
본 논문에서는 다음 두 가지 지표를 사용하여 학습 진행 상황을 평가하였다.
1. 평균 총 보상 (Average Total Reward)
- 에이전트가 게임 한 판(episode) 동안 받은 총 보상의 평균
- 정책 변화에 민감하며, 작은 파라미터 변화가 상태 분포의 큰 변화를 유발하여 지표가 매우 노이즈가 큼
- Figure 2의 좌측 두 그래프가 이를 보여준다
→ Seaquest와 Breakout에서 모두 보상의 진폭 변화가 크며 불안정한 학습 곡선을 보인다
2. 평균 Q-value
- 고정된 상태 집합에 대해, 최대 행동 가치 $\max_a Q(s, a)$의 평균을 측정
- 학습 시작 전에 무작위 정책으로 상태 집합을 수집
- 이 지표는 훨씬 부드러운 추세를 나타냄
→ Figure 2의 우측 두 그래프 참조
안정성
- 학습 도중 발산(drift or divergence) 문제는 전혀 발생하지 않았음
- 이 결과는, 이론적 수렴 보장은 없지만, 본 방법이 강화학습 신호와 SGD를 통해 대규모 신경망을 안정적으로 학습시킬 수 있음을 시사한다
5.2 Visualizing the Value Function
Figure 3은 Seaquest 게임에서 학습된 value function의 시각화를 보여준다.
- A 지점: 적이 등장하자 Q-value가 상승
- B 지점: 적에게 어뢰 발사 직후, Q-value가 최고점에 도달
- C 지점: 적이 사라진 후 Q-value가 다시 하강
→ 이를 통해 모델이 시간적으로 복잡한 상황에 따른 가치 변화를 학습할 수 있음을 확인할 수 있다
5.3 Main Evaluation
비교 방법
- Sarsa: hand-crafted feature를 사용하여 학습된 linear policy (Bellemare et al.)
- Contingency: Sarsa + 화면의 에이전트 제어 영역을 추가 인코딩
→ 이들은 배경 제거, 색상 채널 분리 등 사전 정보에 많이 의존 - DQN: raw RGB 이미지만 입력으로 받고 학습
→ 어떠한 시각적 사전 정보도 사용하지 않음
추가 비교 대상
- Random policy
- Expert human: 약 2시간 동안 플레이하여 얻은 중간 수준의 인간 성능
- HNeat (HyperNEAT):
- HNeat Best: 객체 검출 기반 전략
- HNeat Pixel: 8개의 색상 채널로 표현된 객체 레이블 기반 전략
→ HNeat은 결정론적 시퀀스를 반복 학습하며, 일회성 최고 점수만 평가
평가 방식
- $\epsilon = 0.05$인 $\epsilon$-greedy 정책으로 고정된 시간 동안 실행
- Table 1의 상단: 각 방법의 평균 총 보상
- Table 1의 하단: HNeat 및 DQN의 단일 최고 성능 에피소드 결과
주요 결과 요약
- DQN은 모든 게임에서 기존 학습 방법들을 능가
- Breakout, Enduro, Pong에서는 인간 전문가보다 높은 성능
- Beam Rider에서도 인간 수준에 근접
- Q*bert, Seaquest, Space Invaders에서는 아직 인간 성능보다 낮음 → 이 게임들은 장기 전략이 필요하여 학습이 더 어려움
6. Conclusion
본 논문에서는 강화학습을 위한 새로운 딥러닝 모델을 제안하였다.
이 모델은 원시 픽셀(raw pixels)만을 입력으로 받아, Atari 2600 게임에서 복잡한 제어 정책(control policy)을 성공적으로 학습할 수 있음을 입증하였다.
또한, 온라인 Q-learning의 변형된 형태를 함께 제시하였다.
이 방법은 stochastic minibatch 업데이트와 experience replay 메모리를 결합함으로써, 강화학습에서의 딥러닝 모델 학습을 용이하게 만드는 구조를 제공한다.
이 접근 방식은 네트워크 구조나 하이퍼파라미터를 조정하지 않고도,
실험에 사용된 7가지 게임 중 6개에서 최신 강화학습 성능을 능가하는 결과를 달성하였다.