논문 링크: 1312.5602Abstract본 논문에서는 고차원의 센서 입력으로부터 강화학습을 통해 제어 정책(control policy)을 성공적으로 학습한 최초의 딥러닝 모델을 제안한다.제안된 모델은 convolutional neural network로 구성되어 있으며, 입력으로는 원시 픽셀(raw pixels)을 받고, 출력으로는 미래 보상을 추정하는 value function을 생성한다.이 모델은 Q-learning의 변형된 형태를 사용하여 학습되며, 학습 대상은 Atari 2600 게임 환경이다.이 모델은 아키텍처나 학습 알고리즘의 조정 없이 Arcade Learning Environment에 포함된 7가지 Atari 2600 게임에 동일하게 적용되었다.그 결과, 6개 게임에서 기존 모든 접근법..