본문 바로가기

전체 글

(6)
[RL] Robust Adversarial Reinforcement Learning 오늘 리뷰해볼 논문은 Robust Adversarial Reinforcement Learning(Pinto et al.), 줄여서 RARL이라는 논문이다. Robust RL에 Adversary라는 개념을 이용한 첫 번째 논문으로 알고 있는데, 어떤 논문인지 살펴보도록 하자. 1. Intro 강화학습은 딥러닝같은 high-capacity function approximator 덕분에 여러가지 측면에서 좋은 성과를 낼 수 있었다. 하지만 이러한 high-capacity function approximator는 data에 의존을 많이 한다는 단점이 있다. 따라서 data를 얻고 그로 인해 학습하는 방법에 크게 성과가 달라질 수 있는데, 현재로는 real-world physical tasks에 대해 학습하기 위..
[RL] Algorithms for Inverse Reinforcement Learning 오늘 리뷰해볼 논문은 Algorithms for Inverse Reinforcement Learning으로 앤드류 응과 스튜어트 러셀이 'Inverse RL'이란 개념을 처음 소개한 논문이 되겠다. 'Inverse RL'은 잘 학습된 정책이나 행동 등이 주어졌을 때, 그를 바탕으로 Reward function을 거꾸로 유추해내는 문제를 말한다. 간단하게는 이정도로만 소개를 하고 논문에서 이러한 패러다임을 처음 소개한만큼 어떻게 전개되는지 살펴보도록 하자. 1. Introduction 러셀이 썼던 논문에 따라 Inverse Reinforcement Learning(IRL) 문제는 informally하게 다음과 같이 쓰여질 수 있다. Given 1) measurements of an agent's behav..
[DL] Integral Neural Networks 1. Intro 오늘 소개해볼 논문은 Integral Neural Networks (Solodskikh et al.)이라는 논문으로 CVPR 2023에 게재되었던 것이다. 해당 논문은 Neural Net에 대해 새로운 시각을 제공해주는데, Neural ODE를 알고 있다면 논문에 대한 이해가 조금 더 빠를 것이다. 아이디어는 기본적으로 논문의 Related Works에서도 엿볼 수 있듯이 parameter의 continuous한 representations에 바탕을 두고 있는데, 어떤 식으로 전개해 나갈지는 뒷쪽에서 보기로 하자. 저자들은 기본적으로 우리가 보통 다루는 signal data (e.g. 이미지, 음성 등)는 analogue하게는 continous한 signal을 discretization하..
[RL] Robust Reinforcement Learning 여타 머신러닝과 마찬가지로 강화학습 역시 내부 또는 외부 요인에 따라 원하는 과정이 수행되지 않거나 결과가 나오지 않을 수도 있다. 예를 들면 자율 주행 자동차가 주행하는데 카메라 또는 라이더의 센서 오류로 실제 input과는 다른 input을 받아들여 원치 않는 행동을 야기할 수 있고, 이는 사고로 이어질 수 있다. 또는 딥러닝을 사용하는 추세에 따라 모델 자체의 오류로 인하여 원치 않는 행동을 하거나 잘못된 state로 이어질 수도 있다. 이와 같이 input disturbances 또는 modeling errors 등에 의하여 잘못된 상황이 이어질 것을 우려하여 등장한 것이 'Robust Reinforcement Learning(Robust RL)'이며, 오늘 리뷰할 논문은 해당 개념을 처음 제시한..
[RL] Efficient Online Reinforcement Learning with Offline Data 이번에 리뷰해볼 논문은 Efficient Online Reinforcement Learning with Offline Data이란 논문으로 강화학습의 대가이신 Sergey Levine이 참여한 논문이라 관심있어 보게되었다. 하지만 내용물을 뜯어보니 너무나도 간단한 아이디어들의 나열뿐이라 조금 당황스럽긴 했다. 그래도 성능은 잘 나온다니 읽어보도록 하자. 1. Intro Online RL vs Offline RL? 본 논문에서 다루는 것은 결국 Online RL을 Offline Data를 활용하여 성능을 더 높여보자는 것이다. 따라서 제목에 Online, Offline이라는 말이 나오는데 각각 무엇을 말하는 것일까? (출처 : https://towardsdatascience.com/the-power-of-..
[RL] Deep Reinforcement Learning at the Edge of the Statistical Precipice 1. Intro 강화 학습은 알파고를 기점으로 각광받는 머신 러닝 분야 중 하나이다. 주로 게임, 자율 주행, 로보틱스 등의 Task를 수행하는데 활용되며 이에 관해 다양한 알고리즘과 활용에 관한 논문이 나오고 있다. 하지만 다른 머신 러닝 / 딥 러닝과는 다르게 Sequential한 Data를 주로 다루는 강화 학습은 학습 시간이 비교적 느리다는 단점이 있고, 이로 인해 실험 결과를 얻기 위한 벤치마크 상에서 많은 횟수의 실험을 시도하는게 현실적으로 어려운 편이다. 따라서 여러 결괏값을 모아 평균값, 중앙값, 최대값 등을 통해 비교해야 하는 머신 러닝 분야의 특성상, 적은 수의 결과값은 성능간의 비교에 있어서 통계학적으로 많은 불확실함을 가져다준다. 저자들은 Deep RL 분야에서 통계학적인 불확실성을..