• About
  • Policies
  • What is open access
  • Library
  • Contact
Advanced search
      View Item 
      •   BUIR Home
      • Scholarly Publications
      • Faculty of Engineering
      • Department of Electrical and Electronics Engineering
      • View Item
      •   BUIR Home
      • Scholarly Publications
      • Faculty of Engineering
      • Department of Electrical and Electronics Engineering
      • View Item
      JavaScript is disabled for your browser. Some features of this site may not work without it.

      Improving the performance of Batch-Constrained reinforcement learning in continuous action domains via generative adversarial networks

      Thumbnail
      View / Download
      2.1 Mb
      Author(s)
      Sağlam, Baturay
      Dalmaz, Onat
      Gönç, Kaan
      Kozat, Süleyman S.
      Date
      2022-08-29
      Source Title
      Signal Processing and Communications Applications Conference (SIU)
      Print ISSN
      2165-0608
      Publisher
      IEEE
      Pages
      [1] - [4]
      Language
      Turkish
      Type
      Conference Paper
      Item Usage Stats
      18
      views
      7
      downloads
      Abstract
      The Batch-Constrained Q-learning algorithm is shown to overcome the extrapolation error and enable deep reinforcement learning agents to learn from a previously collected fixed batch of transitions. However, due to conditional Variational Autoencoders (VAE) used in the data generation module, the BCQ algorithm optimizes a lower variational bound and hence, it is not generalizable to environments with large state and action spaces. In this paper, we show that the performance of the BCQ algorithm can be further improved with the employment of one of the recent advances in deep learning, Generative Adversarial Networks. Our extensive set of experiments shows that the introduced approach significantly improves BCQ in all of the control tasks tested. Moreover, the introduced approach demonstrates robust generalizability to environments with large state and action spaces in the OpenAI Gym control suite.
       
      Toplu-Kısıtlı Q-öğrenme (TKQ) algoritmasının, ekstrapolasyon hatasının üstesinden geldiği ve derin pekiştirmeli öğrenme ajanlarının önceden toplanmış sabit bir deneyim kümesinden öğrenebildiği gösterilmiştir. Ancak, veri oluşturma modülünde kullanılan Koşullu Değişken Özkodlayıcılar (KDÖ) sebebiyle TKQ algoritması daha düşük bir değişken sınırını optimize etmektedir ve bu nedenle, büyük durum ve eylem uzaylarına sahip ortamlara genelleştirilememektedir. Bu bildiride, derin öğrenmedeki son gelişmelerden biri olan Üretken Çekişmeli Ağlar’ın (ÜÇA) kullanılmasıyla TKQ algoritmasının performansının daha da geliştirilebileceği gösterilmektedir. Kapsamlı deneyler, tanıtılan yaklaşımın test edilen her bir kontrol görevinde TKQ’yu önemli ölçüde geliştirdiğini göstermektedir. Ayrıca tanıtılan yaklaşım, OpenAI Gym kontrol setindeki geniş durum ve eylem boşluklarına sahip ortamlara hızlı bir genelleştirilebilirlik sergilemektedir.
      Keywords
      Deep reinforcement learning
      Batch-Constrained reinforcement learning
      Offline re-inforcement learning
      Derin pekiştirmeli öğrenme
      Toplu-Kısıtlı pekiştirmeli öğrenme
      Çevrimdışı pekiştirmeli öğrenme
      Permalink
      http://hdl.handle.net/11693/111278
      Published Version (Please cite this version)
      https://www.doi.org/10.1109/SIU55565.2022.9864786
      Collections
      • Department of Computer Engineering 1561
      • Department of Electrical and Electronics Engineering 4011
      Show full item record

      Browse

      All of BUIRCommunities & CollectionsTitlesAuthorsAdvisorsBy Issue DateKeywordsTypeDepartmentsCoursesThis CollectionTitlesAuthorsAdvisorsBy Issue DateKeywordsTypeDepartmentsCourses

      My Account

      Login

      Statistics

      View Usage StatisticsView Google Analytics Statistics

      Bilkent University

      If you have trouble accessing this page and need to request an alternate format, contact the site administrator. Phone: (312) 290 2976
      © Bilkent University - Library IT

      Contact Us | Send Feedback | Off-Campus Access | Admin | Privacy