Improving the performance of Batch-Constrained reinforcement learning in continuous action domains via generative adversarial networks

buir.contributor.authorSağlam, Baturay
buir.contributor.authorDalmaz, Onat
buir.contributor.authorGönç, Kaan
buir.contributor.authorKozat, Süleyman S.
buir.contributor.orcidSağlam, Baturay|0000-0002-8324-5980
buir.contributor.orcidKozat, Süleyman S.|0000-0002-6488-3848
dc.citation.epage[4]en_US
dc.citation.spage[1]en_US
dc.contributor.authorSağlam, Baturay
dc.contributor.authorDalmaz, Onat
dc.contributor.authorGönç, Kaan
dc.contributor.authorKozat, Süleyman S.
dc.coverage.spatialSafranbolu, Turkeyen_US
dc.date.accessioned2023-02-14T13:37:04Z
dc.date.available2023-02-14T13:37:04Z
dc.date.issued2022-08-29
dc.departmentDepartment of Computer Engineeringen_US
dc.departmentDepartment of Electrical and Electronics Engineeringen_US
dc.descriptionConference Name: 2022 30th Signal Processing and Communications Applications Conference (SIU)en_US
dc.descriptionDate of Conference: 15-18 May 2022en_US
dc.description.abstractThe Batch-Constrained Q-learning algorithm is shown to overcome the extrapolation error and enable deep reinforcement learning agents to learn from a previously collected fixed batch of transitions. However, due to conditional Variational Autoencoders (VAE) used in the data generation module, the BCQ algorithm optimizes a lower variational bound and hence, it is not generalizable to environments with large state and action spaces. In this paper, we show that the performance of the BCQ algorithm can be further improved with the employment of one of the recent advances in deep learning, Generative Adversarial Networks. Our extensive set of experiments shows that the introduced approach significantly improves BCQ in all of the control tasks tested. Moreover, the introduced approach demonstrates robust generalizability to environments with large state and action spaces in the OpenAI Gym control suite.en_US
dc.description.abstractToplu-Kısıtlı Q-öğrenme (TKQ) algoritmasının, ekstrapolasyon hatasının üstesinden geldiği ve derin pekiştirmeli öğrenme ajanlarının önceden toplanmış sabit bir deneyim kümesinden öğrenebildiği gösterilmiştir. Ancak, veri oluşturma modülünde kullanılan Koşullu Değişken Özkodlayıcılar (KDÖ) sebebiyle TKQ algoritması daha düşük bir değişken sınırını optimize etmektedir ve bu nedenle, büyük durum ve eylem uzaylarına sahip ortamlara genelleştirilememektedir. Bu bildiride, derin öğrenmedeki son gelişmelerden biri olan Üretken Çekişmeli Ağlar’ın (ÜÇA) kullanılmasıyla TKQ algoritmasının performansının daha da geliştirilebileceği gösterilmektedir. Kapsamlı deneyler, tanıtılan yaklaşımın test edilen her bir kontrol görevinde TKQ’yu önemli ölçüde geliştirdiğini göstermektedir. Ayrıca tanıtılan yaklaşım, OpenAI Gym kontrol setindeki geniş durum ve eylem boşluklarına sahip ortamlara hızlı bir genelleştirilebilirlik sergilemektedir.
dc.identifier.doi10.1109/SIU55565.2022.9864786en_US
dc.identifier.eisbn978-1-6654-5092-8en_US
dc.identifier.issn2165-0608en_US
dc.identifier.urihttp://hdl.handle.net/11693/111278en_US
dc.language.isoTurkishen_US
dc.publisherIEEEen_US
dc.relation.isversionofhttps://www.doi.org/10.1109/SIU55565.2022.9864786en_US
dc.source.titleSignal Processing and Communications Applications Conference (SIU)en_US
dc.subjectDeep reinforcement learningen_US
dc.subjectBatch-Constrained reinforcement learningen_US
dc.subjectOffline re-inforcement learningen_US
dc.subjectDerin pekiştirmeli öğrenme
dc.subjectToplu-Kısıtlı pekiştirmeli öğrenme
dc.subjectÇevrimdışı pekiştirmeli öğrenme
dc.titleImproving the performance of Batch-Constrained reinforcement learning in continuous action domains via generative adversarial networksen_US
dc.title.alternativeÜretken çekişmeli ağlar yoluyla sürekli eylem alanlarında Toplu-Kısıtlı pekiştirmeli öğrenme performansının iyileştirilmesien_US
dc.typeConference Paperen_US

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Improving_the_Performance_of_Batch-Constrained_Reinforcement_Learning_in_Continuous_Action_Domains_via_Generative_Adversarial_Networks.pdf
Size:
2.11 MB
Format:
Adobe Portable Document Format
Description:

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.69 KB
Format:
Item-specific license agreed upon to submission
Description: