An intrinsic motivation based artificial goal generation in on-policy continuous control
Date
2022-08-29Source Title
Signal Processing and Communications Applications Conference (SIU)
Print ISSN
2165-0608
Publisher
IEEE
Pages
[1] - [4]
Language
Turkish
Type
Conference PaperItem Usage Stats
16
views
views
6
downloads
downloads
Abstract
This work adapts the existing theories on animal motivational systems into the reinforcement learning (RL) paradigm to constitute a directed exploration strategy in on-policy continuous control. We introduce a novel and scalable artificial bonus reward rule that encourages agents to visit useful state spaces. By unifying the intrinsic incentives in the reinforcement learning paradigm under the introduced deterministic reward rule, our method forces the value function to learn the values of unseen or less-known states and prevent premature behavior before sufficiently learning the environment. The simulation results show that the proposed algorithm considerably improves the state-of-the-art on-policy methods and improves the inherent entropy-based exploration. Bu çalışma, politikaya dayalı sürekli kontrolde yönlendirilmiş bir keşif stratejisi oluşturmak için hayvan motivasyon
sistemleri hakkındaki mevcut teorileri pekiştirmeli ögrenme (RL)
paradigmasına uyarlamaktadır. Ajanları faydalı durum alanlarını ziyaret etmeye teşvik eden yeni ve ölçeklenebilir bir yapay
bonus ödül kuralı sunulmaktadır. Pekiştirmeli ögrenme paradigmasındaki içsel teşvikleri, tanıtılan deterministik ödül kuralı
altında birleştirerek değer işlevini, görülmeyen veya daha az
bilinen durum degerlerini öğrenmeye ve çevreyi yeterince öğrenmeden önce erken davranışı önlemeye zorlamaktadır. Simülasyon
sonuçları, önerilen algoritmanın literatürdeki en iyi sonuçları
veren politikaya dayalı yöntemleri önemli ölçüde geliştirdiğini
ve içsel entropi tabanlı keşfi iyileştirdiğini göstermektedir.
Keywords
Deep reinforcement learningExploration
Intrinsic motivation
Continuous control
On-policy learning
Derin pekiştirmeli öğrenme
Keşif
İçsel motivasyon
Sürekli kontrol
Politikaya dayalı öğrenme