Unified intrinsically motivated exploration for off-policy learning in continuous action spaces
Date
2022-08-29Source Title
Signal Processing and Communications Applications Conference (SIU)
Print ISSN
2165-0608
Publisher
IEEE
Pages
[1] - [4]
Language
Turkish
Type
Conference PaperItem Usage Stats
8
views
views
4
downloads
downloads
Abstract
Exploration is maintained in continuous control using undirected methods, in which random noise perturbs the network parameters or selected actions. Exploration that is intrinsically driven is a good alternative to undirected techniques. However, it is only studied for discrete action domains. The intrinsic incentives in the existing reinforcement learning literature are unified together in this study by a deterministic artificial goal generation rule for off-policy learning. The agent gains additional reward through this practice if it chooses actions that lead it to useful state spaces. An extensive set of experiments indicates that the introduced artificial reward rule significantly improves the performance of the off-policy baseline algorithms. Keşif, rastgele gürültünün ağ parametrelerini veya
seçilen eylemleri bozduğu, yönlendirilmemiş yöntemler kullanılarak
sürekli kontrolde sürdürülmektedir. İçsel olarak yönlendirilen
keşif, yönlendirilmemiş tekniklere iyi bir alternatiftir
ancak yalnızca ayrık eylem alanları için incelenmiştir. Mevcut
pekiştirmeli öğrenme literatüründeki içsel teşvikler, bu çalışmada
politika-dışı öğrenme için deterministik bir yapay hedef oluşturma
kuralıyla birleştirilmiştir. Ajan, kendisini yararlı durum
uzaylarına götüren eylemleri seçerse, bu uygulama aracılığıyla ek
bir ödül kazanmaktadır. Kapsamlı bir deney seti, tanıtılan yapay
ödül kuralının, politika-dışı temel algoritmaların performansını
önemli ölçüde geliştirdiğini göstermektedir.
Keywords
Deep reinforcement learningExploration
İntrinsic motivation
Continuous control
Off-policy learning
Derin pekiştirmeli öğrenme
Keşif
İçsel motivasyon
Sürekli kontrol
Politika-dışı öğrenme