Unified intrinsically motivated exploration for off-policy learning in continuous action spaces

buir.contributor.authorSağlam, Baturay
buir.contributor.authorMutlu, Furkan B.
buir.contributor.authorDalmaz, Onat
buir.contributor.authorKozat, Süleyman S.
buir.contributor.orcidSağlam, Baturay|0000-0002-8324-5980
buir.contributor.orcidKozat, Süleyman S.|0000-0002-6488-3848
dc.citation.epage[4]en_US
dc.citation.spage[1]en_US
dc.contributor.authorSağlam, Baturay
dc.contributor.authorMutlu, Furkan B.
dc.contributor.authorDalmaz, Onat
dc.contributor.authorKozat, Süleyman S.
dc.coverage.spatialSafranbolu, Turkeyen_US
dc.date.accessioned2023-02-15T06:42:25Z
dc.date.available2023-02-15T06:42:25Z
dc.date.issued2022-08-29
dc.departmentDepartment of Electrical and Electronics Engineeringen_US
dc.descriptionConference Name: 2022 30th Signal Processing and Communications Applications Conference (SIU)en_US
dc.descriptionDate of Conference: 15-18 May 2022en_US
dc.description.abstractExploration is maintained in continuous control using undirected methods, in which random noise perturbs the network parameters or selected actions. Exploration that is intrinsically driven is a good alternative to undirected techniques. However, it is only studied for discrete action domains. The intrinsic incentives in the existing reinforcement learning literature are unified together in this study by a deterministic artificial goal generation rule for off-policy learning. The agent gains additional reward through this practice if it chooses actions that lead it to useful state spaces. An extensive set of experiments indicates that the introduced artificial reward rule significantly improves the performance of the off-policy baseline algorithms.en_US
dc.description.abstractKeşif, rastgele gürültünün ağ parametrelerini veya seçilen eylemleri bozduğu, yönlendirilmemiş yöntemler kullanılarak sürekli kontrolde sürdürülmektedir. İçsel olarak yönlendirilen keşif, yönlendirilmemiş tekniklere iyi bir alternatiftir ancak yalnızca ayrık eylem alanları için incelenmiştir. Mevcut pekiştirmeli öğrenme literatüründeki içsel teşvikler, bu çalışmada politika-dışı öğrenme için deterministik bir yapay hedef oluşturma kuralıyla birleştirilmiştir. Ajan, kendisini yararlı durum uzaylarına götüren eylemleri seçerse, bu uygulama aracılığıyla ek bir ödül kazanmaktadır. Kapsamlı bir deney seti, tanıtılan yapay ödül kuralının, politika-dışı temel algoritmaların performansını önemli ölçüde geliştirdiğini göstermektedir.
dc.description.provenanceSubmitted by Betül Özen (ozen@bilkent.edu.tr) on 2023-02-15T06:42:25Z No. of bitstreams: 1 Unified_Intrinsically_Motivated_Exploration_for_Off-Policy_Learning_in_Continuous_Action_Spaces.pdf: 4393232 bytes, checksum: 82ded556eba78df067b9919de86d1c1a (MD5)en
dc.description.provenanceMade available in DSpace on 2023-02-15T06:42:25Z (GMT). No. of bitstreams: 1 Unified_Intrinsically_Motivated_Exploration_for_Off-Policy_Learning_in_Continuous_Action_Spaces.pdf: 4393232 bytes, checksum: 82ded556eba78df067b9919de86d1c1a (MD5) Previous issue date: 2022-08-29en
dc.identifier.doi10.1109/SIU55565.2022.9864795en_US
dc.identifier.eisbn978-1-6654-5092-8
dc.identifier.issn2165-0608
dc.identifier.urihttp://hdl.handle.net/11693/111288
dc.language.isoTurkishen_US
dc.publisherIEEEen_US
dc.relation.isversionofhttps://www.doi.org/10.1109/SIU55565.2022.9864795en_US
dc.source.titleSignal Processing and Communications Applications Conference (SIU)en_US
dc.subjectDeep reinforcement learningen_US
dc.subjectExplorationen_US
dc.subjectİntrinsic motivationen_US
dc.subjectContinuous controlen_US
dc.subjectOff-policy learningen_US
dc.subjectDerin pekiştirmeli öğrenmeen_US
dc.subjectKeşifen_US
dc.subjectİçsel motivasyonen_US
dc.subjectSürekli kontrolen_US
dc.subjectPolitika-dışı öğrenmeen_US
dc.titleUnified intrinsically motivated exploration for off-policy learning in continuous action spacesen_US
dc.title.alternativeSürekli eylem alanlarında politika-dışı öğrenme için birleştirilmiş içsel motivasyonlu keşifen_US
dc.typeConference Paperen_US

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Unified_Intrinsically_Motivated_Exploration_for_Off-Policy_Learning_in_Continuous_Action_Spaces.pdf
Size:
4.19 MB
Format:
Adobe Portable Document Format
Description:

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.69 KB
Format:
Item-specific license agreed upon to submission
Description: