An intrinsic motivation based artificial goal generation in on-policy continuous control

buir.contributor.authorSağlam, Baturay
buir.contributor.authorMutlu, Furkan B.
buir.contributor.authorGönç, Kaan
buir.contributor.authorDalmaz, Onat
buir.contributor.authorKozat, Süleyman S.
buir.contributor.orcidSağlam, Baturay|0000-0002-8324-5980
buir.contributor.orcidKozat, Süleyman S.|0000-0002-6488-3848
dc.citation.epage[4]
dc.citation.spage[1]
dc.contributor.authorSağlam, Baturay
dc.contributor.authorMutlu, Furkan B.
dc.contributor.authorGönç, Kaan
dc.contributor.authorDalmaz, Onat
dc.contributor.authorKozat, Süleyman S.
dc.coverage.spatialSafranbolu, Turkey
dc.date.accessioned2023-02-15T11:06:21Z
dc.date.available2023-02-15T11:06:21Z
dc.date.issued2022-08-29
dc.departmentDepartment of Computer Engineering
dc.departmentDepartment of Electrical and Electronics Engineering
dc.descriptionConference Name: 2022 30th Signal Processing and Communications Applications Conference (SIU)
dc.descriptionDate of Conference: 15-18 May 2022
dc.description.abstractThis work adapts the existing theories on animal motivational systems into the reinforcement learning (RL) paradigm to constitute a directed exploration strategy in on-policy continuous control. We introduce a novel and scalable artificial bonus reward rule that encourages agents to visit useful state spaces. By unifying the intrinsic incentives in the reinforcement learning paradigm under the introduced deterministic reward rule, our method forces the value function to learn the values of unseen or less-known states and prevent premature behavior before sufficiently learning the environment. The simulation results show that the proposed algorithm considerably improves the state-of-the-art on-policy methods and improves the inherent entropy-based exploration.
dc.description.abstractBu çalışma, politikaya dayalı sürekli kontrolde yönlendirilmiş bir keşif stratejisi oluşturmak için hayvan motivasyon sistemleri hakkındaki mevcut teorileri pekiştirmeli ögrenme (RL) paradigmasına uyarlamaktadır. Ajanları faydalı durum alanlarını ziyaret etmeye teşvik eden yeni ve ölçeklenebilir bir yapay bonus ödül kuralı sunulmaktadır. Pekiştirmeli ögrenme paradigmasındaki içsel teşvikleri, tanıtılan deterministik ödül kuralı altında birleştirerek değer işlevini, görülmeyen veya daha az bilinen durum degerlerini öğrenmeye ve çevreyi yeterince öğrenmeden önce erken davranışı önlemeye zorlamaktadır. Simülasyon sonuçları, önerilen algoritmanın literatürdeki en iyi sonuçları veren politikaya dayalı yöntemleri önemli ölçüde geliştirdiğini ve içsel entropi tabanlı keşfi iyileştirdiğini göstermektedir.
dc.identifier.doi10.1109/SIU55565.2022.9864957
dc.identifier.eisbn978-1-6654-5092-8
dc.identifier.issn2165-0608
dc.identifier.urihttp://hdl.handle.net/11693/111333
dc.language.isoTurkish
dc.publisherIEEE
dc.relation.isversionofhttps://www.doi.org/10.1109/SIU55565.2022.9864957
dc.source.titleSignal Processing and Communications Applications Conference (SIU)
dc.subjectDeep reinforcement learning
dc.subjectExploration
dc.subjectIntrinsic motivation
dc.subjectContinuous control
dc.subjectOn-policy learning
dc.subjectDerin pekiştirmeli öğrenme
dc.subjectKeşif
dc.subjectİçsel motivasyon
dc.subjectSürekli kontrol
dc.subjectPolitikaya dayalı öğrenme
dc.titleAn intrinsic motivation based artificial goal generation in on-policy continuous control
dc.title.alternativePolitikaya dayalı sürekli kontrolde içsel motivasyona dayalı yapay hedef oluşturma
dc.typeConference Paper

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
An_Intrinsic_Motivation_Based_Artificial_Goal_Generation_in_On-Policy_Continuous_Control.pdf
Size:
3.3 MB
Format:
Adobe Portable Document Format
Description:

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.69 KB
Format:
Item-specific license agreed upon to submission
Description: