An intrinsic motivation based artificial goal generation in on-policy continuous control

buir.contributor.authorSağlam, Baturay
buir.contributor.authorMutlu, Furkan B.
buir.contributor.authorGönç, Kaan
buir.contributor.authorDalmaz, Onat
buir.contributor.authorKozat, Süleyman S.
buir.contributor.orcidSağlam, Baturay|0000-0002-8324-5980
buir.contributor.orcidKozat, Süleyman S.|0000-0002-6488-3848
dc.citation.epage[4]en_US
dc.citation.spage[1]en_US
dc.contributor.authorSağlam, Baturay
dc.contributor.authorMutlu, Furkan B.
dc.contributor.authorGönç, Kaan
dc.contributor.authorDalmaz, Onat
dc.contributor.authorKozat, Süleyman S.
dc.coverage.spatialSafranbolu, Turkeyen_US
dc.date.accessioned2023-02-15T11:06:21Z
dc.date.available2023-02-15T11:06:21Z
dc.date.issued2022-08-29
dc.departmentDepartment of Computer Engineeringen_US
dc.departmentDepartment of Electrical and Electronics Engineeringen_US
dc.descriptionConference Name: 2022 30th Signal Processing and Communications Applications Conference (SIU)en_US
dc.descriptionDate of Conference: 15-18 May 2022en_US
dc.description.abstractThis work adapts the existing theories on animal motivational systems into the reinforcement learning (RL) paradigm to constitute a directed exploration strategy in on-policy continuous control. We introduce a novel and scalable artificial bonus reward rule that encourages agents to visit useful state spaces. By unifying the intrinsic incentives in the reinforcement learning paradigm under the introduced deterministic reward rule, our method forces the value function to learn the values of unseen or less-known states and prevent premature behavior before sufficiently learning the environment. The simulation results show that the proposed algorithm considerably improves the state-of-the-art on-policy methods and improves the inherent entropy-based exploration.en_US
dc.description.abstractBu çalışma, politikaya dayalı sürekli kontrolde yönlendirilmiş bir keşif stratejisi oluşturmak için hayvan motivasyon sistemleri hakkındaki mevcut teorileri pekiştirmeli ögrenme (RL) paradigmasına uyarlamaktadır. Ajanları faydalı durum alanlarını ziyaret etmeye teşvik eden yeni ve ölçeklenebilir bir yapay bonus ödül kuralı sunulmaktadır. Pekiştirmeli ögrenme paradigmasındaki içsel teşvikleri, tanıtılan deterministik ödül kuralı altında birleştirerek değer işlevini, görülmeyen veya daha az bilinen durum degerlerini öğrenmeye ve çevreyi yeterince öğrenmeden önce erken davranışı önlemeye zorlamaktadır. Simülasyon sonuçları, önerilen algoritmanın literatürdeki en iyi sonuçları veren politikaya dayalı yöntemleri önemli ölçüde geliştirdiğini ve içsel entropi tabanlı keşfi iyileştirdiğini göstermektedir.
dc.identifier.doi10.1109/SIU55565.2022.9864957en_US
dc.identifier.eisbn978-1-6654-5092-8
dc.identifier.issn2165-0608
dc.identifier.urihttp://hdl.handle.net/11693/111333
dc.language.isoTurkishen_US
dc.publisherIEEEen_US
dc.relation.isversionofhttps://www.doi.org/10.1109/SIU55565.2022.9864957en_US
dc.source.titleSignal Processing and Communications Applications Conference (SIU)en_US
dc.subjectDeep reinforcement learningen_US
dc.subjectExplorationen_US
dc.subjectIntrinsic motivationen_US
dc.subjectContinuous controlen_US
dc.subjectOn-policy learningen_US
dc.subjectDerin pekiştirmeli öğrenmeen_US
dc.subjectKeşifen_US
dc.subjectİçsel motivasyonen_US
dc.subjectSürekli kontrolen_US
dc.subjectPolitikaya dayalı öğrenmeen_US
dc.titleAn intrinsic motivation based artificial goal generation in on-policy continuous controlen_US
dc.title.alternativePolitikaya dayalı sürekli kontrolde içsel motivasyona dayalı yapay hedef oluşturmaen_US
dc.typeConference Paperen_US
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
An_Intrinsic_Motivation_Based_Artificial_Goal_Generation_in_On-Policy_Continuous_Control.pdf
Size:
3.3 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.69 KB
Format:
Item-specific license agreed upon to submission
Description: