• About
  • Policies
  • What is open access
  • Library
  • Contact
Advanced search
      View Item 
      •   BUIR Home
      • Scholarly Publications
      • Faculty of Engineering
      • Department of Electrical and Electronics Engineering
      • View Item
      •   BUIR Home
      • Scholarly Publications
      • Faculty of Engineering
      • Department of Electrical and Electronics Engineering
      • View Item
      JavaScript is disabled for your browser. Some features of this site may not work without it.

      An intrinsic motivation based artificial goal generation in on-policy continuous control

      Thumbnail
      View / Download
      3.3 Mb
      Author(s)
      Sağlam, Baturay
      Mutlu, Furkan B.
      Gönç, Kaan
      Dalmaz, Onat
      Kozat, Süleyman S.
      Date
      2022-08-29
      Source Title
      Signal Processing and Communications Applications Conference (SIU)
      Print ISSN
      2165-0608
      Publisher
      IEEE
      Pages
      [1] - [4]
      Language
      Turkish
      Type
      Conference Paper
      Item Usage Stats
      16
      views
      6
      downloads
      Abstract
      This work adapts the existing theories on animal motivational systems into the reinforcement learning (RL) paradigm to constitute a directed exploration strategy in on-policy continuous control. We introduce a novel and scalable artificial bonus reward rule that encourages agents to visit useful state spaces. By unifying the intrinsic incentives in the reinforcement learning paradigm under the introduced deterministic reward rule, our method forces the value function to learn the values of unseen or less-known states and prevent premature behavior before sufficiently learning the environment. The simulation results show that the proposed algorithm considerably improves the state-of-the-art on-policy methods and improves the inherent entropy-based exploration.
       
      Bu çalışma, politikaya dayalı sürekli kontrolde yönlendirilmiş bir keşif stratejisi oluşturmak için hayvan motivasyon sistemleri hakkındaki mevcut teorileri pekiştirmeli ögrenme (RL) paradigmasına uyarlamaktadır. Ajanları faydalı durum alanlarını ziyaret etmeye teşvik eden yeni ve ölçeklenebilir bir yapay bonus ödül kuralı sunulmaktadır. Pekiştirmeli ögrenme paradigmasındaki içsel teşvikleri, tanıtılan deterministik ödül kuralı altında birleştirerek değer işlevini, görülmeyen veya daha az bilinen durum degerlerini öğrenmeye ve çevreyi yeterince öğrenmeden önce erken davranışı önlemeye zorlamaktadır. Simülasyon sonuçları, önerilen algoritmanın literatürdeki en iyi sonuçları veren politikaya dayalı yöntemleri önemli ölçüde geliştirdiğini ve içsel entropi tabanlı keşfi iyileştirdiğini göstermektedir.
      Keywords
      Deep reinforcement learning
      Exploration
      Intrinsic motivation
      Continuous control
      On-policy learning
      Derin pekiştirmeli öğrenme
      Keşif
      İçsel motivasyon
      Sürekli kontrol
      Politikaya dayalı öğrenme
      Permalink
      http://hdl.handle.net/11693/111333
      Published Version (Please cite this version)
      https://www.doi.org/10.1109/SIU55565.2022.9864957
      Collections
      • Department of Computer Engineering 1561
      • Department of Electrical and Electronics Engineering 4011
      Show full item record

      Browse

      All of BUIRCommunities & CollectionsTitlesAuthorsAdvisorsBy Issue DateKeywordsTypeDepartmentsCoursesThis CollectionTitlesAuthorsAdvisorsBy Issue DateKeywordsTypeDepartmentsCourses

      My Account

      Login

      Statistics

      View Usage StatisticsView Google Analytics Statistics

      Bilkent University

      If you have trouble accessing this page and need to request an alternate format, contact the site administrator. Phone: (312) 290 2976
      © Bilkent University - Library IT

      Contact Us | Send Feedback | Off-Campus Access | Admin | Privacy