Pekiştirmeli öğrenme algoritmalarının DeepRTS oyunu üzerinde performans karşılaştırması

Date

2021-06-11

Editor(s)

Advisor

Supervisor

Co-Advisor

Co-Supervisor

Instructor

Source Title

IEEE Signal Processing and Communications Applications (SIU)

Print ISSN

2165-0608

Electronic ISSN

Publisher

IEEE

Volume

Issue

Pages

1 - 4

Language

Turkish

Journal Title

Journal ISSN

Volume Title

Citation Stats
Attention Stats
Usage Stats
5
views
41
downloads

Series

Abstract

Bu bildiride, i) yapay zeka ile öğrenme amaçlı geliştirilen DeepRTS oyunu için makro aksiyonların kullanıldığı bir çevre oluşturulmuş ve ii) belirli pekiştirmeli öğrenme algoritmaları, üzerlerinde gerekli değişiklikler yapılarak bu çevre üzerinde eğitimleri sağlanmış ve ilgili performans analizleri yapılmı ştır. Gerçek hayat planlamalarıyla paralellik çizme ve görece düşük donanımlarla bir gerçek zamanlı strateji oyununu oynama amacıyla DeepRTS oyunu üzerinde değişikliklere gidilmiştir. ˙Ilk olarak, bir makro aksiyon seti hazırlanmış ve ajanların yalnızca bu set içerisinden aksiyon alabilmesi sağlanmıştır. ˙Ikinci olarak, gerçek hayat planlamalarına paralel olarak sistem herhangi bir anda komut alabilecek bütün birimler için aksiyon alınabilecek duruma getirilmiştir. Bu durum makro aksiyonların farklı zaman adımları sürmesi ile birlikte ele alındığında, herhangi bir anda birden fazla aksiyonun başlayıp, birden fazla aksiyonun tamamlanmasına olanak sağladığı için klasik pekiştirmeli öğrenme probleminden bir miktar ayrılmıştır. Ayrıca, literatürde bilinen kredi atama problemine farklı bir boyut ekleyerek daha karmaşık hale getirmektedir. Ajanların eğitiminde kullanılma amacı ile ofansif, defansif ve rastgele kural tabanlı ajanlar oluşturulmuş ve pekiştirmeli öğrenme tabanlı ajanların eğitimleri sırasında dönüşümlü şekilde düşman ajan olarak kullanılmıştır. Eğitimi tamamlanan ajanların birbirlerine karşı oyuncu-1 ve oyuncu-2 olarak performansı raporlanmıştır.


In this paper, i) we build a framework using macro actions on top of DeepRTS, which is specifically developed for learning purposes, and ii) we train a number of deep reinforcement learning based agents and then we conduct a detailed performance analysis on the performance of these agents. We make changes on the publicly available version of DeepRTS to make it parallel to real life planning problems and make it trainable with a decent hardware. Firstly, we create a set of macro actions based on human heuristics and we train our agent using only these actions. Secondly, similar to the real life planning problem, we change the problem such that we simultaneously take actions for all available unit at a time step. When we consider this situation together with duration of macro actions being different, multiple actions may start and multiple actions ends at any time step. Therefore, the problem draw apart from classical reinforcement learning problem in a certain amount. In addition, the credit assignment problem becomes more sophisticated since each action lasts a duration and at any time multiple actions are conducted. We create three rule based agents to use them as enemy players in training of our agents. We report the performance of the agents as player-1 and player-2 against each others.

Course

Other identifiers

Book Title

Degree Discipline

Degree Level

Degree Name

Citation

Published Version (Please cite this version)