Pekiştirmeli öğrenme algoritmalarının DeepRTS oyunu üzerinde performans karşılaştırması
Date
Authors
Editor(s)
Advisor
Supervisor
Co-Advisor
Co-Supervisor
Instructor
Source Title
Print ISSN
Electronic ISSN
Publisher
Volume
Issue
Pages
Language
Type
Journal Title
Journal ISSN
Volume Title
Citation Stats
Attention Stats
Usage Stats
views
downloads
Series
Abstract
Bu bildiride, i) yapay zeka ile öğrenme amaçlı geliştirilen DeepRTS oyunu için makro aksiyonların kullanıldığı bir çevre oluşturulmuş ve ii) belirli pekiştirmeli öğrenme algoritmaları, üzerlerinde gerekli değişiklikler yapılarak bu çevre üzerinde eğitimleri sağlanmış ve ilgili performans analizleri yapılmı ştır. Gerçek hayat planlamalarıyla paralellik çizme ve görece düşük donanımlarla bir gerçek zamanlı strateji oyununu oynama amacıyla DeepRTS oyunu üzerinde değişikliklere gidilmiştir. ˙Ilk olarak, bir makro aksiyon seti hazırlanmış ve ajanların yalnızca bu set içerisinden aksiyon alabilmesi sağlanmıştır. ˙Ikinci olarak, gerçek hayat planlamalarına paralel olarak sistem herhangi bir anda komut alabilecek bütün birimler için aksiyon alınabilecek duruma getirilmiştir. Bu durum makro aksiyonların farklı zaman adımları sürmesi ile birlikte ele alındığında, herhangi bir anda birden fazla aksiyonun başlayıp, birden fazla aksiyonun tamamlanmasına olanak sağladığı için klasik pekiştirmeli öğrenme probleminden bir miktar ayrılmıştır. Ayrıca, literatürde bilinen kredi atama problemine farklı bir boyut ekleyerek daha karmaşık hale getirmektedir. Ajanların eğitiminde kullanılma amacı ile ofansif, defansif ve rastgele kural tabanlı ajanlar oluşturulmuş ve pekiştirmeli öğrenme tabanlı ajanların eğitimleri sırasında dönüşümlü şekilde düşman ajan olarak kullanılmıştır. Eğitimi tamamlanan ajanların birbirlerine karşı oyuncu-1 ve oyuncu-2 olarak performansı raporlanmıştır.
In this paper, i) we build a framework using macro actions on top of DeepRTS, which is specifically developed for learning purposes, and ii) we train a number of deep reinforcement learning based agents and then we conduct a detailed performance analysis on the performance of these agents. We make changes on the publicly available version of DeepRTS to make it parallel to real life planning problems and make it trainable with a decent hardware. Firstly, we create a set of macro actions based on human heuristics and we train our agent using only these actions. Secondly, similar to the real life planning problem, we change the problem such that we simultaneously take actions for all available unit at a time step. When we consider this situation together with duration of macro actions being different, multiple actions may start and multiple actions ends at any time step. Therefore, the problem draw apart from classical reinforcement learning problem in a certain amount. In addition, the credit assignment problem becomes more sophisticated since each action lasts a duration and at any time multiple actions are conducted. We create three rule based agents to use them as enemy players in training of our agents. We report the performance of the agents as player-1 and player-2 against each others.