Bulanık Mantık Kontrolörün Tasarımında Kullanılan Bulanık Q-öğrenme Algoritması

thumbnail.default.placeholder
Tarih
09.09.2013
Yazarlar
Aghaei, Vahid Tavakol
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Bu çalışmada, kapalı-çevrimli bir sistemin belli bir davranış ölçütünü maksimize veya minimize etmesi amacıyla, bulanık mantık kontrolörlerinin giriş ve çıkış üyelik fonksiyon parametrelerini, Q-öğrenme algoritmasına dayalı olarak ayarlayan bir yöntem önerilmektedir. Bulanık Mantık Kontrolörün üyelik fonksiyonlarının parametrelerinin ayarlaması için optimize edilecek vektör parametreleri kontrolör girişi olan hata ve hatanın değişimi ve de çıkış olarak seçilmiştir. Her üyelik fonksiyon parametresi için birbiri ile rekabette olan çeşitli adaylar ve her bir aday için bir Q-değeri tanımlanmıştır. Bu Q-değerleri adım adım Q-öğrenme algoritması tarafından güncelleştirilmektedir. Böylece öğrenim prosedürü, en iyi üyelik fonksiyon parametre takımını belirlemektedir. Böylece ilk başta, üyelik fonksiyon parametre değerleri belirsizken, bulanık kontrolörün çeşitli şartlar altında çalıştırılmak ve denenmek zorundadır. Araştırma aşaması çoğu zaman uzundur. Ancak ayar parametreleri fiziksel bir anlam taşıyorsa bu faz kısaltılabilir. Davranış ölçütü kullanılarak farklı parametre değerleri ile elde edilen her basamak yanıtı sonunda bulanık kontrolörün etkinliği bir değer ile ölçülmüş olur. <bu çalışmada davranış ölçütü olarak karesel hata integrali kullanılmıştır. Bu çalışmada, literatürde ilk kez olarak Q-öğrenme algoritmasının ödül fonksiyonunda, skalar değerler ataması yerine bulanık çok değerli atama kullanılmıştır. Böylece öğrenme algoritması daha duyarlı hale gelmiş ve bunun sonucu olarak yakınsama hızlandırılmıştır. Bulanık kontrolörün üyelik fonksiyon ayarlamasında oluşturulan bulanıklaştırılmış Q-öğrenme algoritması kullanıldığında sistem yanıtlarındaki hataların azaldığı ve davranış ölçütünün çok daha küçük değerlere ulaştığı görülmüştür.
In this study we propose a sophisticated reward function for the QL algorithm which incorporates a fuzzy structure including more elaborate information about the rewards/punishments assigned to each action which is being taken in each step time. Firstly, we apply the proposed algorithm to two distinc second order linear systems, one with time delay and the other one without time delay, and obtain the corresponding unity step responses for the given systems. The obtained results demonstrate improvement in the performance of the systems in contrast with fuzzy controllers without tunning schemes. In the next step, in order to show the effectiveness of the proposed method we apply the algorithm to a nonlinear system. The system to be examined is considered to be an Inverted Pendulum and our goal is to balance it on a vertical position. The resulting simulations clarify that the balancing time considerably reduces in comparison with controlling the system with a non-tuned fuzzy controller.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2013
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2013
Anahtar kelimeler
Bulanık Mantık, PID kontrolör, Q-öğrenme, Fuzzy Logic, Q-learning algorithm, PID controller
Alıntı