High-speed trajectory replanning and trajectory tracking for collision avoidance

thumbnail.default.placeholder
Tarih
2021
Yazarlar
Hasanzade, Mehmet
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Özet
Not long ago, the operations or the applications requiring high-performance guided and navigation would have required the use of tactical-size unmanned aerial vehicles. The main reason for this was that high-performance algorithms required bigger or heavier avionics with high computing capabilities or reliable communication buses linked with the ground systems. However, with the development of technology, these capabilities can now be achieved in smaller avionics, making it possible on-board for small-size unmanned aerial vehicles. New lightweight sensory systems enabled small unmanned systems to have advanced "situational awareness" and allow them to be capable of performing complex missions. Yet, guidance, navigation, and motion planning methodologies are still mostly "conservative" and "use-case-specific," render the UAVs incapable of performing multipurpose-operations. There are many studies on route planning algorithms for situations where the map of the environment is known. Since these studies can operate in the initial phase of the operation, where a response is not expected to be very fast, it can guide the vehicle from the starting point to the end point safely, which is feasible and safe for the vehicle. However, in cases where unknown obstacles occur which can be sensed by any sensor, replanning of the trajectory is necessary in order to avoid obstacles. It is expected that the algorithms will be able to generate the replanned trajectory since the vehicle has less time to avoid it. Therefore, The time efficiency of the replanning phase is directly related to the speed and the aggressiveness of the trajectory followed by the vehicle. it is crucial to utilize an algorithm that generates an evasive maneuver in real time and ensures safety and dynamical feasibility. In this thesis, studies were carried out on two topics, trajectory replanning and trajectory tracking. The first study, this thesis proposes a fast re-planning strategy based on deep reinforcement learning for highly agile aerial vehicles. First, the differential flatness model of an air vehicle is utilized, allowing us to directly map the desired output trajectory, which is parameterized with b-spline curves, into required input states to track trajectory. Moreover, perception model is used with fixed range and FOV on the vehicle, and as soon as the vehicle detects the obstacle, it performs the real-time evasive action through repetitive re-planning over an infinite trajectory. Specifically, the algorithm is initialized with a flight trajectory plan, then performs optimal control point vector update and knot insertion to generate a dynamically feasible conflict-free trajectory. Through this modification, the regenerated trajectory provides feasible evasive maneuvers for the vehicle, where the location and the number of the added control points form the "agility" of this evasive maneuver. The control point insertion considering dynamic constraints and the defined agility metrics is transformed into a trajectory optimization problem, which is solved through deep reinforcement learning (DRL). The proximal policy optimization (PPO) method is utilized to train the re-planner with the random forest generation environment. The agent produces re-planned dynamically feasible conflict-free trajectories with modified control points approximately in 400us, which enables the real-time flight trajectory generation for highly agile aerial vehicles. The second study proposes a deep reinforcement learning-based trajectory tracking controller, enabling to minimize the positional and velocity track error for aerial vehicles based on a Proximal Policy Optimization (PPO) algorithm where the controller is trained through randomly generated feasible trajectories. PI controller is utilized for the attitude controller and PID for the attitude rate controller as the aerial vehicle's low-level controllers. The trajectory generator based on the dynamic model guarantees the flat outputs, such that they do not exceed the given dynamical limitations of the vehicle, and produces pitch and roll references to the attitude controller. Simulation results show the root mean square error of the trajectory tracking performance. Also, DRL agent performance is compared with LQR and LQI based trajectory tracking controllers.
Son yıllarda artan teknolojik gelişmeler nedeniyle, insansız hava araçlarının yüksek performanslı güdüm ve navigasyon özelliklerine sahip olması beklenmektedir. Bu özelliklere sahip olan araçların, özellikle taktiksel boyutlarda olması istenmektedir. Elbette bu beklenti, hafif aviyonik komponentlerin araç üzerinde bulunmasını zorunlu kılmakta ve bu gibi aviyoniklerin beklenen algoritmik hesaplama ağırlığı kaldırması beklentisi doğurmaktadır. Bunun yanında da bu özellikleri barındıran araçların emir ve kontrolünün yer istasyonuyla sağlanması ve operasyon sürecinde haberleşmenin kopmadan ve istenilen müdahalelere olanak sağlar şekilde olmalıdır. Günümüz teknolojisi ile bu beklentileri karşılamanın mümkün olduğunu söyleyebiliriz. Gelişmiş teknoloji ile yüksek hesaplama gücüne sahip aviyoniklerin artık daha hafif şekilde geliştirilebilmesi, taktiksel boyuttaki araçların istenilen özellikleri kazanmasına olanak sağlamıştır. Elbette, hesaplama gücünün bu denli ihtiyaç duyulduğu alanlarınından agresif rota takibi ve rotanın tekrar planlanması uygulamaları gösterilebilir. Agresif bir rotanın takibi esnasında karşısına çıkan bir engelden kaçınabilmesi için, araç çok agresif ve hızlı olduğundan, yine mikrosaniyeler mertebesinde rotanın tekrar planlanım engelden kaçması istenmektedir. Bunun yanında planlanan rotanın lokal olarak optimaliteyi sağlaması, üretilen rotanın kullanılan aracın dinamiklerini göz önüne olarak oluşturulması, rota planlama konusundaki önemli unsurlardan birkaçıdır. Bunun yanında da rotanın tekrar planlanması durumunda engele çarpmamak için üretilecek yeni rotanın arama alanının yeteri kadar büyük olması ve lokal optimaliteye ulaşabilmesi için, kullanılan rota takip algoritmasının da yüksek hassasiyet ile takibi gerçekleştirebilmesi gerekmektedir. Ortamın haritasının bilindiği durumlar için rota planlama algoritmaları üzerine bir çok çalışma ortaya konulmuştur. Bu çalışmalar, operasyonun başlangıç fazında çalışabileceği için, çok hızlı bir şekilde cevap verilmesi beklenmediğinden, araç için uygun olan ve hiç bir yere çarpmadan güvenli şekilde başlangıç noktasından bitiş noktasına yönlendirebilmektedir. Ama bilinmeyen engellerin oluştuğu durumlarda engellerden kaçabilmek için tekrar planlama yapmak gerekmektedir. Bu hesabın yapılması da aracın takip ettiği rotanın agresifliğiyle direk olarak ilgilidir. Aracın yüksek hızlı olduğu durumlarda karşısına engel çıktığına önleyebilmesi için daha az zamana sahip olduğundan, uygulanması gereken algoritmaların bu özelliği sağlayabilmesi beklenmektedir. Bu tez içerisinde engel çıktığı zaman rotanın tekrar planlanması problemine ve rota takip problemine çözümler önerilmiştir. Rotanın tekrar planlanması problemine derin pekiştirmeli öğrenme metodu ile oluşturulan ajan kullanılarak çözüm önerilmiştir. Öncelikle kullanılan insansız hava aracının diferansiyel düzlük (differential flatness) özelliği kullanılarak, aracın pozisyon ve türevleri üzerinden rotanın tanımlaması yapılması sağlanmıştır. Bu özellik sayesinde rotanın yine üzerindeki bir noktanın konumu ve türevleri elde edildiğinde, aracın bu rotayı takip edebilmesi beklenmektedir. Rota planlama için de B-spline denilen rota planlama algoritması kullanılmıştır. B-spline tipinde bir rota, içerisinde bulunan kontrol noktaları sayesinde geometrik olarak rotanın şeklinin belirlenmesini ve bu noktalar arasındaki hız, ivme vs. gibi pozisyon türevlerinin belirlenmesine olanak sağlamaktadır. Bununla beraber B-spline tanımalaması, rota üzerindeki her noktanın türevlerinde de sürekli olmasını garanti etmektedir. Kontrol noktalarının konumaları değiştirilebildği için de istenilen geometrik şekil elde edilebilir ve bu özellik engellerden kaçınmak için algoritmaya olanak sağlayacaktır. Ek olarak insansız hava aracı üzerinde bir kamera sensörünün bulunduğu varsayılmıştır. Bu sensör bir emülatör olarak modellenip, sensörün menzili ve görüş açısı kısıtlanmıştır. İnsansız hava aracı B-spline rotayı takip ederken, önüne bir engel çıktığında, bu engel sensör emülatörü üzerinden algılanabilmektedir. Rotanın sadece algılanan engel etrafında planlanması sağlanabilmesi için yine engel üzerinde bir kontrol noktasının bulunması, daha optimal bir çözüm sağlayabilmektedir. Bu nedenle B-spline tanımlamasının bir özelliği olan düğüm ilavesi (knot insertion) metodu kullanılarak, başlangıçta üretilen B-spline rotasının pozisyon ve türevlerinde hiç bir şekilde değişmeden, fakat kontrol nokta sayısını bir arttırıp, bu yeni kontrol noktasını tam olarak engelin üzerinde veya rotanın algılanan engele en yakın noktasına konumlandırılması sağlanmıştır. Daha sonra derin pekiştirmeli öğrenme metoduyla eğitilen ajanın, bu yeni konumlandırılan kontrol noktası için yeni bir lokasyon belirlenmesi sağlanmıştır. Ajan eğitilirken ödül fonksiyonu, aracın tüm durum değişkenleri sınırları içerisinde kalması sağlandığı gibi, engele çarpmaması için belirlenen bir güvenlik uzaklığını sağlayacak şekilde kontrol noktasının yeni konumunu belirlenmesi sağlanmıştır. Bu şekilde tasarlanan bir simülasyon ortamında ajanın eğitimi sağlanmıştır. Buna ek olarak ajanın ürettiği yeni nokta, aracın dinamik limitlerinde sürekli olarak kalmasını sağlayabilmek için ve üretilen rotanın hali hazırda agresif olduğundan, aracı mümkün olduğunca en az şekilde çevikliğini arttıracak rotayı oluşturmayı amaçlamaktadır. Bu özellik, tüm rota boyunca karşısına çıkacak engeller için yeterli aksiyon setini mümkün olduğunca geniş tutabilmesi için kullanılmıştır. Yapılan eğitim sonucunda simülasyon ortamında testler yapılmış ve bir çok rastgele üretilen senaryo içerisinde üretilen rotanın, istenilen limitler içerisinde kaldığı gösterilmiştir. Aracın gerçek zamanlı olarak bu rotayı yeniden üretebilmesi için de bu problemin formülasyonu bu şekilde basitleştirilmiştir. Bu yaklaşım sayesinde, ajan $400us$'de çözüm üretebilmektedir ve yaptığımız literatür araştırmalarla karşılaştırdığımızda en hızlı çözümü bu metod üretmektedir. Simülasyonda performans kriterleri gösterildikten sonra, iç ortam da VICON sistemi altında Crazyflie aracı ile gerçek testler ve performansları gösterilmiştir. Bu sistemde de diferansiyel düzlük kontrolcüsü olan LQI kontrolcüsü kullanılmıştır. Önceki yapılan çalışmalarda LQR kontrolcüsü ile rota takibi yapıldığında kalıcı durum hatası barındırdığını, bu nedenle bu hatadan kurtulmak için de LQI kontrolcüsü kullanıldı. Daha sonra yarış insansız hava aracı tasarlanmış ve aviyonik şeması paylaşılmıştır. Bu araca da önerilen metodu kullanarak agresif rotalar üretilmiş ve sanal engellerden kaçılması sağlanarak, performansı gösterilmiştir. Bu testlerde araç üzerinde ArduPilot otopilotu kullanılmış ve üzerindek pozisyon ve hız kontrolcüsü kullanılarak testler gerçekleştirilmiştir. Var olan bu kontorlcünün performansı yeterli görülmediği için de kontrolcü modifiye edilerek, pozisyon, hız ve ivme kontrolcüsü haline getirilmiş ve testler tekrarlanmıştır. Bu kontrolcü ile yapılan uçuşlarda aracın hem açısal hemde ivme değerleri olarak aracın limitlere dayandığını ve bu limitlerde engellerden kaçarak rota takibini gerçekleştirebildiği gösterilmiştir. Yapılan çalışmalar sonucunda, dış ortam testlerinde araç üzerinde etkiyen rüzgar ve GPS'in sağladığı pozisyon ve hız değerlerindeki belirsizlikten ötürü, iç ortamda yapılan testlerle karşılaştırdığımızda beklenen performansı veremediği görüldü. Bu nedenle rota takip algoritması için derin pekiştirmeli öğrenme tabanlı bir çözüm geliştirilmiştir. Bu çözümde de B-spline ile üretilen agresif manevralara sahip rotanın pozisyon ve türevleri üretilmiş ve derin pekiştirmeli öğrenme ajanının bu referanslara bağlı olarak yunuslama ve yuvarlanma açılarını üretmesi sağlanmıştır. Bu yaklaşımla takip edilen rotalar yine LQR ve LQI diferansiyel düzlük kontrolcüleri ile de takip edilip performans karşılaştırılması yapılmış ve daha yüksek hassasiyet ile rota takibi yapabildiği gösterilmiştir.
Açıklama
Tez (Doktora) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2021
Anahtar kelimeler
İnsansız hava aracı, Unmanned aerial vehicle
Alıntı