Please use this identifier to cite or link to this item: http://hdl.handle.net/11527/15611
Title: Efficient Visual Loop Closure Detection Via Localized Moment Descriptors
Other Titles: Hızlı Ve Verimli Çalışan Yerelleştirilmiş Görsel Moment Tanımlayıcılarıyla Çevrim Kapamaların Saptanması
Authors: Temeltaş, Hakan
Erhan, Can
10114513
Mekatronik Mühendisliği
Mechatronics Engineering
Keywords: Görsel Robot Navigasyonu
Eşzamanlı Konum Belirleme Ve Haritalama
Çevrim Kapamaların Saptanması
Yerelleştirilmiş Moment Tanımlayıcılar
Visual Robotic Navigation
Simultaneous Localization And Mapping
Loop Closure Detection
Localized Moment Descriptors
Issue Date: 27-Jul-2016
Publisher: Fen Bilimleri Enstitüsü
Institute of Science and Technology
Abstract: Otonom navigasyon, mobil robotik alanında üzerinde en çok çalışılan konulardan biridir. Eşzamanlı Konum Belirleme ve Haritalama'da (EZKH), otonom navigasyon konusu içinde en çok araştırılmış ve hala araştırılmakta olan problemlerden biridir. Ancak uzun soluklu çalışmalara rağmen, özellikle geniş ölçekli dış ortamlar baz alındığında EZKH kapsamında çözülmesi gereken birçok problem bugün hala tam olarak çözülememiş durumdadır. EZKH bağlamında çevrim kapama problemi, otonom bir robotun daha önce bulunmuş olduğu bir yeri başarıyla tanıyabilmesi olarak açıklanabilir. Çevrim kapama çalışmalarının EZKH kapsamında ayrı bir önemi vardır, çünkü başarıyla gerçekleştirilen çevrim kapamalar robotun en güncel konumunu çok daha yüksek bir hassasiyetle belirleyip, geçmiş yörüngesindeki konumları üzerindeki kestirimlerini iyileştirmesine olanak sağlar. Konum kestirmede sağlanan bu iyileştirme, haritalama başarımını da önemli ölçüde artırır. Öte yandan hatalı gerçekleştirilen çevrim kapamalar, EZKH kestirimlerindeki konum ve haritalama süreçlerinin hatalı biçimde güncellenmesine yol açacağı için, hatalı çevrim kapamaların genel EZKH sistemi üzerindeki etkisi yıkıcı boyutlara ulaşabilmektedir. Dolayısıyla hassasiyet, geliştirilen çevrim kapama sisteminde can alıcı bir öneme sahiptir. Bir çevrim kapama sistemi tasarlanırken, dikkate alınması gereken kriterler yalnızca hassasiyet ve yüksek başarım değildir. En az bu iki kriter kadar önemli olan diğer bir kriter de sistemin hızı, ve dolayısıyla etkinliğidir. Bunun en önemli nedeni, EZKH sürecinin genellikle çevrimiçi bir süreç olması ve gerçek zamanlı işleyişin bir EZKH uygulamasında ayrı bir öneminin olmasıdır. Görüntü işleme tekniklerinin genel olarak yoğun işlem gerektiriyor olması da, etkin bir sistem tasarımını daha da güçleştirmektedir.  Çevrim kapama problemi, bu tez çalışmasında görsel algılayıcılar kullanılarak görüntü işleme teknikleriyle çözülmüştür. Görüntü işlemeye dayanan çevrim kapama problemi, temele indirgendiğinde bir görüntü eşleştirme, diğer bir deyişle görüntüler arasındaki benzerliği ölçme problemidir. Bu problem, birçok açıdan çözülmesi zor bir problemdir. Problemi zor kılan etmenler arasında en öne çıkanı, eşleştirilmeye aday görüntülerin çoğu durumda birbirine oldukça benziyor olmasıdır. EZKH probleminin dış ortamdaki olası uygulama alanları arasında çöl veya ormanlık alan gibi doğal ortamlar, veya sokak ve otoyol gibi kentsel ortamlar vardır. Bütün bu ortamlarda, birbirine benzeyen görüntülere sıklıkla rastlanabileceği için sistem kolayca yanılabilir. Diğer bir etmen ise görsel sensörlerden kaynaklanan aydınlanma etkisidir. Yoğun aydınlanmaya maruz kalan görüntülerin istenmeyen bir şekilde algılanması kaçınılmazdır. Hatalı çevrim kapamaların genel EZKH sistemindeki yıkıcı etkisi gözönüne alınırsa, bu tip benzer görüntülerde yapılabilecek olası yanlış eşleştirmelere karşı özel önlemler alınması gerekmekte olup, çevrim kapama hipotezleri yeterince güvenilir olmadıkları sürece kesinlikle kabul edilmemelidir.  Bilgisayarla görüye dayanan teknilerin çevrim kapama probleminde kullanımı, son on yılda kayda değer ölçüde yaygınlaşmıştır. Bunun en önemli nedenlerinden biri, bilgisayar donanımı ve özellikle işlemci teknolojisindeki gelişmelerin, yoğun işlem gerektiren görüntü işleme yöntemlerinin kulanımını mümkün kılmasıdır. Diğer bir önemli etken de, çevrim kapama problemine uyarlanabilecek birçok bilgisayarla görü ve görüntü işleme tekniğinin önerilmiş olmasıdır. Kameradan önce kullanılan LIDAR gibi algılayıcılar, sözkonusu çevrim kapama problemini çözmekte kısıtlı olanaklar sunabilmişlerdir.  Bu tez çalışmasında, özgün bir çevrim kapama yöntemi sunulmaktadır. Önerilen yöntem, görüntülerin üzerinde yerelleştirilmiş momentlerin hesaplanmasına dayanmaktadır. Robotun bulunduğu her bir konum, o konuma denk gelen görüntülerle temsil edilmekte ve bu sayede, çevrim kapamalar robotun son konumundan alınan görünütü ile o zamana kadar toplanan görüntülerin birebir karşılaştırılmasıyla tespit edilmektedir. Bu tez çalışmasının en önemli katkısı, mekanların ve en nihayetinde çevrim kapamaların tespit edilmesinde en büyük etkiye sahip olan görüntülerin temsil edilme yöntemidir. Görüntü betimleyicilerinin hesaplanması üstüste binmiş şekilde hesaplanan kabaca nicelendirilmiş yerel Zernike momentlerini baz almaktadır. Geliştirilen bu teknik yerel ayrırıcı niteliklerin aydınlanma değişimlerine daha az hassas olma ve ayırıcı gücü yüksek olma özelliklerinden faydalanarak, düşük  bilgi işlem yüküyle hesaplanabilen bütünsel tanımlayıcılar oluşturmaktadır. Düşük seviye nitelik belirleyiciler olarak, yerel Zernike momentleri oldukça başarılı bir temsil etme yeteneğine sahiptir. Hesaplanan yerelleştirilmiş momentlerin gelişi güzel bir şekilde nicelendirilmesi, görüntü üzerinde değişken bir şekilde dağılmış olan aydınlanma etkisini ortadan kaldırmaktadır. Robotun görüş açısının sabit olmamasından kayaklanan göreceli açı değişiklikleri, hesaplanan yerel momentlerin bölgesel olarak histogramlarla temsil edilmesiyle daha az etkili hale getirilmiştir. Robotun üzerinde bulunan görsel sensörler yardımıyla alınan görüntüler çevresel faktörlere karşı duyarlı olan bir betimleyici olarak hesaplanmaktadır. Fakat, çevrim kapama hipotezinin gerçekleştirilebilmesi için bir görüntünün daha önce görülüp görülmediğini ortaya çıkaracak bir yöntem gerekmektedir. Bu tez çalışmasında, gelen bir görüntünün daha önce görüntülenmiş bir alanı tesmil edip etmediğini ortaya çıkarmak için, en basit sınıflandırıcılardan biri olan en yakın komşu algoritması kullanılmaktadır. Son alınan görüntü daha önceden kaydedilmiş görüntüler ile karşılaştırılarak birbirlerine en yakın görüntü çevrim kapayacak görüntü adayı olarak seçilmektedir. O görüntünün çevrim kapayıp kapamadığı ise, önceden belirlenmiş bir eşik değeri ile kıyaslanarak belirlenmektedir. Görüntülerin betimleyicileri arasındaki uzaklığı ölçmek için hali hazırda var olan ve çok hızlı çalışan bir uzaklık metriği kullanılmaktadır.  Bu çalışmada önerilen görsel yollarla çevrim kapatma yöntemi, bilinen diğer yöntemlerden kabul görmüş veritabanlarından üçü üzerinde karşılaştırılmıştır. Bu veritabanlarından biri çok sayıda ağaç, duvar ve çalıların bulunduğu yerlerde kaydedilmiş, test edilecek metodun farklı yerleri karıştırma hassasiyetini değerlendirmeye yönelik bir şekilde hazırlanmıştır. Diğeri ise kısmen güneşli ve rüzgarlı bir bölgede oluşturularak test edilecek metodun aydıntlanmaya ve hareketli cisimlerle karşı olan gürbüzlüğünü ölçmeye yöneliktir. Bu veritabanlarından sonuncusu ise, aracın hızından dolayı oluşan geniş yer değiştirmeler ve göreceli poz değişiklikler bakımından zorlu bir veritabanıdır. Elde edilen sonuçlar, çalışmadaki yaklaşımın ve genel olarak önerilen yöntemin literatürce kabul görmüş diğer bütünsel betimleyicilerle karşılaştırılarak, önerilen metodun diğer metodlara kıyasla oldukça iyi çalıştığını göstermektedir. Ayrıca, tüm bu başarının yanında geliştirilen yöntem çok hızlı ve verimli bir şekilde gerçek zamanlı çalışabilmektedir.
In the context of autonomous mobile robotics, constructing a map of an unknown environment and localizing the robot itself in it are essential tasks to accomplish the missions that are programmed to the robot. Although both tasks initially appear to be independent, they are closely related and considered as a single problem, known as Simultaneous Localization and Mapping (SLAM). Loop closing is defined as the correct identification of previously visited location in terms of SLAM. This ability is crucial for not only accurate localization, but also creating consistent maps by minimizing the accumulated errors arising from the sensory information. Range sensors such as LIDARs and SONARs have been utilized for many years in order to solve this problem. On the other hand, the usage of vision-based sensors have been quite popular in recent years due to their competitive prices and compact structure being able to provide rich information. When camera is the only sensor, loop closure detection is performed by comparing the images directly. Working with images brings new complications to be dealt with such as perceiving the images from different places as the same, known as perceptual aliasing. Visual loop closure detection is still an active and challenging problem that must be handled in real-world SLAM applications. Avoiding false detections is a crucial factor, since they may cause catastrophic consequences for the general SLAM process. Hence, it is essential to use a fast and efficient algorithm with high discrimination power in order to cope with the problems arising from the visual sensory. In this thesis, a novel visual loop closure detection method has been presented. This method relies on computing localized moment descriptors all along the image to achieve place recognition. The places are represented with their images. Therefore, the loop closure detection is performed by comparing the image descriptor of the most recent place with all the descriptors that have been extracted throughout the trajectory. The major contribution in this thesis is the description technique which is the key point to achieve good matching results in terms of place recognition and ultimately loop closure detection. The scene descriptor is computed by extracting Zernike moment patterns in an overlapping manner. Briefly, this technique benefits from the discrimination power and robustness to perceptual aliasing of local features, and then combines them into a global or whole-image descriptor with a low computational complexity. As low-level shape features, local Zernike moments have outstanding representation capability for a scene image containing discontinuities spread onto different locations. Quantizing the moments computed all along the image enables a reliable representation by reducing the effect of image noise and background illumination. In order to achieve pose recovery, the resulting descriptor vector is constructed by concatenating the histograms that are built from the patterns at different regions as a global image descriptor. As a further improvement, the time complexity is decreased tremendously by using integral images to operate the method in real-time without introducing any information loss at all. The proposed loop closure detection method has been evaluated on the challenging real-world datasets publicly available. It is reported that the proposed method gives promising results with high true positive rates while avoiding false detections. In this sense, a comparison study available in this thesis. It shows that the proposed method outperforms some other state-of-the-art methods in the literature. Also, a straightforward implementation of the method is shown to perform real-time even for long sequences containing more than thousand images.
Description: Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2016
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2016
URI: http://hdl.handle.net/11527/15611
Appears in Collections:Mekatronik Mühendisliği Lisansüstü Programı - Yüksek Lisans

Files in This Item:
File Description SizeFormat 
10114513.pdf7.46 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.