LEE- Elektronik Mühendisliği Lisansüstü Programı

Bu topluluk için Kalıcı Uri

http://hdl.handle.net/11527/19263

Gözat

Derin obje sezicilerle tümleştirilmiş bayesçi filtreleme ile videoda obje izleme

(Lisansüstü Eğitim Enstitüsü, 2021) Gürkan Gölcük, Filiz ; Günsel Kalyoncu, Bilge ; 691735 ; Elektronik ve Haberleşme Mühendisliği

Güvenlik, hareket ve aktivite tanıma, robotik uygulamaları ve daha birçok uygulamada gerek duyulan obje izleme, belirlenen bir veya daha fazla hedef objenin konumunun video boyunca kestirilmesi olarak tanımlanır. Uzun yıllardır bu alanda yapılan çalışmalar, izleme başarımını arttırmanın yanı sıra, örtüşme, deformasyon, ölçek ve görünüm değişimi gibi izlemeyi zorlaştırıcı etkilere karşı gürbüz algoritmalar geliştirmeyi amaçlamaktadır. Tez çalışması kapsamında, üretici ve ayırıcı yöntemlerin entegre edilmesine olanak sağlayan obje-sezme-ile-obje-izleme (tracking-by- detection - TBD) yaklaşımı altında, IDPF-RP, L1DPF-M ve TDIOT olarak adlandırılan, üç farklı obje izleyici önerilmiştir. Önerilen tüm izleyicilerde, tek obje izleme problemi üzerinde yoğunlaşılmakta ve objenin son konumu, Bayesci filtreleme tabanlı bir obje izleyici bir derin obje sezici ile tümleştirilerek kestirilmektedir. Derin obje sezici olarak yüksek lokalizayon doğruluğuna sahip Mask R-CNN sezici kullanılırken, Bayesçi filtrelemede hedef obje modellemede başarılı olduğu gösterilen renk-tabanlı parçacık filtreleme ve seyrek parçacık filtreleme kullanılmaktadır. İzleyicilerin bir diğer ortak noktası, kullanılan derin obje sezicinin izleme amacıyla yeniden eğitilmesini, ya da izleyicinin uçtan-uca yeniden eğitimini gerektirmemeleridir. Böylelikle etiketlenmiş izleme verisi olmaması durumunda çalışabilen, çevrim dışı eğitim yükünü en aza indiren, çok farklı derin obje sezicilerin farklı omurga mimarileri ile tümleştirilebilmesine olanak sağlayan obje izleyicilerin gerçeklenmesi hedeflenmiştir. IDPF-RP (Interleaving deep learning and particle filtering by region proposal suppression), VRCPF obje izleyici ile senkronize çalışan Mask R-CNN obje sezici kararlarını tümleştiren yeni bir karar tümleştirme mekanizması sunmakta, bu sayede objenin son konumu, izleyici ve sezici arasındaki karar birliğini enbüyükleyecek şekilde belirlenmektedir. IDPF-RP lokalizasyon hizalama katmanı (LH), Mask R-CNN sezicinin ölçek değişimlerine uyumluluk ve lokalizasyon doğruluğu avantajı ile VRCPF izleyicinin hedefe lokalize olma özelliğinden yararlanan bir tümleştirme gerçekler. Bu sayede izleme performansını doğrudan etkileyen aday obje BB'lerinin, içeriğe bağlı olarak değişen sayıda ve yüksek lokalizasyon doğruluğu ile örneklenmesi sağlanabilmekte, böylelikle izleme sürekliliği arttırılmaktadır. IDPF-RP, derin obje seziciden alınan geri besleme ile, hedef obje modelini güncelleyerek ölçek, ışıklılık ve görünüm değişimleri gibi obje izlemeyi zorlaştıran problemlere karşı gürbüzlüğü arttırmaktadır. Tez kapsamında önerilen bir diğer obje izleyici, L1DPF-M, Mask R-CNN derin obje sezici ve seyrek parçacık filtresini TBD yaklaşımı altında entegre eden yeni bir model sunmaktadır. Hedef obje modellemede kullanılan seyrek gösterim, derin obje sezicinin kılavuzluğunda güncellenerek, örtüşme, bakış-açısı değişimi gibi etmenlerden kaynaklanan obje görünüm değişikliklerine karşı gürbüzlük arttırılmaktadır. L1DPF-M, önerilen yeni PF gözlem modeli sayesinde, sezici ve izleyici arasında fikir birliğini ön plana çıkararak hedef objenin son konumunun daha doğru kestirilmesine olanak tanımaktadır. Bunun yanı sıra, L1DPF-M kapsamında önerilen yeni durum vektörü ile, obje hareketinin öteleme, dönme, ölçekleme ve kırpma olarak farklı komponentlerle modellenebilmesi bu sayede obje sınırlarının deforme BB'ler ile izlenebilmesi ve lokalizasyon doğruluğunun arttırılması sağlanmıştır. L1DPF-M, Mask R-CNN çıkışında elde edilen ve objeye piksel bazında erişim sağlayan bölütleme maskelerini kullanarak, izlemenin afin dönüşümlere gürbüzlüğünü arttırmaktadır. Tez kapsamında geliştirilen üçüncü obje izleyici, TDIOT, videodaki zamansal bilginin 3B CNN, LSTM ve benzeri mimariler kullanılmaksızın, işlem yükü çok arttırılmadan modele katılmasını amaçlamaktadır. IDPF-RP ve L1DPF-M den farklı olarak mimarisinde yalnızca PF izleyicinin parçacık örnekleme modülünü içerir ve hedefin son konumunun kestiriminde derin obje seziciye öncelik verir. Literatürdeki birçok derin izleyiciden farklı olarak, sezici eğitiminde kullanılan mimarinin izleme amacıyla transfer öğrenme ile yeniden eğitilmesini, ya da uçtan-uca yeniden eğitimini gerektirmez. Önerilen çıkarım mimarisinde Mask R-CNN aday bölge öneri katmanına eklenen parçacık örnekleyici, objenin geçmiş çerçevelerdeki konum bilgisini kullanarak, objeye uyumlu ölçek ve boyutlarda aday obje bölgelerinin önerilmesine olanak vermektedir. Öte yandan tepe katmanına eklenen "Benzerlik Eşleme" ve "Yerel Arama ve Eşleme" katmanları ile siyam benzerlik kriterine dayalı veri ilişkilendirme gerçeklenir. TDIOT obje izleyicinin obje giriş çıkışlarının da olduğu uzun süreli izleme isterlerini karşılaması amacıyla, yerel ikili örüntü tabanlı bir hedef-obje-doğrulama katmanı izleme mimarisine eklenmiş, uzun süreli izleme başarımının arttırıldığı gösterilmiştir. TDIOT doğrulama katmanının, insan, araba ve benzeri belirli objeler için eğitilmiş yeniden yakalama ağları ile değiştirilmesiyle, daha yüksek işlemsel karmaşıklığa karşın, obje doğrulama başarımının arttırılması olanaklıdır. Önerilen yöntemlerin başarımı literatürde sıklıkla kullanılan VOT ve VOT-LT veri tabanlarına ait videolar üzerinde raporlanmaktadır. Her üç yöntem için güncel izleyiciler ile karşılaştırmalı olarak sunulan izleme performansları, önerilen izleyicilerin lokalizasyon doğruluğunu önemli ölçüde arttırdığını göstermektedir. VOT2016 veri setine ait videolarda yapılan performans raporlamaları, IDPF-RP ve L1DPF-M ile güncel izleyicilere kıyasla sırasıyla \%7 ve \%6 daha yüksek başarım oranına (IoU-th=0.5) ulaşıldığını göstermektedir. Ayrıca, TDIOT ile lokalizasyon doğruluğunun (accuracy), VOT2016'nın en yüksek başarımlı izleyicisine göre \%3 oranında arttırıldığı, TDIOT-LT ile uzun süreli videolarda, literatür ile karşılaştırılabilir izleme performansına ulaşıldığı raporlanmaktadır. Bunun yanı sıra, izleme performansı her bir zorluk kategorisi için ayrı olarak analiz edilmiş ve önerilen izleyicilerin birçok zorluk durumunda izleme performansını arttırdığı gösterilmiştir. VOT2018 veri setine ait videolarda yapılan testler, IDPF-RP izleyicinin, ölçek değişimi içeren videolarda başarım oranını \%4, L1DPF-M izleyicinin, ışıklılık değişimi içeren videolarda başarım oranını \%5 oranında arttırdığını göstermektedir (IoU-th=0.5). Öte yandan, TDIOT obje izleyici, özellikle ışıklılık ve ölçek değişimine karşı gürbüzlüğü arttırarak, izleme doğruluğunu sırasıyla \%4 ve \%2 oranında iyileştirmektedir. TDIOT-LT ise bakış açısı değişiminin olduğu uzun süreli videolarda en yüksek izleme başarımına ulaşmaktadır.

Gözat

Yazar "Günsel Kalyoncu, Bilge" ile LEE- Elektronik Mühendisliği Lisansüstü Programı'a göz atma

Sayfa başına sonuç

Sıralama Seçenekleri