Derin obje sezicilerle tümleştirilmiş bayesçi filtreleme ile videoda obje izleme

thumbnail.default.alt
Tarih
2021
Yazarlar
Gürkan Gölcük, Filiz
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Lisansüstü Eğitim Enstitüsü
Özet
Güvenlik, hareket ve aktivite tanıma, robotik uygulamaları ve daha birçok uygulamada gerek duyulan obje izleme, belirlenen bir veya daha fazla hedef objenin konumunun video boyunca kestirilmesi olarak tanımlanır. Uzun yıllardır bu alanda yapılan çalışmalar, izleme başarımını arttırmanın yanı sıra, örtüşme, deformasyon, ölçek ve görünüm değişimi gibi izlemeyi zorlaştırıcı etkilere karşı gürbüz algoritmalar geliştirmeyi amaçlamaktadır. Tez çalışması kapsamında, üretici ve ayırıcı yöntemlerin entegre edilmesine olanak sağlayan obje-sezme-ile-obje-izleme (tracking-by- detection - TBD) yaklaşımı altında, IDPF-RP, L1DPF-M ve TDIOT olarak adlandırılan, üç farklı obje izleyici önerilmiştir. Önerilen tüm izleyicilerde, tek obje izleme problemi üzerinde yoğunlaşılmakta ve objenin son konumu, Bayesci filtreleme tabanlı bir obje izleyici bir derin obje sezici ile tümleştirilerek kestirilmektedir. Derin obje sezici olarak yüksek lokalizayon doğruluğuna sahip Mask R-CNN sezici kullanılırken, Bayesçi filtrelemede hedef obje modellemede başarılı olduğu gösterilen renk-tabanlı parçacık filtreleme ve seyrek parçacık filtreleme kullanılmaktadır. İzleyicilerin bir diğer ortak noktası, kullanılan derin obje sezicinin izleme amacıyla yeniden eğitilmesini, ya da izleyicinin uçtan-uca yeniden eğitimini gerektirmemeleridir. Böylelikle etiketlenmiş izleme verisi olmaması durumunda çalışabilen, çevrim dışı eğitim yükünü en aza indiren, çok farklı derin obje sezicilerin farklı omurga mimarileri ile tümleştirilebilmesine olanak sağlayan obje izleyicilerin gerçeklenmesi hedeflenmiştir. IDPF-RP (Interleaving deep learning and particle filtering by region proposal suppression), VRCPF obje izleyici ile senkronize çalışan Mask R-CNN obje sezici kararlarını tümleştiren yeni bir karar tümleştirme mekanizması sunmakta, bu sayede objenin son konumu, izleyici ve sezici arasındaki karar birliğini enbüyükleyecek şekilde belirlenmektedir. IDPF-RP lokalizasyon hizalama katmanı (LH), Mask R-CNN sezicinin ölçek değişimlerine uyumluluk ve lokalizasyon doğruluğu avantajı ile VRCPF izleyicinin hedefe lokalize olma özelliğinden yararlanan bir tümleştirme gerçekler. Bu sayede izleme performansını doğrudan etkileyen aday obje BB'lerinin, içeriğe bağlı olarak değişen sayıda ve yüksek lokalizasyon doğruluğu ile örneklenmesi sağlanabilmekte, böylelikle izleme sürekliliği arttırılmaktadır. IDPF-RP, derin obje seziciden alınan geri besleme ile, hedef obje modelini güncelleyerek ölçek, ışıklılık ve görünüm değişimleri gibi obje izlemeyi zorlaştıran problemlere karşı gürbüzlüğü arttırmaktadır. Tez kapsamında önerilen bir diğer obje izleyici, L1DPF-M, Mask R-CNN derin obje sezici ve seyrek parçacık filtresini TBD yaklaşımı altında entegre eden yeni bir model sunmaktadır. Hedef obje modellemede kullanılan seyrek gösterim, derin obje sezicinin kılavuzluğunda güncellenerek, örtüşme, bakış-açısı değişimi gibi etmenlerden kaynaklanan obje görünüm değişikliklerine karşı gürbüzlük arttırılmaktadır. L1DPF-M, önerilen yeni PF gözlem modeli sayesinde, sezici ve izleyici arasında fikir birliğini ön plana çıkararak hedef objenin son konumunun daha doğru kestirilmesine olanak tanımaktadır. Bunun yanı sıra, L1DPF-M kapsamında önerilen yeni durum vektörü ile, obje hareketinin öteleme, dönme, ölçekleme ve kırpma olarak farklı komponentlerle modellenebilmesi bu sayede obje sınırlarının deforme BB'ler ile izlenebilmesi ve lokalizasyon doğruluğunun arttırılması sağlanmıştır. L1DPF-M, Mask R-CNN çıkışında elde edilen ve objeye piksel bazında erişim sağlayan bölütleme maskelerini kullanarak, izlemenin afin dönüşümlere gürbüzlüğünü arttırmaktadır. Tez kapsamında geliştirilen üçüncü obje izleyici, TDIOT, videodaki zamansal bilginin 3B CNN, LSTM ve benzeri mimariler kullanılmaksızın, işlem yükü çok arttırılmadan modele katılmasını amaçlamaktadır. IDPF-RP ve L1DPF-M den farklı olarak mimarisinde yalnızca PF izleyicinin parçacık örnekleme modülünü içerir ve hedefin son konumunun kestiriminde derin obje seziciye öncelik verir. Literatürdeki birçok derin izleyiciden farklı olarak, sezici eğitiminde kullanılan mimarinin izleme amacıyla transfer öğrenme ile yeniden eğitilmesini, ya da uçtan-uca yeniden eğitimini gerektirmez. Önerilen çıkarım mimarisinde Mask R-CNN aday bölge öneri katmanına eklenen parçacık örnekleyici, objenin geçmiş çerçevelerdeki konum bilgisini kullanarak, objeye uyumlu ölçek ve boyutlarda aday obje bölgelerinin önerilmesine olanak vermektedir. Öte yandan tepe katmanına eklenen "Benzerlik Eşleme" ve "Yerel Arama ve Eşleme" katmanları ile siyam benzerlik kriterine dayalı veri ilişkilendirme gerçeklenir. TDIOT obje izleyicinin obje giriş çıkışlarının da olduğu uzun süreli izleme isterlerini karşılaması amacıyla, yerel ikili örüntü tabanlı bir hedef-obje-doğrulama katmanı izleme mimarisine eklenmiş, uzun süreli izleme başarımının arttırıldığı gösterilmiştir. TDIOT doğrulama katmanının, insan, araba ve benzeri belirli objeler için eğitilmiş yeniden yakalama ağları ile değiştirilmesiyle, daha yüksek işlemsel karmaşıklığa karşın, obje doğrulama başarımının arttırılması olanaklıdır. Önerilen yöntemlerin başarımı literatürde sıklıkla kullanılan VOT ve VOT-LT veri tabanlarına ait videolar üzerinde raporlanmaktadır. Her üç yöntem için güncel izleyiciler ile karşılaştırmalı olarak sunulan izleme performansları, önerilen izleyicilerin lokalizasyon doğruluğunu önemli ölçüde arttırdığını göstermektedir. VOT2016 veri setine ait videolarda yapılan performans raporlamaları, IDPF-RP ve L1DPF-M ile güncel izleyicilere kıyasla sırasıyla \%7 ve \%6 daha yüksek başarım oranına (IoU-th=0.5) ulaşıldığını göstermektedir. Ayrıca, TDIOT ile lokalizasyon doğruluğunun (accuracy), VOT2016'nın en yüksek başarımlı izleyicisine göre \%3 oranında arttırıldığı, TDIOT-LT ile uzun süreli videolarda, literatür ile karşılaştırılabilir izleme performansına ulaşıldığı raporlanmaktadır. Bunun yanı sıra, izleme performansı her bir zorluk kategorisi için ayrı olarak analiz edilmiş ve önerilen izleyicilerin birçok zorluk durumunda izleme performansını arttırdığı gösterilmiştir. VOT2018 veri setine ait videolarda yapılan testler, IDPF-RP izleyicinin, ölçek değişimi içeren videolarda başarım oranını \%4, L1DPF-M izleyicinin, ışıklılık değişimi içeren videolarda başarım oranını \%5 oranında arttırdığını göstermektedir (IoU-th=0.5). Öte yandan, TDIOT obje izleyici, özellikle ışıklılık ve ölçek değişimine karşı gürbüzlüğü arttırarak, izleme doğruluğunu sırasıyla \%4 ve \%2 oranında iyileştirmektedir. TDIOT-LT ise bakış açısı değişiminin olduğu uzun süreli videolarda en yüksek izleme başarımına ulaşmaktadır.
Video object tracking is a challenging problem in several applications including video surveillance, autonomous driving, video content analysis and human-computer interaction. Object tracking can be defined as the problem of estimating the location of the target object, specified at the initial frame, in subsequent video frames. Difficulties in object tracking, which may significantly drop the performance, can arise due to abrupt object motion, appearance or scale change of the objects, illumination change, occlusions and camera motion. Numerous approaches for object tracking have been employed to solve these problems and improve the tracking accuracy. They can be categorized as either generative or discriminative according to how the target object distribution is modelled. Under the generative framework, the target appearance is typically described by a statistical model while the discriminative framework aims to learn a classifier that extracts targets from the surrounding background. Advanced object tracking works focus on tracking-by-detection (TBD) methods that integrate the discriminative and generative approaches to provide more efficient tracking algorithm and increase the robustness. Motivation of TBD is to provide better performance than individual tracker or detector by taking advantage of both. In TBD framework, individual performances of discriminative and generative approaches are important for tracking accuracy. Moreover, the way of integration is another significant problem, which highly affects the performance. We introduce three different single-object tracking methods, under the tracking-by-detection framework where the tracking and detection are performed by Bayesian filtering and deep object detection, respectively. Deep detectors provide superior performance on detecting the target objects in still images by learning the object features. In our trackers, we utilize Mask R-CNN object detector because of its excellent localization accuracy and robustness to scale changes. Also, its instance segmentation capability provides well-localized object boundaries. Bayesian filtering on the other hand is employed as the object tracker to take the advantage of having a simple motion model that enables real time tracking. In this thesis, we aim to improve the tracking performance by efficiently integrate the tracker and detector, under the TBD framework, to take advantages of both. IDPF-RP (Interleaving Deep Learning and Particle Filtering by Region Proposal Suppression), the first tracker introduced in the thesis, combines the strengths of discriminative and generative approaches to fulfill the requirements of efficient video object tracking. Different from most of the existing methods that cascade detector and tracker, we propose a novel decision fusion scheme that integrates outputs of Mask R-CNN object detector and Variable Rate Color-based Particle Filter (VRCPF) tracker to take advantages of both. Moreover, in order to improve object localization accuracy, we introduce Localization Alignment (LA) scheme that formulates a deep region proposal network guided candidate object bounding box selection model. It is known that the performance of tracking is highly related to the localization accuracy of the candidate BBs used in target estimation. RPN based detectors, such as Mask R-CNN, use anchor boxes to generate the candidates where the size and scale of anchors are determined according to training data which may lower the accuracy, especially when anchors do not fit well to the target object. This limitation can be overcomed by re-training that significantly increases the computational cost and requires a large number of training data. On the other hand, particle filtering samples candidate regions from the last position of the object, according to the predefined state transition model. This makes it difficult to track nonlinear motion of objects with a single motion model. The introduced LA scheme fuses proposals provided by Mask R-CNN RPN and VRCPF based on spatial similarity and enables us to eliminate unqualified candidates that improves robustness to occlusion and busy background. Moreover, a target update mechanism is designed based on the level of agreement between tracker and detector, which improves robustness to appearance changes arising from high motion and occlusion. The proposed object tracker is capable of updating target proposal distribution as well as the observation model, which yields improved tracking accuracy in particular under abrupt appearance changes and occlusion. Efficient tracking of the objects under transformations is a difficult task because of the significant appearance changes. Unlike rectangular BBs which are not feasible for accurate tracking of the objects affected by deformations, deformed BBs increase the localization accuracy, especially under abrupt appearance changes. We propose a TBD framework, L1DPF-M (Motion Guided \textit{l}1 Norm Deep Particle Filter), which integrates a deep object detector with a particle filter tracker under the regularization framework, to effectively track object of interest by deformed BBs. We introduce an observation model where the tracked object is represented by a sparse dictionary. In L1DPF-M; Mask R-CNN deep object detector and \textit{l}1 regularized sparse particle filtering (L1APG) are simultaneously activated, and the proposed observation model enforces consensus between the tracker and detector, thus significantly improves localization accuracy of the tracking. The proposed observation model also enables us to update the dictionary with the guidance of the deep detector in order to make the tracker robust to pose changes. Moreover, we formulate a new state vector that reflects the rotation, scaling and shearing parameters of affine transformed objects. The proposed state vector also enables us to tackle the deformed object BBs which highly improve the robustness against to scale changes and transformations. Moreover, detection accuracy is considerably improved with the pixel-wise segmentation output of Mask R-CNN which provides a well-localized bounding box surrounding the object of interest. Latest TBD methods that exploit deep learning based detectors, follow two major paradigms: The first one converts a detector to a tracker by only inference stage customization and the second one seeks to formulate detection and tracking as a joint optimization problem and applies offline retraining schemes for tracking purposes. Motivation behind the first approach is to design a single object tracking scheme which does not require additional training for tracking purpose and complex inference stage customization. Hence, following the first approach, we propose the third tracker, TDIOT (Target-driven Inference for Deep Video Object Tracker), that enables to convert a deep object detector to an object tracker with a novel inference architecture. In our work, Mask R-CNN is used as the baseline deep object detector because of its superior detection performance. Our aim is to incorporate temporal information which is not utilized by the visual object detectors, but is an integral part of the video object tracking systems. This is achieved by including a Scale Adaptive RPN (SRPN) layer to the inference architecture that extend the conventional RPN by a proposal sampler which generates adaptive sized candidate bounding boxes around the latest tracked object. State transition model of the sampler can be parameterized in such a way that allows to search the object within an adaptively enlarged search region. SRPN significantly improves robustness to scale and size variations as well as the localization accuracy without any additional optimization on the architecture. Another contribution of TDIOT is exploiting the temporal information on the head layer with the proposed inference architecture. In order to estimate the final location of the tracked object, all proposals which are extracted and well-localized in SRPN, are transferred to the inference head layer to be aligned and classified, and then ranked according to their appearance similarity to the target object. Moreover, TDIOT performs a similarity learning based search and matching to reduce the miss detection rate in case of blur and occlusion. To show the effectiveness of our tracker in long term tracking, which requires the identification of the object state, presence / absence in the scene, we also integrated a low cost target verification layer into the inference architecture. The proposed layer executes a simple yet efficient target verification scheme that discriminates the Local Binary Pattern (LBP) histogram based appearance model of the target by applying local to global search. It is straightforward to replace the target verification layer with a more complex architecture to obtain higher performance such as re-id method based on similarity learning. Unlike the our verification scheme, this network needs to be trained either individually or as a part of an end-to-end training pipeline based on an effective loss function such as triplet or focal loss. Numerical results are reported on challenging benchmarking data sets with comparison to top tracker of the state-of-the-art methods. Proposed trackers reach the highest tracking accuracy, while they provide comparable robustness in all cases. Specifically, performance evaluation reported on challenging videos from VOT2016 data set, demonstrates that IDPF-RP and L1DPF-M provide approximately 7\% and 6\% higher success rate at IoU-th=0.5 compared to the state-of-the-art trackers TCNN and SSAT, respectively. TDIOT also increases the accuracy about 3\%, which indicates superior localization performance compared to SSAT tracker, while TDIOT-LT has comparable tracking performance on VOT2018-LT data set. Moreover, we report the attribute based performances for more detailed analysis, which show the proposed trackers outperform in some specific problem. Particularly, numerical results on videos VOT2018 demonstrate that IDPF-RP and L1DPF-M provide higher success rates at IoU-th=0.5 for size change and illumination change attribute where the improvements are 4\% and 5\%, respectively, compared to one of the top trackers of VOT2018, SiamRPN. TDIOT outperforms SiamRPN tracker by 2\% and 4\% on size and illumination change attributes, respectively. Furthermore, it has the highest F-score under viewpoint change in long term tracking on videos from VOT-LT2018 data set. In order to achieve high performance, we used Mask R-CNN deep detector in all proposed trackers. However, all models are designed as modular architectures, hence it is straightforward to change the baseline detector with a one-pass deep detector to speed up the tracking, with the expense of lower accuracy. Alternatively, we can change Mask R-CNN's backbone architecture to a less complex one like MobileNet and to a more intensive one like ResNeXt, if we desire less false alarm ratio with the expense of higher computational load. Moreover, it is possible to improve the tracking performance by pre-training the detector on high resolution and large data sets. On the other hand, Mask R-CNN detector, one of the supervised deep learning based architectures, is capable of accurately detecting the learned objects, specifically, 80 object classes included in COCO training data set. It is possible to replace the deep detector by recently introduced one-shot learning based detectors which are able to detect unseen objects, however most of them provide limited tracking accuracy compared to Mask R-CNN. One of our main contribution for all the proposed trackers is that the deep object detector does not need any retraining or we do not apply any additional training for tracking purposes. Proposed inference architecture makes the tracker suitable for many real-life image processing applications where training is mostly impractical because of complexity constraints or lack of readily available data Also, a number of trackers are designed in a way that jointly train the detector and tracker for tracking purposes. Joint optimization requires end-to-end training and this may not always be suitable because of computational burdens and lack of in-domain training data. Furthermore, despite its specialized training scheme, this approach providing limited performance improvement. Nevertheless, performance of TDIOT, which is performed end-to-end training for object tracking purposes, may be evaluated to show how the training affects the tracking performance with the expense of higher computational load.
Açıklama
Tez (Doktora) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2021
Anahtar kelimeler
Monte Carlo Yöntemi, Monte Carlo Method, Nesne izleme, Object tracking
Alıntı