Kişiyi Yeniden Tanıma İçin Derin Evrişimsel Sinir Ağı Tabanlı Modeller

thumbnail.default.alt
Tarih
2016-10-14
Yazarlar
Ulu, Alper
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Instıtute of Science and Technology
Özet
Günümüzde video güvenlik sistemleri kamu güvenliğini sağlama konusunda büyük bir önem taşımaktadır. Hemen her yerde görebileceğimiz bu sistemlerin barındırdığı kamera sayısı oldukça yüksek sayıda olabilmektedir. Genellikle tek bir noktadan takip edilen bu sistemler, görevli kişiler tarafından gün boyunca izlenmekte ve kaydedilmektedir. Ancak gün boyu farklı kameradan gelen bu görüntülerin takip edilmesi oldukça yoğun dikkat isteyen yorucu bir iştir. Bu sebeplerle, günümüzde bu sistemler sadece görüntü kaydetmek ve dağıtmakla kalmayıp aynı zamanda çeşitli akıllı uygulamalar da barındırır hale gelmiştir. Bu uygulamaların amacı şüpheli olay ve hareketleri tespit etmek ve olabildiğince erken uyarıyı vererek, görevli kişilere yardımcı olmaktır. Yüz tanıma, kişi takibi, şüpheli paket tespiti, tehlikeli aktivitelerin belirlenmesi konusunda çalışan uygulamalar bunların başlıcalarıdır. Kişinin yeniden tanınması problemi de bu alanda kullanılan uygulamalardan bir tanesidir ve günümüzde oldukça yüksek bir öneme sahiptir. Kişiyi yeniden tanıma problemi, farklı kameralardan sağlanan görüntülerin, aynı bireye ait olup olmadığının belirlenmesi olarak tanımlanabilir. Bu problem, bilgisayarla görü alanındaki zorlu araştırma konularından birisidir. Işıklandırma koşulları, farklı kamera açıları, poz değişimleri, arka plan değişimleri ve kameraların düşük çözünürlükte olması gibi çeşitli dış faktörler, problemi zorlaştırmaktadırlar. Ayrıca problemi oluşturabilecek çok farklı senaryo bulunmaktadır. Örneğin; kişilere ait birer resmin veya video kaydının bulunması, kamera açılarının kesişmesi veya birbirinden bağımsız ortamlardan elde edilen görüntüler bunlardan bazılarıdır. Kişiyi yeniden tanıma problemi hala çözümlere açık bir problemdir. Şu ana kadar kesin bir çözümünün elde edilememesi nedeni ile bu problem üzerindeki çalışmalar artarak devam etmektedir. Özellikle etiketli veri miktarındaki artış ve GPU tabanlı teknolojilerdeki gelişmelerle beraber derin öğrenme tabanlı çözümler, bilgisayarla görü ve makine öğrenmesi problemlerinde büyük başarılar elde etmektedir. Belirli bir süre eğitim aşamasına ihtiyaç duyan derin öğrenme tabanlı sistemlerde başarım, eğitim kümesinin büyüklüğü ve kullanılan evrişimsel sinir ağının derinliği ile doğru orantılıdır. Kişiyi yeniden tanıma problemi için kullanılan veri kümelerinin büyümesi, derin öğrenme tabanlı çözümlerin klasik öznitelik çıkarımı tabanlı sistemleri geride bırakmasını sağlamıştır. Eğitim kümesinin yeterli düzeyde olmadığı problemlerde transfer öğrenme yaklaşımı, büyük kümelerle eğitimi sağlanmış sinir ağlarından elde edilen bilgi birikiminin ihtiyaç duyulan problemlere aktarılmasına olanak tanımaktadır. Bu çalışmada, kişiyi yeniden tanıma problemi için derin öğrenme ve metrik öğrenme tabanlı bir çözüm önerilmiştir. Bunun için şu anda bilinen en büyük kişiyi yeniden tanıma eğitim kümeleri kullanılmıştır. Bu eğitim kümeleri oldukça büyük olmasına rağmen, bir evrişimsel sinir ağını sıfır ağırlıkları ile en başından itibaren eğitecek düzeyde değildir. Bu işlem için kullanılacak eğitim setlerinin büyüklüğünün en az milyon seviyesinde olması tavsiye edilmektedir. Bu nedenle bu çalışmada transfer eğitim metodu ile farklı bir alanda oldukça başarılı sonuçlar veren sinir ağlarından faydalanıldı. Görüntü tanıma probleminde oldukça başarılı sonuçlar elde eden bu ağlar kişiyi yeniden tanıma problemine özgü eğitim setleri ile ince ayar işlemine tabi tutuldu. Böylece kendi problemlerinde başarılı evrişimsel sinir ağları, çeşitli ayarlamalar ile kişiyi yeniden tanıma problemine uygun hale getirildi. Evrişimsel sinir ağları birbirinden farklı görevlere sahip olan sıralı bir dizi katmandan oluşmaktadır. Evrişim katmanı da bunlardan bir tanesidir. Bu katman, görüntü üzerinde sahip olduğu büyüklük kadar iki veya üç boyutlu evrişim işlemini gerçekleştirerek, sinir ağı boyunca probleme özgü ayırt edici filtrelerin oluşmasını sağlamaktadır. Bir evrişimsel sinir ağındaki ilk evrişim katmanları, görüntü üzerinden daha genel özniteliklerin çıkarılmasını sağlamaktadır. Örnek olarak bu katmanlar; kenar bulma, köşe bulma, bölge bulma filtreleri gibi çalışmaktadırlar. Sinir ağının sonuna doğru yerleşen katmanlar ise daha çok probleme özgü ayırt edici özelliklerin elde edildiği katmanlardır. Bu sebeplerden dolayı ince ayar işlemi ile yeniden eğitilen evrişimsel sinir ağlarının ilk katmanları eğitim esnasında olabildiğince sabit tutulurken, son katmanların ağırlıkları büyük ölçüde değiştirilmiştir. Böylece son katmanlar probleme özgü özniteliklerin çıkarılmasına uygun hale getirilmiştir. Eğitim esnasında değiştirilen son katmanların, yeni ağırlık değerlerini daha hızlı öğrenmesi sağlanmıştır. Kişiyi yeniden tanıma problemi için ince ayar işlemine tabi tutulan evrişimsel sinir ağlarının, eğitim esnasında doğruluk-kayıp grafikleri incelenerek yeterli başarımın elde edildiği görüldü. Bu aşamadan sonra sinir ağları, bir insanın dış görünüşü için gerekli ayırt edici özellikleri çıkarabilecek kapasiteye ulaşmıştır. Kişi resimleri baş, gövde ve ayaklar olmak üzere üçe bölündükten sonra ince ayar işlemi yapılarak insan vücudunun her bölgesi için ayrı ayrı evrişimsel sinir ağları oluşturulmuştur. Daha sonra öznitelik çıkarımı aşamasında her vücut bölgesi için ilgili sinir ağı kullanılmıştır. Kişinin nihai temsili ise bu özniteliklerin birleştirilmesiyle elde edilmiştir. Bu çalışmada, evrişimsel sinir ağlarına uygulanan ince ayar aşamasından sonra iki farklı yöntem izlenmiş ve sonuçları ayrı ayrı raporlanmıştır. Birinci yöntem ikili metrik öğrenme yöntemleri diğeri ise öznitelikler arası doğrudan benzerlik ölçümü işlemidir. İlk olarak, ince ayar işlemi esnasında kullanılan eğitim kümelerinin, ince ayar yapıldığı sinir ağı üzerinden öznitelikleri çıkarılmıştır. Hazırlanan bu öznitelikler ikili bir şekilde positif ve negatif olmak üzere etiketlenmişlerdir. Aynı bireye ait iki resim pozitif etiketlenirken farklı kişilere ait iki resim negatif olarak etiketlenmiştir. Bu şekilde belirli bir sayıda ikili örnek hazırlandıktan sonra, eğitim kümesi metrik öğrenme algoritmalarına sokulmuştur. Metrik öğrenme yöntemlerinin amacı aynı kişiye ait öznitelikler karışılaştırıldığı zaman benzerliğin yüksek, farklı kişiye ait öznitelikler karşılaştırıldığı zaman ise benzerliğin düşük olduğu bir öznitelik uzayına geçişin yapılmasını sağlayan, dönüşüm matrisinin elde edilmesidir. Elde edilen dönüşüm matrisi kullanılarak test kümesindeki kişiler arası benzerlik ölçümü, bu uzaya geçildikten sonra yapılmaktadır. Test kümesindeki kişiler içinde sinir ağlarından öznitelikler elde edilmekte ve elde edilen dönüşüm matrisi ile benzerlik ölçümü yapılmaktadır. Uyguladığımız diğer bir yöntem ise test kümesindeki kişiler arasında doğrudan benzerlik ölçümünün yapılarak eşleşme oranlarınının elde edilmesidir. Bunun için öncelikle ince ayar yapılmış sinir ağlarından test kümesindeki kişilerin her bir vücut bölümleri için öznitelik çıkarımları yapıldı. Daha sonra bu öznitelikler birleştirilerek kişilere ait nihai gösterimler elde edildi. Sorgu ve galeri kümesindeki olarak ikiye ayrılan test kümesindeki kişilerin özniteliklerininin benzerlik ölçümü esnasında kosinüs uzaklığı kullanılmıştır. Sonuçlar herbir bölge ve nihai gösterim için ayrı ayrı 10 kez yapıldıktan sonra ortalama değerler yine ayrı ayrı raporlanmıştır. Eğitim için farklı, test için farklı kümelerin kullanıldığı bu çalışmada doğrudan uzaklık ölçümü sonuçlarında en iyi olarak Rank-1 değerinde \%32 eşleşme oranı elde edilmiştir. Bu oran belirtilen senaryoya sahip kişiyi yeniden tanıma problemi için önerilen sonuçlar arasında oldukça yüksek bir değerdedir. Elde edilen sonuçlar diğer yöntemler ile karşılaştırılmıştır.
Video surveillance systems have great importance to ensure public safety. Today, these kind of systems not only capture and distribute video but also have so many smart applications. Their main task is to detect abnormal events and prevent crimes before they happen. Thanks to having these features, they can be very beneficial to help security attendants. Because, monitoring a large camera network is a very labor-intensive task. These smart applications can generate real time alarms to call security staff's attention. Person re-identification mechanism is one of these applications. It has wide usage area and very important to find suspected persons. Person re-identification problem can be defined as matching pedestrian images which are obtained from different video cameras. This is a very challenging task and it may contain many parameters. Differences in lighting conditions, background changes, occlusions, camera angles and pose variations make the problem even harder. Also, the problem scenario may contain many variations: we can have one or more images for each person, we can have very different camera combinations or we can have different datasets etc. So, person re-identification is still an open problem and there is no prominent solution to solve all different scenarios. In this thesis, we proposed a deep learning and metric learning based method for cross dataset person re-identification problem. Firstly, cross dataset means that, we used different datasets at training and testing stages. Until now, most of the proposed methods have concentrated on single dataset setting. Secondly, deep learning based approaches have achieved great results in many computer vision problems such as digit recognition, scene understanding and face verification. Person re-identification is one of them and quite good results have been published. We used several convolutional neural network architectures in our experiments and we took advantage of their good feature extraction power. The success rate of deep learning based solutions is highly related to the size of training data that you have. Because of this reason, we used the largest datasets, which are prepared for person re-identification problem. However, these datasets are not enough to train a whole network from scratch. It is highly recommended that, your training data size should be at the level of millions to train a convolutional neural network. At this point, transfer learning procedure is a good option that should be considered. In this thesis, our main contribution is to show that some well-performing domain specific convolutional neural networks can be used in also person re-identification problem. To do this, we selected some neural networks which are good at image recognition problem and fine-tuned them with the largest person re-identification datasets. While we were doing this, we kept early layers weights as much as possible and we mostly changed the last layer weights according to our problem. Their accuracy-loss results showed that these networks have pretty good learning capabilities for our problem. In this thesis, AlexNet, VGG-16 and GoogLeNet convolutional neural networks have been used for feature extraction. We fine-tuned these neural networks for each human body part separately. After fine-tuning operation, the neural networks have become ready to extract good features from person images. At this point, we followed two different ways. First one is metric learning methods and the other one is direct similarity calculation on test set. For the metric learning, we have extracted our training set features from convolutional neural networks which are just fine-tuned. While we were doing this, we used different layers of neural networks. Next, we prepared positive and negative image pairs to be used in metric learning step. Here, positive and negative pairs mean that whether two images belongs to same person or not. Because, pairwise metric learning methods use this information and produce a projection matrix. This matrix moves the features from their current space to more discriminative feature space. In that domain, same person's images are relatively closer to the each other. At the test stage, we used this matrix with test features and project them to their new domain. Second evaluation method is direct similarity comparison of test features. After features extracted from head, body and leg parts, we fused them to obtain final person representation and calculated similarity between probe and gallery images. Here, we followed a common test procedure to evaluate our success rate. For similarity measurement, we used cosine distance metric. In that distance, low values mean that these features are closer to the each other and also they are more similar. We have achieved %32 matching rate at Rank-1 value. This result is one of the best result for cross dataset person re-identification problem. We also compared our results with other approaches which are published for this problem. All results have been drawn as a Cummulative Matching Curves.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2016
Thesis (M.Sc.) -- İstanbul Technical University, Instıtute of Science and Technology, 2016
Anahtar kelimeler
Kişiyi Yeniden Tanıma, Evrişimsel Sinir Ağları, Derin Öğrenme, Person Re-identification, Deep Learning, Convolutional Neural Networks
Alıntı