Yaşlar Arası Yüz İz Çıkarımı Ve Tanıması

Ghaleb, Esam

Yaşlar Arası Yüz İz Çıkarımı Ve Tanıması

Dosyalar

10086774.pdf (4.25 MB)

Tarih

2015-09-08

item.page.authors

Ghaleb, Esam

Yayınevi

Fen Bilimleri Enstitüsü
Instıtute of Science and Technology

Özet

Videoda yüz tanıma popüler bir araştırma konusudur ve çok yol katedilmiştir. Işıklandırma, çözünürlük ve açı gibi zorluklar çeşitli veri setleri kullanılarak iyice incelenmiştir. Fakat, yüzdeki yaşlanmayı araştırma yönelik video tabanlı hiçbir veri seti bulunmamaktadır. Videolarda yaştan bağımsız yüz tanıma teknikleri geliştirmek ve incelemek için bu zorlu veri setini takdim ediyoruz: “Harry Potter Movies Aging Data Set (Accio)”. Veri setimiz sadece açı, aydınlanma ve parazit veriler bakımından zorluklara sahip olmayıp aynı zamanda yüz görünümündeki önemli değişikliklere dair on yıllık bir süreci kapsamaktadır. Yüz çıkarımını bir Harry Potter filminin sadece kendisinden veya diğer Harry Potter filmlerinin herhangi birinden yapmak üzere iki temel görev uyguluyoruz ve harici veri seti kullanımındaki serbestlik açısından değişkenlik gösteren iki farklı protokol kullanılmasını öneriyoruz. Son model bir yüz takibi özniteliği kullanarak çıkarım performansını ana hatlarıyla sunuyoruz. Deneylerimizde yüz çıkarımından alınan sorguyla veritabanı arasındaki yaş farkı arttıkça performansta net bir azalma eğilimi görülmektedir. Videolarda yaştan bağımsız yüz tanıma alanındaki araştırmaların daha ileriye gidebilmesi için veri setimiz kamuya açık olacaktır. Videolarda yüz tanıma zorlayıcı bir konu olduğu için son yıllarda çok fazla ilgi çekmiştir. TV karakterlerini belirmek, gözetim kamerlarından şüphelileri tanımak gibi birçok pratik kullanımı vardır. Aydınlatma, yüz açısı, ifadesi ve çözünürlük sorunlarını çözmek için önemli gelişmeler kaydedilmiştir. Bu çalışmada, oldukça ihmal edilen yaşlanmaya bağlı yüz görünüm değişiklerinin etkisini incelemeye odaklandık. Yaş varyansyonunu analiz etmek için sabit görüntünün birden fazla veri seti varken (FGNET, MORPH, CACD), bildiğimiz kadarıyla video tabanlı veri seti bulunmamaktadır. Ayrıca, yüz izi kullanarak, yüz takibi nedeniyle haraket bunalıklığı, ve şiddetli poz değişimi nedenleriyle sabit yüz imgesine göre yüz tanıma sorunu daha zor olduğu barizdir. Böyle bir veri seti, yaş değişiminin sorunun video bazlı çözülmesine sağlayacaktır. Yaştan bağımsız yüz tanıma sistemlerini değerlendirmek ve geliştirmek için geniş ve zorlu yüz izi veri seti sunmaktayız. Veri seti Harry Potter serisinde oluşmaktadır. Filmler on yıllık bir dönemi kapsar ve videoda yüz tanıma diğer zorluklarıyla birlikte yaş varyasyon etkilerini incelemek için güçlü bir ortam sunmaktadır. Ayrıca, veri setinde yaşlanma etkilerini en belirgin olduğu döneme ( genç yüzleri) ait çok sayıda yüz izi bulunmaktadır. Değişik yaş gruplarına sahip olan çok sayıda adlandırılmış karakterlerle birlikte veri seti birçok distraktör olarak adlandırreedığımz ismi olmayan yüz izleri içeriyor. Bu veri seti on yıllık bir süre içinde yayınlanan sekiz Harry Potter film serisini kullanarak toplanıp düzenlemiştir. Her film kendi içinde birkaç zorluklar içermektedir. (i) Aydınlatma: birçok parlak ve karanlık sahne vardır. (ii) poz: ön pozlu olmayan yüz izleri ve genelikle aktörler kameraya bakmamaktadır. (iii) çözünürlük: - izler 25’ten 500’a kadar çözünürlüğü olabilir. (iv) distraktörler: yüz izlerin yaklaşık \%40’sı arka planda gözüken ve ismi olmayan karakterlere ait ve bu yüz izi tanıma görevinde sorunları yaratabilir. Son olarak, yaşlanmadan dolayı yüzdeki görünüm değişimi sekiz filmi kullanımı iyi bir kaynak olarak görülmektedir. Yüz izleri elde etmek için ilk başta video çekim sınırları tespit edilmiştir. Her çekim içinde, gibi parçacık filtresi yüz yakalamayla yüz izi elde edilmiştir. Tüm yüz kaydırma ve silindir açılarını kapsayan çoklu poz yüz yakalama yöntemi de kullanılmıştır. Veri seti genç aktörler (yaşı < 20 ) için çok sayıda yüz izleri içermektedir. Çoğu yüz görünümü değişiklikleri erken yaşta olduğu için bu önemli bir özelliktir. Veri setinde yüz izleri temsil etmek için son model olarak bilinen Fisher Vector Faces (FV2) özniteliği kullanılmıştır. Bu makalede yüz tanımak için öznitelik vektörü $(FV^2)$ imgeden yerine yüz izinden çıkartılmış ve buna video pooling denmektedir. Yüz izindeki bütün yüz imgelerinin öznitelik vektörleri bir vektörde birleştirilmiş. Her filmde ikiye bölünmüş adlandırılmış ve bilinmeyen (distraktör) yüz izlerin sayısı sunulmaktedir. Veri set yaklaşık 38,464 yüz izleri içermektedir. Bunların \%59.4 yani 22830 121 farkli karekterlerle filmlerde gözüktüğü gibi adlandırılmış yüz izleridir. Yüzlerin geri kalanı yani \%40.6 adlandırılmamış oyunculara ait ve yüz izlerin çıkarımında distraktör olarak kabul edilmiştir. Her Harry Potter film serisinde yüz izleri değişen sayıda bulunmaktadır. Aktörlerin yaşları 10 ile 88 arasındaki yaşları kapsamaktadır. Yaşları filme yayınma tarihine göre hesapladığımız için yaşta hafif bir tutarsızlık olabilir. İlk filmde ve son filmde rol alan aktörlerin yüz izlerini yaş farkı maximum on sene olabilir ve böylece en büyük yaş farkı 10 sene olarak kabul edilmektedir. İlk olarak filmin aynısını ikinci olarak diğer filmleri kullanarak yüz izi çıkarımı olmak üzere iki temel görev uyguluyoruz: (i) Filmin kendisi: Bu ayarlarda, her film bireysel olarak görülmüştür ve kendi içinde değerlendirme yapılmıştır. Aynı film içinde adlandırılmış her yüz izi sorgu olarak kullanılırken diğer kalan yüz izleri ( distraktör de dahil) veritabanı olarak oluşturmuştur. Bu ortamda, poz ve aydınlatma gibi tipik yüz tanımı sorunlarına maruz kalan çıkarım performansı değerlendirilmiştir. (ii) Filmler arasında: By ayarlarda, diğer Harry Potter değişik filmleriyle yüz iz çıkarımını değerlendirerek, aktörler arasında yaş değişininin ektisini analiz edilmektedir. Herhangi film içinden (örneğin HP- 1) her adlandırılmış yüz izi sorgu olarak kullanırken değer bir filmin (örneğin) bütün yüz izleri veritabanı oluşturmaktadır. LFW ve YouTube Faces setleri gibi verilerin kısıtlı, kısıtsız ve serbest bir şekilde kullanımının ayarlarını öneriyoruz. Görevleri içeren iki protokol öneriyoruz, fakat denetimli ve denetimsiz modelleri öğrenmek için hangi ve ne dereceye verlerin kullanılacağına göre değişir. (i) Kısıtlı Protokol: Bu protokolda deneylerde harici veriler kullanılmamalıdır. Bunun positif eğitim örneği olarak sadece sorgu izi mevcut olduğuna anlamına gelir. Çıkarım modelleri diğer Accio yüz izleri veya harici iz/imge kullanarak eğitimi kullanılmamalıdır. Bu sadece farklı yüz izin özniteliklerini karşılaştırmak için veya sorgu genişleme ve alan adaptasyon gibi otomatik ve denetimsiz yöntemleri değerlendirmek için kullanılabilir. (ii) Kısıtsız Protokol: Bu ortamda, araştırmacılar eğtim modeli elde etmek için harici verilerini kullanmalarına izin verilir. Örneğin, yaşlanma sürecinde yüz görünümü modellemek için harici verileri kullanılabilir. Fakat, aktörlerin modellerini eğitiminde Accio veri setinden herhangi bir yüz izi kullanılmamalıdır. Son olarak, veriler önceki protokollara göre uymadan farkli bir şekilde kullanılırsa, örneğin yüz izi sınıflandırma amacıyla kullanılması, araştırmacılar buna tüm-serbest düzeni olarak bahsedebilir. Çıkarım deneyleri iki popüler önlemleri kullanarak değerlendirildi: (i) ortalama kesinlik (Mean Average Precision mAP) (ii) @K Kesinlik, bu de en iyi yüz izlerin sonucunun K değerine karşılık gelir. Bu çalışma zorlukları, ayarları, ve anahat geliştirilmiş sonuçlarını sunuyoruz. Ilk başta, Kısıtlı protokol kullanarak aynı filme ait yüz iz çıkarımı ( birinci görev) sonuçlarını takdim ediyoruz. Her film için adlandırılmış yüz izleri sorgu olarak kullanırken aynı filmdedki bütün izler veritabnı oluşturmaktadır. Örneğin, ilk film ilk filmde HP-1'de teker teker alınan adlandırılmış 3243 izler ver ve sorgu izi haric bütün 5248 yüz izleri veritabnı olarak kullanılır. Aynı filme poz ve aydınlatma gibi zorluklarının performansı değerlendirirken, (görev 2) yaşlanma soruna bakıyoruz. Yaş farkı oldukça az oldğunda çıkarım performansını iyi olduğunu varsayarak, aynı zamanda filmler arasında değerlendirme yaptığımız zaman ve yaş farkı arttıkça (orneğin HP-1 vs HP-8) performans kötüleşmesini görüyörüz. Sonuçlar bölümünde, sonuçların ana hattını geliştirmek amacıyla ve görev 1 ve 2 sonuçlarınında farkını azaltmak için metric öğrenme tekniklerinden yararlanyoruz. Deneylerde elde edilen yüksek boyutlu FV metric öğrenme kullanarak sıkıştırılıp ayrıt edici bir temsil ortaya çıkarmaktadır. Sıkıştırma doğrusal projeksiyon kullanılarak gerçekleştirilir ve iki amaca hizmet eder: \\ (i) Yüz öznitelikleri azaltır, büyük ölçüde ve büyük ölçekli veri setleri için geçerli hale gelir.\\ (ii) Alt uzay üzerine projeksiyon, ayrımcı Öklid mesafe ile tanıma performansını artırır Bu çalışmada da Mahalanobis metrik yanında da diyagonal metrik ve joint metric kullanılmıştır. Metric öğrenme uygulamadan önce de, FV boyutlarını azatlmak için üzerinde PCA uyguluyoruz. Metric öğrenme teknikleri iki farklı şekilde kullandık: (i) Çift film üzerinde metrik öğrenme: iki filmden eğitim için bir oran veri alınıyor ve daha sonra bunlarla metrik model elde ediliyor. Bu model kullanarak, kalan veri üzerinde test ediyoruz. (ii) Bütün filmler üzerinde metrik öğrenme: bu tip kullanmada, bütün filmlerin yüz izlerinde bir oran (örnek: 10\%) toplanıp ve üzerinde metric öğrenme eğitimi yapıyoruz. Kalan yüz izleri iki çıkarım görevlerini uyguluyoruz. İki senaryoda, joint ve low-rank Mahalanobis teknikleri, iki çıkarım görevlerinde mAP ve kesinlik sonuçlarını artırmaktadır. Bu iki öğrenme metodlarının sonuçların arasındaki farkı azalmakta ve değerlerini oldukça geliştirmektedir. Bunun nedeni, metric öğrenme yüzdeki yaştan dolayı bigisini alıp özniteliklerini aynı domaina sıkıştırıp benzerliklerini öğrenmesinden kaynaklanmaktadır. Fakat diyagonal metrik öğrenme, öncekilerine göre daha basit olduğu için, yaştan dolayı özniteliklerinin farkını öğrenmesi için yeterli değildir. Bu yüzden, bu teknik anahat sonuçlarından daha kötü olduğunu görüyörüz. Ayrıca linear SVM kullanarak yüz iz tanıma deneyleri gerçekleştirdik. Yaş etkisi görmek ve performansı değerlendirmek için iki çıkarım görevlerini de tanıma için uyguluyoruz. Değerlendirme için 5 çapraz doğrulama (5 fold cross valildation) yöntemi kullanılmaktadır. İlk başta, değerlendirme yapılmadan önce, en az 3 filmlerde ve 50 yüz izi olan karakterler değerlendirmelerde dâhil edilmiştir. Kullanılan karakterler için mutli-class SVM eğitimi ve değerlendirilmesi uygulandı. Örneğin, ilk Harry Potter filminde 23 karakter için SVM eğitimi yapıldı ve daha sonra test için elde edilen SVM modelleri hem aynı filmde hem de diğer filmlerde test edilmektedir. Test sonuçlarına göre eğitim seti ile test seti aynı filmden seçildiğinde başarım yüksek çıkmıştır. Test verisi eğitilen modelden farklı bir filmden seçildiğinde ise başarımın düştüğü görülmüştür. Bu da veri setimizde yaş faktörü ne kadar güçlü olduğunu göstermektedir. Tezin ikinci çalışmasında, kullandığımız ve Fisher vektör yönteminin başarmını ölçmek için analiz ediyoruz. Bu yöntemi kullanarak LFW kısıtlı deney setinde en iyi sonuçlardan birini vermektedir. Kısıtlı olmayan deneylerde de oldukça başaralı ve yüksek sonuçlar vermektedir. “Fisher Vector Faces in the Wild” makalesinde önerilen yöntemi SIFT öznitelik ve metrik öğrenme yöntemleri kullanarak farklı öznitelikleri, ve parameterleri test edilmektdedir.. Önerilen FV yöntemi, farklı veri seti üzerinde nasıl çalıştığını ve performans nasıl etkilendiğini ölçmek için, bu yöntemi Face Recognition Grand Challange (FRGG) veri setinin dördüncü deney üzerinde değerlendirdik. FRGC veri setinde eğitim kümesi 222 kişiye ait 12,776 imgeden oluşur. Test için galerisi ve prob setleri kişi başına tek hareketsiz görüntülerden oluşur. Bu deneyde test için 466 kişiye ait, sorgu veri setinde kontrolsüz 8014 ve hedef veri setinde 16028 kontrolü imgeden oluşur. Genelde performans, ROC eğrisinde 0,1\%’inde doğrulma oranı (FAR) olarak elde edilir. Üç tane ROC eğrisi var, ROC 1 imgeler aynı dönemde, ROC 2 imgeler aynı senede ve ROC 3 imgeler iki dönem arasında çekildiğini ifade ediliyor. Sonuçlar, ROC Eğrisinin altında kalan alan (Area Under the Curve) olarak değerlendirildi. FV yüz tanıma için SIFT’ten farklı öznitelik kullanıldığında performansı görmek için Gabor filter öznitelikleri kullandık. Her bloktan 256 boyutlu öznitelik vektörüne, Gabor filtresine ait hangi ölçek, oryantasyon ve bloğun x ve y bilgileri eklendiği halde, performans nasıl değiştiğini incelendi. Özniteliklerin bilgileri eklendiğinde iyi sonucu FV vermektedir. Bu bilgiler eklenmediği halde sistemin başarımı düşük olduğunu görüyürüz. Yüz imgesinin her bloğundan, 256 boyutlu öznitelik vektörü elde edildikten sonra, PCA tekniğin kullanarak daha düşük boyutlu vektör haline dönüştürüldü. Bu deneyde, sadece PCA boyutu değiştirirken, diğer deney parametreleri GMM, Örtüşme, Eklenme sabit tutuldu. Sistemin performansı düşük boyutlarda daha iyi çalıştığını fark edilmektedir. Yapılan önceki deneylerden sonra, en iyi sonuç veren parametreleri seçip bu parametreleri kullandıktan sonra, sistemin başarımı karekök normalleştirme, örtüşmeyen bloklar, az PCA boyut ve ölçek, oryantasyon ve mekânsal bilgileri eklenme parametreleriyle en iyi sonucu verdiğini görülmektedir.
In this work we focus our study on two subjects: face track retrieval and recognition across age, and the analysis of Fisher vector on face verification. Age invariant face recognition lacks enough researches and dataset based on video. In our study, we present a novel face track dataset called “Harry Potter Movies Aging Dataset (Accio). The dataset is harvested from Harry Potter movie series. It provides face recognition challenges such as variant face pose and expression, illumination, and more importantly a challenge of facial appearance changes due to age progression since the movies span a period of ten years. As a result, this dataset introduces a great environment for studying face track retrieval and recognition across age. Previous datasets conducted on age invariant face recognition use still images (FGNET, MORPH, CACD) either contains small number of data or the data spans small range of years. Our dataset contains large number of face tracks (nearly 38K face tracks) with variant age groups that span an age range between 10 to 88 years. Typically face track recognition is harder than still image face recognition due to effects of tracking, motion blur and pose variation. Each movie of the dataset has different number of face tracks and characters. Nearly 60\% of the face tracks are named as they appear in the movies and the rest of face tracks act as distractors or in retrieval evaluation. Our dataset contains great distribution for age group and most of face tracks belong to young characters. This is an important property to study the impact of aging factor since facial appearance changes is more in early ages than older ones. For face track representation, we use the state-of-the-art descriptor: Fisher vector. Fisher vector encoding aggregates large set of local descriptors of all face images into one high dimensional single vector representation. We define two primary tasks for retrieval and recognition: within and across movies evaluation. (i) \emph{Within movies} task uses the data of the individual movies for training and testing once to evaluate the performance against challenges such as pose and illumination variation. (ii) \emph{Across movies} task adopts evaluation between pairwise movies. Such as training data from HP-1 and testing data from HP-2 or vice versa. The purpose of this task is to assess the impact of aging factor across movies as the years' gap between movies increases. following the definition of evaluation tasks, we suggest three benchmark protocols for the dataset for the evaluation for future studies and researches: (i) \emph{restricted}: that uses only face track query for training and retrieval or recognition models should not use other Accio face tracks or any external data. The aim of this protocol is to compare the performance of face track descriptors. (ii) \emph{Unrestricted}: this protocol allows only for the usage of external data to train learning model for the retrieval and recognition evaluation on Accio dataset. (iii) \emph{Free-for-all} protocol which allows the usage of internal and external data for training. Using the suggested retrieval and recognition tasks, we introduce an extensive study for face track retrieval and recognition across age. The retrieval evaluation uses two popular performance measures: (ii) Mean Average Precision (mAP) and (ii) precision @k. We apply different experiments on Accio dataset. First Experiment is the across and within movies evaluation on all face tracks with full dimensional Fisher vector. The mAP and Precision @k results of this experiment show clearly the impact of age progression across movies. The performance of within movies evaluation is better than the performance of across movies evaluation due to the facial changes between movies. Following the baseline experiment, and in order to capture the similarity features of face tracks across movies and to improve the performance of this evaluation, we benefit from three metric learning algorithms: (i) \emph{low-rank Mahalanobis metric learning}, (ii) \emph{joint metric learning}, and (iii) \emph{diagonal metric learning}. These metric learning techniques serve two aims: (i) reducing the dimensions of Fisher vectors to make learning more applicable on large datasets, and (ii) increasing the face track retrieval and recognition performance by making the Fisher vectors more discriminative in the new projected subspace. Prior to the experiments of within and across movies retrieval using metric learning, we reduce the dimensionality of Fisher vectors of face tracks by PCA and then apply the learning algorithms. We use metric learning approaches in two scenarios: (i) metric learning on pairwise movies which combines percentage of face tracks for training a metric model and the uses it for the evaluation on the rest tracks for the two tasks of the evaluation, and (ii) metric learning on data from all movies which combines a percentage of face tracks from all Accio movies and uses them to obtain metric model. Then this model is used to evaluate on the rest of test face tracks for two evaluation tasks. In both scenarios of metric learning, low-rank and joint metric learning improve the results of the evaluation for both measures, mAP and precision @k which reflects their ability to capture variant facial changes through movies and to learn the similarity features between them. However diagonal metric is more basic and leads to slightly worse results than baseline results. For example, the average improvement in between the baseline and the joint learned from all movies is $42.7\%$. In addition there is a great improvement in precision @k such that the gaps between query and database movies is minimized. This shows the efficiency of these two approaches in learning the similarity between variant facial features across movies. Unlike the baseline where the performance declines for larger k values, results of precision @k is stable for different values in different k values. The last experiment on Accio dataset is face recognition across age. In this experiment and similar to retrieval tasks, we have within and across movies evaluation. We apply 5 fold across validation test on movies using linear SVMs models. SVM models are obtained from each movies' characters, and we use this model for the validation within the same and across movies. As expected, recognition accuracy in within movies evaluation is higher than accuracy in across movies' evaluation, because of the facial appearance variation between the data of training model and testing data. In the second part of this work, we evaluate and measure the performance of Fisher vector that we use in face track retrieval and recognition. Fisher vector is successful method and gives great results on face verification task using LFW dataset. However, in our work, the aim is to assess the performance of Fisher vector, using different dataset and features with various parameters. We use FRGC dataset rather than LFW. Specifically we evaluate its fourth experiment which has one set for training and two sets for test: query and target sets. We use Gabor filter as local descriptors rather than SIFT. We study the effect of spatial, scale and orientation augmentation to the features on the results of face verification. In addition we change the parameters of Fisher vectors such as the number of Gaussian Mixture Models and Feature-PCA dimension. In each experiment, we change one parameter while keeping the others fixed during the evaluation to see the impact of that parameter on the performance of Fisher vectors on face verification task. Since Fisher vector is efficient encoding system in features space, augmentation of the feature information improve the performance greatly. Furthermore, PCA dimension of features has an influence on the results when the dimensions are low, while GMM size does not have big impact on the results.

Açıklama

Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2015
Thesis (M.Sc.) -- İstanbul Technical University, Instıtute of Science and Technology, 2015

Konusu

Yüz Tanıma, Bilgisayar Görü, Makine Öğrenmesi, Fisher Vektör, Acci Dataseti, Face Recognition, Computer Vision, Machine Learning, Fisher Vector, Accio Dataset

URI

http://hdl.handle.net/11527/12963

Koleksiyonlar

FBE- Bilgisayar Mühendisliği Lisansüstü Programı - Yüksek Lisans

Detay Görünüm

Yaşlar Arası Yüz İz Çıkarımı Ve Tanıması

Dosyalar

Tarih

item.page.authors

Süreli Yayın başlığı

Süreli Yayın ISSN

Cilt Başlığı

Yayınevi

Özet

Açıklama

Konusu

Alıntı

URI

Koleksiyonlar

Endorsement

Review

Supplemented By

Referenced By