Yaşlar Arası Yüz İz Çıkarımı Ve Tanıması

thumbnail.default.alt
Tarih
2015-09-08
Yazarlar
Ghaleb, Esam
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Instıtute of Science and Technology
Özet
Videoda yüz tanıma popüler bir araştırma konusudur ve çok yol katedilmiştir. Işıklandırma,     çözünürlük ve açı gibi zorluklar çeşitli veri setleri kullanılarak iyice incelenmiştir. Fakat,  yüzdeki yaşlanmayı araştırma yönelik video tabanlı hiçbir veri seti bulunmamaktadır. Videolarda  yaştan bağımsız yüz tanıma teknikleri geliştirmek ve incelemek için bu zorlu veri setini takdim  ediyoruz: “Harry Potter Movies Aging Data Set (Accio)”. Veri setimiz sadece açı, aydınlanma ve  parazit veriler bakımından zorluklara sahip olmayıp aynı zamanda yüz görünümündeki önemli değişikliklere  dair on yıllık bir süreci kapsamaktadır. Yüz çıkarımını bir Harry Potter filminin sadece kendisinden  veya diğer Harry Potter filmlerinin herhangi birinden yapmak üzere iki temel görev uyguluyoruz ve  harici veri seti kullanımındaki serbestlik açısından değişkenlik gösteren iki farklı protokol  kullanılmasını öneriyoruz. Son model bir yüz takibi özniteliği kullanarak çıkarım performansını  ana hatlarıyla sunuyoruz. Deneylerimizde yüz çıkarımından alınan sorguyla veritabanı arasındaki yaş  farkı arttıkça performansta net bir azalma eğilimi görülmektedir. Videolarda yaştan bağımsız yüz  tanıma alanındaki araştırmaların daha ileriye gidebilmesi için veri setimiz kamuya açık olacaktır. Videolarda yüz tanıma zorlayıcı bir konu olduğu için son yıllarda çok fazla ilgi çekmiştir.  TV karakterlerini belirmek, gözetim kamerlarından şüphelileri tanımak gibi birçok pratik kullanımı  vardır. Aydınlatma, yüz açısı, ifadesi ve çözünürlük sorunlarını çözmek için önemli gelişmeler  kaydedilmiştir. Bu çalışmada, oldukça ihmal edilen yaşlanmaya bağlı yüz görünüm değişiklerinin  etkisini incelemeye odaklandık. Yaş varyansyonunu analiz etmek için sabit görüntünün birden fazla  veri seti varken (FGNET, MORPH, CACD), bildiğimiz kadarıyla video tabanlı veri seti  bulunmamaktadır. Ayrıca, yüz izi kullanarak, yüz takibi nedeniyle haraket bunalıklığı, ve şiddetli  poz değişimi nedenleriyle sabit yüz imgesine göre yüz tanıma sorunu daha zor olduğu barizdir. Böyle  bir veri seti, yaş değişiminin sorunun video bazlı çözülmesine sağlayacaktır.  Yaştan bağımsız yüz tanıma sistemlerini değerlendirmek ve geliştirmek için geniş ve zorlu yüz izi  veri seti sunmaktayız. Veri seti Harry Potter serisinde oluşmaktadır. Filmler on yıllık bir dönemi  kapsar ve videoda yüz tanıma diğer zorluklarıyla birlikte yaş varyasyon etkilerini incelemek için güçlü  bir ortam sunmaktadır. Ayrıca, veri setinde yaşlanma etkilerini en belirgin olduğu döneme ( genç yüzleri)  ait çok sayıda yüz izi bulunmaktadır. Değişik yaş gruplarına sahip olan çok sayıda adlandırılmış karakterlerle  birlikte veri seti birçok distraktör olarak adlandırreedığımz ismi olmayan yüz izleri içeriyor. Bu veri seti on yıllık bir süre içinde yayınlanan sekiz Harry Potter film serisini kullanarak toplanıp düzenlemiştir.  Her film kendi içinde birkaç zorluklar içermektedir. (i) Aydınlatma: birçok parlak ve karanlık sahne vardır. (ii)  poz: ön pozlu olmayan yüz izleri ve genelikle aktörler kameraya bakmamaktadır. (iii) çözünürlük: - izler 25’ten 500’a  kadar çözünürlüğü olabilir. (iv) distraktörler: yüz izlerin yaklaşık \%40’sı arka planda gözüken ve ismi olmayan  karakterlere ait ve bu yüz izi tanıma görevinde sorunları yaratabilir. Son olarak, yaşlanmadan dolayı yüzdeki görünüm  değişimi sekiz filmi kullanımı iyi bir kaynak olarak görülmektedir.  Yüz izleri elde etmek için ilk başta video çekim sınırları tespit edilmiştir. Her çekim içinde, gibi parçacık filtresi   yüz yakalamayla yüz izi elde edilmiştir. Tüm yüz kaydırma ve silindir açılarını kapsayan çoklu poz yüz yakalama yöntemi de   kullanılmıştır. Veri seti genç aktörler (yaşı < 20 ) için çok sayıda yüz izleri içermektedir. Çoğu yüz görünümü değişiklikleri   erken yaşta olduğu için bu önemli bir özelliktir.  Veri setinde yüz izleri temsil etmek için son model olarak bilinen Fisher Vector Faces (FV2) özniteliği kullanılmıştır.  Bu makalede yüz tanımak için öznitelik vektörü $(FV^2)$  imgeden yerine yüz izinden çıkartılmış ve buna video pooling denmektedir.  Yüz izindeki bütün yüz imgelerinin öznitelik vektörleri bir vektörde birleştirilmiş. Her filmde ikiye bölünmüş adlandırılmış ve bilinmeyen (distraktör) yüz izlerin sayısı sunulmaktedir. Veri set yaklaşık 38,464 yüz  izleri içermektedir. Bunların \%59.4 yani 22830 121 farkli karekterlerle filmlerde gözüktüğü gibi adlandırılmış yüz izleridir.  Yüzlerin geri kalanı yani \%40.6 adlandırılmamış oyunculara ait ve yüz izlerin çıkarımında distraktör olarak kabul edilmiştir.  Her Harry Potter film serisinde yüz izleri değişen sayıda bulunmaktadır. Aktörlerin yaşları 10 ile 88 arasındaki yaşları kapsamaktadır.  Yaşları filme yayınma tarihine göre hesapladığımız için yaşta hafif bir tutarsızlık olabilir. İlk filmde ve son filmde rol alan  aktörlerin yüz izlerini yaş farkı maximum on sene olabilir ve böylece en büyük yaş farkı 10 sene olarak kabul edilmektedir. İlk olarak filmin aynısını ikinci olarak diğer filmleri kullanarak yüz izi çıkarımı olmak üzere iki temel görev  uyguluyoruz:  (i) Filmin kendisi: Bu ayarlarda, her film bireysel olarak görülmüştür ve kendi içinde değerlendirme yapılmıştır. Aynı film içinde  adlandırılmış her yüz izi sorgu olarak kullanılırken diğer kalan yüz izleri ( distraktör de dahil) veritabanı olarak oluşturmuştur.  Bu ortamda, poz ve aydınlatma gibi tipik yüz tanımı sorunlarına maruz kalan çıkarım performansı değerlendirilmiştir. (ii) Filmler arasında: By ayarlarda, diğer Harry Potter değişik filmleriyle yüz iz çıkarımını değerlendirerek, aktörler arasında yaş  değişininin ektisini analiz edilmektedir. Herhangi film içinden (örneğin HP- 1) her adlandırılmış yüz izi sorgu olarak kullanırken  değer bir filmin (örneğin) bütün yüz izleri veritabanı oluşturmaktadır.   LFW ve YouTube Faces setleri gibi verilerin kısıtlı, kısıtsız ve serbest bir şekilde kullanımının  ayarlarını öneriyoruz. Görevleri içeren iki protokol öneriyoruz, fakat denetimli ve denetimsiz modelleri öğrenmek için hangi ve ne dereceye verlerin kullanılacağına göre değişir.  (i) Kısıtlı Protokol: Bu protokolda deneylerde harici veriler kullanılmamalıdır. Bunun positif eğitim örneği olarak sadece sorgu izi mevcut olduğuna anlamına gelir. Çıkarım modelleri diğer Accio yüz izleri veya harici iz/imge kullanarak eğitimi kullanılmamalıdır. Bu sadece farklı yüz izin özniteliklerini karşılaştırmak için veya sorgu genişleme ve alan adaptasyon gibi otomatik ve denetimsiz yöntemleri değerlendirmek için kullanılabilir. (ii) Kısıtsız Protokol: Bu ortamda, araştırmacılar eğtim modeli elde etmek için harici verilerini kullanmalarına izin verilir. Örneğin, yaşlanma sürecinde yüz görünümü modellemek için harici verileri kullanılabilir. Fakat, aktörlerin modellerini eğitiminde Accio veri setinden herhangi bir yüz izi kullanılmamalıdır. Son olarak, veriler önceki protokollara göre uymadan farkli bir şekilde kullanılırsa, örneğin yüz izi sınıflandırma amacıyla kullanılması, araştırmacılar buna tüm-serbest düzeni olarak bahsedebilir. Çıkarım deneyleri iki popüler önlemleri kullanarak değerlendirildi: (i) ortalama kesinlik (Mean Average Precision mAP) (ii) @K  Kesinlik, bu de en iyi yüz izlerin sonucunun K değerine karşılık gelir. Bu çalışma zorlukları, ayarları, ve anahat geliştirilmiş sonuçlarını sunuyoruz. Ilk başta, Kısıtlı protokol kullanarak aynı filme ait yüz iz çıkarımı ( birinci görev) sonuçlarını takdim ediyoruz. Her film için adlandırılmış yüz izleri sorgu olarak kullanırken aynı filmdedki bütün izler veritabnı oluşturmaktadır. Örneğin, ilk film ilk filmde HP-1'de teker teker alınan adlandırılmış 3243 izler ver ve sorgu izi haric bütün 5248 yüz izleri veritabnı olarak kullanılır.  Aynı filme poz ve aydınlatma gibi zorluklarının performansı değerlendirirken, (görev 2) yaşlanma soruna bakıyoruz. Yaş farkı oldukça az oldğunda çıkarım performansını iyi olduğunu varsayarak, aynı zamanda filmler arasında değerlendirme yaptığımız zaman ve yaş farkı arttıkça (orneğin HP-1 vs HP-8) performans kötüleşmesini görüyörüz. Sonuçlar bölümünde, sonuçların ana hattını geliştirmek amacıyla ve görev 1 ve 2 sonuçlarınında farkını azaltmak için metric öğrenme tekniklerinden yararlanyoruz. Deneylerde elde edilen yüksek boyutlu FV metric öğrenme kullanarak sıkıştırılıp ayrıt edici bir temsil ortaya çıkarmaktadır.  Sıkıştırma doğrusal projeksiyon kullanılarak gerçekleştirilir ve iki amaca hizmet eder: \\ (i) Yüz öznitelikleri azaltır, büyük ölçüde ve büyük ölçekli veri setleri için geçerli hale gelir.\\ (ii) Alt uzay üzerine projeksiyon, ayrımcı Öklid mesafe ile tanıma performansını artırır  Bu çalışmada da Mahalanobis metrik yanında da diyagonal metrik ve joint metric kullanılmıştır. Metric öğrenme uygulamadan önce de, FV boyutlarını azatlmak için üzerinde PCA uyguluyoruz. Metric öğrenme teknikleri iki farklı şekilde kullandık: (i) Çift film üzerinde metrik öğrenme: iki filmden eğitim için bir oran veri alınıyor ve daha sonra bunlarla metrik model elde ediliyor. Bu model kullanarak, kalan veri üzerinde test ediyoruz.  (ii) Bütün filmler üzerinde metrik öğrenme: bu tip kullanmada, bütün filmlerin yüz izlerinde bir oran (örnek: 10\%) toplanıp ve üzerinde metric öğrenme eğitimi yapıyoruz. Kalan yüz izleri iki çıkarım görevlerini uyguluyoruz. İki senaryoda, joint ve low-rank Mahalanobis teknikleri, iki çıkarım görevlerinde mAP ve kesinlik sonuçlarını artırmaktadır. Bu iki öğrenme metodlarının sonuçların arasındaki farkı azalmakta ve değerlerini oldukça geliştirmektedir. Bunun nedeni, metric öğrenme yüzdeki yaştan dolayı bigisini alıp özniteliklerini aynı domaina sıkıştırıp benzerliklerini öğrenmesinden kaynaklanmaktadır. Fakat diyagonal metrik öğrenme, öncekilerine göre daha basit olduğu için, yaştan dolayı özniteliklerinin farkını öğrenmesi için yeterli değildir. Bu yüzden, bu teknik anahat sonuçlarından daha kötü olduğunu görüyörüz. Ayrıca linear SVM kullanarak yüz iz tanıma deneyleri gerçekleştirdik. Yaş etkisi görmek ve performansı değerlendirmek için iki çıkarım görevlerini de tanıma için uyguluyoruz. Değerlendirme için 5 çapraz doğrulama (5 fold cross valildation) yöntemi kullanılmaktadır. İlk başta, değerlendirme yapılmadan önce, en az 3 filmlerde ve 50 yüz izi olan karakterler değerlendirmelerde dâhil edilmiştir. Kullanılan karakterler için mutli-class SVM eğitimi ve değerlendirilmesi uygulandı. Örneğin, ilk Harry Potter filminde 23 karakter için SVM eğitimi yapıldı ve daha sonra test için elde edilen SVM modelleri hem aynı filmde hem de diğer filmlerde test edilmektedir. Test sonuçlarına göre eğitim seti ile test seti aynı filmden seçildiğinde başarım yüksek çıkmıştır. Test verisi eğitilen modelden farklı bir filmden seçildiğinde ise başarımın düştüğü görülmüştür. Bu da veri setimizde yaş faktörü ne kadar güçlü olduğunu göstermektedir. Tezin ikinci çalışmasında, kullandığımız ve Fisher vektör yönteminin başarmını  ölçmek için analiz ediyoruz. Bu yöntemi  kullanarak LFW kısıtlı deney setinde en iyi sonuçlardan birini vermektedir. Kısıtlı olmayan deneylerde de oldukça başaralı ve yüksek  sonuçlar vermektedir. “Fisher Vector Faces in the Wild” makalesinde önerilen yöntemi SIFT öznitelik ve metrik öğrenme yöntemleri  kullanarak farklı öznitelikleri, ve parameterleri test edilmektdedir.. Önerilen FV yöntemi, farklı veri seti üzerinde nasıl çalıştığını ve performans nasıl etkilendiğini ölçmek için, bu yöntemi Face Recognition  Grand Challange (FRGG) veri setinin dördüncü deney üzerinde değerlendirdik. FRGC veri setinde eğitim kümesi 222 kişiye ait 12,776 imgeden  oluşur.  Test için galerisi ve prob setleri kişi başına tek hareketsiz görüntülerden oluşur. Bu deneyde test için 466 kişiye ait, sorgu veri  setinde kontrolsüz 8014 ve hedef veri setinde 16028 kontrolü imgeden oluşur. Genelde performans, ROC eğrisinde 0,1\%’inde doğrulma oranı  (FAR) olarak elde edilir. Üç tane ROC eğrisi var, ROC 1 imgeler aynı dönemde, ROC 2 imgeler aynı senede ve ROC 3 imgeler iki dönem arasında  çekildiğini ifade ediliyor.  Sonuçlar, ROC Eğrisinin altında kalan alan (Area Under the Curve) olarak değerlendirildi.  FV yüz tanıma için SIFT’ten farklı öznitelik kullanıldığında performansı görmek için Gabor  filter öznitelikleri kullandık. Her bloktan 256 boyutlu öznitelik vektörüne, Gabor filtresine ait hangi ölçek, oryantasyon  ve bloğun x ve y bilgileri eklendiği halde, performans nasıl değiştiğini incelendi. Özniteliklerin bilgileri eklendiğinde iyi sonucu FV vermektedir. Bu bilgiler eklenmediği halde sistemin başarımı düşük olduğunu görüyürüz.  Yüz imgesinin her bloğundan, 256 boyutlu öznitelik vektörü elde edildikten sonra, PCA tekniğin kullanarak daha  düşük boyutlu vektör haline dönüştürüldü. Bu deneyde, sadece PCA boyutu değiştirirken, diğer deney parametreleri  GMM, Örtüşme, Eklenme sabit tutuldu. Sistemin performansı düşük boyutlarda daha iyi çalıştığını fark edilmektedir.  Yapılan önceki deneylerden sonra, en iyi sonuç veren parametreleri seçip bu parametreleri kullandıktan sonra,  sistemin başarımı karekök normalleştirme, örtüşmeyen bloklar, az PCA boyut ve ölçek, oryantasyon ve mekânsal  bilgileri eklenme parametreleriyle en iyi sonucu verdiğini görülmektedir.
In this work we focus our study on two subjects: face track retrieval and  recognition across age, and the analysis of Fisher vector on face verification.  Age invariant face recognition lacks enough researches and dataset based on video.  In our study, we present a novel face track dataset called “Harry Potter Movies  Aging Dataset (Accio). The dataset is harvested from Harry Potter movie series.  It provides face recognition challenges such as variant face pose and  expression, illumination, and more importantly a challenge of facial appearance  changes due to age progression since the movies span a period of ten years. As a  result, this dataset introduces a great environment for studying face track retrieval  and recognition across age. Previous datasets conducted on age invariant face recognition use  still images (FGNET, MORPH, CACD) either contains small number of data or the data  spans small range of years. Our dataset contains large number of face tracks (nearly  38K face tracks) with variant age groups that span an age range between 10 to 88 years.  Typically face track recognition is harder than still image face recognition due to  effects of tracking, motion blur and pose variation. Each movie of the dataset has different  number of face tracks and characters. Nearly 60\% of the face tracks are named as  they appear in the movies and the rest of face tracks act as  distractors or in retrieval evaluation. Our dataset contains great distribution for age group and most of face tracks belong to young characters. This is an important property to study  the impact of aging factor since facial appearance changes is more in early ages than older  ones. For face track representation, we use the state-of-the-art descriptor: Fisher vector.  Fisher vector encoding aggregates large set of local descriptors of all face images into one high  dimensional single vector representation. We define two primary tasks for retrieval and recognition: within and across movies evaluation.  (i) \emph{Within movies} task uses the data of the individual movies for training and testing  once to evaluate the performance against challenges such as pose and illumination variation.  (ii) \emph{Across movies} task adopts evaluation between pairwise movies. Such as training data from HP-1 and testing data from HP-2 or vice versa. The purpose of this task is to assess the  impact of aging factor across movies as the years' gap between movies increases. following the definition of evaluation tasks, we suggest three benchmark protocols for the dataset  for the evaluation for future studies and researches: (i) \emph{restricted}: that uses only face  track query for training and retrieval or recognition models should not use other Accio face  tracks or any external data. The aim of this protocol is to compare the performance of face  track descriptors. (ii) \emph{Unrestricted}: this protocol allows only for the usage of external  data  to train learning model for the retrieval and recognition evaluation on Accio dataset.  (iii) \emph{Free-for-all} protocol which allows the usage of internal and external data for training. Using the suggested retrieval and recognition tasks, we introduce an extensive study for face  track retrieval and recognition across age. The retrieval evaluation uses two popular performance measures:  (ii) Mean Average Precision (mAP) and (ii) precision @k. We apply different experiments  on Accio dataset. First Experiment is the across and within movies evaluation on all face  tracks with full dimensional Fisher vector. The mAP and Precision @k results of this  experiment show clearly the impact of age progression across movies. The performance  of within movies evaluation is better than the performance of across movies evaluation  due to the facial changes between movies. Following the baseline experiment, and in order  to capture the similarity features of face tracks across movies and to improve the  performance of this evaluation, we benefit from three metric learning algorithms:  (i) \emph{low-rank Mahalanobis metric learning}, (ii) \emph{joint metric learning}, and (iii)  \emph{diagonal metric learning}. These metric learning techniques serve two aims:  (i) reducing the dimensions of Fisher vectors to make learning more applicable on large datasets,  and (ii) increasing the face track retrieval and recognition performance by  making the Fisher vectors more discriminative in the new projected subspace. Prior to the experiments of within and across movies retrieval using metric learning,  we reduce the dimensionality of Fisher vectors of face tracks by PCA and then apply  the learning algorithms. We use metric learning approaches in two scenarios:  (i) metric learning on pairwise movies which combines percentage of face tracks  for training a metric model and the uses it for the evaluation on the rest tracks  for the two tasks of the evaluation, and (ii) metric learning on data from all movies which combines a percentage of face tracks from all Accio movies and uses them to  obtain metric model. Then this model is used to evaluate on the rest of test face tracks  for two evaluation tasks. In both scenarios of metric learning, low-rank and joint  metric learning improve the results of the evaluation for both measures, mAP and precision @k  which reflects their ability to capture variant facial changes through movies and to  learn the similarity features between them. However diagonal metric is more basic and leads to  slightly worse results than baseline results. For example, the average improvement in  between the baseline and the joint learned from all movies is $42.7\%$. In addition there  is a great improvement in precision @k such that the gaps between query and database  movies is minimized. This shows the efficiency of these two approaches in learning  the similarity between variant facial features across movies. Unlike the baseline where the  performance declines for larger k values, results of precision @k is stable for different values in different k values. The last experiment on Accio dataset is face recognition across age. In this experiment and similar to retrieval  tasks, we have within and across movies evaluation. We apply 5 fold across validation test on movies using linear  SVMs models.  SVM models are obtained from  each movies' characters, and we use this model for the validation within the same and across  movies. As expected, recognition accuracy in within movies evaluation is higher than  accuracy in across movies' evaluation,  because of the facial appearance variation between the data of training model and testing data. In the second part of this work, we evaluate and measure the performance of Fisher vector that  we use in face track retrieval and recognition. Fisher vector is successful method and gives  great results on face verification task using LFW dataset. However, in our work, the aim is  to assess the performance of Fisher vector, using different dataset and features with various parameters. We use FRGC dataset rather than  LFW. Specifically we evaluate its fourth experiment which has one set for training and two  sets for test: query and target sets. We use Gabor filter as local descriptors rather than  SIFT. We study the effect of spatial, scale and orientation  augmentation to the features on the results of face verification. In addition we change the  parameters of Fisher vectors such as the number of Gaussian Mixture Models and Feature-PCA  dimension. In each experiment, we change one parameter while keeping the others fixed during  the evaluation to see the impact of that parameter on the performance of Fisher  vectors on face verification task. Since Fisher vector is efficient encoding system in features space,  augmentation of the feature information improve the performance greatly. Furthermore, PCA dimension of features has an  influence on the results when the dimensions are low, while GMM size does not have big impact on the results.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2015
Thesis (M.Sc.) -- İstanbul Technical University, Instıtute of Science and Technology, 2015
Anahtar kelimeler
Yüz Tanıma, Bilgisayar Görü, Makine Öğrenmesi, Fisher Vektör, Acci Dataseti, Face Recognition, Computer Vision, Machine Learning, Fisher Vector, Accio Dataset
Alıntı