Yerel Zernike Momentleri Ve Metrik Öğrenme Yöntemleriyle Yüz Çifti Eşleme

thumbnail.default.placeholder
Tarih
2015-02-03
Yazarlar
Kahraman, Şeref Emre
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Instıtute of Science and Technology
Özet
Tarihin ilk zamanlarından beri insanlar iletişim ve etkileşim halinde bulundukları diğer insanları birbirlerinden ayırt edebilmek ve kimliklerini tespit edebilmek için yüzlerini tanımakta ve bu bilgiyi hafızalarında tutmaktadır. İnsan vücudunda kendisinin başkalarından ayırt edilebilmesini sağlayan parmak izi vb. pek çok biyometrik ölçüt bulunmaktadır. Ancak bu ölçütlerin hiçbirisi yüz bilgisi gibi günlük hayatta kolaylıkla kullanılabilecek nitelikte değildir.  Günümüzde bilgisayar teknolojisinin gelişmesi ve yaygınlaşması ile dünyadaki ilk insanlardan beri her zaman popüler olan yüz tanıma problemi, akademik ve ticari olarak da önemli araştırma geliştirme konularından birisi haline gelmiştir. Günümüzde ulusal ve özel güvenlikten, hizmet kalitesini arttırmak amaçlı müşteri sadakati sistemlerine kadar pek çok alanda yüz tanıma uygulamaları aktif olarak kullanılmaktadır.  Yüz çifti eşleme (YÇE) problemi, yüz tanıma araştırma alanının önemli alt başlıklarından birisidir. Yüz çifti eşlemenin amacı imgelerdeki kişilerin kimlik tespiti değil, imgelerdeki yüzlerin aynı kişiye mi yoksa farklı kişilere mi ait olduğu bilgisini elde etmektir. İki ayrı yüz imgesi, eğer aynı kişiye ait ise eşleşmiş, eğer farklı kişilere ait ise eşleşmemiş olarak nitelendirilir. Bu değerli bilgi kısıtlandırılmış bölgelere giriş/çıkış kontrolü, kriminal vakalardaki kamera kayıtlarının analiz edilmesi gibi pek çok alanda kullanılmaktadır. YÇE alanındaki çalışmalar genellikle üç ana aşamadan oluşmaktadır. İlk adımda imgelerdeki yüzlerin yerleri bulunmakta, bulunan yüzler hizalanmakta ve kesilmektedir. Böylelikle yüzler sonraki işlemlere hazır hale getirilmektedir. İkinci adımda kesilen bu yüzlerin farklı yöntemlerle öznitelik vektörleri çıkartılmaktadır. Son olarak da çıkartılan bu öznitelik vektörleri çeşitli şekillerde yorumlanarak amaca uygun şekilde sınıflandırılmaktadır. Bu çalışmada problemin ikinci ve üçüncü aşaması üzerinde çalışmalar yapılmıştır. Tez çalışmasında öznitelik çıkartma yöntemi olarak Yerel Zernike Momentleri (YZM) kullanılmıştır. Zernike Momentleri (ZM) imgenin bütününde hesaplanmakta ve karakter tanıma gibi konularda başarılı sonuçlar vermektedir. Ancak, ZM yüz tanıma gibi imgenin şekilden çok desen bilgisinin önemli olduğu konularda aynı oranda başarılı değildir. Bu nedenle momentlerin bütün imge üzerinde hesaplanması yerine her gözek ve komşuları etrafında yerel olarak hesaplanması prensibine dayalı yeni bir yüz gösterimi olan YZM yöntemi kullanılmıştır. Daha önce yüz imgelerinden kimlik tespiti alanında Yerel İkili Örüntü ve Gabor gibi yöntemlerden daha başarılı sonuçlar veren YZM yönteminin, yüz çifti eşleme probleminde de başarıyla kullanabileceğini göstermek tezin amaçlarından birisidir. YZM yönteminde giriş imgesinden moment derecesi parametresine göre farklı sayılarda gerçel ve sanal kısımlardan oluşan (karmaşık) imgeler oluşturulur, öznitelik çıkartma işlemi sırasında da bu imgeler kullanılır. Seçilen parametrelere göre öznitelik vektörünün uzunluğu değişebilmekte ve yüksek boyutlara ulaşabilmektedir. İşlem kolaylığı ve gerçek zamanlı uygulamalarda kullanılabilirliği sağlamak için YZM öznitelikleri boyut indirgeme işlemine tabii tutulmaktadır. Temel Bileşenler Analizi (TBA) yöntemi sayesinde vektörler veri çeşitliliğini çok fazla kaybetmeden daha düşük boyutlara indirgenmektedir.  Tez çalışmasında boyutları indirgenen YZM vektörleri sınıflandırma işlemi öncesinde daha ayırıcı hale gelebilmeleri için metrik öğrenme yöntemleri kullanılarak yeni bir uzaya taşınmaktadır. Bu yöntemde öncelikle eğitim aşamasında eş ve eş olmayan şeklinde iki ayrı sınıfta etiketlenmiş olan YZM vektör çiftleri kullanılarak istatistiksel çıkarımlar sonucunda dönüşüm matrisleri hesaplanmaktadır. Yöntem sonucunda öğrenilen bu dönüşüm matrisleri test aşamasında YZM vektör çiftleri ile çarpılmakta ve vektörler boyut değiştirmekte ve daha ayırıcı hale gelmektedir. Yapılan çalışmalara göre öznitelik vektörleri metrik öğrenme yöntemleri ile birlikte kullanıldıklarında ortalama %6-8$ başarım artışı sağlanmaktadır. Çalışmada metrik öğrenme yöntemi olarak L2-Norm Metrik öğrenme ve Eşitlik Kısıtları ile Geniş Ölçekte Metrik öğrenme yöntemleri kullanılmaktadır. Tez kapsamında yapılan çalışmaların ve geliştirilen yöntemlerin test edilebilmesi için internetteki haber görüntüleri kullanılarak oluşturulmuş Labeled Faces in the Wild (LFW) veritabanı kullanılmıştır. 5749 farklı kişiye ait toplam 13233 adet görüntüden oluşan bu veritabanı kontrolsüz ortamlardan toparlanmış imgelerden oluşmakta ve farklı poz, açı, yaş ve aydınlatma gibi değişimler içermektedir. LFW veritabanının yüz çifti eşleme problemi için belirlediği bir başarım ölçme protokolü bulunmaktadır. Eş ve eş olmayan 6000 adet yüz çifti belirlenmiş, bunlar 10 grupta toplanmıştır. Çapraz doğrulama yöntemi ile bu 10 grup kullanılarak başarım hesaplanmaktadır. LFW veritabanının YÇE problemlerinde yaygın olarak kullanılması ve başarım hesaplarının sabit bir protokol üzerinden gerçekleştirilmesi, testler sırasında bu veritabanının seçilmesini sağlamıştır. Bu sayede çalışma sonucunda elde edilen başarımlar aynı giriş imgeleri üzerinde ve aynı protokol ile elde edildiğinden karşılaştırma sonuçları daha anlamlı hale gelmektedir. Hesaplanan, boyutları indirgenen ve metrik öğrenme yöntemleri ile dönüştürülen vektörlerin, LFW veritabanının başarım protokolüne uygun şekilde sınıflandırılmasında k-en yakın komşuluk yöntemi kullanılmaktadır. Eş ve eş olmayan şeklinde iki adet sınıf barındıran bu işlemde eğitim aşamasında sabit bir eşik değeri hesaplanmaktadır. Test aşamasında ise birbirlerine bu değerden daha yakın olan yüz çiftleri eş, diğerleri ise eş olmayan şeklinde sınıflandırılmaktadır. Vektörlerin birbirleri ile arasındaki uzaklığın hesabında L1 Norm, L2 Norm, Mahalanobis ve Kosinüs gibi farklı uzaklık ölçüm metrikleri kullanılmıştır.
Since ancient times, human face is used to be one of the most widely used biometrics of human's identity. People have been labeling each other, who are interacted with, by facial appearance. We are still storing other people's faces in our minds to recognize them. There are several biometric identities in human body such as finger print, eyes etc. , but most of them is not suitable to recognize other people in daily lives, except face. With the development of computer technologies and increase in power of microprocessors, applications of face recognition are becoming widespread day by day.  There are lots of computer scientist who are interested in face recognition phenomenon. Governments and companies are investing huge amount of money on researching and development of face recognition applications in wide areas such as national security, customer loyalty systems. Face pair matching (FPM) is one the most important subtopics in face recognition problem. FPM is a binary classification problem which is deciding whether or not two face images belong to the same person. Two face images are labeled as match if they belong to same person, otherwise labeled as mismatch. Results of FPM provide very useful information to specific applications like access control of restricted areas or grouping the unknown people's faces in an image gallery. Studies about FPM generally consist of three main steps. First step is detecting the faces, aligning and then cropping. By the help of these preprocessing phases on images, faces become ready to next stages. Second step is feature extraction of these cropped face images. Finally, third step is classification process. In this project, main contribution is focused on second and mostly third stages.  In this thesis, Local Zernike Moments (LZM) method is used as feature extraction method. Zernike Moments (ZM) is a feature extraction method that computes complex moments coefficients from all around of image. ZM has a solid performance while using in shape based problems like fingerprint or character recognition, but not inadequate for much more texture based problems like face recognition. Therefore, LZM, a novel face representation method is purposed to use. LZM calculates complex coefficients locally, around the neighborhood of each pixel on image, not globally. Previous works show that LZM is as successful as famous rival methods such as LBP or Gabor on face identification problem. Showing that whether or not LZM may be successful in FPM problem similar to face recognition is one of the main goals in thesis. In LZM method, each moment component produces new complex face images, including real and imaginary parts, from input image. Final feature vector is obtained by concentration of each complex image's phase/magnitude histograms. To sum up, length of the feature vector depends on how many moment component is chosen. So, feature vector may have high dimensions in case of setting the moment parameter high. In order to reducing the processing time, dimension reduction of feature vectors is necessary. Principal Component Analysis (PCA) is used for this purpose. By the help of PCA, length of vectors is decreasing without losing any data variety. After reducing dimensions, there is another method called metric learning which is used for increasing the discrimination power of feature vectors. In metric learning algorithms, a transform matrix is calculated in training stage using vector couples dubbed as match/mismatch by solving a minimizing problem of matching and a maximizing problem of mismatching class distances. In order to apply the metric learning algorithm, transform matrix generated in training stage is multiplied to feature vectors. According to tests, using these statistic based metric learning algorithms on feature vector increase the recognition performance by 6-8%. In this thesis, L2-Norm Metric Learning and Large Scale Metric Learning from Equivalence Constraints algorithms are used.  Labeled Faces in the Wild (LFW) image data set is used for benchmarking tests in this work. LFW is a database of face photographs designed for studying the problem of unconstrained face recognition. The data set contains more than 13233 images from 5749 person. Face images of LFW are collected from the Yahoo News website, so images have all of the pose, illumination, angle and aging varieties due to be taken from uncontrolled environment. LFW has two benchmark principles which are restricted and unrestricted settings. All tests must run according to same benchmarking rule. 6000 face image pairs are chosen and they are divided into 10 folds in restricted settings of LFW. Each fold has 300 match and 300 mismatch face pairs. Therefore, success rate of workings are calculated by using cross validation method as suggested. k-Nearest Neighborhood classification method is used for classification in thesis. L1, L2 and Cosine distance metrics are used for calculating distances of feature vectors belongs to images. After applying all algorithms to the input image pairs, distances of the vectors decide whether they are match or mismatch images.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2015
Thesis (M.Sc.) -- İstanbul Technical University, Instıtute of Science and Technology, 2015
Anahtar kelimeler
Yüz Çifti Eşleme, Yerel Zernike Momentleri, Metrik Öğrenme, Face Paır Matchıng, Local Zernıke Moments, Metrıc Learnıng
Alıntı