Düşük Çözünürlüklü Yüz Görüntülerinin Yerel Zernike Momentleri Yöntemi İle Sınıflandırılması

thumbnail.default.placeholder
Tarih
2014-06-27
Yazarlar
Alasağ, Tolga
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Instıtute of Science and Technology
Özet
Multimedya sistemlerinin günümüzde yaygın kullanımı, sahip oldukları depolama aygıtlarının artan mevcut kapasitesi ve artan işlemci hızları, yüz tanıma algoritmalarının kullanım alanını arttırmış ve gelişmesini sağlamıştır. Bu gelişme ile tek bir görüntü yerine bir akış şeklinde video görüntülerinden elde edilen bilgiler kullanılmaya başlanmıştır. Günümüzde, hayatımızın her anında video kameraları görebilmekteyiz. Örneğin, havalimanlarındaki güvenlik kapı girişlerindeki video kameralar, güvenlik kamerası olarak kullanılmaktadır. Cep telefonları ile video kaydı yapılabilir hale gelmiştir. Video kameralar hayatımızın her anını görüntülemektedir ve video kütüphaneleri bu görüntüleri anlamlandırmaya çalışmaktadır. Bu görüntülerden yüz görüntüleri gibi anlamlı veriler çıkarmak için arama motorları geliştirilmektedir. Video görüntülerinden yüz tanıma uygulamaları sadece eğlence, eğitim veya güvenlik amaçlı değildir. Örneğin, adli kimlik tanımlama için kimi zaman yüzlerce saatlik video görüntülerinin incelenmesi gerekmektedir. Buna örnek olarak, kayıp bir insanın bulunması ve son konumunun tespit edilmesi için düşük çözünürlüklü trafik veya güvenlik kameralarından elde edilmiş video görüntülerinin alanında uzman kişiler tarafından incelenmesi zorunludur. Böyle durumlarda görüntü kalitesinin düşük olması bu görüntülerin yüz tanıma için kullanılamayacağı anlamına gelemez. Bu görüntülerin çeşitli görüntü iyileştirme algoritmaları ile iyileştirilmesi de yüz tanıma problemindeki başarımı yeteri kadar arttıramamaktadır. Bu tez çalışmasında, düşük çözünürlüklü görüntülerden yüz tanıma problemi için Yerel Zernike Momentlerini (YZM) kullanan bir yöntem önerilmiştir. Genel Zernike Momentleri, tüm görüntü için moment değerleri üretirken, YZM ile görüntüde bulunan her bir piksel için moment değerleri hesaplanmaktadır. YZM ile yüz tanımada önemli başarı elde edildiği görülmüştür. YZM’nin bu başarısını düşük çözünürlüklü ve bulanık yüz görüntülerinde arttırmak için Ölçek Bağımsız Öznitelik Dönüşümü (ÖBÖD) (ing. Scale-Invariant Feature Transform) algoritmasındakine benzer bir ölçek uzayı algoritması kullanılmıştır. Önerilen bu yöntem ile YZM’nin düşük çözünürlüklü yüz görüntülerindeki başarımı öncelikle Yüz Tanıma Teknolojisi (YTT) (ing. The Facial Recognition Technology) yüz veritabanı üzerinde test edilmiştir. Ölçek uzayları ile yapılan testler ve elde edilen test sonuçlarına göre bir yüz tanıma yapısı oluşturulmuştur. Bu yapı önerilen yöntemin gerçek hayat uygulamalarında başarımını görmek için geliştirilmiştir. Bu amaçla, giriş görüntüsü üzerinde yüz ve göz tespiti için bir nesne tespit algoritması olan Haar-benzeri öznitelikleri tabanlı kademeli sınıflandırıcılar kullanılmıştır. Tespit edilen yüz görüntüsü ve tespit edilen göz bebeği konum bilgileri kullanarak sırasıyla yüz görüntüsü ilgin dönüşüm (ing. affine transformation) ile gözler hizalanmış, görüntü kırpılmış, elipse şeklinde bir maske ile maskelenmiş ve sıfır ortalama-birim varyansa sahip olacak şekilde düzgelenmiştir. Düzgelenen yüz görüntüsünün ölçek uzayı oluşturularak eğitim kümesinde yer alan görüntü ölçek uzayları arasında k-En Yakın Komşular (k-EYK) (ing. k-Nearest Neighbors) sınıflandırma algoritması ve çeşitli kaynaştırma yöntemleri ile yüz tanıma gerçeklenmiştir ve bu önerilen yapının gerçek hayat uygulamalarında umut verici olduğu görülmüştür.
Widespread utilization along with the increasing capacity and processor speeds of the multimedia systems lead to increase in application areas and development of face recognition algorithms. By this way, information extracted from video images obtained by streaming is started to be used instead of a single image for face recognition. Today we encounter video cameras in every moment of our lives. For example, video cameras at the security control entrance of airports are used for security purposes and mobile phones have the capability of video recording. In summary, video cameras are recording every moment of our lives and video libraries are trying to parse these recordings. To extract meaningful images from these recorded images, search engines are being developed. Face recognition from video images is not just for fun, education or security purposes. For instance, forensic identification requires investigation of long videos with a length of hundreds of hours. Experts investigate many videos coming from low resolution traffic and security cameras to detect the last position of the lost people and find them. In such emergency situations images with low quality does not mean that they cannot be used for face recognition. Unfortunately enhancing of these images via image enhancement algorithms cannot increase the performance in face recognition problem. In recent years, a great deal of methods for face recognition in general scenes have been proposed. Although the proposed methods can recognize faces at high precision and high speed, faces in real images such as the ones from the security and surveillance systems are not always sufficiently clear. Therefore, the face recognition methods must succeed in low resolution, blurriness, variation of poses, illumination conditions and partial occlusions. Most of the existing methods, try to solve the low-resolution face problem by generating a space representation between low and high resolution face images by considering pose and illumination variations. The other group of methods are based on super resolution algorithm. However these methods have performance problems in real world applications. In this thesis, we propose a method that uses Local Zernike Moments and Gauss-difference of Gauss scale space for face recognition in low-resolution images in which the robustness of Local Zernike Moments against low resolution and blurred face images is increased. The performance of Local Zernike Moments in low-resolution face images is examined on The Facial Recognition Technology database. Then a face recognition framework is designed according to these test results. Zernike moments are based on the calculation of the complex moment coefficients and are successful in character recognition of images that contain distinctive shape information like characters. However these holistic moments were seen inadequate for the face images and for this reason a novel face representation method called Local Zernike Moments was proposed and is shown to be successful in face recognition. The Local Zernike Moments method localizes the calculation of the moments around for each pixel. As a result, a complex moment image is estimated for each moment component. Final feature vector is obtained by concatenating the extracted phase-magnitude histograms at each sub region that is formed by dividing each moment image to non-overlapping sub regions. Local shape variations in the low resolution face images are very important for face recognition. For this reason, Local Zernike Moments are used as local phase-magnitude histograms. The purpose of using Local Zernike transformation in face images is to stimulate the local shape characteristics and to describe the local shape statistics of the transformed images. In order to further increase the success of Local Zernike Moments against low resolution and blurred face images, a scale space representation similar to Scale-Invariant Feature Transform algorithm is used. The Scale space, being different than the Gauss pyramid, is formed by a particular number of images per level. Each level has a group of images that are formed step by step with convolution by increasing σ value of the Gaussian filter at each step and then the last image is down-sampled. this study, k-Nearest Neighbor algorithm is used as the classification algorithm. k-Nearest Neighbor classifier, which is the simplest classification algorithm, is based on the calculation of the distance between two samples. The class of the instance is assigned as the majority class of k neighbors. After several trials, NORM L1 value is chosen as the distance metric and k equals 1. The performance of Local Zernike Moments in low-resolution face images is initially tested on The Facial Recognition Technology database. Several tests are conducted with different settings and parameters. All probe sets and gallery images are normalized to have zero mean and unit variance after they are cropped, and their sizes are fixed to 130×150. Then, Gauss and Difference of Gauss scale spaces are calculated. After a set of tests, the scale space parameters are selected as o=4, s=6 and σ=1.6. As a result, by using these parameters, scale spaces that contain 24 images (Id=0-23) with resolutions 130×150, 65×75, 32×37 and 16×18 from each normalized image are generated. Local Zernike Moments feature vectors are calculated for each scale space image with the following parameters; the moment order n=4, the kernel size k=5, the grid size N=10 and the number of histogram bins b=24. The length of the feature vector with these parameters is 26064. The three classification settings are examined. The first one matches scale space images of the probe set images with the gallery images that are in different octaves. The second one matches scale space images of the probe set images with scale space images of the gallery images per octave that are in the same octave. The last one matches scale space images of the probe set images with scale space images of the gallery images per octave that are in the different octaves. As a result, Local Zernike Moments gives better results for matching scale space images of the probe set and gallery images that are in the same octave and even gives promising results at descending resolutions compared to the first setting. Then a face recognition framework is designed according to the test results. This framework is developed to observe the performance of the proposed method in real life applications. Haar-like feature based cascade classifier is used to detect face and eyes to test the proposed face recognition framework. Cascade classifier consists of several simpler classifiers applied to a region of interest and evaluated together. First a classifier is trained with the same sized target object images of positive and negative examples. After training, the classifier is applied to the region of interest in an input image and it performs a prediction on the existence of an object in the region of interest. To detect an unknown sized object in an image, the classifier scans across the image at multiple scales and locations. Boosted cascade classifier is based on different boosting techniques. Haar-like features are used to train cascade classifiers. In this study, the detected face image is normalized to have zero mean and unit variance after its size is fixed, it is masked by ellipse and it is cropped. According to the above test results on The Facial Recognition Technology database, the classification part of the low-resolution face recognition framework is formed by fusing results of the octave classifiers. Three methods are developed to assess the test results which classify them according to class id majority, fusing class id majority of octave layers for each classifier or fusing class id of weighted octave layers for each weighted octave classifier. Among these, the best results are achieved with the last method. Results show that the proposed framework is promising for real world applications.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2014
Thesis (M.Sc.) -- İstanbul Technical University, Instıtute of Science and Technology, 2014
Anahtar kelimeler
Yüz Görüntüsü, Görüntü Sınıflandırma, Yüz Tanıma, Face Image, Image Classification, Face Recognition
Alıntı