Otomatik Karikatür Tanıma

thumbnail.default.alt
Tarih
2015-06-30
Yazarlar
Abacı, Bahri
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Karikatür, kişilerin baskın özelliklerinin vurgulanıp, yaygın özelliklerinin bastırılması yoluyla oluşturulmuş komik çizimlerdir. Bu çizimlerin en şaşırtıcı yanı, genellikle birkaç çizgiden oluşmalarına rağmen, çoğu zaman fotoğraflardan daha kolay tanınmalarıdır. Bunun temel nedeni, karikatür çiziminde kullanılan vurgulama ve bastırma tekniklerinin, insan beyninin çalışması ile paralellik göstermesidir. Yapılan psikolojik çalışmalar insan beyninin kişileri ortalama bir yüzden sapmasını kodlayarak sakladığını göstermiştir. Karikatürlerde kişilerin ortalama bir yüzden sapmalarının abartılması yoluyla oluştuğundan bu çizimlerin fotoğraf ve çizimlere kıyasla daha kolay tanındığı düşünülmektedir. İnsanlar için durum böyle iken bilgisayarlar için durum tersidir. Karikatürlerin sanatçının karakteristiğine bağlı çok farklı çeşitlerde çizilebilmesi ve şekillerin genel bir ölçü kısıtının olmaması (göz ağızdan büyük olabilir, burun ağızdan aşağıda yer alabilir,vs.) klasik model tabanlı yaklaşımların bu imgeler üzerinde çalışmayacağını göstermektedir. Literatürde şu ana kadar yapılan çalışmalar, bu veriler üzerindeki kısıtlar göz önüne alındığında genellikle üst seviye öznitelik (cinsiyet, saç rengi,vs.) çıkarımını önermektedir. Bu özniteliklerin doğru bir şekilde çıkarılması ile iki uzam arasındaki boşluk ve farklar en aza indirilebilmektedir. Bu çalışmada karikatüristlerin insan yüzü çizimlerinde kullandığı temel teknik kurallar kullanılarak karikatür tanımaya yönelik bir yöntem sunulmuştur. Bu doğrultuda karikatür ve fotoğraflar arasında tutarlılıkları yüksek 32 öznitelik (cinsiyet, yüz şekli, saç rengi, burun-ağız arası mesafe, vs.) belirlenmiş ve bu özniteliklerin çakıştırılması hedeflenmiştir. Karikatür ve fotoğraflar arası geçişi daha nesnel bir hale getirmek için belirlenen öznitelikler göreceli sınıflara (büyük-normal-küçük gibi) ayrılmıştır. Böylece abartmanın boyutundan bağımsız olarak her iki grup içinde aynı özniteliklerin bulunabileceği varsayılmıştır. Önerilen öznitelik tabanlı yöntemin başarısını test etmek amacıyla 270 karikatür-fotoğraf çiftinden oluşan yeni bir veri tabanı oluşturulmuştur. Veri tabanı 640x480 boyutuna ölçeklendirilmiş siyah beyaz karikatürler ve renkli fotoğraf karşılıklarından oluşmaktadır. Oluşturulan veri tabanı bugüne kadar oluşturulan en büyük karikatür veri tabanı olma özelliğini taşımakta ve diğer algoritmaların test edilmesi amacıyla kullanıcıların açık erişimine sunulmaktadır.  Çalışmada 540 imgelik veritabanında belirlenen 32 öznitelik üç kişi tarafından oylanarak deneylerde kullanılmak üzere saklanmıştır. Tezde veritabanına ek olarak oylanan özniteliklerin sonuçları ve iki uzam arası ilişkileri de incelenmiştir. Yapılan incelemelerde önerilen öznitelik tabanlı yaklaşımın iki uzam arasında kullanılacak güçte bir öznitelik olduğu görülmüş ve bu özniteliklerin fotoğraflar üzerinden otomatik çıkarımına ilişkin yöntemler geliştirilmiştir. Önerilen yöntem ilkin verilen imgede yüz bölgesini ve gözbebeklerini bulmakta, ardından aktif şekil modelleri ile 76 yüz nirengi noktalarını belirlemektedir. Bu noktaların belirlenmesinin ardından, noktalar normalize edilerek geometrik öznitelikler (ağız-burun arası mesafe, çene uzunluğu, burun genişliği,vs.), noktalar etrafından kesilen imge parçalarının incelenmesi ile de doku tabanlı öznitelikler (cinsiyet, saç rengi, sakal,vs.) bulunmuştur. Herbir özniteliğin öğrenilmesi için imgeler öznitelik çıkarma işleminden geçirilerek (cinsiyet için yerel ikili örüntüler yöntemi, sakal için yansı imge yöntemi,vs.) bayesçi kestiriciler, destek vektör makinaları ve en yakın komşu sınıflandırıcı gibi öğrenme algoritmaları kullanılmıştır.  Geometrik özniteliklerin çıkarımı eğitim sayısının az olması nedeniyle yüksek seviyeli öznitelikler çıkarılarak yapılmıştır. Örneğin burun hacmi özniteliği için önce yüz ve göz bölgeleri tespit edilmiş ardından yüz nirengi noktaları bulunmuştur. Bu nirengi noktalarından burun etrafındaki yedi nokta kullanılarak burunu çevreleyen çokgen bulunmuş ve bu çokgenin alanı hesaplanmıştır. Hesaplanan alan eğitim verisi üzerinde hesaplanan dağılıma uyuyorsa normal, altında ise küçük, üstünde ise büyük kararları verilmiştir.  Doku tabanlı özniteliklerde ise klasik örüntü tanıma yöntemleri uygulanmıştır. Örneğin, cinsiyet bilgisinin çıkarılması için verilen görüntüde önce yüz bölgesi tespit edilmiş ardından göz bebeği ve yüz nirengi noktaları tespit edilmiştir. Nirengi noktaları kullanılarak yüz bölgesi 128x128 boyutlarına kesilmiş ve yerel ikili örüntüler kullanılarak öznitelik çıkarımı yapılmıştır. Çıkarılan öznitelikler destek vektör makinaları ile sınıflandırılmış ve cinsiyet özniteliğine ait sınıflandırıcı fonksiyon elde edilmiştir. Benzer şekilde, saç renginin bulunması içinse öncelikle iki katmanlı Bayesçi bir sınıflandırıcı kullanılarak saç bölgesi bölütlenmiş, ardından bu bölgenin altında kalan renk ve doku özellikleri kullanılarak saç ile ilgili öznitelikler çıkarılmıştır. Tezde önerilen 32 öznitelikten 23 ünün fotoğraflar üzerinden otomatik çıkarımı yapılmış ve yöntemlerin çalışması detaylı şekilde anlatılmıştır. Uzamlar arası geçişte özniteliklerin etkilerini gözlemlemek amacıyla genetik algoritmalar ve lojistik bağlanım kullanarak, saptanan özniteliklerin önemini hesaplayan bir yöntem geliştirilmiştir. Geliştirilen yöntem ile iki uzam arası en tutarlı ve ayırt edici özniteliklerin (cinsiyet, gözlük, saç rengi, vs.) yüksek öneme sahip, tutarsız veya ayırt ediciliği düşük öznitelikler (badem göz, burun genişliği,vs.) düşük öneme sahip olduğu görülmüştür.  Geliştirilen çakıştırma sisteminde sıklıkla kullanılan Manhattan uzaklığı ölçütü kullanılmış ve sonuçları sunulmuştur. Özniteliklerin her birinin farklı ağırlıkları, bu uzaklık ölçütüne eklenerek sistemin başarısında yaptığı etki incelenmiştir.  Ayrıca karikatürlerin renksiz olmasından kaynaklı bazı özniteliklerin iki uzam arasında sürekli bir karışma halinde olduğu görülmüştür. Örneğin saç rengi karikatürlerde görünür bir öznitelik olmadığından özellikle sarı saç rengi olan karikatürler siyah saçlı olarak işaretlenmiştir. Tezde bu tip sorunları da çözmek üzere farklı bir uzaklık ölçme yöntemi önerilmiştir. Sonuç olarak çalışmada 270 karikatür-fotoğraf çiftinden oluşan yeni bir veritabanı ve bu karikatürlerin tanınmasında kullanılabilecek 32 öznitelik önerilmiştir. Çalışmada bu özniteliklerin önemi irdelenmiş ve önemli olan özniteliklerin fotoğraflardan otomatik çıkarımına ilişkin yöntemler geliştirilmiştir. Geliştirilen sistem ile çizilen bir karikatürün veri tabanındaki fotoğraflar içerisinde aranması ve karikatüre en benzer fotoğrafların bulunması sağlanmıştır.
A caricature is an image of an individual's face drawn by using some over-emphasized characteristic features and simplifying common or usual features of the subject. What makes these drawings important is the over-reaction of face-recognizing neurons of human brain. This specificity of the brain makes human beings more sensitive and better recognizer of caricatures than the classical facial sketches or images. The recognition capability of our brain stems from the similarity between the encoding style of brain and creation of caricatures. Human brain subconsciously encodes each new face based on its deviation from an average face. Keeping in mind that these derivations are also noticed and exaggerated by the artist, the process of encoding (learning) and decoding (recognizing) a facial image is then easier for human beings. However, for computers the problem might be harder. Detecting caricatures as faces and recognizing them by using appearance based features (Principal component analysis, Local binary patterns) are tough problems because of the facial attributes that are not realistic and the exaggeration rates which differ from artist to artist. In this thesis, a publicly available, large scale  caricature-photograph database (with a total of 270 pairs) which is useful for evaluating face detection or face recognition algorithms is presented. Moreover, a method inspired by the creation phase of the caricatures is proposed to recognize caricatures. Since caricatures are drawn using the deviations of facial attributes from a norm, the same methodology could be used to create representative feature vectors for caricatures and faces. The proposed feature vector consists of K=32 different geometric (nose-to-eye distance, nose volume, etc.) and appearance (hair color, beard density, etc.) based facial attributes. Each feature also has its own intensity scale (short-normal-long, small-normal-big, etc.) inside to understand the direction of the deviation.  Moreover, we present an approach for each of these attributes to automatically extract them from the photograph images. We use some recent pattern recognition algorithms and create a novel extraction approach for most of the attributes from small number of samples. To match the extracted features two different methods, namely, genetic algorithms and logistic regression are proposed. We learn the cross domain relations between caricature-photograph pairs using 70 pairs for training and discuss the results. Furthermore, we measure the importance of each attribute via a genetic algorithm and develop a recognition system which uses these weights. We show that the proposed attribute based recognition method reduces the cross domain gaps between the caricature and photopairs which makes the system useful to match caricature to a photograph with a reasonable false positive rates.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2015
Thesis (M.Sc.) -- İstanbul Technical University, Instıtute of Science and Technology, 2015
Anahtar kelimeler
Karikatür Tanıma, Yüz Tanıma, Makina Öğrenmesi, Genetik Algoritmalar, Caricature Recognition, Face Recognition, Machine Learning, Genetic Algorithms
Alıntı