Yerel görünüm ve derin modeller kullanarak hibrit bir yüz tanıma yaklaşımı

thumbnail.default.alt
Tarih
2023-02-01
Yazarlar
Arı, Mert
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Lisansüstü Eğitim Enstitüsü
Özet
Yüz tanıma, kişinin yüz görüntüsünü kullanarak kimliğini belirleme veya doğrulama işlemidir. Yüz tanıma, biyometri alanında son zamanlarda öne çıkan konulardan biri olmuştur. Özellikle gözetleme sistemleri, bankacılık ve kamu güvenliği gibi birçok alanda yüz tanıma sistemleri yaygın olarak kullanılmaktadır. Yüz tanıma alanındaki son çalışmalar, görünür görüntüler üzerinde oldukça başarılı sonuçlar elde etmiştir. Buna karşılık, özellikle sınır güvenliği gibi askeri amaçlar için görünür görüntülemeye ek olarak kızılötesi görüntüleme tekniğine de ihtiyaç duyulmaktadır. Görünür ve kızılötesi spektrumları elektromanyetik spektrumun farklı frekans bantlarında yer almaktadır. Kızılötesi frekans bandı insan gözü tarafından görülememektedir. Ayrıca, kızılötesi görüntüleme sistemleri, ısı enerjisinin bir ortam boyunca dağılımını algılamaktadır. Bu enerji termal detektörler yardımıyla gözle görülebilir bir görüntüye dönüştürülerek termal görüntüler oluşturulmaktadır. Bu nedenle, görünür ve termal görüntüler farklı özelliklere sahiptir. Bu çalışmada, hem görünür hem de termal görüntüler üzerinde başarılı sonuçlar üretebilecek bir yüz tanıma yaklaşımı araştırılmıştır. Derin evrişimsel sinir ağları birçok görsel görevde başarılı sonuçlara ulaşmıştır. Ayrıca, yüz tanımada da yaygın olarak kullanılmıştır. Bu alanda son zamanlarda yapılan çalışmalar içerisinde farklı özelliklere sahip marj tabanlı kayıp fonksiyonları ön plana çıkmaktadır. Bu kayıp fonksiyonlarındaki ilerlemeler yüzlerin ayırt edilebilirliğini arttırmıştır. Ancak bu ağların yüz tanıma için göz bölgesine odaklandıkları tespit edilmiştir. Bu sorun özellikle üst yüz engelleme durumunda derin evrişimsel sinir ağ modellerinin performansını düşürmüştür. Diğer taraftan, yerel görünüm tabanlı yaklaşımların üst yüz engellemeye karşı daha dayanıklı olduğu birçok çalışmada gösterilmiştir. Ek olarak, dönüştürücülerin görüntülere uygulanmasıyla görüntü dönüştürücü kavramı ortaya çıkmış ve derin evrişimsel sinir ağlarına oranla daha yüksek başarım sağladığı gösterilmiştir. Sonuç olarak, farklı yaklaşımların tek bir yapıda harmanlanmasıyla daha iyi bir yüz tanıma performansına ulaşılabileceği düşünülmüştür. Bu tez çalışması kapsamında, girdi olarak görünür veya termal bir görüntü alan hibrit bir yüz tanıma yaklaşımı önerilmiştir. Yaklaşım, ön işleme, yüz tespiti, yüz hizalama, öznitelik çıkarımı ve sınıflandırma olmak üzere beş aşamadan oluşmaktadır. Yaklaşımın ön aşamasında, tek kanallı termal görüntüler derin modellere girdi olarak verilebilmesi amacıyla kanal çoklama yöntemiyle üç kanala çıkarılmıştır. Kullanılan veri kümeleri özel koşullarda hazırlandığı için görüntüler üzerinde başka bir ön işlem adımına ihtiyaç duyulmamıştır. Yüz tespiti kısmında iki çeşit yüz tespit mimarisi kullanılmıştır. Bu yüz tespit mimarileri, Dlib kütüphanesinde bulunan maksimum marjlı nesne tespiti yaklaşımı ve çok görevli sıralanmış evrişimsel sinir ağı yöntemidir. Maksimum marjlı nesne tespiti, veri kümelerimiz üzerinde daha iyi sonuçlar elde etmiştir. Diğer taraftan, çok görevli sıralanmış evrişimsel sinir ağı, derin yüz tanıma sistemleri için bir standart yüz tespit mimarisi olduğu için tercih edilmiştir. Yüz hizalama adımı, tespit edilen yüz görüntüsü ve göz merkez noktalarını girdi olarak almaktadır. Bu aşamada, yüz görüntüleri üzerinde hiyerarşik bir arama şeması ile göz merkezi kombinasyonları oluşturulmuştur. Son olarak, yeni yüz görüntüleri oluşturulmuş ve bu göz merkez noktalarına göre hizalanmıştır. Bu hizalama adımları, yerel görünüme dayalı yaklaşımdan önce uygulanmıştır. Öznitelik çıkarım adımı üç farklı yaklaşımdan oluşmaktadır. İlki, maksimum marjlı nesne tespiti modelinden elde edilen hizalanmış gri seviyede bir yüz görüntüsünü girdi olarak alan yerel görünüm tabanlı yaklaşımdır. Bu yöntemde, girdi görüntüsü sabit bir çözünürlüğe sahip bloklara bölünmektedir. AKD katsayıları, her blokta AKD işlemi gerçekleştirilerek hesaplanır ve zikzak tarama kullanılarak sıralanmaktadır. Böylece özellik vektörü oluşturulmaktadır. Sonuç olarak, bu yöntem 640 boyutlu bir öznitelik vektörü üretmektedir. İkinci ve üçüncü yaklaşımlarda, derin öğrenme tabanlı modeller, çok görevli sıralanmış evrişimsel sinir ağından elde edilen hizalanmış yüzleri girdi olarak almaktadır. ResNet-50 omurga ağına sahip Arcface modeli, MS1MV2 veri setinde önceden eğitilirken, görüntü dönüştürücü model ise MS-Celeb-1M veri setinde önceden eğitilmiştir. Her iki derin model de çıktı olarak 512 boyutlu bir öznitelik vektörü üretmektedir. Bu derin modeller, doğrudan görünür yüz tanıma için kullanılmaktadır. Ancak bu derin modeller, termal yüz tanıma için ince ayarlanmıştır. Yaklaşımın son kısmı olan sınıflandırmada, girdi görüntüsünden elde edilen öznitelik vektörleri galeri görüntülerinden oluşturulan öznitelik vektörleri ile en yakın komşu tabanlı algoritmalar kullanılarak karşılaştırılmıştır. Elde edilen uzaklık çıktıları katsayılarla ağırlıklandırılarak karar birleştirimi yapılmıştır. Literatürde, yüz tanıma için kullanılan birçok görünür ve termal yüz veri kümesi mevcuttur. Bu çalışma kapsamında EURECOM, Carl ve ROF veri kümeleri kullanılmıştır. EURECOM veri kümesi, 50 farklı kişiden elde edilen görünür ve termal eşleştirilmiş yüz görüntü çiftlerinden oluşmaktadır. Toplamda 2100 adet görüntü içermektedir. Bu veri setindeki görüntüler, değişen yüz ifadesi, aydınlatma koşulu, baş pozisyonu ve yüz engelleme varyasyonlarına sahiptir. Bu tez çalışması kapsamında, EURECOM veri kümesi test ve doğrulama amaçlı kullanılmıştır. Test aşamasında, bu veri kümesi galeri ve sorgu olarak adlandırılan iki alt veri kümesine ayrılmıştır. Görüntü varyasyonları içerisinde yer alan yüz ifadesi varyasyonunda bulunan ifadesiz kalma durumu kişiye ait referans görüntü olarak seçilerek galeri alt veri kümesine eklenmiştir. Geri kalan yüz ifade varyasyonları ve diğer varyasyonlar modelimizin genellenebilirliğini gözlemleyebilmek amacıyla sorgu alt veri kümesine eklenerek değerlendirme aşamasında kullanılmıştır. Ayrıca, EURECOM veri kümesi içerisinde yer alan termal üst yüz engelleme varyasyonundan rastgele seçilen 50 örnek doğrulama aşamasında kullanılmıştır. Carl veri kümesi, 41 farklı kişiye ait görünür, yakın ve uzun dalga kızılötesi yüz görüntüleri içermektedir. Bu veri setindeki görüntüler farklı tarihlerde düzenlenen dört farklı oturum sonucu elde edilmiştir. Her oturumda her bir kişi için üç farklı aydınlatma koşulunda beş farklı anlık görüntü çekilmiştir. Bu çalışmada, Carl veri kümesi içerisinde yer alan sadece uzun dalga kızılötesi, yani termal yüz görüntüleri kullanılmıştır. Bu termal görüntüler, hibrit yaklaşımımızdaki derin öğrenme modellerinin termal alana uyarlanabilmesi için uyguladığımız ince ayar işleminde kullanılmıştır. ROF veri kümesi ise güneş gözlüğü ve maskeler nedeniyle gerçek hayatta oluşan yüzün üst ve alt kısmının engellenme durumuna sahip görüntüleri içermektedir. Bu amaçla veri kümesinde iki farklı protokole yer verilmiştir. İlk protokol üst yüz engelleme durumlarını içeren görüntüleri ele alırken ikinci protokol alt yüz engelleme sorunu için oluşturulmuştur. Bu çalışmada, ROF veri kümesinin 161 farklı kişi içeren ilk protokolü test ve doğrulama amaçlı kullanılmıştır. Test aşamasında, bu veri kümesi galeri ve sorgu olarak adlandırılan iki alt veri kümesine ayrılmıştır. Bu veri kümesinde her bir kişiye ait üç galeri görüntüsü mevcuttur ve bu görüntüler referans olarak seçilerek galeri alt kümesine eklenmiştir. Ayrıca, protokoldeki güneş gözlüğü ile oluşturulan üst yüz engellenme durumundaki görüntülerden bir küme oluşturulmuştur. Bu kümenin içerisinden rastgele seçilen 1000 adet örnek görüntü, doğrulama aşaması için kullanılmıştır. Geri kalan üst yüz engelleme durumuna sahip görüntüler ise yöntemimizin görünür görüntüdeki üst yüz engellenme durumu performansını değerlendirmek için sorgu alt veri kümesine eklenerek test aşamasında kullanılmıştır. Bu tezde incelenen noktalardan biri de derin öğrenme modellerinin termal yüz tanıma performansı olmuştur. Termal yüz tanıma performansını artırmak için, önceden eğitilmiş derin modeller, Carl veri kümesindeki termal görüntülerle ince ayarlanmıştır. Yapılan deneyler sonucunda ince ayarlı modellerin termal alana başarılı bir şekilde uyarlandığı görülmüştür. Önerilen yaklaşımdaki bileşenlerin yüz tanıma sonuçları üzerindeki katkıları araştırılmıştır. Bu bağlamda, yüz hizalamanın yerel görünüme dayalı yüz tanıma yaklaşımı üzerindeki etkisi gözlenmektedir. Yerel görünüm tabanlı yöntem, yüz hizalama uygulandığında hem görünür hem de termal görüntülerde çok daha iyi yüz tanıma sonuçları vermiştir. Farklı hibrit modeller oluşturulmuş ve birbirleri ile karşılaştırılmıştır. Bu amaçla sırasıyla Arcface ve görüntü dönüştürücü modeller öznitelik çıkarım aşamasından çıkarılmıştır. Böylece, iki farklı modele sahip hibrit kombinasyonlar oluşturulmuştur. Deneysel sonuçlara dayanarak, üç farklı modeli içeren hibrit yaklaşımın hem görünür hem de termal görüntüler üzerinde en iyi sonuçları verdiği gözlemlenmiştir. Sonuç olarak, bu üç farklı modelin tek bir yapıda başarıyla birleştirilebileceği kanıtlanmıştır.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Lisansüstü Eğitim Enstitüsü, 2023
Anahtar kelimeler
yüz tanıma, face recognition, yapay sinir ağları, artificial neural networks
Alıntı