Classifier fusion for multimodal correlated classifiers and video annotatione

thumbnail.default.placeholder
Tarih
2014-06-20
Yazarlar
Ekmekci, Ümit
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Instıtute of Science and Technology
Özet
İnternet kullanıcılarının sayısının artması, sosyal iletişim platformu kullanıcılarının artmasına ve böylece her geçen gün internet üzerinde var olan bilgi boyutunun armasına sebep olmaktadır. Ayrıca sosyal platformlardaki yapısal zenginliğin artması, örneğin Facebook'un insanlar arasındaki ilişkileri arkadaşlık bağlantıları sayesinde grafiksel düzeyde, paylaşılan yazılar ve yorumlar sayesinde yazımsal düzeyde ve paylaşılan resimler ve oluşturulan galeriler sayesinde görsel düzeyde araştırmacılara sunması, bu farklı yapıdaki bilgilerin birleştirilebilmesi problemini oldukça önemli bir konu haline getirmektedir. Bu tür veri kümeleri sayesinde, bir sınıflandırma problemini çözmek için değişik veri örnekleri, öznitelik türleri ve sınıflandırma yöntemleri kullanılarak eğitilmiş çok sayıda sınıflandırıcı elde edilebilmektedir. Sınıflandırıcı birleştirme yöntemleri, eldeki sınıflandırıcıları birleştirerek daha iyi başarıma ulaşmayı hedeflemektedir. Sınıflandırıcıların birleştirilmesi geç birleştirme (late fusion) ya da erken birleştirme (early fusion) yöntemleri ile yapılabilir. Daha sık kullanılan geç birleştirme yönteminde birden fazla yerel sınıflandırıcı çıkışı başka bir sınıflandırıcının eğitilmesi ile birleştirilir. Geç birleştirme yönteminin başarılı olması için gerekli olan önemli bir unsur yerel sınıflandırıcı çıkışlarının birbirlerinden mümkün olduğunca ilintisiz olmasıdır. Çünkü yerel sınıflandırıcıların ilintisiz olması birleştirme için kullanılan sınıflandırıcının varyansının azalmasına, dolayısı ile de başarımının artmasına sebep olmaktadır. Yerel sınıflandırıcılar arasındaki ilintisizlik farklı yollardan elde edilebilir. Örneğin aynı hata fonksiyonunu azaltmayı hedefleyen sınıflandırıcılar farklı girişler üzerinde eğitilebilirler. Boosting ve Bagging algoritmaları bu yöntemin en bilinen örneklerindendirler. Bunun haricinde aynı girişler üzerinde farklı amaç fonksiyonuna sahip sınıflandırıcılar ya da farklı mimariye, parametrelere sahip (örneğin farklı sayıda saklı sinir hücresine sahip yapay sinir ağları gibi) sınıflandırıcılar eğitilerek de sınıflandırıcılar arasında ilintisizlik oluşturulabilir. Alpaydın ve Ulaş tarafından 2012 yılında önerilen, aynı zamanda bu tezin ilk kısmının temelini oluşturan, Eigenclassifiers (Özsınıflandırıcılar) yöntemi yerel sınıflandırıcı çıkışları arasındaki ilintisizliği doğrusal bir dönüşüm olan \textit{Temel Bileşenler Analizi} (PCA: Principal Component Analysis) dönüşümünü kullanarak gerçekleştirmeyi amaçlamaktadır. Fakat bu dönüşüm kullanılırken çoklu etikete sahip problemlerde, etiketler arasındaki ilişkiler ele alınmadığı için dönüşüm sonucu oluşan özellik yöneyleri tam olarak doğrusal ilintisiz olmamaktadır. Bu durum özellik yöneylerinde fazladan ve gereksiz verinin oluşmasına ve varyansın artmasına, dolayısı ile performansın düşmesine sebep olmaktadır. Bu tez çalışmasının ilk kısmında Eigenclassifiers yöntemi çok sınıflı sınıflandırma problemleri için genişletilerek dönüşüm sonucu elde edilen özellik uzayı doğrusal olarak tam ilintisiz hale getirilmiştir. Bu sayede, sınıflandırıcı çıkışlarını birleştiren sınıflandırıcı varyansı düşürülerek performans artırılmıştır. Çok sınıflı sınıflandırma problemlerinde eğer bir sınıfta gözlemlenen örnek sayısı diğer sınıflardakilerden çok fazla ise, hata fonksiyonunu azaltmayı hedefleyen sınıflandırıcılar bütün örnekleri o sınıfa atayabilmektedir. Bu dengesiz örnek-etiket dağılımı problemi Eigenclassifiers yönteminin yerel sınıflandırıcı çıkışlarının çok modlu Gauss dağılımı izlediği varsayılarak tezde çözümlenmiştir. Verilen bir veri kümesi için hangi sınıflandırıcı birleştirme yönteminin daha uygun olduğu önemli bir sorudur. Bu soruya cevap bulabilmek için, tezde, dokuz farklı sınıflandırıcı birleştirme yönteminin, 38 farklı veri kümesi üzerindeki performansları hesaplanarak, deneyimsel bir veri kümesi oluşturulmuştur. Sınıflandırıcı birleştirme yöntemleri olarak Ortalama, Eigenclassifiers, Extended Multimodal Eigenclassfiers, Dropout, Support Vector Machines (doğrusal ve doğrusal olmayan çekirdekli), Eigen Support Vector Machines, Kernelized Eigenclassifiers ve Kernelized Extended Multimodal Eigenclassifiers kullanılmıştır. Oluşturulan veri kümesi üzerinde Dropout yönteminin en iyi performansı verdiği görülmüştür. Genişletilmiş Eigenclassifiers yöntemi Eigenclassifiers yöntemine göre daha iyi performans göstermiş, çekirdekleştirilmiş yöntemler ise Dropout'tan sonra en iyi sonuçları vermiştir. Oluşturulan veri kümesi üzerinde sınıflandırıcı birleştirme yöntemlerinin doğruluk-ilintisizlikleri, 2001 yılında Kuncheva ve Whitaker tarafından önerilen sınıflandırıcı ilintililik ölçütleri (Q statistics, correlation coefficient $\rho $, disagreement measure, double-fault measure ve entropy) kullanılarak karşılaştırılmıştır. Ayrıca, tezde bilindiği kadarı ile ilk olarak, ortalama özdeğerler dağılımı kullanılarak da doğruluk-ilintisizlik yorumu yapılmıştır. Bir karar ağacı yardımı ile hangi sınıflandırıcı birleştirme yönteminin uygun olduğuna dair kurallar çıkarılmıştır. Elde edilen ilk sonuçlara göre Destek Vektör Makineleri tabanlı sınıflandırıcı birleştirme yöntemleri doğrusal ilintisi az olan veri kümeleri üzerinde ön plana çıkarken test edilen diğer sınıflandırıcı birleştirme yöntemleri doğrusal ilintisi daha fazla olan veri kümeleri üzerinde ön plana çıkmaktadır. Karar ağacı tarafından çıkarılan kurallara göre en önemli ayırt edici özelliklerin elde edilen özdeğerler ve disagreement measure olduğu görülmektedir. Tezin ikinci kısmında, video işaretleme (video annotation) için sınıflandırıcı birleştirme yöntemleri kullanılmıştır. Bu kısımda bir Chistera projesi olan, \textit{Collaborative Annotation of multi-modal, multi-lingual and multi-media documents}, CAMOMILE kapsamında çalışmalar yapılmıştır. CAMOMILE projesi üzerinde dört ülkeden altı araştırma grubu çalışmaktadır. Projenin amacı televizyon programlarında kimlerin konuştuğunu ya da kimlerin gözüktüğünü, farklı bilgi kaynaklarını birleştirerek bulmaktır. Projedeki başlıca bilgi kaynakları görüntü, ses ve altyazılardır. Projede kullanılan REPERE veri kümesi iki farklı Fransız kanalından, \textit{BFM TV, LCP}, yedi farklı televizyon programından 30 saat kayıt edilmiş 188 videodan oluşmaktadır. Bu veri kümesi 24 saati eğitim, üç saati geliştirme ve üç saati test olmak üzere üç parçaya ayrılmıştır. Tezde, ses bilgisi ve altyazı bilgisi birleştirilerek hem gözetimsiz (unsupervised) hem de gözetimli (supervised) olarak o anda kimin konuştuğu bulunmaya çalışılmıştır. Ses bilgisi olarak, Camomile proje katılımcısı Claude Barras'ın (LIMSI) ekibi tarafından geliştirilen ve projedeki araştırmacılara sunulan konuşmacıların kümelenmiş fakat etiketlenmemiş (speaker diarization) halleri kullanılmıştır. Altyazı bilgisi olarak ise proje katılımcısı Georges Quénot (LIG-CNRS) tarafından elde edilen, televizyon programlarının ekranın alt kısmında gösterdikleri, konuşmacıların isimlerini içeren yazıların işlenmesi ile elde edilen konuşmacıların isimleri kullanılmıştır. Böylelikle, video işaretlemede ses ve yazı kullanılarak sınıflandırıcı birleştirmede, elde edilen bölütlenmiş fakat etiketlenmemiş konuşmacı kümeleri ve konuşmacılara ait etiketlerin çıkarıldığı altyazı bilgisi bulunmaktadır. Yöntemler geliştirilirken, özellikle, önceki çalışmalarda başarı göstermiş olan yayılım ve grafik eşleştirme tabanlı algoritmalar üzerinde durulmuştur. Gözetimsiz olarak Bredin tarafından önerilen \textit{term-frequency, inverse document-frequency (TF-IDF)} tabanlı yayılım algoritması kullanılmıştır. Gözetimli yöntemler tasarlanırken konuşmacı tanıma üzerine çıkış üreten 3 farklı sınıflandırıcının çıkışları kullanılmıştır. Bu çıkışlar özellikle yayılım tabanlı benzerlik grafiği oluşturulurken, düğümler arasındaki benzerliğin hesaplanması aşamasında kullanılmıştır. Özellikle yanlış tahmin edilen örneklerin sayısını azaltarak katkı sağlayan bir diğer yöntem ise kendi aralarında aynı konu hakkında konuşan kişilerin bir araya gruplanması ve bu grupların zaman aralıklarına denk gelen altyazılardan isimlerinin çıkartılarak, gruplar için aday isim listelerinin çıkarılmasıdır. Tezde 2014 yılında yayımlanan REPERE test kümesi üzerinde sonuçlar hesaplanmıştır. Elde edilen sonuçlara göre farklı bilgi kaynaklarının birleştirilmesi tek bilgi kaynağı kullanımına göre performansta \%13 lük bir artış sağlamıştır. Bunun yanında tezde elde edilen sonuçlar projenin Fransız ortakları tarafından elde edilen sonuçlarla da karşılaştırılmıştır.
Classifier fusion has become one of the key challenges in machine learning due to the increase in size and structural richness of available data. Thanks to the advances in computing power, we are also able to train many different classifiers; instead of using a single one of them we try to combine them hoping to get better performance. Classifier fusion benefits from classifiers as accurate and as independent as possible. How to generate independent local or base classifiers is a critical question. Adaboost Algorithm of Freund and Schapire (1994) and Bagging Algorithm of Breiman and Leo (1996) aim to create independent base classifiers by using different subsets of inputs generated through sampling for each classifier. Another method, which is used in this thesis, is the Eigenclassifiers approach, proposed by Alpaydın and Ulas in 2012. Eigenclassifiers method aims to create uncorrelated base classifier outputs by mapping to an uncorrelated space. However, for multiclass classification problems, since there are redundant features in the Eigenclassifier transformed classifier output space, they have correlations between them and this causes higher estimator variance and lower prediction accuracy. In this thesis, we extend Eigenclassifiers method to obtain truly uncorrelated base classifiers. We also generalize the distribution on base classifier outputs from unimodal to multimodal, which lets us handle the class imbalance problem. There are many different classifier fusion methods, and the question of which one to use for a given dataset needs to be answered. In this thesis, we try to answer this question also. We generate a dataset by calculating the performances of nine different fusion methods on 38 different datasets provided by Ulas et. al in 2009. We investigate accuracy-diversity relationship of ensembles on this experimental dataset by using eigenvalue distributions and diversity metrics given by Kuncheva and Whitaker in 2001. We obtain basic rules which can be used to decide on a fusion method given a dataset. In the second part of the thesis we use classifier fusion for video annotation. We develop a supervised method to combine audio and text information. The proposed method increases the accuracy by about 13 percent over the unimodal methods. This part of the thesis was done as part of a collaborative European Union project called Camomile that brings together researchers from four countries and six institutions together.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2014
Thesis (M.Sc.) -- İstanbul Technical University, Instıtute of Science and Technology, 2014
Anahtar kelimeler
Sınıflandırıcı Birleştirme, Özsınıflandırıcılar, Classifier Fusion, Eigenclassifiers
Alıntı