Kararlı Ve Başarımı Yüksek Öznitelik Seçimi

thumbnail.default.alt
Tarih
2009-06-19
Yazarlar
Gülgezen, Gökhan
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Bu çalışmada, öncelikle MRMR (Minimum Redundancy Maximum Relevance) ve FCBF (Fast Correlation-Based Filter) öznitelik seçme algoritmaları tanıtılarak başarım yönünden karşılaştırılmaları yapılmıştır. Ardından iki öznitelik kümesi arasındaki kararlılık değerini ölçen yeni bir kararlılık ölçütü ortaya konulmuştur. MRMR algoritmasının kullandığı iki seçim kriteri olan MID (Mutual Information Difference) ve MIQ (Mutual Information Quotinent) yöntemleri hem başarım hem de kararlılık yönünden karşılaştırılmıştır. Bu iki metodun başarım yönünden yakın sonuçlar verdiği görülmüştür. Diğer taraftan özellikle küçük veri kümeleri için MID yöntemi MIQ yöntemine göre daha kararlı öznitelik kümeleri ile sonuçlanmıştır. MID yönteminin neden daha kararlı bir öznitelik seçim kriteri olduğu teorik olarak ortaya konulmaya çalışılmış ve bu sav deneysel olarak desteklenmiştir. Ayrıca eğitim veri kümelerinin örnek sayısını azaltarak öznitelik seçme algoritmalarının kararlılığını ve başarımını ölçen bir deneysel metodoloji modeli sunulmuştur. MRMR algoritması için, özniteliklerin sınıf etiketleri ile ilişkisinin ve öznitelik artıklığının öznitelik seçimindeki etkisini bir parametre yardımıyla kontrol eden yeni bir seçim kriteri, ortaya konularak değişik parametre değerleri için farklı veri kümelerinde yeni seçim kriterinin kararlılık ve başarım değerleri gözlenmiştir. Yeni seçim kriteri ile öznitelik seçiminde kararlılığın kontrol edilebileceği deneysel olarak gösterilmiştir.
In this study, firstly MRMR (Minimum Redundancy Maximum Relevance) and FCBF (Fast Correlation-Based Filter) feature selection algorithms are presented and compared to each other according to accuracy. Afterwards a new stability measure that can measure the stability between two sets of features is introduced. The two feature evaluation methods within MRMR, MID (Mutual Information Difference) and MIQ (Mutual Information Quotinent) are compared both in stability and accuracy. These two methods result in features with similar accuracy. On the other hand, especially for small data sets, MID results in more stable feature sets than MIQ. Theoretical explanation for why MID is a better cirteria for small sample size is given and it is supported with experimental test results. A new experimental model is also introduced in order to measure the accuracy and the stability of a feature selection algoritm for the case of a reduction of training samples. A new feature selection criterion where redundancy and relevance of selected features are controlled by parameter is presented and using the predefined model, its accuracy and stability values are obtained for different parameter values for various datasets. It is empirically shown that stability of feature selection can be controlled using new criterion.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2009
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2009
Anahtar kelimeler
öznitelik seçimi, kararlılık, mrmr algoritması, fcbf algoritması, feature selection, stability, mrmr algorithm, fcbf algorithm
Alıntı