Yönlü Bağlantılar, Öznitelik Zenginleştirme Ve Sınıflandırıcı Birleştirme Ile Kolektif Sınıflandırma Başarımının İyileştirilmesi

thumbnail.default.alt
Tarih
2014-05-29
Yazarlar
Sönmez, Abdullah
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Bu çalışmada, ağ bilgisi olan veri kümelerinde sınıflandırma başarımının arttırılması amacıyla bir dizi çalışma gerçekleştirilmiştir. Öncelikle çizge özellikleri ve çizge özellikleri arasındaki ilişkiler irdelenmiştir. Bu kapsamda literatürde yer alan çizge özelliklerine ek olarak, eğitim kümesindeki komşuların ortalama homofilisi ve başarımı gibi yeni çizge özellikleri de kullanılmıştır. Çizge özelliklerinin birbirleri ile ilişkileri görselleştirilmiş ve aralarındaki korelasyonlar hesaplanmıştır. Sonrasında içerik ve bağlantılar için ayrı sınıflandırıcıların eğitilmesi ve genetik algoritma tabanlı bir seçme algoritması ile bu heterojen sınıflandırıcıların birleştirilmesine yönelik yeni bir algoritma tanıtılmıştır. Tanıtılan bu yeni yöntem ile kullanılan bütün veri kümelerinde en iyi baz sınıflandırıcının başarımından daha yüksek başarım elde edilmiştir. Bundan sonra kolektif sınıflandırmada yön bilgisinin kullanılmasının sınıflandırıcı başarımı üzerine etkisi araştırılmıştır. Yön bilgisinin kullanılması ile özellikle ilişkisel sınıflandırıcının başarımında ciddi bir artış kaydedilmiştir, ayrıca kolektif sınıflandırma başarımında da bir miktar artış görülmüştür. Ardından kolektif sınıflandırma için farklı nitelik zenginleştirme ve seçme yöntemleri araştırılmıştır. Zenginleştirilmiş niteliklerle gerçekleştirilen sınıflandırmada elde edilen başarımın, orijinal özniteliklerle gerçekleştirilen içerik sınıflandırma ve kolektif sınıflandırma ile elde edilen başarımdan çok daha yüksek olduğu gösterilmiştir. Son olarak da sınıf homofilileri heterojen, çoklu sınıflı veri kümeleri üzerinde bire-karşı-hepsi metodunun kolektif sınıflandırmada kullanılabilmesi için yeni bir algoritma tanıtılmıştır. Bire-karşı-hepsi sınıflandırma ile elde edilen sonuçların hem içerik sınıflandırıcısında hem de kolektif sınıflandırmada elde edilen sonuçlardan daha iyi olduğu gösterilmiştir.
In this study, with the purpose of improving test classification accuracy, a number of different directions for collective classification are investigated. First of all, graph properties and their correlations are investigated. Not only the graph properties existing in the literature are used, but also some new graph properties such the average homophily and classifier accuracy on the training set neighbors of a node. Visualization of these properties with respect to each other and correlations between graph properties are presented. Next, a new method for training separate classifiers for content and link views and combining these heterogeneous classifiers with a genetic algorithm based selection algorithm, is introduced. The experiments on the datasets used show that the proposed method outperforms best of the base classifiers. Next, the effect of using link direction information on collective classification performance is explored. It has been shown that by using directed graphs, significant performance increase is obtained when link only classifier is used. This useful information also results in better accuracies for collective classification. Different feature enrichment and selection methods for collective classification are also investigated. Experimental results on three different network datasets show that classification accuracies obtained using network enriched and selected features are comparable or better than content only or collective classification. At last, a new algorithm for utilization of one against all collective classification for multi-class datasets with heterogeneous class homophilies is introduced. Experimental results show that one-against-all content only and collective classification is better than single classifier content only and collective classification.
Açıklama
Tez (Doktora) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2014
Thesis (PhD) -- İstanbul Technical University, Institute of Science and Technology, 2014
Anahtar kelimeler
Çizge özellikleri, Kolektif sınıflandırma, İlişkisel sınıflandırma, Heterojen sınıflandırıcı birleştirme, Yönlü kolektif sınıflandırma, Öznitelik zenginleştirme, Bire-karşı-hepsi kolektif sınıflandırma., Graph properties, Collective classification, Relational classification, Heterogeneous classifier combination, Directed collective classification, Feature Enrichment, One-against-all collective classification.
Alıntı